学习 # 论文 # 生成式网络 # 文字风格迁移

Paper-整理下这段时间看的论文

论文阅读。2023-03-13 18:46:00

前言

在开学后经历的一阵迷茫后感觉还是要看论文啊...就算看不太懂也要看...目前想做的还是跟师兄差不多的自然场景文字编辑的方向。也不知道我这个菜鸡啥时候才能开始实验 orz

正文

ImageNet classification with deep convolutional neural networks

全文

(PDF) Deep Sparse Rectifier Neural Networks (researchgate.net)

视频

第一遍读：9 年后重读深度学习奠基作之一：AlexNet【论文精读·2】_哔哩哔哩_bilibili
第二遍读：AlexNet 论文逐段精读【论文精读】_哔哩哔哩_bilibili

看了看李沐老师的带读论文，先看摘要，再看简介和结论，看看这篇论文是否对你真的有用。觉得有意义后接着往下读。太老的论文可以不用看，比如这篇论文，Alexnet，算是深度学习的鼻祖，但是从现在看来还是有很多局限性。

内容

引入了新的激活函数 ReLU，引入后比起当时流行的 $\tanh()$ 训练时收敛更快
使用了两个 GPU 分开进行卷积操作
对输入的数据进行 Local Response Normalization，局部响应归一化
引入 Pooling layer，池化操作
对于降低过拟合：
- Data Augmentation 数据增强，对数据进行一些预处理，如把一些图片人工地变大等，这样数据量就更大变化就更多了
- Dropout 层，50% 概率把隐藏层的输出值变成 0
使用 SGD 进行优化

代码

7.1. 深度卷积神经网络（AlexNet）— 动手学深度学习 2.0.0 documentation (d2l.ai)

Deep Residual Learning for Image Recognition

全文

[1512.03385] Deep Residual Learning for Image Recognition (arxiv.org)

视频

撑起计算机视觉半边天的 ResNet【论文精读】_哔哩哔哩_bilibili

内容

提出了 CNN 难以训练的问题，将 CNN 的主干部分换成 ResNet 以降低训练难度，用在 Image Recognition 问题上。

png

就是把前几层的输出放到后面几层的输入中进去？

在损失函数很难下降后，加入残差网络效果明显。

代码

7.6. 残差网络（ResNet）— 动手学深度学习 2.0.0 documentation (d2l.ai)

Attention Is All You Need

全文

[1706.03762v5] Attention Is All You Need (arxiv.org)

视频

Transformer 论文逐段精读【论文精读】_哔哩哔哩_bilibili

内容

将 Transformer 用在机器翻译上，得到了良好的效果
Transformer 比起 CNN 和 RNN 的优势：
- RNN 难以并行，训练速度慢
- CNN 难以对间隔较长的序列产生计算

png

Transformer 的结构图，一个 Encoder 一个 Decoder

注意力函数是将 query 和 key-value 映射成输出的函数，输出是 qkv 的加权和。

$\mathrm{Attention}(Q,K,V)=\mathrm{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$

引入了多头注意力机制

代码

10.7. Transformer — 动手学深度学习 2.0.0 documentation (d2l.ai)

Generative Adversarial Nets

全文

[1406.2661v1] Generative Adversarial Networks (arxiv.org)

视频

GAN 论文逐段精读【论文精读】_哔哩哔哩_bilibili

内容

设计了一个 G 识图抓住数据的分布
设计了一个 D 辨别数据是生成的还是原本就有的
损失函数：

$\min_G\max_DV(D,G)=\mathbb E_{x\sim p_{data}(x)}[\log D(x)]+\mathbb E_{z\sim p_{x}(z)}[\log (1-D(G(z)))]$

其中 $\mathbb E_{x\sim p_{data}(x)}$ 表示采样中的真实分布， $\mathbb E_{z\sim p_{x}(z)}$ 表示采样中的噪音分布。

代码

PyTorch 搭建 GAN 网络 - 知乎 (zhihu.com)

AN IMAGE IS WORTH 16X16 WORDS TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

全文

[2010.11929] An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (arxiv.org)

视频

ViT 论文逐段精读【论文精读】_哔哩哔哩_bilibili

内容

transformer 本来使用在自然语言处理领域，这篇论文将图片视为 16x16 的单词（称之为 patch）。

在大规模的语料库上做训练，就能取得比 CNN 更好的效果。

训练时间更短，效果更好。

代码

Vision Transformer（ViT）PyTorch 代码全解析（附图解）_vit pytorch_Adenialzz 的博客-CSDN 博客

Editing Text In The Wild

全文

[1908.03047] Editing Text in the Wild (arxiv.org)

内容

解决在自然图像中编辑文本，同时保留背景和文本的风格的问题。

提出了一个端到端的可训练风格保留网络（SRNet），包含 3 个模块：

文本转换模块（TCM）——将文本改为目标文本
- 采用编码-解码器 FCN
- 骨骼引导学习机制
  - 使用 dice loss 而不是交叉熵损失函数
背景修补模块（BIM）——擦除原始文本，用适当的纹理填充文本区域
- 按照“U-Net”的总体架构
- 加入了对抗学习
融合模块——结合来自前两个模块的信息，生成编辑后的图像
- 引入 VGG-loss，包括感知损失和风格损失

有的图像仍保留原始文本的阴影，归因于数据库的不足，尝试增加更多字体效果。

![png](Editing Text in the Wild.png)

代码

Editing Text in the Wild | Papers With Code

STEFANN: Scene Text Editor using Font Adaptive Neural Network

全文

[1903.01192] STEFANN: Scene Text Editor using Font Adaptive Neural Network (arxiv.org)

内容

一种在字符级上修改图像文本的方法，提出了两种不同的神经网络架构：

FANet 实现与源字体结构的一致性
Colornet 保留源颜色

方法：

选择要替换的源字符
生成二进制目标字符
颜色转移
字符放置

这个方法局限于大写英文字母。

代码

STEFANN: Scene Text Editor using Font Adaptive Neural Network | Papers With Code

Multi-Content GAN for Few-Shot Font Style Transfer

全文

[1712.00516] Multi-Content GAN for Few-Shot Font Style Transfer (arxiv.org)

内容

端到端堆叠条件 GAN 模型生成字体（适用于英文字母），设置两个子网络：

GlyphNet 对字形建模
OrnaNet 用颜色和纹理合成

两个网络都遵循 CGAN，要求只使用少量的字形，生成整套英文字母。

代码

Multi-Content GAN for Few-Shot Font Style Transfer | Papers With Code

Word-As-Image for Semantic Typography

全文

[2303.01818] Word-As-Image for Semantic Typography (arxiv.org)，2023.3.6 号发出，绝对够新！

内容

根据输入文字的含义（支持中英文），在不影响字体可读性的前提嵌入文字含义的图形特征。生成字体 LOGO，并且是矢量图的格式。

使用文字轮廓的向量化图形表示字形，轮廓线通常由直线，Bezier 曲线或 b 样条曲线的集合来表示。
使用 Latent Diffusion Models，潜在扩散模型（文本到图像的扩散模型）。
分数蒸馏。
VectorFusion，利用 SDS 损失来完成文本到 svg 的生成任务

代码

Word-As-Image for Semantic Typography | Papers With Code

UnrealText: Synthesizing Realistic Scene Text Images from the UnrealWorld

全文

[2003.10608] UnrealText: Synthesizing Realistic Scene Text Images from the Unreal World (arxiv.org)

内容

在训练时模型性能常常因数据集不足而受限，这篇论文提出了 UnrealText——用 UE4 生成自然场景下文字的数据集。

场景文本检测器依然依赖于大量人工注释的真实世界图像，使用合成数据进行训练的方法被广泛接受。

合成数据的优势：

词汇量很大
可以提供背景、字体、光照条件的多样性
可以很多倍的数据样本

方法：

png

生成视点：设置一个物理约束的三维随机行走，配备辅助摄像机锚
调整环境照明：随机改变场景中所有光源的强度、颜色和方向、还添加了雾条件，并随机调整其强度
提出文本区域
生成文本前景
检索 RGB 图像及其对应的文本位置和文本内容-形成合成数据集

实验结果证明我们所合成的数据很好使！

代码

Introduction | UnrealText (jyouhou.github.io)

SwapText: Image Based Texts Transfer in Scenes

原文

[2003.08152] SwapText: Image Based Texts Transfer in Scenes (arxiv.org)

内容

在场景图像中变换文本，同时保留原始字体、颜色、大小和背景纹理。

提出新颖的文本交换网络，仅替换前景图像中的文本标签
学习背景补全网络来重建背景图像
将生成的前景图像和背景图像通过融合网络生成单词图像

获得大量带注释的训练图像已经成为训练深度神经网络的瓶颈，提出使用几何变换进行数据增强。

将这个任务分成三个网络：

文本交换网络
- 形状变换网络 CSTN，使用 2K 基点定义文本形状
- 自注意力机制
背景补全网络
- GAN，损失函数同时考虑 $L_1$ 损耗和 GAN 损耗。
融合网络
- 采用编码器-解码器结构
- VGG-19

png

代码

SwapText: Image Based Texts Transfer in Scenes | Papers With Code 居然不开源代码..