Paper-整理下这段时间看的论文

论文阅读。

前言

​ 在开学后经历的一阵迷茫后感觉还是要看论文啊...就算看不太懂也要看...目前想做的还是跟师兄差不多的自然场景文字编辑的方向。也不知道我这个菜鸡啥时候才能开始实验 orz

正文

ImageNet classification with deep convolutional neural networks

全文

视频

​ 看了看李沐老师的带读论文,先看摘要,再看简介和结论,看看这篇论文是否对你真的有用。觉得有意义后接着往下读。太老的论文可以不用看,比如这篇论文,Alexnet,算是深度学习的鼻祖,但是从现在看来还是有很多局限性。

内容

  • 引入了新的激活函数 ReLU,引入后比起当时流行的 tanh()\tanh() 训练时收敛更快
  • 使用了两个 GPU 分开进行卷积操作
  • 对输入的数据进行 Local Response Normalization,局部响应归一化
  • 引入 Pooling layer,池化操作
  • 对于降低过拟合:
    • Data Augmentation 数据增强,对数据进行一些预处理,如把一些图片人工地变大等,这样数据量就更大变化就更多了
    • Dropout 层,50% 概率把隐藏层的输出值变成 0
  • 使用 SGD 进行优化

代码

Deep Residual Learning for Image Recognition

全文

视频

内容

​ 提出了 CNN 难以训练的问题,将 CNN 的主干部分换成 ResNet 以降低训练难度,用在 Image Recognition 问题上。

png

​ 就是把前几层的输出放到后面几层的输入中进去?

​ 在损失函数很难下降后,加入残差网络效果明显。

代码

Attention Is All You Need

全文

视频

内容

  • 将 Transformer 用在机器翻译上,得到了良好的效果

  • Transformer 比起 CNN 和 RNN 的优势:

    • RNN 难以并行,训练速度慢

    • CNN 难以对间隔较长的序列产生计算

png

​ Transformer 的结构图,一个 Encoder 一个 Decoder

​ 注意力函数是将 query 和 key-value 映射成输出的函数,输出是 qkv 的加权和。

Attention(Q,K,V)=softmax(QKTdk)V\mathrm{Attention}(Q,K,V)=\mathrm{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V

​ 引入了多头注意力机制

代码

Generative Adversarial Nets

全文

视频

内容

  • 设计了一个 G 识图抓住数据的分布

  • 设计了一个 D 辨别数据是生成的还是原本就有的

  • 损失函数:

minGmaxDV(D,G)=Expdata(x)[logD(x)]+Ezpx(z)[log(1D(G(z)))]\min_G\max_DV(D,G)=\mathbb E_{x\sim p_{data}(x)}[\log D(x)]+\mathbb E_{z\sim p_{x}(z)}[\log (1-D(G(z)))]

其中 Expdata(x)\mathbb E_{x\sim p_{data}(x)} 表示采样中的真实分布,Ezpx(z)\mathbb E_{z\sim p_{x}(z)} 表示采样中的噪音分布。

代码

AN IMAGE IS WORTH 16X16 WORDS TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

全文

视频

内容

​ transformer 本来使用在自然语言处理领域,这篇论文将图片视为 16x16 的单词(称之为 patch)。

​ 在大规模的语料库上做训练,就能取得比 CNN 更好的效果。

​ 训练时间更短,效果更好。

代码

Editing Text In The Wild

全文

内容

​ 解决在自然图像中编辑文本,同时保留背景和文本的风格的问题。

​ 提出了一个端到端的可训练风格保留网络(SRNet),包含 3 个 模块:

  • 文本转换模块(TCM)——将文本改为目标文本
    • 采用编码-解码器 FCN
    • 骨骼引导学习机制
      • 使用 dice loss 而不是交叉熵损失函数
  • 背景修补模块(BIM)——擦除原始文本,用适当的纹理填充文本区域
    • 按照“U-Net”的总体架构
    • 加入了对抗学习
  • 融合模块——结合来自前两个模块的信息,生成编辑后的图像
    • 引入 VGG-loss,包括感知损失和风格损失

​ 有的图像仍保留原始文本的阴影,归因于数据库的不足,尝试增加更多字体效果。

![png](Editing Text in the Wild.png)

代码

STEFANN: Scene Text Editor using Font Adaptive Neural Network

全文

内容

​ 一种在字符级上修改图像文本的方法,提出了两种不同的神经网络架构:

  • FANet 实现与源字体结构的一致性
  • Colornet 保留源颜色

​ 方法:

  • 选择要替换的源字符
  • 生成二进制目标字符
  • 颜色转移
  • 字符放置

​ 这个方法局限于大写英文字母。

代码

Multi-Content GAN for Few-Shot Font Style Transfer

全文

内容

​ 端到端堆叠条件 GAN 模型生成字体(适用于英文字母),设置两个子网络:

  • GlyphNet 对字形建模
  • OrnaNet 用颜色和纹理合成

​ 两个网络都遵循 CGAN,要求只使用少量的字形,生成整套英文字母。

代码

Word-As-Image for Semantic Typography

全文

内容

​ 根据输入文字的含义(支持中英文),在不影响字体可读性的前提嵌入文字含义的图形特征。生成字体 LOGO,并且是矢量图的格式。

  • 使用文字轮廓的向量化图形表示字形,轮廓线通常由直线,Bezier 曲线或 b 样条曲线的集合来表示。

  • 使用 Latent Diffusion Models,潜在扩散模型(文本到图像的扩散模型)。

  • 分数蒸馏。

  • VectorFusion,利用 SDS 损失来完成文本到 svg 的生成任务

代码

UnrealText: Synthesizing Realistic Scene Text Images from the UnrealWorld

全文

内容

​ 在训练时模型性能常常因数据集不足而受限,这篇论文提出了 UnrealText——用 UE4 生成自然场景下文字的数据集。

​ 场景文本检测器依然依赖于大量人工注释的真实世界图像,使用合成数据进行训练的方法被广泛接受。

​ 合成数据的优势:

  • 词汇量很大
  • 可以提供背景、字体、光照条件的多样性
  • 可以很多倍的数据样本

​ 方法:

png
  • 生成视点:设置一个物理约束的三维随机行走,配备辅助摄像机锚
  • 调整环境照明:随机改变场景中所有光源的强度、颜色和方向、还添加了雾条件,并随机调整其强度
  • 提出文本区域
  • 生成文本前景
  • 检索 RGB 图像及其对应的文本位置和文本内容-形成合成数据集

​ 实验结果证明我们所合成的数据很好使!

代码

SwapText: Image Based Texts Transfer in Scenes

原文

内容

​ 在场景图像中变换文本,同时保留原始字体、颜色、大小和背景纹理。

  • 提出新颖的文本交换网络,仅替换前景图像中的文本标签
  • 学习背景补全网络来重建背景图像
  • 将生成的前景图像和背景图像通过融合网络生成单词图像

​ 获得大量带注释的训练图像已经成为训练深度神经网络的瓶颈,提出使用几何变换进行数据增强。

​ 将这个任务分成三个网络:

  • 文本交换网络
    • 形状变换网络 CSTN,使用 2K 基点定义文本形状
    • 自注意力机制
  • 背景补全网络
    • GAN,损失函数同时考虑 L1L_1 损耗和 GAN 损耗。
  • 融合网络
    • 采用编码器-解码器结构
    • VGG-19
png

代码