前言

又过了两周，看了几篇论文，感觉总结得太晚有几篇已经忘了看了个什么玩意儿了😅。

还是感觉代码很重要啊！服务器也搭了， pytorch 也入门了，真的该开始代码复现了。感觉泛读多篇论文，不如精读一篇？李宏毅的代码作业我觉得也该尝试一下了！不过这个学习思路跟导师说的泛读论文有点相悖就是了。

不知道上次反 push 导师是个什么效果，反正现在组会是越来越长了，希望我的同门们不要怪罪我😅。上周组会开始导师叫凡哥讲了他的 Electronics 小论文大概是怎么水的，下周组会又是挑出一篇论文在组里讨论，那就继续读读读吧。

这篇博客是总结这两周看的论文，其实我很早就有一点想法了，只是不知道这个想法好不好使。过段时间要不总结一下再反 push 一下导师，说说自己最近的想法和学习情况吧。

对了，由于我博客发的有点多，感觉我的博客文章有点散乱了，是时候找个时间好好整理一番了，对了电脑硬盘快爆了也该整了。

念英语啊，下次一定呜呜呜😭。

快点水完论文想学前端UE操作系统呜呜呜😭。

学期快过半了，暑假放我回家在师大好好学习吧呜呜呜😭。

正文

自己瞎看的

Few-shot Font Generation with Weakly Supervised Localized Representations

资源

原文：

[2112.11895] Few-shot Font Generation with Weakly Supervised Localized Representations (arxiv.org)

代码：

内容

giao，太早以前看的，看笔记都快回忆不出来了，如果是在感兴趣的话，该重看一遍了。

为了搞定汉字的字体风格迁移，设计了一种新的字体生成方法，学习本地化样式，基于组件的样式表示，而不是通用样式。
字体生成，就是从极少的参考字形中提取复杂的局部特征：局部笔画、衬线、子字符的大小。汉字的组成部分太多了哟，难顶。

工作就是为汉字系统的所有 19514 字符设计了 371 个组件来表示它们。

设计的模型叫做 LF-Font 分成多个部件：

Content Encoding 内容编码 $E_c$ 从输入 $x_{s_0,c}$ 中提取出内容表示 $f_c$
Style Encoding 风格编码器 $E_{s,u}$ 提取风格
Generation 生成器 $G$ 从 $f_c$ 和 $f_s$ 合成目标字形 $\tilde{x}_{\tilde{s},c}$
训练共享模块

回忆不出来了orz，生成模型的评价指标似乎还是主观的。

The SYNTHIA Dataset: A Large Collection of Synthetic Images for Semantic Segmentation of Urban Scenes

资源

IEEE

The SYNTHIA Dataset: A Large Collection of Synthetic Images for Semantic Segmentation of Urban Scenes | IEEE Conference Publication | IEEE Xplore

原文

gros_cvpr16-1.pdf (synthia-dataset.net)

官网

The SYNTHIA dataset (synthia-dataset.net)

内容

其实跟想研究的方法无关orz，但是是以 Unity 生成的城市场景语义分割的数据集，爷青回。用于给自动驾驶训练。

这个有点想自己跑一遍。SYNTHIA 带有生成的类注释，将 SYNTHIA 与公开可用的城市图像结合使用。

包含 13 个像素级语义级注释：天空、建筑物、道路、人行道、围栏、植被、车道标记、栏杆、汽车、交通标志、行人、自行车。可以自由调整这些类的属性等。

213400 张合成图像，快照和视频序列。从多个视角模拟不同的季节、天气和照明生成图像。

Towards End-to-End Unified Scene Text Detection and Layout Analysis

资源

原文：

[2203.15143] Towards End-to-End Unified Scene Text Detection and Layout Analysis (arxiv.org)

代码：

google-research-datasets/hiertext: The HierText dataset contains ~12k images from the Open Images dataset v6 with large amount of text entities. We provide word, line and paragraph level annotations. (github.com)

内容

这个当时居然写了蛮详细的笔记，好吧。

提出了一个新的模型 Unified Detector，试图将场景文本检测与文档布局分析结合起来。引入了一个新的分层场景数据集——HierText：第一个具有自然场景和文档中文本分层注释的数据集，拥有高质量的单词、行、段落级注释。
- 就是把文档中的布局分析框定为检测和分割任务
- 将布局分析引入场景文本域。

架构：
- Backbone：The MaX-DeepLab，沙漏风格的 CNN 交替堆叠和提出的 dual-path transformer CNN 从粗分辨率到精细分辨率迭代编码特征，从而可以产生高分辨率的特征。
- Text detection branch
- Layout branch
- Textness branch：两个全连接层，1 个 sigmoid 函数，生成二进制分类函数 $\{\hat y_i\}^N_{i=1}$
使用最近提出的 $PQ$ 指标作为主要评估指标：$PQ=\frac{\sum_{(p,g)\in TP}IOU(p,g)}{|TP|+\frac{1}{2}|FP|+\frac{1}{2}|FN|}$
损失函数：$\mathcal{L}=\lambda_1\mathcal{L}_{det}+\lambda_2\mathcal{L}_{lay}+\lambda_3\mathcal{L}_{seg}+\lambda_4\mathcal L_{ins}$
- $\mathcal L_{det}$：Text detection loss
- $\mathcal L_{lay}$：Layout analysis loss
- $\mathcal L_{seg}$：Instance discrimination loss
- $\mathcal L_{ins}$：由 MaX-DeepLab 产生

感觉比较牛逼就读的仔细一些的

这些都发了独立的推文，也列出来吧。

Paper-Text Recognition in the Wild-A Survey

见：Paper-Text Recognition in the Wild-A Survey-Zi-Zi's Journey

导师要求看的

SEED-Semantics Enhanced Encoder-Decoder Framework for Scene Text Recognition

资源

原文：

[2005.10977] SEED: Semantics Enhanced Encoder-Decoder Framework for Scene Text Recognition (arxiv.org)

代码：

Pay20Y/SEED (github.com)

内容

目前都是用 E-D 的结构处理场景文本检测中视角失真、曲线形状的难题，但对图像模糊、光照不均、字符不完整不太好使。
其他人都是使用局部视觉特征，没有显式的全局语义信息。我们提出了语义增强 E-D 集成了最先进的 ASTER。
将文本识别视为一个跨模态任务。从预训练的语言模型中获取单词嵌入，就是把 NLP 引入其中啦。
现有的深度学习方法：CTC、Attention，而对于不规则的文本识别：STN、Attention。
利用语义：CNN、语言模型、预训练的语言模型，使用基于 skip-gram 的 FastText 作为预训练的语言模型。

StarGAN v2-Diverse Image Synthesis for Multiple Domains

资源

原文及代码：StarGAN v2: Diverse Image Synthesis for Multiple Domains | Papers With Code

内容

StarGAN v2：多域的不同图像合成

提出了一个新的 image-to-image 模型：StarGAN v2，保证生成图像的多样性（diversity）和跨多个域的可伸缩性（scalability）（将一个域的图像转换为目标域的多个图像，并支持多个目标域）。
提出了一个新的动物面部数据集 AFHQ

StarGAN 给定一个图像 $x\in \mathcal X$ 和任意域 $y\in \mathcal Y$，训练一个生成器 $G$，生成 $y$ 对应于 $x$ 的不同图像。由 4 个模块组成：

生成器 $G$ 生成图像，接受输入 $x$ 和 $F,E$ 给的 $s$，输出 $G(x,s)$，使用自适应实例规范化（AdaIN）将 $s$ 注入到 $G$ 中
映射网络 $F$（Mapping network）将潜在代码（Latent code）$z$，给定一个区域 $y$，生成为多个域的样式代码 $s=F_y(z)$，由多个输出分支的 MLP 组成
风格编码器 $E$（Style Encoder）给定图像 $x$ 和其对应的域 $y$，提取图像的风格代码 $s=E_y(x)$，给 $G$ 用
鉴别器 $D$ 鉴别图像，就是个二值分类

训练目标

Adversarial objective 对抗目标
- 随机抽取 Latent code $z\in \mathcal Z$ 和目标域 $\tilde y\in \mathcal Y$ 生成目标样式代码 $\tilde s=F_{\tilde y}(z)$，生成器 $G$ 以图像 $x$ 和 $\tilde s$ 作为输入，生成 $G(x,\tilde s)$
  - 损失函数 $\mathcal L_{adv}=\mathbb{E}_{x,y}[\log D_y(x)]+\mathbb{E}_{x,\tilde y,z}[\log(1-D_{\tilde y}(G(x,\tilde s)))]$
Style reconstruction 风格构建
- 强制生成器 $G$ 在生成图像 $G(x,\tilde s)$ 时使用 style code $\tilde s$，使用了一个样式重建损失
  - $\mathcal L_{sty}=\mathbb E_{x,\tilde y,z}[||\tilde s-E_{\tilde y}(G(x,\tilde s))||_1]$
Style diversification 风格多样化
- $\mathcal L_{ds}=\mathbb E_{x,\tilde y,z_1,z_2}[||G(x,\tilde s_10-G(x,\tilde s_2))||_1]$
Preserving source characteristics 保持原特性
- $\mathcal L_{cyc}=\mathbb{E}_{x,y,\tilde y,z}[||x-G(G(x,\tilde s), \tilde s)||_1]$
综合：$\min_{G,F,E}\max_D\ \mathcal L_{adv}+\lambda_{sty}\mathcal L_{sty}-\lambda_{ds}\mathcal L_{ds}+\lambda_{cyc}\mathcal L_{cyc}$

实验

Baselines：MUNIT、DRIT、MSGAN
Datasets: CelebA-HQ、StarGAN v2
Evaluation metrics: FID、LPIPS

A Framework for Real-time Object Detection and Image Restoration

资源

A Framework for Real-time Object Detection and Image Restoration | Papers With Code

内容

既整目标检测，又整超分辨率/图像修复？

整了一个目标检测和图像修复的两阶段框架
- 第一阶段：YOLO，然后进行图像裁剪
- 第二阶段：改进 Swin Transformer，命名为 SwinOIR
对于目标检测：
- 单阶段：直接生成目标的类概率和位置，SSD、RetinaNet、CornerNet、YOLO
- 多阶段：RCNN、Fast R-CNN，先提供多个区域建议，再在这些建议上获得类别。

直接把 YOLO 历史搬出来了可还行。

在图像超分辨率任务上实现 Transformer。

我们这个框架，先目标检测再图像修复，超分辨率的架构分成三个模块：

Pre-Feature Extraction
- 提取特征？就是卷积一阵卷，预特征提取 $F_{pre}=H_{pre}(I_O)$
Main Feature Extraction
- 主特征提取 $F_{main}=H_{main}(F_{pre})$
- $Q=XP_Q,K=XP_K,V=XP_V,\mathrm{Attention}(Q,K,V)=\mathrm{Softmax}(QK^T/\sqrt{d}+B)V$
High Quality Image Reconstruction
- 接受之前重建的特征，重建高质量的物体图像 $I_{HQO}=H_{IR}(F_{pre}+F_{main})$

优化目标：$\mathcal L=||I_{HQO}-I_{HQ}||_1$

实验

Dataset：MS COCO dataset、Pascal VOC dataset、SR testing datasets、DIV2K dataset、 BSDS300、PIRM dataset
Evaluation Metric：mAP、PSNR、SSIM

YOLO9000-Better, Faster, Stronger

VSR-A Unified Framework for Document Layout Analysis combining Vision, Semantics and Relations

见：Paper-VSR-A Unified Framework for Document Layout Analysis combining Vision, Semantics and Relations-Zi-Zi's Journey

Paper-第 6 周和第 7 周也是被要求看论文然后看不懂的两周

前言

正文