前言
又过了两周,看了几篇论文,感觉总结得太晚有几篇已经忘了看了个什么玩意儿了😅。
还是感觉代码很重要啊!服务器也搭了, pytorch 也入门了,真的该开始代码复现了。感觉泛读多篇论文,不如精读一篇?李宏毅的代码作业我觉得也该尝试一下了!不过这个学习思路跟导师说的泛读论文有点相悖就是了。
不知道上次反 push 导师是个什么效果,反正现在组会是越来越长了,希望我的同门们不要怪罪我😅。上周组会开始导师叫凡哥讲了他的 Electronics 小论文大概是怎么水的,下周组会又是挑出一篇论文在组里讨论,那就继续读读读吧。
这篇博客是总结这两周看的论文,其实我很早就有一点想法了,只是不知道这个想法好不好使。过段时间要不总结一下再反 push 一下导师,说说自己最近的想法和学习情况吧。
对了,由于我博客发的有点多,感觉我的博客文章有点散乱了,是时候找个时间好好整理一番了,对了电脑硬盘快爆了也该整了。
念英语啊,下次一定呜呜呜😭。
快点水完论文想学前端UE操作系统呜呜呜😭。
学期快过半了,暑假放我回家在师大好好学习吧呜呜呜😭。
正文
自己瞎看的
Few-shot Font Generation with Weakly Supervised Localized Representations
资源
原文:
代码:
- clovaai/lffont: Official PyTorch implementation of LF-Font (Few-shot Font Generation with Localized Style Representations and Factorization) AAAI 2021 (github.com)
- clovaai/lffont: Official PyTorch implementation of LF-Font (Few-shot Font Generation with Localized Style Representations and Factorization) AAAI 2021 (github.com)
内容
giao,太早以前看的,看笔记都快回忆不出来了,如果是在感兴趣的话,该重看一遍了。
为了搞定汉字的字体风格迁移,设计了一种新的字体生成方法,学习本地化样式,基于组件的样式表示,而不是通用样式。
字体生成,就是从极少的参考字形中提取复杂的局部特征:局部笔画、衬线、子字符的大小。汉字的组成部分太多了哟,难顶。
工作就是为汉字系统的所有 19514 字符设计了 371 个组件来表示它们。
设计的模型叫做 LF-Font 分成多个部件:
- Content Encoding 内容编码 $E_c$ 从输入 $x_{s_0,c}$ 中提取出内容表示 $f_c$
- Style Encoding 风格编码器 $E_{s,u}$ 提取风格
- Generation 生成器 $G$ 从 $f_c$ 和 $f_s$ 合成目标字形 $\tilde{x}_{\tilde{s},c}$
- 训练共享模块
回忆不出来了orz,生成模型的评价指标似乎还是主观的。
The SYNTHIA Dataset: A Large Collection of Synthetic Images for Semantic Segmentation of Urban Scenes
资源
IEEE
原文
官网
内容
其实跟想研究的方法无关orz,但是是以 Unity 生成的城市场景语义分割的数据集,爷青回。用于给自动驾驶训练。
这个有点想自己跑一遍。SYNTHIA 带有生成的类注释,将 SYNTHIA 与公开可用的城市图像结合使用。
包含 13 个像素级语义级注释:天空、建筑物、道路、人行道、围栏、植被、车道标记、栏杆、汽车、交通标志、行人、自行车。可以自由调整这些类的属性等。
213400 张合成图像,快照和视频序列。从多个视角模拟不同的季节、天气和照明生成图像。
Towards End-to-End Unified Scene Text Detection and Layout Analysis
资源
原文:
代码:
内容
这个当时居然写了蛮详细的笔记,好吧。
- 提出了一个新的模型 Unified Detector,试图将场景文本检测与文档布局分析结合起来。引入了一个新的分层场景数据集——HierText:第一个具有自然场景和文档中文本分层注释的数据集,拥有高质量的单词、行、段落级注释 。
- 就是把文档中的布局分析框定为检测和分割任务
- 将布局分析引入场景文本域。
架构:
- Backbone:The MaX-DeepLab,沙漏风格的 CNN 交替堆叠和提出的 dual-path transformer CNN 从粗分辨率到精细分辨率迭代编码特征,从而可以产生高分辨率的特征。
- Text detection branch
- Layout branch
- Textness branch:两个全连接层,1 个 sigmoid 函数,生成二进制分类函数 $\{\hat y_i\}^N_{i=1}$
使用最近提出的 $PQ$ 指标作为主要评估指标:$PQ=\frac{\sum_{(p,g)\in TP}IOU(p,g)}{|TP|+\frac{1}{2}|FP|+\frac{1}{2}|FN|}$
- 损失函数:$\mathcal{L}=\lambda_1\mathcal{L}_{det}+\lambda_2\mathcal{L}_{lay}+\lambda_3\mathcal{L}_{seg}+\lambda_4\mathcal L_{ins}$
- $\mathcal L_{det}$:Text detection loss
- $\mathcal L_{lay}$:Layout analysis loss
- $\mathcal L_{seg}$:Instance discrimination loss
- $\mathcal L_{ins}$:由 MaX-DeepLab 产生
感觉比较牛逼就读的仔细一些的
这些都发了独立的推文,也列出来吧。
Paper-Text Recognition in the Wild-A Survey
见:Paper-Text Recognition in the Wild-A Survey-Zi-Zi's Journey
导师要求看的
SEED-Semantics Enhanced Encoder-Decoder Framework for Scene Text Recognition
资源
原文:
代码:
内容
- 目前都是用 E-D 的结构处理场景文本检测中视角失真、曲线形状的难题,但对图像模糊、光照不均、字符不完整不太好使。
- 其他人都是使用局部视觉特征,没有显式的全局语义信息。我们提出了语义增强 E-D 集成了最先进的 ASTER。
- 将文本识别视为一个跨模态任务。从预训练的语言模型中获取单词嵌入,就是把 NLP 引入其中啦。
- 现有的深度学习方法:CTC、Attention,而对于不规则的文本识别:STN、Attention。
- 利用语义:CNN、语言模型、预训练的语言模型,使用基于 skip-gram 的 FastText 作为预训练的语言模型。
StarGAN v2-Diverse Image Synthesis for Multiple Domains
资源
内容
StarGAN v2:多域的不同图像合成
- 提出了一个新的 image-to-image 模型:StarGAN v2,保证生成图像的多样性(diversity)和跨多个域的可伸缩性(scalability)(将一个域的图像转换为目标域的多个图像,并支持多个目标域)。
- 提出了一个新的动物面部数据集 AFHQ
StarGAN 给定一个图像 $x\in \mathcal X$ 和 任意域 $y\in \mathcal Y$,训练一个生成器 $G$,生成 $y$ 对应于 $x$ 的不同图像。由 4 个模块组成:
- 生成器 $G$ 生成图像,接受输入 $x$ 和 $F,E$ 给的 $s$,输出 $G(x,s)$,使用自适应实例规范化(AdaIN)将 $s$ 注入到 $G$ 中
- 映射网络 $F$(Mapping network)将潜在代码(Latent code)$z$,给定一个区域 $y$,生成为多个域的样式代码 $s=F_y(z)$,由多个输出分支的 MLP 组成
- 风格编码器 $E$(Style Encoder)给定图像 $x$ 和其对应的域 $y$,提取图像的风格代码 $s=E_y(x)$,给 $G$ 用
- 鉴别器 $D$ 鉴别图像,就是个二值分类
训练目标
- Adversarial objective 对抗目标
- 随机抽取 Latent code $z\in \mathcal Z$ 和 目标域 $\tilde y\in \mathcal Y$ 生成目标样式代码 $\tilde s=F_{\tilde y}(z)$,生成器 $G$ 以图像 $x$ 和 $\tilde s$ 作为输入,生成 $G(x,\tilde s)$
- 损失函数 $\mathcal L_{adv}=\mathbb{E}_{x,y}[\log D_y(x)]+\mathbb{E}_{x,\tilde y,z}[\log(1-D_{\tilde y}(G(x,\tilde s)))]$
- 随机抽取 Latent code $z\in \mathcal Z$ 和 目标域 $\tilde y\in \mathcal Y$ 生成目标样式代码 $\tilde s=F_{\tilde y}(z)$,生成器 $G$ 以图像 $x$ 和 $\tilde s$ 作为输入,生成 $G(x,\tilde s)$
- Style reconstruction 风格构建
- 强制生成器 $G$ 在生成图像 $G(x,\tilde s)$ 时使用 style code $\tilde s$,使用了一个样式重建损失
- $\mathcal L_{sty}=\mathbb E_{x,\tilde y,z}[||\tilde s-E_{\tilde y}(G(x,\tilde s))||_1]$
- 强制生成器 $G$ 在生成图像 $G(x,\tilde s)$ 时使用 style code $\tilde s$,使用了一个样式重建损失
- Style diversification 风格多样化
- $\mathcal L_{ds}=\mathbb E_{x,\tilde y,z_1,z_2}[||G(x,\tilde s_10-G(x,\tilde s_2))||_1]$
Preserving source characteristics 保持原特性
- $\mathcal L_{cyc}=\mathbb{E}_{x,y,\tilde y,z}[||x-G(G(x,\tilde s), \tilde s)||_1]$
综合:$\min_{G,F,E}\max_D\ \mathcal L_{adv}+\lambda_{sty}\mathcal L_{sty}-\lambda_{ds}\mathcal L_{ds}+\lambda_{cyc}\mathcal L_{cyc}$
实验
Baselines:MUNIT、DRIT、MSGAN
Datasets: CelebA-HQ、StarGAN v2
- Evaluation metrics: FID、LPIPS
A Framework for Real-time Object Detection and Image Restoration
资源
内容
既整目标检测,又整超分辨率/图像修复?
- 整了一个目标检测和图像修复的两阶段框架
- 第一阶段:YOLO,然后进行图像裁剪
- 第二阶段:改进 Swin Transformer,命名为 SwinOIR
- 对于目标检测:
- 单阶段:直接生成目标的类概率和位置,SSD、RetinaNet、CornerNet、YOLO
- 多阶段:RCNN、Fast R-CNN,先提供多个区域建议,再在这些建议上获得类别。
直接把 YOLO 历史搬出来了可还行。
在图像超分辨率任务上实现 Transformer。
我们这个框架,先目标检测再图像修复,超分辨率的架构分成三个模块:
- Pre-Feature Extraction
- 提取特征?就是卷积一阵卷,预特征提取 $F_{pre}=H_{pre}(I_O)$
- Main Feature Extraction
- 主特征提取 $F_{main}=H_{main}(F_{pre})$
- $Q=XP_Q,K=XP_K,V=XP_V,\mathrm{Attention}(Q,K,V)=\mathrm{Softmax}(QK^T/\sqrt{d}+B)V$
- High Quality Image Reconstruction
- 接受之前重建的特征,重建高质量的物体图像 $I_{HQO}=H_{IR}(F_{pre}+F_{main})$
优化目标:$\mathcal L=||I_{HQO}-I_{HQ}||_1$
实验
- Dataset:MS COCO dataset、Pascal VOC dataset、SR testing datasets、DIV2K dataset、 BSDS300、PIRM dataset
- Evaluation Metric:mAP、PSNR、SSIM