原文
全文
Abstract
一篇 DA 的综述。
1 Introduction
机器学习不同于人类学习。人类可以从少量标记的实例中学习,并将他们学到的知识应用于独特情况下的新示例。另一方面,监督式机器学习方法仅在测试数据与训练数据来自相同分布时才能很好地工作。当测试数据集来自非相同分布时,它们的表现很差。这是由于域分布之间的移位而发生的。
领域适应在计算机视觉中发现了许多与将经过训练的网络应用于现实世界数据相关的应用。它还可以轻松地标记与早期标记的数据集相关的合成数据集。的一些工作已经利用域适应来解决计算机视觉中的分割问题,其中测试数据集的分布与训练集不同。在这种情况下,传统训练的模型将表现不佳。它还在图像字幕方面找到了一些应用。设计了许多域适应技术来抵消域转移引起的性能下降。它们可以大致分为:
- 监督:在监督域自适应下,目标域中的大多数样本都被标记。
- 半监督:在目标域中,提供一些标记样本来学习合适的模型自适应。这种形式的半监督学习可以从两个域中提取不变特征。然而,它也需要标记目标图像的小样本。
- 无监督管:无监督域自适应(UDA)通过未标记的目标数据集减少域之间的转换,同时寻求最大化分类器在这些数据集上的性能。目标图像与源图像同时传递。该网络试图在源域图像提供的标签上对目标图像进行分类。
本研究旨在评估目前领域适应技术的进展,并从研究方向提供一些推论。
2 Datasets Used for Domain Adaptation
用于域自适应的数据集模拟数据来自不同但相关的分布的情况。因此,数据集的开发是为了在不同领域推广模型。我们已经列出了一些在领域适应中使用的流行数据集。这些数据集被用作计算技术的域适应性的基准。
2.1 Office 31
Office 31 是一个基准数据集,包含 4110 张图像,31 个类别和 3 个域。它包含 Amazon,其中包含从 Amazon 提取的图像,DSLR 包含由 DSLR 相机拍摄的图像,而 Webcam 包含在各种摄影设置下使用 Web 相机拍摄的图像。Office 数据集创建于 2010 年,此后一直是 DA 问题的基准数据集。数据集的样本图像如下图所示。
2.2 Caltech
Caltech-256 是一个 257 类的物体识别数据集,包含 30607 张不同大小的真实照片。每个类至少有 80 张照片。Caltech 101 数据集是这个数据集的一个子集。Caltech-256 由于尺寸、背景和其他因素的变化更大,因此更加复杂和苛刻。
2.3 Office Home
Office Home 有四个域和来自 65 个不同类别的 15,500 张图片或快照。这四个域是艺术(即 Ar)、剪贴画(即 Cl)、产品(即 Pr)和现实世界(即 Rw)。绘画、画布和各种创意渲染图像的快照都包含在艺术领域中。Clipart 领域是剪贴画图片的集合。真实世界由相机拍摄的典型照片组成,而产品则由没有背景的图像组成。
2.4 MNIST and MNIST-M
MNIST 数据集由 70000 个灰度级的手写数字图像组成。MNIST-M 是由 MNIST 数据集组成的数据集,背景包含彩色照片中的各种颜色。它包含大约 59001 张训练图像和 90001 张测试图像。
3 Methods of Deep Domain Adaptation
在本节中,我们根据不同的领域自适应技术的方法将其分为不同的类别。
3.1 Discrepancy Based
最近的研究表明,与早期的多步骤研究相比,执行基于差异的域适应的深度域适应网络能产生更好的结果。在基于差异的工作中,常见的提高域适应性的标准是:
- **最大离散损失(MMD)**MMD 使用连接到源网络末端的残差块。损失函数是最小平均差异(MMD)损失和熵损失之和。利用残差块提取高代表性的特征,同时利用 MMD 损失改进域对齐。最大平均差异损失(MMD 损失)背后的原则是分布之间的距离表示为特征的平均嵌入之间的距离。平均值的两个备选预测之间的差是 MMD。最大平均差异(MMD)损失使用核技巧来找到分布之间的无穷矩,并减少样本分布的期望之间的距离。
- **相关对齐(CORAL)**与 MMD 类似,DeepCORAL 的开发旨在使用二阶分布统计来改善域适应。CORAL 探索了源域和目标域之间的二阶统计量,使用更高的代表性特征来对齐它们。它被用在 DA 网络中,通过最小化全连接层中更高代表性张量之间的协方差来减少域的相关对齐(CORAL)。这是通过使用从网络层获得的 CORAL 损失来完成的。通过减少网络内的 CORAL 损失来调整域。
- **最优运输(OT)**最优运输(OT)被提出作为一种差异技术,以提高联合分布最优运输(JDOT)中的域适应性。最优运输是独一无二的,因为它可以作为一种工具,以最小的努力将一种(连续)概率分布转换为另一种。OT 解决方案确定了将一个分布转换为另一个分布的最有效技术。该解决方案可用于在它们之间进行插值并无缝地获取中间变换。使用 OT 将源数据转换为跨域具有最短 Wasserstein 距离的子空间。然而,它的计算成本与样本大小成二次方关系。DeepJDOT 通过在深度适应网络(DAN)中实现 OT 随机数来克服这个缺点。
3.2 Adversarial Based
基于对抗网络的域自适应最近引起了广泛的关注,因为它提供了最先进的准确性,优于基于差异的方法。这些网络遵循一个生成器—递归架构,其中生成器将学习从域中生成域不变和区分特征。一个作为域分类器的分类器将从生成器中预测图像的来源。这会在网络中造成域混淆。因此,反向工作,这些 networkswill 产生域不变的功能,可用于执行无监督域适应(UDA)。
**领域对抗神经网络(DANN)**模型是基于使用 GAN 减少域之间的域转移的原理开发的。无监督域自适应是通过梯度反转层将特征提取器链接到域分类器来实现的,该梯度反转层在基于反向传播的训练期间将梯度乘以负常数。网络中的梯度反转特征负责从网络中的两个域中提取域不变特征。
**耦合生成对抗网络(CoGAN)**使用两个 GAN,域同时通过,并且权重在网络之间共享。这鼓励学习来自两个域的联合分布,而不使用目标域标签。
PixelDA 使用对抗架构来减少源分布和目标分布之间的偏移,以实现目标分布样本的分类。这种方法不是试图捕获域的不变特征,而是使用 GAN 将源域转移到目标域。一旦经过训练,该模型就能够在目标域中生成和分类样本。然而,它们在计算上是昂贵的,并且受到输入样本的尺寸的限制。
**选择性对抗网络(SAN)**是一种用于执行部分迁移学习的深度对抗适应。它用于目标标签是源标签类别的子集的应用中。因此,并非所有源域标签都存在于目标域中。SAN 可以在公共子空间中匹配源和目标数据分布,同时隔离源域中的离群值类。它是通过增加潜在空间中相似数据分布之间的对齐来实现的。
3.3 Reconstruction Based
深度重建域自适应是一种改进自适应的方法,它使用外部重建从每个域创建域不变特征。该算法采用编解码器网络结构对目标分布图像进行分类和重构。目标分布的更高表示由在源分布上训练的模型学习,并用于对目标进行分类。经过训练后,从原始分布重建的图像显示出与目标分布样本相似的特征。因此,它表明网络已经从两个域中学习了联合分布。然后将其用于对目标样本进行分类。
在使用 **MTAE(多任务自动编码器)**的工作中,该模型在不同的域中重建图像。这使我们能够找到自然发生的域间变异时,图像存在于不同的领域。这样的过程使得能够从两个分布中找到不变特征。然后从不同的域中提取这些特征。
**域分离网络(Domain Separation Networks,DSNs)**学习高阶表示并将其划分为两个子空间。其中一个子空间对于该特定域是私有的,而另一个子空间跨域共享。部分表示用于从两个域再现图像。私有和源表示用于学习复制输入域分布的共享解码器中。通过增加私有子空间和共享子空间分量之间的正交性约束来增加类的可辨别性。使用共享子空间损失分量之间的相似性损失来改进域的对齐。
3.4 Combination Based
最小差异估计在神经网络中使用了 MMD 和 CORAL 的基于差异的损失组合,以共同减少域偏移。
源样本和目标样本同时发送到网络中。来自网络的编码输出从更高的代表层获取,并传递到基于差异的自适应损失。来自 MMD 的损失和 CORAL 损失被组合并在网络内反向传播,以改善域内的对齐。
加权 DWL 利用受早期对抗性和基于差异的模型的启发的标准组合来构建 DAN 以改善对齐。该网络模型侧重于两个方面:**提高域对齐和提高域内的类区分度。**这里还考虑了类不平衡问题,在将样本传递到网络进行训练之前重新加权样本。这减少了由于训练样本的类别不平衡而导致的模型偏差。MMD 用于改进对齐,线性判别分析(LDA)损失提高类区分度。
域自适应在医学研究中的应用已经通过结合 U-Net 和基于对抗的 GAN 网络来实现,以执行域自适应和图像分割。GAN 用于不同厂商的图像(MRI 扫描)的域自适应,U-Net 用于图像分割。
在 OUDA 中遵循 UDA 组合技术的另一个应用,其中目标域取自在线流媒体源。该方法分为两部分:第一部分是减少领域间的差异,从初始阶段得到一个训练子空间,通过特征级、样本级和领域级的自适应来获取领域不变特征。在第二部分中,在线分类使用传入目标样本与训练子空间的低维对齐。然后,这被用于减少在线样本(目标域)之间的域内距离,然后对其进行分类。
无监督的方法也被开发出来,并与前面提到的损失一起使用,以克服目标域的无标签和无源分类。某论文中的工作使用了一种自我监督的实现方法,其中目标最初基于 KNN 进行聚类,并基于源域给出伪标签。然后,通过减少相同类别与目标之间的距离并增加不同类别之间的距离来进行对比学习。这分别通过减少类内距离和提高类间距离来执行。
某论文中遵循了使用对比学习的类似方法。这种方法创建了一个类似字典的结构,由来自标记的源和未标记的目标域的样本组成。来自未标记目标域的样本基于源域类别被给予伪标签。类别对比(CaCo)方法利用字典上的对比学习来减少相同类别之间的距离。为此目的创建的词典还将关注类别之间的类别平衡和类别区分度,以尽量减少偏见。因此,该技术也解释了训练时的类不平衡。
3.5 Transformation Based
除了前面讨论的基于差异的损失函数、重建和基于 GAN 的端到端架构之外,对域自适应的另一个重要贡献是作为输入域样本的预处理应用的变换。在这个领域的一个开创性的工作是直接域适应(DDA)。利用互逆线性变换的 DDA 是一种基于预处理输入数据以减少样本通过网络之前的域偏移的最新方法。该技术匹配域之间的信噪比。来自目标域的样本与源域进行卷积,反之亦然,以减少移位。因此,在训练和测试之前,减少了网络外部的域偏移。
在 TransPar 中探索了一种不同形式的转换技术。这项工作遵循一种在网络中识别参数的方法,该方法在训练时学习域不变特征。该方法基于彩票假设,求出网络的可传递参数和不可传递参数。可传递参数的比率与分布之间的域移位距离成反比。来自损失的反向传播权重识别可传递参数。然后,该模型分别更新两个参数,重点关注可以更好地跨域泛化的参数。它的重点是减少网络学习到的特定于领域的信息,并可以集成到当前基于 UDA 的模型中。
所有工作及其结果的总结见表 1。我们根据它们对齐域的方法对它们进行了分类。这些模型的性能比较也在表 1 中相互比较。他们的表现表明,对抗性方法在所有模型中产生最好的结果。基于组合的模型也有接近对抗方法的结果。这些组合模型通常是涉及对抗和基于差异的方法的技术的组合。基于编码器-解码器架构的重建网络也在不同的数据集上产生了良好的结果。
4 Conclusions
这项工作调查了几篇论文不同的方法域适应技术。在大多数现实情况下,目标域可能没有标记,并且只共享与源域类似的几个类。这预示着在未来几年内,无监督领域适应的广泛研究。
5 Future Works
对抗网络和不同领域适应技术的组合模型是领域适应的一个有前途的方向。与大多数领域适应技术相比,这类方法能产生更好的效果。由于域适应的应用数量较多,预计未来将在这一方向开展大量工作。