什么叫域适应 Domain Adaptation ?及近年出现的一些新算法

在迁移学习中, 当源域和目标的数据分布不同 ,但两个任务相同时,这种 特殊 的迁移学习 叫做域适应 (Domain Adaptation,DA )。因为其任务相同,所以根据上篇博客中的内容可知,域适应属于一种直推式迁移学习。它在2006年由Daumeaume等人首次提出[1]。
1.域适应的一些基本公式
源域由充足的带标签数据组成,目标域由不充足的带标签数据或者充足的无标签数据组成。且目标域与源域中数据的分布不相同。X,Y分别表示带标签数据的数据以及标签,P(X,Y) 是X,Y的联合概率分布(joint distribution)(联合概率分布的几何意义为:如果将二维随机变量(X,Y)看成是平面上随机点的坐标,那么分布函数F(x,y)在(x,y)处的函数值就是随机点(X,Y)落在以点(x,y)为顶点而位于该点左下方的无穷矩形域内的概率。)。P(X,Y)s,P(X,Y)t 分别对应源域以及目标域的联合分布函数。Ps(X), Ps(Y), Pt(X), Pt(Y) 表示源域和目标域中X以及Y的边缘分布(marginal distributions)(某一组概率的加和,叫边缘概率。边缘概率的分布情况,就叫边缘分布)。 Ps(X|Y), Ps(Y|X), Pt(X|Y), Pt(Y|X) 表示X,Y的条件分布。X=x,Y=y 的联合概率为P(X=x,Y=y)=P(x,y)。 x∈χ,y∈Υ, 其中χ,Υ 表示实例空间以及类标签空间。
S={(xsi,ysi)}Nsi=1 表示源域中的有标签数据,Tl={(xtil,ytil)}Ntli=1 表示目标域中的有标签数据,Tu={(xtiu)}Ntui=1 表示目标域中的无标签数据,T 表示T1,T2 的集合。通常情况下Ns 远大于 Ntl。
域适应的目标是学习一个函数f() 用来测试目标域中的新的数据。根据源域与目标域中数据的不同域适应可以分类四类:
1)半监督域适应:函数f() 是通过S,Tl 学习得到。
2)无监督域适应:函数f() 是通过S,Tu 学习得到。
3)多域域适应(multisource domain adaptation):函数f() 是通过S 以及 1)2)两种情形得到。
4)异质域适应(heterogeneous domain adaptation)

2.与域适应相关的几种方法
1)Covariate shift
这种方法与域适应方法的一种最基本不同是在源域与目标域中标签Y的条件分布相同,但是X的边缘分布在两个与中不相同。即Pt(Y|X=x)=Ps(Y|X=x) 对于所有的x∈χ成立,且Pt(X)≠Ps(X)。源域以及目标域之间的这些不同被称为covariate shift或者sample selection bias.
实例加权的方法可以解决这种问题。即在损失函数中中加入一个权重使得源域与目标域之间的差异表小。
2)Class imbalance
这种方法对于所有的标签y∈Υ,均有Pt(X|Y=y)=Ps(X|Y=y),以及Pt(Y)≠Ps(Y)。
3)Multitask learning
在多任务学习中源域与目标域的边缘分布是相似的。即对于所有不同的任务来说每个任务的联合概率分布不同,但是所有的任务共享一个边缘分布。求每个任务所对应的条件模型时各个模型的参数θ是通过相同的先验分布采样得到。
4)Semisupervised learning
在半监督学习训练过程中不但用到了带标签数据还用到了不带标签数据,但是要求这些数据必须具有相同的分布。其余域适应的区别有:半监督学习过程中带标签数据非常少,但是域适应中需要有充足的带标签数据。在域适应中如果不是以Y的条件分布相同为前提的话那么带标签数据是存在噪声的,但是在半监督域学习中所有的带标签数据都认为是可靠的,因为它要求其带标签数据与不带标签数据的分布相似。
5)self-taught learning
同样带标签数据非常少,不带标签数据非常充足。但是此时不带标签数据也许和带标签数据不是特别相关。(这也是self-taught learning 与semisupervised learning最大的区别。)但是这些带标签数据与不带标签数据在一些特殊区域是有相似性的,例如一些边缘或者是角。
如果不存在任何的带标签数据的话那就变为无监督self-taught learning, 也被称为self-taught clustering.
6)Multiview analysis
现实生活中采集到的数据通常具有各种不同的角度,这就导致源域与目标域的特征空间不同。在multiview learning中,两种不同poses的样本之间的对应关系是被假设成已知的,即同一个物体具有不同姿态下的图片,但是在cross-view learninng from domain adaptation,则不需要这种假设。

3.视觉领域的一些域适应方法
1)特征增强相关方法(feature augmentation-based approaches)
即通过将源域域目标域的特征复制的方式,最简单的将原始域中N维的特征映射到一个增强的特征空间中,得到3N维的特征。在最初时候这个3N维特征有N维为两个域的公共特征,N维为原始域的特征,N维0特征。然后将这些特征送入有监督分类器中,学到一个针对两个域的共同的映射空间。
当此方法用于异质域时(指两个域的特征的维度不同),则是先通过两个投影矩阵将两个不同维度的特征映射到相同的特征维度后,再通过相同的特征增强的方式进行。

2)feature transformation-based approaches
最基本的思想是通过一种线性转换W∈RN×M 将源域特征xs∈S 转换到 xt∈T
借助这种线性转换计算源域与目标域之间的相似度: simw=(xs)TWxt。通过对W加入正则化处理可以降低过拟合。通过一些监督函数学得一种现象转换,然后再将此相似性函数用于分类算法中。

3)parameter adaptation methods
这种方法主要是基于变形的SVM展开的,例如Yang等人提出的adaptive SVM. 在这种方法中将基于源域学得的分类器fs(x) 用于学得一个新的适应于目标域的分类器ft(x) 。其决策函数为ft(x)=fs(x)+δf(x),δf(x) 是扰动函数。通过优化方法优化决策函数得到目标域的分类器。
还有很多域适应的方法是基于核方法的(kernel methods),多核方法(multiple kernel learning,MKL)也被成功用于很多方法中,但是其前提假设是训练和测试数据来自相同的域。因此也有很多方法基于MKL提出跨域核函数[2]-[4]。

由于1)2)3)用时都有其各自的限制,例如对于1)2)主要是优化通过特征层优化源域与目标域的不同,而没有考虑优化目标函数。这种方法的计算复杂度主要是由训练时所用的训练样本数所决定的。在方法3)中时直接优化分类器,但是它们无法将这种适应度函数直接用于新类。因此有人将这些方法进行结合。[5]-[7].

4)Dictionary-based approaches
这种方法主要用于信号处理和图像处理领域。因为在这些领域中对于信号和图像的高维的表示可以通过编码的方式得到表示其的特征词典。然后通过特征词典中的词来表示此信号与图像。虽然这种特征辞典的方式非常有效,但是当测试图像与训练图像不属于同一个域的时候便变得不再有效,因此提出了基于词典的域适应方法。[8]-[11]
这种方法主要是通过学习可用于源域与目标域的共同的特征字典的方式,然后再进行目标识别或分类。

5)其他方法
近期比较火的是基于神经网络的域适应方法。

4.域适应的应用
1)人脸识别
由于在人脸识别过程中,会有不同姿态不同光照下的图像,这就导致了源域与目标域特征分布的不同。因此可以通过上述方法4)解决这个问题。
2)人脸合成(校准)
3)物体识别

references:
[1] Daume III H, Marcu D. Domain adaptation for statistical classifiers[J]. Journal of Artificial Intelligence Research, 2006, 26: 101-126.
[2]Duan, Lixin, et al. “Visual event recognition in videos by learning from web data.” IEEE Transactions on Pattern Analysis and Machine Intelligence 34.9 (2012): 1667-1680.
[3]Duan, Lixin, Ivor W. Tsang, and Dong Xu. “Domain transfer multiple kernel learning.” IEEE Transactions on Pattern Analysis and Machine Intelligence 34.3 (2012): 465-479.
[4]Guo, Zhenyu, and Z. Jane Wang. “Cross-domain object recognition via input-output kernel analysis.” IEEE transactions on image processing 22.8 (2013): 3108-3119.
[5]Shi, Yuan, and Fei Sha. “Information-theoretical learning of discriminative clusters for unsupervised domain adaptation.” arXiv preprint arXiv:1206.6438 (2012).
[6]Hoffman, Judy, et al. “Efficient learning of domain-invariant image representations.” arXiv preprint arXiv:1301.3224 (2013).
[7]Donahue, Jeff, et al. “Semi-supervised domain adaptation with instance constraints.” Proceedings of the IEEE conference on computer vision and pattern recognition. 2013.
[8]Qiu, Qiang, et al. “Domain adaptive dictionary learning.” European Conference on Computer Vision. Springer Berlin Heidelberg, 2012.
[9]Shekhar, Sumit, et al. “Generalized domain-adaptive dictionaries.” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2013.
[10]Ni, Jie, Qiang Qiu, and Rama Chellappa. “Subspace interpolation via dictionary learning for unsupervised domain adaptation.” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2013.
[11]Phillips, P. J., Jingjing Zheng, and Rama Chellappa. “Sparse Embedding-based Domain Adaptation for Object Recognition.” The 1st International Workshop on Visual Domain Adaptation and Dataset Bias. 2013.

 

  • 有一篇论文([cvpr2017]Joint Geometrical and Statistical Alignment for Visual Domain Adaptation )对Domain Adaptation做了一定的总结,我直接把我当时的翻译抄一下(这里是针对判别式模型(discriminator model)的分析):
    • 常见的域适应包括基于实例(instance-based)的适应、基于特征表示( feature representation)的适应、基于分类器(classifier-based )的适应,其中在非监督的情况下,因为没有target labels,所以基于分类器的适应是不可行的。
      • 通常分布差异(distribution devergence)可以通过基于实例(instance-based)的适应,比如对source domain中的样本的权重重新加权
      • 或者可以通过特征表示的方法(feature representation/transformation)的方式,将source domain和target domain的特征投影到第三个使得分布的偏差较小的domain当中。
      • 基于实例(instance-based)的方法需要比较严格的假设:1)source domain和target domain的条件分布是相同的,2)source domain中的某些部分数据可以通过重新加权被重用于target domain中的学习。
      • 基于特征表示(feature representation/transformation)的s适应的假设则相对来说更弱一点,仅仅假设存在一个使得source domain和target domain的分布相似的公共空间。
    • 有两大类特征变换的方法:1)以数据为中心(data centric methods );2)以子空间为中心(subspace centric methods)
    • 以数据为中心的方法(data centric methods ) 寻求一个统一的转换,将数据从source domain和target domain投影到域不变空间(domain invariant space)当中,以求减少source domain和target domain上数据的分布差异(distributional divergence),并且同时保留原始空间当中的数据属性
    • 以数据为中心的方法(data centric methods )仅仅利用两个域中的共同特征(shared feature),然而当source domain和target domain的差异很大(have large discrepancy)的时候会导致失败,因为使得source domain和target domain分布一致的公共空间可能会不存在。
    • 以子空间为中心的方法(subspace centric
      methods)则是通过操纵两个域的子空间(比如建立线性映射,或者使用类似grassmann 这样的流形来进行映射)来减少域位移(domain shift),使得每个域的子空间都有助于最终映射的形成。
    • 作者认为,以子空间为中心的方法仅在两个域的子空间上进行操作,而不用直接地考虑两个域的投影数据之间的分布偏移。(However, the subspace centric methods only manipulate on the subspaces of the two domains without explicitly considering the distribution shift between projected data of two domains.)
  • 另外一篇论文([CVPR2017]Adversarial Discriminative Domain Adaptation)则是依据对抗性损失(Adversarial Loss)的建模方式进行分析,大致分为以下两种
    • 使用生成式模型(generative model)的
      • 最初的论文GAN就是典型的生成式建模,利用噪声直接生成对应标签图像,可以视为学习了类的联合分布,即生成式模型
      • 域适应中比如CoGAN和下文中的Unsupervised Pixel–Level Domain Adaptation with Generative Adversarial Networks就是生成式建模
      • 论文作者认为生成式模型的优点在于训练期间不需要复杂的推理和抽样(?),缺点是训练的难度可能很大,当source domain和target domain差异较大的时候,单纯使用生成式模型网络可能不收敛,并且对图像进行生成式建模是不必要的,毕竟神经网络最终学习的目的就是得到类的后验概率,即神经网络本身是个判别式模型。
    • 使用判别式模型的(目前大部分的Domain Adaptation使用的是这个方法,差异也很大,不好直接归类)
    • 例子:

我大致用上面的归类方法对目前的论文进行归类:

Deep Domain Confusion: Maximizing for Domain Invariance(2014)

  • 点击查看笔记
  • 基于特征变换-以数据为中心的方法(同一个映射)
  • 采用的技术:
    • maximum mean discrepancy:最大平均差异
  • 模型:
  • 特点:
    • source domain和target domain之间参数的完全共享
  • 性能:

Unsupervised Domain Adaptation by Backpropagation(2015)

  • 点击查看笔记
  • 基于特征变换-以子空间为中心的方法
  • 适用于非监督
  • 采用的技术:
    • GAN loss的对抗性损失,具体实现使用的是梯度反转层GRL,其“pesudo function”表示如下:
  • 模型:
  • 特点:
    • 特征提取之后,在域分类器(domain classifier)之前加入了一个梯度反转层。
  • 作者针对不同的数据集使用了不同的网络:
  • 性能:

Beyond Sharing Weights for Deep Domain Adaptation(2016)

  • 点击查看笔记
  • 基于特征变换-以子空间为中心的方法
  • 适用于非监督和半监督
  • 采用的技术:
    • maximum mean discrepancy:最大平均差异
  • 模型:
  • 特点:
    • source domain和target domain之间参数的部分共享
    • 在source domain和target domain之间学习一个线性的转换
    • 有一个很严重的问题,就是网络的架构会随着任务的改变而改变(否则性能会下降)
    • 性能的话(据作者所说)好于Deep Domain Confusion的
  • 性能:


Domain Separation Networks(2016)

  • 点击查看笔记
  • 源代码(论文里给出了地址 https://github.com/tensorflow/models/domain_adaptation,但是我点进去404了)
  • 基于特征变换-以子空间为中心的方法(LsimilarityLsimilarity
  • 采用的技术:
    • adversarial loss的对抗性损失,具体实现使用的是梯度反转层GRL
    • MMD(后来作者觉得使用MMD效果不如GAN loss)
  • 模型:

  • 特点:
    • 分别针对source domain与target domain共有的部分,source domain和target domain私有的部分进行训练
    • 在source domain和target domain之间的共有部分之间,作者最终选择了GAN loss,在两个stream之间另外建立了一个Domain classifier(域分类器)从梯度反转层(GRL)产生的结果中进行学习,与交叉熵形式的LsimilarityLsimilarity进行对抗性训练
  • 备注:
    • 论文里的GGDD和GAN那篇论文里的GGDD不太一样
    • 论文里的图像重建部分(shared Decoder)仅仅是用于观察学习的进度,貌似和对抗性损失的关系不大。
  • 性能:


Deep CORAL: Correlation Alignment for Deep Domain Adaptation(2016)

  • 点击查看笔记
  • 基于特征变换-以数据为中心的方法(同一个映射)
  • 非监督
  • 采用的技术:
    • CORAL损失:lCORAL=CSCT2F4d2lCORAL=‖CS−CT‖F24d2
      • CORAL作为二阶统计量,对齐source domain和target domain的CORAL能够对齐source domain和target domain的均值和协方差矩阵
      • 后一个是矩阵的Frobenius范数
        • 协方差矩阵计算:
          •  CS=1nS1(DTSDS(lTDS)T(lTDS)nS) CS=1nS−1(DSTDS−(lTDS)T(lTDS)nS)
          •  CT=1nT1(DTTDT(lTDT)T(lTDT)nT) CT=1nT−1(DTTDT−(lTDT)T(lTDT)nT)
          • 其中 l l是一个所有元素为1的列向量
  • 模型(AlexNet,fc8层引入CORAL):
  • 备注:
    • 作者强调他的模型是”end-to-end”的,但是我没搞懂什么意思
    • 作者也强调这个CORAL正则项很“易于实现”
  • 性能:

Unsupervised Domain Adaptation with Residual Transfer Networks(2017)

  • 点击查看笔记
  • 源代码
  • 基于特征变换-以子空间为中心的方法
  • 非监督
  • 采用的技术:
    • 多层MMD(Maximum Mean Discrepancy on multiple layers):
      minfS,fTDL(DS,DT)=i=1nsj=1nsk(zsi,zsj)n2s+i=1ntj=1ntk(zti,ztj)n2t2i=1nsj=1ntk(zsi,ztj)nsntminfS,fTDL(DS,DT)=∑i=1ns∑j=1nsk(zis,zjs)ns2+∑i=1nt∑j=1ntk(zit,zjt)nt2−2∑i=1ns∑j=1ntk(zis,zjt)nsnt
    • Residual function(Deep residual learning for image recognition.[CVPR2016])
  • 模型(前面AlexNet,ResNet等):
  • 特点:
    • 这篇论文更倾向于解决source domain和target domain差异较大的情况,source domain和target domain使用的是不同的分类器
    • source domain和target domain的分类器作者认为不应差距过大,所以在source domain和target domain的分类器之间学习一个Residual functionΔf(x)Δf(x)使得source domain和target domain的分类器有个较小的区别,其中, fs(x)=ft(x)+Δf(x) fs(x)=ft(x)+Δf(x)(target domain上没有标签,所以用source domain的放在前面)
    • 为保证target domain的分类器确实有分类的能力,使用entropy penalty(熵惩罚)保证分类器的输出趋向于one-hot vector(保证了low-density separation)。
  • 性能:

[CVPR2017]Unsupervised Pixel–Level Domain Adaptation with Generative Adversarial Networks

  • 点击查看笔记
  • 源代码:”We plan to open source our code once author feedback is released”
  • 非监督(实验中提到了半监督的拓展)
  • 本文使用对抗性损失(adversarial loss)中的生成式模型(generative model)进行domain adaptation任务
  • 模型(分类器和域适应解耦合):
  • 采用的技术:
    • adversarial loss:
      • 与GAN那篇文章里有不同,本文将source domain图像和一个随机噪声(实验中提到是均匀分布的(1,+1)U∈(−1,+1))作为生成器(generator)的输入(类比GAN那篇文章里的zz),去拟合target domain的图像的分布(类比GAN那篇文章中原始的图像分布)
      • 本文:
      • GAN:
    • 受style transfer的启发,使用的Content–similarity loss
      • 希望generator生成的图像,前景色和source domain基本一致(背景色不作要求),不过并不是阻止前景色的变化,而是希望前景色的变化能够保持一致。
      • 在给定一个遮罩的情况下进行图像的Content–similarity loss,不过我没有看明白这个图像是数据集给定的,还是网络学习得出的,还是自己标记的(这个几乎不可能):

  • 备注:
    • target domain和source domain的标签域可以不一样,target domain训练时和测试时可以使用不同的标签。
    • 作者说因为这个域适应是在像素级别上进行的( because our model
      maps one image to another at the pixel level),所以我们可以改变这个Task-Specific图像训练结构

      • 网络对参数设置不敏感
  • 性能:





[CVPR2017]Mind the Class Weight Bias: Weighted Maximum Mean Discrepancy for Unsupervised Domain Adaptation

  • 点击查看笔记
  • 源代码
  • 基于特征变换-以子空间为中心的方法
  • 非监督
  • weighted MMD 说明:
  • 采用的技术:
    • 改良后的MMD(weighted MMD,作者把相应的架构称为WDAN(weighted domain adaptation network)):
      • 直接使用MMD来测量source domain和target domain作者认为会造成一定的误差,因为仅仅使用MMD没有考虑到source domain和target domain之间的class weight(类的先验分布)的不同。当source domain和target domain的类的先验分布差异很大的时候,仅仅使用MMD会造成target domain上严重的分类失误。
      • 作者引入class-specific auxiliary
        weights(类特定辅助权重?)对source domain的样本重新分配权重,以使得映射以后的source domain样本的类后验分布于target domain一致(但是难点在于target domain的类先验分布未知,因为没有标签,因此后验分布也未知)(对于判别式模型(discriminative model),网络学习的是类的后验概率)
      • 为了解决target domain的类先验分布未知的问题,作者又引入了一个新的训练方式,被称为ECM(具体见笔记)
        • E:估计target domain的类后验概率(用上次迭代得到的分类器做出的预测来进行判断)
        • C:利用E步骤中计算的类后验概率,给定每个target domain数据一个pesudo label,并计算class-specific auxiliary
          weights(类特定辅助权重?)的估计值
        • M:利用class-specific auxiliary
          weights的估计值,更新网络的各个参数,得到的分类器用于下一次迭代给E以预测的结果。
  • 特点:
    • 当source domain和target domain的类先验分布差异较大的时候,这个网络应该会有比较好的表现
  • 性能:

[CVPR2017]Learning an Invariant Hilbert Space for Domain Adaptation

  • 因为我水平所限(流形学习与相关的数学方面的知识不足),这篇论文很大一部分无法理解,所以只能简单归类一下)
  • 点击查看笔记
  • 源代码
  • 基于特征变换-以子空间为中心的方法
  • 非监督与半监督
  • 模型说明:
  • 采用的技术:

[CVPR2017]Adversarial Discriminative Domain Adaptation

  • 点击查看笔记
  • 基于特征变换-以子空间为中心的方法
  • 非监督
  • 模型说明:

    • 虚线为固定参数
    • 先预训练source domain上的分类器CSCS和source mappingMsMs,其中作者假设source domain和target domain共用一个分类器
    • 之后固定source domain上的参数,对抗性地训练域分类器DD和target mappingMtMt
    • 测试期间则直接使用source domain上的分类器对映射后的target domain数据进行分类
    • (我本人的想法)分类器仅仅使用source domain上的数据进行训练,可能并不能很好地推广(泛化),毕竟仅仅使用source domain训练的分类器可能会带有一定的域特定特征(domain-separated feature)
  • 采用的技术:
    • adversarial loss:
      • 作者的对抗性损失考虑的比较周到,这也是该论文的亮点,详细的在笔记里有提到,这里就不再详细说了
  • 性能:

[cvpr2017]Deep Hashing Network for Unsupervised Domain Adaptation

  • 点击查看笔记
  • 源代码
  • 基于特征变换-以子空间为中心的方法
  • 非监督
  • 模型:
  • 采用的技术:
    • 多层的的多核MMD(multi-kernel Maximum Mean Discrepancy (MK-MMD))
    • Hash:
      • 希望source domain学习到的哈希码中,同一类的哈希码尽可能相似,不同一类的哈希码尽可能不同(相似度的概率度量使用汉明距离(Hamming Distance)
      • 希望target domain学习到的哈希码能够和source domain中某一类的图片的哈希码相似,但是和其他类的哈希码不相似
  • 特点:
    • 在数据量很庞大的时候,所以考虑到了哈希,可以利用哈希的快速查询和低内存使用
  • 性能:


[cvpr2017]Joint Geometrical and Statistical Alignment for Visual Domain Adaptation

  • 这篇文章我读的比较吃力,近期内我打算在学习LDA的相关知识以后再针对这篇文章进行校正,现在这篇笔记仅供参考
  • 点击查看笔记
  • 源代码
  • 作者在他的网络中学习两个耦合的投影(coupled projections),将source domain和target domain上的数据映射到相应的子空间。在映射之后:
    • 最大化target domain上数据的方差以保留target domain上数据的特征
    • 保留source domain上数据的判别信息(discriminative information)以使得有效地传送类别的信息
    • 最小化投影后的source domain和target domain上数据的条件分布差异(conditional distribution divergences),在统计上(statistically)减少域偏移(domain shift)
    • 使得两个域的投影之间的差异较小(子空间之间的差异较小),在几何上(geometrically)减少域偏移(domain shift)。
    • 1) the variance of target domain is maximized,
      2) the discriminative information of source domain is preserved,
      3) the divergence of source and target distributions
      is small, and 4) the divergence between source and target
  • 优势:
    • 与基于数据的方法不同,作者的方法不需要强大的假设:统一变换可以减少分布偏移,同时保留数据属性。
    • 不同于基于子空间的适应方法,作者的方式不仅减少了子空间的几何移动(reduce the shift of subspace geometries)并且减少了两个域之间的分布偏移
    • 作者认为自己的方法可以很容易的扩展到kernelized(核方法)来处理域之间的偏移是非线性的情况
  • 采用的技术:

[cvpr2017]Domain Adaptation by Mixture of Alignments of Second- or Higher-Order Scatter Tensors

  • 这篇文章我看起来依然有些吃力,以下写的仅供参考
  • 点击查看笔记
  • 基于特征变换-以子空间为中心的方法
  • 模型:
  • 采用的技术:
    • 使用高阶(二阶或者更高)的scatter张量积作为衡量source domain和target domain的距离
  • 特点:
    • 作者将自己的模型称为Second or
      Higher-order Transfer of Knowledge (So-HoT),是一个对source domain和target domain之间进行二阶或者更高阶次的统计量的一个对齐(alignment).
  • 性能:



原文链接:

https://blog.csdn.net/SusanZhang1231/article/details/73275024

https://blog.csdn.net/MataFela/article/details/77827217

转载请注明:《什么叫域适应 Domain Adaptation ?及近年出现的一些新算法

发表评论