数据集类别不平衡性对迁移学习的影响分析

程 磊1 吴晓富1 张索非2

(1. 南京邮电大学通信与信息工程学院,江苏南京 210003; 2. 南京邮电大学物联网学院,江苏南京 210003)

摘 要: 数据集类别不平衡性是机器学习领域的常见问题,对迁移学习也不例外。本文针对迁移学习下数据集类别不平衡性的影响研究不足的问题,重点研究了以下几种不平衡性处理方法对迁移学习的影响效果分析:过采样、欠采样、加权随机采样、加权交叉熵损失函数、Focal Loss函数和基于元学习的L2RW(Learning to Reweight)算法。其中,前三种方法通过随机采样消除数据集的不平衡性,加权交叉熵损失函数和Focal Loss函数通过调整传统分类算法的损失函数以适应不平衡数据集的训练,L2RW算法则采用元学习机制动态调整样本权重以实现更好的泛化能力。大量实验结果表明,在上述各种不平衡性处理方法中,过采样处理和加权随机采样处理更适合迁移学习。

关键词:迁移学习;不平衡数据分类;深度神经网络;重采样

中图分类号:TP391

文献标识码:A

DOI:10.16798/j.issn.1003- 0530.2020.01.014

引用格式: 程磊, 吴晓富, 张索非. 数据集类别不平衡性对迁移学习的影响分析[J]. 信号处理, 2020, 36(1): 110-117. DOI: 10.16798/j.issn.1003- 0530.2020.01.014.

Reference format: Cheng Lei, Wu Xiaofu, Zhang Suofei. Analysis of the Effect of Class Imbalance on Transfer Learning[J]. Journal of Signal Processing, 2020, 36(1): 110-117. DOI: 10.16798/j.issn.1003- 0530.2020.01.014.

文章编号: 1003-0530(2020)01-0110-08

收稿日期:2019-08-14;修回日期:2019-09-26

基金项目:国家自然科学基金(61372123,61701252)

Analysis of the Effect of Class Imbalance on Transfer Learning

Cheng Lei1 Wu Xiaofu1 Zhang Suofei2

(1. College of Communication and Information Engineering, Nanjing University of Posts and Telecommunication,Nanjing, Jiangsu 210003, China; 2. Internet of Things College, Nanjing University of Posts and Telecommunication, Nanjing, Jiangsu 210003, China)

Abstract: Class imbalance of datasets is a common problem in the field of machine learning and transfer learning is no exception. However, very limited research is available about the effect of class imbalance on transfer learning, this paper focuses on the analysis of the effects of several imbalanced classification algorithms on transfer learning to address the issue: oversampling, undersampling, weighted random sampling, weighted cross entropy loss, Focal Loss and L2RW algorithm based on meta learning. Among them, the first three methods eliminate the imbalance of the dataset by random sampling, weighted cross entropy loss and Focal Loss keep the dataset unchanged and adjust the loss function of standard classification algorithms, and L2RW algorithm adopts meta learning mechanism to adjust the weight of training set sample dynamically to achieve better performance in generalization. Extensive empirical evidence shows that oversampling and weighted random sampling are more suitable for transfer learning among various imbalanced classification algorithms.

Key words transfer learning; imbalanced classification; deep neural network; resampling

1 引言

迁移学习是近年来机器学习领域研究的热门,它针对新任务中标记数据量小(目标域数据)的特点,提出有效地利用已知标注的数据(源域数据)迁移应用到新的任务中,实现已标注数据到未标注数据的知识迁移。迁移学习已被广泛地应用于诸如表情识别[1]、室内定位、文本分类等领域的研究中。

近年来,使用深层神经网络来提取特征的领域自适应算法[2]是迁移学习在图像分类应用中的研究热点,此类算法尝试构建一个特征空间来对齐源域数据和目标域数据的条件概率分布,通过同时最小化源域损失和域间差异损失来达到从源域到目标域的知识迁移。然而在实际应用中,很多情况下源域数据和目标域数据的类别分布不平衡,如Office-31数据集、Office-Home数据集和VisDA数据集。利用不平衡分类算法往往能提高这种情况下迁移学习的效果。

传统的数据分类方法把不同类别的数据同等看待,致力于提高整体的分类准确度。但现实中存在很多数据分布不平衡的情况,如破产预估、市场流失预测、软件缺陷预测等。传统的分类算法以数据分布均衡作为前提,这对不平衡分类问题并不适用。当数据类别分布不平衡时,正确区分少数类(样本数较少的类别)样本的意义高于整体分类准确率。而少数类样本较少出现或者是收集代价高,这部分样本的严重缺乏给数据分类增加了难度。不平衡分类算法的研究就显得很有实用性,不平衡数据分类问题一直是备受关注的研究内容。

对于深度学习领域,解决不平衡数据分类问题的方法可以分为两类:数据层面的方法和算法层面的方法。第一类方法旨在改变不平衡数据集的类别分布从而使得一般的分类算法正常运行,比如最常见和通用的重采样技术。第二类方法旨在对传统分类算法进行调整,从而使得在不平衡的数据集上训练也能得到准确率较高的分类模型,常见的如代价敏感学习[3]。对于使用深层网络进行特征提取的领域自适应算法,源域数据和目标域数据可能类别分布不平衡,它们彼此之间的类别分布也可能不同。数据分布不平衡将导致迁移学习效果的下降,使用上述两类不平衡性处理方法可以消除类别不平衡的负面影响。

为了研究各种不平衡处理方法对迁移学习的影响效果,本文在多种迁移学习算法上进行了各种不平衡处理方法的对比实验,由于目标域类别分布未知,所以我们针对源域数据进行各种不平衡性处理,并以目标域准确率为评价标准。为了进一步验证数据集大小对迁移学习框架下不平衡处理方法的影响,本文在不同大小的VisDA子集上进行了实验比较。

2 不平衡处理方法介绍

2.1 重采样

传统的分类算法直接运用到不平衡数据集上,分类效果不佳。重采样方法从数据层面解决其分布不平衡问题,即对不平衡数据集进行重采样使得各类别分布均匀,进而提高模型的分类准确率。按照对类别样本数的影响不同可分为过采样[4]和欠采样[5]两大类。

2.1.1 过采样

过采样方法通过增加少数类样本使其与多数类样本数相同以实现各类别分布均匀,是机器学习领域使用最频繁的不平衡处理技术之一。其最基础的模式为简单随机过采样,通过随机采样少数类样本进行简单的复制以扩大其样本数,对于多数类而则不采取任何处理。但这种简单的处理可能会导致过拟合的出现,为此,一种改良的过采样方法SMOTE[6]被提出以解决该问题。SMOTE方法通过一定策略进行人工合成少数类样本,达到平衡数据集的目的,但对于基于卷积神经网络的图像分类问题,该方法难以拟合高纬度的样本,故本文中采用的过采样方法为简单随机过采样。

2.1.2 欠采样

与过采样相反,欠采样方法的基本思想是通过减少多数类样本来达到类别间的相对均衡,再采用传统分类算法进行训练。其最基础的模式为简单随机欠采样,通过随机删除多数类中的一部分样本达到数据集的再平衡。虽然这种方法可能会丢失多数类样本中的一些重要信息并影响分类性能,但已有研究表明欠采样可能比过采样更适用于某些特定的情形[7]。本文中采用的欠采样方法为简单随机欠采样。

2.1.3 加权随机采样

加权随机采样(Weighted Random Sampling)是一种根据数据集内各样本权重大小不同进行随机重采样的方法,在pytorch内已有封装实现。其中样本权重是人为设置的,可以通过设置不同的样本权重来获得不同类别分布的重采样数据集。

该方法的基本思想是在n个样本组成的数据集中根据各样本权重大小不同随机采样出m个样本进而组成重采样数据集,权重大的样本被采样到的概率更高,且允许单个样本被重复采样。为了获得类别均匀分布的源域数据,我们可以将源域各样本的权重设置为其对应类别先验概率(类别样本数占总样本数的比例)的倒数,进而使用该加权随机采样器对源域数据进行重采样。

因为该采样方式并没有像欠采样一样丢失了数据集的部分信息且允许单个样本重复出现,所以这样设置样本权重的加权随机采样属于简单随机过采样的改进算法。相较于简单随机过采样,加权随机采样并没有强制数据集中各类别数目完全一致,经其重采样后的数据集各类别分布相对趋于平衡,这种相对缓和的采样机制在一些情形下反而能取得更好的效果。

2.2 代价敏感学习

代价敏感学习在算法层面进行改进以适应不平衡数据的训练和测试,通过赋予多数类和少数类不同的误分类代价,让分类器在预测时能更加关注少数类,从而提高分类准确率。

2.2.1 加权交叉熵损失函数

长期以来,很多不平衡处理方法尝试在传统分类算法的损失函数上做出改进,使得其适用于不平衡数据的训练,这也是代价敏感学习的一种形式。代价敏感学习理论认为,对于多数类和少数类,分类器误分类带来的代价是不同的。这些方法的基本思想是通过赋予少数类相对于多数类更高的误分类代价来使得分类器在训练中对于少数类更为敏感。本文采用了文献[8]中所使用的加权交叉熵损失函数来进行网络的训练,这也是深度学习领域中频繁使用的一种不平衡性处理方法。其具体表达如公式(1)所示:

(1)

其中,S表示源域数据,l(f(x), y)表示神经网络预测值与真实标签的交叉熵损失函数。w(x,y)表示标签为类别y的样本的权重参数,对于该参数,少数类的值大于多数类。权重参数计算方式具体如公式(2)、(3)所示:

(2)

(3)

通过权重参数w(x,y)的限制,少数类和多数类得以在反向传播更新参数的过程中占据平等的地位,使得分类器在预测阶段不会倾向于多数类。

2.2.2 Focal Loss函数

Focal Loss[9]函数是为了解决one-stage目标检测中正负样本比例严重失衡的问题而提出的。该损失函数降低了大量易分类样本在损失项中所占的权重,进而使得神经网络专注于对困难分类样本的学习,相当于一种困难分类样本挖掘算法。其具体表达如公式(4)所示:

FL(p)=-α(1-p)γlog(p)

(4)

Focal Loss函数和标准的交叉熵损失函数的主要区别在于表达式中加入了权重因子α和调制因子(1-p)γ。仅使用权重因子α则相当于上述加权交叉熵损失函数,调制因子的使用使得Focal Loss函数相对于标准的交叉熵损失函数有以下两点特性:

(1)当一个样本被误分类时,其对应的网络预测概率p很小,调制因子接近于1,损失项几乎不受影响;而当概率p接近于1时,调制因子接近于0,这些易分类样本损失项的权值就被调低了。

(2)参数γ平滑地调节了易分类样本权值降低的比率。γ增大能增强调制因子的影响作用。

在Focal Loss实验中,我们固定权重因子α为1,设置参数γ∈{1,2,3,4}。针对每个迁移学习任务,我们都遍历了γ四种取值的实验,并报道了γ四种取值中最好的实验结果用于比较。

2.2.3 基于元学习的自动调整权重策略

近年来,一些学者尝试采用元学习的方法动态地调整训练集中各样本的权重,从而有效地解决诸如类别分布不平衡和标签含噪这样的问题,典型算法如文献[10-12]。其中,文献[10]提出了MentorNet,并使用一种数据驱动的课程学习策略来解决标签含噪导致深度神经网络过拟合的问题,但该算法学习样本权重的机制相对较为复杂;文献[11-12]则提出使用一个无偏的验证集来自动学习训练集样本的权重,二者的不同之处在于文献[11]提出的L2RW(Learning to Reweight)算法隐式地学习样本权重,而文献[12]通过提出的Meta-Weight-Net可以显式地学习样本权重。

我们以L2RW算法进行实验并与各种不平衡处理方法进行比较,该算法的步骤如下:

(1)从训练集和验证集中分别采样出一个批量的样本,其大小分别为nm。要求训练集基数远大于验证集,验证集类别分布平衡且标签不含噪。

(2)设权重扰动项ε=0,输入训练集样本,使用该扰动项加权的损失函数进行反向传播更新网络参数θt,其前向传播和反向传播如公式(5)、(6)所示:

fi,ε(θ)=εi fi(θ)

(5)

(6)

其中fi(θ)表示训练集中第i个样本的损失项。

(3)输入验证集样本,计算验证集损失关于权重扰动项ε的梯度并更新训练集样本权重,其具体表达如公式(7)所示:

(7)

其中表示验证集中第j个样本的损失项。

(4)对使用验证集更新后的训练集样本权重进行归一化,且保证其为正数。

(5)再次输入训练集样本,使用经验证集更新并归一化后的权重重新计算其损失,反向传播重新更新初始的网络参数θt而非进而得到θt+1

以上步骤为L2RW算法一次迭代训练的过程。由于在迁移学习中,目标域标签未知,所以我们在L2RW算法实验中采样源域数据的一部分作为验证集并设置验证集大小约为源域样本基数的十分之一。

3 迁移学习算法及数据集介绍

3.1 迁移学习算法介绍3.1.1 MCD算法

MCD[13]算法采用了集成学习的思想进行迁移学习。该算法考虑了任务特异性的决策边界,认为必须对齐源域和目标域特征的条件分布。MCD算法的核心思想是通过两个不同初始化的分类器对于目标域样本预测的差异来寻找接近类别决策边界的样本,再使用对抗学习的机制进而在特征空间对齐源域和目标域的条件分布。

MCD算法提出的网络结构如图1所示,由特征提取器和两个初始化方式不同的分类器组成。其训练步骤主要由以下三步组成:

图1 MCD网络结构
Fig.1 Architectures of MCD networks

(1)最小化源域上的分类误差来训练两个分类器,且通过初始化方式的不同来保证分类器之间的差异。

(2)固定特征提取器的参数,反向传播更新分类器的参数,最大化两个分类器对于目标域样本的预测差异d(p1(y|xt),p2(y|xt))来获取更多接近类别决策边界的样本。该差异以L1损失函数衡量,具体表达如公式(8)所示:

d(p1(y|xt),p2(y|xt))=

(8)

(3)最后固定分类器的参数,反向传播更新特征提取器的参数,最小化两个分类器对于目标域样本的预测差异来对齐源域和目标域的条件分布。

在MCD算法中,为了提升测试准确率,对于目标域数据运用了如公式(9)所示的entropy loss,用于无监督的目标域不平衡处理。

(9)

该损失项能够促使网络预测的目标域类别分布接近均匀分布,从而提高算法的性能。由于本文所做的各种不平衡处理都是针对源域数据进行的,所以在具体实验中,我们并未改变上述entropy loss。

对于MCD算法,本文主要在VisDA数据集上进行了各种不平衡处理方法的比较实验。实验中,我们使用了经ImageNet数据集预训练的ResNet[14]101网络作为特征提取器,使用了三层全连接层作为分类器模块。训练批量大小设置为32,使用学习率为0.001的随机梯度下降法进行参数优化。本文在MCD算法上比较了baseline(除上述entropy loss外不使用任何不平衡处理方法)和上述各种不平衡处理方法训练了5个epoch的最高测试准确率。

3.1.2 CDAN算法

文献[15]认为当数据特征具有非常复杂的模态结构时,普通的对抗迁移学习算法无法捕获多模态的数据结构,容易造成负迁移。CDAN算法被提出以解决上述问题,作为基于条件对抗网络的迁移学习方法,CDAN算法使用多线性映射将特征提取器输出的深度特征和分类器预测类别概率结合起来以对齐其联合分布。其映射关系如公式(10)所示。

(10)

其中, f表示特征提取器输出的深层特征,g表示分类器预测类别概率。CDAN结构如图2所示,由特征提取器、标签分类器和域鉴别器三部分组成。通过上述映射方法再结合图2所示的对抗学习网络对齐源域和目标域的联合分布可以达到比一般的对抗迁移学习方法更好的效果。

图2 CDAN结构
Fig.2 Architectures of CDAN

对于CDAN算法,本文在Office-31数据集和Office-Home数据集以及VisDA数据集上进行了baseline(不使用任何不平衡处理方法)和上述各种不平衡处理方法的比较实验。实验中,我们使用了经ImageNet数据集预训练的ResNet50网络作为特征提取器。训练批量大小设置为36,各种不平衡处理方法都进行了40000次迭代训练,并以5次随机实验测试准确率的均值作为评价标准。

3.1.3 MDD算法

文献[16]对早期的迁移学习理论研究进行一定的扩充,并且引入了一种新的度量准则MDD(margin disparity discrepancy),用于在特征空间对齐源域和目标域,该度量准则既适用于非对称边缘损失的分布比较,也适用于GAN[17]的参数更新机制。与MCD算法类似,由上述度量准则导出的对抗迁移学习算法MDD使用辅助分类器与主分类器以实现相对于传统单分类器对抗迁移学习算法更好的效果。

对于MDD算法,本文在Office-31数据集和Office-Home数据集以及VisDA数据集上比较了baseline(不使用任何不平衡处理方法)和上述各种不平衡处理方法的性能。实验中,我们使用了初始学习率为0.004,牛顿动量为0.9的随机梯度下降法进行参数更新,训练批量大小设置为32,每种不平衡处理方法都进行了40000次迭代训练,并以5次随机实验测试准确率的均值作为评价标准。

3.2 数据集介绍3.2.1 Office-31

Office-31数据集是一个用于图像分类迁移学习的基准数据集。其包含3个领域的子集:Amazon(A),Webcam(W),Dslr(D),分为31个类别,共有4652张图片。在Office-31数据集中,不仅各个子集的样本总数不同,而且子集内部各类别分布不平衡,可以通过不平衡处理方法在Office-31数据集上促使迁移学习效果提升。对于Office-31数据集,我们以目标域数据集测试准确率作为算法的评价标准。

3.2.2 Office-Home

Office-Home数据集是一个相对于Office-31数据集规模更大、更复杂的迁移学习数据集。其包含4个领域的子集:Art(Ar),Clipart(Cl),Product(Pr),Real-World(Rw),分为65个类别,共有15500张图片。各子集类别分布不平衡,且子集与子集之间的类别分布也互不相同。

相对于Office-31数据集,在Office-Home数据集中,子集之间的差异更大,迁移学习的难度也更大,也更适合各种不平衡处理方法性能的比较。对于Office-Home数据集,我们以目标域数据集测试准确率作为算法的评价标准。

3.2.3 VisDA

VisDA数据集是迄今为止规模最大的图像分类迁移学习数据集,分为Synthetic和Real两个领域,含有12个类别,共有28万多张图片。对于VisDA数据集,我们以目标域数据集各类别测试准确率的均值作为算法的评价标准。

4 实验结果与分析

由于实验环境的差异,部分baseline实验达到的效果可能与原论文报道的有所差异,为了对各种不平衡处理方法做一个公平的比较,用做对比的baseline实验结果是我们运行源代码得出的,而非原论文报道的结果。需要说明的是,用于比较的Focal Loss实验结果是我们遍历Focal Loss表达式中参数γ∈{1,2,3,4}中取得的最好结果,对于不同的迁移学习任务,参数γ的最佳取值可能不一样。

4.1 实验结果

各种不平衡处理方法对MCD算法在VisDA数据集上的影响效果如表1所示。可以看到,过采样处理实现了最高的分类准确率。过采样不仅实现了最高的平均类别准确率,也在多个类别上达到了最高的预测准确率。另外,加权随机采样和加权交叉熵损失函数的使用也获得了相对于baseline的提升。但欠采样、Focal Loss(γ=1)和L2RW算法的使用反而损害了MCD算法在VisDA数据集上的表现。

表1 不同不平衡分类方法下的MCD算法在VisDA数据集的准确率(%)

Tab.1 The Accuracy(%) of MCD algorithm with different imbalanced classification methods on the VisDA

Methodplanebcyclbuscarhorseknifemcyclpersonplantsktbrdtraintruckmeanbaseline87.173.689.763.886.667.677.975.187.464.280.525.573.3过采样90.471.886.864.891.166.085.865.189.656.077.842.173.9欠采样82.969.189.661.282.571.773.169.883.454.975.123.169.7加权随机采样91.777.086.862.084.556.085.773.882.967.479.436.673.7加权交叉熵90.177.687.663.090.469.377.468.184.269.381.225.473.6FocalLoss87.661.984.959.388.178.586.871.885.252.884.028.372.4L2RW85.471.186.361.782.371.883.575.782.162.076.425.972.0

各种不平衡处理方法对CDAN算法和MDD算法在Office-31,Office-Home和VisDA数据集上的影响效果如表2所示。对于Office-31和Office-Home数据集,我们分别从中选取了一个和两个具有代表性的迁移任务用于各种不平衡处理方法的比较。对于未列举出的迁移任务,我们也进行了实验,得出的结论相仿。

从表2可以看出,对于CDAN算法,加权随机采样是最好的不平衡处理方法,该方法在4个迁移任务中的3个都实现了最高准确率。由于CDAN算法对齐的是特征和预测类别概率的联合分布,这导致大部分不平衡处理方法表现不佳。对于MDD算法,过采样是最好的不平衡处理方法,过采样在4个迁移任务中的3个都实现了最高准确率。

结合表1和表2的实验结果,可以得到如下结论:

表2 不同算法在Office-31,Office-Home和VisDA数据集的准确率(%)

Tab.2 The Accuracy(%) of different algorithms on the Office-31, Office-Home and VisDA

MethodCDANSynthetic→RealW→ARw→PrAr→ClMDDSynthetic→RealA→WRw→PrRw→Clbaseline68.969.683.051.469.193.582.659.4过采样67.469.283.153.269.894.282.959.7欠采样66.867.479.743.767.289.978.654.8加权交叉熵67.568.382.545.969.093.381.658.2加权随机采样67.870.783.253.869.492.783.059.6FocalLoss69.769.382.851.568.094.182.158.7L2RW68.368.982.751.869.293.181.558.4

(1)相较于其他方法,过采样和加权随机采样是更适合迁移学习的不平衡处理方法。两者都在上述9个迁移任务中的4个上实现了最高准确率,且在大部分迁移任务上都表现稳定,相对于baseline有所提升。

(2)因为采样过程中有部分信息的丢失,欠采样的表现相对于baseline在9个迁移任务上都有所下降,欠采样处理并不适用于迁移学习。

(3)加权交叉熵损失函数在大部分迁移任务上的表现相对于baseline有所下降。这种固定样本权重的方法不适用于迁移学习。

(4)Focal Loss函数在各个迁移任务的表现很不稳定,且在大部分迁移任务上相对于baseline有所下降,该方法不适用于迁移学习。需要注意的是,对于不同的迁移任务,Focal Loss表达式中参数γ的最佳取值可能不同。在表2中,CDAN算法在Synthetic→Real和W→A以及MDD算法在A→W和Rw→Cl上的最佳γ取值为2;CDAN算法在Rw→Pr和Ar→Cl以及MDD算法在Rw→Pr上的最佳γ取值为1;而MDD算法在Synthetic→Real迁移任务上的最佳γ取值为3。

(5)基于元学习的L2RW算法在大部分迁移任务的表现相对于baseline有所下降。L2RW算法的性能依赖于验证集的选择,更适用于有监督学习,对于目标域无标签的迁移学习并不适用,并不能通过该算法对源域的处理从而提高在目标域的性能,且该算法训练时间较长。但基于元学习的自动学习权重的加权策略仍是未来不平衡数据处理的重要研究方向,将其运用于迁移学习还值得进一步探索。

4.2 数据集大小影响分析

从上述实验可以看出,相同的不平衡处理方法在VisDA数据集和Office-31,Office-Home数据集上的表现可能有所差异。我们认为数据集的大小和复杂度可能会影响不平衡处理方法的表现,为了验证数据集大小对不平衡处理方法的影响,我们对VisDA数据集进行了特定的裁剪以生成不同大小的子集。我们在维持源域和目标域样本总数比例和域内各类别样本数比例不变的前提下,对VisDA数据集进行了不同程度的裁剪,裁剪生成后的子集Synthetic域样本总数分别为30000、60000、90000和120000,对应的Real域样本总数分别为10000、20000、30000和40000。我们在多个不同大小的VisDA子集上实验并比较了baseline和已被证明在VisDA数据集有所提升的三种不平衡处理方法(过采样,加权随机采样,加权交叉熵损失函数)的性能。实验结果如图3所示。

为了便于对比,我们在图3中加入了原VisDA数据集上的实验结果,其对应的样本数为207785。从图3中可以得出,数据集大小和复杂度的不同并未对上述三种不平衡处理方法的表现造成不良影响。在各个子集上表现最好的不平衡处理方法是过采样,过采样在各个子集上表现稳定,而加权交叉熵损失函数和加权随机采样的表现有所波动。

图3 不同不平衡分类方法下的MCD算法在VisDA不同大小子集的准确率
Fig.3 The Accuracy of MCD algorithm with different imbalanced classification methods on the VisDA subsets with different size

5 结论

本文研究了各种不平衡处理方法对迁移学习的影响效果,为了保证结论的普适性,本文在三个不同的迁移学习基准数据集上进行了实验。实验结果表明,相较于三种调整损失函数的代价敏感学习方法,过采样和加权随机采样在不同的迁移任务上实现了最高的准确率且表现稳定。因此可以得到如下结论:在各种不平衡处理方法中,过采样处理和加权随机采样处理更适合迁移学习。

参考文献

[1] 翟懿奎, 刘健. 面向人脸表情识别的迁移卷积神经网络研究[J]. 信号处理, 2018, 34(6): 729-738.

Zhai Yikui, Liu Jian. Facial expression recognition b-ased on transferring convolutional neural network[J]. Journal of Signal Processing, 2018, 34(6): 729-738.(in Chinese)

[2] Pan S J, Yang Qiang. A survey on transfer learning[J]. IEEE Transactions on Knowledge and Data Engineering, 2009, 22(10): 1345-1359.

[3] Elkan C. The foundations of cost-sensitive learning[C]∥International Joint Conference on Artificial Intelligence. Lawrence Erlbaum Associates Ltd, 2001, 17(1): 973-978.

[4] Ling C X, Li Chenghui. Data mining for direct marketing: Problems and solutions[C]∥Kdd. 1998, 98: 73-79.

[5] Guo Haixiang, Li Yijing, Jennifer S, et al. Learning from class-imbalanced data: Review of methods and applications[J]. Expert Systems with Applications, 2017, 73: 220-239.

[6] Chawla N V, Bowyer K W, Hall L O, et al. SMOTE: synthetic minority over-sampling technique[J]. Journal of Artificial Intelligence Research, 2002, 16: 321-357.

[7] Drummond C, Holte R C. C4. 5, class imbalance, and cost sensitivity: why under-sampling beats over-sampling[C]∥Workshop on Learning from Imbalanced Datasets II. Washington, DC: Citeseer, 2003, 11: 1- 8.

[8] Manders J, van Laarhoven T, Marchiori E. Adversarial Alignment of Class Prediction Uncertainties for Domain Adaptation[J]. stat. ML, 2018, arXiv: 1804.04448.

[9] Lin T Y, Goyal P, Girshick R, et al. Focal loss for dense object detection[C]∥Proceedings of the IEEE International Conference on Computer Vision and Pattern Recognition, 2017: 2980-2988.

[10] Jiang Lu, Zhou Zhengyuan, Leung T, et al. Mentornet: Learning data-driven curriculum for very deep neural networks on corrupted labels[J]. cs. CV, 2017, arXiv: 1712.05055.

[11] Ren Mengye, Zeng Wenyuan, Yang Bin, et al. Learning to reweight examples for robust deep learning[J]. cs. LG, 2018, arXiv: 1803.09050.

[12] Shu Jun, Xie Qi, Yi Lixuan, et al. Meta-Weight-Net: Learning an Explicit Mapping For Sample Weighting[J]. cs. LG, 2019, arXiv: 1902.07379.

[13] Saito K, Watanabe K, Ushiku Y, et al. Maximum classifier discrepancy for unsupervised domain adaptation[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018: 3723-3732.

[14] He Kaiming, Zhang Xiangyu, Ren Shaoqing, et al. Deep residual learning for image recognition[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016: 770-778.

[15] Long Mingsheng, Cao Zhangjie, Wang Jianmin, et al. Conditional adversarial domain adaptation[C]∥Advan-ces in Neural Information Processing Systems, 2018: 1640-1650.

[16] Zhang Yuchen, Liu Tianle, Long Mingsheng, et al. Bridging Theory and Algorithm for Domain Adaptation[J]. cs. LG, 2019, arXiv: 1904.05801.

[17] Goodfellow I, Pouget-Abadie J, Mirza M, et al. Generative adversarial nets[C]∥Advances in Neural Information Processing Systems, 2014: 2672-2680.

作者简介

程 磊 男, 1996年生, 安徽安庆人。南京邮电大学通信与信息工程学院硕士研究生。主要研究方向为深度学习与迁移学习。

E-mail: chanleimi@163.com

吴晓富 男, 1975年生, 江苏南京人。博士, 南京邮电大学教授。研究方向为信息论与编码、机器学习与计算机视觉、密码学与信息安全。

E-mail: xfuwu@njupt.edu.cn

张索非 男, 1982年生, 江苏镇江人。博士, 南京邮电大学讲师。研究方向包括图像与视频信号处理、机器学习、物联网技术等。

E-mail: zhangsuofei@njupt.edu.cn