Processing math: 100%

基于深度学习的RGBD图像协同显著目标检测

周晓飞, 郭舒瑶, 温洪发, 刘炳涛, 李世锋, 张继勇, 颜成钢

周晓飞, 郭舒瑶, 温洪发, 刘炳涛, 李世锋, 张继勇, 颜成钢. 基于深度学习的RGBD图像协同显著目标检测[J]. 信号处理, 2022, 38(6): 1213-1221. DOI: 10.16798/j.issn.1003-0530.2022.06.008
引用本文: 周晓飞, 郭舒瑶, 温洪发, 刘炳涛, 李世锋, 张继勇, 颜成钢. 基于深度学习的RGBD图像协同显著目标检测[J]. 信号处理, 2022, 38(6): 1213-1221. DOI: 10.16798/j.issn.1003-0530.2022.06.008
ZHOU Xiaofei, GUO Shuyao, WEN Hongfa, LIU Bingtao, LI Shifeng, ZHANG Jiyong, YAN Chenggang. Deep Learning-based Co-salient Object Detection on RGBD Images[J]. JOURNAL OF SIGNAL PROCESSING, 2022, 38(6): 1213-1221. DOI: 10.16798/j.issn.1003-0530.2022.06.008
Citation: ZHOU Xiaofei, GUO Shuyao, WEN Hongfa, LIU Bingtao, LI Shifeng, ZHANG Jiyong, YAN Chenggang. Deep Learning-based Co-salient Object Detection on RGBD Images[J]. JOURNAL OF SIGNAL PROCESSING, 2022, 38(6): 1213-1221. DOI: 10.16798/j.issn.1003-0530.2022.06.008

基于深度学习的RGBD图像协同显著目标检测

基金项目: 

国家重点研发项目 2020YFB1406604

国家自然科学基金 61901145

浙江省自然科学基金 LR17F030006

杭电-中电大数据技术工程研究中心 KYH063120009

详细信息
    作者简介:

    周晓飞 男,1988年生,安徽淮北人。杭州电子科技大学讲师,博士,主要研究方向为视频与图像处理、视觉显著目标检测与分割。E-mail:zxforchid@outlook.com

    郭舒瑶 女,1998年生,河南沈丘人。杭州电子科技大学硕士研究生,主要研究方向为图像处理、视觉显著目标检测与分割。E-mail:212050206@hdu.edu.cn

    温洪发 男,1994年生,山东莱州人。杭州电子科技大学博士研究生,主要研究方向为计算机视觉、深度学习。E-mail:hf_wen@outlook.com

    刘炳涛 男,1983年生,山东滨州人。杭州电子科技大学讲师,博士,主要研究方向为计算机体系结构、可重构计算、微处理器架构。E-mail:liubingtao@hdu.edu.cn

    李世锋 男,1966年生,河南信阳人。中电数据服务有限公司,硕士,主要研究方向为数据治理和分析。E-mail:lishifeng@cecdat.com

    张继勇(通讯作者) 男,1977年生,湖北黄冈人。杭州电子科技大学教授,博士,主要研究方向为人工智能、大数据、云计算和智能人机交互。E-mail:jzhang@hdu.edu.cn

    颜成钢 男,1984年生,浙江杭州人。杭州电子科技大学教授,博士,主要研究方向为深度学习、图像处理、智能信息处理。E-mail:cgyan@hdu.edu.cn

Deep Learning-based Co-salient Object Detection on RGBD Images

  • 摘要: 本文旨在研究一种基于深度学习的RGBD图像协同显著目标检测模型。首先,本文构建了多分支的编码器结构,有效地提取RGBD图像的深层卷积特征;然后,使用多模态特征融合模块充分融合来自编码器的深层特征;最后,通过基于残差基本块的解码器来预测得到显著性图。此外,本文以深层次监督的方式对整个网络进行约束优化。在两个公开数据集上的测试结果表明,所提模型在预测精度上优于当前6种主流模型,这其中我们的显著性图呈现出更精确的边缘细节。
    Abstract: ‍ ‍This paper aims to propose a co-salient object detection model on RGBD images based on deep learning algorithm. Firstly, this paper constructs a multi-stream encoder structure which can be effectively employed to extract deep convolution features of RGBD images. Then, a multi-modal feature fusion module is used to sufficiently integrate the deep features from the encoder. Finally, a decoder equipped with the residual connection and deep supervision is designed to generate saliency maps. The experimental results on two public datasets show that the performance of our model is superior to the six state-of-the-art models, where the saliency map of our model presents more precise boundary details.
  • 对于视野中出现的所有物体,人类视觉往往会更加关注吸引人眼注意的物体,依据这种视觉信息处理机制捕捉的物体被定义为显著目标。显著目标检测(Salient Object Detection,SOD)作为计算机视觉领域的基础性任务,旨在模拟人类的视觉系统,从图像/视频所包含的场景中快速地定位感兴趣的目标,而忽略区域中的其他信息。Itti等人1基于一般计算框架和心理学理论,提出了最早的显著性模型,其能够凸显场景中的显著物体。Liu等人2和Achanta等人3将显著目标检测定义为一个二值分割问题,致力于定位分割显著区域。显著目标检测方法的使用可以减少数据处理量、加快信息处理速度,被广泛运用于分割4、识别5、压缩6、图像编码7、图片质量评价8等相关视觉任务中。

    与此同时,人们发现随着深度相机相关技术的迅速发展,获取深度(Depth)信息的方式变得更为便捷。相关研究表明,相比于RGB图像凸显场景表观信息,Depth图像能够有效凸显场景中物体的几何边界。因此,研究人员尝试利用RGBD图像来提高显著目标检测的准确性。例如,Qu等人9采用早融合策略,将手工设计的RGB特征和Depth特征串接起来,并以此作为卷积神经网络(Convolutional Neural Networks,CNN)的输入。Fan等人10在通道维度上将RGB图像和Depth图像进行连接,以此作为卷积神经网络的输入。Wang等人11采用后期融合策略,并学习一个开关映射函数来自适应地融合RGB分支和Depth分支的显著性预测结果。Liu等人12采用中期融合策略,提出了一种基于相互注意力的多模态融合结构来有效融合RGB分支和Depth分支的卷积特征。

    相较于以往对RGBD图像进行的显著目标检测研究,本文将研究拓展到多幅RGBD图像。这里,多幅RGBD图像之间存在极强的相关性,有着类似的目标。为此,本文尝试利用相关图像间的信息,对一组RGBD图像中的协同显著目标进行检测。由此可以看出,协同对象应同时具有两个主要属性:1)对象在单个图像中是显著的;2)对象在相关图像组中普遍存在。同时,注意到现有的RGBD图像协同显著目标检测方法主要有两类,包括基于传统图像处理算法的模型和基于手工提取特征的机器学习模型。例如,Song等人13利用基于聚类的方法检测协同显著目标,这其中涉及的特征包括平均深度值、深度范围和方向梯度直方图。Cong等人14设计了一种迭代检测框架,该框架主要包含添加、删除和迭代方案。

    上述方法主要利用传统图像处理算法和机器学习方法来获取RGBD图像间的共同显著区域。同时,随着深度学习技术的快速发展,深度学习技术也开始广泛应用于显著目标检测领域,检测性能得到极大地提升。但现有的基于深度学习的各种显著性检测模型主要针对单幅图像或者单个视频序列,针对多幅RGBD图像的基于深度学习技术的协同显著目标检测模型尚未被提出。

    为此,本文提出一种基于深度学习的RGBD图像协同显著目标检测模型。该模型的输入为目标RGBD图像和两幅协同图像(仅是RGB图像)。模型充分提取与融合多幅图像之间的共有特征,以此凸显共同对象,由此得到目标图像的协同显著性图。特别地,与已有的基于深度学习的显著性检测模型不同,本文首先设计了“单体图像特征提取模块”,通过四条并行的单体图像特征编码器分支满足本任务中多模态信息输入的要求,以此充分挖掘单幅图像丰富的特征。此外,在已有的针对多模态任务的卷积神经网络结构设计中,如何选择特征融合策略是一个挑战性问题。为此,本文基于UNet网络15架构设计了以ConvGRU单元为核心的多模态特征融合模块,对多模态深层语义信息进行了有效融合,极大地提高了协同显著性模型性能。

    图1所示,本文提出的RGBD图像协同显著性模型由三个子模块组成,包括“单体图像特征提取模块”(图1中蓝色区域)、“多模态特征融合模块”(图1中浅绿色区域)和“高-低特征集成模块”(图1中橘红色区域)。本文提出的卷积神经网络模型基于UNet架构设计,以端到端的方式进行联合训练。首先,为了满足多模态信息输入的要求,并且为了有效地从输入图像(即图1中的目标图像I、协同图像CI1、协同图像CI2和Depth图像D)中提取单体特征,本文在广泛使用的VGG-16网络结构16的基础上设计了单体图像特征提取模块,如图1所示,即具有相同网络结构的四个并行编码器分支。由此可以得到了四个编码器分支的初始特征映射,并将它们作为多模态特征融合模块的输入,进行多模态特征的融合。最后,模型采用高-低特征集成模块将编码器的原始特征传输到并行解码器的不同层级中,为解码器补充低层语义中有价值的信息。最终可以得到对应于目标图像的协同显著性图,如图1所示。

    图  1  RGBD协同显著目标检测网络框架图
    Fig.  1.  Architecture of the proposed RGBD co-salient object detection network

    在下面的小节中,首先在第2.1节介绍单体图像特征提取模块,接着在第2.2节介绍多模态特征融合模块。最后,高-低特性集成模块的设计将在第2.3节中讨论。

    为满足多模态信息输入的任务要求,本文采用以下图像数据预处理方法:首先,由于不同数据集之间深度信息的存储差异性,将每个目标图像对应的Depth图像像素标准化为[0,255],然后将每个单通道Depth图像简单复制扩展为三个通道,以简化网络训练;其次,考虑到网络复杂度和硬件承载力,本文选择从同一类别中为每张目标图像I随机选择两张协同图像{CI1,CI2},并且穷举所有排列组合方式;最后,将目标图像及其对应的标准化的三通道Depth图像和两幅协同图像组合成一个“RGBD协同显著性检测序列”{I,CI1,CI2,D},作为模型的输入。

    然后,为了有效地提取图像的深层特征,本文构建了单体图像特征提取模块,主要是图1中蓝色区域所示的四个并行编码器分支部分,分别对应目标图像I、协同图像CI1、协同图像CI2和Depth图像D。这四个并行编码器采用相同的层级结构,并在对应目标图像I、协同图像CI1和协同图像CI2的三个编码器分支进行了参数共享17。具体地,受VGG-16网络结构和其他改进的编码器结构的启发18,本文将两个全连接层转换成1024通道数的卷积层(fc6层替换为3×3的卷积层,并将膨胀率19设置为12,fc7替换为1×1的卷积层)。此外,将卷积块Conv5的膨胀率改为2,并将卷积块Conv5和全连接层间的池化层步长由2调整为1。

    其中,fi()表示第i个编码器分支,SFi表示第i个编码器分支输出的特征映射图,pIpCI1pCI2pD分别表示目标图像编码器分支、两个协同图像编码器分支和Depth图像编码器分支的模型参数。

    最后,单体图像特征提取模块输出32×32的初始特征映射图序列{SF1,,SF4}

    在单体图像特征提取模块之后,从四个编码器分支中得到了多模态特征。如何选择有效的融合方案来融合目标图像特征、协同图像特征和Depth图像特征是一个挑战。为此,本文设计了多模态特征融合模块,如图中绿色区域所示。对于每个编码器分支,添加一个卷积层将特征映射图压缩到512个通道,卷积层的数学表示如下:

    其中,Conv()表示卷积层,卷积核为1×1,SF'i表示SFi经过卷积层后的特征映射图。

    接着,本文在卷积层后应用改进的DenseASPP模块20,从而更好地提取和整合单体图像的高级特征。在DenseASPP模块中,有一个池化分支和三个卷积分支。其中,池化分支由一个平均池化层、一个1×1卷积层和上采样层组成。在三个卷积分支中,卷积层通道数统一设置为176,卷积核的膨胀率分别设置为2、4和8。最后,将输入特征图与四个分支的输出特征图在通道维度上进行级联(concat),并设置一个输出通道数为512的卷积层进行压缩。四个分支的数学表示如下:

    其中,AP()表示平均池化层,UP1()表示上采样层,Cat()表示级联,DF1iDF2iDF3iDF4i分别表示第i个编码器分支DenseASPP模块中池化分支和三个卷积分支的输出特征映射图,DAi表示第i个编码器分支DenseASPP模块的最终输出特征映射图。

    接下来,为了获取对应于目标图像的高层语义特征,即协同特征,本文以级联方式,采用3个门控循环单元(ConvGRU)21来提取协同卷积特征。如图1所示,本文共设置了三个ConvGRU单元,分别对应于目标图像编码器分支和两个协同图像编码器分支。与卷积长短时存储器(ConvLSTM)22相比,ConvGRU仅由一个复位门和一个更新门组成,在计算快速的同时可以获得相当的效果。具体来说,本文在所有ConvGRU单元中都采用3×3的卷积核。ConvGRU单元的数学表示如下:

    其中,ConvGRU()表示ConvGRU单元,CF1CF2CF3分别表示三个ConvGRU单元输出的特征映射图。由此,三个并行RGB图像分支的高层语义信息经过级联ConvGRU模块之后,得到了32×32的特征映射图,通道数为512。

    最后,为了进一步充分融合由RGB图像得到的协同特征和由Depth图像得到的深度信息,本文引入Selective Self-Mutual Attention(S2MA)模块12来充分融合协同特征图与Depth特征图。在这过程中,实现了目标图像的深度特征对协同特征的引导,为后续解码工作奠定了基础。

    在解码器部分,本文构建了高-低特征集成模块,该模块采用残差连接的双解码器分支结构,包括作用于目标RGB图像的解码器分支和作用于目标Depth图像的解码器分支。在多模态特征融合模块之后,每个分支都设置一个卷积核为3×3、通道数为512的卷积层。对于Depth图像的解码分支,本文使用表示为“”的残差卷积块,其表达式如下:

    其中,EFj表示Depth图像解码器分支第j层级生成的特征映射图,IFj表示Depth图像编码器分支输入到Depth图像解码器分支第j层级的特征映射图,RFj表示Depth图像解码器分支第j层级传输到相应RGB图像解码器分支的特征映射图。

    对于RGB解码器分支,本文构建了另一个表示为“”的残差卷积块,其表达式如下:

    其中,HFj表示RGB图像解码器分支第j层级生成的初步特征映射图,PFj表示RGB图像解码器分支第j层级生成的特征映射图,MFj表示RGB图像编码器分支输入到RGB图像解码器分支第j层级的特征映射图。

    如图中黑色箭头所示,本文在每个解码器分支中构建了六个深度监督通道。如图1所示,在不同解码器层级的特征映射(EFjPFj)上,本文添加一个3×3的卷积层和Sigmoid激活函数来生成显著性映射图。然后,计算显著性图和真值图(Ground Truth, GT)之间的交叉熵损失值,以此进行网络的训练。本文模型在训练时的总损失由RGB解码器分支和Depth解码器分支不同层级的损失加权求和所得:

    其中,LRGBLDepth分别表示RGB解码器分支的总损失和Depth解码器分支的总损失,Lb表示{LRGB,LDepth}中的某一解码器分支,lnαn分别表示Lb解码器分支第n层级的损失值和对应权值,N表示解码器总层级数(本文中N=6)。这里仿照已有工作[18],本文将各层级权值分别为0.5、0.5、0.5、0.8、0.8和1。

    本文提出的RGBD图像协同显著目标检测模型在两个基准数据集上进行了评估:1)RGBD Coseg183数据集23和2)RGBD Cosal150数据集14。其中,RGBD Coseg183数据集包含183幅图像,共有16个包含6到17张图像的图像组,同组图像拍摄于具有共同显著目标的室内场景中。RGBD Cosal150数据集是从RGBD图像显著目标检测数据集RGBD NJU-1985数据集中收集了21个图像组,共包含150幅图像。两个数据集都提供了Depth图像和像素级真值图。

    为了更好地评估模型的性能,本文使用了平均绝对误差MAE、F-measure、S-measure24和E-measure25四个计算机视觉任务常用评价指标。

    平均绝对误差(MAE)通过显著性图S和真值图G之间的平均像素级差异计算可得:

    其中,WH分别是图像的宽度和高度。

    F-measure是一种整体表现衡量,定义为准确率和召回率的加权平均值:

    其中,PR分别是准确率和召回率,β2设置为0.3以强调准确率26

    S-measure指标可以评估显著性图和真值图G之间的结构相似性:

    其中,Sr表示区域相似性,So表示对象相似性,并设置α为0.524

    另外,本文使用E-measure指标获取显著性图的全局统计信息和局部像素匹配信息:

    其中,f()表示一个凸函数,表示哈达玛积。对齐矩阵ζ是在偏差矩阵φGTφFM上构造的,φGTφFM两个矩阵可以分别视为GT和二值显著性映射上的中心操作。

    本文使用Pytorch工具箱27实现了所提出的模型,其大小为493MB,并使用RTX 2080 Ti GPU进行加速计算。对于每个数据集,本文随机划分一半的组别进行训练,另一半的组别用于测试,并在一个数据集上重复三次实验后算得平均值。在数据扩增环节,首先将目标图像、Depth图像和协同图像都调整为288×288像素尺寸,然后随机裁剪至256×256像素尺寸,并采用随机水平翻转,最后输入训练网络。此外,对于Depth图像,像素值标准化至[0,255],并由单通道扩展到三通道。

    为了便于网络训练,本文对每个解码器分支进行了深度监督,其中采用了3×3 卷积层和sigmoid激活函数对不同层级解码器的特征映射生成显著性映射图。采用随机梯度下降算法(SGD)对网络模型进行优化,共迭代50万次。对应的参数如权重衰减参数(weight decay)、动量参数(momentum)和批参数(batchsize)分别设置为0.0005、0.9和4。初始学习率和衰减系数分别设置为0.01和0.1,并分别在第10万次和第25万次迭代时衰减学习率。

    为了评估本文提出的协同显著目标检测模型的性能,本文同最近发表的其他6种模型进行了定量和定性比较,包括BSCA28、DCLC29、RC30、RRWR31、ICF14、HSCS32。最后两种方法是目前最先进的RGBD协同显著性模型。

    表1中给出了两个公共数据集上不同RGBD协同显著目标检测模型在MAE、S-measure、F-measure和E-measure方面的指标比较结果。这里,本文用红色、绿色和蓝色依次标记排名前三的模型。↑与↓分别表示数值越高性能越好和数值越低性能越好。可以看到,同其他模型相比,本文模型在RGBD Coseg183和RGBD Cosal150两个数据集上于所有指标上都取得了最好的性能。如图2所示,RGBD Cosal150数据集包含“卡通人物”、“雕塑”和“人物”等图像分组。在“卡通人物”和“雕塑”图像组中,其他模型如ICF只是定位了部分目标区域,而本文模型可以更精确地抑制背景区域并完整地凸显协同显著目标;在“人物”图像组中,本模型可以比其他模型更好地凸显协同显著对象。如图3所示,RGBD Coseg183数据集包含“白帽子”、“雕像”和“白碗”等图像分组。在“雕像”图像组中,协同显著目标与背景色彩相似度较高,其他模型如RRWR无法有效地抑制背景区域,但本文模型可以充分利用Depth信息进行更准确地凸显;在“白帽子”、和“白碗”图像组中,存在多个显著目标的情况,其他模型如HSCS会错误地凸显非协同显著目标,而本文模型可以更有效地利用协同图像间的相关性找出协同显著目标。

    表  1  两个公共数据集上不同RGBD协同显著目标检测模型的定量比较实验结果
    Tab.  1.  Quantitative comparison of experimental results of different RGBD co-saliency object detection models on two public datasets
    DatasetMetricBSCA[28]DCLC[29]RC[30]RRWR[31]ICF[14]HSCS[32]OURS
    Cosal150[14]Sm ↑0.68730.66520.66430.66260.68290.64490.8397
    MAE ↓0.21150.19170.22670.21440.19230.17550.0885
    Em ↑0.77650.77790.73910.77110.77280.77820.8882
    Fm ↑0.66480.70800.65330.66790.74250.77250.8163
    Coseg183[23]Sm ↑0.59220.63910.58120.63620.64500.69230.6981
    MAE ↓0.19120.11620.18920.15450.14850.07940.0505
    Em ↑0.59740.64660.59320.64600.68820.68020.7827
    Fm ↑0.38850.41990.35920.45230.48200.49930.5603
    下载: 导出CSV 
    | 显示表格
    图  2  RGBD Cosal150数据集上本文模型与其他显著性模型和协同显著性模型的定性比较
    Fig.  2.  Qualitative comparison bewteen the proposed model and other saliency and co-saliency models on RGBD Cosal150 dataset
    图  3  RGBD Coseg183数据集上本模型与其他显著性模型和协同显著性模型的定性比较
    Fig.  3.  Qualitative comparison between the proposed model and other saliency and co-saliency models on RGBD Coseg183 dataset

    为了验证本文所提模型各组件的有效性与合理性,这里对所提出的模型进行了相应的变化,以此来进行对应的消融实验。

    1) 验证“单体图像特征提取模块”中协同图像编码器分支的有效性这里,本文舍弃了模型中两个协同图像输入分支,仅保留目标图像分支和Depth图像分支,在表2中的“无协同图像编码器分支”列中记录实验的结果。结果表明,单体图像特征提取模块中引入的协同图像编码器分支能够有效提升模型性能,这也证明了单体图像特征提取模块的有效性。

    表  2  在RGBD Cosal150数据集上进行消融实验,每行中的最佳结果都用粗体标记
    Tab.  2.  Ablation studies are performed on RGBD Cosal150 dataset, and the best result in each row is marked in bold face
    DatasetMetric无协同图像编码器分支无ConvGRU模块OURS
    Cosal150Sm ↑0.86300.86700.8706
    MAE ↓0.08420.07780.0768
    Em ↑0.89420.90970.9118
    Fm ↑0.86120.86980.8762
    下载: 导出CSV 
    | 显示表格

    2) 验证“多模态特征融合模块”中级联ConvGRU模块的有效性这里,为了说明使用ConvGRU部分可以更有效地集成高层协作信息,本文将其替换为卷积核1×1的卷积层,并在表2中的“无ConvGRU模块”列中记录实验的结果。可以看出,本文所提模型依旧取得最好性能。由此可以证明多模态特征融合模块的有效性。

    此外,图4给出了对应的定性主观评测实验,第3列“ab1” 表示无协同图像编码器分支的实验结果,第4列“ab2” 表示无ConvGRU模块的实验结果。以RGBD Cosal150数据集“鸟类”图像组为例,没有协同图像编码器分支的模型无法有效地抑制背景区域,没有级联ConvGRU模块无法准确凸显协同显著目标。由此可以看出协同特征提取编码器分支和级联ConvGRU特征融合的共同作用可以使本文所提模型更有效地实现RGBD图像协同显著目标的准确预测。

    图  4  消融实验视觉图
    Fig.  4.  Visual images of ablation experiment

    本文提出了一种基于深度神经网络的RGBD图像协同显著目标检测模型。具体地,本方法首先构建了并行的编码器结构,有效地获取了RGBD图像的高效表征;接着,使用多模态特征融合模块充分融合来自编码器的深层特征,得到了对应目标图像的协同特征;最后,通过包含残差连接、深度监督的解码器模块进行预测,充分融合目标图像自身的表观和深度信息,由此得到高质量的协同显著性图。在两个公开数据集上的测试结果表明,所提模型在所有评测指标上均优于目前6种较先进的模型,这也证明了本文模型的有效性和优越性。

  • 图  1   RGBD协同显著目标检测网络框架图

    Figure  1.   Architecture of the proposed RGBD co-salient object detection network

    图  2   RGBD Cosal150数据集上本文模型与其他显著性模型和协同显著性模型的定性比较

    Figure  2.   Qualitative comparison bewteen the proposed model and other saliency and co-saliency models on RGBD Cosal150 dataset

    图  3   RGBD Coseg183数据集上本模型与其他显著性模型和协同显著性模型的定性比较

    Figure  3.   Qualitative comparison between the proposed model and other saliency and co-saliency models on RGBD Coseg183 dataset

    图  4   消融实验视觉图

    Figure  4.   Visual images of ablation experiment

    表  1   两个公共数据集上不同RGBD协同显著目标检测模型的定量比较实验结果

    Table  1   Quantitative comparison of experimental results of different RGBD co-saliency object detection models on two public datasets

    DatasetMetricBSCA[28]DCLC[29]RC[30]RRWR[31]ICF[14]HSCS[32]OURS
    Cosal150[14]Sm ↑0.68730.66520.66430.66260.68290.64490.8397
    MAE ↓0.21150.19170.22670.21440.19230.17550.0885
    Em ↑0.77650.77790.73910.77110.77280.77820.8882
    Fm ↑0.66480.70800.65330.66790.74250.77250.8163
    Coseg183[23]Sm ↑0.59220.63910.58120.63620.64500.69230.6981
    MAE ↓0.19120.11620.18920.15450.14850.07940.0505
    Em ↑0.59740.64660.59320.64600.68820.68020.7827
    Fm ↑0.38850.41990.35920.45230.48200.49930.5603
    下载: 导出CSV

    表  2   在RGBD Cosal150数据集上进行消融实验,每行中的最佳结果都用粗体标记

    Table  2   Ablation studies are performed on RGBD Cosal150 dataset, and the best result in each row is marked in bold face

    DatasetMetric无协同图像编码器分支无ConvGRU模块OURS
    Cosal150Sm ↑0.86300.86700.8706
    MAE ↓0.08420.07780.0768
    Em ↑0.89420.90970.9118
    Fm ↑0.86120.86980.8762
    下载: 导出CSV
  • [1]

    ITTI L,KOCH C,NIEBUR E. A model of saliency-based visual attention for rapid scene analysis[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,1998,20(11):1254- 1259. doi:10.1109/34.730558 doi: 10.1109/34.730558

    [2]

    LIU Tie,YUAN Zejian,SUN Jian,et al. Learning to detect a salient object[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2011,33(2):353- 367. doi:10.1109/tpami.2010.70 doi: 10.1109/tpami.2010.70

    [3]

    ACHANTA R,ESTRADA F,WILS P,et al. Salient region detection and segmentation[M]// Lecture Notes in Computer Science. Berlin,Heidelberg:Springer Berlin Heidelberg,2008:66- 75.

    [4]

    YU Zeng,ZHUGE Yunzhi,LU Huchuan,et al. Joint learning of saliency detection and weakly supervised semantic segmentation[C]// 2019 IEEE/CVF International Conference on Computer Vision(ICCV). Seoul,Korea(South). IEEE,2019:7222- 7232. doi:10.1109/iccv.2019.00732 doi: 10.1109/iccv.2019.00732

    [5]

    QIN Xuebin,ZHANG Zichen,HUANG Chenyang,et al. BASNet:boundary-aware salient object detection[C]// 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR). Long Beach,CA,USA. IEEE,2019:7471- 7481. doi:10.1109/cvpr.2019.00766 doi: 10.1109/cvpr.2019.00766

    [6]

    FANG Yuming,CHEN Zhenzhong,LIN Weisi,et al. Saliency detection in the compressed domain for adaptive image retargeting[J]. IEEE Transactions on Image Processing,2012,21(9):3888- 3901. doi:10.1109/tip.2012.2199126 doi: 10.1109/tip.2012.2199126

    [7]

    PAN Zhaoqing,JIN Peng,LEI Jianjun,et al. Fast reference frame selection based on content similarity for low complexity HEVC encoder[J]. Journal of Visual Communication and Image Representation,2016,40:516- 524. doi:10.1016/j.jvcir.2016.07.018 doi: 10.1016/j.jvcir.2016.07.018

    [8]

    WANG Xu,MA Lin,KWONG S,et al. Quaternion representation based visual saliency for stereoscopic image quality assessment[J]. Signal Processing,2018,145:202- 213. doi:10.1016/j.sigpro.2017.12.002 doi: 10.1016/j.sigpro.2017.12.002

    [9]

    QU Liangqiong,HE Shengfeng,ZHANG Jiawei,et al. RGBD salient object detection via deep fusion[J]. IEEE Transactions on Image Processing,2017,26(5):2274- 2285. doi:10.1109/tip.2017.2682981 doi: 10.1109/tip.2017.2682981

    [10]

    FAN Dengping,LIN Zheng,ZHANG Zhao,et al. Rethinking RGB-D salient object detection:models,data sets,and large-scale benchmarks[J]. IEEE Transactions on Neural Networks and Learning Systems,2021,32(5):2075- 2089. doi:10.1109/tnnls.2020.2996406 doi: 10.1109/tnnls.2020.2996406

    [11]

    WANG Ningning,GONG Xiaojin. Adaptive fusion for RGB-D salient object detection[J]. IEEE Access,2019,7:55277- 55284. doi:10.1109/access.2019.2913107 doi: 10.1109/access.2019.2913107

    [12]

    LIU Nian,ZHANG Ni,HAN Junwei. Learning selective self-mutual attention for RGB-D saliency detection[C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR). Seattle,WA,USA. IEEE,2020:13753- 13762. doi:10.1109/cvpr42600.2020.01377 doi: 10.1109/cvpr42600.2020.01377

    [13]

    SONG Hangke,LIU Zhi,XIE Yufeng,et al. RGBD co-saliency detection via bagging-based clustering[J]. IEEE Signal Processing Letters,2016,23(12):1722- 1726. doi:10.1109/lsp.2016.2615293 doi: 10.1109/lsp.2016.2615293

    [14]

    CONG Runmin,LEI Jianjun,FU Huazhu,et al. An iterative co-saliency framework for RGBD images[J]. IEEE Transactions on Cybernetics,2019,49(1):233- 246. doi:10.1109/tcyb.2017.2771488 doi: 10.1109/tcyb.2017.2771488

    [15]

    RONNEBERGER O,FISCHER P,BROX T. U-net:Convolutional networks for biomedical image segmentation[C]// Medical Image Computing and Computer-Assisted Intervention-MICCAI 2015,2015:234- 241. DOI:10.1007/978-3-319-24574-4_28. doi: 10.1007/978-3-319-24574-4_28

    [16]

    SIMONYAN K,ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[C]. In ICLR. 2015:1- 14. doi:10.1109/iccv.2015.314 doi: 10.1109/iccv.2015.314

    [17]

    REN Jingru,LIU Zhi,LI Gongyang,et al. Co-saliency detection using collaborative feature extraction and high-to-low feature integration[C]// 2020 IEEE International Conference on Multimedia and Expo(ICME). London,UK. IEEE,2020:1- 6. doi:10.1109/icme46284.2020.9102969 doi: 10.1109/icme46284.2020.9102969

    [18]

    LIU Nian,HAN Junwei,YANG M H. PiCANet:learning pixel-wise contextual attention for saliency detection[C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City,UT,USA. IEEE,2018:3089- 3098. doi:10.1109/cvpr.2018.00326 doi: 10.1109/cvpr.2018.00326

    [19]

    CHEN L C,PAPANDREOU G,KOKKINOS I,et al. DeepLab:semantic image segmentation with deep convolutional nets,atrous convolution,and fully connected CRFs[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2018,40(4):834- 848. doi:10.1109/tpami.2017.2699184 doi: 10.1109/tpami.2017.2699184

    [20]

    YANG Maoke,YU Kun,ZHANG Chi,et al. DenseASPP for semantic segmentation in street scenes[C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City,UT,USA. IEEE,2018:3684- 3692. doi:10.1109/cvpr.2018.00388 doi: 10.1109/cvpr.2018.00388

    [21]

    SHI Xingjian,GAO Zhihan,LAUSEN L,et al. Deep learning for precipitation nowcasting:A benchmark and A new model[EB/OL]. 2017:arXiv:1706.03458[cs.CV]. https://arxiv.org/abs/1706.03458.

    [22]

    SHI Xingjian,CHEN Zhourong,WANG Hao,et al. Convolutional LSTM network:A machine learning approach for precipitation nowcasting[C]// Advances in Neural Information Processing Systems,2015:802- 810.

    [23]

    FU Huazhu,XU Dong,LIN S,et al. Object-based RGBD image co-segmentation with mutex constraint[C]// 2015 IEEE Conference on Computer Vision and Pattern Recognition(CVPR). Boston,MA,USA. IEEE,2015:4428- 4436. doi:10.1109/cvpr.2015.7299072 doi: 10.1109/cvpr.2015.7299072

    [24]

    FAN Dengping,CHENG Mingming,LIU Yun,et al. Structure-measure:A new way to evaluate foreground maps[C]// 2017 IEEE International Conference on Computer Vision(ICCV). Venice,Italy. IEEE,2017:4558- 4567. doi:10.1109/iccv.2017.487 doi: 10.1109/iccv.2017.487

    [25]

    FAN Dengping,GONG Cheng,CAO Yang,et al. Enhanced-alignment measure for binary foreground map evaluation[C]// Proceedings of the Twenty-Seventh International Joint Conference on Artificial Intelligence. Stockholm,Sweden. California:International Joint Conferences on Artificial Intelligence Organization,2018:698- 704. doi:10.24963/ijcai.2018/97 doi: 10.24963/ijcai.2018/97

    [26]

    BORJI A,CHENG Mingming,JIANG Huaizu,et al. Salient object detection:A benchmark[J]. IEEE Transactions on Image Processing,2015,24(12):5706- 5722. doi:10.1109/tip.2015.2487833 doi: 10.1109/tip.2015.2487833

    [27]

    PASZKE A,GROSS S,CHINTALA S,et al. Automatic differentiation in pytorch[C]. 31st Conference on Neural Information Processing Systems,2017:1- 4.

    [28]

    QIN Yao,LU Huchuan,XU Yiqun,et al. Saliency detection via cellular automata[C]// 2015 IEEE Conference on Computer Vision and Pattern Recognition(CVPR). Boston,MA,USA. IEEE,2015:110- 119. doi:10.1109/cvpr.2015.7298606 doi: 10.1109/cvpr.2015.7298606

    [29]

    ZHOU Li,YANG Zhaohui,YUAN Qing,et al. Salient region detection via integrating diffusion-based compactness and local contrast[J]. IEEE Transactions on Image Processing,2015,24(11):3308- 3320. doi:10.1109/tip.2015.2438546 doi: 10.1109/tip.2015.2438546

    [30]

    CHENG Mingming,MITRA N J,HUANG Xiaolei,et al. Global contrast based salient region detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2015,37(3):569- 582. doi:10.1109/tpami.2014.2345401 doi: 10.1109/tpami.2014.2345401

    [31]

    LI Changyang,YUAN Yuchen,CAI Weidong,et al. Robust saliency detection via regularized random walks ranking[C]// 2015 IEEE Conference on Computer Vision and Pattern Recognition(CVPR). Boston,MA,USA. IEEE,2015:2710- 2717. doi:10.1109/cvpr.2015.7298887 doi: 10.1109/cvpr.2015.7298887

    [32]

    CONG Runmin,LEI Jianjun,FU Huazhu,et al. HSCS:hierarchical sparsity based co-saliency detection for RGBD images[J]. IEEE Transactions on Multimedia,2019,21(7):1660- 1671. doi:10.1109/tmm.2018.2884481 doi: 10.1109/tmm.2018.2884481

  • 期刊类型引用(3)

    1. 谢憬,仝明磊. 基于YOLOv5的2.5D博物馆观众定位方法. 电子设计工程. 2024(08): 182-185+190 . 百度学术
    2. 张继凯,刘越,李宝山,王月明. SOLO-DAFF:一种面向肉牛体尺测量的图像实例分割算法. 黑龙江畜牧兽医. 2023(14): 42-48+132-133 . 百度学术
    3. 倪波,蔡贤涛. Parzen窗算法下图像视觉显著目标识别仿真. 计算机仿真. 2023(11): 161-164+266 . 百度学术

    其他类型引用(3)

图(4)  /  表(2)
计量
  • 文章访问数:  222
  • HTML全文浏览量:  135
  • PDF下载量:  49
  • 被引次数: 6
出版历程
  • 收稿日期:  2021-10-08
  • 刊出日期:  2022-06-24

目录

/

返回文章
返回