万象城娱乐

学院要闻 > 正文

学院学子在计算机视觉顶级会议ECCV 2020发表论文

作者:许玮  发布时间:2020-08-09 08:44:43   来源:万象城娱乐  

近日,计算机视觉顶级会议ECCV 2020公布收录结果,万象城娱乐智能视觉信息处理团队研究生一年级学生阳隆荣的论文《Learning with Noisy Class Label for Instance Segmentation》成功入选,阳隆荣为论文第一作者,李宏亮教授为通讯作者,电子科技大学为唯一作者单位。2016级本科生钱宇阳在商汤科技研究院进行科研实习期间,撰写的论文《Thinking in Frequency: Face Forgery Detection by Mining Frequency-aware Clues》也成功入选该会议,钱宇阳为论文第一作者,电子科技大学为第一作者单位。

欧洲计算机视觉会议(European Conference on Computer Vision)每两年举办一次,与CVPR、ICCV并称为计算机视觉领域的三大顶级会议,受到全世界学术界和工业界的广泛关注。

阳隆荣基于带噪类别标签提供的前景-背景信息始终是正确的这一事实,设计出一种新的组合损失在多实例分割的前景-背景分类的子任务中充分地利用带噪的类别标签。多实例分割(instance segmentation)是一项基础且富有挑战性的计算机视觉研究课题,包括前景-背景分类和前景-实例分类两个子任务。在多实例分割中,数据至关重要,然而,类别本身的模糊性或者标记者经验的局限性会导致错误标注的类别标签,这些误标的类别标签会严重恶化模型的精度。此外,分类任务中提出的对噪声鲁棒的对称损失会严重恶化多实例分割中前景-背景分类的精度。

具体来说,本文将一个batch内的样本分为四类:负样本(NEG)、伪负样本(PSN)、潜在噪声样本(POS)和其他样本(OS)。并且,针对不同的样本,本文采用不同的损失。本文提出的方法能够在多个数据库以及多种噪声样本的设置下稳定地提高模型的精度,且均优于现有的方法。


图1:每一个batch内不同样本使用的损失。训练的第二个阶段中,负样本和伪负样本使用交叉熵损失来充分地利用带噪类别标签正确的前-背景信息


论文链接:https://github.com/longrongyang/LNCIS


近年来,随着人工智能尤其是深度学习的发展,Face Forgery(人脸合成技术)和Deepfake(Deep Learning 和Fake的合成词,即利用机器学习技术进行“换脸”,伪造某人的图像和视频)技术也越来越成熟,可以生成、篡改出更加逼真的人脸。一旦被人恶意利用,后果不堪设想:小到恶搞侵犯他人肖像权利,大到影响政治人物的形象。

图2:Face Forgery和Deepfake技术可以伪造出逼真的图像,第一行为原始的真实图像,第二行为机器学习技术生成的伪造图像(来源:YouTube)。


为了更加准确地识别出这些Deepfake图像视频,进行“打假”,钱宇阳同学的工作提出了新颖的Frequency in Face Forgery Network(以下简称F3-Net)。

和先前使用空间域特征(如RGB、HSV特征等)的技术不同,F3-Net更关注图像的频域特征——这是因为,在低分辨率图像视频中,小范围的人工篡改痕迹虽然在RGB空间中难以观察到,但是在频域中却能很容易地被识别出来。基于这一思路,F3-Net通过挖掘图像中的多种频域特征,更准确地识别出低分辨率图像的小范围篡改痕迹。

具体地,F3-Net首先提取了FAD (Frequency-Aware Decomposition) 和LFS (Local Frequency Statistics) 两种频域特征,然后设计了MixBlock模块,利用cross-attention机制将二者融合并共同进行优化,最终输出结果。网络结构如图3所示。

图3:F3-Net的网络结构图

F3-Net从图片中提取得到的两种频域特征(FAD和LFS)是该工作的创新点与核心所在。在传统的方法中,人们使用手动设计的固定滤波器提取频域特征,而FAD使用可学滤波器,自适应地对图像频域特征进行分解,能够更准确地发现不同频段成分中的伪造痕迹;LFS提取出图像的局部频域统计信息,对细节处的异常更加敏感,且LFS使用滑窗DCT技术,保留了图像的结构信息,使其能够与CNN网络兼容。

实验结果表明,F3-Net在FaceForensics++(FF++)数据集上取得了较好的效果,识别准确率比之前的SOTA方法好了约4%。尤其是在经过压缩后的低分辨率(Low Quality, LQ)的图像视频中,取得了较大的提升。通过挖掘频域特征,F3-Net更准确地让难以分辨的图像视频得以“现形”。

论文链接:https://arxiv.org/abs/2007.09355


相关链接:

阳隆荣:自大四起加入李宏亮教授团队,参与多项科研项目,并曾在国家基金委主办的遥感图像智能分析大赛中与团队博士生组队斩获一等奖(语义分割单元全国第一)。近年来,李宏亮老师率领的智能视觉信息处理团队积极鼓励学生理论联系实际、培养学生求真务实的学风和综合知识运用能力,取得了一系列优异的成绩。

钱宇阳:在校期间平均GPA 3.98,专业排名前5%。在2018 ACM CCPC中国大学生程序设计竞赛全国邀请赛中获得金牌。荣获2019荣耀通信年度人物,优秀学生奖学金,优秀本科生毕业论文等奖励。目前已免试推免至南京大学LAMDA实验室攻读研究生。