欢迎大家了解HCP实验室 ❀
(实验室网址如下)
http://www.sysu-hcp.net/home/
近日,两年一度的计算机视觉国际顶级会议International Conference on Computer Vision(ICCV 2019)在韩国首尔举行。此次大会一共收到4303篇论文投稿,最终接收论文数为1075篇,收录比仅为25%,奖项角逐竞争激烈。
林倞教授、李冠彬副教授指导的论文Larger Norm More Transferable: An Adaptive Feature Norm Approach for Unsupervised Domain Adaptation (http://iccv2019.thecvf.com/program/main_conference)获ICCV2019最佳论文提名,这是入选的7篇论文中唯一一篇来自中国的最佳论文提名论文。
在本届ICCV会议上,中山大学人机物智能融合实验室(HCP Lab)共有12篇论文被收录,可见我校HCP Lab实力强、潜力足、势头猛,对学术上再创佳绩满怀信心。
上图为HCP师生在韩国首尔参加ICCV2019会议
以下我们将精选几篇论文展示给大家,欢迎感兴趣的朋友关注阅读。
Semi-Supervised Video Salient Object Detection Using Pseudo-Labels
中文题目:基于伪标签的半监督视频显著性物体检测
显著性物体检测旨在将图片或视频中最吸引人注意的物体使用精确的掩码分割出来。在本中我们将探索视频显著性物体检测这个更具有挑战性但同时也更具有实用性的任务。目前基于深度学习的视频显著性物体检测方法相较于传统方法取得了更加优异的效果,但是这些方法都依赖于大量像素级人工标注的视频帧进行训练。连续的视频帧间差异性往往很小,而使用人工标注不仅需要进行大量的重复标注而且相邻帧间容易出现标注不一致。因此我们提出使用伪标签生成技术来减少基于深度学习的视频显著性物体检测方法所需的人工标注量。具体而言,如下图所示,我们提出了一个光流引导的视频伪标签生成模型(Flow Guided Pseudo-Label Generation Model, FGPLG), 来将稀疏标注的视频帧(半监督信息)与光流估计融合通过深度神经网络来生成密集的视频帧伪标注。
针对视频显著性物体分割任务,我们提出了非局部时序性增强的视频显著性物体检测模型(如下图所示),该模型结合了非局部时序性增加模块(Non-locally Enhanced Temporal Module, NER) 来提升显著性预测的一致性,并且它与伪标签生成模型使用了相同结构的特征提取器和显著性像素分类器。
大量的外部比较实验和内部消融比较实验证明,我们的模型可以在视频显著性物体检测任务上达到当前最佳性能 (state-of-the-art),且当我们的视频模型只使用部分稀疏的人工标注帧结合生成的伪标签作为监督信息进行训练时,模型的性能还可以进一步提升。通过观察实验数据和可视化结果,我们发现我们的伪标签策略可以在一定程度上改善人工标注质量和补足半监督情况下视频时序信息的不足。我们相信这项技术也将对未来的相关视频分割任务及其数据集的构建带来启发。本文相关实验结果图片及模型代码可以在
https://github.com/Kinpzz/RCRNet-Pytorch(复制到浏览器后可打开)下载,欢迎大家多多交流。
Learning Semantic-Specific Graph Representation for Multi-Label Image Recognition
一种基于特定语义的图表示学习框架及其多标签分类方法
多标签图像分类是计算机视觉中一项基本但实用的任务,因为现实世界中的图像通常包含多个不同的语义对象。在该问题中除了应对角度,比例,光照和遮挡方面的复杂变化带来的挑战外,预测多个标签的存在还需要挖掘语义对象区域以及对这些区域之间的关联和交互进行建模,从而使多标签图像分类成为一个尚未解决且具有挑战性的任务。当前的多标签图像分类方法通常采用对象定位技术或基于视觉注意力网络来定位语义对象区域。
但是,由于缺少半监督或语义指导,当前方法无法准确定位语义区域。此外,他们无法充分探究语义区域之间的相互交互作用,也无法显式地对标签共现建模。
为了解决这些问题,我们提出了一种特定语义的特征图表示学习(SSGRL)框架(下图所示),该框架由两个关键模块组成:
(1)语义解耦模块:利用类别的语义词向量指导学习特定类别的语义特征
(2)语义交互模块:将这些语义特征与基于类别共存概率的图相关联,并通过图传播机制探索它们的信息交互、融合。
在相关数据集上进行的大量实验表明,使用我们SSGRL的方法的结果远远高于当前的最优结果。与PASCAL VOC 2007和2012,Microsoft-COCO和Visual Genome的当前最好结果相比,mAP分别提高了2.5%,2.6%,6.7%和3.1%。并且我们的方法在PASCAL VOC 2012多标签分类这个leaderboard上取得了第一名的成绩,并保持到现在,附上排名链接:
http://host.robots.ox.ac.uk:8080/leaderboard/displaylb_main.php?challengeid=11&compid=2
我们的代码和模型可从
https://github.com/HCPLab-SYSU/SSGRL (上述网址复制到浏览器后可打开)下载,欢迎大家多多交流。
Crowd Counting with Deep Structured Scale Integration Network
基于结构化尺度聚合网络的人群计数
人群计算是一个偏应用的视觉任务, 它的目标是自动化地计算出当前监控场景中的人群空间分布和数量。因其在城市视频监控、交通管控等领域的广泛应用,人群计数近年来成为学术界和工业界的研究热点。这个任务的难点众多,其中最主要的挑战在于如何解决“因摄像机透视效应造成行人尺度差异过大”这一问题。当前的绝大多数方法,主要利用多分支网络或者不同感受野的膨胀卷积来提取多尺度特征。但他们简单地融合这些特征(串联或者平均),不能充分挖掘这些特征的互相信息。另一方面,几乎所有的方法,使用欧式距离来优化预测的人群密度图,但其不能学习到 人群密度在不同大小区域上的局部相关性。针对上面两个不足点,我们提出了一个结构化尺度集合网络(下图所示)来解决行人尺度变化问题,该网络由两个关键模块组成:
(1)结构化特征增加模块(SFEM):该模块基于条件随机场(CFR)来融合多尺度特征。每个特征被认为是一个随机变量,它们动态地从其他特征吸收互补的信息,以达到相互增强的效果。
(2)膨胀多尺度的结构相似损失函数(DMS-SSIM):该region-base损失函数通过计算预测的人群密度图和GT密度图在不同区域大小上的相似性,来促使网络学习到多尺度的人群密度局部相关性。
我们在4个人群计数的标准数据集上进行了大量验证,实验结果显示我们的模型远远好于当前的方法。我们的代码和模型可从
https://github.com/liulingbo918/Counting-ICCV-DSSINet(复制到浏览器后可打开)下载,欢迎大家多多交流。
Larger Norm More Transferable: An Adaptive Feature Norm Approach for Unsupervised Domain Adaptation
基于特征范数适配的无监督领域自适应算法
近年来,受益于海量人工标注的图像视频数据,深度神经网络算法被广泛应用于计算机视觉的各个领域并取得突破性的进展。然而,由某一特定领域标注数据训练得到的模型迁移到新的应用场景却经常展现出非常局限的泛化能力。因此,为了将某个领域或任务中学习到的知识或模式可靠地应用到数据分布不同但相关的领域或问题中,迁移学习算法应运而生并受到广泛关注。本文研究的无监督领域自适应问题旨在研究从一个带丰富类别标注的源域中学习到的分类模型可以可靠地迁移到另一个无标注的目标域中。
本文中,我们从实验观察的角度揭示了领域迁移导致模型退化的可能原因,即目标领域样本相比源领域样本特征范数过小是导致其判别性能不稳定的原因。如图1所示,根据Source Only 模型进行实验的可视化结果,我们可以观察到目标域样本基本都挤在低范数区域(low-norm region),因此极大降低了模型的分类性能。
我们提出的特征范数适配方法(AFN)的整体框架如图所示。其中包括骨干网络实现通用特征的提取,以及针对特定任务(task-specific)的分类器。值得注意的是,我们在分类器中使用的Dropout是改进的保持L2范数的Dropout。在每次迭代中,我们对任务特定的特征应用特征范数适配方法,并结合源领域的分类损失作为最终优化目标。基于前述的特征可视化,本文提出的AFN方法又包括特征范数硬适配(Hard AFN)和特征范数逐步适配(Stepwise AFN)两种不同的实现方式。对于特征范数硬适配方法,我们的优化目标将源领域和目标域的平均特征范数限制到同一个特征范数常量。而对于逐步适配的版本,我们将损失函数设置为激励每个样本在每次迭代能够逐步自增特征范数的方式来实现。基于这两种不同的实现方式,源领域和目标域的样本都能够通过优化迭代远离低特征范数区域。
Meta R-CNN : Towards General Solver for Instance-level Low-shot Learning
面向实例层级的少样本学习的通用物体检测/分割框架——Meta R-CNN
元学习策略能很好的解决少样本学习,但目前的主要方法是从单个视觉对象的图像中进行学习的,而少样本物体检测由于复杂背景和一个图像中的多个对象相互混淆的原因很难取得进展。因此本论文提出了一种基于元学习的少样本物体检测(分割)框架 (Meta R-CNN)。
Meta R-CNN有这三个特点:
1、通用:可应用在不同主干网络中,如Faster/Mask R-CNN。
2、简单:轻量级的预测器重建网络PRN。
3、有效:在少样本目标检测/分割中有极佳的表现且能保持快速推理。
该框架包括了Faster R-CNN和预测器重建网络PRN。其中,Faster R-CNN 接收采样的图像输入,并通过RPN提取图像的候选区域,运用感兴趣区域对齐操作 (RoI Align) 产生 RoI 特征。同时,预测器重建网络接收 K 张 m 个类别的缩放之后的有标注的少量样本输入,产生其类别注意力向量。给定一个代表类别c的注意力向量之后,这些向量与RoI特征进行通道间相乘的软注意力操作实现重新构建Faster(Mask) R-CNN预测器来分类和定位类别 c 的物体。
Meta R-CNN在少样本目标检测/分割中不仅对新类取得了最佳的检测结果,更重要的是,它保持了对基类目标的检测能力。验证了Meta R-CNN显著提高了Faster/Mask-R-CNN的泛化能力。
我们的代码和模型可以从
https://github.com/yanxp/MetaR-CNN下载,
(复制到浏览器后可打开),欢迎大家多多交流。
Towards Multi-pose Guided Virtual Try-on Network
面向多姿势引导的虚拟试穿网络
近年来,随着移动互联网、电商的发展,市场对于虚拟试穿系统的需求变得日趋迫切。现有的大部分虚拟试穿方法只能将衣服穿到具有固定目标姿势的人物上,他们无法处理姿势变化尺度较大的情况,同时可能还会丢失衣服的纹理特征,通常真实感都差强人意。
本文为了解决现存的问题和挑战,提出了MG-VTON--面向多姿势引导的虚拟试穿网络。如下图所示,MG-VTON将虚拟试穿分为三个阶段,1)人体语义解析生成 2)形变生成网络 3)细节强化渲染
在第一个阶段,首先,将参考人物图像分解成三个二进制掩码,分别是头发掩码、脸部掩码、身体形状,将三个掩码和目标衣服的图像以及目标姿势作为条件输入训练条件解析网络,从而得到预测的人物解析图。
在第二个阶段,通过扭曲生成对抗网络 Warp-GAN 将扭曲后的衣服图像、去除了衣服的参考人物图像、目标姿势、人物解析图训练生成粗粒度的试穿结果。
在第三个阶段,以扭曲后的衣服、目标姿势、粗粒度合成结果为条件输入,通过细化渲染网络得到细化后的图像结果。
下图为各个模块详细的结构图:
本文使用SSIM、IS以及user study来衡量实验结果的好坏,从以上三种指标来看,本文提出的MG-VTON明显优于其他基线方法。可视化结果见下图,MG-VTON相比基线方法,人物脸部细节与衣服细节均得到了较好的还原。
本文所提出的方法制成了demo,欢迎大家扫描二维码试用!
FW-GAN: Flow-navigated Warping GAN for Video Virtual Try-on
针对视频虚拟试穿的光流引导的形变生成对抗网络:FW-GAN
相比现有的很多基于图片的虚拟试穿系统,基于视频的虚拟试穿系统更加具有商业价值。本文第一次尝试构建视频虚拟试穿系统。这样的系统可以根据给定的衣服、动作序列和人物图片,生成人物图片穿着指定衣服的视频。
除了图片虚拟试穿系统需要解决的问题,视频虚拟系统还面临着更多的挑战,其中包括视频生成中的时空连贯性问题。针对视频虚拟试穿,本文提出了一个名为FW-GAN的全新视频虚拟试穿框架,它包括三个模块:1)光流引导的时序融合模块,旨在增加生成视频的连贯性 2)衣服形变模块,用于对目标衣服进行形变,以提高生成视频中的衣物纹理 3)人体语义解析约束模块,用以约束生成图中人体结构。
为了研究视频试穿问题,本文提出了一个新数据集VVT。本文所提出的FW-GAN在该数据集上各项评价指标均明显优于使用图片虚拟试穿算法所构造的基线方法。
附录:
1."Semi-Supervised Video Salient Object Detection Using Pseudo-Labels", Pengxiang Yan, Guanbin Li, Yuan Xie, Zhen Li, Chuan Wang, Tianshui Chen, Liang Lin; The IEEE International Conference on Computer Vision (ICCV),2019
2.“Learning Semantic-Specific Graph Representation for Multi-Label Image Recognition”,Tianshui Chen, Muxin Xu, Xiaolu Hui, Hefeng Wu, Liang Lin; The IEEE International Conference on Computer Vision (ICCV),2019
3.“Crowd Counting with Deep Structured Scale Integration Network”Lingbo Liu, Zhilin Qiu, Guanbin Li, Shufan Liu, Wanli Ouyang, Liang Lin; The IEEE International Conference on Computer Vision (ICCV),2019
4.“Larger Norm More Transferable: An Adaptive Feature Norm Approach for Unsupervised Domain Adaptation”,Ruijia Xu, Guanbin Li, Jihan Yang, Liang Lin; The IEEE International Conference on Computer Vision (ICCV),2019
5.“Meta R-CNN : Towards General Solver for Instance-level Low-shot Learning”,Xiaopeng Yan, Ziliang Chen, Anni Xu, Xiaoxi Wang, Xiaodan Liang, Liang Lin; The IEEE International Conference on Computer Vision (ICCV), 2019
6.“Towards Multi-Pose Guided Virtual Try-On Network”,Haoye Dong, Xiaodan Liang, Xiaohui Shen, Bochao Wang, Hanjiang Lai, Jia Zhu, Zhiting Hu, Jian Yin; The IEEE International Conference on Computer Vision (ICCV), 2019
7.“FW-GAN: Flow-Navigated Warping GAN for Video Virtual Try-On”,Haoye Dong, Xiaodan Liang, Xiaohui Shen, Bowen Wu, Bing-Cheng Chen, Jian Yin; The IEEE International Conference on Computer Vision (ICCV), 2019
8.“Fashion Retrieval via Graph Reasoning Networks on a Similarity Pyramid”,Zhanghui Kuang, Yiming Gao, Guanbin Li, Ping Luo, Yimin Chen, Liang Lin, Wayne Zhang; The IEEE International Conference on Computer Vision (ICCV), 2019
9.“Semi-Supervised Skin Detection by Network With Mutual Guidance”,Yi He, Jiayuan Shi, Chuan Wang, Haibin Huang, Jiaming Liu, Guanbin Li, Risheng Liu, Jue Wang; The IEEE International Conference on Computer Vision (ICCV), 2019
10.“Dynamic Graph Attention for Referring Expression Comprehension”,Sibei Yang, Guanbin Li, Yizhou Yu; The IEEE International Conference on Computer Vision (ICCV), 2019
11.“Motion Guided Attention for Video Salient Object Detection”,Haofeng Li, Guanqi Chen, Guanbin Li, Yizhou Yu; The IEEE International Conference on Computer Vision (ICCV), 2019
12.“Auto-FPN: Automatic Network Architecture Adaptation for Object Detection Beyond Classification”,Hang Xu, Lewei Yao, Wei Zhang, Xiaodan Liang, Zhenguo Li; The IEEE International Conference on Computer Vision (ICCV), 2019
来源 | 惠晓璐
编辑 | 李邦硕
一审 | 欧阳梅子
二审 | 张领统
三审 | 侯雪莹
中山大学人机物智能融合实验室由中山大学林倞教授创建,联合负责教师包括梁小丹副教授、李冠彬副教授、张冬雨副教授。实验室围绕“人工智能原创和前沿技术”布局研究方向与课题,并与产业界开展广泛合作,输出大量原创技术及孵化多个创业团队。在感知计算与智能学习、机器人与嵌入式系统、人机协同技术、大数据挖掘与分析等领域开展研究,以“攀学术高峰、踏应用实地”为工作理念。
实验室承担或者已完成各级科研项目40余项,包括国家重点研发计划项目、国家自然科学基金委-广东大数据科学中心项目、国家自然基金委重点项目等,共获得科研经费超过数千万元。科研团队在顶级国际学术期刊与会议上发表论文300余篇,包括在IEEE/ACM Trans汇刊发表论文100余篇,在CVPR/ICCV/ICML/NIPS/Multimedia/AAAI/IJCAI等顶级会议发表论文近200篇,获得一系列国际会议和期刊的最佳论文奖。
中山大学AI技术俱乐部
2017年春,中大AI技术俱乐部在数据科学与计算机学院及学生学术发展中心的支持下成立。俱乐部以中山大学人机物智能融合实验室HCP Lab为学术依托,旨在为热爱人工智能的中大学子提供一个广阔的学习、交流平台,共同推动人工智能技术的发展。
在过去的两年半间,我们已为第一、第二届会员举办了若干学术交流活动:如实验室提供的课程培训和科研实训、十余次商汤科技技术讲座、定期学术Seminar、线上Talk,Kaggle比赛……
与此同时,俱乐部公众号至今已累积了2000+粉丝,为同学们分享各类技术原创文章、推荐技术干货、更新俱乐部动态,共发布数百篇文章。在学院、中心、实验室、暗物质AI等多方支持下,我们所举办的活动获得了同学们的好评,也吸引了越来越多期待加入的目光……