快讯 | 中大HCP Lab喜提3篇AAAI-2019 Oral Paper

中大HCP实验室

在国际人工智能顶级会议AAAI-2019公布的录用结果中，中山大学人机物智能融合实验室(HCP)共有3篇论文被录用，并均录用为Oral Presentation(口头报告)，在国内研究组里名列前茅！

AAAI，即The Association for Advancement of Artificial Intelligence(国际人工智能协会)的简称，是人工智能领域的顶级会议，由国际人工智能协会主办，在中国计算机学会(CCF)期刊会议推荐表中为A类。今年，AAAI会议投稿量达到历史最高的7700余篇，但录用率仅有16.2%, 为近年来最低。

下面介绍一下本次实验室录用论文情况

题目 | Semantic Relationships Guided Representation Learning for Facial Action Unit Recognition

作者 | Guanbin Li (Sun Yat-sen University)*; Xin Zhu (Sun Yat-sen University); Yirui Zeng (Sun Yat-sen University); Qing Wang (Sun Yat-sen University); Liang Lin (Sun Yat-sen University)

简介 | 面部表情识别是人机交互中的重要环节，而面部表情由人脸的面部动作单元（AU）构成，不同的面部动作单元能构成不同的表情。对于AU识别来说，之前大部分基于数据驱动的算法都旨在根据人脸的外观和几何信息提取更加鲁棒的特征，而忽略了对不同AU关系的建模。然而AU之间存在很强的相互关系，基于此我们提出一种全新的基于语义关系的特征学习方法来实现AU识别。该方法将图神经网络与卷积神经网络进行结合，以一种端到端的方式将图像特征提取与面部动作单元关系推理结合，达到更好的识别AU的效果。

图 1

题目 | FRAME Revisited: An Interpretation View Based on Particle Evolution

作者 | Xu Cai (Sun Yat-sen University)*; Yang Wu (Sun Yat-sen University); Guanbin Li (Sun Yat-sen University); Ziliang Chen (Sun Yat-sen University); Liang Lin (Sun Yat-sen University)

简介 | 该篇文章从粒子进化的角度重新看待基于能量的经典产生式模型——FRAME模型中样本的生成过程。他们基于Wasserstein度量方式，改进了粒子进化的演变以及参数估计的迭代方式，且不破坏原模型中的统计连续性。

FRAME（Filters, Random fields, And Maximum Entropy）模型顾名思义，是滤波器，随机场和最大熵理论的融合。早在深度学习风靡的十多年前，朱松纯老师在统计纹理分析上提出的稀疏FRAME模型便已经在风格迁移、纹理合成等问题上取得过巨大的成功。受限于传统的滤波器诸如Gabor filter或者Gabor wavelet，稀疏FRAME在复杂问题上的表达能力收到限制。然而随着深度卷积网络的兴起，通过使用大量预训练的非线性滤波器来替换传统的线性滤波器，并对理论做出恰当的改进，强大的深度FRAME模型便随之诞生了。其型式如下所示，是一个马尔科夫随机场型式的能量函数。

公式 1

本文从粒子演化的角度重新解读了FRAME模型，以解决其模型坍塌，样本生成质量等问题。他们从理论上合理的引入离散JKO流来改进离散KL流所存在的不足，并通过实验证实了他们的想法。也许未来本文的这种技术会被用到其他基于能量的模型中去，传统的能量模型可能也会因此变得更加鲁棒。

题目 | End-to-End Knowledge-Routed Relational Dialogue System for Automatic Diagnosis

作者 | Lin Xu (Sun Yat-sen University); Qixian Zhou (Sun Yat-sen University)*; Ke Gong (Sun Yat-sen University ); Xiaodan Liang (Carnegie Mellon University); Jianheng Tang (Soochow University); Liang Lin (Sun Yat-sen University)

简介 | 本文提出了一种基于知识推理和关系学习的端到端的医疗自诊断对话系统。相对于普通的任务型对话系统，医疗自诊断对话系统更加要求对话在医学知识上的合理性。本文的核心在于结合医学知识图谱来引导对话的进行，从技术层面上来说是融合了一个知识推理模块和关系增强模块来确定对话的话题，在现有的数据集和自己提出的数据集上的效果都超过了现有的方法。

图 2

除过简要介绍

我们还邀请了前两篇paper的作者来详解paper

题目 | Semantic Relationships Guided Representation Learning for Facial Action Unit Recognition

面部表情识别是人机交互中的重要环节，而面部表情由人脸的面部动作单元（AU）构成，不同的面部动作单元能构成不同的表情，如图3所示，高兴可以由AU6（cheek raiser）和AU12（lip corner puller）组成，而悲伤可以由AU1（Inner brow raiser）和AU4（brow lower）组成。对于AU识别来说，之前大部分基于数据驱动的算法都旨在根据人脸的外观和几何信息提取更加鲁棒的特征，而忽略了对不同AU关系的建模。然而AU之间存在很强的相互关系，比如AU12（lip corner puller）和AU15（lip corner depressor）是由同一块面部肌肉控制的不同面部动作单元状态，很难同时出现在一张图像上，而当人微笑时候AU6和AU12经常伴随着一起出现。基于此我们提出一种全新的基于语义关系的特征学习方法来实现AU识别。该方法将图神经网络与卷积神经网络进行结合，以一种端到端的方式将图像特征提取与面部动作单元关系推理结合，达到更好的识别AU的效果。

图 3

本文提出的方法主要由特征提取和关系建模两个模块组成。在特征提取模块中，如图4，本文提出的方法采用VGG19模型的前12个卷积层作为特征提取的主干网络。

（1）这12个卷积层可以划分为4个组，我们将每个组得到的特征图缩小到14x14大小并连接起来，得到大小为14x14x（512+256+128+64）的全局特征图。

（2）再接入一个局部响应层（LRN），其作用是对上一步得到的全局特征图做归一化处理，使得网络能够更好的收敛。

（3）接着借鉴前人的做法，我们利用AU中心位置和人脸骨骼点的对应关系将归一化后的全局特征图裁剪得到每个AU对应的局部特征图。如图3左所示，我们通过统计每个AU被激活时对应人脸的位置得到其与人脸关键点位置的关系，即我们选取离AU区域中心最近的人脸关键点作为AU中心点。由于人脸具有对称性，每个AU有两个中心点，接着我们以得到的AU中心点为中心在全局特征图上裁剪出6X6大小的局部特征图。假设我们有N个AU，我们得到2N个局部特征图。

（4）最后我们为每个局部特征图设计了一个局部特征学习通道，每个局部特征学习通道由一个大小为3X3的卷积层和一个全连接层组成，输出维度为150维的局部特征向量。整个网络结构中我们选取ReLU为网络的激活函数。

图 4

在关系建模模块，由于AU由人脸面部肌肉控制，有的AU经常一起出现（正相关），而另一些AU很少同时出现（负相关）。基于这种规律，在关系建模模块中，我们采用GGNN（gated graph neural network）作为关系建模工具。我们首先在训练集上统计两两AU之间的条件概率，计算条件概率与对应AU出现概率之差并对其取阈值得到正负AU关系构成GGNN的graph。接着我们将多尺度特征提取及裁剪模块得到的2N个局部特征输入图神经网络，设为第i个局部特征，考虑到人脸的对称性, 我们可以计算得到第v个AU的图像特征为,代表元素间相加。然后我们可以利用每个AU的图像特征，初始化AU关系图中每个节点的初始特征：,然后选取GGNN的节点传播方法更新每个节点的状态，最后我们可以计算每个节点的输出。

最后由于数据集存在AU标签不平衡的现象，通过计算每个AU在训练集中出现概率与未出现概率，我们采用带权重的交叉信息熵损失函数：

公式 2

整个网络学习主要分为三个阶段：首先微调预训练的VGG19模型，然后固定VGG19的前12个卷积层训练多尺度特征提取及裁剪模块，最后固定多尺度特征提取及裁剪模块的参数，训练图神经网络的参数。

图 5

最后我们的算法在BP4D数据集上取得了较以往算法更好的结果，如图6。

图 6

题目 | FRAME Revisited: An Interpretation View Based on Particle Evolution

引言 | 该篇文章的作者从粒子进化的角度重新看待基于能量的经典产生式模型——FRAME模型中样本的生成过程。他们基于Wasserstein度量方式，改进了粒子进化的演变以及参数估计的迭代方式，且不破坏原模型中的统计连续性。

FRAME模型介绍 | FRAME（Filters, Random fields, And Maximum Entropy）模型【1】顾名思义，是滤波器，随机场和最大熵理论的融合。早在深度学习风靡的十多年前，朱松纯老师在统计纹理分析上提出的稀疏FRAME模型便已经在风格迁移、纹理合成等问题上取得过巨大的成功。受限于传统的滤波器诸如Gabor filter或者Gabor wavelet，稀疏FRAME在复杂问题上的表达能力收到限制。然而随着深度卷积网络的兴起，通过使用大量预训练的非线性滤波器来替换传统的线性滤波器，并对理论做出恰当的改进，强大的深度FRAME模型便随之诞生了【2】。其型式如公式3所示，是一个马尔科夫随机场型式的能量函数。

公式 3

KL距离存在的不足 | 即使这样，深度FRAME仍存在一些不尽人意的地方，其中最直接的问题在于，当引入深度滤波器导致参数过多的情况下，最大似然的参数估计方式是否还适用于该模型，或者如何改进这种估计算法让模型的学习能力更强。为了解决这样的问题，往往需要跳出传统的理论框架，该文章的作者便是采用这样的方式。

首先，众所周知的是，最大似然估计是通过一步步最小化需要优化的分布和目标分布之间的Kullback-Leiber（KL）距离来使逼近的。事实上，最小KL距离实际上就是做垂直投影，这种垂直投影的方式事实上并不平滑，可能会导致训练的不稳定甚至模型退化。为了解释这种现象，我们从模型的熵出发：在物理学中熵可以描述系统能量的耗散，从覆盖所有支集的高斯分布作为起始，这时模型的熵值最大，随即逐渐演化为并不存在的目标分布，这个过程熵是会随着能量耗散而减少的，然而为了能完美地描述，熵值需要最大化以至于能包含所有的可能性，所以实际上模型的能量耗散是一个min-max函数。可以看出，如果模型的能量很高则意味着模型很混乱，可能性太繁杂；模型的能量很低则代表模型退化，包含的信息微乎其微，因此训练得当的模型其能量应该为一个适中值。

将样本看作布朗粒子 | 大量的实验表明，通过迭代最小化KL距离的方式会让能量的耗散过程极其不稳定，体现为深度FRAME模型的能量往往降的非常低，即模型退化，称之为KL-vanishing。为了解决这个问题，我们将每个样本视为拥有马尔可夫性质的布朗粒子，可以证明，若这些粒子都由一个产生式函数所生成，则它们的经验分布满足大偏差原理，其速率函数为，我们称为离散KL流。在的驱动下，深度FRAME模型的样本和参数的迭代过程可以推导为：

公式 4

公式？的结果和深度FRAME模型基于数理模型推到的结果恰好一直，说明作者从粒子演化的角度看待这个模型是合理且正确的。

基于Wasserstein距离的离散流 | 很容易发现，在不同离散流的驱动下，迭代的过程便会产生差异，我们是否可以用其他更平滑的离散流来代替呢，答案是肯定的。得益于Jordan【3】等人在1998年对富克—普朗克方程的研究，他们发现这种复杂的偏微分方程的解析解可以通过逐步迭代离散JKO流的方式来逼近，公式5所示。

公式 5

因此，作者选择了特定的方程系数以及项来使得其解析解满足式1的型式，这样便可通过计算来学习深度FRAME模型，并能维持其统计型式。此外，计算的好处在于，我们可以在Wasserstein空间中优化目标分布，相当于在最小化Wasserstein距离。Montavon等人【4】在一文中指出，有时候在KL距离的情况下和经验分布很接近，但在Wasserstein的度量下更远；WGAN【5】的作者同样也表明由于Wasserstein度量定义的拓扑较弱，我们往往能获得更加理想的收敛情况和逼近结果。剩下的问题便是如何处理这个棘手的Wasserstein距离，与其它直接使用对偶Wasserstein距离的方式不同，这篇文章考虑的问题是微观的且需要粒子的传输路径更平滑，因此Benamou-Brenier型式的Wasserstein距离必不可少，如公式6所示。

公式 6

之后作者便对巧妙地运用了积分中值第二定律，给出了其估计型式，其对经验分布的函数导数为：

公式 7

最后经过简单的推导，以驱动的深度FRAME模型的样本和参数的迭代过程为：

公式 8

到这里，作者的工作便完成了，简单地说，就是优化了原始模型中的迭代过程，新的WFRAME模型引入了Wasserstein度量来取代KL距离，使迭代过程更加平滑且避免了KL-vanishing问题。但到底是否真的平滑了呢，还需要实验来验证一下。

稳定性实验 | 图7所示的是两个算法在生成航天飞船时的样本变化过程及能量耗散曲线，可以明显的看出，第二行的WFRAME生成的图片品质更高，随着FRAME生成图片的质量变差，我们可以从右侧的能量曲线中观察到其能量降的非常之低，模型此时已经退化甚至坍塌。就像我们之前提到的，能量曲线的不稳定意味着迭代的不稳定以及其能量值的不合理，也印证了作者的算法是着实有效的。

图 7

常用数据集实验 | 文章中还有更详细的模型坍塌实验对比，感兴趣的同学可以阅读原文。确认并改进了模型的坍缩问题之后，作者又在诸如Cifar10，CelelbA以及LSUN的常用数据集上做了实验，结果如图8，图9所示。

图 8

图 9

除了能解决FRAME中坍塌的问题，WFRAME还能略微改善生成图片的质量，比如他们的Inception Score相比FRAME提升了1.1，以及生成图的特征距离也和原图更加接近，如图10所示。

图 10

结语 | 综上对这篇文章的介绍就结束了，如文章标题所指出的，作者从粒子演化的角度重新解读了FRAME模型，以解决其模型坍塌，样本生成质量等问题。他们从理论上合理的引入离散JKO流来改进离散KL流所存在的不足，并通过实验证实了他们的想法。也许未来作者的这种技术会被用到其他基于能量的模型中去，传统的能量模型可能也会因此变得更加鲁棒。

引用

[1]. Zhu, S. C., Wu, Y., & Mumford, D. (1998). Filters, random fields and maximum entropy (FRAME): Towards a unified theory for texture modeling. International Journal of Computer Vision, 27(2), 107-126.

[2]. Lu, Y., Zhu, S. C., & Wu, Y. N. (2015). Learning FRAME models using CNN filters. arXiv preprint arXiv:1509.08379.

[3]. Jordan, R., Kinderlehrer, D., & Otto, F. (1998). The variational formulation of the Fokker--Planck equation. SIAM journal on mathematical analysis, 29(1), 1-17.

[4]. Montavon, G., Müller, K. R., & Cuturi, M. (2016). Wasserstein training of restricted Boltzmann machines. In Advances in Neural Information Processing Systems (pp. 3718-3726).

[5]. Arjovsky, M., Chintala, S., & Bottou, L. (2017, July). Wasserstein generative adversarial networks. In International Conference on Machine Learning (pp. 214-223).

中山大学HCP人机物智能融合实验室

“中山大学HCP人机物智能融合实验室“依托于中山大学数据科学与计算机学院，围绕“人工智能原创和前沿技术”布局研究方向与课题，并与产业界开展广泛合作，输出大量原创技术及孵化多个创业团队。在感知计算与智能学习、机器人与嵌入式系统、人机协同技术、大数据挖掘与分析等领域开展研究，以“攀学术高峰、踏应用实地”为工作理念。实验室目前有教授1名，副教授3名，特聘研究员3名，工程师3名。

实验室承担或者已完成各级科研项目40余项，共获得科研经费超过数千万元。科研团队在顶级国际学术期刊与会议上发表论文200余篇，包括在IEEE/ACM Trans汇刊发表论文60余篇，在CVPR/ICCV/NIPS/Multimedia/AAAI/IJCAI等顶级会议发表论文80余篇，获得NPAR 2010 Best Paper Award, ACM SIG CHI Best Paper Award Honorable Mention, ICME 2014 Best Student Paper, The World’s FIRST 10K Best Paper Diamond Award by ICME 2017，Pattern Recognition Best Paper Award等奖励。

继续滑动看下一个