2018年8月6日下午,中山大学AI科技俱乐部举办了2018年暑期讲座。本次讲座的主讲人是商汤研究院的冯俐铜老师,讲座题目为《智能内容审核-视频理解》,非常感谢冯老师百忙之中给我们带来精彩的演讲。
讲座伊始,主持人对主讲人冯俐铜老师做了简单的介绍:冯俐铜老师毕业于香港城市大学电子工程系,现任商汤研究院,负责商汤图像视频解析与搜索部门的深度学习训练框架维护和基础模型研究,曾负责过视频标签,视频摘要,logo检测,商品搜索等项目,迄今共发表过期刊和会议论文20余篇。
接着,主讲人正式为大家带来讲座内容!
第一部分,冯老师对深度学习的应用做了简单的介绍,当今在海量的图片视频数据的支持下,深度学习在目前许多领域如人脸识别、自动驾驶等均取得非常好的应用效果。
接下来冯老师还介绍了图像视频理解分析在现实生活中的应用,并向同学们展示了相关产品的demo。视频分析的一大应用是智能审核,对视频进行敏感信息如涉黄涉政、暴恐等的监测,营造和谐的互联网环境。同时视频智能分析可以挖掘更多潜在价值,通过对视频内容场景、物体、人物、商品、语义等的智能分析,可以实现智能广告投放、智能交互等,如视频中同款衣服推荐。冯老师通过展示几个相关的视频demo,让大家直观地感受到视频理解分析的价值。
第二部分,冯老师给我们介绍了视频中的动作识别的相关算法技术,详细介绍了经典算法TSN和商汤自主研发的OFF算法。动作识别是视频领域中的热门问题,动作识别的难点和重点在于如何利用视频中的时序信息。目前主流的是Two Stream的方法,如TSN。
在视频图片特征的基础上,TSN额外提取视频的光流信息(刻画运动物体的信息),以此挖掘视频的时序信息,然后融合两者特征进行分类。但是提光流的速度相当慢,无法达到实时要求。商汤提出了OFF算法,抛弃了提取光流的步骤,设计了一个有效的结构来强化移动物体的信息,有效代替了光流的作用。OFF算法不仅有比较好的性能,在速度上较以往的TwoStream方法有了相当大的提升。
讲座气氛热烈
第三部分,冯老师接下来介绍了在一个视频蒸馏的工作TSD,进一步提高模型的实时性和应用性。TSD模块设计一个简单的网络结构,通过过滤到输入中的无用帧,保留关键帧,从而将一个长的视频序列,蒸馏为一个短的视频序列,极大减少后续的计算量。冯老师提到,TSD模型具有较高的应用价值。如在一些云平台应用中,用户需要将数据传输到服务器中,服务器将数据分配到计算节点中进行计算和测试。用户可以将TSD模块部署在自己的机器上,数据节点将蒸馏后的视频分发到计算节点上,从而减轻服务器节点的计算压力。
讲座 ppt
最后,冯老师还给我们介绍了一些有趣的前沿性工作,如视频摘要提取。视频摘要是一个相当具有挑战性的工作,要求根据完整的视频,通过提取关键镜头,形成对原视频简短而有效的概述,实现自动生成“预告片”。
至此,本次讲座圆满结束,再次感谢到场的老师和同学,希望大家能够继续关注中山大学AI技术俱乐部的后续活动~~