返回首页
登录

“视频内容理解:前沿、挑战与落地应用”的主题论坛

阅读量:322 2021-12-27 收藏本文

2021年5月15日下午,CCF沈阳分部以YEF2021为平台举办了题为“视频内容理解:前沿、挑战与落地应用”的主题论坛。沈阳航空航天大学计算机学院副教授刘翠微和北京理工大学计算机学院副教授吴心筱作为执行主席,主持了

本论坛的主题是视频内容理解,即对视频进行各个层次、不同粒度的处理分析,最终得到语义理解,在社会服务、国家安全和产业发展方面具有重要的应用价值。视频内容理解具体包括目标跟踪检测、视频行为分析、场景理解、视频语言描述等方向,是当今人工智能的前瞻性方向之一。


本论坛旨在探讨视频内容理解领域的前沿技术、面临挑战与未来发展趋势。论坛邀请了国际模式识别学会会士、清华大学鲁继文副教授、中科院计算所王瑞平研究员、南京大学王利民教授、电子科技大学李文教授、华为机器视觉领域高级科学家谈申泉参与了论坛报告和思辨讨论,吸引了众多与会者到场参加。

论坛现场


首先,鲁继文副教授带来了题目为《视频动作分析与识别》的报告。他介绍了课题组在视频动作分析与识别方面的代表性工作,包括对比性特征学习、结构化特征学习、自监督特征学习等视频动作表示方法,以及它们在个体动作预测、群体动作识别、教程类动作分析和动作质量评价等任务中的应用。同时,鲁老师展望了视频动作分析与识别的应用前景,并指出研究高效、通用、鲁棒的视频模型是未来发展的重要方向。


第二场报告是南京大学王利民教授带来的《视频人体行为理解:方法与数据》。他介绍了课题组在视频运动表征和动作检测方面的系列工作,并展示了面向多人运动场景的时空动作检测数据集。同时,王老师分析了学术界和工业界视角的差异,展望了视频人体行为理解的未来发展趋势。


第三场报告是中科院计算所王瑞平研究员带来的《视觉场景图—表示、生成与应用》。场景解析是视觉智能接近人类理解能力的重要一环,王老师提出了“万物识别—>场景解析—>图文交互—>推理预测”的递进式视觉理解框架,并介绍了课题组在结构化视觉场景图的表示、生成与应用方面的最新研究工作。


第四场报告是电子科技大学李文教授带来的《面向电商场景的短视频生成》。围绕基于图像和基于视频的两种典型短视频生成任务,他介绍了“由静到动”的图像动画技术和“炼长为短”的视频精彩摘要技术。同时,李老师分享了相关技术在面向电商场景的短视频广告中的潜在应用。


最后一位讲者是华为机器视觉领域高级科学家谈申泉,他的报告题目是《机器视觉创新技术点亮智能世界》。在此报告中,他首先分析了从智能安防、智慧管理到智慧运营的产业需求变化,然后介绍了机器视觉技术结合领域知识在具体行业中的典型应用案例,并展望了未来的应用前景。

在最后的讨论环节中,大家围绕“视频内容理解技术离落地应用还有多远?”进行了热烈的讨论,并聚焦到如下共识:

1.视频内容理解是人工智能、计算机视觉的研究热点,在互联网娱乐、智慧教育、智能交通等实际场景中已有比较典型的应用,但整体产业化进程还处在初级阶段。

2.视频内容理解技术的应用落地还面临诸多挑战。目前学术界的视频数据与实际开放场景视频存在鸿沟,不能满足实际视频理解任务的真正需求。视频内容理解需要分析大量的时序运动信息,算法更复杂且计算量大,实际应用中需要强大的算力支撑。

3.未来可能的突破点包括:构建大规模、定义清晰、标注精细的数据集;融合语音、文本等多模态信息进行联合学习;在细分应用场景下结合数据特点和行业知识指导算法设计。