视频内容理解：前沿、挑战与落地应用 | YEF2021技术论坛

阅读量:2433 2021-05-13 收藏本文

视频内容理解是当今人工智能的前瞻性方向之一，是智能系统接近人类理解能力的重要步骤，在社会服务、国家安全和产业发展方面具有重要的应用价值。然而，视频数据呈现出非结构化、冗余性强、维度高、信息隐藏深、理解困难等特性，如何将纷繁复杂的视频内容映射到符合人类认知习惯的语义空间，是视频内容理解面临的挑战。借助于以深度学习为代表的人工智能技术飞速发展，视频内容理解引起了学术界和工业界的广泛关注。本论坛将邀请视频内容理解领域的顶尖专家介绍领域的前沿技术，包括图像语义提取、视频动作识别、视频场景理解、视频智能生成等。思辨环节，嘉宾将和与会人员共同探讨视频内容理解技术落地应用过程中面临的机遇、挑战与未来发展趋势。

论坛执行主席

吴心筱

北京理工大学计算机学院副教授，博士生导师。2010年获得北京理工大学博士学位，并获得校优秀博士学位论文奖。2012年获得全国人工智能学会优秀博士学位论文奖。研究方向为图像视频内容理解与描述、计算机视觉、机器学习。在计算机视觉与人工智能顶级国际会议ICCV, CVPR, ECCV, AAAI, IJCAI, ACM MM以及国际重要学术期刊IJCV, T-IP, T-MM, T-NNLS等发表论文30余篇。负责国家自然科学基金，教育部博士点基金，国防预研等科研项目。担任计算机学会计算机视觉专委会、多媒体专委会以及图形图像学会女工委委员。

共同执行主席

刘翠微

博士，沈阳航空航天大学副教授，硕士生导师。主要研究方向为图像/视频内容理解。发表国际会议论文和学术期刊论文30余篇，包括IJCV、T-IP、T-CYB、ICCV、ACCV等，并出版专著1部。立项辽宁省地方标准1项，申请发明专利和软件著作权20余项，已授权6项。承担国家自然科学基金青年基金1项、辽宁省博士启动基金1项、辽宁省教育厅项目2项等。2017年入选辽宁省第十一批“百千万人才工程”万人层次人选，2021年入选沈阳市高层次人才拔尖人才。担任CCF YOCSEF沈阳AC委员。

引导发言嘉宾

鲁继文

清华大学自动化系副教授、博士生导师，国际模式识别学会会士(IAPR Fellow)。长期从事计算机视觉与模式识别方面的教学与科研工作，在PAMI/IJCV/CVPR/ICCV/ECCV上发表论文100余篇，主持承担国家自然科学基金联合重点项目、优秀青年科学基金、国家重点研发计划课题等科研项目10余项，获2020年中国电子学会自然科学一等奖（第1完成人）。担任国际期刊Pattern Recognition Letters主编，IEEE TIP/TCSVT/TBIOM编委，国际会议ICME 2022大会主席，FG 2023、VCIP 2022、AVSS 2021和ICME 2020程序委员会主席，IEEE图像视频多维信号处理和IEEE多媒体信号处理技术委员会委员，中国计算机学会计算机视觉专委会和中国人工智能学会模式识别专委会常务委员。

演讲题目：视频动作分析与识别

摘要：人体动作分析与识别是计算机视觉的研究热点，在智能安防、智能媒体、和智能系统等领域均有着重要的应用前景。报告将汇报清华大学自动化系智能视觉实验室近年来在视频动作分析与识别方面开展的一些工作，包括对比性特征学习、结构化特征学习、自监督特征学习等视频动作表示方法，以及它们在个体动作预测、群体动作识别、教程动作检测和动作质量评价等任务中的应用。

王利民

南京大学教授，博导。2011年在南京大学获得学士学位，2015在香港中文大学获得博士学位，2015年至2018在苏黎世联邦理工学院(ETH Zurich)从事博士后研究工作。研究方向为计算机视觉与深度学习，具体关注视频理解和动作识别。在国际重要期刊(IJCV/T-PAMI等)和会议(CVPR/ICCV等)发表学术论文40余篇，根据Google Scholar统计，论文被引用10000余次，H-index 32。提出的时序分段网络（TSN）获得2016 ActivityNet比赛冠军，该技术已经成为动作识别领域的基准方法。获得奖励：江苏省优秀本科毕设团队奖(2012)、吴文俊人工智能科技进步二等奖(2019)、广东省技术发明一等奖(2019)、世界人工智能大会青年优秀论文奖(2020)等。

演讲题目：视频人体行为理解：方法与数据

摘要：人体动作识别已经成为视频理解领域的关键技术之一，有效的视频表征技术和高效的时空检测框架，是人体动作识别研究的难点。在本次讲座中，我们主要介绍南京大学媒体计算组（MCG)在视频人体动作理解方面的系列工作，具体包括视频动作的表征方法、动作检测框架以及面向多人运动场景的时空动作检测数据集。最后将总结和展望视频人体行为理解的发展趋势。

王瑞平

中科院计算所研究员、博导，研究领域为计算机视觉与模式识别，重点关注真实开放环境下的视觉场景理解问题。发表主流国际期刊和会议论文70余篇，Google Scholar引用4700余次，获授权国家发明专利8项。围绕相关学术专题，先后在CVPR2015、ECCV2016、ICCV2019等国际会议合作组织并主讲Tutorial。担任国际期刊Pattern Recognition、Neurocomputing、The Visual Computer编委，国际会议IEEE CVPR2021、ICCV2021、WACV2018-2020、ICME2019-2021、IJCB2020、ICPR2020领域主席。研究成果获得2015年度国家自然科学奖二等奖（第4完成人）、2019年度国家自然科学基金委优青项目资助。入选2019年度北京智源人工智能研究院“青年科学家”。

演讲题目：视觉场景图—表示、生成与应用

摘要：近年来面向视觉场景理解的认知任务探索成为热点，研究视角从关注局部的视觉实体转向关注全局的实体间关系，结构化的视觉场景图为连接底层的物体识别检测等感知任务与高层的语言描述问答等认知任务提供了桥梁。本课题组近几年围绕场景图的表示、生成与应用开展了系列研究，报告将介绍取得的一些具体进展，包括：结构化图推理驱动的物体检测、场景关系图的自动生成、复杂场景跨模态图文检索、图像描述生成的认知评测体系等工作。

李文

电子科技大学教授，博士生导师，四川省千人特聘专家，2015年获新加坡南洋理工大学博士，2015年至2019年在瑞士苏黎世联邦理工学院计算机视觉实验室从事研究工作。主要研究领域为计算机视觉与机器学习，专注于计算机视觉任务中的领域适应、迁移学习、弱监督学习、半监督学习等关键问题，在T-PAMI、IJCV、CVPR、ICCV、ECCV等在内的领域重要国际期刊和国际会议论文40余篇，Google Scholar的总引用次数3600余次。是迁移学习领域重要研讨会ICCV/ECCV Workshops on TASK-CV的主办者之一，以及互联网数据学习研讨会CVPR Workshops on WebVision的发起人之一。长期担任包括T-PAMI、T-IP、T-NNLS、CVPR、ICCV、ECCV、NeurIPS、ICML、ICLR在内的重要国际期刊和会议审稿人，担任AAAI 2021领域主席、ACM MM 2021注册主席，获ECCV 2016、CVPR 2019杰出审稿人奖，与苏黎世联邦理工学院、南洋理工大学、悉尼大学、谷歌等一流科研机构和企业长期保持紧密的合作关系。

演讲题目：面向电商场景的短视频生成

摘要：得益于移动设备的普及和无线网络技术的发展，短视频逐渐成为人们表达自我的重要媒介，快速编辑或生成短视频成为近年的研究热点之一。本报告将着重面向电商场景，介绍基于图像和视频的短视频生成技术。在基于图像的短视频生成任务上，我们研究根据一张静态图像生成一段视频来模拟指定视频中的动作；在基于视频的短视频生成任务上，研究根据一段长视频来生成短视频摘要。最后，我将分享这些技术在电商场景的短视频广告中的潜在应用。

谈申泉

华为机器视觉领域高级科学家，16年通信与机器视觉领域行业经验，9年海外通信与机器视觉领域研究经验，当前负责华为机器视觉领域产业研究与战略规划。

演讲题目：机器视觉创新技术点亮智能世界

摘要：人工智能作为改变未来的技术正在进入千行百业，帮助各行各业实现全场景智慧；在5G，AI等技术的助力下机器视觉产业正在发生快速变化，华为以机器视觉+5G+AI技术为核心打造了各个行业智能体赋能产业数字化转型；华为在机器视觉领域为行业标准也做了大量贡献，如对前端采集软件的定义，图像质量的标准化：从人眼主观感受到机器识别客观评估等；华为机器视觉结合行业智慧应用赋能各个行业，打造了业界一系列典型应用场景和案例。

论坛安排：

论坛时间：2021年5月15日（周五）下午1点30分-5点30分

论坛地点：沈阳新都绿城喜来登酒店（浑南区沈中大街101-1号）多功能4厅

<<< 上一篇人工智能竞赛层出不穷，对高校人才培养是催化

镜头记录YEF2021 | 首日精彩、明天日程及直播下一篇 >>>

<<< 下一篇镜头记录YEF2021 | 首日精彩、明天日程及直播