返回首页
您的位置:首页 > 新闻 > CCF新闻 > CNCC

视觉智能邂逅多模态:从感知到理解|CNCC Tutorial

阅读量:15 2025-09-22 收藏本文
图片

CNCC2025 Tutorial是由领域内专家主讲,面向全体参会者开放的专题讲座或教学环节,旨在介绍研究领域的最新进展或基础知识,内容涵盖原理、挑战、方法等。可以帮助刚进入该方向的博士生、青年学者快速补齐知识短板,以便更好地参会后续的前沿报告理解与未来方向思辨。


年Tutorial共设置9大主题板块:AI基础模型、机器学习理论与机理、强化学习与推理、视觉与多模态、AI安全与治理、面向AI的数据管理和治理、Agent与具身智能、新型计算与网络架构、AI4Science。


图片


Tutorial名称:

视觉智能邂逅多模态:从感知到理解

所属主题:

视觉与多模态

日程安排:

2025年10月22日下午

举办地点:

哈尔滨市·华旗饭店


注:如有变动,请以官网(https://ccf.org.cn/cncc2025)最终信息为准


模块

时长

内容

1.多模态表征学习与推理

50min

多模态表征学习与推理:理论、技术与应用

2.多模态融合与协同感知

50min

多模态图像融合与协同感知技术

3.视觉生成、编辑与交互

50min

多模态视觉生成、编辑与交互技术

4.Q&A and Discussion

30min

Interactive discussion and future directions.


1

Tutorial简介

随着大规模预训练模型和生成式人工智能技术的飞速发展,视觉智能与多模态学习已成为人工智能领域的重要研究前沿和产业突破口。视觉不仅是人类认知世界的核心模态,也是多模态系统中最具挑战性与创新潜力的关键环节。近年来,视觉与语言、视觉与语音、视觉与行为等多模态融合方式不断演进,推动了人工智能系统从单一感知向复杂语义理解、决策生成和人机交互全面升级。本次Tutorial以“视觉智能邂逅多模态:从感知到理解:从感知到理解”为主题,系统梳理多模态信息融合、多模态协同感知、多模态生成与交互、多模态表征推理等关键技术体系,结合最新的大模型应用和前沿研究,帮助参会者全面理解这一交叉领域的发展脉络、技术趋势和实践路径。Tutorial将特别关注如何实现不同模态的信息对齐、特征融合、协同感知与任务联动,促进智能系统在开放环境下的泛化与进化能力,推动下一代多模态人工智能的落地应用。

2

Tutorial目标

参与者将能够:

掌握多模态学习与融合的基本原理

理解多模态信息融合、跨模态对齐与协同感知的核心概念与方法,熟悉视觉与语言、视觉与语音等多模态系统的技术基础。

掌握视觉大模型与主流多模态技术框架

深入了解当前主流视觉大模型(如CLIP、BLIP、Stable Diffusion、Sora)及其跨模态对齐机制,掌握代表性技术路线与应用案例。

具备多模态应用系统的实践能力

能够基于开源工具(如Hugging Face Transformers、LAVIS等)进行多模态模型调优与应用开发,初步实现跨模态检索、生成和感知任务。

具备分析与解决多模态实际问题的能力

能够结合实际应用场景(如医疗影像、智能交互、虚拟现实等)设计多模态AI解决方案,并理解多模态AI在产业落地过程中的挑战与应对策略。

3

Tutorial内容

1.多模态表征学习与推理:理论、技术与应用

多模态融合在科学发现、医疗诊断、机器人等领域具有广泛和重要应用。不同模态数据蕴含的信息具有互补性、冗余性、动态性、不平衡、不完整等诸多复杂关联和不确定性,其对多模态数据融合的效果产生了深刻的影响。本报告将从不确定性的视角对多模态数据表征与推理进行阐述,并介绍面向低质量多模态数据的表征与推理理论、方法和应用。

2.多模态图像融合与协同感知技术

多模态信息融合与协同感知是连接物理世界与智能系统的关键纽带。本报告以面向实际应用需求的多模态图像融合技术为核心,聚焦多模态图像融合与协同感知领域内的关键挑战与前沿方向,涵盖未配准图像融合模型、文本驱动的退化鲁棒图像融合框架、视觉语义协同感知的融合范式以及通用图像融合方法。报告将结合安防监控、遥感监测与智慧医疗等典型场景,展示多模态信息融合与协同感知在公共安全、环境感知及辅助诊断等方面的实际价值与广阔前景。

3.多模态视觉生成、编辑与交互技术

生成式人工智能技术正深刻改变视觉与多模态智能的发展格局。多模态生成将综合考虑语言、图像、视频、3D和音频等典型模态,旨在实现丰富的内容创造、语义生成与智能交互。本报告将主要介绍多模态生成的主要进展、典型模型与应用,包括文生图像、文生视频、文生3D等任务,重点讲解扩散、自回归等代表性生成模型,介绍ID、布局、动作及相机运动的可控生成技术。同时,本报告还将介绍多模态视觉编辑、Agentic生成、交互式生成与编辑等技术,并分析多模态视觉生成发展过程中的伦理、安全与社会影响,为多模态视觉生成提供一个较为全面的介绍与分析。 


讲者介绍



图片

张长青

天津大学教授

天津大学智能与计算学部教授、博士生导师、人工智能学院副院长,国家级青年人才,其主要研究方向为机器学习、计算机视觉、智能医疗。2017-2018年在北卡罗拉纳大学教堂山分校担任研究员。在Nature Communications/IEEE TPAMI/IJCV/ICML/NeurIPS/ICLR等期刊和国际会议上发表论文50余篇。Google Scholar引用1万余次。研究成果获得天津市自然科学一等奖、重庆市自然科学一等奖、中国图象图形学学会自然科学奖一等奖、ICME最佳论文等奖励,入选百度发布的全球高潜力AI华人青年学者榜单、斯坦福大学发布的全球Top 2%顶尖科学家榜单、爱思唯尔“中国高被引学者”。受邀担任Pattern Recognition副编辑、中国图象图形学报青年编委及顶级会议ICLR/IJCAI领域主席,受邀为IEEE TPAMI、IJCV、CVPR、ICCV、ECCV、NeurIPS、ICML、ICLR等多个国际高水平期刊及会议审稿。主持和参与多项国家自然基金面上项目/重点项目、国家重点研发计划项目。

图片

马佳义

武汉大学教授

武汉大学电子信息学院教授、博士生导师,入选湖北省杰出青年基金、万人青拔及全球高被引科学家。他长期从事计算机视觉与人工智能研究,聚焦图像匹配与配准、多模态信息融合、红外与高光谱图像处理等方向,主持多项国家自然科学基金项目,在TPAMI、IJCV、CVPR等顶级期刊和会议发表论文百余篇,ESI高被引论文十余篇,获湖北省自然科学一等奖(序1)、中国自动化学会优秀博士论文奖等多项荣誉,担任Information Fusion领域编辑及多种国际期刊编委。

图片

左旺孟

哈尔滨工业大学教授

哈尔滨工业大学计算机学院教授、博士生导师。主要从事图像增强与复原、视觉编辑与生成、视觉理解与学习等方面的研究。在CVPR/ICCV/ECCV等顶级会议和T-PAMI、IJCV及IEEE Tr 4ACBans.等期刊上发表论文100余篇,谷歌学术引用30000余次。曾任ICCV2019、CVPR2020/2021等CCF-A类会议领域主席,现任IEEE T-PAMI和T-IP等期刊编委、中国科学-信息科学青年编委。承担自然基金区域创新发展联合基金项目1项。曾获2020年黑龙江省自然科学奖一等奖(排名第一)、2019年陕西省科技进步奖一等奖(排名第二)。2020/2021年入选爱思唯尔“中国高被引学者”。担任人工智能学会模式识别专委会常委、中国图象图形学学会机器视觉专委会常委、中国图像图形学会青工委执委。


CNCC2025



CNCC2025将于10月22-25日在哈尔滨举办。专题论坛将在往年多样化主题的基础上,首次通过“基础-前沿-未来”的一体化设计,满足不同背景参会者的需求,构建从知识获取到创新激发的完整路径,打造系统化、进阶式的参会体验。重点设置9大主题板块,每个主题板块的专题论坛由三大核心模块组成:面向前沿领域的体系性Tutorial、聚焦前沿突破的专题论坛以及探讨未来发展路径的思辨论坛。Tutorial作为这一设计的起点,为参会者构建坚实的共同知识基础,能够深度参与后续的前沿报告理解与未来方向思辨。同时面向青年学者、行业新锐等人群,通过系统性教学,助力赋能青年人才发展。


图片