ADL145 探讨Sora的前世今生：视频生成基础模型与关键技术

阅读量:86 2024-03-26 收藏本文

CCF学科前沿讲习班

The CCF Advanced Disciplines Lectures

CCFADL第145期

主题视频生成基础模型与关键技术

2024年4月19日-21日北京

本期CCF学科前沿讲习班《视频生成基础模型与关键技术》以文本到视频生成为主要焦点，围绕SORA展开介绍其基本原理，包括SORA核心技术Diffusion Transformer架构，数据标注技术多模态对话理解模型，和视频生成算法的最新进展等等，帮助学员理解视频生成的基本概念、核心技术，算法原理和潜在应用等，激发学员兴趣，开阔科研视野，增强专业知识与实践能力。

本期ADL讲习班邀请到了本领域 6位来自于著名高校与企业科研机构的一线专家学者做主题报告。他们将对基于生成式人工智能基础理论与前沿应用进行深入浅出的讲解，为听众介绍扩散概率模型等前沿方法的理论与算法基础，并介绍解决多个人工智能相关重要领域的最前沿进展。

学术主任：朱军清华大学；李崇轩中国人民大学

主办单位：中国计算机学会

活动日程：

2024年4月19日（周五）
9:00-9:15	开班仪式
9:15-9:30	全体合影
9:30-12:30	专题讲座1： Vchitect:Building Open-Source Foundation System for Video Generatio 刘子纬新加坡南洋理工大学助理教授
12:30-13:30	午餐
13:30-16:30	专题讲座2：高效可控的多模态生成算法初探李崇轩中国人民大学副教授
2024年4月20日（周六）
9:00-12:00	专题讲座3：智能视频创作工具饶安逸斯坦福大学博士后研究员
12:00-13:00	午餐
13:00-16:00	专题讲座4： Pixart-基于Diffusion Transforme从头高效训练文生图扩散模型谢恩泽华为诺亚方舟实验室(香港)研究员
2024年4月21日（周日）
9:00-12:00	专题讲座5： LLaVA: A Vision-and-Language Approach to Computer Vision in the Wild Chunyuan Li ByteDance/TikTok, US, Research Lead
12:00-13:00	午餐
13:00-16:00	专题讲座6：视频生成的初探及其可控性研究王鑫涛腾讯专家研究员

本期ADL主题《视频生成基础模型与关键技术》,由清华大学计算机系Bosch AI教授、清华大学人工智能研究院副院长朱军、中国人民大学高瓴人工智能学院副教授李崇轩担任学术主任，邀请到（以姓氏拼音为序）：李崇轩（中国人民大学副教授）；Chunyuan Li(ByteDance/TikTok, US, Research Lead)；刘子纬（新加坡南洋理工大学助理教授）；饶安逸（斯坦福大学博士后研究员）；王鑫涛（腾讯专家研究员）；谢恩泽（华为诺亚方舟实验室(香港)研究员）等6位专家做专题讲座。

报告嘉宾（以姓氏拼音为序）

特邀嘉宾一：李崇轩

中国人民大学副教授

个人简介：李崇轩，中国人民大学高瓴人工智能学院准聘副教授、博士生导师，2010-2019年获清华大学学士和博士学位。主要研究机器学习、深度生成模型，代表性工作Analytic-DPM、DPM-Solver作为核心采样技术部署于DALL·E 2、Stable Diffusion等。获国际会议ICLR杰出论文奖、吴文俊优秀青年奖、吴文俊人工智能自然科学一等奖、中国计算机学会优秀博士论文、ACM SIGAI 中国新星奖等。担任ICLR 2024领域主席。

报告主题：高效可控的多模态生成算法初探

报告摘要：本次报告将从SORA出发，讨论其对未来多模态生成模型的启发以及有待改进的方面。特别地，面向可交互的环境模拟这一任务，指出现有多模态生成模型的采样效率、可控性等方面存在的问题。进一步地，本次报告将从概率建模的视角出发，介绍高效、可控的多模态生成算法方面的一些初步探索，并以此为脉络介绍文到图、文到视频、文到3D多模态内容生成的新进展，及其对可交互环境模拟的潜在推动作用。

特邀嘉宾二：Chunyuan Li

ByteDance/TikTok, US, Research Lead

个人简介：Chunyuan Li is currently a Research Lead at ByteDance/TikTok, based in the Seattle area. From 2018 to 2023, He worked as a Principal Researcher in the Deep Learning Team at Microsoft Research, Redmond. Before that, Chunyuan obtained his PhD at Duke University, working on probabilistic deep learning. He also spent time with Uber AI, Adobe Research, NIST and INRIA. At MSR, Chunyuan is mainly working on large-scale pre-training in computer vision (CV) and vision-language multimodality (MM), with a focus on building transferable vision models that can effortlessly generalize to a wide range of downstream CV & MM tasks. Chunyuan’s research has been frequently published in top venue conferences, including dozens of oral / spotlight presentations in NeurIPS, ICLR, ICML, CVPR and ACL, as well as receiving the Best Paper Finalist Award in CVPR 2022. He has served as an Area Chair for NeurIPS, ICML, ICLR, ACL, EMNLP & AAAI, and a Guest Editor of IJCV. More info: https://chunyuan.li/.

报告主题：LLaVA: A Vision-and-Language Approach to Computer Vision in the Wild

报告摘要：The future of AI is in creating systems like foundation models that are pre-trained once, and will handle countless many downstream tasks directly (zero-shot), or adapt to new tasks quickly (few-shot). In this talk, I will discuss our vision-language approach to achieving “Computer Vision in the Wild (CVinW)”: building such a transferable system in computer vision (CV) that can effortlessly generalize to a wide range of visual recognition tasks in the wild. I will first describe the definition and current status of CVinW, and briefly summarize our efforts on benchmark and modeling. I will dive into Large Language-and-Vision Assistant (LLaVA) and its series, including LLaVA-Med, LLaVA-1.5, LLaVA-NeXT, LLaVA-Interactive, LLaVA-Plus. LLaVA family represents the first open-source project to exhibit the GPT-4V level capabilities in image understanding and reasoning. demonstrate a promising path to build customizable large multimodal models that follow humans' intent with an affordable cost.

特邀嘉宾三：刘子纬

新加坡南洋理工大学助理教授

个人简介：Prof. Ziwei Liu is currently a Nanyang Assistant Professor at Nanyang Technological University, Singapore. His research revolves around computer vision, machine learning and computer graphics. He has published extensively on top-tier conferences and journals in relevant fields, including CVPR, ICCV, ECCV, NeurIPS, ICLR, SIGGRAPH, TPAMI, TOG and Nature - Machine Intelligence. He is the recipient of Microsoft Young Fellowship, Hong Kong PhD Fellowship, ICCV Young Researcher Award, HKSTP Best Paper Award, CVPR Best Paper Award Candidate, WAIC Yunfan Award, ICBS Frontiers of Science Award and MIT Technology Review Innovators under 35 Asia Pacific. He has won the championship in major computer vision competitions, including DAVIS Video Segmentation Challenge 2017, MSCOCO Instance Segmentation Challenge 2018, FAIR Self-Supervision Challenge 2019, Video Virtual Try-on Challenge 2020 and Computer Vision in the Wild Challenge 2022. He is also the lead contributor of several renowned computer vision benchmarks and softwares, including CelebA, DeepFashion, MMHuman3D and MMFashion. He serves as an Area Chair of CVPR, ICCV, ECCV, NeurIPS and ICLR, as well as an Associate Editor of IJCV.

报告题目：Vchitect: Building Open-Source Foundation System for Video Generation

报告摘要：Generating photorealistic and controllable video contents has been a long-pursuing goal of artificial intelligence (AI), with extensive real-world applications. It is also at the core of world model. In this talk, I will present Vchitect, our recent endeavor in building an open-source foundation system for video generation, with an emphasis on a full-cycle investigation from effective data, diffusion algorithms, transformer architectures to evaluation benchmarks. Our integral video generation system has shown its effectiveness and generalizability on a wide range of tasks.

特邀嘉宾四：饶安逸

斯坦福大学博士后研究员

个人简介：饶安逸是斯坦福大学的博士后研究员。他研究以人为中心的智能视觉/电影创作工具，比如媒体编辑、创作和影视化分析，旨在加强人工智能和人之间的协作智能，并释放人的创造力和生产力。他参与的工作包括ControlNet、AnimateDiff、MovieNet、Virtual Studio、Shoot360和CityNeRF，并获得马尔奖（ICCV最佳论文奖）。他创办了 CVPR24、ICCV23、ECCV22、ICCV21创意视频编辑和理解研讨会和 2023年巴黎人工智能短片电影节。他博士毕业于香港中文大学MMLab，曾在多伦多大学，向量研究所，Meta Reality Lab、香港大学研究工作。

报告题目：智能视频创作工具

报告摘要：视频是分享我们的生活、想法、故事和情感的美好方式。生成模型的最新进展使我们能够生成逼真的图像像素或短视频片段。然而，现有的方法还远远不能创造出需要更多人类创造力的复杂作品，例如具有复杂活动的长片或细节丰富的图画小说。在本次演讲中，我将介绍我最近使用生成模型和三维信息来设计可靠的视频创作系统的探索。

特邀嘉宾五：王鑫涛

腾讯专家研究员

个人简介：王鑫涛，腾讯ARC Lab和AI Lab专家研究员，本科毕业于浙江大学，博士毕业于香港中文大学，目前主要研究视觉生成相关内容，特别是图像、视频和3D的生成与编辑。在国际顶级会议期刊发表多篇文章，包括ESRGAN，GFPGAN，T2I-Adapter等，论文Google Scholar引用11900余次。

报告主题：视频生成的初探及其可控性研究

报告摘要：视频生成正日益受到学术界和工业界的关注。该报告将介绍视频生成的相关背景和最新进展，以及我们在开源视频基础模型VideoCrafter系列工作的初步研究，包括文生视频、图生视频以及视频生成的标准化评测等。在视频生成的应用过程中，可控性是一个重要的方面。本报告也将介绍视频可控性方面的进展，并分享我们对视频运动可控性的研究。最近，随着OpenAI Sora的发布，我们更加清晰看到了视频生成的潜力和挑战，报告将对Sora所采用的技术进行简要讨论，并分享Sora对我们研究工作带来的思考。

特邀嘉宾六：谢恩泽

华为诺亚方舟实验室(香港)研究员

个人简介：谢恩泽, 现华为诺亚方舟实验室(香港) AI Theory Lab的研究员，他于2022年毕业于香港大学MMLab，导师为罗平教授和王文平教授。谢恩泽发表过30+篇顶级会议/期刊论文，如TPAMI, CVPR, ICCV, ICML, ICLR, NeurIPS, ACL等。其中8篇第一作者。他的谷歌学术引用超过10000次，其中2篇论文单篇引用超过2000次。有4篇论文入选CVPR2020, ICCV2021, NeurIPS2021, ECCV2022的十大最具影响力论文。曾获2022年英伟达奖学金Finalist Award(全球15人)，世界人工智能大会WAIC2023优秀论文奖(全球10篇)。

报告题目: Pixart-基于Diffusion Transformer从头高效训练文生图扩散模型

报告摘要：最先进的文本到图像(T2I)模型需要大量的训练成本(例如数百万个GPU小时)，严重阻碍了AIGC社区的根本创新，同时增加了二氧化碳排放。本文先介绍了PIXART-α，一种基于Transformer的T2I扩散模型，其图像生成质量可与最先进的图像生成器(例如Imagen、SDXL甚至Midjourney)竞争，达到接近商业应用的标准。此外，还将介绍最新提出的PIXART-Σ, 该模型基于PIXART-α增量训练，实现了更高效的计算和语义对齐能力，以及进一步支持了4K超高分辨率的图像合成能力。我们希望 PIXART系列工作能为 AIGC 社区和初创公司提供新的见解，以加速从头开始构建完全属于自己的高质量且有竞争力的图像生成模型。

学术主任

朱军

清华大学计算机系，Bosch AI教授

朱军，清华大学计算机系Bosch AI教授、IEEE/AAAI Fellow、清华大学人工智能研究院副院长，生数科技/瑞莱智慧首席科学家，曾任卡内基梅隆大学兼职教授。2001-2009年获清华大学学士和博士学位，主要从事机器学习研究，担任国际著名期刊IEEE TPAMI的副主编，担任ICML、NeurIPS、ICLR等资深领域主席和最佳论文评审委员20余次。获中国科协求是杰出青年奖、科学探索奖、中国计算机学会自然科学一等奖、吴文俊人工智能自然科学一等奖、ICLR国际会议杰出论文奖等，入选国家高层次人才计划。指导的多位博士生获得CCF优秀博士论文、中国人工智能学会优秀博士论文、清华大学特等奖学金等。

李崇轩

中国人民大学，高瓴人工智能学院副教授

李崇轩，中国人民大学高瓴人工智能学院准聘副教授、博士生导师，2010-2019年获清华大学学士和博士学位。主要研究机器学习、深度生成模型，代表性工作Analytic-DPM、DPM-Solver作为核心采样技术部署于DALL·E 2、Stable Diffusion等。获国际会议ICLR杰出论文奖、吴文俊优秀青年奖、吴文俊人工智能自然科学一等奖、中国计算机学会优秀博士论文、ACM SIGAI 中国新星奖等。担任ICLR 2024领域主席。

时间：2024年4月19日-21日

地址：北京•中科院计算所一层报告厅（北京市海淀区中关村科学院南路6号）