CNCC | 具身智能与通用操作：人造人还有多远？

阅读量:0 2024-10-17 收藏本文

CNCC2024

论坛简介：

具身智能与通用操作：人造人还有多远？

举办时间：10月25日13:30-17:30

地点：夏苑-海晏堂一楼2号厅

注：如有变动，请以官网(https://ccf.org.cn/cncc2024)最终信息为准

具身智能是指一种基于物理身体进行感知和行动的智能系统，其通过智能体与环境的交互获取信息、理解问题、做出决策并实现行动，从而产生智能行为和适应性。具身智能是实现通用人工智能的重要一环，是赋予机器人广泛社会效益的关键技术，其核心价值体现在机器人对周边万物的通用操作能力上。

伴随人形机器人、多模态大模型、视觉数据合成、触觉感知等方面的研究进展，具身智能与通用操作在近年受到学术界、产业界和社会各界的广泛关注，其中的技术路线对比、能力边界、研究到落地的距离，经常成为焦点话题。然而当下的机器人智能水平，依然离人们普遍期待或担忧的“人造人”有不小差距。

本论坛邀请具身智能领域的前沿探索者和实践者，分享最新研究进展，探讨面向具身智能的scaling law、多模态大模型等课题，介绍具身智能机器人在康复、家庭和工业等场景的实际应用，并通过圆桌讨论，深入探讨迈向通用智能机器人的路径与挑战，力求总结更多共识、提供更多启迪、推动领域发展。

论坛日程

顺序	主题	主讲嘉宾	单位
1	具身智能操作Scaling Law与解决方案探讨	卢策吾	上海交通大学
2	面向通用机器人的具身多模态大模型系统	王鹤	北京大学
3	基于人类行为仿真的可泛化人机协作	弋力	清华大学
4	NeuroSymbolic TAMP：推动工业机器人具身化的创新实践	王志刚	英特尔中国研究院
5	圆桌论坛：人造人还有多远？	史雪松	银河通用机器人
		卢策吾	上海交通大学
		王鹤	北京大学
		弋力	清华大学
		王志刚	英特尔中国研究院
		孙登科	蓝驰创投
6	具身智能与康复假肢的研究进展	孙富春	清华大学

论坛主席及嘉宾介绍

论坛主席

孙富春

清华大学计算机科学与技术系教授、博士生导师

简介：IEEE/CAAI/CAA Fellow，国家杰出青年基金获得者；兼任清华大学校学术委员会委员，算机科学与技术系长聘教授委员会副主任，清华大学人工智能研究院智能机器人中心主任。兼任中国人工智能学会副理事长，中国自动化学会监事和中国认知科学学会常务理事，中国教育发展战略学会人工智能与机器人教育专委会理事长。

论坛讲者

孙富春

清华大学计算机科学与技术系教授、博士生导师

简介：清华大学计算机科学与技术系教授，博士生导师，IEEE/CAAI/CAA Fellow，国家杰出青年基金获得者；兼任清华大学校学术委员会委员，算机科学与技术系长聘教授委员会副主任，清华大学人工智能研究院智能机器人中心主任。兼任中国人工智能学会副理事长，中国自动化学会监事和中国认知科学学会常务理事，中国教育发展战略学会人工智能与机器人教育专委会理事长。兼任国际刊物《Cognitive Computation and Systems》，《AI and Autonomous Systems》主编，《CAAI Artificial Intelligence》执行主编，国际刊物《IEEE Trans. on Fuzzy Systems》和《International Journal of Control, Automation, and Systems (IJCAS)》副主编或领域主编，刊物《Robots and Autonomous Systems》和《International Journal of Social Robots》编委。

报告题目：具身智能与康复假肢的研究进展

摘要：如何使断肢残疾人拥有与人手一样的感知和行为能力一直是学术界和工业界探讨的热点问题。本报告首先以“假肢如何获得像人一样感知能力”为题，研究了康复假肢的具身感知问题，讨论了如何构建虚实一体数字孪生环境，实现多模态的场景迁移。其次以“触觉传感器如何提高假肢的认知能力和精准操作能力”为题，讨论了康复假肢的具身认知和行为操作问题，包括触觉表征、视触觉联合表征与融合实现操作目标物体特性、形态识别，以及操作技能的学习问题。接着，介绍了假肢的人机共融交互操作、多类触觉刺激方法以及假肢在断肢患者中的应用在残疾人康复中的应用。最后展望了康复假肢的未来发展。

卢策吾

上海交通大学教授

简介：长江学者特聘教授，科学探索奖获得者。2016年获海外高层次青年引进人才，2018年被《麻省理工科技评论》评为35位35岁以下中国科技精英（MIT TR35），2019年获求是杰出青年学者，2020年获上海市科技进步特等奖（第三完成人），2022年获教育部青年科学奖，2024年获国际机器人顶会IROS最佳论文之一（6/3579），同年获国际机器人顶会ICRA最佳论文（Open X Embodiment）。2023年获机器人顶会RSS最佳系统论文提名奖（共四项），并获得科学探索奖。以通讯作者或第一作者在《自然》、《自然·机器智能》、TPAMI、T-RO等高水平期刊和会议发表论文100多篇；担任《Science》正刊、Nature子刊、Cell子刊等期刊审稿人，以及NeurIPS、CVPR、ICCV、ECCV、IROS、ICRA等领域会议的主席。研究兴趣包括具身智能、计算机视觉。

报告题目：具身智能操作Scaling Law与解决方案探讨

摘要：该讲座围绕具身操作的Scaling Law展开，介绍当前具身操作Scaling Law遇到的瓶颈与思考。从空间不确定性与数据稀缺的矛盾出发，提出物理操作大模型与力-位混合大模型的两级联合训练以降低空间不确定性（对应PIE方案）的可能解决方案。在物理操作大模型上（对应P与I模块），阐述手操作的空间语义解析如何获取海量物体操作知识数据，并介绍自研仿真系统RFuniverse如何在虚拟与真实孪生学习中提高整体世界理解性能。在力-位混合操作模型上（对应E模块），介绍力-位混合模型的设计思路与应用，以及数据采集系统（力反馈遥操作系统，外骨骼数据收集系统），和数据集RH20T。

王鹤

北京大学前沿计算研究中心助理教授

简介：他创立并领导了北大具身感知与交互实验室(EPIC Lab，主页：https://hughw19.github.io)，研究目标是通过研发具身泛化技能及具身多模态大模型推进通用机器人的发展。他担任北大-银河通用具身智能联合实验室主任，智源学者。他已在计算机视觉、机器人学和人工智能的顶级会议和期刊（CVPR/ICCV/ECCV/TRO/RAL/ICRA/NeurIPS/ICLR/AAAI等）上发表五十余篇工作，其论文获得ICCV2023最佳论文候选，ICRA2023最佳操纵论文候选，2022年世界人工智能大会青年优秀论文（WAICYOP）奖，Eurographics 2019最佳论文提名奖。他获得英特尔中国学术英才计划荣誉学者称号。他担任CVPR和WACV的领域主席，Image and Vision Computing的副主编和诸多顶会的审稿人、程序委员。在加入北京大学之前，他于2021年从斯坦福大学获得博士学位，师从美国三院院士Leonidas. J Guibas教授，于2014年从清华大学获得学士学位。

报告题目：面向通用机器人的具身多模态大模型系统

摘要：通用机器人是具有任务和环境通用属性和革命性意义的下一代机器人。本报告将讨论通过具身多模态大模型系统融合视觉语言等模态可以直接对高度泛化通用的物理任务输出动作的解决方案。报告将介绍由本体和数据构成基石层、大脑和小脑构成能力层的具身多模态大模型系统方案。对于本体和数据，我们将对人形机器人的形态进行探讨，提供硬件的发展思路和基于合成大数据的泛化训练数据获取途径。对于能力层，我们完全通过合成数据和Sim2Real实现了多个泛化的移动和操作技能，包括二指和灵巧抓取、铰接类物体操作、柔性物体操作、端到端视觉语言导航大模型等等，这些构成了小脑。而对于大脑，我们将展示GPT-4V为代表的非具身多模态大模型进行视觉感知、任务规划和调用中层的三维视觉技能，实现从家用电器泛化操作到开放指令物体摆放的能力。最后，报告将展望通用机器人的未来，讨论其中的机会和挑战。

弋力

清华大学交叉信息研究院助理教授

简介：他在斯坦福大学取得博士学位，导师为美国三院院士Leonidas J. Guibas教授，毕业后在谷歌研究院任研究科学家。他近期的研究聚焦于三维视觉与具身智能，他的研究目标是赋予机器人理解并与三维世界交互的能力。他在计算机顶级会议期刊上已发表论文六十余篇，引用数两万余次，代表作品包括ShapeNet Part，SyncSpecCNN，PointNet++等，大大影响了三维深度学习这一领域的出现与发展。此外他还曾担任CVPR、IJCAI、NeurIPS等顶会的领域主席与SIGGRAPH TPC等。

报告题目：基于人类行为仿真的可泛化人机协作

摘要：具身智能很重要的研究目标在于使机器人能够与人类进行交互和协作。近年来，尽管在教授机器人无需人类参与的操作技能方面已取得了重大的技术进展，但在可扩展地学习人机协作技能以应对各种任务和人类行为方面仍存在滞后。现实世界中针对人机协作的机器人训练成本高昂且风险较大，从可扩展性的角度来看，这种训练方法在实际应用中并不实际。因此，在将机器人部署到现实世界之前，有必要在虚拟环境中模拟人类行为并对机器人进行训练。在本次报告中，我将讨论我们近期在采集大规模人物交互数据集、模拟能够推广到新环境和任务的逼真人类行为、以及利用可扩展的人物仿真实现可泛化人机协作方面所做的努力。通过在多样化的场景中模拟人类交互，我们创建了以人为中心的机器人仿真器。通过采用动态任务和动作规划来生成高质量的示例，我们可以训练可泛化的人机协作技能。我们相信，这种方法为推进真实世界的人机协作提供了一种强大的范式。

王志刚

英特尔中国研究院资深研究员

简介：自2006年加入英特尔以来，逐渐发展成为一名全栈研究员，具备从底层硬件到高层应用的全面技术能力。成功领导并完成了多个概念到产品的研究工作。目前，主要致力于研究和应用时空智能、神经符号智能以及类脑计算技术在具身机器人上的实现。他在多个核心期刊和知名学术会议上发表了多篇论文，并拥有数十项创新专利。

报告题目：NeuroSymbolic TAMP：推动工业机器人具身化的创新实践

摘要：本报告将概述英特尔中国研究院与上海交通大学合作开发的BEAM-1机器人项目。BEAM-1是一款专为电动汽车废旧电池拆解设计的自主移动复合机器人（AMMR），旨在应对电动汽车行业快速发展带来的废旧电池回收挑战。该场景不仅要求机器人在非结构化且动态变化的环境中具备高度的自主性和适应性，还要求其操作精度高（小于0.5毫米）、鲁棒性强（任务出错率低于万分之一）以及拆解效率不低于人工水平。BEAM-1机器人集成了先进的移动底盘、灵活的机械臂、多功能拆解执行器和旋具快换装置，同时利用神经符号人工智能技术，实现了高度的自主性和适应性，能够在非结构化环境中有效地进行任务规划和执行。为平衡系统鲁棒性和效率，系统通过在逻辑推理的框架下完成任务规划，同时利用大语言模型（LLM）对其进行增强，并引入基于直觉猜测提高运动规划能力。此外，BEAM-1在逻辑系统的加持下，还能够通过反思实现对环境理解及自身控制能力的持续提高，进而持续提高拆解效率。这项研究不仅展示了在复杂环境中机器人技术的前沿应用，也为未来具身智能工业机器人的设计和实现提供了宝贵的经验和启示。

关于CNCC2024

CNCC2024将于10月24-26日在浙江省东阳市横店镇举办，大会主题为“发展新质生产力，计算引领未来”。大会为期三天，包括18个特邀报告、3个大会论坛、138个专题论坛及34场专题活动和100余个展览。图灵奖获得者、两院院士、国内外顶尖学者、知名企业家在内的超过800位讲者在会上展望前沿趋势，分享创新成果。预计参会者超过万人。

<<< 上一篇 CNCC | 探索大语言模型的潜能与局限——大语

董玮：大模型赋能智能物联网的技术与愿景 | C 下一篇 >>>

<<< 下一篇董玮：大模型赋能智能物联网的技术与愿景 | C