本期发布术语新词:具身智能(Embodied Artificial Intelligence)。
具身智能
(Embodied Artificial Intelligence)
作者:卢策吾,王鹤
InfoBox:
中文名:具身智能
外文名:Embodied Artificial Intelligence
简写:EAI
学科:人工智能、机器人学习、计算机视觉
实质:强调有物理身体的智能体通过与物理环境进行交互而获得智能的人工智能研究范式。
由来:
具身智能的思想萌芽于人工智能诞生之初。1950年,图灵在其为人工智能奠基、提出图灵测试的经典论文《Computing Machinery and Intelligence》的结尾展望了人工智能可能的两条发展道路:一条路是聚焦抽象计算(比如下棋)所需的智能,另一条路则是为机器配备最好的传感器、使其可以与人类交流、像婴儿一样地进行学习。这两条道路便逐渐演变成了非具身和具身智能。
在具身智能的发展道路上,人们思考和探讨人工智能系统是否需要拥有与人类相似的身体和感知能力,以及身体如何影响智能和认知。早期的具身智能研究主要集中在机器人学和仿生学领域,逐渐发展并融合了跨学科的方法和技术。近年来,随着深度学习等技术的快速发展,具身智能研究进入了一个新的阶段。研究人员利用虚拟物理环境和强大的计算能力,设计和训练具备感知和行动能力的智能系统,并将这种交互能力迁移到真实世界、使智能体进行自主决策和执行物理交互任务。
定义:
具身智能是指一种基于物理身体进行感知和行动的智能系统,其通过智能体与环境的交互获取信息、理解问题、做出决策并实现行动,从而产生智能行为和适应性。
发展:
近年来,人工智能的学术研究前沿逐渐从以静态大数据驱动的“互联网AI”向以智能体与环境交互为核心的“具身AI”转变。互联网AI孕育了ChatGPT和GPT4,开启了通用视觉语言大模型之路,充足的数据使语义理解的研究范式日趋成熟、能力日趋完美。但是互联网的静态大数据缺乏机器人如何运动、移动其关节、与世界物理交互的信息。这种物理交互能力的缺失成为了当今通向通用人工智能的瓶颈。具身智能则关注从机器人身体出发的感知和交互、致力于从环境交互的数据中学习执行物理任务的能力,吸引了计算机视觉、自然语言处理和机器人等众多领域的研究兴趣,使具身智能逐渐成为热门的研究方向。2017年第一届机器人学习大会CoRL(Conference on Robot Learning)召开,机器人学习领域涌现了大量新的智能任务、算法、环境。在之后的1-2年,具身智能任务开始逐渐涌现。2018年和2019年的CoRL会议上,大量的具身智能学术任务开始被提出并受到关注,包括具身视觉导航、具身问答系统等。国际学术社区举办了多个以具身智能为主题的研讨会和挑战赛,例如CVPR 2019举办的具身智能挑战赛和研讨会(Habitat: Embodied Agents Challenge and Workshop)以及CVPR 2020到2022的具身智能研讨会(Embodied AI Workshop)[1]。在2023年即将举办的CVPR 2023具身智能研讨会上,组织了包括基于AI Habitat、AI2-THOR、iGibson、Sapien仿真器的物体重排列、具身问答、具身导航和机器人操作挑战赛,这些具身智能任务与其他线上AI任务具有完全不同的范式,即:基于一个具身智能体(如机器人),通过该智能体的“看”、“说”、“听”、“动”、“推理”等方式,与环境进行交互和探索任务目标,从而解决环境中的各项挑战性任务。进一步,来着互联网AI的预训练大模型和多模态大模型(例如CLIP[2]、ViLD 和PaLI[3])作为基础模型也为具身智能体在复杂场景中执行长程任务提供了支持。例如,微软提出ChatGPT+机器人[4],谷歌推出了Say-Can基于语言推理的机器人操作[5],以及PaLM-E语言-视觉-机器人大模型[6],这些大模型的突破不仅为人机交互提供了更自然的接口,还使得具身智能体能够充分利用基础模型的优势,在新任务上实现少样本和零样本学习,有效推动通用智能体跨任务学习和任务迁移的发展。
工具及应用:
具身智能一条主要的研究思路是在虚拟物理世界设计和开发具身智能算法,并将其迁移到真实世界(Sim2Real)。正如人工智能和计算机视觉存在物体识别、检测等任务和基准集,具身智能的研究也存在基本的任务类型和基准集,这些基准集是促进具身智能研究的重要平台,也是具身智能感知和算法训练的数据平台。国际研究社区发布了多个虚拟具身仿真环境、物体数据集、任务和学习框架,为具身智能研究和智能体设计提供了有效数据平台和试验场。
现阶段的重点任务主要包括具身导航、问答和包括物体重排列在内的、多种多样的物体操纵任务等。这些任务的研究内容和已有学科存在重叠但又有所侧重。具身智能范式下的导航[6]侧重从交互中完成导航目标,包括点目标、物体目标、指令目标、声音导航等,需要智能体通过看、听、语言理解等方式主动探索周围物理环境完成目标,针对具身导航的虚拟环境主要有iGibson[7,8]系列环境、Habitat[9,10]、MultiON[11]、BEHAVIOR[12,13]等。具身问答是导航任务的升级,侧重从交互中探索和理解周围环境,并关联语言指令和回答特定问题,主要虚拟环境有ALFRED[14]。具身重排[15,16]则是智能体将物理环境中的物体从初始构型转移到目标构型,一般以家居场景为主。这类任务不关注机器人和物品的接触交互控制等底层机器人技术,更加关注对场景的理解[17]、物品整体状态感知和任务规划,主要虚拟环境包括AI2-THOR[18]、ThreeDWorld[19,20]、Habitat 2.0[21]等。机器人物体操纵是机器人领域的重要研究内容,具身智能视角下的机器人操作侧重以学习的方式解决如何交互并从接触交互中理解、控制和改变外界状态,实现机器人操作的任务可迁移性、环境适应性和技能可扩展性[22],主要虚拟环境包括SAPIEN[23-25]、RLBench[26]、VLMbench[27]、RFUniverse[28]、ARNOLD[29]等,物体抓取及操纵信息数据集包括:GraspNet、SuctionNet、DexGraspNet和GAPartNet等。
具身智能的另一条研究思路是在真实世界中采集具身交互数据和学习。在真实环境中,人类可以遥操作机器人来采集专家数据,通过包括behavior cloning (行为克隆)等模仿学习算法来训练机器人习得技能或交互策略[31,32]。借用高采样率的强化学习算法(如基于模型的强化学习或离线强化学习[30]),机器人也可以直接与真实世界交互、获得奖励而习得交互策略。在模仿学习数据方面RH20T[33]提供了一个20TB级别的大规模多模态模仿学习数据。
挑战与展望:
具身智能在发展更加先进的仿真环境和Sim2Real迁移技术,以及在提高具身智能体学习效率、性能、泛化性方面依然存在巨大挑战。(1)未来具身仿真环境需要突破更多物体类型的物理交互和传感模拟,这是学习和训练具身智能体的重要平台。(2)仿真到真实之间在外观、物理和控制等层面存在差异,如何更好地达成仿真到真实迁移技术依然是具身智能未来重要的研究方向。(3)真实世界中的交互学习虽然没有仿真带来的问题,但是不可避免地引入了某些场景中成本昂贵甚至危险的实时交互,难以规模化。(4)目前大模型在具身智能领域还远未达到非具身智能领域的性能表现,包括零样本泛化、基于提示工程的多任务学习、下游任务微调等,未来大模型和具身智能结合具有广泛的研究空间。
参考文献:
[1]Deitke M, Batra D, Bisk Y, Campari T, Chang A X, Chaplot D S, Chen C, D’Arpino C P, Ehsani K, Farhadi A, others. Retrospectives on the embodied ai workshop[J]. arXiv preprint arXiv:2210.06849, 2022.[2]Khandelwal A, Weihs L, Mottaghi R, Kembhavi A. Simple but effective: Clip embeddings for embodied ai[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. , 2022: 14829–14838.[3]Chen X, Wang X, Changpinyo S, Piergiovanni A J, Padlewski P, Salz D, Goodman S, Grycner A, Mustafa B, Beyer L, others. Pali: A jointly-scaled multilingual language-image model[J]. arXiv preprint arXiv:2209.06794, 2022.[4]Vemprala S, Bonatti R, Bucker A, Kapoor A. Chatgpt for robotics: Design principles and model abilities[J], 2023.[5]Michael Ahn,Anthony Brohan, Noah Brown, Yevgen Chebotar, Omar Cortes, Byron David, Chelsea Finn, Chuyuan Fu, Keerthana Gopalakrishnan, Karol Hausman, Alex Herzog, Daniel Ho, Jasmine Hsu, Julian Ibarz, Brian Ichter, Alex Irpan, Eric Jang, Rosario Jauregui Ruano, Kyle Jeffrey, Sally Jesmonth, Nikhil J Joshi, Ryan Julian, Dmitry Kalashnikov, Yuheng Kuang, Kuang-Huei Lee, Sergey Levine, Yao Lu, Linda Luu, Carolina Parada, Peter Pastor, Jornell Quiambao, Kanishka Rao, Jarek Rettinghouse, Diego Reyes, Pierre Sermanet, Nicolas Sievers, Clayton Tan, Alexander Toshev, Vincent Vanhoucke, Fei Xia, Ted Xiao, Peng Xu, Sichun Xu, Mengyuan Yan, Andy Zeng. Do As I Can, Not As I Say: Grounding Language in Robotic Affordances[J]. arXiv preprint arXiv:2204.01691 2022 [6]Driess D, Xia F, Sajjadi M S M, Lynch C, Chowdhery A, Ichter B, Wahid A, Tompson J, Vuong Q, Yu T, others. Palm-e: An embodied multimodal language model[J]. arXiv preprint arXiv:2303.03378, 2023. [7]Shen B, Xia F, Li C, Martín-Martín R, Fan L, Wang G, Pérez-D’Arpino C, Buch S, Srivastava S, Tchapmi L, Tchapmi M, Vainio K, Wong J, Fei-Fei L, Savarese S. iGibson 1.0: A Simulation Environment for Interactive Tasks in Large Realistic Scenes[C]//2021 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). , 2021: 7520–7527.[8]Li C, Xia F, Martín-Martín R, Lingelbach M, Srivastava S, Shen B, Vainio K E, Gokmen C, Dharan G, Jain T, others. iGibson 2.0: Object-Centric Simulation for Robot Learning of Everyday Household Tasks[C]//Conference on Robot Learning. , 2022: 455–465.[9]Savva M, Kadian A, Maksymets O, Zhao Y, Wijmans E, Jain B, Straub J, Liu J, Koltun V, Malik J, others. Habitat: A platform for embodied ai research[C]//Proceedings of the IEEE/CVF international conference on computer vision. , 2019: 9339–9347.[10]Ramakrishnan S K, Gokaslan A, Wijmans E, Maksymets O, Clegg A, Turner J, Undersander E, Galuba W, Westbury A, Chang A X, others. Habitat-matterport 3d dataset (hm3d): 1000 large-scale 3d environments for embodied ai[J]. arXiv preprint arXiv:2109.08238, 2021.[11]Wani S, Patel S, Jain U, Chang A, Savva M. Multion: Benchmarking semantic map memory using multi-object navigation[J]. Advances in Neural Information Processing Systems, 2020, 33: 9700–9712.[12]Li C, Zhang R, Wong J, Gokmen C, Srivastava S, Martín-Martín R, Wang C, Levine G, Lingelbach M, Sun J, others. Behavior-1k: A benchmark for embodied ai with 1,000 everyday activities and realistic simulation[C]//Conference on Robot Learning. , 2023: 80–93.[13]Srivastava S, Li C, Lingelbach M, Mart\’\in-Mart\’\in R, Xia F, Vainio K E, Lian Z, Gokmen C, Buch S, Liu K, others. Behavior: Benchmark for everyday household activities in virtual, interactive, and ecological environments[C]//Conference on Robot Learning. , 2022: 477–490.[14]Shridhar M, Thomason J, Gordon D, Bisk Y, Han W, Mottaghi R, Zettlemoyer L, Fox D. Alfred: A benchmark for interpreting grounded instructions for everyday tasks[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. , 2020: 10740–10749.[15]Weihs L, Deitke M, Kembhavi A, Mottaghi R. Visual room rearrangement[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. , 2021: 5922–5931.[16]Batra D, Chang A X, Chernova S, Davison A J, Deng J, Koltun V, Levine S, Malik J, Mordatch I, Mottaghi R, others. Rearrangement: A challenge for embodied ai[J]. arXiv preprint arXiv:2011.01975, 2020.[17]Ma X, Yong S, Zheng Z, Li Q, Liang Y, Zhu S-C, Huang S. SQA3D: Situated Question Answering in 3D Scenes[J]. arXiv preprint arXiv:2210.07474, 2022.[18]Kolve E, Mottaghi R, Han W, VanderBilt E, Weihs L, Herrasti A, Deitke M, Ehsani K, Gordon D, Zhu Y, others. Ai2-thor: An interactive 3d environment for visual ai[J]. arXiv preprint arXiv:1712.05474, 2017.[19]Gan C, Schwartz J, Alter S, Schrimpf M, Traer J, De Freitas J, Kubilius J, Bhandwaldar A, Haber N, Sano M, others. ThreeDWorld: A platform for interactive multi-modal physical simulation[J]. Advances in Neural Information Processing Systems (NeurIPS), 2021.[20]Gan C, Zhou S, Schwartz J, Alter S, Bhandwaldar A, Gutfreund D, Yamins D L K, DiCarlo J J, McDermott J, Torralba A, others. The threedworld transport challenge: A visually guided task-and-motion planning benchmark towards physically realistic embodied ai[C]//2022 International Conference on Robotics and Automation (ICRA). , 2022: 8847–8854.[21]Szot A, Clegg A, Undersander E, Wijmans E, Zhao Y, Turner J, Maestre N, Mukadam M, Chaplot D S, Maksymets O, others. Habitat 2.0: Training home assistants to rearrange their habitat[J]. Advances in Neural Information Processing Systems, 2021, 34: 251–266.[22]Cewu Lu, Shiquan Wang. General Purpose Intelligent Agent, [J]. Engineering, 2020, 6(03): 40–52.[23]Xiang F, Qin Y, Mo K, Xia Y, Zhu H, Liu F, Liu M, Jiang H, Yuan Y, Wang H, Yi L, Chang A X, Guibas L J, Su H. SAPIEN: A SimulAted Part-Based Interactive ENvironment[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). , 2020: 11097–11107.[24]Mu T, Ling Z, Xiang F, Yang D C, Li X, Tao S, Huang Z, Jia Z, Su H. ManiSkill: Generalizable Manipulation Skill Benchmark with Large-Scale Demonstrations[C]//Thirty-fifth Conference on Neural Information Processing Systems Datasets and Benchmarks Track (Round 2). , 2021.[25]Gu J, Xiang F, Li X, Ling Z, Liu X, Mu T, Tang Y, Tao S, Wei X, Yao Y, Yuan X, Xie P, Huang Z, Chen R, Su H. ManiSkill2: A Unified Benchmark for Generalizable Manipulation Skills[C]//The Eleventh International Conference on Learning Representations, 2023.[26]James S, Ma Z, Arrojo D R, Davison A J. IEEE, 2020. Rlbench: The robot learning benchmark & learning environment[J]. IEEE Robotics and Automation Letters, 2020, 5(2): 3019–3026.[27]Zheng K, Chen X, Jenkins O C, Wang X. Vlmbench: A compositional benchmark for vision-and-language manipulation[J]. Advances in Neural Information Processing Systems, 2022, 35: 665–678.[28]Fu H, Xu W, Xue H, Yang H, Ye R, Huang Y, Xue Z, Wang Y, Lu C. Rfuniverse: A physics-based action-centric interactive environment for everyday household tasks[J]. arXiv preprint arXiv:2202.00199, 2022.[29]Gong R, Huang J, Zhao Y, Geng H, Gao X, Wu Q, Ai W, Zhou Z, Terzopoulos D, Zhu S-C, others. ARNOLD: A Benchmark for Language-Grounded Task Learning With Continuous States in Realistic 3D Scenes[J]. arXiv preprint arXiv:2304.04321, 2023.[30] Levine, S., Kumar, A., Tucker, G., & Fu, J. (2020). Offline reinforcement learning: Tutorial, review, and perspectives on open problems. arXiv preprint arXiv:2005.01643.[31] Mandlekar, A., Xu, D., Martín-Martín, R., Zhu, Y., Fei-Fei, L. and Savarese, S., 2020. Human-in-the-loop imitation learning using remote teleoperation. arXiv preprint arXiv:2012.06733.[32] Zhang, T., McCarthy, Z., Jow, O., Lee, D., Chen, X., Goldberg, K. and Abbeel, P., 2018, May. Deep imitation learning for complex manipulation tasks from virtual reality teleoperation. In 2018 IEEE International Conference on Robotics and Automation (ICRA) (pp. 5628-5635). IEEE.[33] Hao-Shu Fang, Hongjie Fang, Zhenyu Tang, Jirong Liu, Junbo Wang, Haoyi Zhu, Cewu Lu ,RH20T: A Robotic Dataset for Learning Diverse Skills in One-Shot, RSS workshop 2023.
计算机术语审定委员会(Committee on Terminology)主要职能为收集、翻译、释义、审定和推荐计算机新词,并在CCF平台上宣传推广。这对厘清学科体系,开展科学研究,并将科学和知识在全社会广泛传播,都具有十分重要的意义。术语众包平台CCFpedia的建设和持续优化,可以有效推进中国计算机术语的收集、审定、规范和传播工作,同时又能起到各领域规范化标准定制的推广作用。新版的CCFpedia计算机术语平台(http://term.ccf.org.cn)将术语的编辑运营与浏览使用进行了整合,摒弃老版中跨平台操作的繁琐步骤,在界面可观性上进行了升级,让用户能够简单方便地查阅术语信息。同时,新版平台中引入知识图谱的方式对所有术语数据进行组织,通过图谱多层关联的形式升级了术语浏览的应用形态。
主任(代理):
李国良(清华大学)
副主任:
王昊奋(同济大学)
主任助理:
李一斌(上海海乂知信息科技有限公司)
执行委员:
丁 军(上海海乂知信息科技有限公司)
林俊宇(中国科学院信息工程研究所)
兰艳艳(清华大学)
张伟男(哈尔滨工业大学)
委员:
柴成亮(北京理工大学)
彭 鑫(复旦大学)
李博涵(南京航空航天大学)
李 超(上海交通大学)
李晨亮(武汉大学)
杨 敏(中国科学院深圳先进技术研究院)
张 鹏(天津大学)
王昌栋(中山大学)
张宁豫(浙江大学)
孔祥杰(浙江工业大学)
魏 巍(华中科技大学)
术语投稿热线:ccfpedia@ccf.org.cn