返回首页
您的位置:首页 > 新闻 > CCF聚焦

董玮:大模型赋能智能物联网的技术与愿景 | CNCC专家谈

阅读量:36 2024-10-16 收藏本文




在即将于今年10月24-26日在浙江横店举办的CNCC2024上,138个技术论坛覆盖了人工智能、安全、AI+、网络、计算+、系统软件、教育、芯片等34个专业领域,推动不同领域的交叉融合,为各界专业人士提供了广泛的专业内容。包括国际知名学者、两院院士、产学研各界代表在内的800余位报告嘉宾将着力探讨计算技术与未来宏观发展趋势,为参会者提供深度的学术和产业交流机会,当中不乏在各领域深具影响力的重磅学者专家亲自担纲论坛主席。


本专题力邀CNCC2024技术论坛主席亲自撰稿,分享真知灼见,欢迎走进CNCC,领略计算领域专业大观魅力!


图片



本期特别嘉宾:

董玮  浙江大学教授 



作者:CNCC2024【第二届大模型时代的智能物联网研究前沿论坛:如何让大模型理解物理世界?】论坛主席 董玮


智能物联网简介


什么是智能物联网?维基百科的定义是:智能物联网是人工智能(AI)技术与物联网(IoT)基础设施的结合,以实现更高效的物联网运营,改善人机交互,提高数据管理与分析能力。通俗地讲,就是物联网设备或物联网基础设施具有类人的能力,包括感知、记忆、推理以及学习等能力。


从物联网到智能物联网,在学术界研究了20余年。2017年左右就已经提出了智能物联网的概念,后来逐步形成了TinyML这个研究领域,得到研究界和工业界的广泛关注。今年,物联网领域已经出现了类似IMUGPT[1]、LocGPT[2]、Penetrative AI[3]、ChatIoT[4]等非常相关的工作。今年5月份的时候,刘云浩教授在CCCF的卷首语中指出:“不在物理世界里进行直接感知和实践,等于把AI装在套子里,哪能获得真正的智能呢?”。真正的智能应该是物联网与AI的有机结合,实现信息世界与物理世界的深度融合。


智能物联网有没有类似自动驾驶一样的分级呢?目前学术界和产业界还没有标准的答案。我们针对智能物联网提出了一种可能的分级,欢迎大家探讨和指正。

  • L1级:物联网可以联网并执行指令,可以通过物联网感知环境、控制设备。

  • L2级:其关键是具备系统能力自动发现。比如系统有许多API,并具有不同的调用参数。L2级智能可以自动发现这些API有什么功能,如何调用,能自动将用户的自然语言描述的任务,准确映射到这些API调用。

  • L3级:其关键是系统能力的自动构建,其中也包含感知能力的构建。

  • L4级: 其关键是长期高效的记忆以及上下文感知能力。以智能摄像头为例,L4级智能可以使它能够长期高效的记忆它所看到、听到的事情,并且能够结合历史以及当前上下文做出准确的感知推断。

  • L5级: 接近或达到人类的智能,实现自主、可靠、实时的决策。


大模型赋能物联网的挑战和技术


我们认为,AI大模型将在推进物联网智能化进程中发挥十分重要的作用。例如,在系统能力自动构建方面,国内外在大模型赋能的代码生成方面取得了积极的进展。2023年1月,前Harvard大学教授Matt Welsh在CACM上发表了一篇文章《the end of programming》,指出编程终将终结,大多数的软件将由AI生成,或其本身就是一个AI系统。


图片


Matt Welsh的观点引起了广泛的关注。在未来,人们只需用自然语言描述想要做的事情,通过大模型以及multi-agents技术,就能自动生成想要的结果。从这个意义上讲,传统的编程语言可能会被取代。发表在MobiCom 2024年上的Autodroid[5],它通过大模型实现自然语言到自动化执行脚本的转化,实现在智能手机上复杂任务的自动化执行。发表在IMWUT/UbiComp 2024上的ChatIoT[4]通过大模型,在无需大量标注的情况下,准确地将自然语言描述的任务转化为HomeAssistant系统定义的IFTTT规则并自动执行。上述工作在推进L2级乃至L3级智能化进程中起到了重要的作用。


另一方面,在推进大模型与物联网深度融合过程中仍然面临一系列挑战。在系统层面,如何在资源极其受限的物联网设备上支持AI模型部署?如何与云端模型进行高效的协同推理?


在感知层面,如何让大模型更好地理解视觉、声音、无线信号、IMU等感知信息及其跨模态关联?如何解决构建“物联网感知大模型”的数据稀缺问题?如何兼顾可泛化和高精度的双重目标,让AI大模型能够真正超越现有感知算法?在应用层面,面向工业制造等重要场景,如何解决AI大模型幻觉,满足工业物联网场景下的精确性、可靠性、实时性的需求?


学术界针对上述挑战进行了积极的探索。


在系统层面,业界闻名的开源AI大模型,如Llama 3.2,Qwen2.5等都开始针对资源受限的移动和物联网设备进行优化。其目标是提供具备较小模型尺寸的轻量级文本模型,但依然具有强大的文本生成和处理能力。开源社区也在投入设计轻量级AI模型为边缘设备和移动设备提供了强大的AI能力,如MiniCPM-V, MobileLLM等。还有一些工作,如Deja Vu等,通过选择性地执行模型中的一些重要的计算来减少计算量。此外,还可以通过对语言模型推理过程中的KV Cache进行量化或选择性存储,来进一步优化推理资源占用以及响应时间。


在感知层面,Penetrative AI[3]基于IMU、无线信号等传感器数据,结合注入的专家知识,输出基础感知任务的文本化描述(例如步数、步频等);在此基础上利用大模型的文本理解能力,实现更高语义感知任务(例如是不是在室外跑步等)。再例如,Meta团队在2023年9月提出了AnyMAL[6],它通过两步骤的方式来训练得到了一个可以直接处理IMU数据的大模型。首先是模态对齐步骤,通过将传感器数据,如IMU以及其对应的文本描述输入到冻结的LLM中,使用得到的结果训练投影层。这一步骤确保了不同模态的数据能够在LLM中得到统一的表达。第二步骤就是利用一些指令数据集对投影层以及LLM本身进行微调,使得LLM的输出能够根据用户的意图正确的做出响应。通过这样两阶段的训练,就可以得到了一个能够直接处理传感器数据,然后可以按照用户的指令进行问答的感知大模型。


图片


在应用层面,大量相关的领域大模型发布,包括海尔的智能家居HomeGPT、百川智能的工业大模型、MIT研究团队提出的健康大模型Health-LLM[7]等。他们通过在通用语言模型上用特定任务的数据进行模型结构与参数的微调,从而提高专业领域大模型的准确度和专业性。在智慧家居应用中,利用大模型可以进行语音识别,提供智能音箱等设备的语音交互服务,如Amazon Alexa、Apple Siri和Google Assistant。智能家居中的智能摄像头可以通过大模型进行图像识别,识别家庭成员和陌生人,甚至检测异常行为并发出警报。在工业物联网领域中,中国的科技企业如百度、华为等也正在不断突破创新。例如,华为的盘古大模型为生产运维全链条提供了智能化服务,全面提升了业务效能和经济效益。


智能物联网的愿景


在《流浪地球2》中,描绘了这么一个场景,当用户下达进行流浪地球计划的指令后,MOSS量子计算机自主决策,驱动大量机器建设了行星发动机、地下城和月球发动机。智能物联网的目标和愿景,应该是成为人们的数字物理助理,能够与人类智能交互,最终实现对物理世界的智能感知、决策与控制。


【参考文献】
[1] Leng Z, Bhattacharjee A, Rajasekhar H, et al. IMUGPT 2.0: Language-based cross modality transfer for sensor-based human activity recognition[J]. Proceedings of the ACM on Interactive, Mobile, Wearable and Ubiquitous Technologies, 2024, 8(3): 1-32.
[2] Zhao X, Wang G, An Z, et al. Understanding Localization by a Tailored GPT[C]//Proceedings of the 22nd Annual International Conference on Mobile Systems, Applications and Services. 2024: 318-330.
[3] Xu H, Han L, Yang Q, et al. Penetrative AI: Making LLMs comprehend the physical world[C]//Proceedings of the 25th International Workshop on Mobile Computing Systems and Applications. 2024: 1-7.
[4] Gao Y, Xiao K, Li F, et al. ChatIoT: Zero-code Generation of Trigger-action Based IoT Programs[J]. Proceedings of the ACM on Interactive, Mobile, Wearable and Ubiquitous Technologies, 2024, 8(3): 1-29.
[5] Wen H, Li Y, Liu G, et al. Autodroid: LLM-powered task automation in android[C]//Proceedings of the 30th Annual International Conference on Mobile Computing and Networking. 2024: 543-557.
[6] Moon S, Madotto A, Lin Z, et al. AnyMAL: An efficient and scalable any-modality augmented language model[J]. arXiv preprint arXiv:2309.16058, 2023.
[7] Kim Y, Xu X, McDuff D, et al. Health-LLM: Large language models for health prediction via wearable sensor data[J]. arXiv preprint arXiv:2401.06866, 2024.


敬请关注本年度CNCC大会组织的“第二届大模型时代的智能物联网研究前沿”论坛。本论坛邀请近年来具有代表性成果的杰出学者进行分享,在系统层面、感知层面、应用层面,深入探讨资源受限系统的模型推理优化、可泛化的智能物联网、大模型赋能工业物联网等多个技术领域的趋势和最新进展,促进交流与合作,共同推动智能物联网技术的创新和发展。论坛日程信息如下:


图片


图片


想了解更多关于CNCC2024技术论坛信息,欢迎观看CCF公众号【CNCC专家谈】专题及CCF视频号【CNCC会客厅】直播,我们将陆续邀请本届CNCC技术论坛的论坛主席或重磅嘉宾,围绕今年CNCC涉及到的热门话题进行研讨交流,亲自带观众走进CNCC,敬请随时关注。欢迎一键预约,准时观看!


图片