多模态大模型通过图像、文本、音视频等多种模态数据的集成整合和学习,能够实现复杂的跨模态理解、生成与推理。在多媒体内容检索、推荐、问答、生成和人机交互等任务中,显示出巨大的潜力,并在教育、创作、医疗、娱乐等众多领域展现出广阔的应用前景。多模态大模型面临的挑战是:跨模态一致性和连贯性、高效的模型架构和训练方法、统一的模型评估标准等。本期围绕多模态大模型的预训练、跨模态对齐等关键技术,跨模态检索、具身智能等领域的应用,将CCF数字图书馆相关报告视频和期刊文章资源进行聚合,方便会员集中观看学习,也为读者探索多模态大模型关键技术及应用抛砖引玉。
大型语言模型(LLMs)在处理特定领域或知识密集型任务时仍面临诸多挑战,如产生幻觉、知识过时以及推理过程不透明、不可追溯等问题。检索增强生成(RAG)技术应运而生,RAG通过检索外部知识库中的相关信息片段,并将其与用户查询结合,形成丰富的上下文,以指导LLMs生成更加准确和有根据的回答。这一过程不仅提高了对知识密集任务的处理能力,还允许知识库的持续更新和特定领域信息的整合,从而使得LLMs能够更好地适应现实世界的应用需求。大模型检索增强成为大模型领域学术界和工业界共同关注的热点问题。特将CCF数字图书馆相关报告视频和期刊文章资源以及其他平台与选题相关的资源进行聚合,内容覆盖大模型检索增强范式与框架、检索增强系统中的检索模型设计、检索增强开源工具、检索增强应用等多个角度,具有较高的学习价值。
DeepSeek的横空出世,在蛇年春节之际再次在全球范围内引爆了人工智能的热点话题。人们不禁好奇:Deepseek这种大模型是如何训练和部署的?在以DeepSeek为代表的训练和推理过程中,其成功的关键在于对包括网络和系统软硬件的全方位优化。随着人工智能的飞速发展,特别是以GPT为代表的大语言模型的崛起,对传统网络架构和系统提出了前所未有的挑战。为应对海量数据处理、高效模型训练和低延迟推理等需求,智能时代呼唤新型网络架构、系统与优化技术的出现。为了探究大语言模型对于网络和系统的需求,引领未来面向大模型信息系统构建技术的发展,本次专题汇集了华为、腾讯、阿里等互联网大厂的大模型训练部署实践,也梳理了大小模型协同、云际部署、DeepSeek系统软件优化等学术界的前沿技术,方便会员集中观看学习。
随着大模型技术的快速演进,AI Agent正从“简单动作”走向“协同行为”,成为智能时代的重要基础设施之一。AI Agent集成感知、推理、决策与执行能力,可在多模态输入和复杂任务环境中,实现自治学习与多行为体协同,推动人工智能从“单体智能”走向“群体智能”。无论是操作系统、教育教学、媒体生成,还是工业控制、智慧城市等,AI Agent正在重塑人机交互的方式与系统架构。然而,AI Agent的自主性提升也带来了新的挑战:任务规划的可控性、交互行为的安全性、多Agent协作的稳定性与可解释性等问题亟需系统性解决。同时,AI Agent的算力调度、隐私保护、跨域知识共享与模型更新机制也成为制约其大规模落地的关键因素。本期数图聚焦“AI Agent的自治协作与应用实践”这一主题,系统梳理AI Agent的体系架构、智能体协作机制与典型应用场景,展示其在可信计算、边云协同、教育和工业等领域的前沿进展。通过学术研究与工程实践的融合,旨在为构建“可控、可信、可解释”的AI Agent生态提供技术参考与思维启发。
随着互联网加密化与匿名通信的发展,传统依赖明文特征的流量分析与安全防护方法面临巨大挑战。HTTPS占比已超过90%,VPN和Tor等匿名通信系统每日活跃用户超200万。在提升隐私保护功能的同时,增加了网络运维和安全检测的难度。此外,IPv6环境下各类网络攻击呈现高强度和新型攻击向量,亟需早期感知与精确防御。因此,精准的流量理解、重要流识别及异常行为检测成为智能网络管理的核心问题。近年来,语言大模型与关系图模型的融合应用,为突破加密流量检测精度瓶颈提供了全新思路;而网络大数据挖掘技术与重要流检测算法,在高速链路场景下的部署仍需攻克内存占用、通信开销与计算效率的协同优化难题。本期专题聚焦“面向加密与匿名通信环境的智能流量测绘与攻击防御”前沿方向,重点收录加密流量分析、重要流检测、流量预测、特征整形及深度防御技术等领域的最新研究成果,全面展现大模型技术与网络安全技术的双向赋能价值。希望通过本期内容,为研究人员与工程师提供启发,推动网络安全与智能运维技术的发展。
智能语音与语言交互技术以语音、文字作为基础手段实现人机互动,是人工智能的重要研究领域。当前随着深度学习、大模型等的发展演进,智能语音语言交互技术正面临前所未有的发展机遇,同时也伴随着一系列挑战,如语音预处理适应性的增强、语音识别鲁棒性的提升、对话理解生成可信度的提高、情感智能的拟人化、语音合成的个性化与表现力等问题亟待解决。通过深入研究智能语音语言交互技术,不仅可以推动技术创新,解决现有问题,还能进一步拓宽其应用领域,满足社会多元化需求,比如通过大模型智能体推进交互技术的落地,面向下游场景(司法、医疗、社会媒体)的交互建模等。因此,本选题旨在服务与推动智能语音语言交互技术领域的研究工作开展,将CCF数字图书馆相关报告和视频以及其他与选题相关的资源进行聚合,方便会员集中观看学习。
记忆是人类智能的根基,是感知、理解与创造的核心。从神经科学到心理学,从认知科学到计算机科学,记忆机制始终贯穿于智能演化的全过程。进入AI时代,“记忆智能”正成为推动人工智能迈向更高层次认知与自适应能力的关键力量。不仅关乎信息的存储与提取,更决定了系统对“世界”感知、情境理解、持续学习与自我完善的能力。本专题聚焦“记忆机制与记忆智能”,探究记忆形成背后的机理,从记忆筛选、记忆管理、记忆索引、记忆检索、记忆推理与更新等全生命周期来进行探讨,并展示其在个人助理、企业知识管理、行业数智化应用等方面的进展和价值。选取CCF数字图书馆相关报告视频和讲稿资源,方便会员集中观看学习。
数据驱动的人工智能在封闭场景的特定任务中展现出惊人性能,但环境适应较弱、泛化能力受限、交互效率低下等瓶颈日益凸显。具身智能(Embodied Intelligence)通过重构智能生成范式——以物理实体为基底,在动态环境交互中耦合感知、决策与行动等能力,为突破上述困局开辟了新路径。当前技术革新与产业需求的双重驱动下加速了该领域的崛起。在技术侧,高精度多模态传感器、仿生驱动机构、高保真物理仿真平台的突破,使机器人在复杂物理交互中的实时状态感知与运动控制成为可能;而自监督学习、强化学习与仿真-现实迁移技术的结合,更催生出"以交互代标注"的全新训练范式。在应用侧,从家庭服务机器人需应对的非结构化家居环境,到工业4.0要求的柔性产线实时调整,从灾难救援现场的动态地形适应,到医疗康复中的人机协同操作,传统预设程序已难以满足开放场景需求,而具身智能正成为实现自主进化型机器的关键。本专题系统梳理具身智能的核心突破点,既涵盖具身智能基础理论与认知模型、空间感知建模、协同学习、仿真学习等理论框架,也整合开源仿真工具链及跨场景应用案例,旨在为研究者提供从基础理论到工程实践的"具身化"设计范式参考,推动机器人从机械式的任务执行者进化为能与环境共演的智能体。
随着数字技术的不断进步,元宇宙这一概念逐渐从科幻走向现实,成为信息技术领域的下一个前沿。元宇宙是一个可与现实世界实时沉浸交互的虚拟空间,不仅为用户带来了全新的社交、娱乐和工作方式,也为各行各业提供了创新的应用场景和商业模式。虚拟现实技术作为元宇宙的核心组成部分,其在教育、医疗、制造等多个领域的应用不断深化。深入研究元宇宙背景下虚拟现实技术前沿进展,探索其在不同领域的创新应用,具有重要意义。本期选题首先聚焦元宇宙背景下的虚拟现实前沿技术,接着探讨大模型时代下虚拟现实、增强现实与人机交互技术的探索与应用,最后介绍元宇宙中虚拟现实创新人才培养课程体系建设的思考。旨在通过聚合CCF数字图书馆相关资源,为会员提供一个集中学习和交流的平台,共同探讨虚拟现实技术的未来趋势和潜在影响。
群体智能是指多个智能体或者智能系统,通过交互和协作,共同解决复杂任务的分布式智能技术。以集群协作形式完成特定任务的群体智能系统已经广泛应用于交通、物流、工业、军事等领域,并且发挥着重要作用。近年来,基于深度强化学习(Deep Reinforcement Learning)的群体智能协同将深度强化学习技术应用于多智能体系统,显著增强了智能体的自我学习与适应能力。深度强化学习技术使得智能体能够在不断试错的过程中自主进化,逐步学习最佳的协同策略,在提升多智能体系统的自主决策能力和协作效率方面展现出巨大的潜力。尽管基于深度强化学习的群体智能决策取得了一定进展,但仍面临诸多挑战。在复杂的多智能体系统中,非平稳的环境、复杂的个体交互关系、庞大的群体规模、有限的奖励引导等因素都会导致群体决策的复杂度急剧上升,对算法的效率和可扩展性提出了严峻考验。本期内容聚焦该领域的最新进展及创新实践。