编者寄语

从提示工程、上下文工程演进至智能体驾驭工程(Harness Engineering),大模型智能体正逐步迈入实用落地阶段。相较于单纯优化模型权重,围绕模型构建的驾驭工程已成为准确性、可靠性与规模化应用的核心支撑。

面向科研云、算网数协同等国家重大科研场景,驾驭工程为长时智能体的全生命周期管控、全域状态可观测与多维度安全治理提供了系统性技术范式,有力支撑高可靠、高效率、可扩展的协同科研环境构建。该方向兼具理论创新性与工程实用性,不仅重塑智能体研发体系,更为人工智能与科研、工业深度融合指明路径,是当前大模型应用落地的关键突破口,具有极高的研究与实践价值。

本期专题整合Anthropic、OpenAI、LangChain等前沿研究与OpenHarness开源实践,系统阐释外部化统一框架,拆解记忆、技能、协议等核心组件,覆盖长时智能体管控、自动化优化、多智能体协同等关键技术。



编委主任:苏金树 CCF会士 军事科学院教授

本期主编:王昊奋 CCF自然语言处理专委秘书长 同济大学长聘教授

                    彤 CCF数字医学分会秘书长 鹏城实验室副研究员

Effective harnesses for long-running agents

Anthropic 于 2025 年 11 月发布《Effective harnesses for long-running agents》,针对长时智能体跨上下文窗口执行复杂任务时易遗忘进度、过早完工、企图“一步到位”等问题,提出一套高效 harness 架构。该方案采用双智能体设计:初始化智能体搭建环境、生成功能清单、进度日志与 Git 仓库;编码智能体则在每个新会话中通过读取 Git 历史与进度文件恢复记忆,每次只做增量开发,并结合端到端自动化工具严格自测后再提交结构化交接信息。这套机制让 Claude Agent SDK 可稳定完成数小时至数天的长时任务,为长运行智能体提供可落地的工程范式。

格式:
文章
Harness engineering: leveraging Codex in an agent-first world

OpenAI于2026年2月发布《Harness engineering: leveraging Codex in an agent‑first world》,提出面向智能体优先时代的驾驭工程新范式。团队以零人工手写代码的约束,用 Codex 智能体 5 个月构建约百万行代码的生产级软件,效率提升约 10 倍。人类工程师不再编码,转而设计环境、明确意图、构建反馈循环与约束规则,通过仓库结构化知识、可观测能力、架构规范与自动化校验,保障智能体稳定高效执行。该实践重新定义工程师角色,为规模化、高可靠的智能体软件开发提供工程方法论。

格式:
文章
The Anatomy of an Agent Harness

LangChain于2026年3月发布《The Anatomy of an Agent Harness》,明确提出 智能体= 模型 + 驾驭工程 核心定义,指出 驾驭工程是模型之外所有代码、配置与执行逻辑的总称,是让模型具备实用能力的关键。文章系统拆解驾驭工程核心组件,包括系统提示、工具执行、编排逻辑、沙箱环境、持久化存储、上下文压缩与自校验机制等,阐述其如何为模型赋予状态记忆、代码执行、长时任务与跨会话协同能力。文章还分析了文件系统、Git、Bash、沙箱等基础原语,展望模型与驾驭工程协同演进方向,为构建高效、可靠的长时智能体提供完整工程框架。

格式:
文章
Meta-Harness: End-to-End Optimization of Model Harnesses

本文提出元驾驭(Meta‑Harness)端到端优化框架,针对大模型系统中驾驭工程(上下文管理、检索、状态与调度代码)长期依赖人工设计、现有文本优化器反馈压缩过度的问题,通过编码智能体在文件系统中读取历史代码、分数与执行轨迹,自动搜索并生成最优驾驭方法。在文本分类、数学推理、智能体编程等任务上,该方法显著超越人工设计的驾驭方法,精度更高、上下文开销更低,且具备良好跨模型泛化能力,为自动化驾驭工程提供了可扩展的新范式。

格式:
文章
Externalization in LLM Agents: A Unified Review of Memory, Skills, Protocols and Harness Engineering

本文聚焦大模型智能体的外部化(Externalization)范式,指出智能体可靠性提升更依赖驾驭工程而非模型权重。论文以认知工具理论为基础,提出统一分析框架,将记忆、技能、协议视为三类核心外部化形式:记忆外部化时序状态,将回忆转为检索;技能外部化程序知识,将即兴生成转为复用组合;协议外部化交互结构,将临时约定转为结构化契约。驾驭工程作为统一层,整合执行流、沙箱、观测与权限,形成可治理的运行环境。文章梳理了从权重、上下文到 Harness 的演进路径,分析能力权衡,并展望自演化、共享生态与安全治理等方向,表明智能体的核心竞争力在于更优的外部认知组织体系。

格式:
文章
OpenHarness开源项目

OpenHarness是由香港大学开源的一款前沿智能体运行框架(Open Agent Harness),并内置了名为Ohmo的个人AI智能体。该项目聚焦于为大语言模型赋能,提供标准化、可扩展的外部基础设施。它旨在解决复杂自主任务中多智能体/子智能体编排、长时上下文记忆管理以及自定义技能(Skills)调用等痛点。通过系统级的驾驭工程,OpenHarness将大模型的智力与外部执行环境深度融合,帮助开发者高效构建跨项目、具备持续学习和执行能力的下一代 AI 智能体生态。

格式:
工具

本期编委成员