Anthropic 于 2025 年 11 月发布《Effective harnesses for long-running agents》,针对长时智能体跨上下文窗口执行复杂任务时易遗忘进度、过早完工、企图“一步到位”等问题,提出一套高效 harness 架构。该方案采用双智能体设计:初始化智能体搭建环境、生成功能清单、进度日志与 Git 仓库;编码智能体则在每个新会话中通过读取 Git 历史与进度文件恢复记忆,每次只做增量开发,并结合端到端自动化工具严格自测后再提交结构化交接信息。这套机制让 Claude Agent SDK 可稳定完成数小时至数天的长时任务,为长运行智能体提供可落地的工程范式。
OpenAI于2026年2月发布《Harness engineering: leveraging Codex in an agent‑first world》,提出面向智能体优先时代的驾驭工程新范式。团队以零人工手写代码的约束,用 Codex 智能体 5 个月构建约百万行代码的生产级软件,效率提升约 10 倍。人类工程师不再编码,转而设计环境、明确意图、构建反馈循环与约束规则,通过仓库结构化知识、可观测能力、架构规范与自动化校验,保障智能体稳定高效执行。该实践重新定义工程师角色,为规模化、高可靠的智能体软件开发提供工程方法论。
LangChain于2026年3月发布《The Anatomy of an Agent Harness》,明确提出 智能体= 模型 + 驾驭工程 核心定义,指出 驾驭工程是模型之外所有代码、配置与执行逻辑的总称,是让模型具备实用能力的关键。文章系统拆解驾驭工程核心组件,包括系统提示、工具执行、编排逻辑、沙箱环境、持久化存储、上下文压缩与自校验机制等,阐述其如何为模型赋予状态记忆、代码执行、长时任务与跨会话协同能力。文章还分析了文件系统、Git、Bash、沙箱等基础原语,展望模型与驾驭工程协同演进方向,为构建高效、可靠的长时智能体提供完整工程框架。
本文提出元驾驭(Meta‑Harness)端到端优化框架,针对大模型系统中驾驭工程(上下文管理、检索、状态与调度代码)长期依赖人工设计、现有文本优化器反馈压缩过度的问题,通过编码智能体在文件系统中读取历史代码、分数与执行轨迹,自动搜索并生成最优驾驭方法。在文本分类、数学推理、智能体编程等任务上,该方法显著超越人工设计的驾驭方法,精度更高、上下文开销更低,且具备良好跨模型泛化能力,为自动化驾驭工程提供了可扩展的新范式。
本文聚焦大模型智能体的外部化(Externalization)范式,指出智能体可靠性提升更依赖驾驭工程而非模型权重。论文以认知工具理论为基础,提出统一分析框架,将记忆、技能、协议视为三类核心外部化形式:记忆外部化时序状态,将回忆转为检索;技能外部化程序知识,将即兴生成转为复用组合;协议外部化交互结构,将临时约定转为结构化契约。驾驭工程作为统一层,整合执行流、沙箱、观测与权限,形成可治理的运行环境。文章梳理了从权重、上下文到 Harness 的演进路径,分析能力权衡,并展望自演化、共享生态与安全治理等方向,表明智能体的核心竞争力在于更优的外部认知组织体系。
OpenHarness是由香港大学开源的一款前沿智能体运行框架(Open Agent Harness),并内置了名为Ohmo的个人AI智能体。该项目聚焦于为大语言模型赋能,提供标准化、可扩展的外部基础设施。它旨在解决复杂自主任务中多智能体/子智能体编排、长时上下文记忆管理以及自定义技能(Skills)调用等痛点。通过系统级的驾驭工程,OpenHarness将大模型的智力与外部执行环境深度融合,帮助开发者高效构建跨项目、具备持续学习和执行能力的下一代 AI 智能体生态。