> **来源:[研报客](https://pc.yanbaoke.cn)** # 驾驭工程(Harness Engineering)研究报告总结 ## 核心内容 驾驭工程是操作系统层,其核心在于围绕高自治、长时程、可治理的AI系统构建整套可持续执行环境。它与提示词工程、上下文工程、智能体工程并非互斥关系,而是逐层上卷,形成一个完整的工程体系。驾驭工程不是替代提示词工程,而是对它的上卷和扩展,旨在将AI系统从“会做事”升级为“系统级环境设计”。 ## 主要观点 - **提示词工程**解决“怎么说清楚”,关注指令表达、输出格式、上下文供给、示例组织与指令优先级。 - **上下文工程**解决“喂给模型什么”,包括系统指令、工具、外部数据、消息历史、MCP、长期状态等,是驾驭工程的隐形内核。 - **智能体工程**解决“怎么让模型动起来”,关注工作流、控制流、工具、记忆/知识、guardrails等,是工作流层的工程。 - **驾驭工程**解决“制度层”,包括契约、权限、回滚、审计、熵控制等,是系统级的工程,强调组织能力与制度设计。 ## 关键信息 ### 四层链条 1. **语言层**:提示词工程,解决指令表达与输出清晰。 2. **上下文层**:上下文工程,解决状态供给与记忆管理。 3. **工作流层**:智能体工程,解决动态决策与任务执行。 4. **操作系统层**:驾驭工程,解决制度设计与系统治理。 ### 六大负重部件 1. **机器可验证的完成契约**:定义任务完成的标准,确保系统可评估。 2. **Durable Knowledge 的 System of Record**:建立知识库,确保知识可追溯与版本管理。 3. **Agent 的感官与手脚**:赋予Agent真实感知与执行能力,如UI、日志、指标等。 4. **长时程失忆解决方案**:通过progress file、feature list、git与init script等机制,确保状态可恢复、可交接、可继续。 5. **验证回路**:引入外部评测、回归测试与监控,确保系统稳定运行。 6. **边界、沙箱与熵控制**:通过机械化方式控制系统边界,确保安全与可控。 ### 中国落地窗口 - **政策支持**:人工智能+已从口号进入任务书,政府推动具体城市与场景的数字化转型。 - **制造业实践**:制造业是AI落地的重要场景,具备指标硬、验证强、责任链清晰等优势。 - **企业知识运营**:作为system of record的练兵场,是构建可治理AI系统的起点。 - **高频岗位任务**:如客服、销售、文档管理等,适合优先试点,提升效率与ROI。 ## 落地路径 1. **第一步**:定义machine-checkable的完成契约,包括输入边界、输出要求、验证方法和停止条件。 2. **第二步**:将durable knowledge从长prompt搬进versioned artifacts,确保知识可追溯。 3. **第三步**:为Agent配备真正的感官,如UI、日志、测试等,提升系统透明度。 4. **第四步**:通过progress file、feature list、git与init script解决长时程失忆问题。 5. **第五步**:引入evaluator、regression eval与生产监控,确保系统可评测与可审计。 6. **第六步**:将taste、architecture与security写入机械规则,实现制度化管理。 ## 反模式与边界 - **反模式一**:把大长prompt当Harness,需将知识存入versioned artifacts。 - **反模式二**:混淆workflow、agent与harness,需明确各自定义与职责。 - **反模式三**:工具越多越好,需精简工具,提升效率。 - **反模式四**:过早追求完全自治,高风险场景应采用Agent预处理+人类放行。 - **反模式五**:让主Agent自证完成,需引入外部评测机制。 - **反模式六**:没有回滚点就改外部状态,需建立可回滚机制。 - **反模式七**:追求复杂性,需避免过早优化与过度工程。 ## 一句话结论 驾驭工程不是把提示词再写长一点,而是把模型周围整个制度化执行环境设计出来。