驾驭工程（Harness_Engineering）研究报告_78页_24mb

> **来源：[研报客](https://pc.yanbaoke.cn)** # 驾驭工程（Harness Engineering）研究报告总结 ## 核心内容 驾驭工程是AI系统开发中的一项关键工程实践，被定义为操作系统层，与提示词工程（语言层）、智能体工程（工作流层）共同构成AI工程的三层架构。它不是对提示词工程的简单延伸，而是将模型执行环境制度化，实现高自治、长时程、可治理的AI系统。 ## 主要观点 - **提示词工程**：关注“怎么说清楚”，解决短时、单步任务的指令表达问题。 - **上下文工程**：解决状态供给问题，是AI系统运行的“隐形内核”，但上下文有限且容易“腐烂”。 - **智能体工程**：关注“怎么让模型动起来”，通过工具和流程设计实现复杂任务的执行。 - **驾驭工程**：是系统级环境设计，关注“怎么让系统持续稳定运行”，涵盖六个关键负重部件，包括完成契约、系统记录、Agent感官、状态恢复、评测回路、边界控制与熵管理。 ## 关键信息 ### 四层链条 - **语言层**：提示词工程，解决“怎么说清楚”。 - **状态层**：上下文工程，解决“喂给模型什么”。 - **工作流层**：智能体工程，解决“怎么让模型动起来”。 - **制度层**：驾驭工程，解决“怎么让系统持续稳定运行”。 ### 驾驭工程的六个负重部件 1. **机器可验证的完成契约**：定义任务完成的标准，包括输入边界、输出要求、验证方法和停止条件。 2. **Durable Knowledge 的 System of Record**：将知识转化为可版本控制的系统记录，避免依赖长提示词。 3. **Agent的感官和手脚**：提供真实的数据输入和输出，如UI、日志、指标、traces等。 4. **解决长时程失忆**：通过progress file、feature list、git与init script等技术手段实现状态可恢复、可交接和可继续。 5. **外置评测回路**：确保系统在没有人工干预的情况下也能稳定运行，包括回归测试、Grader、监控大屏等。 6. **边界、沙箱与熵控制**：通过身份与授权、最小权限、统一管理等机制控制系统行为，确保安全与可治理。 ### 人的角色转变 - **从表达者到设计者**：人的工作抽象层上移，从设计输入指令转向定义系统行为与评估标准。 - **组织能力的重要性**：驾驭工程不仅依赖模型能力，更需要系统化的组织能力，包括产品、工程、治理和运营的协同。 ## 中国落地窗口 ### 政策与环境 - **政策支持**：2025年政府工作报告推动“人工智能+”进入具体任务书，政策语义从技术转向应用。 - **网络与数据基础**：中国拥有11.08亿网民，互联网普及率78.6%，数字经济核心产业增加值达140891亿元，具备良好的数字化基础。 - **企业优势**：中国企业在场景丰富性、工程人才储备和流程密集度方面具有独特优势，适合先从高频、可量化、低风险的场景切入。 ### 优先落地场景 1. **客户支持与工单分流**：智能客服、工单分类、知识检索等，适合Agent预处理和系统执行。 2. **销售运营与线索跟进**：实现半自动驾驶，提升转化效率。 3. **制造现场**：适用于研发设计、视觉质检、参数优化等，具备明确的指标和验证机制。 4. **财务与合规**：适合做辅助性工作，避免全自动裁决带来的风险。 5. **企业知识运营**：作为System of Record的练兵场，实现知识的版本控制和自动化应用。 6. **流程自动化（RPA+AI）**：适用于重复性、跨系统任务，提升效率与准确性。 ### 实施路线与成熟度模型 - **五级成熟度模型**： 1. **一级：演示型使用**：单点辅助，流程点缀。 2. **二级：单点辅助**：特定任务，流程优化。 3. **三级：Agent感官**：提供真实输入输出，增强代理能力。 4. **四级：状态恢复**：通过工具和机制实现状态可恢复、可继承、可审计。 5. **五级：系统级稳定**：外置评测、监控、治理机制完善。 - **30/60/90天推进法**： - **30天**：定义完成契约，明确任务目标。 - **60天**：将知识搬入版本化系统，避免依赖长提示词。 - **90天**：建立Agent感官与状态恢复机制，实现系统持续运行。 ### 指标体系 - **系统级经营指标**：完成率、异常率、人工接管率、恢复时长、单位任务成本。 - **高频场景指标**：吞吐量、夜间无人值守比例。 ## 反模式与边界 - **反模式一**：把大长提示词当作Harness，忽略系统记录和状态恢复。 - **反模式二**：混淆Workflow、Agent和Harness，导致设计、评测与投资预期错位。 - **反模式三**：工具越多越好，忽视选择噪声和上下文负担。 - **反模式四**：过早追求完全自治，忽视验证与人工干预的必要性。 - **反模式五**：让主Agent同时承担执行与评测，缺乏外部监督。 - **反模式六**：忽视状态恢复设计，导致系统在长任务中失忆。 - **反模式七**：过早追求复杂性，增加维护与错误面。 ## 一句话结论 驾驭工程不是把提示词再写长一点，而是把模型周围整个制度化执行环境设计出来。