Article body
正文
一、AI研发的繁荣与落差
2023年以来,AI代码生成工具以惊人的速度渗透进软件研发的每一个角落。某知名评测报告显示,在标准化的编程任务中,顶级AI模型的通过率已超过85%。
然而,当越来越多企业将AI引入真实研发流程后,一个令人困惑的现象开始浮现:
- 第一个月:团队兴奋,AI能快速搭出原型,CRUD代码几乎不用手写,效率提升显著。
- 第三个月:开始出现”奇怪的bug”——AI修了A模块,B模块莫名其妙出问题;之前确认过的需求边界,AI在新任务里完全不记得了。
- 第六个月:部分团队悄悄退回到人工为主的模式,AI更多作为辅助补全工具。
这种落差,不是模型不行,也不是工具选错了,而是我们对”AI研发能力”本身的理解出了偏差。代码生成能力,只是AI研发的入场券。
二、封闭实验到底在测什么
2.1 三大验证维度
第一:模型的代码生成能力。 给定一段清晰的需求描述,AI能否快速生成符合要求的代码?
第二:任务说明的完备程度影响。 同一个模型在不同质量的需求描述下,成功率差异极大。
第三:单轮自治可行性。 在任务相对封闭、变量较少的场景下,AI能否不被频繁打断、连续推进多步骤的复杂任务?
2.2 三个隐性假设
这些实验能跑通,背后依赖三个在真实研发场景中几乎从不成立的隐性假设:
- 假设需求是已完整定义的——实际上需求天然不完整,开发过程本身就是需求发现过程
- 假设上下文窗口足够大——实际上随着项目规模增加,上下文会超出窗口容量
- 假设测试环境和生产环境一致——实际上两者存在系统性差异
2.3 实验能回答 vs 不能回答
能回答:AI能否完成单项任务?
不能回答:组织能否将AI嵌入稳定、可控、可迭代的工程闭环?
三、代码之外的四重工程困境
3.1 需求是持续迭代重构的过程
软件开发的实际情况是一个循环工程,不是单向管道:
需求澄清 → 实现 → 发现歧义 → 回写需求 → 调整实现
↑ ↓
←←←←←← 更新测试 → 再次验收 ←←←←←←←←←←
问题在于,随着开发推进,边界条件缺失、体验不合理、业务口径不一致、业务目标偏差等问题会持续暴露。对于AI来说,这远不是”能写代码”能解决的问题。
3.2 测试的本质是可信反馈体系
AI能以极低成本生成大量测试用例,这是它的优势。但高覆盖率的测试用例 ≠ 有效的质量保障。
企业级研发对测试的真实需求是:
- 风险覆盖有效性:测试是否覆盖了真正高风险的业务路径?
- 变更后稳定性:当代码发生变更时,测试能否稳定地检测出回归问题?
- 问题根因定位能力:测试失败时能否快速定位问题?
- 测试结论可信度:当测试全部通过时,系统是否真的正确?
AI生成的测试用例往往在第一个维度上表现出色,但在后三个维度上存在系统性缺陷。
3.3 上下文成为长期项目的核心矛盾
| 维度 | 短期项目 | 长期迭代 |
|---|---|---|
| 上下文规模 | 可控 | 持续膨胀 |
| 决策遗忘速度 | 缓慢 | 快速累积 |
| 知识复用需求 | 低 | 极高 |
真实的长期项目中,最稀缺的不是代码生成能力,而是对历史决策的结构化记忆与有效继承。
3.4 质量管控需要体系性支撑
当AI研发遭遇质量问题,团队往往把原因归结为”模型的幻觉”或”提示词不够精确”。但更深层的原因是质量管控体系的缺失:任务分解不合理、知识无法沉淀、工具链断裂、人机协同机制不清晰。
四、AI研发能力的四段跃迁模型
第一阶段:单点效能工具
特征:AI作为个人生产力工具,用于代码补全、模板生成、文档撰写等单点任务。
价值:单个工程师效率提升30%-50%。
局限:提升是个人层面的,不改变团队协作流程,上下文仅限于当前文件或当前会话。
第二阶段:任务级自治
特征:AI能够理解完整的任务描述,自主分解子任务、调用工具、执行多步操作,完成一个相对完整的开发任务。
价值:在封闭、边界清晰的任务中,团队效率提升可达2-3倍。
局限:任务边界仍需人工清晰定义;跨任务的上下文无法自动继承。
第三阶段:工程闭环协同
特征:AI参与到需求-开发-测试-发布全链条中。需求的歧义可以被及时识别并结构化修正;测试反馈能够驱动需求更新;历史经验被沉淀为可检索的知识库。
局限:需要配套的工程基础设施。
第四阶段:研发中枢
特征:AI成为研发体系的神经中枢。记忆、状态、任务分发、工具编排、质量反馈、人机协同,均被统一治理。多个AI Agent在中枢的协调下,协同推进复杂系统的长期演进。
核心要素:
- 持续沉淀的产品历史与决策上下文
- 结构化的需求、任务、版本与质量状态管理
- 历史问题、设计决策与约束规则的知识固化
- 可信的质量防线与系统性风险管控
代表方向:HENGSHI JARVIS——衡石科技推出的面向企业级场景的AI研发中枢
五、衡石科技的工程闭环实践
衡石科技自2016年成立以来,长期深耕企业级数据分析平台(HENGSHI SENSE),服务WPP、宝马、广汽本田、阳狮集团、蓝色光标、国药集团等大型集团,以及超过200家企业应用软件SaaS合作伙伴。
正是基于对工程闭环的深刻理解,衡石科技推出了HENGSHI JARVIS——一个面向企业级场景的AI研发中枢。JARVIS的核心定位,不是更复杂的交互形式,而是从工程体系层面提供可落地的系统化解决方案。
JARVIS与HENGSHI SENSE 6.2以及HENGSHI CLI形成了完整的Agentic BI产品矩阵:
- HENGSHI SENSE:企业级数据智能引擎,提供超越ChatBI的数据分析底座
- HENGSHI CLI:开启Agentic BI的自动驾驶时代,让开发者可以通过命令行与BI平台深度交互
- JARVIS:研发中枢,确保整个产品体系的AI驱动研发在长周期迭代中不失真
六、企业如何评估AI研发的真实水平
6.1 重构评估指标体系
传统评估聚焦于:代码生成速度、测试用例通过率、单任务完成率。
更有价值的评估维度:
- 需求歧义发现率与解决效率
- 上下文继承有效度
- 重复踩坑下降率
- 跨模块变更回归缺陷率
- 测试可信度评分
6.2 从实验走向规模化的核心转变
从”AI能否完成单次任务”,转向”组织能否将AI嵌入稳定、可控、可迭代的工程闭环”。
这个转变意味着:主要工作不再是”找更好的模型”或”写更好的提示词”,而是建设支撑AI长期稳定运转的工程基础设施。
七、结语:工程化闭环能力是分水岭
AI研发的核心命题,不是提升代码产量,而是解决反复失忆、重复踩坑、持续归零的底层问题。
有无体系支撑,决定了AI在研发中扮演截然不同的角色:
| 维度 | 无体系 | 有体系 |
|---|---|---|
| AI角色 | 单点工具 | 核心力量 |
| 效率提升 | 有限、不可持续 | 持续、稳定 |
| 上下文 | 每次从零开始 | 跨任务继承 |
| 质量 | 表面繁荣 | 真正可信 |
代码生成只是AI研发的入口。从入口到终局,中间隔着一套完整的工程闭环能力建设。
这不是一个模型问题,而是一个工程问题。工程问题,历来需要工程解法——这正是衡石科技HENGSHI JARVIS所致力于提供的。