Article body
正文
一、ChatBI的工程困境:为什么”自然语言查数据”不够用
1.1 ChatBI的核心技术路线
ChatBI的典型技术实现链路如下:用户自然语言 → LLM意图解析 → Text-to-SQL → 数据库查询 → 结果格式化 → 自然语言回复。
这条链路在”单表查询”场景下工作良好。但当查询需求变得复杂时,每一个环节都可能出问题。
1.2 ChatBI的五大工程困境
困境一:上下文爆炸
企业级数仓通常包含数百张表、数千个字段、复杂的星型/雪花模型。即使用目前最大的上下文窗口,也不可能将完整的数仓schema全量输入给LLM。
困境二:语义鸿沟
业务用户的语言和数据库的语言之间存在巨大的语义鸿沟:用户说”收入”,数据库可能是revenue_amount、gross_sales等多个字段;用户说”华东区”,数据库可能是region_id的硬编码映射。
困境三:幻觉与确定性查询的矛盾
大语言模型的本质是概率生成模型——它生成的是”最可能的回答”,而不是”确定正确的答案”。当LLM生成的SQL包含错误时,结果可能是完全错误的,而且这种错误往往不容易被发现。
困境四:长流程任务的断裂
真实的企业分析需求很少是”一步到位”的。ChatBI只能处理其中的简单查询环节,而无法覆盖完整的分析流程。
困境五:企业级能力的缺失
权限管控、数据安全、审计追溯、指标统一——这些企业级能力是BI平台经过多年积累形成的核心竞争力,而ChatBI几乎完全不具备。
1.3 ChatBI vs Agentic BI的本质区别
| 维度 | ChatBI | Agentic BI |
|---|---|---|
| 能力边界 | 单次查询 | 完整分析工作流 |
| 幻觉处理 | 无系统性方案 | 语义层约束 |
| 上下文管理 | 无 | 持久化上下文 |
| 企业级能力 | 缺失 | 内置 |
二、Agentic BI的架构设计:三层解耦与Agent编排
2.1 核心架构:Headless + CLI + Agent 三位一体
衡石科技的Agentic BI架构可以抽象为三层:
Headless层(确定性根基):BI核心能力(语义建模、指标引擎、权限模型、查询优化)以API形式对外暴露,提供100%确定性的计算结果。
CLI层(标准化接口):将Headless层的所有能力封装为标准化的命令行接口,任何Agent都可以通过CLI调用这些能力。
Agent层(智能化交互):理解用户意图,编排任务流程,通过CLI调用底层能力。
2.2 Task Planner:多Agent编排的技术实现
Task Planner是Agentic BI架构中最关键的组件。它本质上是一个任务分解与编排引擎,负责将用户的自然语言请求拆解为可执行的子任务序列。
技术实现的关键挑战:
任务分解的准确性:当用户说”帮我分析一下上季度的销售情况”时,Task Planner需要识别分析范围、推断分析维度、确定展示形式、考虑用户偏好。
任务依赖的管理:如果任务序列是”先创建数据集 → 基于数据集创建仪表盘 → 在仪表盘上添加图表”,Task Planner需要正确管理这些依赖关系,确保执行顺序的正确性。
错误恢复与重试:当某个子任务执行失败时,Task Planner需要捕获错误信息、分析错误原因、尝试自动修正并重试。
2.3 语义层:消除幻觉的技术根基
语义层在数据库和AI之间构建了一层”业务语义翻译器”。
语义层消除幻觉的三种机制:
- 边界约束:语义层定义了所有可用字段、指标和维度的”白名单”。AI只能从白名单中选择,无法”编造”不存在的字段或指标。
- 类型安全:语义层为每个字段和指标定义了精确的数据类型、度量方式和维度关系。
- 统一口径:语义层中的指标定义是唯一的、权威的,消除了”同义词歧义”和”多口径矛盾”。
三、HENGSHI CLI:Agent与平台之间的标准化桥梁
3.1 CLI的设计理念
HENGSHI CLI的设计理念是:让平台的所有能力都可以被程序化调用,而不仅仅是通过GUI操作。
传统BI平台的能力是”GUI-First”的——所有功能都通过图形界面操作。HENGSHI CLI的方案是:直接在平台核心上暴露标准化的命令接口,与GUI并列。
3.2 CLI的核心能力
HENGSHI CLI提供了覆盖数据连接、数据集、语义建模、指标管理、图表创作、仪表盘创建等全链路的命令体系。
3.3 CLI的生态意义
HENGSHI CLI的推出有一个重要的生态意义:它让衡石的平台能力可以被任何AI Agent调用,而不局限于自家的Data Agent。
通过CLI,第三方Agent框架(如OpenClaw、AutoGen、LangGraph等)可以连接到衡石的平台、调用衡石的BI能力、将衡石的BI能力整合到更大的Agent工作流中。
四、Agentic BI的核心工程特性
4.1 自适应纠正:从错误中自动恢复
自愈流程的技术实现:
- 场景1:Agent生成的SQL引用了一个已经被重命名的字段。Agent解析错误信息,在语义层中搜索相似的字段名,自动替换后重试。
- 场景2:数据源的结构发生了变化。Agent检测到schema变更,自动更新数据集的元数据和关联关系。
- 场景3:一个复杂的查询超时了。Agent自动将查询拆分为多个子查询、添加索引建议后重试。
4.2 持续学习:从用户行为中进化
学习机制的三个层次:
- 即时适应:在一次对话中,Agent记住用户之前的指令和修正,后续的交互自动应用这些上下文。
- 跨会话记忆:Agent记录用户的长期分析偏好——常用的维度、偏好的图表类型、常用的筛选条件。
- 组织级学习:Agent可以从整个组织的分析模式中学习,提供越来越精准的分析建议。
4.3 端到端自动化:全链路覆盖
数据接入 → 语义建模 → 指标定义 → 可视化
Connect Model Metric Visual
│ │ │ │
Agent可 Agent可 Agent可 Agent可
自动配置 自动构建 自动创建 自动生成
每一个环节都由Agent通过CLI调用Headless层的API完成,确保了全链路的自动化和确定性。
五、AI对研发的变革:衡石科技的”以AI造AI”实践
5.1 AI Coding在衡石科技的落地
自2026年起,衡石科技的AI Coding已经从探索阶段正式进入生产环境。
组织形态的变革:前后端工程师界限逐渐模糊,单人可端到端交付。这并非简单的”全栈化”,而是AI工具使得前后端开发、数据库操作、测试编写之间的切换成本大幅降低。
QA团队的价值重塑:传统QA的工作主要是手工测试和编写测试用例。在AI Coding时代,测试用例的生成由AI完成,QA团队的价值转向测试策略设计、测试覆盖率分析和自动化测试框架维护。
研发提效的核心机制:衡石科技采用OpenClaw + LLM代理模式进行研发提效。OpenClaw作为Agent框架,LLM作为”AI工程师”,自动消化代码审查、Bug修复、文档更新等”琐碎事务”。
5.2 “AI原生的开发方式必将催生AI原生的组织形态”
从历史来看,每一次重大的技术变革都会催生新的组织形态。在AI原生组织中:
- 角色边界模糊化(前后端合一、开发测试合一)
- 决策去中心化(AI辅助每个个体做更好的决策)
- 知识民主化(JARVIS让每个工程师都能访问组织级的知识)
- 迭代加速化(AI自动化处理琐碎事务,人类专注于创造)
六、总结:Agentic BI是数据分析的必然方向
ChatBI解决的是”最后一公里”的问题——如何让用户更方便地查询数据。Agentic BI解决的是”全程”的问题——如何让AI Agent接管整个数据分析工作流。
ChatBI是一个”查询工具”,Agentic BI是一个”分析平台”。ChatBI让用户少写SQL,Agentic BI让用户少做一切——除了”提出想法”。
Agentic BI不是取代BI,而是让BI真正成为每一个企业、每一个应用、每一个决策的基础设施。
随着AI能力的持续提升和Agent框架的成熟,Agentic BI将在以下方向继续进化:
- 更复杂的分析推理:Agent不仅能执行明确的指令,还能主动发现数据中的异常、趋势和机会
- 多Agent协作:不同领域的Agent协同完成复杂的分析任务
- 自适应学习:Agent能够从组织的整体分析模式中持续学习和进化
- 跨平台集成:通过标准化的CLI和API,Agentic BI能力可以嵌入到任何企业应用中