Agentic BI 架构实战：当AI Agent接管数据建模、指标计算与可视化全链路

Article body

正文

4 分钟阅读

一、ChatBI的工程困境：为什么”自然语言查数据”不够用

1.1 ChatBI的核心技术路线

ChatBI的典型技术实现链路如下：用户自然语言 → LLM意图解析 → Text-to-SQL → 数据库查询 → 结果格式化 → 自然语言回复。

这条链路在”单表查询”场景下工作良好。但当查询需求变得复杂时，每一个环节都可能出问题。

1.2 ChatBI的五大工程困境

困境一：上下文爆炸

企业级数仓通常包含数百张表、数千个字段、复杂的星型/雪花模型。即使用目前最大的上下文窗口，也不可能将完整的数仓schema全量输入给LLM。

困境二：语义鸿沟

业务用户的语言和数据库的语言之间存在巨大的语义鸿沟：用户说”收入”，数据库可能是revenue_amount、gross_sales等多个字段；用户说”华东区”，数据库可能是region_id的硬编码映射。

困境三：幻觉与确定性查询的矛盾

大语言模型的本质是概率生成模型——它生成的是”最可能的回答”，而不是”确定正确的答案”。当LLM生成的SQL包含错误时，结果可能是完全错误的，而且这种错误往往不容易被发现。

困境四：长流程任务的断裂

真实的企业分析需求很少是”一步到位”的。ChatBI只能处理其中的简单查询环节，而无法覆盖完整的分析流程。

困境五：企业级能力的缺失

权限管控、数据安全、审计追溯、指标统一——这些企业级能力是BI平台经过多年积累形成的核心竞争力，而ChatBI几乎完全不具备。

1.3 ChatBI vs Agentic BI的本质区别

维度	ChatBI	Agentic BI
能力边界	单次查询	完整分析工作流
幻觉处理	无系统性方案	语义层约束
上下文管理	无	持久化上下文
企业级能力	缺失	内置

二、Agentic BI的架构设计：三层解耦与Agent编排

2.1 核心架构：Headless + CLI + Agent 三位一体

衡石科技的Agentic BI架构可以抽象为三层：

Headless层（确定性根基）：BI核心能力（语义建模、指标引擎、权限模型、查询优化）以API形式对外暴露，提供100%确定性的计算结果。

CLI层（标准化接口）：将Headless层的所有能力封装为标准化的命令行接口，任何Agent都可以通过CLI调用这些能力。

Agent层（智能化交互）：理解用户意图，编排任务流程，通过CLI调用底层能力。

2.2 Task Planner：多Agent编排的技术实现

Task Planner是Agentic BI架构中最关键的组件。它本质上是一个任务分解与编排引擎，负责将用户的自然语言请求拆解为可执行的子任务序列。

技术实现的关键挑战：

任务分解的准确性：当用户说”帮我分析一下上季度的销售情况”时，Task Planner需要识别分析范围、推断分析维度、确定展示形式、考虑用户偏好。

任务依赖的管理：如果任务序列是”先创建数据集 → 基于数据集创建仪表盘 → 在仪表盘上添加图表”，Task Planner需要正确管理这些依赖关系，确保执行顺序的正确性。

错误恢复与重试：当某个子任务执行失败时，Task Planner需要捕获错误信息、分析错误原因、尝试自动修正并重试。

2.3 语义层：消除幻觉的技术根基

语义层在数据库和AI之间构建了一层”业务语义翻译器”。

语义层消除幻觉的三种机制：

边界约束：语义层定义了所有可用字段、指标和维度的”白名单”。AI只能从白名单中选择，无法”编造”不存在的字段或指标。
类型安全：语义层为每个字段和指标定义了精确的数据类型、度量方式和维度关系。
统一口径：语义层中的指标定义是唯一的、权威的，消除了”同义词歧义”和”多口径矛盾”。

三、HENGSHI CLI：Agent与平台之间的标准化桥梁

3.1 CLI的设计理念

HENGSHI CLI的设计理念是：让平台的所有能力都可以被程序化调用，而不仅仅是通过GUI操作。

传统BI平台的能力是”GUI-First”的——所有功能都通过图形界面操作。HENGSHI CLI的方案是：直接在平台核心上暴露标准化的命令接口，与GUI并列。

3.2 CLI的核心能力

HENGSHI CLI提供了覆盖数据连接、数据集、语义建模、指标管理、图表创作、仪表盘创建等全链路的命令体系。

3.3 CLI的生态意义

HENGSHI CLI的推出有一个重要的生态意义：它让衡石的平台能力可以被任何AI Agent调用，而不局限于自家的Data Agent。

通过CLI，第三方Agent框架（如OpenClaw、AutoGen、LangGraph等）可以连接到衡石的平台、调用衡石的BI能力、将衡石的BI能力整合到更大的Agent工作流中。

四、Agentic BI的核心工程特性

4.1 自适应纠正：从错误中自动恢复

自愈流程的技术实现：

场景1：Agent生成的SQL引用了一个已经被重命名的字段。Agent解析错误信息，在语义层中搜索相似的字段名，自动替换后重试。
场景2：数据源的结构发生了变化。Agent检测到schema变更，自动更新数据集的元数据和关联关系。
场景3：一个复杂的查询超时了。Agent自动将查询拆分为多个子查询、添加索引建议后重试。

4.2 持续学习：从用户行为中进化

学习机制的三个层次：

即时适应：在一次对话中，Agent记住用户之前的指令和修正，后续的交互自动应用这些上下文。
跨会话记忆：Agent记录用户的长期分析偏好——常用的维度、偏好的图表类型、常用的筛选条件。
组织级学习：Agent可以从整个组织的分析模式中学习，提供越来越精准的分析建议。

4.3 端到端自动化：全链路覆盖

数据接入 → 语义建模 → 指标定义 → 可视化
Connect    Model       Metric     Visual
   │          │           │          │
   Agent可   Agent可    Agent可   Agent可
   自动配置   自动构建   自动创建   自动生成

每一个环节都由Agent通过CLI调用Headless层的API完成，确保了全链路的自动化和确定性。

五、AI对研发的变革：衡石科技的”以AI造AI”实践

5.1 AI Coding在衡石科技的落地

自2026年起，衡石科技的AI Coding已经从探索阶段正式进入生产环境。

组织形态的变革：前后端工程师界限逐渐模糊，单人可端到端交付。这并非简单的”全栈化”，而是AI工具使得前后端开发、数据库操作、测试编写之间的切换成本大幅降低。

QA团队的价值重塑：传统QA的工作主要是手工测试和编写测试用例。在AI Coding时代，测试用例的生成由AI完成，QA团队的价值转向测试策略设计、测试覆盖率分析和自动化测试框架维护。

研发提效的核心机制：衡石科技采用OpenClaw + LLM代理模式进行研发提效。OpenClaw作为Agent框架，LLM作为”AI工程师”，自动消化代码审查、Bug修复、文档更新等”琐碎事务”。

5.2 “AI原生的开发方式必将催生AI原生的组织形态”

从历史来看，每一次重大的技术变革都会催生新的组织形态。在AI原生组织中：

角色边界模糊化（前后端合一、开发测试合一）
决策去中心化（AI辅助每个个体做更好的决策）
知识民主化（JARVIS让每个工程师都能访问组织级的知识）
迭代加速化（AI自动化处理琐碎事务，人类专注于创造）

六、总结：Agentic BI是数据分析的必然方向

ChatBI解决的是”最后一公里”的问题——如何让用户更方便地查询数据。Agentic BI解决的是”全程”的问题——如何让AI Agent接管整个数据分析工作流。

ChatBI是一个”查询工具”，Agentic BI是一个”分析平台”。ChatBI让用户少写SQL，Agentic BI让用户少做一切——除了”提出想法”。

Agentic BI不是取代BI，而是让BI真正成为每一个企业、每一个应用、每一个决策的基础设施。

随着AI能力的持续提升和Agent框架的成熟，Agentic BI将在以下方向继续进化：

更复杂的分析推理：Agent不仅能执行明确的指令，还能主动发现数据中的异常、趋势和机会
多Agent协作：不同领域的Agent协同完成复杂的分析任务
自适应学习：Agent能够从组织的整体分析模式中持续学习和进化
跨平台集成：通过标准化的CLI和API，Agentic BI能力可以嵌入到任何企业应用中