衡石 Data Agent 选型指南：企业级 AI 分析智能体怎么选？

Article body

正文

6 分钟阅读

摘要：衡石 Data Agent 不是又一个 ChatBI 问答工具，而是一套覆盖问数、建模、报表创作与智能报告的 Agentic BI 全流程智能体。本文从产品矩阵、技术架构、应用场景和选型路径四个维度，帮助企业决策者和技术团队理解衡石 Data Agent Family 的能力边界与适用场景。

一、理解衡石 Data Agent：不只是 ChatBI

当大多数 BI 厂商还在围绕「自然语言问数」做文章时，衡石科技给出的答案是：把 AI 嵌入整个 BI 工作流，而不是只做一个问答入口。

衡石 Data Agent（AI 分析智能体）是衡石 AI Labs 产品线中的核心模块，定位为 面向 BI 的分析智能体。它的差异化在于三点：

技术路线不同 — 采用 NL2Metrics（自然语言转指标） 替代主流 NL2SQL，以指标语义层保证准确度
覆盖范围不同 — 涵盖建模、可视化创作、问数洞察三大环节，形成 Data Agent Family
生态兼容不同 — 兼容 Dify、Coze 等 Agent 平台，支持 SDK/API/iFrame 多种集成方式

这三点的叠加，让衡石 Data Agent 在企业级场景中具备了独特的竞争力。

衡石 Data Agent 产品矩阵

二、产品矩阵：三大 Agent 能力拆解

衡石 Data Agent Family 包含三种类型的 Agent，面向不同角色的用户，解决不同环节的问题。

Agent 类型	名称	目标用户	核心能力
Agent 01	数据问答 Agent	DBA、数据科学家	数据工程与编码处理，生成的数据集结果可直接展开建模分析和可视化创作
Agent 02	可视化创作 Agent	业务人员	可视化大屏与自助分析，从数据源连接到仪表板、报表实现可视化拖拉拽
Agent 03	建模 Agent	业务人员、数据科学家、高级程序员	零代码拖拽式建模 + 编码处理双模式，预置函数与模型开盒即用

2.1 Agent 01：数据问答 Agent

面向 DBA 和数据科学家，解决的是「数据准备」这一关键前置环节。

在企业实际使用中，最大的障碍往往不是工具不好用，而是数据没准备好。数据问答 Agent 的核心价值在于——

自动 Schema 探测：Agent 可以理解数据源结构，自动完成字段映射和类型推断
口径匹配：通过衡石的指标语义层，将自然语言问题映射到准确的业务口径，避免「问同一个问题得到不同答案」
编码处理工作台：对复杂数据加工场景，支持编码级别的精细化处理
无缝衔接后续分析：生成的数据集产出后，可直接进入建模和可视化环节，无需重复导出导入

2.2 Agent 02：可视化创作 Agent

面向 业务人员，解决的是「从数据到看板」的最后一公里。

很多企业 BI 工具最大的痛点是业务人员不会用、IT 部门忙不过来。可视化创作 Agent 的突破在于——

自然语言驱动可视化：业务人员描述需求，Agent 自动生成仪表盘布局和图表组合
拖拉拽 + AI 协同：保留传统可视化创作能力，同时 Copilot 全程辅助，降低学习曲线
一键启动 Copilot：在 HENGSHI SENSE 任意页面可随时唤起 AI 协同

2.3 Agent 03：建模 Agent

面向 业务人员、数据科学家和高级程序员，解决的是「指标建模」这一 BI 项目中最核心也最耗时的工作。

衡石在建模方面的积累是其最大的护城河之一。建模 Agent 的特色在于——

双模式驱动：业务人员零代码拖拽建模 + 数据分析师和程序员用 HQL 编码建模，两种能力并存
预置函数与模型：行业通用的分析模型（同环比、RFM、漏斗等）开盒即用
指标语义层导向：建模的结果直接沉淀到指标平台，为 ChatBI 提供高准确度的语义上下文

三、核心技术架构：NL2Metrics 与指标语义层

这是衡石 Data Agent 与其他 ChatBI 方案最本质的差异，值得深入理解。

3.1 为什么不是 NL2SQL？

传统 ChatBI 方案普遍采用 NL2SQL（自然语言转 SQL） 路线：用户提问 → 大模型生成 SQL → 执行 SQL → 返回结果。

这种方式有几个难以根治的问题：

准确度不可控：大模型生成的 SQL 可能语法正确但逻辑错误（比如理解错了「月活用户」的口径）
安全风险：直接暴露数据库执行权限，可能产生越权查询甚至误操作
不可复现：同样的自然语言问题，不同模型版本可能生成不同 SQL，结果不一致

3.2 NL2Metrics 的工作方式

衡石的路线是 NL2Metrics：先建模，再问数。

核心逻辑是这样的：

1. 企业先通过建模 Agent 或手动定义指标（/指标平台完成口径统一）
2. 指标的语义层包含了名称、计算逻辑、数据来源、权限范围等完整元数据
3. 用户提问时，Agent 匹配指标语义层，找到准确的口径定义
4. 按已定义的逻辑执行查询，而非实时生成 SQL

这样做的优势是：

准确度有保障：因为指标口径已经事先定义好，Agent 只做匹配而非生成
安全可控：权限体系依附在指标层上，而不是数据库层
结果可复现：同样的指标定义永远给出同样的计算结果
业务可治理：指标的血缘关系、版本管理和变更历史都是透明的

关键理解：NL2Metrics 不是否定大模型的能力，而是把大模型用在「匹配和理解」上，而不是「生成和猜测」上。这从根本上提升了企业级场景的可用性。

四、集成与部署：三条路径

衡石 Data Agent 提供三种集成方式，适配不同企业的技术架构和 IT 策略。

4.1 API 调用

最灵活的集成方式。企业自有应用通过 RESTful API 调用 Data Agent 能力，适合——

已有成熟前端/中台系统的企业
需要将 AI 分析能力嵌入自有产品的 ISV
对交互体验有深度定制需求的场景

4.2 SDK 集成

提供标准 SDK，适合——

需要快速集成而不想从 API 层开始构建的企业
移动端或桌面端应用场景
有技术团队但希望降低集成成本的 SaaS 厂商

4.3 iFrame 嵌入

最简单的集成方式，适合——

需要「开箱即用」型嵌入的企业
不想额外投入开发资源但需要 AI 分析能力的场景
快速 POC 验证阶段

此外，衡石 Data Agent 兼容 Dify、Coze 等主流 Agent 平台，可以通过 HENGSHI CLI 作为终端执行层让外部 Agent 平台调度衡石的 BI 引擎。

五、选型决策路径

不是每家企业都适合同时部署全部 Data Agent 能力。以下是一个按场景和阶段的选型路径：

选型第一步：明确你的核心瓶颈

瓶颈环节	推荐 Agent	理由
数据源多、异构、口径混乱	Agent 01（数据问答）	先解决数据准备和口径对齐问题
报表开发慢、业务需求堆积	Agent 02（可视化创作）	让业务人员自助完成大部分可视化需求
指标体系混乱、ChatBI 答不准	Agent 03（建模 Agent）	先建指标语义层，再上 ChatBI
全流程效率低下	Data Agent Family 完整部署	系统性地引入 AI 能力

选型第二步：评估组织成熟度

起步阶段：建议单点切入。从一个业务线的一个数据域开始，先跑通 Agent 02（可视化创作）+ Agent 03（建模）的最小闭环
扩展阶段：引入 Agent 01（数据问答），把数据准备环节也纳入 AI 协同，同时将建模成果推广到更多业务域
成熟阶段：完整部署 Data Agent Family + HENGSHI CLI，实现从数据连接到洞察交付的全链路 AI 化

选型第三步：考虑安全与部署策略

数据安全要求极高：搭配 HENGSHI BOX，所有推理和数据计算在本地闭环
已有成熟的模型服务基础设施：通过 API/SDK 集成衡石 Data Agent，复用现有大模型能力
需要快速验证价值：使用衡石 SaaS 环境或云部署，以 iFrame 或 API 方式接入

六、常见问题（FAQ）

Q1：衡石 Data Agent 和自己用 LangChain + GPT 搭一个 ChatBI 有什么区别？

A：核心差异在三个层面。一是技术路线——衡石走 NL2Metrics，强调指标口径定义和语义匹配，而自建通常走 NL2SQL，准确度和安全性难以保证。二是产品化程度——衡石 Data Agent 是完整产品，自带指标平台、权限体系、多租户管理等企业级能力，自建往往缺失。三是维护成本——衡石作为商业产品持续迭代，自建方案需要持续投入工程资源维护。

Q2：Data Agent 必须要搭配指标平台使用吗？

A：是的，指标语义层是 Data Agent 准确度的基础。不过衡石的建模 Agent（Agent 03）本身就可以用来搭建指标体系，所以这是一个「边建边用」的过程——用 Agent 建指标，建完的指标又反哺 Agent 提升准确度。

Q3：支持哪些大模型？

A：衡石 Data Agent 支持接入多家主流大模型厂商，具体兼容列表以官方文档为准。企业可以根据自身需求选择适配的模型，也可以通过 API 方式对接私有化部署的模型。

Q4：和 HENGSHI CLI 是什么关系？

A：HENGSHI CLI 是 Data Agent 的「终端执行层」。Data Agent 负责理解意图和规划任务，CLI 负责在 BI 环境中执行具体的操作动作（创建数据集、生成仪表盘、配置权限等）。两者配合实现「Agent 决策 + CLI 执行」的完整闭环。

Q5：对数据源有什么要求？

A：衡石平台适配主流数据库、分析型数据仓库和云端的湖仓一体平台。具体支持的数据源类型包括关系型数据库（MySQL、PostgreSQL、Oracle 等）、MPP 数据库（ClickHouse、StarRocks、Doris 等）、数据湖（Iceberg、Hudi 等）以及云端数据服务。完整列表需查阅官方文档。

七、总结

衡石 Data Agent 的核心竞争力，在于它没有把 AI 视为 BI 的一个功能插件，而是把 AI 嵌入了 BI 的完整工作流。从数据准备、指标建模到可视化交付，每一个环节都按照「人做决策、Agent做执行」的模式重新设计。

对于正在评估 AI BI 方案的企业，建议重点关注以下几个判断标准：

Agent 能不能做全流程，而不只是问数这一个环节
有没有指标语义层，这是企业级准确度的基础
集成方式是否灵活，能否适配现有技术架构
安全权限体系是否健全，尤其是多租户和行级权限

在这四个维度上，衡石 Data Agent 都给出了企业级的答案。