新闻资讯
洞察行业前沿,时刻保持探索精神,保持 HENGSHI SENSE 产品的优越性,
更多衡石精彩不容错过

免费试用

全部

精选案例

最新活动

衡石动态

DeepSeek与衡石BI的300天 ,从0℃到沸点的数据智能长跑
作者:HENGSHI 时间:2025-02-21


导言

新年伊始,人工智能科技大战开启,DeepSeek 迅速成为 AI 顶流。然而,在行业内争相接入新一代推理模型的同时,衡石科技则把更多的关注放在了 AI 的具体落地上。自2023年衡石引入 BI+AI 概念以来,ChatBI 便备受瞩目,我们引入市场几大主流大模型,包括24年3月完成适配的 DeepSeek V1,并正式将 ChatBI 投入商业场景。在 DeepSeek 备受关注之际,衡石 AI 团队总结了 ChatBI 应用经验,从行业价值、技术演进与实践挑战等维度展开深度剖析。接下来,衡石小编(下文称小石头)为您分享衡石团队关于 ChatBI 的思考与见解。


模型混战下的技术理性






本文访谈对象:

◇ Q:衡石科技小石头

◆ 刘诚忠:衡石科技创始人& CEO

◆ 赖林华:衡石科技联合创始人& CTO

◆ 陈家耀:衡石科技首席数据科学家

◆ 韦仕硕:衡石科技资深后端工程师

◆ 陈俊豪:衡石科技资深前端工程师



Q从 ChatGPT 问世以来,ChatBI 的热度就一直在提升,为什么大家这么关注 ChatBI 领域?


刘诚忠:大家对 AI 的关注和投入都是好事,但总归要落地到某个应用上,技术本身不是应用。其实就当前大模型的能力而言,toB 企业内部真正可以落地的严肃应用场景目前还很少,ChatBI 算是一个既可务实落地又有明确价值的应用场景。


Q为什么这么说?能展开详细说说这背后的原因么?


刘诚忠:ChatBI 的需求并不是来自这波 AI 的技术进步,而是来自 BI 行业实实在在的长期需求。报表的消费者即业务人员,很难随心所欲的进行数据洞察的探索,因为他们的工作需要 BI 工程师和数据工程师的配合,在看报表时脑中冒出的想法问题无法即时去触及,还需要数据团队在数天后才能给出调整好的报表,这是过去很长时间一直在发生的情况。如何降低业务人员数据探索的门槛,一直是这个方向上待解决的关键问题。


实际上,通过自然语言进行查询及探索的产品工作在 BI 领域已经开展了近二十年了,受限于技术能力,一直效果不佳。ChatBI 的出现直击了这个痛点,让业务人员可以真正开展探索性的工作,而不用完全依赖提前定义的静态报表,这是决定性的提升。


QChatBI 是 BI 的新形态吗?


刘诚忠:准确来说,ChatBI 是 BI 产品的新的使用形态,不是 BI 本身的新形态。ChatBI 和 BI 不是同一个层面的概念。BI 装配 ChatBI 能力。


Q:也就是说,有 ChatBI 了依然还需要 BI 工具?


刘诚忠:对的。企业级 BI 不是看看报表或者探索问题的动作,而是通过数据准备、数据建模、指标体系建设,到最终控权发布传播的系统工程。现代化的 BI 工作其本质在于建立一个完整流程或通道,让数据通过建模去表达出一个明确信息(通常是KPI)。工具平台则保证了这个信息可以轻松、实时的被监控到,也可以灵活的被关联到。


ChatBI 是这个事情里异常闪亮的最后一公里,将大大提升 BI 的普及率和使用效率。也非常有利于组织内部更快形成数据文化,用数据说话。


需要澄清的是,BI 工具不等于报表工具。单一的报表工具,会受到比较大的冲击,这是肯定的。报表是以展现汇报为目的的一个工作场景,但这个场景通常还会对应一个工作流程,所以AI也不会完全取代报表。


另外,ChatBI 也不会是 BI 唯一消费形态,不适合构建独立产品,这太狭窄了,这么思考的产品经理可能没有真正接触过 BI 工作。预先设定好清晰简洁的报表,交互式看板,数据大屏依然会是主流。绝对不能简单偷懒的理解今后就只需要 ChatBI 了,因为提问可能是很好的探索形态,但并不是最高效的信息传播方式。


Q那么 AI 的迭代发展是否会颠覆 BI 行业?


刘诚忠:我们的判断是,AI 会极大体现并增强 BI 的价值


非常有启示的信息是,这一年多看到大量的 ChatBI 项目失败了,失败根源就是简单粗暴把 LLM 怼到数据上,而没有很好的去结合 BI 去做实数据建设,这反过来说明了 BI 的价值。


如果要从落地一个项目的视角来观察,可以理解 BI 工作其实在用最低成本构建企业内部数据资产的小模型,然后引导结合大模型精准落地。所以想要落地好 ChatBI 效果,请大家做好 BI 基础建设吧 lol。


Q所以在 AI 的技术浪潮中,衡石做了什么?未来又有哪些方向性规划?


刘诚忠:衡石团队在过去几年专注做的是一个 BI PaaS 的基础平台产品。我们希望各种企业应用如 ERP,CRM,HCM,MA 等可以随心所欲的调用 BI 能力去零代码构建数据分析场景。衡石的合作伙伴们通常是某一个领域的专业软件厂商。


我们认为 ChatBI 会更进一步的整合进业务场景,很快成为这些企业应用的标配能力,并对外提供给他们的客户使用。衡石会通过产品创新加速助推这个趋势,这能够重构整个数据分析市场的供给关系,并最大化标准产品的价值。我们希望通过 hengshi inside 的方式让所有的软件厂商伙伴都成为自己的垂直领域里具备企业级 BI+AI 能力的数据智能服务商。


Q回到项目本身,衡石在23年底就启动了 AI 专项的项目组,在我们项目组的研判里,基于 LLM 的特性和 BI 领域的特性,BI+AI 有哪些落地场景?


陈家耀:虽然在众多 ChatBI 的宣传视频中,AI 仿佛无所不能,既能进行数据建模,开发 Dashboard,又能像业务专家和数据科学家那样开展数据预测与根因分析。但实际情况是,不同角色的用户对于 ChatBI 的需求有着天壤之别。


要真正让 ChatBI 发挥价值,精准识别目标用户及其需求场景是关键。一方面,不同场景下用户需求的侧重点截然不同;另一方面,应对场景需求的技术实现路径也会大相径庭。


Q目标用户和需求场景决定了最终落地场景,那么BI中有哪些关键角色?每个角色目前都受限于哪些问题?


陈家耀:从 BI 中的角色划分来看,用户可分为报表开发者和报表消费者。


报表开发者最为关注的是如何借助 AI 更高效地开发出可发布的 Dashboard,其关键需求在于提升开发效率。因此,他们对 AI 的期望主要集中在批量调整报表样式、构建图表度量计算表达式等方面。


报表消费者,他们业务经验丰富,却缺乏数据素养,难以自行获取数据,或利用统计技术快速从数据中发现洞见,所以他们急需 AI 扮演数据助手的角色。进一步细分,业务人员所需的数据助手,在不同场景下需求也各有不同,可能是能随时查询特定关键指标的查询助手,也可能是进行数据预测和归因等高级诊断分析的数据科学家,或是能够撰写行业数据分析报告的行业专家。这几种场景对于AI的能力要求也差异很大。



DeepSeek与衡石BI的300天 ,从0℃到沸点的数据智能长跑(图1)



Q那分析了以上角色和场景需求,我们为什么优先选择了赋能业务人员?


陈家耀:一方面,赋能业务的价值更直接,满足业务人员的需求就是解决了分析需求的源头,同时也能减轻开发人员定制个性化报表的压力。


另一方面,ChatBI 对于业务人员来说,是补足了他们急需的技术能力;而对于开发人员来说,ChatBI 只是 Better to have,只是对现有能力的增强,是效率提升工具。




DeepSeek与衡石BI的300天 ,从0℃到沸点的数据智能长跑(图2)




Q刚才也提到业务人员的需求场景也很多,怎么优先选择了智能查数?为什么不先做看上去更 fancy 的诊断性分析,类似解读、预测等场景?


陈家耀:当前最主要还是 LLM 模型能力的制约。诊断性分析需要很强的推理能力,比如归因分析、what-if 分析。而当前主流的混合专家模型,本质上是个文科生,无法承接这一类需求。当然,在近期 OpenAI o 系列、DeepSeek-R1等推理模型逐渐成熟后,该问题有望能够解决。



DeepSeek与衡石BI的300天 ,从0℃到沸点的数据智能长跑(图3)



另一个原因,诊断性分析需要大量的本地知识作为输入,本质上是定制化很强的项目。比如同样是做营销分析,做品牌营销的企业可能集中关注曝光覆盖的人群,做效果影响的企业可能关注的是后续转化行为。衡石作为标准化产品,不太适合直接提供这样的解决方案,更应该是合作客户,基于衡石的 AI 分析能力,结合自己的本地场景知识,构建出适合自己场景的智能归因、智能预测等功能。


Q前面刘总也提到去年很多 ChatBI 项目都失败了,那衡石内部怎么分析失败的原因?业界去年都在尝试 NL2SQL,衡石内部怎么看?


陈家耀:从这波大模型浪潮开始兴起,关于 ChatBI 的落地就一直有两种路线。一种是 NL2SQL,在数据库表的基础上直接对接大模型进行问答,大部分是数仓厂商提出的方案;一种是 NL2DSL,一般是 BI 厂商提出的方案,将用户的问题调用 BI 结构化的查询接口,由 BI 下发相应查询。


其实不管是 NL2SQL,还是 NL2DSL,最终都是将用户的问题,转为一段(或若干)查询 SQL。


问题→SQL 这件事情看起来很简单,但实际是一个包含诸多本地信息输入的复杂过程。如果我们拆解一下,可能包括下图中的多个步骤:



DeepSeek与衡石BI的300天 ,从0℃到沸点的数据智能长跑(图4)


NL2SQL 其实是让大模型直接完成上述所有工作,其间辅以相应的本地知识库文档,这对大模型的理解能力和推理能力提出了极高的要求。假设每一小步,都有10%左右的准确率逃逸,整体下来,准确率就可能从100%降到30%~40%左右。


这也是,谷歌、智谱等顶级团队进行过类似方案的验证后,最终都没有得到理想的准确率效果的原因。

因此行业内大家的认知都逐渐转为 NL2DSL。这也是衡石一开始就采取的路线。


QNL2DSL 又有什么优势?衡石在 NL2DSL 方向上有什么优势?


陈家耀:与 NL2SQL 不同,在 NL2DSL 中,大模型只需要完成第1步,也就是将用户的问题,转为一个规范的结构化查询,其余的过程都基于 BI 平台本身的能力和信息完成。


这个方式的好处,一方面是问答准确率高。大模型只需要处理很少的工作,也是它最擅长的工作(意图识别和翻译),对大模型的要求低了很多,也更容易保证模型回答的准确率,其他步骤借由 BI 的能力可以保证100%的准确率。


另一方面,本地知识迭代和维护的成本很低。很多本地数据知识的工作,不需要再额外维护知识库文档了,本身 BI 平台使用的过程中(数据表的关联模型、指标库维护),就已经自然而然地沉淀下来。


采用使用 NL2DSL 方式,实现的关键是,相应的 DSL 是否具有简洁而又足够强大的表达能力(绝大部分用 SQL 能实现的复杂逻辑应该能用 DSL 简洁地写出来)。比如微软 PowerBI 的 DAX,可能就是这样一种比较理想的 DSL。而衡石从18年开始就自研了类似DAX这样的语义层能力(HengshiQL),这也是衡石能在 BI 厂商中较快上线 ChatBI 的一个关键因素。


DeepSeek与衡石BI的300天 ,从0℃到沸点的数据智能长跑(图5)

24年中国软件大会上陈家耀讲述衡石 ChatBI 技术方案


Q技术方向很明确,这中间也有很多细节,先聊聊最关键的,结合查数的场景,大模型的选型有什么考虑?


陈家耀:在 BI 场景中的模型选择,准确率是最重要的因素


商业分析对精确度的要求极高,数据无法查询只是影响决策速度,但数据查询错误则可能导致致命的决策失误。所以一般在 BI 分析中,准确率低于80%就很难有客户使用。


其次的因素是性能,数据探索需要切换不同的数据切面和频繁追问,响应过慢容易让用户失去提问耐心。

最后是成本。但目前国内外的环境下,普遍成本都降到比较低了,所以对选型的影响相对比较小。


Q在研发初期测试了哪些模型?DeepSeek是怎么引起我们注意的?


陈俊豪:最开始的时候,ChatGPT 的输出质量一直是最高的,也是成本最高的,Moonshot 确实在效果和成本上都很不错,但受限于 API 速度,我们内部用的一直不多,智谱在效果上跟 Moonshot 是一个梯队,成本比 Moonshot 高,但是 API 速度更快,对于我们的测试和演示来说速度也很重要。


衡石出图率.jpg

24年8月模型内部测试结果


韦仕硕:DeepSeek V1开始价格方面就很有优势,差不多是同期 API 价格最低的,模型能力却是排在前列的,一直是性价比最高的模型。这也吸引我们持续关注。


去年 OpenAI 的推理模型 o1出来后,一直有传闻,国内 DeepSeek 和阿里巴巴都分别在尝试做推理模型,没想到是 DeepSeek 第一个取得突破,并产生如此大的影响。DeepSeek R1把整个思维过程展示出来,对于当前大模型不能保证100%正确的情况下,更容易获得用户的理解,并给用户改进问法提供了方向,是一个值得学习的产品特性。


Q我们接入 DeepSeek 的过程中,有没有什么精彩的小故事可以蹭一蹭热度?


陈俊豪:我们在接入初期测试的时候就发现,DeepSeek 对中文的处理比 ChatGPT 更好,这说明 DeepSeek 确实是国产模型而不是当时有人传言的套壳 GPT。



对话.jpg



Q这一年来,我们项目组的成员一直在研究大模型,研究怎么和 BI 结合做出更好的效果,有什么沉淀和心得?


赖林华:BI+AI 应用,和其他使用 LLM 构建的比较完整的 AI 应用一样,是重度依赖 RAG 的。不仅依赖信息类知识,也依赖领域经验,还需要动态获取 API 服务的数据,并且可能需要这些知识、经验、数据来动态组织形成复杂的执行链得到最后的结果。如何编排这个执行链是一个大话题,实际上基于开源项目 LangChain 已经有许多框架进行不同的尝试。粗略来看的话,可以大概分为 Function Call、Agent 和 Workflow 几种方式。


Function Call 倾向于让 LLM 一次性完成结果生成,Agent 则是让 LLM 来进行多轮路径规划来驱动 API  调用,而 Workflow 的方式则是在确定的处理流中调用 LLM 和其他 API。


Function Call 的方式对 LLM 的要求是比较高的。我们目前的实践中看来 Workflow 的方式在准确性、可控性上才可以达到一个可用的状态,但是它处理不了用户比较随机的,预设之外的问题。因此我们采用的是固定 Workflow+Agent 兜底的方式,通过固定 Workflow 来解决大部分的数据域场景的问题场景,通过 Agent 的方式来让 LLM 尝试理解并规划新的 Workflow。


在这个框架下,大模型展现出了较好的自适应能力,能够满足我们对能力要求的上下限。LLM 能力弱的情况下固定的 Workflow 可以保证预设的数据查询能力,LLM 强的情况下则可以响应更多的 Ad-hoc 的指标生成需求。


Q类似 DeepSeek-R1这样的新推理模型的出现,会带来什么变化?哪些场景适合,哪些场景可能不适合?


陈家耀:推理模型的出现,让一些复杂的分析问题,有可能得到比较好的回答。


推理模型和混合专家模型各有特点。相对混合专家模型,推理模型擅长逻辑推理,但性能较差。


即使对于查数问数这样的场景,其实不同环节也会有不同的模型适用。个人认为,简单的数据查询问题(本质上就是检索指标和匹配维度),不需要很强的推理能力,适合用混合专家模型,快速地问答。从衡石的实践看,混合专家模型基本能回答好一些规范的、明确的、简单的数据查询问题,比如“昨天xx平台的销售完成率是多少?”。这种场景用推理模型,就有些杀鸡用牛刀,而且性能还不好,一个问题的回答时间要从10s变成1~2分钟。


而复杂问题,特别是需要拆解多步骤的问题,往往混合专家模型回答很差,比如“昨天总体销量比元气森林高的品牌,主要是在哪些平台上销量超过了元气森林?”。类似问题其实就需要引入推理能力,将问题拆解成多个子问题,且子问题间涉及依赖数据的填入,这种情况下推理模型就大有用武之地了。


不过即使复杂问题,也不一定完全由推理模型回答,最终实现上,个人认为很可能还是多个模型相互配合,能达到比较好的性能和效果平衡,比如由R1进行问题拆解,V3封装简单的查数接口作为工具让R1调用,既能满足推理需求,又能提升回答性能。


Q这波热度非常高,除了用好新类型的模型之外,衡石对 ChatBI 的发展趋势还有什么看法?


陈家耀:被集成,是 ChatBI 的最终形态。

一直以来,数据分析领域,分析与业务流程的深度融合就是一个不可逆的趋势。数据分析本身是为了驱动业务决策,BI 报表应该被打散嵌入在日常的决策流程中,而不是独立的一个系统平台。随着 ChatBI 带来零门槛分析能力,分析助手更应该在任何需要进行业务决策的页面、对话框内被随时随地唤起,提供精确的决策辅助数据。因此,ChatBI 应该被嵌入任何需要的应用和页面。


另一方面,随着企业内其他AI应用的场景越来越多,ChatBot 本身承载的 AI 能力,很可能不会仅局限于数据分析。作为一个 AI Agent,与其他 AI 应用一起,被整合到一个统一的 ChatBot 中,很可能是大多数 ChatBI 的最终形态。


结语:

从冰点到沸点,从概念到实践,在这场颠覆性的技术革命中,我们清晰地看到:真正持久的价值创造不在于大模型的参数竞赛,而在于将 AI 深度融入企业数据基建的毛细血管。BI+AI  的突围印证了"数据资产化"与"智能场景化"的双螺旋定律——当严谨的指标体系遇见敏捷的自然语言交互,当沉淀的企业知识碰撞生成式 AI 的涌现能力,数据智能的化学反应才真正显现。



相关资讯
热门标签
衡石科技 衡石BI BI ChatBI BI数据分析 BI PaaS平台 AI+BI 企业级BI BI工具 HENGSHI SENSE Agentic BI 嵌入式BI AI BI Agent BI平台 ISV/SAAS 厂商 指标平台 BI PaaS AI Copilot HENGSHI SENSE 6.0 ChatBI解决方案 Data Agent BI系统 指标中台 AI Agent 指标管理 对话式BI 传统BI 一站式BI分析平台 HENGSHI SENSE 6.1 deepseek Chat2Metrics BI可视化 数据中台 BI报表 零代码BI 可视化报表 应用模版市场 多租户 Deep Seek 嵌入式分析 交互式BI 大数据模型BI AI数据 BI软件 语义层 BI解决方案 NL2SQL 生态伙伴 衡石ChatBot OA crm NL2DSL ChatBot Agentic Analytics HQL 智能问数 多源异构数据 自助式BI Gen AI 生成式BI 爱分析 问答式BI SDK React SDK
立即体验 HENGSHI SENSE
让商业分析触手可及