电话咨询:15810120570
公司邮箱:hi@hengshi.com
北京市海淀区西小口路66号中关村东升科技园B-2楼A301室
上海市黄浦区延安东路550号海洋大厦29楼2903室
广东省深圳市光明区光源五路宝新科技园4栋707号
八年时间不短,但对一个企业级产品来说也不算长。本文将对衡石核心产品 HENGSHI SENSE 的八年成长做一个回顾。梳理一路走来的历程,才可能预见未来的技术演进方向。企业级 BI 是一个非常有生命力的市场,BI (Business Intelligence)这个名字所指出的“商业智能”,是现代化企业管理理念上经久不衰的概念,也一针见血指出了数字化转型中,信息技术推动一个商业组织提升的智能化方向。作为这个领域相对年轻的本土厂商,衡石团队在产品的形态、功能和方法论上都做了不少创新。本文将尝试对产品的演进过程按时间线进行回放,起底创新的起源,希望给大家一些启发。
产品核心概念
由于构建企业级 BI 要求的技能跨度极广:涉及到偏向底层架构的数据存储、数据同步、计算性能优化机制;偏向展示层的可视化图表渲染、仪表盘布局和响应;偏向IT管控的权限体系和集成能力;偏向业务实现的数据建模原理;以及偏向用户体验的交互设计,因此 BI 产品的研发通常是一项成本巨大的工作。与此形成对比的是,BI 产品核心概念却寥寥无几,产品的复杂度构建于这些核心概念的组合之上。
数据集 DataSet
数据集是虚拟的二维表格,是数据库中表和视图的抽象,是分析工作的起点。
这个定义是对所有结构化数据在二维表格形态下的抽象表达,定义的目的是为了不用关心物理上来自哪个具体数据源。后面的统计分析和处理都专注集中于数据行列的操作上,对数据的聚合计算集中在行上的遍历,而所有的过滤则主要是列为锚点进行。
图表 Chart
图表是数据可视化的最小单位。在 HENGSHI SENSE 中,一个数据的论点以一个图表来呈现。
一图胜千言的底层原理在于人类大脑对于图形信息的处理速度是文字信息的数百倍。BI 的其中一项主要工作就是对于管理的数据集创建最合适的可视化图表。数据可视化的宗旨不在于炫酷而在于高效的传达。最经典的图表通常最有用,比如折线图、柱状图和饼图就能解决很多问题,热力图、气泡图也非常有用。
KPI 也是一种高频使用形式,可以突出某个关键指标的准确数值,通常和折线图等可视化图形在一个仪表盘中组合使用。
仪表盘 Dashboard
仪表盘是图表、过滤器和文本的组合排版,配合展示一个具体的主题,用于讲述一个用户故事。
仪表盘是 BI 工程的主要产物之一,也是连接不同角色的中枢。一个 BI 的项目落地首先要明确两个角色,谁负责从数据建模到仪表盘的制作,谁会消费查看仪表盘。
在衡石产品中还有一个相关概念是数据应用 Application,我们希望可以封装一组仪表盘,形成一个更完整的分析解决方案,并给予更多的使用场景,如数据门户。
数据大屏是仪表盘的一种特殊展现形式,主要用于汇报和展览等集中在视觉效果的场景。
数据连接 Data Connection
数据连接面向物理数据源,是 BI 工作和数仓工作之间的桥梁。建立数据连接后才能够创建数据集。
在可分析数据的范围已经扩大化的今天,各种专业的数据引擎、数据仓库技术更加百花齐放。大多数情况下,BI 的工作要后置于数仓的搭建筹备工作。数仓加上 BI 获取数据的 insight 依然是被实践证明最合理的路径,AI 大模型技术的兴起目前还没有撼动这个现状。
数据模型 Model
数据模型定义在逻辑上数据集之间的关联关系, Union 和 Join 是两种最基础的关系。
定义数据模型的目的归根结底是灵活性,这也是 BI 平台最重要的能力之一。业务对于明细数据在多维度上的统计和不同聚合层次上的计算需要满足在响应速度和灵活性两个方面的最佳平衡,数据模型的支持能最大程度降低在实际数据查询发生前做计算的范围,减少在物理层面的数据复制和搬运。随着数据引擎的性能一路提升,模型的重要性也变得更加重要,没有强大的建模能力相当于浪费了大数据技术发展以来各数据引擎平台的创新成果。当前 BI 的主流趋势很明确,就是拥抱当前更强的实时数据处理能力,在整体架构上的 trade-off 上更倾向于灵活性!
指标 Measures & Metrics
指标能力本质上是数据建模的延伸,是对数据集的增强扩展,是 BI 产品建模上的核心门槛。
指标是 HENGSHI SENSE 里最重要的概念,分为数据建模层面和业务层面两类,在产品里用原子指标和业务指标进行区分,更底层的能力在于原子指标。原子指标是定义一个数据集在某个统计度量上的表达式,比如一个设定条件下灵活定义的同比增长率,或者一个基于字段值和函数组合成的动态表达式。原子指标很大程度上扩充了做 BI 分析动作时面对数据集的可操作空间,这个能力依赖比较丰富的函数库,衡石提供了上百种高级函数对其进行支撑。
业务指标面向业务运营专家,是确定了维度和计算表达之后具体的一个业务口径的计算结果。基于业务指标的管理、分析和查看,以及指标体系的管理能力,是 BI 工具从 IT 技术部门进一步走进业务用户的新型功能板块。
过滤器 Filter
过滤器为静态仪表盘赋予动态能力,通过变换切面来锁定洞见。
一个静态的页面承载的信息量终究有限,仪表盘中的过滤器能起到动态切换观察范围的效果。由于数据的查阅动作是面向查看人员的,因此过滤器需要具备丰富的类型和呈现方式,按照过滤内容有文本、时间、数值等;按照呈现有输入控件、选择控件、平铺控件、滑块控件、树形控件、日历控件等;按照作用范围则有局部过滤器,全局应用过滤器,数据集过滤器。过滤器需要有大量的交互能力,让仪表盘起到类似千人千面的个性化效果,这个功能体现出了数据类工具产品较高的功能复杂度。
参数 Parameters
参数本质也是一种底层数据的动态切换,并将切换能力显式地装载到仪表盘的交互操作中。
参数可以以控件形态大量使用于仪表盘中,增加图表的可交互性,分为局部参数控件和全局应用参数控件。同时作为施展灵活性的重要手段,也会频繁的用于指标的计算表达式、权限控制、数据集创建等场景。
参数和过滤器一样,都体现了数据分析工作的动态性和复杂性。同时作为一项基础能力,和指标表达式的语义组合,能够得到强大的业务逻辑表达能力。
引擎 Engine
数据结论得由数据运算得出,数据运算需要物理层面有地方对数据高效的查询和聚合计算,这个地方叫引擎。
默认的引擎是外部的高性能数据仓库,但是由于对响应性的更高追求,现代 BI 工具都会尝试内存计算引擎这样的方式,去获得更好的响应体验。当前飞速发展的数据仓库平台,让内存计算不再是必须的选择,这是一个时代的判断,也是架构上的极大简化。
在分析的 pipeline 中,引擎是必须有的角色。而不同的企业对于数据平台的建设和规划有很大的差异,所以在衡石产品的架构中也提供了开箱即用的引擎以满足一般的计算需求,我们叫内置引擎。实际落地是衡石内置引擎还是客户自建,两者皆可。
产品迭代的 Timeline
第一阶段 2016 - 2018
一站式分析平台 BI is an end-to-end full stack platform
2016 · From Scratch
从大数据的技术积累开始,学习 Databricks 的架构,搭建了基于 Spark 的分析框架,开启 HENGSHI SENSE 0.1。
2017 · HENGSHI SENSE 1.1|可视化能力初具备
此版本已经确定了数据连接、数据集、仪表盘的操作主线路,同时配置 D3 和 Echart 的双可视化引擎。可视化能力基本完善,提供了数十种典型的可视化图表类型。底层数据处理引擎依然沿用了 Spark,也开始聚合其他引擎技术。
对智能查数的功能做了一些尝试,设计了自动发现数据规律,自动生成图表的功能,但是后续技术迭代结果无法达到令人满意的效果,没有继续再投入,当时还没有 LLM 的崛起。
2018年· HENGSHI SENSE 2.0|Engine or Compiler
在底层架构上做了一个虚拟引擎的设计,决定不依赖具体的数据引擎,尽量把运算下推,需要兼容适配主流的数据平台,衡石的架构从 Engine 开始全面转向 Compiler,这是团队对于架构层面多年来几乎唯一的战略决策,并坚持至今,这也对后面建模语义层的设计打下了基础。同时为了适应部分客户没有构建数据平台的现状,结合团队研发背景,用开源的 Greenplum 做了内置的引擎,默认提供高效的计算性能。
除了可视化能力,这个阶段我们也尝试了构建 Notebook 这样的代码编写功能,后来演变成了数据科学的功能板块。
这一年开始初步合作一些早期客户,产品落地了 Segway、黑湖科技、WPP 等知名企业。
第二阶段 2019 - 2020
建模语义层和 ELT 新型架构
2019年 · HENGSHI SENSE 2.3|建模语义层 HQL 问世
对于任何一家公司而言,客户的需求都是最重要的创新源泉,特别是在早期。衡石的早期客群行业分布和技术栈差异是很大的,没有显著的共性。如何同时服务好天使客户并寻求自身业务突破是常见的发展矛盾。这个阶段面临的挑战有:
· 高性能的计算,需要运算下推,而不是在 Spark 上做数据缓存之后再进行计算。
· 用户维度留存的分析,时间维度的同环比对比分析,分项与汇总的并行分析,需要建模具有可扩展的计算能力。
· 差异巨大的底层数据平台需要更高效的方式进行服务。
这些挑战驱动团队必须以新的思路构建核心能力建模语义层,定义 HQL 即 Hengshi Query Language,逐渐从可视化工具转向分析平台架构。
这个阶段也逐渐在合作中发现很多嵌入集成需求,开始接触一批企业服务的 SaaS 厂商,建立了很好的合作关系。商业化开始思考通过这样的合作能够落地每个行业非常专业的分析场景,初步形成了 HENGSHI inside 的思路。
2020年 · HENGSHI SENSE 3.0|企业级一站式分析云
全面走向企业级平台
这个阶段衡石针对线上 SaaS 厂商和线下 KA 客群的技术生态,构建面向 Cloud 的云原生架构设计。结合 Kubernetes 的部署运维方式,通过现代化的容器技术支持多云环境,同时对混合部署和私有部署的客户保持了友好性。我们注意到越来越多的客户开始进入混合部署的阶段,云成为标准但不唯一的配备,现代化的企业需要在云和私有环境中游刃有余的进行管理和业务上线。
由于数据的来源更加多样化,越来越多的系统数据将被纳入分析师的视野,多源异构的数据整合和数据加工的需求更加普遍,我们在新版本中推出了可视化的数据准备功能,帮助业务分析人员往前一步,能够自助式的处理数据,也让 IT 人员的工作更轻松高效。
随着对数据的重视加强,很多企业客户开始成立单独的数据部门,数据的口径指标、统计维度都开始需要中心化的集中管理,个人使用的敏捷工具逐渐发展为企业级的数据平台,我们推出了数据集市的管理功能,能够集中管理指标体系,分配权限。
在数据时代,越来越多的软件或者 SaaS 服务都将转型为数据类相关服务,企业对数据型工具的需求进一步上升到 PaaS 层面,需要产品通过 REST API 对外输出服务能力,同时能够嵌入集成数据能力到各种业务场景,衡石的产品针对 embedded 的场景提供完整解决方案,帮助企业更敏捷的面对数据中台的场景,避免资源浪费的高风险项目投入。
第三阶段 2021 - 2022
可被集成,可适配多租户体系的分析云
2021年 · HENGSHI SENSE 3.3|可嵌入 SaaS 的分析云
专注面向软件厂商
每一个行业都有关键的业务运营指标,通常会被称为行业指标体系,传统 BI 结合中心化的数仓建设在当前完全不能适用或者显得笨拙是因为数据化的普及 —— 当有充足的数据原料,又能够实时获取数据时,指标体系的构建就可以敏捷迭代的按需进行,业务看板快速部署上线后能随着业务进展不断优化,形成良好的正反馈。
垂直领域的解决方案厂商开始纷纷拥抱云端,在云上构建业务逻辑来降低服务运维和实施成本,同时形成产品化的运营模式。直到现在,基于行业的指标体系才真正能够以 SaaS 服务作为迭代载体得以沉淀和积累,形成SaaS 形态的垂直领域的方案厂商将以最快速度构建行业标准服务体系,而这里面数据语言描述的业务指标是最不可或缺的部分,当专业的领域厂商可以快速装备企业级的数据分析能力时,业务价值将结合数据价值得到显著放大,进入客户运营的决策环节。数据分析,是所有 SaaS 业务价值的放大器。
我们希望 HENGSHI SENSE 可以无处不在,在行业精英们的专业头脑后,默默支撑且搞定关于数据工程的一切问题。这个边界决定了衡石产品的开放性和灵活性需要在广泛的合作中不断增强,让 HENGSHI SENSE 可以 inside 的进入到各种方案中。不管对客户还是合作伙伴,缜密获取的数据资产和富含经验的方法论知识,可以在平台上沉淀为体系、模板和应用。
2022年 · HENGSHI SENSE 4.2|业内首个专注赋能软件厂商的企业级 BI PaaS
Data Engine Friendly|让优秀的数据平台脱颖而出
百花齐放的底层数据引擎生态是大数据时代的产物,衡石构建的分析服务层承载着将算力充分下推发挥引擎优势的重任,因此我们高度关注在数据湖仓、高性能实时数仓、NoSQL 领域的最新进展,因为每一个优秀的数据引擎都在实现某种计算范式下的最优效率。
API 作为未来云端标配的数据获取方式,也需要衡石在分析云的场景充分承担 data hub 的角色。在 4.1 的架构中我们设计好了 API 类型数据源的通用抽象层,从 4.2 开始,衡石开始批量的添加越来越多的API数据源。得益于国内蓬勃发展的 SaaS 产品生态和行业内对于数据采用越来越规范的健康成长,客户能够通过安全的 token 和合规的方式获取自己的数据,这个版本我们加入了对一些电商 ERP 厂商的支持,也加入了针对企业微信、石墨文档等适配连接的能力。更加丰富的企业 SaaS 应用对应着更加丰富的数据环境,这对分析的普及是极大助推。
We don't sell Photoshop here | 过度追求功能性会伤害体验
数据分析将从专业工作逐渐普及为基本工作,在衡石和众多 SaaS 伙伴形成的合作生态里,分析发生在明确的场景中和标准的数据接口内,这极大降低了分析的实施成本和门槛,这样的场景化嵌入式分析,能够真正让业务运营人员轻松的掌握,并且直接反映到业务的流程中。
基于这样的趋势判断,分析将更加倾向运营类型的渐进迭代工作,而不再是低频的汇报和展示类工作。因此,大屏、可视化设计的功能性需要克制和保守,而指标运营能力、模型的能力需要大大加强。对于交互式探索来说,易用性则是第一设计要素,不能够牺牲体验去追求功能性。在新版本中,加回了重力碰撞等经典交互方式,而不再单纯追求页面能够达到的设计高度,我们并不是在针对专业人士设计系统,这是对衡石广大受众的选择性判断决定的。
Collaboration is data culture|数据分析的协作本质上就是业务协作
开发数据分析的工具和做数据分析是完全不同的工作,这个差异大到近似于要求一个修建银行大厦的建筑工人必须要理解股票期货市场的交易原理。数据分析是一个完全业务层面的工作,甚至可以理解为这和技术或者功能层面没有任何关系,数据分析代表了企业的业务在量化层面如何诠释,以此还原真实的业务状况。作为提供分析工具的厂商,我们的任务只是让这个过程的成本足够低,但完成分析动作的是那些真正的业务专家。
基于数据的协作是这个版本里我们继续增强的重要类目,也将一直是衡石从 Day 1 开始坚持的重点。数据是业务的语言或者说数据就是业务,语言是为了团队的协作而生。基于数据的协作其实就是在更加精确的层面上进行业务协作,所谓的数据文化不仅是数字表格和汇报看板,更是基于数据的敏捷迭代和快速响应,我们鼓励企业客户建立清晰的指标视图,并基于此开展业务协作。
第四阶段 2023 - 2024
搭载指标 + AI,衡石 BI 走向主流市场
2023年 · HENGSHI SENSE 5.1|智能化的现代 BI 平台
AI Matters
在数十年来的 BI 创新历程中,永远的目标是“面向业务”,绕不过去的卡点则是专业性太高难以普及。这里指的“难以普及”,可以简单归结在业务人员看报表的这一关键时刻。当一个业务人员面对报表的静态展示提出相关性问题时,通常要依赖分析师的具体动作比如重新进行报表或者数据口径调整/补充,更糟糕的是,在现代的数据处理架构下,分析师的动作很可能还进一步依赖数据工程师的加工处理工作,这让专业的业务人员开展敏捷即时的发现探索被捆住手脚,无法保持沉浸的思路和体验。
鉴于这个问题是整个数据分析领域最后一公里普及的关键问题,衡石打算通过 AI 专注解决这里的关键卡点,我们在 5.1 版本中提供了报表查看状态下的一个触发动作 —— “去分析”。通过这个入口,释放 AI 的智能化威力,提供给业务人员一个智能助手的对话交流探索区,通过对话方式来即时返回各种概括提炼、相关性提问、细节下钻追问、切换维度对比等洞见,我们希望通过这样的 AI Copilot,真正在 BI 工作中高效产出业务 Insight,更多赋能业务专家,同时也进一步解放数据工程师的宝贵时间。
值得一提的是,我们的方案里充分考虑到了数据分析师的工作定位,他们将通过 BI 的建模和指标体系构建来提前为业务人员的灵活探索扫清障碍,为大模型的横冲直撞提供安全场地,同时有效把控数据权限等管理问题。毕竟建模能力是 BI 的本质,都2024年了,不会还有人以为 BI 就是可视化大屏吧 lol!
Metrics Matters 指标体系管理是 BI 分析的方向,也是 AI 落地的金钥匙。
在和客户进一步深入的合作中,我们发现真正的行业洞见和专业的业务 know-how,是很难用数据或者报表来表达的,数据是跟着系统走的,而报表跟着业务场景走,都是高度灵活和非标准化,很难沉淀复用。
业务指标是在描述一个关键 KPI 的计算口径,这里能够体现出业务真正的计算逻辑,也能提供一层统一的商业语言,降低组织内的沟通熵增。由于这里需要精确的定义和中心化的管理,对指标功能的关注和对指标体系的统一管理,几乎已经成为现代化 BI 工具不可或缺的功能。
更重要的是,对于 AI 出色的语义理解和通识模型来说,这些毛细血管一样深入到各行各业的专业口径、黑话和逻辑关联,是在商业分析场景进行人工智能形态问答的必要补充。我们已经验证,通过 BI 关联建模和指标体系构建,可以有效的收拢大模型的幻觉,让 AI 真正能够以可被接受的准确率跟业务人员交流,并且提供追溯的手段和校准修正的入口。这些必要的功能都是在严肃商业场合必备的。有很多的关于 ChatBI 的尝试,试图让数据集中后直接经过大模型来进行查询,从我们探索实践看来,这非常难交付到实际场景中。对于确实存在且刚性需求的 AI 智能运营问答场景来说,BI 建模和指标体系构建过程,是绕不开的关键环节,而 BI 分析平台在 AI 时代会更加的平台化下沉,成为必备的基础能力,这就是 BI PaaS 真正的含义。
2024年 · HENGSHI SENSE 5.3|搭载 AI 和指标能力的新一代企业级 BI PaaS
工具进化——从可视化报表到分析平台的演进
BI 工具的落地需要直面业务逻辑,来获得分析上的灵活性,而不是都在数仓层面进行传统 IT 主导的预先计算。因此 BI 工具要应对更高级的要求,支持更加复杂的数据模型构建,更加分层的数据管理协同,更加精细化的角色协同分工。
衡石在这个版本中继续增强建模能力,支持客户能够在平台内开展更多复杂的分析动作和协同范式,减少在数仓中的重复数据加工和预处理,在方法论上还是在继续响应 ELT 的行业诉求,让分析的环节足够后置贴近业务。
AI 初步落地—— AI 问数将成为 BI 的标准功能,加速 BI 进入主流市场
基于数据的精细化运营管理,是当今经济新常态后商业组织的共识。我们预计将出现更多的 AI+BI 的落地场景,会有更多的业务人员可以触及到商业分析。在 AI 落地上,技术方面还需要克服大量的工程问题,这不只是理论创新的问题,也是典型的重度投入的工程场景。
衡石在 BI 形态上推出的 AI 助手,主要面向业务的运营人员或者商业分析师。值得注意的是,我们发现最佳的使用范式并不是全自动化的,人的快速经验判断和机器智能的结合是最佳实践。从现在开始,商业分析师要掌握如何进行有效和明确的问答式对话,并习惯和 AI 协同来提升效率。
重心上移——基于指标的管理范式将成为 BI 工具自用的最佳实践
从 5.2 版本开始,衡石平台搭载的指标管理能力正式推向商业化,已经在多家伙伴落地。指标和 BI 分析能力相互配合,沉淀合作伙伴的行业 know-how,为规模化的复用打好了基础。我们欣喜地看到,商业分析师和 BI 工程师都将把指标构建作为工作的重要环节步骤,统一好指标统计口径更容易向业务端交付分析成果,那么报表和仪表盘才能真正得到推广。这是 BI 工作从专业化走向普及应用的必然趋势,毕竟业务指标才是在业务部门里通用的语言。
衡石将要推动的是商业智能从之前静态仪表盘和报表为核心展示形态,逐渐转为基于指标看板、指标集市、指标预警这样贴近业务思维的形态,带领 BI 行业走进更加实时,更加敏捷的新范式。毕竟,洞察秋毫发生在事后于事无补,问题就应该在出现的时候被及时捕捉。
2025年 · HENGSHI SENSE 6 is coming!
八年下来,衡石团队始终专注标准产品路线,HENGSHI SENSE 作为企业级 BI 平台,落地服务了华晨宝马、元气森林、蓝色光标、天弘基金、亚马逊云科技、阳狮集团等大型集团公司。同时也作为 BI PaaS 帮助合作伙伴在业务场景中零代码上线 built-in 的商业分析功能,和菲尼克斯电气、深信服、金蝶软件、致远互联、天润融通、宝尊电商、树根互联、纷享销客、六度人和、黑湖科技、明道云、特赞等超过两百家先进软件 SaaS 厂商落地深度合作。
创新永不止步!2025年我们即将推出 AI 增强的新一代分析平台产品 HENGSHI SENSE 6,发掘新的数据智能场景的,让更智能化的商业分析即刻上线!
本文作者刘诚忠:衡⽯科技创始⼈& CEO。2008年毕业于北航计算机系,拥有多年⾼科技企业⼯作经验,历任 VMware Core Networking 组⾼级⼯程师、秒针⼤数据研发经理、明略科技创始合伙⼈,是国内最早⼀批⼤数据分析的创新实践者。2016 年创⽴衡⽯科技,专注企业级 BI 领域。
电话咨询:15810120570
公司邮箱:hi@hengshi.com
北京市海淀区西小口路66号中关村东升科技园B-2楼A301室
上海市黄浦区延安东路550号海洋大厦29楼2903室
广东省深圳市光明区光源五路宝新科技园4栋707号
扫码关注