新闻资讯
洞察行业前沿,时刻保持探索精神,保持 HENGSHI SENSE 产品的优越性,
更多衡石精彩不容错过

免费试用

全部

精选案例

最新活动

衡石动态

直播回顾|从ELT到基于指标的自助分析
作者:HENGSHI 时间:2023-03-24

导读
近期,HENGSHI SENSE 4.3线上分享会顺利举办,衡石科技华东商务总监陈波及衡石科技首席数据科学家陈家耀围绕BI PaaS的核心能力、生态合作理念及4.3版本重磅发布的几大重要功能进行了深度分享和演示。上期推文我们回顾了衡石华东商务总监陈波分享的《BI PaaS赋能生态》,本期推文一起来看看衡石首席数据科学家陈家耀带来的《从ELT到基于指标的自助分析》。

数据分析理想和现实之间的鸿沟

我们先来看一个分渠道退货率分析的例子:

直播回顾|从ELT到基于指标的自助分析(图1)

理想的分析系统非常简单:用户只需通过类似语音小助手的对话框发出分析需求,系统就会根据这个指令自动将相应的图表结果呈现出来。而实际的分析过程是:分析师首先需要将退货率指标拆分成退货率 = 退货数/销量;然后需要了解到退货数据和销量数据分别存储在哪些数据表中,当无法判断这些数据存在于哪些数据表中时,甚至需要通过各种沟通拿到底层数据和Schema信息;最后通过写SQL把这些数据查询出来。

这个例子体现出来的差别是什么?可能有同学会说是基于AI的对话式查询能力,最近ChatGPT大火也许还会放大了这种看法。但其实本质问题在于:业务分析人员,应该只需要关注业务概念和业务问题就可以进行分析,而不需要额外关心底层的数据组织。理想中的数据分析系统,应该是人人都可以成为分析师的普惠式分析系统,而实际分析场景中由于业务分析和底层的数据存储、数据组织没有做到完全的隔离,分析人员必须拥有一定的数据处理能力,需要掌握繁杂的数据地图来获取必要的信息,导致分析无法做到普惠化。

理想的系统,应该能屏蔽底层数据组织的细节,让分析师focus在业务问题上。基于AI的对话式查询,其实是这个理想的一种人性化解法。在向理想分析系统进化的过程中,最需要解决的问题就是如何降低业务人员的分析门槛,解决问题的关键就是要把业务概念和底层数据进行隔离。这其实也是近年来行业发展的一个主要方向。

Data Fabric和Analysis分离:从ETL到ELT

直播回顾|从ELT到基于指标的自助分析(图2)

数据编织和分析分离的第一个阶段,出现在分析范式从ETL向ELT转变的过程中。

ETL的三个动作中,E(Extract) 和 L(Load)都是数据处理的过程,只有T(Transform) 是把数据语言向业务语言翻译的过程,也是把底层数据向业务逻辑转变的过程。在ETL的流程中,分析和业务的处理是紧密耦合的,分析人员需要先完成数据处理、数据建模之后,再执行业务分析,面向的还是具体的数据表,需要有足够的技术素养才能理解和处理数据。

当ETL转向ELT后,在某种程度上使得数据编织和分析分离。ETL模式下,分析人员面向的是具体的物理表和数据列;ELT模式下,分析人员看到的是经过业务逻辑翻译之后的数据集和业务意义上的字段、度量,更易于理解。同时不再需要专业的数据技能再去处理L的过程,降低了分析的门槛,能够更友好、更灵活地使用数据。

Data Fabric和Analysis进一步分离:从ELT到指标中台

直播回顾|从ELT到基于指标的自助分析(图3)

ETL转向ELT之后,前端分析人员逐渐分化成了两类:一类是本身具有一定的数据建模能力、可以处理Transform过程的分析人员,他们可以非常灵活地完成自助分析;另外一类是业务人员,这类人群数量占比更大,他们没有数据建模的能力,只能看现成报表。因此,虽然ETL模式转向ELT之后降低了一部分门槛,但对于大部分没有分析建模能力的业务人员来说,仍然无法实现灵活地自助分析。于是最近一两年的趋势是,越来越多的伙伴开始做指标中台。

指标中台在ELT模式的基础上有两个方面的进化:

一方面,Transform中指标定义的过程将由统一的建模分析师来完成,实现了部分Transform过程的复用,提升了建模的效率,同时能够起到统一口径、避免数据混乱的作用。另一方面是在经过Transform之后形成的是一个指标库,在指标库里不再有数据集的差异,如上图所示,分析人员看到的是一个个指标、维度,都是经过规划定义的业务概念,比如收入、库存、产品、地区等,更加清晰易懂。指标中台进一步屏蔽了底层的数据存储和计算,降低了业务人员理解和使用数据的门槛。基于完全是业务语义的指标和维度,既可以方便地搭建各种报表,也可以灵活地进行各维度的交互式探索分析。

HENGSHI SENSE 4.3基于指标的自助分析

直播回顾|从ELT到基于指标的自助分析(图4)

基于以上的分析进化理念,衡石在4.3版本重点推出了基于指标的自助分析功能。这个功能主要由两个功能模块组成:一是在数据集市增加了业务指标库,专业的建模分析人员在数据集中构建业务指标,统一指标的计算口径;二是新增了自助分析模块,业务人员可以在自助分析的模块中基于前面预设的业务指标库来完成自助分析。自助分析模块中,只需要通过拖拉拽的方式,选择需要分析的指标和维度,就可以完成不同维度、多个关联指标之间的探索分析,大幅降低了BI使用门槛。

HENGSHI SENSE在4.2版本以及之前版本也有业务指标模块,但本质上有所差别:4.2以及之前版本的业务指标库更类似于指标控件或图表控件的概念,面向报表查询,用于制作仪表盘和应用时,用户可以便捷地拖拽使用或复用已做好的指标控件;4.3版本的业务指标库是指标中台意义上的指标,用于统一口径定义和管理分析维度,主要应用在自助分析的场景中。因此在4.3版本中,原有功能已更名为“图表库”,以作区别。

HENGSHI SENSE 4.3其它重点功能

直播回顾|从ELT到基于指标的自助分析(图5)

在4.3版本中,除了业务指标库和自助分析看板这两个重点功能之外,HENGSHI SENSE整个数据 Pipeline中都有不少重点功能升级:

新增数据报表功能:数据连接是整个分析的主要入口,之前数据是从现有的关系型数据库、非关系型数据库甚至是API数据源获取的。4.3版本新增了数据填报的功能,数据来源不再局限于已经处理好的数据库,也可以由业务人员日常上报。通过数据填报的功能,用户可以方便地收集到来自各个业务端的日常数据,最后汇总到统一的数据库中,再做进一步的关联分析。

重构任务调度方式:在数据流转过程中,计算任务之间是有相互的依赖关系的。比如数仓的报表计算,需要先计算底层的ODS表,才会触发下游的DWD表、上层的ADS表的计算。4.3版本重构了任务调度模块,允许用户在不同的数据计算任务间(包括数据集成、数据集更新和数据科学等)设置依赖关系,系统根据用户设定的依赖关系依次调度任务。4.3版本还提供了基于任务DAG的运维视图,可以减轻数据开发工程师日常任务运维的工作成本、提高运维效率。

内置湖仓增加Doris和StarRocks引擎:衡石之前集成GreenPlum作为内置湖仓,GreenPlum是一个非常成熟、稳定的产品,但在性能上与主流的 MPP数据库还存在一定的差距。4.3版本增加了Doris和StarRocks作为默认内置引擎,用户可以根据不同的数据场景选择合适的加速引擎。

支持MongoDB高级计算:在分析建模上,除了业务指标库,4.3版本还增加了对MongoDB高级计算的支持,数据可以通过更高效的方式来从MongoDB等NoSQL数据源进行查询和读取。

新增动态层级树形过滤器:在可视化中,除了新增基于指标的自助分析看板,4.3版本还增强了仪表盘制作过程中的过滤器功能,支持动态层级的树形过滤器,当数据结构的层级发生变化时,动态树会自动跟随结构层级变化。

新增JS SDK嵌入:4.3版本之前,衡石主要通过iframe对平台进行分层级嵌入,这种嵌入方式在需要嵌入多个iframe时可能会遭遇性能挑战,影响仪表盘展示效果。4.3版本推出JS SDK嵌入,可以更好地解决仪表盘和图表的嵌入性能问题,大大提升前端的加载和渲染速度。 


立即体验 HENGSHI SENSE
让商业分析触手可及

电话咨询:15810120570

公司邮箱:hi@hengshi.com

北京市海淀区西小口路66号中关村东升科技园B-2楼A301室

上海市黄浦区延安东路550号海洋大厦29楼2903室

广东省深圳市光明区光源五路宝新科技园4栋707号

扫码关注