数据分析平民化的挑战与应对

Article body

正文

5 分钟阅读

导读

近期，衡石成功举办了 HENGSHI SENSE 4.2 线上分享会，分享会上衡石 CEO 刘诚忠及衡石首席数据科学家陈家耀围绕整个数据分析产业的发展、行业趋势和衡石的创新进行深度探讨和分享。上期推文我们分享了衡石 CEO 刘诚忠带来的《Powered by BI PaaS - 让商业分析即刻上线》。

本期推文一起来看看衡石首席数据科学家陈家耀带来的《数据分析平民化的挑战与应对》分享。

传统数据分析流程

“数据分析平民化”一直是数据分析行业的共同愿景，可以说最近10年 BI 行业的小伙伴们都在为这个愿景努力，现在还在推进的过程中。为什么这件事情这么难，我们先看看传统的分析流程是怎么样的。

一次完整的数据分析，大体上依次经过数据接入、数据准备、数据展示三个环节，这三个环节在传统的流程里分别由开发工程师、分析师和业务人员三类角色承担。当新的数据分析需求产生时，几乎都是从最前端的业务侧发起，给到数据开发工程师，经过层层的需求沟通，最终进入开发、测试、上线环节。这个流程下来，平均一个数据报表的开发周期至少需要一周到三个月的时间。

可以看出，这是一套标准的软件开发流程，即使报表开发的周期相对较短，也是以周为单位的。但分析的本质是一种业务运营需求，每天都可能有新的业务问题需要分析，它的变化频率是以天为单位的。这就产生了流程中最大的矛盾点，业务侧一直在等数据，开发工程师疲于应付各种报表需求。但更让工程师痛苦的是，他们花两周、一个月时间做出来的报表，可能实际使用两个月不到的时间就有下线了，因为业务变化实在太快。

数据分析平民化趋势：

从 ETL 到 ELT

传统分析流程的瓶颈，在于我们的数据准备环节太重，无法应对前端频繁变化的分析需求。所以大家开始思考，是否有更敏捷的方式来完成数据准备呢？这就是近年来流行的ELT模式。

从上图中可以对比看到传统 ETL 流程和现代 ELT 流程的主要差别。

在传统的流程中， IT 人员负责的 scope 非常广，包括数据接入、数仓建模、开发报表，业务人员只是在高度凝练之后的报表层进行分析。而在现代流程中，工程师则只需负责数据接入，以及在数据湖或数仓中简单的清理和整合工作，之后的数据建模、数据准备等工作由业务人员自助完成。这样在整个分析流程里面，很多环节不再是一个需求方与开发方分离，需要牵扯大量跨部门沟通协作成本的过程。从而大大提升了分析的敏捷性和效率，某种程度上实现了分析的平民化。

既然 ELT 模式那么香，为什么在20年前大家普遍使用的是 ETL 模式呢？主要有两大限制。

首当其冲的是算力。在 ELT 模式中，大量计算是实时产生的，对计算的性能的要求很高。20年前的软硬件环境，大部分数据分析使用的还是面向业务处理的单机版 OLTP 数据库，查询1G的数据就可能需要1min 的时间；2010年之后，以 Hadoop 为代表的大数据发展，让我们有能力处理TB甚至PB级别的数据；近年来以 Clickhouse、Doris 为代表的高性能分析型数据库技术出现，以及如 SSD 硬盘等硬件升级，使得在亿级数据上的秒级查询变成可能。正是这些底层算力的提升，为从 ETL 向 ELT 的模式转变提供了基础。

第二个限制是专业门槛。数仓建模一直都是专业性很强的工作。在传统流程中，数据准备都是开发工程师用 SQL 建模的方式完成，这也导致绝大部分业务运营人员无法涉足这一环节。随着各个 BI 工具厂商纷纷推出了可视化拖拽的建模工具，大大降低了数据准备的门槛，也让业务人员能像传统开发工程师一样进行完成数据准备。

分析平民化遭遇的新挑战

及应对策略

虽然我们通过分析范式从 ETL 向 ELT 的转变，逐步实现了分析平民化。但同时也带来了新的挑战和问题。

挑战一：性能挑战

性能问题是当前分析范式转变之后的最大挑战。

首先，硬件算力的发展永远跟不上软件对性能的需求。更多的复杂计算逻辑和高级分析功能被应用，如诊断分析、预测性分析等，同时人们永远希望用最省的资源提供足够的分析能力。

其次，在新的模式下，为了满足分析的灵活性，人们进行更多的实时建模，更多的底层数据被直接查询。在 ETL 时代底层的明细数据被逐层聚合构建聚合表，大量计算在分析前被提前完成。而在 ELT 模式下，即使有可用的聚合表，业务人员也会倾向于直接使用 DWD 层明细表，因为这样他们能触达更多的分析维度，进行更灵活的数据探索。

最后是建模专业性上的差异。之前我们有一个专业的数仓团队帮大家背负各种性能问题，他们知道何时做索引、分区，何时该落地预计算。而现在，虽然可视化工具让业务人员能自由建模，但在模型优化和性能瓶颈等方面，他们常常无力又无心（性能优化上的很多必要措施往往是业务逻辑上的冗余步骤，业务人员缺少相关优化意识）

应对一：升级基础硬件和算力、借助智能数据准备与建模

性能问题如何解决呢？一般两条出路。一条路是提升基础算力或加资源，这是最朴素而有效的解决方法。关键点是怎样高效地加资源。使用云数仓其中一个提效路径，基于云数仓的弹性伸缩能力，根据实际计算需求变化，波峰时快速扩容提升性能，波谷时方便地释放资源节约成本。另一条路是智能数据建模，通过智能化的建模工具，弥补业务人员和工程师之间的专业差距。

上图是我们总结的数据准备与建模方式的发展阶段。第一阶段主要是由数据开发工程师通过手写 SQL 的方式构建数仓，性能好，但灵活性差。第二个阶段是可视化建模，主要使用者是业务分析师，门槛更低，但模型专业性不如之前。第三阶段是增强数据建模，业务分析师借助 BI 平台提供的智能辅助工具，慢慢能够像专业IT一样构建出优良的数据模型和数据仓库。第四阶段是AI 智能建模，我们憧憬在未来业务人员只需要表达业务逻辑和需求，平台会自动完成背后的各种数据准备和查询优化。

这四个阶段其实是数据准备平民化的历程，跟自动驾驶领域的驾驶平民化发展历程非常相似。第一阶段和第二阶段对应汽车的手动档和自动档阶段；第三阶段更多的人工智能元素开始加入，类似于 L2 级别的辅助自动驾驶；第四阶段则相当于未来需要实现的 L4 级别的完全自动驾驶。通过智能化，消除专业门槛，释放人力。

第四阶段是我们美好的期望，但目前看距离落地实现还需要较长的时间，一方面分析自动化的复杂度完全不亚于自动驾驶，另一方面分析场景和分析数据的私密性，将导致训练数据的获取难度比自动驾驶要高很多。因此，预计在很长一段时间内，我们都将一直处于第三阶段，在这个阶段由分析人员和 BI 平台共同配合来完成对开发工程师的补位，这就要求一方面BI平台不断提供更友好的智能辅助建模工具，另一方面分析师需要提升优化意识，掌握这些智能工具的使用。

挑战二：管理挑战

除了性能问题，分析平民化的另一大挑战是管理上的挑战。ELT 模式赋予了分析师更多的自由和灵活度，但自由和规范性一直是一对矛盾体，所以分析师拥有更多自由的同时无可避免的也会引入一些混乱。

上图是一个分析普及后数据误用的真实案例：某公司产品团队上线了一个新产品，在 AB 测试期间发现该产品对收入的贡献非常好，向老板建议尽快发布，但是运营团队周报却提到最近两周运营数据下降剧烈，老板无法决策，只好让分析师花了两周的时间排查原因，发现运营团队分析时一个收入指标口径有问题。此时已经了导致该产品的发布延期。

在传统 ETL 模式下，口径的统一是在数仓团队内部完成，在放开底层数据后，口径的统一就变成了一个跨部门，甚至跨公司的事情，为数据管理带来了巨大的挑战。

从近几年数据治理概念的兴起也能发现，近年提数据治理的，很多都是从互联网公司开始。其中一个很重要的原因，他们大部分在内部落实了 ELT 模式，某种程度上实现了分析自由，所以也逐渐暴露了由此导致的口径混乱、数据打架等问题。

应对二：统一指标管理

对于数据口径混乱的问题如何解决？还是需要有一个地方对指标和口径进行统一管理，所有重要的指标，都要经过计算逻辑的统一定义和发布，才能被用于分析和汇报。这其实也是很多指标中台伙伴的产品思路。

由于统一管理指标后，指标库成为了绝大部分分析的基础和前提，为了避免回退到类似ETL模式的分析困境，指标库的管理、运维工作应该足够轻量。只有足够轻量，这个环节才能足够敏捷，不会成为分析流程中的新瓶颈点。而实现指标库轻量性的一个关键的点，在于业务与数据的分离。通过业务与数据的分离，定义业务指标时只需处理业务的逻辑概念即可，无需关心这些概念与底层数据表里具体计算代码的映射和转换。

HENGSHI SENSE 4.2新特性

衡石作为一家专注于赋能全行业的 SaaS / ISV 敏捷构建数据分析和 BI 能力的标准化软件产品厂商，在近期发布的 HENGSHI SENSE 4.2新版本中，针对于前面探讨的问题也做出了更多的优化和提升：

赋能数据科学家：HENGSHI SENSE 数据科学模块支持 Python,为数据科学家提供更好的语言来应对复杂的机器学习和高级分析需求。

更强大的数据源适配能力：HENGSHI SENSE 提供更强大的数据源适配能力帮助客户接入更多的数据。如支持原生 MangoDB，避免用户再从 MangoDB 往传统关系型数据库搬运数据，提升接入数据的效率；在 API 上对接了旺店通、石墨文档和企业微信，后续这些接口来源的数据可以便捷地接入 HENGSHI SENSE 与其他数据做关联分析。

HQL 升级：HENGSHI SENSE 很早就通过自定义的 HQL 语言实现了业务和数据分离，在4.2新版本中又对 HQL 进行了升级，支持用户自定义 UDF 并扩展了 HQL 的函数体系。

可视化增强：HENGSHI SENSE 通过在布局中提供重力模式，在容器的编辑的时候，提供了编辑和分屏展示的模式，帮助分析师更加高效地去制作和编辑仪表盘。

管理与协作：分析是一个非常重管理和协作的工作，4.2新版本中新增了数据权限模式适配、跨应用复制数据集等功能，优化大规模的团队协作。

企业级 BIEnterprise BI PaaS

指标管理Metrics Management

数据集成Data Integration

企业级报表Enterprise Report

HENGSHI CLI面向 AI Agent 的 BI 命令行

HENGSHI JARVISAI Agent 运营基座

HENGSHI BOX 全域智控舱

AI 分析智能体AI Agent for BI & Analytics

WhaleOps

云器

Denodo x 智谱 AI

明道云

深信服

帮助手册

API 文档

课堂中心

白皮书

技术博客

企业文化

新闻资讯

正文

立即体验 HENGSHI SENSE