HENGSHI SENSE

ChatBI

产品伙伴

资源中心

关于我们

新闻资讯

洞察行业前沿，时刻保持探索精神，保持 HENGSHI SENSE 产品的优越性，
更多衡石精彩不容错过

衡石数据全旅程之数据准备

作者：HENGSHI 时间：2021-12-27

数据分析是不断探索数据背后的规律进而得出业务洞察的过程，在进行分析前分析师需先将原始数据转换为面向分析、有业务语义的数据。

数据准备的产出既可应用于各种数据分析工作，也能作为数据集应用于各种场景化数据产品，具体来说数据准备将原始数据转化为：准确、一致、清晰，并且有一定业务含义的数据，是数据和业务之间的桥梁和纽带，也是一个不断迭代、改进、优化的过程。

最新行业报告显示，数据分析师超过60%的时间都花在数据准备中的：数据清洗和数据整理上，真正用来探索数据，获取业务洞察的时间反而有限，工作效率急需提高。

HENGSHI SENSE 数据准备

HENGSHI SENSE 基于湖仓一体的架构，将 ETL 的经典数仓加工范式改为 ELT 的更加敏捷的数据准备过程，结合 HQL 的语义层能力，将 Transform 的环节虚拟化实现，得到更加敏捷的数据处理管道，其高性能且灵活的 ELT 工作流加之自身业务侧和技术侧的优势，能让客户在数据准备上的工作变的更高效。

准备.webp.jpg

在 HENGSHI SENSE 的协同式数据准备中，分为两大版块：数据集成和数据科学，下面将围绕两大板块进行详细解读。

协同.webp.jpg

数据集成

当多源数据连接状态显示成功后，数据集成提供 ELT 这里会对不同来源的数据进行抽取、过滤、转换格式、添加计算列、关联、合并、聚合等处理，再输出到用户指定的数据源中，供后续探索分析用。

衡石数据全旅程之数据准备(图3)

新建数据集成项目后，后台提供 Greenplum、PostgreSQL、Amazon Redshift、Mysql 四种数据源作为输出路径。

衡石数据全旅程之数据准备(图4)

有本地文件、数据连接、数据集市三种类型输出节点。

衡石数据全旅程之数据准备(图5)

其中本地文件：支持上传 csv、excel 两种格式

数据连接：分为内置数据连接和用户数据连接两大类

数据集市：可将数据集的成果导出到输出源中，方便客户探索使用

整个项目按照：提取数据->加载前 SQL->验证 Schema->表操作->更新方法->加载后 SQL 的顺序执行，以上任意步骤失败会导致整个项目的作业失败并停止，以确保得到的数据精确、严谨。

数据集成界面的交互方式中的节点，支持灵活拖动、自由布局，让用户使用更方便、直观。

改版后：

节点定义统一放在左边，方便后续功能扩展
节点类型不同，颜色、图标也不同，用户不易混淆
画布支持自适应缩放

新增的批量同步功能可快速地把大量业务表同步到 HENGSHI 数据湖。

支持设置各种场景下同步策略，包括：表提取方式、全量提取建表策略、字段变化处理策略、后续新增表的同步策略，可同时执行多个数据任务来完成数据同步工作，支持定时、实时同步数据。

衡石数据全旅程之数据准备(图6)

数据科学

数据科学与数据集成在系统内为同级，其中自助式的“数据集成”面向业务人员，“数据科学”能满足客户执行 SQL 的需求。

下述为数据科学的工作流：

1: 管理员创建数据科学家用户，赋予数据管理角色

2: 数据科学家用户登陆，创建笔记

3: 设置笔记能用的连接，并授权使用

4: 数据科学家用户进入笔记，添加 SQL 类型的段落，并设置好执行的目标连接，然后写好 SQL 语句，运行段落

5: 数据科学家用户设定笔记的执行计划

数据科学中有很多个“笔记”（Notebook），每个“笔记”相互独立，每个“笔记”包含多个“段落”（Paragraph），每个“笔记”支持:

增删改查
重命名
全部执行/全部停止
设置执行计划，由 Scheduler 统一调度
用户设定选择整个“笔记”为一个事务，还是一个“段落”作为一个事务
用户设定“笔记”可用的连接列表，当前用户可添加的连接必须是拥有 RW 权限的连接

笔记的状态为：创建、删除、编辑。

衡石数据全旅程之数据准备(图7)

段落的状态为：新建、上传文件新建、设置、打开、删除。

衡石数据全旅程之数据准备(图8)

运行环境设置的状态为：添加、授权、取消授权、删除、运行时设置。

衡石数据全旅程之数据准备(图9)

执行的状态为：测试、提交、结果预览、日志、全部、计划。

衡石数据全旅程之数据准备(图10)

任务管理的状态为：执行计划、执行队列。

衡石数据全旅程之数据准备(图11)

数据准备作为大数据应用的基石，任何行业的数据分析都必须在数据准备这做足功夫，才能让数据模型、数据应用的价值得到更好体现，也是衡石持久攻坚的板块。

返回列表

相关资讯

衡石科技斩获2025爱分析 AI Agent 最佳实践案例

衡石科技荣登福布斯中国投资价值初创企业100强，以数据智能领航未来

DeepSeek与衡石BI的300天，从0℃到沸点的数据智能长跑

HENGSHI SENSE 5.4 发布，ChatBI 成熟度进一步提升

WIM 2024创新者年会｜衡石荣获「2024中国数据要素服务商TOP20」与「2024数据智能服务商TOP30」双项殊荣

HENGSHI SENSE 5.3 发布，搭载 AI 和指标能力的新一代企业级 BI PaaS

衡石科技荣耀入围《2024中国数据智能产业图谱2.0版》

衡石科技再次入选 Gartner《2024年中国数据、分析及人工智能技术成熟度曲线》报告

HENGSHI SENSE 5.0 发布，开创性定义智能化的现代 BI 平台

热门标签

衡石科技衡石BI BI ChatBI BI数据分析 BI PaaS平台 BI工具 AI+BI 嵌入式BI HENGSHI SENSE 企业级BI BI平台 AI ISV/SAAS 厂商 BI PaaS 指标平台 AI Copilot ChatBI解决方案 BI系统传统BI 对话式BI 指标中台指标管理一站式BI分析平台 deepseek HENGSHI SENSE 6.0 BI Agent BI可视化 BI报表数据中台 Agentic BI 零代码BI 可视化报表 Deep Seek 交互式BI BI软件 Chat2Metrics 多租户嵌入式分析大数据模型BI AI数据 NL2DSL OA crm BI解决方案衡石ChatBot NL2SQL ChatBot 生态伙伴 HQL Gen AI 生成式BI 自助式BI 爱分析

立即体验 HENGSHI SENSE

让商业分析触手可及

HENGSHI SENSE

资源中心

关于我们

电话咨询：15810120570

公司邮箱：hi@hengshi.com

北京市海淀区西小口路66号中关村东升科技园B-2楼D201室

上海市黄浦区延安东路550号海洋大厦29楼2903室

广东省深圳市光明区光源五路宝新科技园4栋707号

用户热搜：

企业级BI 嵌入式BI 指标平台 AI+BI AI Copilot ChatBI

热门标签：

衡石科技衡石BI BI ChatBI BI数据分析 BI PaaS平台

扫码关注

京ICP备17050711号公安部备案号:11010802033957