新闻资讯
洞察行业前沿,时刻保持探索精神,保持 HENGSHI SENSE 产品的优越性,
更多衡石精彩不容错过

免费试用

全部

精选案例

最新活动

衡石动态

衡石数据全旅程之数据准备
作者:HENGSHI 时间:2021-12-27
数据分析是不断探索数据背后的规律进而得出业务洞察的过程,在进行分析前分析师需先将原始数据转换为面向分析、有业务语义的数据。

数据准备的产出既可应用于各种数据分析工作,也能作为数据集应用于各种场景化数据产品,具体来说数据准备将原始数据转化为:准确、一致、清晰,并且有一定业务含义的数据,是数据和业务之间的桥梁和纽带,也是一个不断迭代、改进、优化的过程。

最新行业报告显示,数据分析师超过60%的时间都花在数据准备中的:数据清洗和数据整理上,真正用来探索数据,获取业务洞察的时间反而有限,工作效率急需提高。


HENGSHI SENSE 数据准备

HENGSHI SENSE 基于湖仓一体的架构,将 ETL 的经典数仓加工范式改为 ELT 的更加敏捷的数据准备过程,结合 HQL 的语义层能力,将 Transform 的环节虚拟化实现,得到更加敏捷的数据处理管道,其高性能且灵活的  ELT 工作流加之自身业务侧和技术侧的优势,能让客户在数据准备上的工作变的更高效。


准备.webp.jpg


在 HENGSHI SENSE 的协同式数据准备中,分为两大版块:数据集成和数据科学,下面将围绕两大板块进行详细解读。



协同.webp.jpg


数据集成

当多源数据连接状态显示成功后,数据集成提供 ELT 这里会对不同来源的数据进行抽取、过滤、转换格式、添加计算列、关联、合并、聚合等处理,再输出到用户指定的数据源中,供后续探索分析用。


衡石数据全旅程之数据准备(图3)


新建数据集成项目后,后台提供 Greenplum、PostgreSQL、Amazon Redshift、Mysql 四种数据源作为输出路径。


衡石数据全旅程之数据准备(图4)


有本地文件、数据连接、数据集市三种类型输出节点。


衡石数据全旅程之数据准备(图5)


其中本地文件:支持上传 csv、excel 两种格式

数据连接:分为内置数据连接和用户数据连接两大类

数据集市:可将数据集的成果导出到输出源中,方便客户探索使用

整个项目按照:提取数据->加载前 SQL->验证 Schema->表操作->更新方法->加载后 SQL 的顺序执行,以上任意步骤失败会导致整个项目的作业失败并停止,以确保得到的数据精确、严谨。


数据集成界面的交互方式中的节点,支持灵活拖动、自由布局,让用户使用更方便、直观。

改版后:  

  • 节点定义统一放在左边,方便后续功能扩展

  • 节点类型不同,颜色、图标也不同,用户不易混淆

  • 画布支持自适应缩放


新增的批量同步功能可快速地把大量业务表同步到 HENGSHI 数据湖。

支持设置各种场景下同步策略,包括:表提取方式、全量提取建表策略、字段变化处理策略、后续新增表的同步策略,可同时执行多个数据任务来完成数据同步工作,支持定时、实时同步数据。


衡石数据全旅程之数据准备(图6)

数据科学

数据科学与数据集成在系统内为同级,其中自助式的“数据集成”面向业务人员,“数据科学”能满足客户执行 SQL 的需求。

下述为数据科学的工作流:
1: 管理员创建数据科学家用户,赋予数据管理角色
2: 数据科学家用户登陆,创建笔记
3: 设置笔记能用的连接,并授权使用
4: 数据科学家用户进入笔记,添加 SQL 类型的段落,并设置好执行的目标连接,然后写好 SQL 语句,运行段落
5: 数据科学家用户设定笔记的执行计划
数据科学中有很多个“笔记”(Notebook),每个“笔记”相互独立,每个“笔记”包含多个“段落”(Paragraph),每个“笔记”支持:
  • 增删改查

  • 重命名

  • 全部执行/全部停止

  • 设置执行计划,由 Scheduler 统一调度

  • 用户设定选择整个“笔记”为一个事务,还是一个“段落”作为一个事务

  • 用户设定“笔记”可用的连接列表,当前用户可添加的连接必须是拥有 RW 权限的连接


笔记的状态为:创建、删除、编辑。


衡石数据全旅程之数据准备(图7)


段落的状态为:新建、上传文件新建、设置、打开、删除。


衡石数据全旅程之数据准备(图8)


运行环境设置的状态为:添加、授权、取消授权、删除、运行时设置。


衡石数据全旅程之数据准备(图9)


执行的状态为:测试、提交、结果预览、日志、全部、计划。


衡石数据全旅程之数据准备(图10)


任务管理的状态为:执行计划、执行队列。


衡石数据全旅程之数据准备(图11)

数据准备作为大数据应用的基石,任何行业的数据分析都必须在数据准备这做足功夫,才能让数据模型、数据应用的价值得到更好体现,也是衡石持久攻坚的板块。



相关资讯
热门标签
衡石科技 衡石BI BI ChatBI BI数据分析 BI PaaS平台 BI工具 AI+BI 企业级BI 嵌入式BI HENGSHI SENSE AI BI平台 ISV/SAAS 厂商 BI PaaS 指标平台 AI Copilot Agentic BI BI Agent HENGSHI SENSE 6.0 ChatBI解决方案 BI系统 对话式BI 传统BI 指标中台 指标管理 一站式BI分析平台 deepseek BI可视化 Chat2Metrics 零代码BI BI报表 数据中台 可视化报表 Deep Seek 多租户 交互式BI Data Agent BI软件 NL2SQL 嵌入式分析 AI Agent BI解决方案 大数据模型BI AI数据 生态伙伴 OA crm 语义层 NL2DSL 衡石ChatBot ChatBot 智能问数 Gen AI 生成式BI HQL React SDK 自助式BI 问答式BI 爱分析 SDK
立即体验 HENGSHI SENSE
让商业分析触手可及

电话咨询:15810120570

公司邮箱:hi@hengshi.com

北京市海淀区西小口路66号中关村东升科技园B-2楼D201室

上海市黄浦区延安东路550号海洋大厦29楼2903室

广东省深圳市光明区光源五路宝新科技园4栋707号

扫码关注