大庄家线路|首页官网

大庄家线路主页 > 应用案例 >

什么是数据血缘?快来了解下

2019-08-06 22:34

  此刻假设你是一名数据开辟工程师,为了餍足某个营业需求,必要天生最终表 X。

  因而,对付数据的血缘关系,咱们要确保每个关键都要留意数据品质的检测和处置,那么咱们后续数据才会有优秀的基因,即有很高的数据品质。

  Table J ,是别人处置过的成果表,由于本着不反复开辟的准绳,你很可能要用到同事小伙伴处置的表

  那么A表是C表数据最后的来历,是C表数据的先人。从A表数据到B表数据再到C表数据,这条链路就是C表的数据血缘。

  凡是咱们会对原始数据进行多个步调的各类加工,最初发生出新的数据,在这个历程中会发生良多表,这些数据表之间的链路关系就可称为大数据血缘。

  再烦琐两句,实在数据血缘并不难,只是观点比力高峻上罢了,现实咱们测试的时候跟通俗的 sql 操作差未几,只是用到的语法是 hive、sqoop、pig 等组件相对应的语法,不是常见的 sql 语法罢了。

  在数据消息时代,时时刻刻城市发生复杂的数据,即咱们凡是说的大数据,对这些数据进行各类加工组合、转换,又会发生新的数据,这些数据之间就具有着自然的接洽,咱们把这些接洽称为数据血缘关系。

  黄色的 Table F-I ,是你计较出来的两头表,这些都是你本人写法式要处置的表

  过了一段时间后,营业侧的感受你供给的数据中有个字段老是不太满意,实在就是思疑你的数据出问题!必要你来追踪一下这个字段的来历。

  起首你从 Table X 中找到了非常的字段,然后定位到了它来历于 Table I,再从 Table I 定位到了它来历于 Table G, 再从 Table G 追溯到了 Table D,最终发觉是某几天的来历数据有非常。或者说,你从 Table X 定位到了非常的字段本来来自于其它小伙伴处置的表 Table J,然后继续向前回溯,找到了这张表在处置历程中的某一个步呈现了问题。

  直白点说,数据血缘就是指数据发生的链路关系,就是这个数据是怎样来的,颠着末哪些历程和阶段。

  可能是出于法式逻辑清楚或者机能优化的思量,你为了天生这张表,通过 MR、Spark 或者 Hive 来天生良多两头表。

  在事实世界中,咱们每个个别都是先人通过生育关系一代代孕育而来,如许就构成了咱们人类的各类血缘关系。

  在数据的处置历程中,从数据泉源到最终的数据天生,每个关键都可能会导致咱们呈现数据品质的问题。好比咱们数据源自身数据品质不高,在后续的处置关键中若是没有进行数据品质的检测和处置,那么这个数据消息最终流转到咱们的方针表,它的数据品质也是不高的。也有可能在某个关键的数据处置中,咱们对数据进行了一些不得当的处置,导致后续关键的数据质质变得蹩脚。

  好比在淘宝网中,客户在淘宝网页中采办物品后,数据就被存到后台数据库表A中。咱们但愿查看某个月卖的最火的是哪些物品时,就必要对数据库中的原始数据进行加工汇总,构成一张两头表B来存储阶段处置的数据,若逻辑较庞大时,还要继续加工继续构成两头表。。。直到最初处置成咱们前台展示利用的最终表,假设为C表。

0755-83999429

广东省深圳市龙华新区大浪街道华辉路百富利工业园A栋

Copyright ©2015-2019 大庄家线路,大庄家线路 版权所有 粤ICP备14038133号-2  网站地图  

大庄家线路 大庄家线路 大庄家线路