如何进行数据质量管理(数据质量管理有哪些方法)

今天我们主要从更偏技术的角度来探讨数据质量的问题,主要有4个方面。

第一个方面是与数据质量相关的概念。

第二个方面是谈谈我们对于数据质量的新认知,既然是谈数据质量我们就需要先认知一下什么叫数据质量。

第三个方面是重点谈一下我们在做数据质量管理中的一些难点,其中会重点关注一下数据质量的审查,因为审查会直接与我们的这个数据质量的评判有直接关联。

最后我会用一个例子来看一看企业进行数据质量管理的一些过程,希望能跟各位讨论一下在谈数据质量管理的时候,我们应该从哪方面去着眼。

01与数据质量管理的相关概念

第一个方面我们来看看相关的知识,也就是与数据质量管理相关的概念。

首先我们看这个DAMA 的DMBOOK,这个图是我们典型的DMBOOK宣传的9大板块,其中有一个很重要的板块叫data quality的管理。在这张图中有关的数据质量的这一块中我们挑了4个点来讲,我把它们总结为“固本清源”,表达了我的一个理解。首先是讲定义,有些翻译成规范,就是说在讲数据质量管理的时候,我们的定义是什么样子的?第二个关注点是分析,就是说我们讲数据质量肯定离不开数据,要去分析它的脉络、分析它的关系。第三个是它的度量,其实也就是评估,在谈这个评估的情况下,肯定是要有一个标准,而且还有一套方法才能进行度量。第四个就是improvement,这里强调的是管理的闭环。从数据质量管理的角度,我想我们要关注“固本清源”,首先要从“本”来去了解数据的这些问题。

如何进行数据质量管理(数据质量管理有哪些方法)

我们还有另外一个角度,这个是来自业界的一些实践。我这里挑了一个,就是说谈到data quality我们关注数据的什么呢?首先是这个轮廓,其实跟DAMA DMBOOK里面提到的“分析”是比较相同的,但是出发点是不一样的。这里面更强调的是我们整个数据的属性,是不同的角度。第二个我们谈数据的清洗,做清洗就离不开规则,其实清洗的本质是规则,而不是清洗的动作。第三个我们谈监控、监管,我们要有监控的能力和监管的能力,就是说我们怎么识别它是有问题的,甚至是需要我们关注的。第四个就是遵从跟合规的问题。最后一个是可追溯,这个其实跟我们刚才的DAMA DMBOOK的里面是有同样的角度了,之前是叫做分析溯源,在这里面就是可追溯性。

如何进行数据质量管理(数据质量管理有哪些方法)

还有一个角度是来自技术界的角度,就是说我们站在技术的角度,我们怎么理解这个数据质量管理。在业界里面我们在谈技术的时候、我们在谈这个数据质量管理的时候,我们是有什么角度呢?在这个红框里面大家可以看到,首先就是说我们要具备这样的能力去做数据质量管理,就算你用这个好的数据质量管理工具,也应该有这个能力。另外一个就是离不开ETL了,ETL我们认为是数据集成。那还有清洗,刚才我们也提到了清洗的能力是怎么样,包括它的匹配能力,在我们数据质量管理里面有很多是离不开匹配的,比如说怎么去发现唯一性的问题。这些都是我们讲到的,包括一些技术上的推荐、包括规则的发现、包括我们数据补充完善的一些问题等等。这是从技术界的角度来看数据质量管理。

如何进行数据质量管理(数据质量管理有哪些方法)

除了通过三个角度看它的不同聚焦的一些概念之外,这里还有一张图,是一个示例。我们数据质量管理的维度在哪里?这张图比较好的表达了一个流程人员跟技术。作为一个数据质量管理来讲,其实我们是离不开这几个维度去做工作。大家在讨论的时候,不同的等级会讨论不同的问题,比如说流程更偏管理、更偏我们的战略、更偏我们的这种方法。People这一块呢我们可能更讲我们的组织架构,更讲我们的这个人员的界定,更讲我们的名单,讲我们的收益。

02数据质量的新认知

第二部分我们想看一看数据质量的认知是什么。

我想通过一个例子,大家可以看一下这个场景。这个场景是太经常碰到的情况,就是说我们在业务IT里面,大家可能不一定意识到它是一个数据质量的问题。我举个例子,这里面提到人员信息整合,怎么实现我们的员工渠道,包括IT外包人员信息的整合服务,是非常业务驱动的一件事情。

如何进行数据质量管理(数据质量管理有哪些方法)

假如说我们不站在数据的角度去看这个问题的时候,其实它是一个很标准的系统集成甚至是软件开发的事情,但是往往我们在这里面会发现有很多是隐藏的数据质量的问题。它要集成这三个系统的数据时,你就会看到他们的一些特点, 有ID、有staff ID、有邮箱、有联络信息。首先有一点是很重要的,就是规范,要是在这个定义规范角度没有处理好的话,那这个就是数据质量的一个很典型的问题。我们可以看到,我们要回答很多问题,这些问题就是说什么是正确的,什么是标准化的?究竟这个字段叫姓名是正确的,还是叫name是正确的?还有哪个是标准?还有代码规范的问题,比如说性别。当然还有一些关联性的问题。很简单的一个数据的整合,但是其实它背后存在着非常多的这些问题。那这些问题可能在你不关注的时候不是问题,当你关注的时候它就是问题,就是数据质量的问题。

如何进行数据质量管理(数据质量管理有哪些方法)

Ronald G. Ross在 2018年美国的一个国际峰会里面有一个演讲,我非常认同他提到的这个数据质量的问题。也就是说,归根到底数据质量并不是真正是你数据的问题,它是你的商业语义词汇及业务规则的质量问题。

对数据质量,我们会有一个认知,通过这张比较简单的图可以反映我们怎么看待这个数据质量,从数据、信息语义到业务规则到业务运营。数据跟业务规则中间,我们隔了一个信息语义的问题,也就是说这种业务规则是靠数据跟信息语义来构成我们所讲的这个业务规则。

如何进行数据质量管理(数据质量管理有哪些方法)

在这里面有一个非常简单的例子,这个是一个保险界的问题。如果一个客户下了订单,他必须安排一个代理人跟进,这可能就是一个业务规则。谈数据离不开IT,离不开系统,虽然有管理的一面,但是还是有落地的一面。那我们把它分解了一下,如果一个客户记录里面有任何一个记录订单,那么这个客户的记录里相应的要用标识是否被派遣的代理人的字段必须填上系统认可的标志。一段业务规则分解到我们的系统其实是这样子的。那我们会看到这里面涉及到几个潜在的数据质量问题,比如说表的重复记录问题、理解歧义、标识的一致性问题。虽然是一条业务规则,但是它潜在的这些分解会引导到我们的数据质量里面去。

另外一个我们看信息语义,我们会关注几个问题。一个是可读性,可读性对信息来讲这个是蛮重要的,比如说我们刚才在我上面一个片子里面有讲性别。比如说像可信赖的,什么叫可信赖呢?这里要讲到它是遵从所有的业务规则,也就是说假如说我们这个信息它是经过我们的遵从度的管理,甚至是我们的合规管理合规检查过的,已经通过我们的业务规则的甄别的,那就会提升它的可信赖度。

接下来我们看数据规则,刚才提到了我们从数据、信息然后才到规则,其实规则现在比较泛指这个规则,什么叫规则呢?只要是一套逻辑,我认为就是规则,我认为大家在讨论这个数据质量的时候,经常会去这么理解。在大家做清洗的时候,它背后肯定是有一套业务逻辑,但是它反映的可能只是一些他的字段属性。所以对数据的规则,我们会把它的颗粒度再分解一下,不是笼统的讲规则或者叫业务规则。那这里面我们就分成三个层级,就比如说在属性这个层级的,叫字段级。还有另外一个我们叫表这个层级的。那从字段到表到我们的业务,到我们整体的关联性,也就是说我们在表与表之间,我们还有它的业务规则的概念。另外一个就是我们叫行业规则,行业规则比如说我们银保监会的监管的这些规则,包括我们保监会也有很多规范,比如像我们医疗界也有很多这种安全规则。所以我们在谈业务规则的时候,可能不能笼统的去谈的什么是业务规则,因为它还是有分层的。我们只有把这些东西进行分层之后,我们再来看怎么进行这个数据质量的度量,包括我们数据质量衡量的一些角度,从哪里去看这些问题。

那我们就讲到审查跟诊断的问题了。这几个方面构成了我们对一个企业的或者说一个系统的数据质量的元素。数据它本身是没有意义的,它只有把它的这个信息的定义,包括业务规则串起来,才有它存在的意义。所以这里面刚才我们也提到一点叫可读性。就是说数据质量,虽然我们讲它有很硬性的这种定义,但是还是有一定的相对性。

如何进行数据质量管理(数据质量管理有哪些方法)

我们刚才提到了数据剖析,在讨论数据质量的时候,这个环节是回避不了的。可以说我们对数据了解的多少,也反映了我们去做数据质量管理的深度。大家会看到就是不同的层级,越是粗浅的层次,我们的技术手段容易一点,越往深度的时候要求更高。我们讲数据探查的时候、深入剖析的时候,这些问题都是我们对数据质量的一些认定。

当然还有刚才讲的度量的问题,我们究竟有没有一个好的度量方法来去评估这个数据质量,而不是停留在感觉上,我们能够去进行它的定量,那这种定量就来自于很多数据上的一些积累。有关信息也是一样的,就是数据再扩张了我们叫信息。另外一个就是我们的这个业务规则,从我们的数据、信息到业务规则这三个维度,我们来对一个数据的质量进行它的一些定量,包括它的一些分析,来最后确认这个数据的一些状况是什么,这个是稍微偏技术一点。

这张图我们看看技术层面上跟管理层面上它的关联,这张图左右互为因果。当我们发现这个数据的一致性有问题的时候,准确性有问题的时候,其实它隐藏的管理上的问题,可能就包括我们缺失数据的所有权的责任,也就是说在我们的组织架构里面,在我们的分管数据的主数据管理里面,这些管理上的缺失,它可能会导致一致性的问题,可能会导致准确性的问题。反过来也是这样。其实我们在谈数据质量的时候,我们谈的不只是数据本身,谈的还是数据质量管理相关的管理政策组织,组织架构,包括我们的程序。

如何进行数据质量管理(数据质量管理有哪些方法)

03 企业数据质量管理的难点

前面重点还是关于数据质量一些认知,那后面我们看一看究竟数据质量管理的难点在哪里?我跟很多客户在交流的时候,大家都提到数据治理的目标是什么?数据治理的其中一个最大的目标就是要求提升数据质量,这点是毋庸置疑的。当然,评判我们的数据治理的成败的时候,通常也会透过数据质量的好坏来去验证我们数据治理的好坏。因为不管数据治理做的再好,如果呈现出来的数据质量是很差的,我相信没法推动数据治理的。很多企业启动数据治理的缘由就是来自数据质量的问题。

那数据质量的难点又是在哪里?我们刚才做了一些剖析,包括数据信息、业务规则等,每一个层级所发现的问题,都有可能导致数据质量问题的产生,这就是我们要做数据质量审查的原因。我相信这是企业做数据治理过程中无法回避的环节,企业过滤无用数据、ETL、选规则等等,这些工作都是叫审查。

今天重点讲一下关于审查技术和方法。这个内容可能偏技术一些。

这里面我们讲一讲为什么要去做数据质量审查。讲到审查首先面临的问题就有:样本数据怎么来的?选什么样的数据进行审查?审查选择数据的原则是什么?全量跟局部的关系是什么?增量跟存量的关系又是什么?如何才能选择到能够发现问题的样本数据……

这些问题我们叫数据预处理,一般我们会选用局部的数据,那我们探查的角度在哪里?审查之后分析,然后通过分析的结果最终找到问题所在。数据预处理探查也包括分析,我想这是一个方法。但这里涉及到数据质量的管控流程,管控流程里的很多概念跟我前面讲的三个不同的角度都有相关联,包括DAMA提及的都是相关联的。

如何进行数据质量管理(数据质量管理有哪些方法)

首先是剖析,这是在数据质量里非常重要的一个环节,包括验证源数据,首先我们需要搞清楚固本清源的问题;数据的流程问题;设计的问题;开发问题……相信很多企业也是按照这个流程走的,但难在剖析。如果在剖析里面没有办法发现问题,没有办法找到流程上的问题,设计开发就无从开展。包括很多返工问题也是因为我们没有办法非常快速的发现我们的业务规则,后面的转换清洗也因为前面没做好而无法开展,难点就是在此。

数据诊断是数据质量管理必不可少的一步,我们谈数据质量管理,就要了解自己的数据质量在什么程度,否则对我们管理的方法包括落地的成功率都会产生直接的影响。也就是说管理的闭环首先你要知道问题在哪里,才知道怎么去用,如果连问题都不知道,就没有办法去讨论“improvement”这个概念。所以说数据诊断是数据质量管理里面必不可少的。

回到数据质量审查,我想大家在谈数据质量审查的时候,主要会从三个维度去看:时间、成本和能力,这三者决定了我们做数据质量审查的效果。

首先是时间,因为我们在数据质量管理或数据治理时,它是有窗口时间的,我想金融界的朋友会对窗口时间比较熟悉,比如你一个TB的数据,在你用你的方法处理完的时候,后面两个TB的数据已经又要来了,就会发现前面的标准不对,后面发现的这个标准可能更重要,所以我要改掉前面的标准,这个就叫窗口问题。也就是说我们在处理数据质量的这个时候,它需要有一个窗口时间,而且需要一定的稳定状态。

第二个就是成本。这里包括人力成本以及资金成本等。

第三个就是能力问题。这边提到一个2-8原则,通过有限度的或者说最少的投入来获得最大的成效。一方面考虑到ROI的问题,另一方面是因为一开始就做到全量的数据质量审查是不可能的,因为数据是动态的,你所说的全量也只是某一个moment,某一个环节某个时间片段里面的全量,也不是你真实的全量数据,因为数据的产生是动态的。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。