数据治理-数据质量-数据质量管理方法和工具

常用质量管理工具

        目前,在质量管理领域,有一系列常用的数据质量管理工具,主要分为传统的质量管理工具、新的质量管理工具和其他质量管理工具。

  1. 传统的质量管理七大工具

         传统的七种工具包含分层法、检查表、帕累托图、因果分析图、直方图、散布图、控制图。
– 分层法:又称层别法、分类法、分组法,是整理数据的重要方法之一,分层法是把收集来的原始数据按照一定的目的和要求加以分类整理,以便进行比较分析的一种方法,应用于大数据质量管理中,可以进行有目的的分类管理,以达到进一步了解整体数据特征的状况
– 检查表:又称调查表、核对表、统计分析表。检查表是用来系统地收集资料、确认事实并对资料进行粗略整理和分析的图表,应用于大数据质量管理中,可以用于大数据收集、汇总完整性、正确性的分析检查,了解大数据的初步质量。
– 帕累托图:又称排列图、主次图。帕累托图是依据质量改进项的重要程度,从高到低进行排列而采用的一种简单图示技术,在大数据质量管理中,可以应用于影响大数据的主要因素、主要问题的排列,识别数据质量改进等。
– 因果分析图:又称石川图、鱼骨图、特色要因图、树枝图等。因果分析图的以结果为特征,以原因作为因素,在它们之间用箭头联系起来,表示因果关系的图形。因果分析图能简明、准确表示事物的因果关系,进而识别和发现问题的原因和改进方向,应用于大数据质量管理中,可以应用于大数据质量管理的问题分析,找到造成问题发生的原因,这种处理问题的方法时一种系统分析方法。
– 直方图:又称频数直方图。直方图是将数据按其顺序分成若干间隔相等的组,以组距为底边,以落入各组的频数为高的若干长方形排列的图,应用于大数据质量管理中,以应用于大数据质量特征值分布状态的了解,是否是标准的正态分布,关键问题是如何合理分组。
– 散布图:又称散点图、相关图。散步图是描述两个因素之间关系的图形,用于说明两因素是否相关和相关关系的强弱。应用于大数据质量管理中,可以应用于大数据的分析研究,分析大数据不同维度变量的关系,是否具有相关性,并根据相关性进行预测分析。
– 过程控制图SPC:又称管理图、休哈特图。过程控制图是区分过程中的异常波动和正常波动,并判断过程是否处于控制状态的一种工具,应用于大数据质量管理中,可以应用于大数据特征的时间轴变化状态,来了解大数据特征的变化趋势和上下范围。

  1. 新的质量管理七大工具

        质量管理七种工具包含关联图、亲和图、系统图、矩阵图、矩阵数据分析法、PDPC法和网络图
– 关联图:是对原因-结果、目的-手段等关系复杂而相互纠缠的问题的表述,在逻辑上用箭头把各要素之间的因果关系连接起来,从而找出主要因素的方法。
– 亲和图:是指把收集到大量的各种数据、资料,按照其之间的亲和性归纳整理,使问题明朗化,从而有利于问题解决的一种方法,应用于大数据质量管理中,可以应用于大数据研究,而归纳整理收集到的意见、观点和想法等资料,利于大数据研究分析,由于收集意见需要时间,不适用解决紧急问题。
– 系统图:是表示某个质量问题与其他组成要素之间的关系,从而明确问题的重点,寻求达到目的所应采取的最适当的手段和措施的一种树枝状示图。系统图也是一种倒立树状逻辑因果关系图,应用于大数据质量管理中,可以应用于大数据研究方法工作的开展,为达到研究目的,找到适合的方法,不断分解明确工作中的角色指责。
– 矩阵图:是从作为问题的事项中找出成对因素群,分别排成行和列,在其交点上表示成对因素间相关程度的图形。矩阵图法是通过多元思考明确问题的方法,应用于大数据质量管理中,可以应用于大数据研究分析,不同因素的关系,来确定研究的方向和方法。
– 矩阵数据分析法:是当矩阵图上各要素之间的关系能够定量表示时,通过计算来分析、整理数据的方法。主要是数量化方法和主成分析法等方法的具体应用,它属于数学上的多元化分析方法,应用于大数据质量管理中,可以应用于大数据研究分析,不同定量因素的关系,来确定研究的方向和方法。
– 过程决策程序图:是指为实现某一目的进行多方案设计,以应对实施过程中产生的各种变化的一种计划方法,应用于大数据质量管理中,可以应用于大数据研究计划的制定,在不同场景和变化中,模拟分析可能的结果,来确定实施的计划。
– 矢线图:是一种利用网络技术来制定最佳日程计划并有效管理实施进度的一种方法,应用与大数据质量管理中,可应用于大数据研究计划的制定,找到影响计划的关键路径,来确定切实可行的计划安排。

  1. 质量管理其他的工具

        质量管理其他的工具是数据流程图、头脑风暴法、智能设备校准等。

  • 数据流图 :是将根据数据的移动方向,从数据采集到数据迁移,加工
  • 使用和销毁全生命周期中关键点连接在一起,图中同时标出各点数据的形式的一种图示技术,应用于大数据质量管理中,可以应用于大数据质量管理工作方法的积累,不断优化大数据质量管理工作,提升效率和效果
  • 头脑风暴法 : 是指采用会议的形式,引导每个参加会议的人围绕某个中心议题,充分解放思想,激发灵感,在自己头脑中掀起风暴,毫无顾忌、畅所欲言地发表独立见解的一种集体创造思维的方法,应用于大数据质量管理中,可以应用于大数据研究工作中
  • 智能设备校准:主要是应用于数据采集设备主要应用于大数据的自动采集,是大数据质量管理的前端,也是大数据质量的重要因素

数据质量辅助工具

        在数据质量管理方面,还有一些常用的数据质量辅助工具,主要是为数据质量管理过程提供自动化和管理支持。需要明确的是,自动化的工具并不能确保大数据的“完整性”或“准确性”,而是需要不断优化和改善的。

  1. 数据剖析工具

        数据剖析工具主要用于业务规则的发现,分析系统数据文件和数据库中的数据表中字段之间的关系,这种分析可以协助识别影响数据迁移转换的定量或定性的条件,还可以发现条件中的异常或错误。
        对于数据库表中的每一个字段,数据剖析工具能提供不同值的频度分布,提供了对每个字段类型和用途的洞察分析,跨字段分析可以发现多个字段间值的依赖关系,跨表分析则会发现实体之间的主外键关联关系。
        数据剖析也可以用来对定义的业务规则进行主动测试,数据质量人员可以通过它来区分符合数据质量要求的记录和不符合的记录,同时反过来还能有助于形成数据质量报告。
2. 数据缺陷预防工具

        自动化缺陷预防工具不但可以用来在数据录入时防止数据错误,还可以用来生成测试数据,数据缺陷预防工具可以协助业务规则定义,支持使用数据的应用系统调用这些规则,该工具能够在数据源头强化数据完整性规则检查,以在数据问题发生之前,防止缺陷数据进入系统。
        正确使用数据缺陷预防工具,可以从通过识别数据缺陷的根本原因入手,这些原因可能是以下情况的组合:
– 有缺陷的程序逻辑
– 不充分的程序逻辑
– 不理解的数据元素定义
– 不是统一的元数据
– 没有域定义
– 没有一致的流程
– 没有数据验证流程
– 缺少数据录入培训
– 数据录入的时间不足
– 质量数据录入缺少动机
3. 元数据管理和质量工具

        元数据管理是对元数据的收集和控制进行严格管理,元数据管理的自动化工具一般有如下功能:
– 在数据对象创建时捕捉元数据
– 元数据的通用存储和共享
– 控制元数据的不一致和冗余
– 确保符合数据命名标准
– 数据重组和修正的过程的元数据维护
– 评估数据模型的规范化
– 评估数据库设计的完整性

  1. 数据再造和校正工具

        数据再造和校正工具,可以用来校正数据,或者给错误数据打上标志,数据校正工具可用于数据标准化、重复数据识别,一般具有如下功能:
– 提取数据
– 标准化数据
– 匹配和整合重复数据
– 将数据再造为符合架构的数据结构
– 基于算法和数据匹配的丢失数据填补
– 应用数据的更新
– 将数据值从一个域转换到另一个域
– 将数据从一种类型转换为另一种类型
– 计算衍生和汇总数据
– 基于整合和外部数据源匹配的数据质量管理
– 将数据加载到目标数据架构中