数据治理-数据质量-数据治理管理的复杂性

大数据的特性分析

        组织在信息化过程中,传感器、智能设备、企业数据化等技术的应用,致使数据呈爆炸的趋势增长。金融、电信、零售、医疗、保险等数据密集型领域,都已经开展了大数据相关的研究和应用,尝试从大数据挖掘价值、获取洞察,从而有效地协助组织降低风险、提高效率和创造价值,为产业的发展和转型提供支撑。
        从大数据应用和发展的视角看,大数据具有如下特性
1. 大数据的来源仍以组织内部数据为主。
2. 大数据应用仍依赖与数据的整合。数据整合是数据分析项目的关键要素,对大数据来说尤为重要,在大数据应用和分析过程中,需要将海量的非结构化数据通过有效整合和分析,才能达到数据洞察的效果。
3. 大数据分析的目的是预测。传统的数据分析挖掘是基于历史数据的处理分析,其目的是寻找造成问题的原因。大数据时代“是什么”比“为什么”更加重要
4. 大数据服务更加精细化。大数据技术为数据的采集、存储、分析、挖掘和服务等提供了有效的支撑,能够协助组织对客户进行精准的分类,探索消费模式和行为,从而帮助组织更好地理解客户。

大数据质量管理的复杂性

        大数据质量对于大数据的应用至关重要。大数据分析应用时,必须首先评估数据质量,以保证大数据大的质量达到可接受的程度。需要特别指出的是,大数据价值的发掘和体现必须建立在一定的数据质量基础之上,认为大数据基数超大,可以忽视其数据质量的观点是不全面的。

大数据质量管理比传统的数据质量管理更加复杂,主要表现在
1. 数据源多、数据种类多,数据来源的复杂和多样性,使得数据整合的难度大大增加。各个数据源在纬度上需要保持一致,不然整合就无从谈起;另一方面数据种类多,是的来源于不同组织的数据整合难度剧增
2. 不受控制的重复使用,在大数据应用过程中,各种结构化或非结构化数据集被多个使用者共享和使用。不同业务场景和不受控制的约束,意味着每种应用都有各自的数据使用方式,带来的直接后果是相同数据集在不同业务场景中诠释不同,为数据的有效性和一致性带来了隐患。
3. 质量控制的权衡,对于来源于组织外部的大数据,很难在数据产生的过程中采用控制手段来保障质量。当内外部的数据不一致时,数据使用者必须做出权衡;修正数据使其与原始数据不一致,或牺牲数据质量来保持与原始数据一致性。
4. 数据的“再生”,大数据新的理念和特性拓展了数据的生命周期中的“再生”环节。传统的数据管理过程中,历史数据往往在其生命周期的后期转为冷存储或损毁。而在大数据分析和应用中,历史数据与实时数据能够有效地整合和应用。

大数据质量管理复杂性的原因分析

        传统数据主要来源于组织内部,在业务处理流程中产生,数据采集流程在组织内能够得到有效控制,数据质量工具能整合到业务处理流程中,实现数据质量测量和验证。但在大数据环境中,来源多样、结构各异的大数据的质量管理具有较高的复杂性。主要原因有如下几个
1. 数据解释,内外部的数据含义和业务含义存在一定的差异
2. 数据量,在海量数据分析和处理方面,传统的关系型数据库及管理平台面临较大的挑战。
3. 控制力弱,来源于外部的数据不同有效地进行质量控制,不能对错误数据进行追溯
4. 一致性维护,数据清洗会导致其与原始数据不一致。影响对业务应用流程的跟踪,甚至引起对分析结果的怀疑
5. 数据生命力,大数据存储方式扩展了数据获取时间和范围,使得数据可能在数据存储期间发生变化,为数据生命力带来风险和挑战