数据治理-数据生命周期管理-大数据存储

数据的热度(热数据、温数据与冷数据)

        大数据时代,首先意味着数据的容量在急剧扩大,这对于数据存储和处理的成本带来了很大的挑战。采用传统的统一技术来存储和处理所有数据的方法将不再适用。而应针对不同热度的数据采用不同的技术进行处理。以优化存储和处理成本并提升可用性。
        所谓数据的热度,即根据数据的价值、使用频次、使用方式的不同,将数据划分为热数据、温数据和冷数据。热数据一般指价值密度较高、使用频次较高、支持实时化查询和展现的数据。冷数据一般指价值密度较低、使用频次较低、用于数据筛选、检索的数据;而温数据介于两者之间,主要用于进行数据分析、不同热度数据的区分表

分类 热数据 温数据 冷数据
数据价值密度
数据使用频度
数据使用方式 静态报表和查询 数据分析 数据筛选、检索
数据使用目的 基于数据进行决策 分析有意义的数据 寻找有意义的数据和数据的意义
数据存储量
数据使用工具 可视化展现工具 可视化分析工具 编程语言和技术工具
数据使用者 决策者、管理者 业务分析者 数据专家

不同热度数据的存储与备份要求

        不同热度的数据,应采用不同的存储和备份策略。

        冷数据,一般包含企业所有的结构化和非结构化数据,它的价值密度较低,存储容量较大,使用频次较低,一般采用低成本、低并发访问的存储技术,并要求能够支持存储容量的快速和横向扩展。一些拥有海量数据的企业,一般都会和硬件厂商一起研发低成本的存储硬件,用于存储冷数据。

        温数据,一般包含企业的结构化数据和非结构化数据进行结构化处理后的数据,存储容量偏大,使用频率中等,一般用于业务分析,由于涉及业务分析,会涉及数据之间的关联计算,对计算性能和图形化展示性能的要求较高。但该类数据一般为可再生的数据对于数据获取失效性和备份要求不高。
        热数据,一般包含经过处理后的高价值数据,用于支持企业的各层决策,访问频次较高,要求较强较强的稳定性,需要一定的实时性。数据的存储要求能够支持高并发、低延迟访问,并能确保稳定性和高可靠性。

        对于热数据,一般要求采用支持高性能、高并发的平台,并通过高可用技术,实现高可靠性。对于温数据,建议采用较为可靠的,支持高性能计算的技术,以及支持可视化分析工具的平台。对于冷数据建议采用低成本,低并发、大容量、可扩展的技术。

        针对不同的企业,对热数据、温数据、冷数据的存储方案大概有如下的设计:
– 冷数据:采用Hadoop体系,本来自带备份,所以不需要考虑备份,这种一般给数据专家使用
– 温数据:一般采用了MPP架构,MPP本身带有备份机制,其实这种也不需要备份,因为温数据可以通过冷数据恢复过来,这种一般是数据分析人员使用
– 热数据:一般采用RDBMS数据库,对于这类数据,建议采用与其他生产类系统类似的备份方案。一般是给决策者使用

基于云的大数据存储

        云计算提供可用的、便捷的、按需的网络访问,接入可配置的计算资源池。这些资源能够快速提供,只需要投入很少的管理工作,云分为公有云和私有云,针对大数据的规模巨大、类型多种、生成和处理速度极快等特性,云计算对于大数据来讲,是一个非常好的解决方案,但使用云计算进行大数据的存储与整合的时候,必须要考虑几点:
– 安全性

        由于数据是企业的重要资产,因此不管采用何种技术,都必须确保数据的安全性。在使用公有云的情况下,必须考虑自己的数据是否会被另外一个运行于同一个公有云中的组织或者个人未经允许访问,从而造成数据泄露。

  • 时效性

        数据存储在云上的时效性有可能低于本地存储,原因包括:物理设备的速度变慢,数据穿越云安全层时效较差,网络传输的时效较慢。对于数据量较大的企业,如果需要满足时效性,可能带来巨大的网络成本
– 可靠性

        为保证云上数据的可靠性,云平台必须通过冗余的方式来确保数据不会丢失。数据越关键,配置的副本数量机会越多,需要租用的成本就会越高。同时多个副本也会带来一些安全问题,当企业启用云服务时,如何确保数据的所有副本都被删除,也是企业在启动云服务之前必须考虑的问题。
        在当前阶段,对于企业的冷数据和温数据,可以适当考虑使用公有云服务,对于企业的热数据,应采用自有的数据中心或者私有云服务。