Informatica的数据质量管理之道

2012-01-10 11:12比特网zhangcha
字号:
A+
|
A-

  在很多情况下,数据是企业最具价值的资产和最核心的价值所在。如何有效和安全的保存数据已经引起了业界和企业的广泛重视并发展出了成熟的技术。但仅仅是保存并不能让已有的数据产生新的价值,因此数据的再发掘和分析成为了行业发展的新方向。

  就像其他命题一样,数据的再发掘和分析同样也是有前提的,那就是数据质量。如何在复杂程度和类型不断增多的数据中剔除错误并找到有价值、可信的数据?

  对于这个问题,Informatica中国区首席产品顾问但彬先生优化要说。

  Informatica的数据管理目标

  您心目中企业数据的价值几何?调查显示,信息的价值平均为企业价值的37%,可以说,信息已经成为企业最重要的资产之一,越来越多的企业更加重视数据中心的建设。但有许多因素会导致这些“资产”贬值,比如数据的冗余和重复导致信息的不可识别、不可信,信息时效性不强,精确度不够;结构或非结构数据使整合有困难;管理层面的人员变动引发的影响;数据标准不能统一,相关规范不完善造成对数据理解的不充分等等。

  Informatica既可以在数据架构层面提供信息传递、B2B数据交换、企业数据集成等一系列的基础架构解决方案,同时也可为行业提供数据质量管理、主数据管理和复杂事件处理等方案,来支撑数据中心实现可信、交互、权威的信息资产管理,达成企业的业务目标,这也是信息中心建设的一个重点。

说明: 1.jpg

  数据质量管理的整体框架

  数据质量管理在数据中心建设中是一个完整的生态链。数据质量会受到供应商、生产员工、工艺流程以及内部客户和外部一些系统的影响,同时,从应用和软件角度方面讲,数据提供者、软件开发集成、质量管控手段等也都会影响到企业数据质量的整体状况。

  从数据质量整体框架和方法论上讲,首先我们要确定目标,然后要清楚用什么人,通过怎样的流程,采用什么样的技术支撑来达成目标,人、流程、技术三方面缺一不可。而设定最终目标前最重要的一件事是要了解现状,找出企业最关注哪些数据质量,通过记分卡对现有数据进行评估,同时还要进行实时的监控,从流程、时间角度发现数据的变化,了解现状后确定的目标才是可信、可完成的,而不是天方夜谭式的水中月、雾中花。

  数据质量理论上不是完全可控的,要实现数据质量提升,必须要做到指标的可量化,通过量化指标实现质量可控。从技术层面讲,要从以下六个角度去考量数据质量,也称为数据质量的矩阵,包括:完备性(信息是否填写全面)、符合性(数据是否按照标准格式进行填写)、一致性(是指内部冲突,同一系统中两个字段间相关推导和约束关系)、准确性(包括数据是否真实有效和数据是否及时更新)、唯一性(多条信息是否相同和一致)以及完整性(从约束性和参考性方面考虑,数据相互间的参照关系)。当然,企业是要根据自己的业务需求来确定考量数据质量的指标或体系,并不一定必须局限在这六个方面。

 

12下一页

本文导航>>

关键字:infomatica 数据 数据质量 数据治理 推荐
  • 网友评论
  • 社交评论