当前位置:研发设计首页 >> 管理信息化 >> 数据管理 >> 企业信息化过程中的数据质量监控研究
企业信息化过程中的数据质量监控研究
2006-11-20 14:39:45  作者:  来源:unknow

近年来,随着信息化建设和应用的深入,数据作为信息化建设和应用的主体,其质量和时效性已经越来越受到各方面的广泛关注。为了在现代企业的竞争中处于优势地位,几乎所有的国内外大公司都对数据建设和应用进行了重点投入,目的就是能够拥有丰富、准确、及时、有效的数据资源。对数据的大量占有和分析,是有效开展生产管理和辅助决策分析的依据,是实现企业高速发展的重要保障。数据就是资产、数据就是财富,这一理念已经深入人心。

  近年,国内各个油田陆续加大了对企业信息化的投入,企业的信息化水平整体上都有了很大发展,各种数据源源不断地汇集到数据库中。如何使这些数据在生产管理、科学研究、企业决策中发挥应有作用,使用户能用、用户敢用、用户愿用,使数据真正为企业服务,这是几乎所有油田都在思考的问题。

  数据是否可用和可信,这是用户对数据比较关心的两个层面。是否可用是指数据的格式、内容等能否被用户读取和使用,能不能很方便地进行深入处理和分析。是否可信则是指数据在适用性、准确性、完整性、及时性和有效性方面,是否满足用户的应用要求。以上两个层面中,可用是技术层面的问题,只要通过技术手段使数据规范化、格式化,按照规定要求组织和存放,数据就能达到可用,这方面相对而言比较容易满足用户要求。而可信是数据的质量问题,数据质量的保证涉及多方面的要素,需要通过采取管理手段、技术手段等各方面的努力来解决。

  随着信息应用的深入,数据质量问题已经成为信息化应用中的头等大事,为解决数据质量问题,各种管理手段、技术手段和新的数据质检体系不断被应用在数据的采集和加工过程中,专业的数据监督已经作为企业中的一个专职岗位出现,在这一方面,新疆油田进行了非常有益的尝试,并取得了可喜的效果。

  数据监督工作究竟监督什么呢?明确地说,就是监督数据的质量。在今天,数据质量不仅仅是指数据的准确性和完整性,而是包括多个方面。要监督好数据质量,就必须对数据质量要素有完整的了解。

  一、数据质量的几个要素

  数据作为信息化应用的主体,它具有多重属性,不仅有适用性、准确性、完整性、及时性、有效性等质量特性,还具有可取得性、可衔接性、可解释性、客观性、专业性、可比性等非质量的应用属性。要对数据质量进行较好地控制,就必须对数据的五个质量特性进行很好了解,从而在各个方面采取措施,杜绝数据质量问题的出现,使数据监督工作能够真正达到控制数据质量的目的,以下就对数据的五个质量特性进行一一介绍。

  1.数据的适用性

  在油田生产过程中,会产生大量的各类数据,这些数据有生产动态信息等反应不断变化的数量型数据,也有设备参数信息等相对稳定的属性信息。这些数据有的是为生产管理和决策服务的,有的则是满足各级科研和分析的需求,这就从客观上造成数据的多样化,同时也是为满足不同专业、不同岗位的用户服务的。不同的数据具有不同的使用范围,每个数据的正确性都要求它是进入正确的专业应用,换句话说:无论多么准确、及时的数据,如果不具有适用性,它就不能产生任何效益,甚至用户使用之后会造成损失。

  数据的适用性往往不能引起重视,偶尔也有可能见到把钻井参数录入到测井数据表中的情况,这就是典型数据适用性错误的结果。

  2.数据的准确性

  数据的准确性一般是说数据测量值与真实值相比的符合情况,但在油田生产数据的采集和加工处理过程中,数据的准确性往往变成是指所采集入库的数据值与现场应采集记录的正确值之间的差异。在数据监督和质量控制的过程中,准确性越好的数据,其误差应该越小。

  影响数据准确性的因素很多,数据误差在数据采集、审核、录入、传输和处理等的各个环节都可能产生。我们需要从各个方面分析影响数据准确性的因素,同时有效控制不同类型数据的合理变化范围,将数据误差控制在尽可能理想的范围内,以保证数据的准确性。

  3.数据的及时性

  在油田日常数据的管理中,往往要求能够更快、更准地收集到所需的数据。在日常生活中,也有“时间就是金钱”的说法。把这些要求应用到数据上,那就是说数据也必须要有及时性。比如对于井的生产数据,如果一口井发生故障,导致抽油机停止了,但在数据上如果不能及时有效获得井已停的信息,那么拿在手里的井运行数据就没有任何及时性,也是毫无意义的。

  一个好的应用系统在使用数据时不仅要求数据的适用性还必须考虑数据的及时性,应用系统引入生产管理的主要目的是提高工作效率,把大量复杂、繁重的重复计算、统计、分类工作交由计算机处理并迅速得出准确结果。如果数据不及时,那么应用系统的处理结果就可能违背了程序设计和使用者的初衷,不仅无法提高工作效率,还可能由于数据滞后而影响生产的正常化。因此根据数据应用需求及时采集数据,按照用户要求及时发布数据,是保证数据及时性的重要一环。

  4.数据的完整性

  数据的完整性相对于准确性和及时性来说并不显得那么重要,但其实它引起的问题并不比前两者轻松。数据的完整性就是我们日常所说“数据齐、全、准”当中的“全”。

  在数据采集过程中,要把所需信息全部采集完整,比如压力,如果只记录一个数字“2”,谁也不知道这个数字是什么东西,也就是说这个数字采集得不全。如果记录成“1号井油压为2兆帕”,那么这个数据就完整了,对生产管理和分析才有意义。

  从这里可以看出,数据的完整性一点也不亚于准确性的重要程度,在数据表格、数据库充分应用的情况,对数字的规范化填写要求越来越完善,单独强调数据完整性的情况会越来越少。

  5.数据的有效性

  在解决好数据适用性、准确性、及时性、完整性的情况,需要考虑数据的有效性。对于一个及时采集获得,准确、及时、完整的数据,还需要考虑这个数据使用的时间和对象。一堆过期的数据无异于废品或垃圾,是不产生价值的,因此在使用数据时,要考虑它是否有效。

  举一个简单的例子,我们在3年前采集了某口油井的日生产数据,记录了当日各项生产参数,而该井现在已经转为一口水井了,那么我们拿着这一堆数据来管理这口井,还有效没有呢?这是显而易见的,这很好地说明了数据的有效性问题。

  数据除拥有以上的质量特性之外,还具有可取得性、可衔接性、可解释性、客观性、专业性、可比性等非质量的属性特性,这些属性特性对于数据的质量控制并不产生重大影响,因此也不在我们这里的数据监督和质量控制讨论范围之列。
 
    二、系统建设对油田数据的影响

  经过近年来多方面的观察和分析,我们发现虽然影响油田数据质量的原因是多方面的,但主要的原因还是集中在管理、制度和数据采集加工规范化方面。对于如何通过管理、制度、标准和流程来控制数据质量,提高数据可信度,现在有很多文章和专著都在探讨,并且已经有了很科学严谨演技和的数据监督和质量控制体系。以下我仅从大家不是太关注的方面,来介绍在数据监督和管理过程中需要注意的四个问题。

  1.对数据准备认识不足

  目前,油田企业在进行数据建设的时候,一般都是软件系统建设与数据建设同步展开。在软件建设过程中,高技术和高水平的人员往往都被安排把主要精力和关注点放在编程上,而对数据如何准备考虑较少。这就造成数据建设往往变成软件开发项目的副产品,即使在项目验收时,数据也仍旧只被作为检验软件功能效果的陪衬。

  在完成系统开发后,将系统投入运行时才发现所需要的数据拿不到或不能用,影响数据可移植性和可继承性,因此数据库应用软件的开发必须与数据的组织、整理同步,并应着重考虑继承原有的信息资源。这种情况在升级软件时往往更容易出现,因为升级软件时常伴随着数据迁移和转库,新的数据约束和异常触发机制的建立常会使数据被人为修改。

  由于数据的相关性导致同一数据会在企业内部的不同应用系统中出现,如果不对数据源进行归属分类,分专业建设,不仅会造成数据的重复建设,而且会影响数据的准确性,由此数据源的合理划分是影响数据准确性的另一个重要问题。系统设计者必须整体考虑企业的系统建设,掌握各类应用系统专业数据范围,明确数据的归口管理建设单位,制定相关数据标准,规范相关数据建设,避免数据多源、重复建设问题,提高数据准确性、权威性。

  一些单位对历史数据的重要性缺乏足够认识,以为计算机是万能的机器,数据质量差些不要紧。另一些单位对数据工作的难度、工作量等缺乏思想准备,对数据库整体建设缺乏经验,不能从人力、物力、管理角度提出一套合理的建设方案,这样就导致不能真正把数据正常化管理提到议事日程,数据的质量无法得到有效控制。

  2.缺乏质量控制监督的强力措施

  数据质量的控制和监督措施常常被人提起,但具体行之有效的质检措施却不能适时提出和有效贯彻,这是数据质量问题产生的另一个问题。不少单位在数据准备、录入阶段缺乏审核、校验、质量控制和数据监督的措施,没有完整的质量监督体系,更没有专业的数据质量监督管理岗位,无法落实数据监督的职责。数据质量的监督可以从数据源、数据录入岗、数据上报点三个位置着手,建立内部和外部的监督,内部是岗位人员自己强化数据质量意识,外部是检查验收和必要的考核。一方面要在数据值约束、相关性分析、数据逻辑分析的基础上建立完善的数据校验程序进行数据校验,另一方面通过各级用户对数据的准确进行评估来掌握数据情况和适时校正数据,提高质量。

  3.专业数据管理与信息技术人员的结合不足

  数据库与文件管理系统的重要区别在于不仅存放数据,而且存放数据之间的相关性,相关性不仅表现在数据依存的时间、类型、名称等基本属性上,而且会在数据转移和使用过程中产生再生相关性。用户希望从数据中发现的东西越多,其相关性要求也就越高。专业数据大都是由专业技术人员掌握,相关性也是他们最清楚。但专业人员往往不懂计算机程序,同时编程人员又大多不熟悉业务,对相关性也难于理解,这就使编写的系统难以满足专业技术人员进行数据管理的需要。

  油田内现有的生产应用往往是在本专业应用基础上,同时又涉及其它专业数据的综合应用。做数据相关性分析可以把该系统中所涉及到的其它专业数据进行分类,对数据源进行追溯,利用基础数据的相关性衍生某些数据,减少非专业数据在系统中建设中数据采集、录入和统计工作量。如果准确掌握了数据相关性,不仅能提高系统建设效率而且可以提高专业系统数据利用率,减少系统建设投入。

  随着信息技术发展,科研单位引进了具有数值模拟功能的软件对生产过程进行研究。这些软件的使用需要大量基础属性数据和生产动态数据,而这些数据一般来说都是分属不同的专业应用系统。如何在短时间内组织大量相关性数据进行生产研究,这是数据相关性应用所要解决的另一个重要问题。这类问题可以在掌握数据相关性的基础上,通过设计数据接口实现。专业人员和信息人员的有效结合,不仅能够提高科研工作效率,而且能够提高软件的使用效率,最大限度实现数据资源共享。

  4.设计需求不明确,缺乏整体观念

  在进行信息系统建设时,设计者在进行系统建设时往往仅是考虑系统建设本身,而没有综合考虑数据源、不同级别管理者、科研人员的应用需求,所建的某些系统只是有简单的数据录入界面,缺乏专业数据系统支持的图形查询界面、没有基础数据汇总的上报系统。这种由于应用需求不明确,缺乏专业应用而建设的系统,既不能保证数据的完整性和准确性,又不能提供有价值的应用功能。由于需求不明确而建设的应用系统不仅数据准确性得不到保证,系统的可利用程度也不高。

    三、数据监督和质量控制的措施

  1.建立数据质检监督制度

  做好数据监督和质量控制,首要的任务是要从管理上着手,要建立相应的管理制度和措施。

  首先要做好数据源的管理,数据质量问题的产生源点来自于生产的方方面面,不同的数据源提供数据,而录入这些数据的人员在掌握专业知识的同时还必须要掌握系统相关知识,才能在数据采集、录入过程中减少误差。因此数据建设一方面要求具有专业知识背景的人员从事数据的录入,另一方面要对从事数据建设的人员进行信息技术的培训,同时要建立数据质量考核制度,从根本上提高数据质量。

  其次是数据传输、加载和处理环节。要在这上个环节上推进标准化和规范化,按照统一的规程传输、加载和处理,使数据能够可逆转化,即使数据出现问题,也可通过可逆方式还原数据。

  最后是数据的存储,要做到数据安全、稳定,持续有效,保证数据长期准确保存,数据精度不漂移。

  2.建立数据质量控制手段

  数据质量监督和控制的另一重要措施是建立数据质量控制模型,也就是由数据质检规则。有了科学、合理、实用的数据质检规则,就能尽早、尽快地发现数据质量问题,使数据问题得到很好地解决。

  有了数据质检规则,开发基于数据质检规则的程序,就能通过计算机手段快速、方便、有效地控制数据质量,在减轻劳动强度的同时,更好地提高数据质量。

  3.历史数据:数据库清理

  对于拥有大量数据的数据库,入库数据清理显得十分重要,一方面改正错误的原始数据,另一方面删除重复记录,增补缺少的数据。

  历史数据的清理工作并不时每年都需要的,对历史数据的清理往往是在有新系统投产、有对历史数据进行进一步挖掘的新需求出现的时候才需要。

  历史数据的问题往往是错误、缺漏、不规范、各式不满足需要等这些方面,历史数据建设应该通过集中会战的方式解决,否则会影响新数据的采集和入库应用。

  4.根据应用反馈进行数据修正

  已经入库的数据质量一般是不会引起数据管理人员注意的,如果错误数据已经入库,问题的纠正就只有等到数据被使用的时候。

  用户在使用数据时,往往因为要进行数据链分析和挖掘,从而深入研究数据,也就能够发现数据的细微质量问题。这时候需要及时获取用户的反馈,要建立问题反馈的畅通渠道,根据用户意见及时复查和更正数据。

  5.数据整合与分析

  在已有数据的基础上,通过对专业信息进行深加工,从中抽取规律,并从不同角度进行分析研究,将生成的分析信息运用到信息管理、查询处理、支持决策、过程控制等诸多领域,将这些来自于不同专业系统的数据进行深入分析,从而得到系统详细、全面数据评价意见,形成对数据质量的最后把关,实现数据质量的完整控制。

  随着信息技术的发展,数据的加工和应用已经成为油田和其他企业挖潜增效的有力手段之一,如何让数据真正产生效益却是件十分困难的事情、数据质量差,数据可信度低等原因使许多应用系统在使用过程中利用率很低。

  为此,各领域都已经在数据监督和质量控制方面进行了许多有益的探索。数据监督和质量控制是一个长期的问题,也是一个新兴的信息专业岗位,做好数据质量控制不是一朝一夕的事情,需要长期努力,不懈追求。

 



版权所有:智造网 京ICP证100778号 京公网安备110102003025 虚假新闻举报电话:010-88379107