您的位置 首页 > 数码极客

数据清洗——数据清洗是什么意思…

企业业务系统的绝大多数是伴随着业务发展来建设的,但随着业务的不断发展,单一系统很多时候难以支撑企业业务的闭环,而多系统共同协作的时候往往又会出现系统割裂、数据难以统一的问题,所以通过数据治理保证基础数据一致是系统建设与集成的关键内容。而保证基础数据一致的核心内容就是数据清洗和编码统一,数据清洗保证了存量数据的统一和标准化,编码统一保证了增量数据的一致性,从而是上下游系统具备标准、统一、完整的基础数据。

MDM主数据管理平台就是为了满足企业基础数据治理的需求,实现全生命周期的基础数据管理,通过主数据的管理与集成打通和上下游业务系统的联系,从而保证基础数据的一致性、完整性、准确性和全面性。而对于主数据治理的项目而言,主要的集成内容包括:历史数据的清洗、编码规则的制定、系统数据的集成,而数据清洗和编码规则又是保证集成准确性的前提和基础,所以本次主要针对主数据的清洗和编码集成进行梳理。

总体说明

MDM主数据管理平台主要是针对企业的主数据进行统一管理维护,实现全生命周期的主数据管理,同时主数据平台会和上下游系统进行集成,实现主数据的同步分发,从而保证主数据的统一准确。

1.业务说明

从业务的角度而言,MDM主数据平台一般不会直接参与企业的具体业务,MDM平台更多的是从信息化和企业数据的角度对留存在各个业务系统中的基础数据进行整合、清洗、统一,从而保证基础数据的一致。如图企业的基础数据包含组织、人员、客户、供应商、项目、物料等一系列通用的、可共享的数据,而基于主数据平台可以实现这些数据集中管理维护。

根据企业实际业务的情况,不同的主数据会分布在不同的系统中,而MDM主数据平台就是将分散在各个系统的主数据抽取出来,并进行数据清洗、合并、校验,最终在主数据平台落地,并根据实际需要将清洗校验后标准主数据分发给下游系统。

2.集成架构

由于MDM主数据平台的实际应用更多地体现在数据层面,通过数据治理实现基础数据的统一,并不会直接参与企业的实际业务,所以很难直接体现平台和项目价值,所以在实际项目中,MDM平台往往都会和其他产品组合形成标准的集成方案,并通过集成业务系统实现主数据治理效果的有效落地和展现。

首先MDM平台通过ESB企业服务总线和业务系统进行集成,实现与各个业务系统的主数据同步、分发,实现各个业务系统基础数据的统一,同时治理后的基础数据可以结合DAP数据分析平台构建数仓,或者结合IDM统一身份管理平台实现5A安全管控。

3.集成内容

MDM主数据平台在实际项目中主要的集成内容在于和各个业务系统平台结合满足具体业务场景,典型如主数据治理、业务集成、集成底座、数据中台等。而在集成过程中,主要的集成内容包括:主数据清洗、主数据同步、主数据分发等。

1.主数据清洗:一般而言的主数据清洗主要是针对业务系统存量数据的清洗标准化,并将清洗后的数据导入MDM主数据平台,由于单一系统的局限性,历史留存的主数据往往缺少统一标准,难以做到集成共享,跨系统应用,通过数据清洗才能保证数据的统一一致,全局共享;

2.主数据同步:主数据同步主要是针对增量数据的同步,一般是从源头系统同步至MDM主数据平台,在同步过程中,主数据的编码规则、校验规则等会发挥作用,对同步的数据进行检查处理,保证同步进来的数据是标准的;

3.主数据分发:主要是将MDM平台治理后的标准数据下发至下游系统,保证主数据同源,下游系统、MDM平台、上游系统采用同一套标准主数据,从而保证业务的准确性和集成性。

应用场景

在实际项目中MDM主数据平台除了可以结合ESB完成主数据治理的场景外,MDM还可以集合ESB、IDM、DAP等产品构建业务集成、集成底座、数据中台等方案,满足不同的业务需求。

1.主数据治理

主数据治理方案以MDM平台为核心,通过MDM完成主数据的全生命周期管理,保证主数据的全局同源、一致、统一,同时结合ESB企业服务总线实现主数据的同步分发。

作为主数据治理工具,建立数据治理标准,简化数据清洗工作,将内外部基础数据统一治理整合,解决数据不精确问题,保证企业内部数据的一致性、准确性、真实性,通过数据发现问题、反馈问题。基于ESB的平台协同功能,与主数据管理工具相互协作,提供数据的同步与分发,共同实现主数据治理,同时实现不同系统间服务、数据、信息的全面集成。

2.业务集成

业务集成方案以ESB的集成能力为主,通过MDM平台实现主数据同步分发,保证基础数据一致。

业务集成包括的主要内容有两部分:一是主数据集成,二是业务单据集成,其中主数据集成是业务单据集成前提和基础。主数据集成以MDM为主,将业务系统的主数据同步至MDM平台并基于MDM进行下发;业务单据集成以ESB为核心,将业务系统的业务单据通过ESB应用集成推送至下游系统,从而实现跨系统的单据集成。

3.集成底座

集成底座方案是一个综合方案,包括了MDM、IDM和ESB三个产品,所以集成底座实际上是包含了主数据治理(MDM+ESB)、统一集成平台(ESB+MDM)和统一身份5A管控(IDM+ESB)三个子方案。

1.MDM+ESB主数据治理:以MDM为核心实现各个业务中主数据同步到MDM平台,再将治理后的数据分发到下游系统,是业务集成、统一认证、数据分析等场景的实现基础;

2.ESB+MDM统一集成平台:主要目的是通过集成底座平台打通系统间业务单据集成的难题,主要面向各个系统的业务数据,如财务单据、财务凭证、收/付款单、入库/出库单等。

3.IDM+ESB统一身份5A管控:主要将组织、角色、用户等信息经过MDM平台治理后,同步到IDM平台,基于同一的用户信息完成统一认证;根据需求在IDM平台进行业务角色、权限角色的统一管理与权限分配,再通过IDM分发到对应的业务系统中,实现权限的统一。

4.数据中台

数据中台方案中以MDM、DAP、ESB三个核心产品为基础,在完成主数据治理的同时构建数据仓库,实现基于数仓的业务主题、指标、数据分析。

数据中台是将治理后的主数据以及系统中的业务数据通过ESB数据总线统一汇聚于数据仓库,再基于数据仓库进行业务主题、指标的分析,同时通过数仓的数据接口直接为业务系统提供各个维度的业务数据,实现企业数据的一体化管控,深度挖掘数据价值。

数据清洗

数据清洗是主数据建设的重要内容之一,也是保证主数据质量的前提,通过数据清洗保证存量数据的完整、一致、统一,从而为后续的主数据同步分发奠定基础。

1.功能介绍

MDM主数据平台的数据清洗模块是为了支持业务系统数据初始化导入MDM平台,通过MDM的数据清洗模块,不仅可以将源头系统导入MDM,同时能根据MDM配置的相关校验规则自动对导入的数据进行校验。

2.清洗模式

MDM的数据清洗主要采用Excel导入的模式,主数据模型的Excel模板进行数据录入,然后导入到MDM平台,MDM会根据校验规则进行处理,校验未通过的数据MDM会进行提示,通过平台导出后再次进行维护导入,反复执行以上步骤直到所有数据清洗完成。

3.清洗步骤

MDM数据初始化清洗的步骤如下:

1.通过MDM的数据清洗模块导出Excel模板;

2.业务系统基于MDM的Excel模板导入业务系统的主数据;

3.将录入数据的Excel文件通过MDM平台进行导入,导入时MDM平台会根据相关的校验规则对数据进行校验,如下图:校验未通过的数据会进行相应的提示;

4.通过“批次导出”功能导出失败的异常数据;

5.业务系统根据异常的数据以及异常原因进行数据丰富、调整等,完善数据;

6.MDM平台将完善后的数据再次导入,并根据导入结果导出失败数据;

7.重复步骤4~6,直至所有的主数据全部成功导如MDM平台;

8.将清洗完成的数据从MDM中导出,一方面在主数据的数据管理中导入,进行数据管理维护,另一方面提供给源头系统,由源头系统导入完成历史数据的编码映射。

4.后续内容

MDM数据清洗功能作为独立的功能模块,清洗完成后数据存储在数据清洗相关功能中,为了保证数据管理功能可以维护管理数据,还需要进行同步操作:

1.在数据清洗中将清洗后的数据全批次导出,将全量数据导出成Excel文件;

2.在主数据管理的数据导入中导入Excel文件,并同步至数据管理中;

3.下游系统的清洗方式和MDM的清洗类似,但是是由MDM导出标准数据,由系统系统进行处理和编码映射;

4.和下游系统集成时,全量数据由MDM通过Excel提供,或者下游系统手动调用MDM的全量接口实现数据获取。

编码集成

编码统一是主数据集成的一项重要内容,是主数据集成效果的有效体现,只有建立统一、标准、规范的编码体系,才能保证主数据在各个业务系统集成过程中能够有效进行匹配。

1.功能介绍

编码体系的建设是进行主数据规划的重要内容,在主数据项目前期进行项目规划时,就要对主数据的类别和编码进行设计,根据实际业务需要,统一规划主数据编码,并且需要保证主数据编码的唯一、标准、统一。

MDM主数据平台根据主数据建设需要,提供有编码规则功能,可以根据需求为每一类主数据制定编码规则,支持基于固定值、流水号、属性、日期时间等信息生成编码,并支持多条件组合构建。

2.集成模式

主数据编码的集成模式主要有两种:一是由源系统提供编码,二是由MDM平台生成编码。

1.源系统提供:由主数据的源头系统提供编码,MDM平台直接复用源系统的编码作为统一编码,MDM平台无需生成独立编码,同时向下游分发时,也分发源头系统提供的编码;

2.MDM生成编码:由MDM配置编码规则,统一生成标准编码,并作为上下游系统的统一编码进行集成;

3.如果采用源系统提供编码,源系统需要保证提供的编码具备唯一、标准、非空等特性,符合编码规范要求。

3.实现方式

MDM平台主数据编码的集成方式如下(以MDM平台生成编码为例进行说明):

1.为了保证数据编码的统一,源头系统需要扩展主数据编码字段用于存储主数据编码;

2.源头系统通过触发的方式推送数据,如果新增数据没有主数据编码时,直接不传编码即可;

3.推送的数据经ESB转换后同步MDM平台,MDM根据主数据编码进行数据更新,如果没有编码则根据编码规则生成编码;

4.主数据完成同步自动触发BPM流程推送,将数据以任务方式推送下游系统;

5.下游系统提供接收接口接收主数据,并根据主数据编码进行新增或更新;

6.下游系统完成数据写入后调用MDM日志接口进行日志回写。

4.注意事项

1.因为上下游系统集成时需要根据主数据编码进行判断新增或更新,所以主数据编码要具备唯一性,如果采用源系统提供编码,源系统必须保证主数据编码的唯一特性;

2.源头系统扩展的主数据编码字段主要用于存储主数据回写的编码,如果时源头系统新增的数据,主数据编码为空,推送数据时不传即可,MDM会自动根据编码规则生成编码;

3.对于源头系统的存量数据,需要在进行数据清洗时,将MDM清洗后的编码更新到系统中,保持源头系统和MDM历史数据的一致;

4.下游系统接收主数据时,也尽量采用主数据编码进行新增或更新判断,从而保持数据的一致性。

总结说明

主数据治理无论是对于企业的信息化建设还是实际项目的实施都是非常重要的,无论是单独主数据治理或业务集成项目,还是集成底座、数据中台、全局集成这种综合类项目,都是需要MDM参与并进行主数据治理的。

1.集成总结

MDM平台的集成主要就是通过和各个业务系统进行打通,实现主数据的全面管控,保证上下游系统可以公用同一套标准的主数据,而在集成过程中,主要的集成点就在于数据清洗、数据同步和数据分发。数据清洗是主数据集成的前提,只有做好历史数据的清洗工作,才能保证MDM和现有系统的有效集成,保证已有的历史数据是可用的,能够继续产生价值的;而数据同步和数据分发的过程中,主数据编码是至关重要的,无论是MDM接收还是下游系统接收,都需要基于编码进行判断,判断数据是存量数据还是新增数据,从而判断后续的数据处理过程。

2.平台价值

MDM作为基础数据管理平台,核心价值就是基础数据的全生命周期管理,而围绕这一核心价值,MDM提供了如数据管理、数据导入/导出、版本管理、质量管理、数据清洗、数据巡检、元数据管理、数据建模、功能建模、流程建模等一系列功能,从而支撑主数据的建设,保证企业的主数据建设是标准的、统一的、可复用的、可扩展的,能有效支撑企业的发展和信息化建设。

3.集成方案

在各个集成方案中MDM平台的主要作用就是基础数据治理,实现各业务系统基础数据的标准一致,从而支撑企业其他的平台和信息化建设,如跨系统业务集成时如果基础数据不一致,就无法将一个系统的业务单据快速准确的传递到两一个系统中;5A安全体系建设时如果没有统一标准的基础数据,就难以做到账户、认证、权限的统一;进行数据分析时如果基础数据不一致,那么来源于各个系统的业务数据就难以做到有效的汇聚、归集、整合。

总体而言,基础数据是企业业务系统建设的基础,而主数据治理则是企业系统集成的基础,只有做好主数据治理,实现主数据的同源、标准、统一,才能保证各个业务系统在集成过程中进行有效对接,保证业务数据可以进行关联、汇聚,从而为企业的信息一体化建设、深度数据挖掘、数字化转型等提供强有力的支撑。

本文由@数通畅联原创,欢迎转发,仅供学习交流使用,引用请注明出处!谢谢~

责任编辑: 鲁达

1.内容基于多重复合算法人工智能语言模型创作,旨在以深度学习研究为目的传播信息知识,内容观点与本网站无关,反馈举报请
2.仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证;
3.本站属于非营利性站点无毒无广告,请读者放心使用!

“数据清洗,数据清洗是什么意思,数据清洗的方法包括哪些”边界阅读