一、简介

主数据管理(MDM)是确保跨组织数据一致、可靠的支柱,为关键业务实体(例如客户和产品等)建立单一事实来源。然而,传统的MDM系统在适应快速发展的过程中面临着挑战。以新数据源和动态业务需求为特征的数据格局。

为了应对这些挑战,本文提出了一种由AI/ML技术和数据湖架构提供支持的前瞻性MDM方法。通过利用这些技术,组织可以克服传统MDM系统的局限性,并在管理主数据方面实现更高的适应性和准确性。

二.人工智能驱动的动态实体创建

传统的MDM系统经常与预定义的实体结构作斗争,从而阻碍了它们适应新型主数据的能力。所提出的方法通过以下机制将活力引入实体创建:

自然语言处理(NLP):NLP算法分析数据湖中的元数据、模式信息和数据样本,以推断潜在的新实体。命名实体识别和语义分析等技术有助于理解数据的结构和含义,从而促进新兴数据实体的识别。

聚类算法:无监督机器学习聚类算法根据相似性对数据对象进行分组,提出可能对应于新主数据实体的逻辑分组。这种方法允许自动发现相关数据实体,而不依赖于预定义的结构。

用户界面和数据管理:用户友好的界面使数据管理员能够审查、完善和批准人工智能建议的实体。这种协作方法可确保生成的实体与组织不断发展的业务领域理解保持一致。

三.自适应模型训练和细化

识别不同来源的重复记录是一项基本的MDM功能。传统的基于规则的系统经常难以应对现实世界数据的细微差别。所提出的方法采用AI/ML模型进行自适应模型训练和细化:

监督学习:使用标记数据集训练决策树、随机森林和神经网络等模型,以学习区分匹配记录的模式。这种监督方法提高了重复记录识别的准确性。

主动学习和半监督技术:当新数据流进入MDM系统时,主动学习策略可识别人类专家标记的潜在匹配/不匹配。这种持续的反馈循环通过结合人类专业知识和解决数据变化,随着时间的推移增强模型性能。

四.黄金记录的创造

从匹配记录创建“黄金记录”需要采用细致入微的方法来捕获现实世界数据的复杂性。所提出的方法采用人工智能来创建概率性黄金记录:

概率匹配:考虑数据相似性、新近度和来源可靠性,将置信度分数分配给潜在匹配。与基于规则的确定性逻辑相比,这种概率方法可以更准确地评估数据匹配。生存算法:“黄金记录”的属性是根据数据质量得分、业务规则和概率置信度得分确定的。这确保了最终的综合记录反映了来自不同来源的最准确和相关的信息。

五.数据湖作为人工智能驱动的MDM的基础

数据湖是人工智能驱动的MDM解决方案的坚实基础,具有以下几个关键优势:

集中数据源:数据湖整合了来自各个系统的数据,确保MDM流程能够使用全面的最新信息。可扩展性:数据湖可以处理大量和各种数据,这对于满足不断变化的业务需求和增加数据复杂性至关重要。架构灵活性:数据湖支持读取时架构,无需复杂的架构重组即可实现动态MDM实体创建和更改,从而提高敏捷性和适应性。

六.总结

AI/ML技术与数据湖架构的集成代表了主数据管理的未来。通过采用这些技术,组织可以克服传统MDM系统的局限性,在管理主数据方面实现更大的适应性和准确性,并推动数字时代的创新。

本文来自微信公众号“数据驱动智能”(ID:Data_0101),作者:晓晓,36氪经授权发布。

相关文章