主數據的未來：動態、人工智能驅動、數據湖驅動

一、簡介

主數據管理(MDM)是確保跨組織數據一致、可靠的支柱，爲關鍵業務實體（例如客戶和產品等）建立單一事實來源。然而，傳統的MDM系統在適應快速發展的過程中面臨着挑戰。以新數據源和動態業務需求爲特徵的數據格局。

爲了應對這些挑戰，本文提出了一種由AI/ML技術和數據湖架構提供支持的前瞻性MDM方法。通過利用這些技術，組織可以克服傳統MDM系統的侷限性，並在管理主數據方面實現更高的適應性和準確性。

二.人工智能驅動的動態實體創建

傳統的MDM系統經常與預定義的實體結構作鬥爭，從而阻礙了它們適應新型主數據的能力。所提出的方法通過以下機制將活力引入實體創建：

自然語言處理(NLP)：NLP算法分析數據湖中的元數據、模式信息和數據樣本，以推斷潛在的新實體。命名實體識別和語義分析等技術有助於理解數據的結構和含義，從而促進新興數據實體的識別。

聚類算法：無監督機器學習聚類算法根據相似性對數據對象進行分組，提出可能對應於新主數據實體的邏輯分組。這種方法允許自動發現相關數據實體，而不依賴於預定義的結構。

用戶界面和數據管理：用戶友好的界面使數據管理員能夠審查、完善和批准人工智能建議的實體。這種協作方法可確保生成的實體與組織不斷發展的業務領域理解保持一致。

三．自適應模型訓練和細化

識別不同來源的重複記錄是一項基本的MDM功能。傳統的基於規則的系統經常難以應對現實世界數據的細微差別。所提出的方法採用AI/ML模型進行自適應模型訓練和細化：

監督學習：使用標記數據集訓練決策樹、隨機森林和神經網絡等模型，以學習區分匹配記錄的模式。這種監督方法提高了重複記錄識別的準確性。

主動學習和半監督技術：當新數據流進入MDM系統時，主動學習策略可識別人類專家標記的潛在匹配/不匹配。這種持續的反饋循環通過結合人類專業知識和解決數據變化，隨着時間的推移增強模型性能。

四．黃金記錄的創造

從匹配記錄創建“黃金記錄”需要採用細緻入微的方法來捕獲現實世界數據的複雜性。所提出的方法採用人工智能來創建概率性黃金記錄：

概率匹配：考慮數據相似性、新近度和來源可靠性，將置信度分數分配給潛在匹配。與基於規則的確定性邏輯相比，這種概率方法可以更準確地評估數據匹配。生存算法：“黃金記錄”的屬性是根據數據質量得分、業務規則和概率置信度得分確定的。這確保了最終的綜合記錄反映了來自不同來源的最準確和相關的信息。

五.數據湖作爲人工智能驅動的MDM的基礎

數據湖是人工智能驅動的MDM解決方案的堅實基礎，具有以下幾個關鍵優勢：

集中數據源：數據湖整合了來自各個系統的數據，確保MDM流程能夠使用全面的最新信息。可擴展性：數據湖可以處理大量和各種數據，這對於滿足不斷變化的業務需求和增加數據複雜性至關重要。架構靈活性：數據湖支持讀取時架構，無需複雜的架構重組即可實現動態MDM實體創建和更改，從而提高敏捷性和適應性。

六.總結

AI/ML技術與數據湖架構的集成代表了主數據管理的未來。通過採用這些技術，組織可以克服傳統MDM系統的侷限性，在管理主數據方面實現更大的適應性和準確性，並推動數字時代的創新。

本文來自微信公衆號“數據驅動智能”（ID：Data_0101），作者：曉曉，36氪經授權發佈。