摘要:數據挖掘是大數據知識發現(KDD)中不可缺少一部分,是大數據理論和應用中非常重要的一部分。數據挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中,提取隱含在其中的、人們事先不知道的、但潛在的有用信息和知識的過程。

當前,大數據的理論和應用正在國民經濟和生活的各個領域如火如荼的進行。很多人對大數據的基本概念和特點已經有所瞭解,那麼我們僅僅將大數據進行獲取、存儲、檢索和共享是不夠的,怎麼樣才能在大數據中找出未知的且有價值的信息和知識呢?

知識發現(KDD)就是從大數據中識別出有效的、新穎的、潛在有用的,以及最終可理解的模式的過程。

知識發現的流程圖

數據挖掘是大數據知識發現(KDD)中不可缺少一部分,是大數據理論和應用中非常重要的一部分。數據挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中,提取隱含在其中的、人們事先不知道的、但潛在的有用信息和知識的過程。大部分人是通過一個案例認識到數據挖掘:這是因爲沃爾瑪通過數據分析發現,男性顧客在購買嬰兒尿片時,常常會順便搭配幾瓶啤酒來犒勞自己,於是嘗試推出了將啤酒和尿布擺在一起的促銷手段;沒想到這個舉措居然使尿布和啤酒的銷量都大幅增加了。雖然這個故事很可能是假的, 但是確實讓不少人開始接觸數據挖掘。

數據挖掘基本框架

數據挖掘的最常用的幾種算法:

(1)預測建模:將已有數據和模型用於對未知變量的語言。

1)分類,用於預測離散的目標變量

2)迴歸,用於預測連續的目標變量

(2)聚類分析:發現緊密相關的觀測值組羣,使得與屬於不同簇的觀測值相比,屬於同一簇的觀測值相互之間儘可能類似。

(3)關聯分析(又稱關係模式):反映一個事物與其他事物之間的相互依存性和關聯性。用來發現描述數據中強關聯特徵的模式。

(4)異常檢測:識別其特徵顯著不同於其他數據的觀測值。

有時也把數據挖掘分爲:分類,迴歸,聚類,關聯分析。

數據挖掘的四種典型算法

數據挖掘和機器學習有區別,也有關係,我們將在以後的文章中對其進行介紹。

相關文章