淺談數據挖掘的基本概念及其最常用算法

摘要：數據挖掘是大數據知識發現（KDD）中不可缺少一部分，是大數據理論和應用中非常重要的一部分。數據挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中，提取隱含在其中的、人們事先不知道的、但潛在的有用信息和知識的過程。

當前，大數據的理論和應用正在國民經濟和生活的各個領域如火如荼的進行。很多人對大數據的基本概念和特點已經有所瞭解，那麼我們僅僅將大數據進行獲取、存儲、檢索和共享是不夠的，怎麼樣才能在大數據中找出未知的且有價值的信息和知識呢？

知識發現（KDD）就是從大數據中識別出有效的、新穎的、潛在有用的，以及最終可理解的模式的過程。

知識發現的流程圖

數據挖掘是大數據知識發現（KDD）中不可缺少一部分，是大數據理論和應用中非常重要的一部分。數據挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中，提取隱含在其中的、人們事先不知道的、但潛在的有用信息和知識的過程。大部分人是通過一個案例認識到數據挖掘：這是因爲沃爾瑪通過數據分析發現，男性顧客在購買嬰兒尿片時，常常會順便搭配幾瓶啤酒來犒勞自己，於是嘗試推出了將啤酒和尿布擺在一起的促銷手段；沒想到這個舉措居然使尿布和啤酒的銷量都大幅增加了。雖然這個故事很可能是假的, 但是確實讓不少人開始接觸數據挖掘。