此文是《10周入門數據分析》系列的第8篇

想了解學習路線,可以先閱讀“ 學習計劃 | 10周入門數據分析 ”

前一篇分享了統計學需要掌握的知識,在數據分析過程中,廣泛用於數據質量處理,分析模型構建以及數據挖掘。今天這篇文章將詳細講統計學中最基礎的描述統計。

試想,當你拿到一份數據會怎麼做?二話不說做個圖?

此前也無數次強調,拿到數據需要觀察數據情況和數據質量,對數據進行描述統計分析,以發現其內在的規律,再選擇進一步分析的方法。

什麼是描述性統計?

描述性統計分析要對調查總體所有變量的有關數據做統計性描述,主要包括數據的頻數分析、數據的集中趨勢分析、數據離散程度分析、數據的分佈、以及一些基本的統計圖形。

常用的指標有均值、中位數、衆數、方差、標準差等等。數據的集中趨勢一般採用平均值、中位數表示。數據的離散程度一般採用方差、標準差表示。數據的分佈情況一般採用直方圖表示。

具體概念前一篇有做詳解,就不贅述了。接下來我將用Excel來分別解釋每一種統計方法的應用以及這些統計方法在Excel中的實現方式。

Excel數據分析工具庫

專業的統計分析工具有SPSS,R或Python,但對於大部分新手一天兩天比較難上手。永遠不要忘記萬能的Excel,Excel 2016 裏自帶以了一個統計分析工具——“分析工具庫”。實際上就是一個外部宏(程序)模塊,專門爲用戶提供一些高級統計函數和實用的數據分析工具。

分析工具庫內置了19個模塊,可以分爲以下幾大類:

不可不知的描述性統計

加載EXCEL分析工具庫

首先你得要有Excel 2016 。( 文末有獲取方式 )

安裝好2016版後,文件—選項—切換到“加載項”選項卡,在“管理”下拉列表中選擇“EXCEL加載項”選項,單擊“轉到”按鈕,跳轉到如下“加載宏”對話框,勾選“分析工具庫”複選框,再單擊“確定”按鈕

不可不知的描述性統計

以上一波操作後,“數據”選項卡中會顯示出添加的“數據分析”功能。

不可不知的描述性統計

案例分析:

現在有一份北京房價數據:

1)北京市政府爲調控房地產價格,希望知道北京各小區房屋價格的分佈,請分析房地產價格的集中趨勢,並選擇合適的圖形呈現。

2)房地產商想知道北京各個環線房屋裝修狀況的對比情況,以便進行產品設計和市場拓展,計算指標並設計合適的圖形呈現結果,最後給房地產商一些建議。

3)選擇合適的圖形反映北京各個區住宅區房屋分佈情況

操作步驟:

基本描述統計打開excel數據文件選擇描述統計,單擊“確定”按鈕。不可不知的描述性統計

隨後,就會生成如下的統計分析結果,就省得一個個函數去計算了。

不可不知的描述性統計

直方圖

根據描述統計的結果,在空白列構造間隔爲0.5的等差數列作爲接收區域D1:D19,最大值爲9,最小值爲0。

不可不知的描述性統計

選擇數據,單擊“數據”選項卡,選擇“數據分析”選項框中的“直方圖”選項

輸入區域選擇房屋價格avgprice列$B$2:$B$186,接收區域選擇第一步構造的接收數據,即D1:D19數據。

輸出區域選擇G3,勾選圖表輸出,然後單擊“確定”按鈕。

不可不知的描述性統計

不可不知的描述性統計

選中整個直方圖,右鍵單擊選擇“設置數據系列格式”,單擊“系列選項”,分類間距設爲0。

可以看出,北京的房價普遍分佈在2W~4.5W,2.5W佔絕大多數。

關於直方圖

直方圖是描述統計中很常見的一個應用,不同直方圖代表的業務意義不同。

不可不知的描述性統計

箱型圖

對於數據的離散情況,還有一個更直觀的方法,就是箱線圖。箱線圖利用6個指標描述數據的離散情況。這6個指標分別是最小值,第一四分位數、中位數、第三四分位數與最大值和異常值。

中位數:中位數是一組從小到大排序數據中位置在最中間的一個數據(兩個數據取均值)。第1(下)四分位數:第1四分位數與中位數算法類似,是對一組數據中50%數據再取中位數。一組數據中如果有25%的數據小於這個數,那麼這個數是第1四分位數。第3(上)四分位數:一組數據中如果有75%的數據小於這個數據,那麼這個數是第3四分位數。異常值:異常值是指這個數據與四分位數的差達到5倍的值。箱線圖中異常值的表示方法有兩種,1.5倍-3倍差之間用空心的點表示。超過3倍的異常值,用實心點表示。上限和下限數:除了異常值之外,最靠近上邊緣和下邊緣的兩個數值爲上限數和下限數。不可不知的描述性統計

現在來了解北京各區的房價分析,把他加工成箱型圖,這也是最常用的描述統計圖表。

Excel 2016 可以直接製作箱型圖。Excel的箱型圖定位6個數據:最大值、最小值、中位數、上四分位數、下四分位數、平均值,還有異常值。

操作步驟:

1、選擇所要統計的數據,即均價。

2、選擇箱型圖

不可不知的描述性統計

3、“選擇數據源”中,水平分類軸加上“區域”,如下

不可不知的描述性統計

調整一下樣式得到如下箱型圖。

不可不知的描述性統計

中間黑色出現是各區域中游水平的房價標準(中位數);x是全區域的平均房價水平(平均值);箱型上端代表中上游水平;箱型下端代表中下游水平,以此類推。簡而言之,房價分佈被四等分了。

我們來解讀一下:朝陽區的房價分佈範圍較廣,高低值差異較大,可能和橫跨多環有關,整體平均水平位於四區域前列。海淀區平均房價次之,但也不低。豐臺區房價分佈較爲集中且偏態較小,跨度相對較小。通州區很明顯整體房價最低。

這張圖能一眼看出不少內容,想必大家已經明白箱線圖的作用了,它能讀出數據的整體分佈和傾斜趨勢(偏態)。

到這裏,描述統計的內容就結束了。描述統計是分析數據的一種技巧,包含數據的集中度量(平均數、中位數、衆數)、數據的離散(方差、標準差)、數據的分佈(箱線圖、條形圖、直方圖)三塊。

此文是《10周入門數據分析》系列的第8篇。

想了解學習路線,可以前往公衆號先行閱讀“ 學習計劃 | 10周入門數據分析

文章中Excel 2016 及數據,公衆號後臺回覆【描述統計】即可獲得下載!

相關文章