蕭簫 發自 凹非寺

量子位 報道 | 公衆號 QbitAI

你是否也在朋友圈看過這樣的小廣告:

「你要悄悄學Python,然後驚豔所有人。」

現在,GitHub上一位博主告訴你:不用學,用 sweetviz 就行。

這是一個基於Python編寫的數據分析軟件,只要掌握3種函數用法,一行Python代碼就能實現 數據集可視化、分析與比較

我們以Titanic數據集爲例,輸入一行代碼:

一個 1080p 的清晰網頁界面就出現在了眼前。

不僅根據性別、年齡等不同欄目縱向分析數據,每個欄目下還有衆數、最大值、最小值等橫向對比。

所有輸入的數值、文本信息都會被自動檢測,並進行數據分析、可視化和對比,最後幫你進行數據總結。

在這樣的數據分析下,結果一目瞭然。

Titanic數據集部分功能細節展示

這樣的效果,是基於3個主函數實現的。

3種函數用法

analyze()丨數據分析

數據分析函數中,有4個參數source,target_feat,feat_cfg和pairwise_analysis需要被設置。

source:以pandas中的DataFrame數據結構、或是DataFrame中的某一類字符串作爲分析對象。

target_feat:需要被標記爲目標對象的字符串。

feat_cfg:需要被跳過、或是需要被強制轉換爲某種數據類型的特徵。

pairwise_analysis:相關性和其他類型的數據關聯可能需要花費較長時間。如果超過了某個閾值,就需要設置這個參數爲on或者off,以判斷是否需要分析數據相關性。

數據相關性分析效果,可能需要花費一定時間

compare()丨兩個數據集比較

如果想要對兩個數據集進行對比分析,就使用這個比較函數。

例子中的my_dataframe和test_df是兩個數據集,分別被命名爲訓練數據和測試數據。

除了這個被插入的數據集,剩餘的參數與analyze中的一致。

compare_intra()丨數據集欄目比較

想要對數據集中某個欄目下的參數進行分析,就採用這個函數進行。

例如,如果需要比較“性別”欄目下的“男性”和“女性”,就可以採用這個函數。

理解這幾種函數的變量後,一行代碼就能實現Python數據分析。

使用指南

sweetviz支持Python 3.6+和Pandas0.25.3+環境,配置好環境後,使用萬能的pip下載安裝包:

但有一個條件需要注意:sweetviz需要用到基礎「os」模塊。所以,如果你在使用類似於Google Colab的自定義環境,可能會無法使用sweetviz,目前開發者也在探索解決方案。

下載好後,使用import快速導入sweetviz,就可以開始使用了~

sweetviz使用的原理是,使用一行代碼,生成一個數據報告的對象 (其中,my_dataframe是pandas中的DataFrame,一種表格型數據結構)

在這裏,analyze函數可以被替換爲compare或compare_intra函數,使用方法在上面已經給出,全看你需要什麼類型的數據報告了。

最後,用show一鍵輸出。 (結果會以SWEETVIZ_REPORT.html網頁形式展示)

由於在這個過程中,實際上真正需要編寫的只有第二行的生成對象代碼,可以說是名副其實的1行代碼生成數據分析。

展示界面也非常簡潔,只要鼠標停留在感興趣的欄目上,右側就會自動顯示出數據分析的圖表和報告。

感興趣的小夥伴,快戳下方的傳送門用起來吧~

傳送門:

https://github.com/fbdesignpro/sweetviz

— 完 —

本文系網易新聞•網易號特色內容激勵計劃簽約賬號【量子位】原創內容,未經賬號授權,禁止隨意轉載。

瞭解AI發展現狀,抓住行業發展機遇

每個工作日,量子位AI內參精選全球科技和研究最新動態,彙總新技術、新產品和新應用,梳理當日最熱行業趨勢和政策,搜索有價值的論文、教程、研究等。

同時,AI內參羣爲大家提供了交流和分享的平臺,更好地滿足大家獲取AI資訊、學習AI技術的需求。掃碼即可訂閱:

AI社羣 | 與優秀的人交流

量子位  QbitAI · 頭條號簽約作者

վ'ᴗ' ի 追蹤AI技術和產品新動態

喜歡就點「在看」吧 !

相關文章