面對到處兜售的“AI”和“機器學習”，7條原則幫你識破騙局！

全文共 2427 字，預計學習時長 8 分鐘

圖源：unsplash

作爲新晉風口“AI”和“機器學習”，無論是商業領導人、創業者、天使投資人、企業中層管理人員、黑客馬拉松的裁判還是“技術”相關人員，都有可能面對這種情況：有人試圖“推銷”他們的“AI產品”、“機器學習軟件”或者其他時髦詞彙的花哨組合。

如果陷入這樣的境地，有時你會感到專業知識不足，無法妥善決策。

堅守陣地，不要被嚇倒了！以下七條常識可以幫你從捕捉信號，看穿誇誇其談的說辭，識破騙局和謊言。

1.“我們用AI來…”

愛因斯坦說“不能簡明地解釋一件事,說明你對它懂得不夠多。”

如果有人說到“AI”這一包羅萬象的概念，請小心，這有可能是花哨的推銷。當然啦，也有可能是真的爲了避免顧客煩心，因此省略了令人痛苦的複雜細節。

可以先假定他們無罪，但是要深挖細節，多瞭解一下具體使用了哪個機器學習模型，並讓他們通過類比解釋。

你可以問問他們這些問題：

1. 爲什麼選擇這一方案，不選其他方案？

2. 爲什麼對於這些數據，這個方案勝過其他方案？

3. 是否有人解決過類似的問題？如果有，他們採用了什麼方法？

4. 有試過別的方法（模型/算法/技術）嗎？結果與現在的方案有什麼不同？（如果可以的話，要求提供圖表作爲證據）

儘管沒必要一開始就明白所有問題的答案，但是我們應該問問題，儘可能地弄清楚、搞明白。筆者還沒有遇到過哪個機器學習概念是無法用類比解釋的。因此，如果覺得談論太多技術細節太過困難，就要求進一步的解釋。這樣仔細的審查不僅能加深理解，也能展示該方案的思路。

2.無用輸入，無用輸出

圖源： https://media.tenor.com

“除了上帝，我只相信（優質）數據。”——愛德華茲·戴明

只有優質的數據，才能得到優秀的模型。因此，你應確認用於訓練機器學習模型的數據質量。雖然“質量”難以定義，但有一個簡單的方法可以瞭解訓練數據的質量，問問他：與模型在“現實世界”處理的數據相比，訓練數據的相似度和代表性如何？

無論一個機器學習模型有多花哨、多前沿，如果用於訓練的數據質量堪憂，結果必然極其糟糕。

3.適者生存

上世紀90年代到本世紀初，電子收件箱的垃圾郵件過濾器會尋找拼寫錯誤和其他明顯的跡象，自動將垃圾郵件放入垃圾郵件文件夾。

現在，垃圾郵件製造者變得更聰明瞭，垃圾郵件也越來越難檢測了。現在的電子郵件服務商必須適應這一趨勢，採用更精密的機器學習模型，準確識別垃圾郵件。

圖源：unsplash

有一點我們必須明白：隨着時代變化以及輸入數據迭代，機器學習模型是否能夠無障礙地用新數據重新訓練，或者用更出色的模型替代。這很重要，顧客應該知道他們購買的方案是否有“有效期”。

4.用正確的標準衡量正確的東西

圖源：unsplash

衡量機器學習模型的分類性能標準當中，準確性是非常常見的標準。例如，對於分類貓和狗圖片的機器學習模型來說，96%的準確率可以說非常出色。這意味着在100張貓和狗的圖片中，模型能夠準確地猜出其中96張。

現在，假設某銀行將同樣的標準應用於對欺詐交易的識別。欺詐識別器可以輕鬆達到96%的準確率，因爲欺詐交易十分罕見。然而識別欺詐交易並不是96%的正確識別就足夠了，而是要降低出錯率，錯誤識別4%的欺詐交易會帶來很大的危害。

對於銀行欺詐的例子來說，假負率比準確率更能反映模型的性能。根據不同問題的要求，可以用其他的標準替代準確率，比如精確率、召回率、特異性和F1值等。你必須留心他是否運用正確的指標，如果可能的話，可以使用多種指標。

5.更多，更多，更多！

一般來說，在其他條件不變的情況下，用於訓練的數據越多，模型的表現就越好，深度學習模型尤其如此。它就好比備考SAT的高中生，如果做了大量的練習，練習了各種各樣的問題，就更有可能在SAT考試中取得好成績。

圖源：unsplash

獲得（足夠）數據之前就形成理論是一個重大的錯誤。重要的是，確保任何機器學習模型都有足夠的數據用於訓練。多少數據纔算夠呢？多多益善！理想情況下，數據應該來源可靠，而且必須物盡其用。

6.可解釋性

在機器學習中，往往需要在追求卓越模型性能和簡要解釋模型運行之間保持平衡，低性能模型尤其如此。一般來說，對於複雜的數據，模型越精密、越複雜就越好。然而，因爲這些模型更加複雜，解釋輸入數據對輸出結果的影響也就更加困難。

舉個例子，假設要用非常複雜的機器學習模型預測某產品的銷量。輸入模型的數據是電視、報紙和廣播的廣告開支。這個複雜模型能夠給出非常準確的銷量預測，但是無法解釋這3種推廣渠道，即電視、廣播和報紙，哪個對銷量的影響最大、哪個更值得投入。

另一方面，更簡單的模型可能結果沒有那麼準確，但是能夠解釋哪個渠道更值得投入。顧客必須有平衡模型性能和可解釋性的意識。這很重要，因爲如何在可解釋性和性能之間取得平衡取決於目的，因此使用模型的人必須做出決定。

7.那麼…你有什麼優點和缺點？

圖源： https://i2.wp.com

這是企業面試時常問的問題。在評估機器學習方案時，優缺點問題非常有用。如果有人推薦某個機器學習方案，一定要問問他們這個方案的侷限性：

1. 採用這一方案是否利大於弊？

2. 該方案的侷限性將來是否會影響其性能？

成功的關鍵在於瞭解自身弱點併成功地彌補弱點。缺乏這一能力的人總是失敗。站在採用高效、可持續的機器學習方案的角度來說，瞭解其侷限性對於其成功至關重要。

不僅如此，要求推薦者說明方案的侷限性也能反映透明度的問題。這反映出推薦這一方案的人考慮有多細緻、是否值得信任。

如你所見，識破謊言的關鍵之處就是不要慌張，大膽提問吧！詢問、澄清、仔細審查所有不確定的東西。依靠這7條建議，你可以強化理解並全面評估機器學習方案。答不上來這些問題的推銷者們，還不快快現身！

推薦閱讀專題

留言點贊發個朋友圈

我們一起分享AI學習與發展的乾貨

編譯組：蔡思齊、周果

相關鏈接：

https://towardsdatascience.com/7-ways-to-catch-a-data-scientists-lies-and-deception-5eaae79d2303

如轉載，請後臺留言，遵守轉載規範

推薦文章閱讀

面對到處兜售的“AI”和“機器學習”，7條原則幫你識破騙局！

熱門新聞

週熱門

面對到處兜售的“AI”和“機器學習”，7條原則幫你識破騙局！

通用動力部門獲價值9.22億美元的IT基礎設施合同

創識科技(300941.SZ)：目前暫未開展在AI訓練和機器學習領域業務和佈局

機器學習領域專家顏水成宣佈加盟崑崙萬維

資深行業高管：這一輪AI浪潮纔開始，距離峯值還遠着呢

AI選股到底行不行？橋水CIO：ChatGPT仍存在較大瑕疵

蘋果機器學習關鍵人物 Ali Farhadi 離職，出任 AI2 機構 CEO

馬斯克諷刺人工智能炒作：什麼“機器學習”，其實就是統計

ChatGPT引發產業變革，百融雲創提前佈局“AI+金融”賽道

Geekbench 6針對混合CPU和機器學習進行了調整

我科學家在超導系統中實現量子對抗機器學習

馬斯克裁撤推特一半員工，賠3個月工資趕人，傳機器學習團隊90%成員失業

前沿技術層出不窮：中電金信發佈三款AI產品，中國降本增效優勢明顯

葛越：機器學習對蘋果產品創新至關重要，在兩個領域潛力明顯

葛越：利用機器學習 幫助所有人創建一個更健康 更可及的未來

蘋果汽車無源進入專利公佈 移動設備可與車輛交互

熱門新聞

週熱門

葛越：利用機器學習幫助所有人創建一個更健康更可及的未來

蘋果汽車無源進入專利公佈移動設備可與車輛交互