全文共 2427 字,預計學習時長 8 分鐘

圖源:unsplash

作爲新晉風口“AI”和“機器學習”,無論是商業領導人、創業者、天使投資人、企業中層管理人員、黑客馬拉松的裁判還是“技術”相關人員,都有可能面對這種情況:有人試圖“推銷”他們的“AI產品”、“機器學習軟件”或者其他時髦詞彙的花哨組合。

如果陷入這樣的境地,有時你會感到專業知識不足,無法妥善決策。

堅守陣地,不要被嚇倒了!以下七條常識可以幫你從捕捉信號,看穿誇誇其談的說辭,識破騙局和謊言。

1.“我們用AI來…”

愛因斯坦說“不能簡明地解釋一件事,說明你對它懂得不夠多。”

如果有人說到“AI”這一包羅萬象的概念,請小心,這有可能是花哨的推銷。當然啦,也有可能是真的爲了避免顧客煩心,因此省略了令人痛苦的複雜細節。

可以先假定他們無罪,但是要深挖細節,多瞭解一下具體使用了哪個機器學習模型,並讓他們通過類比解釋。

你可以問問他們這些問題:

1.  爲什麼選擇這一方案,不選其他方案?

2.  爲什麼對於這些數據,這個方案勝過其他方案?

3.  是否有人解決過類似的問題?如果有,他們採用了什麼方法?

4.  有試過別的方法(模型/算法/技術)嗎?結果與現在的方案有什麼不同?(如果可以的話,要求提供圖表作爲證據)

儘管沒必要一開始就明白所有問題的答案,但是我們應該問問題,儘可能地弄清楚、搞明白。筆者還沒有遇到過哪個機器學習概念是無法用類比解釋的。因此,如果覺得談論太多技術細節太過困難,就要求進一步的解釋。這樣仔細的審查不僅能加深理解,也能展示該方案的思路。

2.無用輸入,無用輸出

圖源: https://media.tenor.com

“除了上帝,我只相信(優質)數據。”——愛德華茲·戴明

只有優質的數據,才能得到優秀的模型。因此,你應確認用於訓練機器學習模型的數據質量。雖然“質量”難以定義,但有一個簡單的方法可以瞭解訓練數據的質量,問問他:與模型在“現實世界”處理的數據相比,訓練數據的相似度和代表性如何?

無論一個機器學習模型有多花哨、多前沿,如果用於訓練的數據質量堪憂,結果必然極其糟糕。

3.適者生存

上世紀90年代到本世紀初,電子收件箱的垃圾郵件過濾器會尋找拼寫錯誤和其他明顯的跡象,自動將垃圾郵件放入垃圾郵件文件夾。

現在,垃圾郵件製造者變得更聰明瞭,垃圾郵件也越來越難檢測了。現在的電子郵件服務商必須適應這一趨勢,採用更精密的機器學習模型,準確識別垃圾郵件。

圖源:unsplash

有一點我們必須明白:隨着時代變化以及輸入數據迭代,機器學習模型是否能夠無障礙地用新數據重新訓練,或者用更出色的模型替代。這很重要,顧客應該知道他們購買的方案是否有“有效期”。

4.用正確的標準衡量正確的東西

圖源:unsplash

衡量機器學習模型的分類性能標準當中,準確性是非常常見的標準。例如,對於分類貓和狗圖片的機器學習模型來說,96%的準確率可以說非常出色。這意味着在100張貓和狗的圖片中,模型能夠準確地猜出其中96張。

現在,假設某銀行將同樣的標準應用於對欺詐交易的識別。欺詐識別器可以輕鬆達到96%的準確率,因爲欺詐交易十分罕見。然而識別欺詐交易並不是96%的正確識別就足夠了,而是要降低出錯率,錯誤識別4%的欺詐交易會帶來很大的危害。

對於銀行欺詐的例子來說,假負率比準確率更能反映模型的性能。根據不同問題的要求,可以用其他的標準替代準確率,比如精確率、召回率、特異性和F1值等。你必須留心他是否運用正確的指標,如果可能的話,可以使用多種指標。

5.更多,更多,更多!

一般來說,在其他條件不變的情況下,用於訓練的數據越多,模型的表現就越好,深度學習模型尤其如此。它就好比備考SAT的高中生,如果做了大量的練習,練習了各種各樣的問題,就更有可能在SAT考試中取得好成績。

圖源:unsplash

獲得(足夠)數據之前就形成理論是一個重大的錯誤。重要的是,確保任何機器學習模型都有足夠的數據用於訓練。多少數據纔算夠呢?多多益善!理想情況下,數據應該來源可靠,而且必須物盡其用。

6.可解釋性

在機器學習中,往往需要在追求卓越模型性能和簡要解釋模型運行之間保持平衡,低性能模型尤其如此。一般來說,對於複雜的數據,模型越精密、越複雜就越好。然而,因爲這些模型更加複雜,解釋輸入數據對輸出結果的影響也就更加困難。

舉個例子,假設要用非常複雜的機器學習模型預測某產品的銷量。輸入模型的數據是電視、報紙和廣播的廣告開支。這個複雜模型能夠給出非常準確的銷量預測,但是無法解釋這3種推廣渠道,即電視、廣播和報紙,哪個對銷量的影響最大、哪個更值得投入。

另一方面,更簡單的模型可能結果沒有那麼準確,但是能夠解釋哪個渠道更值得投入。顧客必須有平衡模型性能和可解釋性的意識。這很重要,因爲如何在可解釋性和性能之間取得平衡取決於目的,因此使用模型的人必須做出決定。

7.那麼…你有什麼優點和缺點?

圖源: https://i2.wp.com

這是企業面試時常問的問題。在評估機器學習方案時,優缺點問題非常有用。如果有人推薦某個機器學習方案,一定要問問他們這個方案的侷限性:

1.  採用這一方案是否利大於弊?

2.  該方案的侷限性將來是否會影響其性能?

成功的關鍵在於瞭解自身弱點併成功地彌補弱點。缺乏這一能力的人總是失敗。站在採用高效、可持續的機器學習方案的角度來說,瞭解其侷限性對於其成功至關重要。

不僅如此,要求推薦者說明方案的侷限性也能反映透明度的問題。這反映出推薦這一方案的人考慮有多細緻、是否值得信任。

如你所見,識破謊言的關鍵之處就是不要慌張,大膽提問吧!詢問、澄清、仔細審查所有不確定的東西。依靠這7條建議,你可以強化理解並全面評估機器學習方案。答不上來這些問題的推銷者們,還不快快現身!

推薦閱讀專題

留言點贊發個朋友圈

我們一起分享AI學習與發展的乾貨

編譯組:蔡思齊、周果

相關鏈接:

https://towardsdatascience.com/7-ways-to-catch-a-data-scientists-lies-and-deception-5eaae79d2303

如轉載,請後臺留言,遵守轉載規範

推薦文章閱讀

相關文章