摘要:爲了得到我們的似然比,我們需要兩個不同的概率來計算任何單詞的出現:一個在垃圾郵件中,另一個在合法郵件中。我們發現了,強大的貝葉斯規則就是: 後驗概率=似然比×先驗概率。

本文素材來自芬蘭政府官方免費發佈的網絡課程《人工智能簡介》當中對貝葉斯原理的介紹  course.elementsofai.com

實世界中,很少有明確的事情。除了完美的信息,還有很多未知的可能性,從丟失信息到故意欺騙。

以自動駕駛汽車爲例-你可以設定一個目標,從A到B,以一種高效和安全的方式,遵循所有的交通法規。但如果交通狀況比預期的更糟,比如因爲前方發生了事故,會發生什麼呢?突然的壞天氣呢?一個在街上蹦蹦跳跳的球?或者一塊垃圾直接飛進汽車的攝像頭?

自動駕駛汽車需要使用各種傳感器,包括像聲納一樣的傳感器和攝像頭,來檢測它在哪裏以及周圍的情況。這些傳感器從來都不是完美的,因爲來自傳感器的數據總是包含一些錯誤和不準確,稱爲“噪聲”。通常情況下,一個傳感器指示前方道路左轉,而另一個傳感器指示相反方向。即便只存在輕微大的噪聲,這些矛盾都需要在不停車的情況下解決。

現代人工智能方法在現實世界問題中實際有效的原因之一是它們處理不確定性的能力,而不是19世紀60年代早期的大多數“老式”方法:

在人工智能的歷史上,處理不確定和不精確信息的方式有很多種。例如,你可能聽說過 模糊邏輯 。模糊邏輯曾一度是處理不確定和不精確信息的最佳方法的競爭者,並用於許多應用中。

例如洗衣機,在洗衣機中,洗衣機可以檢測到髒物(一個程度的問題,不僅是髒的或乾淨的),並相應地調整程序。

然而,概率已經被證明是在不確定條件下進行推理的最佳方法,而且幾乎所有當前的人工智能應用至少在某種程度上都是基於概率的。

爲什麼概率很重要呢?

我們可能最熟悉概率在遊戲中的應用:在撲克中得到三個A的概率是多少(大約1/46),在彩票中獲勝的概率是多少(非常小),等等。

然而,更重要的是,概率也可以用來量化和比較日常生活中的風險:如果你超速,撞車的幾率有多大,抵押貸款利率在未來5年內上升5個百分點的幾率有多大,或者人工智能將自動執行特定任務的可能性有多大…

關於概率的最重要的一課不是概率演算。相反,它是一種將不確定性視爲至少在原則上可以量化的東西的能力。這意味着我們可以像談論數字一樣談論不確定性:數字可以被比較(“ 這件事比那件事更可能嗎? ”),而且它們常常可以被測量。

測量概率是很困難的:我們通常需要對一個現象進行大量觀察才能得出結論。

然而,通過系統地收集數據,我們可以批判性地評估概率陳述。換言之, 爲了讓不確定性不超出理性思考和討論的範圍,概率提供了一種系統的方法來做到這一點。

不確定性可以量化這一事實至關重要,例如,爲疫苗接種制定公共政策。在進入市場之前,任何一種疫苗都要經過臨牀測試,這樣它的益處和風險都被量化了。這些風險從來就不爲人所知,但通過臨牀測試,足夠優秀的疫苗,足以證明其收益是否大於風險。

如果我們認爲不確定性是無法量化或測量的,那麼不確定性方面可能成爲理性討論的障礙。

例如,我們可能會爭辯說,由於我們不清楚疫苗是否會產生有害的副作用,所以使用疫苗太危險了。然而,這可能會導致我們忽視一種危及生命的疾病,這種疾病將被疫苗根除。在大多數情況下,收益和風險被充分精確地知道,以清楚地看到一個比另一個更重要。

以上思考在許多日常場景和專業領域都很有用:例如,醫生、法院法官或投資者必須處理不確定的信息,並根據這些信息做出合理的決定。

發生比和概率

所謂發生比(Odds),我們指的是例如3:1(三對一),這意味着我們期望一個結果的每三個案例,例如贏了一個賭注,就有一個相反結果的案例。

另一種表達同樣觀點的方式是說獲勝的概率是3/4(四分之三)。有了完整的數字,很容易想象,例如,四個人中,三個人的眼睛是棕色的。或者四天中三天下雨。

爲什麼我們使用發生比而不是百分比?(概率)

即使發生比可以用小數0.2來表示,也不同於20%的概率(或用數學家的符號表示的概率0.2)。發生率1:5意味着你必須打六次比賽才能平均贏得一場比賽。20%的概率意味着你必須打五場比賽才能平均獲得一場勝利。

例如5:1,我們很容易識別,我們並不是在處理概率,因爲任何概率都不能大於1(或大於100%),但是對於小於1的概率,例如1:5,概念混亂的危險就潛伏在角落裏。 所以一定要知道我們什麼時候在談論發生比,什麼時候在談論概率。

貝葉斯規則

這個特別的公式是既簡單和優雅,以及難以置信的強大。它可以用來衡量醫學、法庭和許多(如果不是全部)科學學科中相互矛盾的證據。該公式稱爲Bayes規則(或Bayes公式)。

首先,我們將通過一個簡單的醫學診斷問題來展示貝葉斯規則的威力,在這個問題中,我們的直覺很難將相互矛盾的證據結合起來。然後我們將展示如何使用Bayes規則來構建能夠處理衝突和噪聲觀測的人工智能方法。

先驗概率和後驗概率

貝葉斯規則可以用多種形式表示,最簡單的一個是概率。

我們的想法是對發生的事情(與未發生的事情相反)進行概率計算,我們將其寫爲先驗概率。 prior 這個詞指的是我們在獲得一些可能相關的新信息之前對概率的評估。

公式的目的是在新信息可用時更新先驗概率,以獲得後驗概率,或獲得信息後的賠率(後驗的字典含義是“之後的某物,以後的某物”)

以今天晚些時候下雨的可能性爲例,想象一下在早晨起牀的情景。

365天中有206天下雨(包括雨、雪和冰雹)。因此,不下雨的天數爲159天。這將轉化爲先前的206:159的發生比,所以在你睜開眼睛之前,賭局就已經對你不利了。

然而,睜開眼睛向外看一眼後,你會發現天陰沉沉的。假設雨天早晨多雲的概率是10分之9,這意味着10天中只有一天的天空是藍色的。但有時也有不下雨的雲:在不下雨的日子有云的概率是十分之一。現在下雨天出現雲層的概率比不下雨天高多少?

答案是,下雨天出現雲彩的幾率是不下雨天的九倍,而在不下雨天出現雲彩的幾率是不下雨天的十分之一,這就使今天出現雲彩的幾率增加了九倍。

似然比

上述比率(雨天出現雲層的幾率是雨天的9倍)稱爲似然比。更一般地說,似然比是當發生感興趣的事件(雨)時觀測的概率,除以沒有事件(沒有雨)時觀測的概率。

所以我們得出結論,在多雲的早晨,我們有: 似然比 =(9/10)/(1/10)=9

我們發現了,強大的貝葉斯規則就是: 後驗概率=似然比×先驗概率

現在你可能在想:等等,這就是公式麼?這只是一個乘法運算!很簡單,不是嗎?你不會想象一個簡單的乘法運算可以用於各種非常有用的場景,但是貝葉斯公式可以。

一句忠告: 有很多不同的形式可以寫貝葉斯規則,而我們使用的概率形式並不是最常見的。

實踐中的Bayes法則: 乳腺癌篩查

這個實際應用是使用Bayes規則的經典示例,即醫學診斷。這個例子還說明了在處理不確定信息時的一種常見偏見,稱爲基準利率謬誤。( base-rate fallacy ),即個體忽視事物發生的既率而作出錯誤的判斷。

考慮乳腺癌的鉬靶篩查。爲了簡化數字,我們假設百分之五的女性患有乳腺癌。假設一個人得了乳腺癌,那麼乳房X光檢查會發現100例中有80例是乳腺癌。當檢測結果表明乳腺癌存在時,我們說結果是陽性的,儘管對於被檢測者來說,一種技術上的說法是檢測的靈敏度是80%。

該測試也可能在另一個角度失敗,即當沒有乳腺癌時指示了乳腺癌。這被稱爲假陽性結果。假設被測試者實際上沒有乳腺癌,那麼測試結果呈陽性的幾率是10/100。

基於上述概率,你就可以計算出似然比了。

樸素貝葉斯分類器

貝葉斯規則最有用的應用之一是所謂的樸素貝葉斯分類器( Naive Bayes )。

Bayes分類器是一種機器學習技術,可用於將文本文檔等對象分類爲兩個或多個類。通過分析一組訓練數據對分類器進行訓練,並給出正確的分類。

Naive Bayes分類器可用於確定給定多個不同觀測值的類的概率。

現實世界的應用:垃圾郵件過濾器

我們將使用垃圾郵件過濾器作爲一個運行示例來說明樸素貝葉斯分類器的思想。因此,分類指示郵件是垃圾郵件(“ Junk ”)還是合法郵件(“ Ham ”)。郵件中的單詞對應於特徵字符,特徵字符的數量由郵件的長度決定。

爲什麼我們稱之爲“ 樸素 ”?

我們的想法是將單詞看作是通過一個接一個地選擇單詞而產生的,這樣單詞的選擇就只取決於郵件是垃圾郵件還是合法郵件。這是對這個過程的粗略簡化,因爲它意味着相鄰單詞之間沒有依賴關係,單詞的順序也沒有意義。這就是爲什麼這個方法被稱爲樸素的原因。

上面的想法通常用下面的例子來描述,其中郵件的類別(垃圾郵件或合法郵件)是影響單詞的唯一因素。

儘管它很幼稚,但是樸素的Bayes方法在實踐中往往非常有效。

這是一個很好的例子,說明了統計學中的一句俗語,“所有的模型都是錯誤的,但有些模型是有用的”意思。這句格言來自統計學家George.E.P.Box

我們需要指定垃圾郵件對合法郵件的先驗概率。爲了簡單起見,假設這是1:1,這意味着平均一半的傳入消息是垃圾郵件(實際上,垃圾郵件的數量可能要高得多)。

爲了得到我們的似然比,我們需要兩個不同的概率來計算任何單詞的出現:一個在垃圾郵件中,另一個在合法郵件中。

這兩個類的單詞分佈最好是根據包含一些垃圾郵件和合法郵件的實際訓練數據估計的。最簡單的方法是計算每個單詞出現在數據中的次數,然後除以單詞總數。

爲了說明這個想法,讓我們假設我們有一些垃圾郵件和合法郵件。通過將一批電子郵件保存在兩個文件中,您可以輕鬆獲得這些數據。

例如,我們發現,Million(百萬)這個詞出現在垃圾郵件中的概率爲59791分之156,即大概與614分之1相同。而在一條合法郵件中,306438個單詞中有98個是“百萬”,即3127分之1。

這兩種概率估計都很小,不到1/500,但更重要的是,前者高於後者:1/614高於1/3127。這意味着似然比大於1。更準確地說,這個比率是(1/614)/(1/3127)=3127/614=5.1(四捨五入到小數點後一位)。

然而,直接從計數估計概率的一個問題是,零計數導致零估計。這可能會對分類器的性能造成很大的危害——它很容易導致後驗概率爲0/0的情況,這是毫無意義的。最簡單的解決方案是對所有概率估計使用一個大於0的很小的下界。例如,值1/100000就可以完成這項工作。

使用上述邏輯,我們可以確定所有可能單詞的似然比,而不必使用零,從而達成分類目標。

一旦我們計算出了先驗概率和似然比,我們就可以應用Bayes規則了,我們已經在醫學診斷案例中實踐過了同樣的方法。

萬歲!現在,您已經掌握了一種強大的技術,它每天都被廣泛應用於現實世界中的各種人工智能應用程序,即樸素的貝葉斯分類器。即使你不得不跳過一些技術細節,你也應該試着確保你理解應用概率來更新信念的基本原則。

通過醫療診斷和垃圾郵件過濾的例子,我們演示了這個機制是如何工作的。

正如我們在本章開頭所討論的, 概率推理的強大之處是能夠處理不確定和衝突的證據。

▲ 

在浩瀚太空的狂野風暴裏,樂享宇宙的浪漫和溫情

追逐Gran Turismo 超炸裂的賽道火焰

金融傳奇:從高維貨幣到上帝粒子

製表:腦力過剩者的福音

科學精神的緣起:經驗主義和理性主義

科學,是沒有恆常邏輯的實踐—漫談歸納·演繹·溯因三大方法論

金融裏的哲學:投機者的自由之路

量子引力前傳——慣性力400年的探索之路

太空浪漫主義—溫柔地走進科學的良夜

Göttingen聖地巡禮

人工智能前傳:從邏輯到知識的偉大跨越

無序的冰花:物理學 審視下的人工神經網絡 

強大的直覺,是第七識的呈現

長按二維碼關注公衆號

相關文章