點擊上方關注,All in AI中國

作者:Cassie Kozyrkov

無監督學習實際上是一種從數據中挖掘"靈感"的模式查找技術。它可能聽起來像表達"讓孩子們自己學會不要接觸烤箱"這樣一種奇特的事情。其實無監督學習與無人監督的機器無關,而是一種可以形成自己對事物的看法的模式。讓我們一起來揭開無監督學習的神祕面紗!

本文對初學者來說簡單易懂,如果下面的概念你感到很熟悉,那麼無監督機器學習可能成爲你的新朋友:

機器學習就是用實例來標記事物。(https://hackernoon.com/the-simplest-explanation-of-machine-learning-youll-ever-read-bebc0700047c)如果你通過輸入你正在尋找的問題的答案來訓練你的系統,那麼你正在進行監督式學習。(https://towardsdatascience.com/explaining-supervised-learning-to-a-kid-c2236f423e0f)要開始監督學習,你需要知道自己想要給你的輸入數據貼上什麼樣的標籤。(無監督學習不需要。)(https://hackernoon.com/imagine-a-drunk-island-advice-for-finding-ai-use-cases-8d47495d4c3f)標準術語,其中包括實例、特性、標籤、模型和算法。(https://towardsdatascience.com/explaining-supervised-learning-to-a-kid-c2236f423e0f)

什麼是無監督學習?

將上面六個圖像按你喜歡的方式分成兩組。看着這六張圖像,是不是覺得缺少了點什麼?這些照片沒有任何的分類標籤。不用擔心,你的大腦非常擅長無監督學習。我們來試試吧,你會如何將這些照片進行分組呢?沒有真正準確的答案哦。

聚類數據

在現場課堂上,Google員工給出了一些如"坐着或站立"、"可以看到木地板或不能"、"貓在自拍或不是貓自拍"等答案。讓我們來看看第一個答案。

(將圖像分成兩組的一種方法:坐着或站立。)

無監督學習的祕密標籤

如果你選擇根據貓是否站立來進行聚類,那麼你的系統輸出的標籤是什麼?畢竟,機器學習就是標記事物。

如果你認爲"坐着或站立"是標籤的話,其中"坐或站立"就是你用於創建聚類的方法(模型)。相比之下,無監督學習中的標籤更加無趣:類似於"第1組和第2組"或"A或B"或"0或1"。它們只是簡單的表明羣體成員身份,而沒有其他可解釋的(或詩意的)含義。

無監督學習的標籤只是簡單的表示聚類的成員。它們不像人們起名字一樣包含着某種期望,給人的只能有失望。

這裏發生的一切都是藉助算法按相似性對事物來進行分組的。相似性的度量是由算法的選擇來指定的。但爲什麼不嘗試儘可能多的相似度度量呢?畢竟,你不知道你在尋找什麼。你可以將無監督學習看作是數學版本的"物以類聚,人以羣分"。

就像羅夏墨跡測驗一樣,結果可以幫助你實現夢想。不要太認真地對待你看到的任何東西。(https://en.m.wikipedia.org/wiki/Rorschach_test)

再來一次!

作爲這兩隻貓的主人,我很難過的是,在我的將近50多次教學中,只有一個人注意到圖像應該被分類爲:"貓1和貓2"。相反,大多數時候,答案都是"坐着或站立" 或"可以看到木地板或不能",有時甚至會被分類爲"醜陋的貓或漂亮的貓。"

這些是我的兩隻貓的照片!也許你已經注意到了,但大多數人都沒有...除非我給他們標籤(監督他們的學習)。如果我一開始就使用名稱標籤顯示數據,然後要求你對下一張照片進行分類,我打賭你會發現這個任務很簡單。

經驗感悟

想象一下,假如我是一名新手數據科學家,剛開始進行無監督學習,並且對我自己的兩隻貓感興趣。當我查看這些數據時,我不會對它視若無睹。因爲我的cuddlebugs對我來說非常有意義,所以我希望我的無監督機器學習系統能夠得出我所感興趣的答案。

在這十年之前,沒有人指望計算機與世界上最好的模式查找器——人腦來競爭這類型的任務。這對人們來說很容易!那麼爲什麼成千上萬的Google員工看到這些未標記照片的卻沒有得出"貓 1 與貓2"的答案呢?

我們可以將無監督學習看作是一種數學版本的"物以類聚,人以羣分"。但是我對一種東西感興趣並不意味着我的模式查找器就會找到它。即使模式查找器很棒,如果我不告訴它正確答案是什麼,那麼得到什麼樣的答案纔是使我不會感到沮喪的?我所能做的只是查看系統爲我計算的聚類,看看我是否覺得它們很有啓發性。如果我不喜歡他們,我會一遍又一遍地運行另一種不同的無監督算法,直到對答案感到滿意。

你無法保證在這個過程中,你所得出的結果都是有意義的。但嘗試並沒有什麼壞處。畢竟,探索未知世界是值得的。

以後,你可以嘗試着簡化標籤,不用太嚴肅的對待它,更不要把它當作人類部分情感的寄託。它們只是爲你提供一些想法,讓你知道你下一步可能會做什麼。

總結

無監督學習通過將類似的事物分在一組而幫助你獲得靈感。有許多不同的方法來定可以義相似性,所以在沒有遇到最適合你的模式之前,你要繼續嘗試更多的算法和設置。

相關文章