揭開無監督學習的面紗！

點擊上方關注，All in AI中國

作者：Cassie Kozyrkov

無監督學習實際上是一種從數據中挖掘"靈感"的模式查找技術。它可能聽起來像表達"讓孩子們自己學會不要接觸烤箱"這樣一種奇特的事情。其實無監督學習與無人監督的機器無關，而是一種可以形成自己對事物的看法的模式。讓我們一起來揭開無監督學習的神祕面紗！

本文對初學者來說簡單易懂，如果下面的概念你感到很熟悉，那麼無監督機器學習可能成爲你的新朋友：

機器學習就是用實例來標記事物。（https://hackernoon.com/the-simplest-explanation-of-machine-learning-youll-ever-read-bebc0700047c）如果你通過輸入你正在尋找的問題的答案來訓練你的系統，那麼你正在進行監督式學習。（https://towardsdatascience.com/explaining-supervised-learning-to-a-kid-c2236f423e0f）要開始監督學習，你需要知道自己想要給你的輸入數據貼上什麼樣的標籤。（無監督學習不需要。）（https://hackernoon.com/imagine-a-drunk-island-advice-for-finding-ai-use-cases-8d47495d4c3f）標準術語，其中包括實例、特性、標籤、模型和算法。（https://towardsdatascience.com/explaining-supervised-learning-to-a-kid-c2236f423e0f）

什麼是無監督學習？

將上面六個圖像按你喜歡的方式分成兩組。看着這六張圖像，是不是覺得缺少了點什麼？這些照片沒有任何的分類標籤。不用擔心，你的大腦非常擅長無監督學習。我們來試試吧，你會如何將這些照片進行分組呢？沒有真正準確的答案哦。

聚類數據

在現場課堂上，Google員工給出了一些如"坐着或站立"、"可以看到木地板或不能"、"貓在自拍或不是貓自拍"等答案。讓我們來看看第一個答案。

（將圖像分成兩組的一種方法：坐着或站立。）

無監督學習的祕密標籤

如果你選擇根據貓是否站立來進行聚類，那麼你的系統輸出的標籤是什麼？畢竟，機器學習就是標記事物。

如果你認爲"坐着或站立"是標籤的話，其中"坐或站立"就是你用於創建聚類的方法（模型）。相比之下，無監督學習中的標籤更加無趣：類似於"第1組和第2組"或"A或B"或"0或1"。它們只是簡單的表明羣體成員身份，而沒有其他可解釋的（或詩意的）含義。

無監督學習的標籤只是簡單的表示聚類的成員。它們不像人們起名字一樣包含着某種期望，給人的只能有失望。

這裏發生的一切都是藉助算法按相似性對事物來進行分組的。相似性的度量是由算法的選擇來指定的。但爲什麼不嘗試儘可能多的相似度度量呢？畢竟，你不知道你在尋找什麼。你可以將無監督學習看作是數學版本的"物以類聚，人以羣分"。

就像羅夏墨跡測驗一樣，結果可以幫助你實現夢想。不要太認真地對待你看到的任何東西。（https://en.m.wikipedia.org/wiki/Rorschach_test）

再來一次！

作爲這兩隻貓的主人，我很難過的是，在我的將近50多次教學中，只有一個人注意到圖像應該被分類爲："貓1和貓2"。相反，大多數時候，答案都是"坐着或站立" 或"可以看到木地板或不能"，有時甚至會被分類爲"醜陋的貓或漂亮的貓。"

這些是我的兩隻貓的照片！也許你已經注意到了，但大多數人都沒有...除非我給他們標籤（監督他們的學習）。如果我一開始就使用名稱標籤顯示數據，然後要求你對下一張照片進行分類，我打賭你會發現這個任務很簡單。

經驗感悟

想象一下，假如我是一名新手數據科學家，剛開始進行無監督學習，並且對我自己的兩隻貓感興趣。當我查看這些數據時，我不會對它視若無睹。因爲我的cuddlebugs對我來說非常有意義，所以我希望我的無監督機器學習系統能夠得出我所感興趣的答案。

在這十年之前，沒有人指望計算機與世界上最好的模式查找器——人腦來競爭這類型的任務。這對人們來說很容易！那麼爲什麼成千上萬的Google員工看到這些未標記照片的卻沒有得出"貓 1 與貓2"的答案呢？

我們可以將無監督學習看作是一種數學版本的"物以類聚，人以羣分"。但是我對一種東西感興趣並不意味着我的模式查找器就會找到它。即使模式查找器很棒，如果我不告訴它正確答案是什麼，那麼得到什麼樣的答案纔是使我不會感到沮喪的？我所能做的只是查看系統爲我計算的聚類，看看我是否覺得它們很有啓發性。如果我不喜歡他們，我會一遍又一遍地運行另一種不同的無監督算法，直到對答案感到滿意。

你無法保證在這個過程中，你所得出的結果都是有意義的。但嘗試並沒有什麼壞處。畢竟，探索未知世界是值得的。

以後，你可以嘗試着簡化標籤，不用太嚴肅的對待它，更不要把它當作人類部分情感的寄託。它們只是爲你提供一些想法，讓你知道你下一步可能會做什麼。

總結

無監督學習通過將類似的事物分在一組而幫助你獲得靈感。有許多不同的方法來定可以義相似性，所以在沒有遇到最適合你的模式之前，你要繼續嘗試更多的算法和設置。