揭开无监督学习的面纱！

点击上方关注，All in AI中国

作者：Cassie Kozyrkov

无监督学习实际上是一种从数据中挖掘"灵感"的模式查找技术。它可能听起来像表达"让孩子们自己学会不要接触烤箱"这样一种奇特的事情。其实无监督学习与无人监督的机器无关，而是一种可以形成自己对事物的看法的模式。让我们一起来揭开无监督学习的神秘面纱！

本文对初学者来说简单易懂，如果下面的概念你感到很熟悉，那么无监督机器学习可能成为你的新朋友：

机器学习就是用实例来标记事物。（https://hackernoon.com/the-simplest-explanation-of-machine-learning-youll-ever-read-bebc0700047c）如果你通过输入你正在寻找的问题的答案来训练你的系统，那么你正在进行监督式学习。（https://towardsdatascience.com/explaining-supervised-learning-to-a-kid-c2236f423e0f）要开始监督学习，你需要知道自己想要给你的输入数据贴上什么样的标签。（无监督学习不需要。）（https://hackernoon.com/imagine-a-drunk-island-advice-for-finding-ai-use-cases-8d47495d4c3f）标准术语，其中包括实例、特性、标签、模型和算法。（https://towardsdatascience.com/explaining-supervised-learning-to-a-kid-c2236f423e0f）

什么是无监督学习？

将上面六个图像按你喜欢的方式分成两组。看着这六张图像，是不是觉得缺少了点什么？这些照片没有任何的分类标签。不用担心，你的大脑非常擅长无监督学习。我们来试试吧，你会如何将这些照片进行分组呢？没有真正准确的答案哦。

聚类数据

在现场课堂上，Google员工给出了一些如"坐着或站立"、"可以看到木地板或不能"、"猫在自拍或不是猫自拍"等答案。让我们来看看第一个答案。

（将图像分成两组的一种方法：坐着或站立。）

无监督学习的秘密标签

如果你选择根据猫是否站立来进行聚类，那么你的系统输出的标签是什么？毕竟，机器学习就是标记事物。

如果你认为"坐着或站立"是标签的话，其中"坐或站立"就是你用于创建聚类的方法（模型）。相比之下，无监督学习中的标签更加无趣：类似于"第1组和第2组"或"A或B"或"0或1"。它们只是简单的表明群体成员身份，而没有其他可解释的（或诗意的）含义。

无监督学习的标签只是简单的表示聚类的成员。它们不像人们起名字一样包含着某种期望，给人的只能有失望。

这里发生的一切都是借助算法按相似性对事物来进行分组的。相似性的度量是由算法的选择来指定的。但为什么不尝试尽可能多的相似度度量呢？毕竟，你不知道你在寻找什么。你可以将无监督学习看作是数学版本的"物以类聚，人以群分"。

就像罗夏墨迹测验一样，结果可以帮助你实现梦想。不要太认真地对待你看到的任何东西。（https://en.m.wikipedia.org/wiki/Rorschach_test）

再来一次！

作为这两只猫的主人，我很难过的是，在我的将近50多次教学中，只有一个人注意到图像应该被分类为："猫1和猫2"。相反，大多数时候，答案都是"坐着或站立" 或"可以看到木地板或不能"，有时甚至会被分类为"丑陋的猫或漂亮的猫。"

这些是我的两只猫的照片！也许你已经注意到了，但大多数人都没有...除非我给他们标签（监督他们的学习）。如果我一开始就使用名称标签显示数据，然后要求你对下一张照片进行分类，我打赌你会发现这个任务很简单。

经验感悟

想象一下，假如我是一名新手数据科学家，刚开始进行无监督学习，并且对我自己的两只猫感兴趣。当我查看这些数据时，我不会对它视若无睹。因为我的cuddlebugs对我来说非常有意义，所以我希望我的无监督机器学习系统能够得出我所感兴趣的答案。

在这十年之前，没有人指望计算机与世界上最好的模式查找器——人脑来竞争这类型的任务。这对人们来说很容易！那么为什么成千上万的Google员工看到这些未标记照片的却没有得出"猫 1 与猫2"的答案呢？

我们可以将无监督学习看作是一种数学版本的"物以类聚，人以群分"。但是我对一种东西感兴趣并不意味着我的模式查找器就会找到它。即使模式查找器很棒，如果我不告诉它正确答案是什么，那么得到什么样的答案才是使我不会感到沮丧的？我所能做的只是查看系统为我计算的聚类，看看我是否觉得它们很有启发性。如果我不喜欢他们，我会一遍又一遍地运行另一种不同的无监督算法，直到对答案感到满意。

你无法保证在这个过程中，你所得出的结果都是有意义的。但尝试并没有什么坏处。毕竟，探索未知世界是值得的。

以后，你可以尝试着简化标签，不用太严肃的对待它，更不要把它当作人类部分情感的寄托。它们只是为你提供一些想法，让你知道你下一步可能会做什么。

总结

无监督学习通过将类似的事物分在一组而帮助你获得灵感。有许多不同的方法来定可以义相似性，所以在没有遇到最适合你的模式之前，你要继续尝试更多的算法和设置。