全文共 2446 字,预计学习时长 5 分钟

来源:Pexels

“概率是生命的向导。”

——列纳德·蒙洛迪诺, 《醉汉的脚步: 随机性如何支配我们的生活》

首先,确保你想戏弄的人真的聪明。               

其次,提的问题需直观易懂。              

事实上,在互联网领域,仍存争议的严谨话题所剩无几(因为有谷歌和维基百科)。              

但今天笔者要讨论的是过去几年在互联网上引起激烈讨论的话题。 科学专家和数据科学家在这一问题上各有看法。              


事不宜迟,现在开始吧。

先来看问题

列纳德·蒙洛迪诺是一名物理学家,他与斯蒂芬·霍金合著了《宏伟设计》一书。 他的著作 《醉汉的脚步: 随机性如何只陪我们的生活》 还谈到了随机性,以及导致人们误解随机事件和随机过程的认知偏见。  

在介绍“样本空间”概念的章节中,蒙洛迪诺使用了以下示例:

问题A: 儿子还是女儿      

我的朋友尼克有两个孩子,他告诉你他至少有一个女儿,那么另一个孩子是女孩的概率是多少?        

这似乎是一个简单的问题,直接的回答是: 已知其中一个是女孩,所以另一个孩子是女孩的几率应该是50%,对吗?    

根据样本空间理论,可以如下列出所有可能的样本组合:

表中显示,答案是1/3,即,33.3%。              

蒙洛迪诺指出,这个问题令人困惑的部分是题目内容,如果题中指定第一个孩子为女孩,那么第二个孩子为女孩的概率是50%。

辩论

然而,另一位有识之士不同意蒙洛迪诺的理论。       

加里·史密斯(Gary Smith)是波莫纳学院( Pomona College )的经济学教授。 他在耶鲁大学获得经济学博士学位,后被聘为助理教授。         

他在《基本统计、回归和计量经济学》一书中引用了上述蒙洛迪诺采用的例子,认为这是对现实世界的典型误解,并从另一角度提出了问题。   

问题B: 另一个孩子              

你看到我的朋友尼克和他的女儿在街上散步。 尼克告诉你他家里还有一个孩子,那么,另一个孩子是女孩的概率有多大?     

这个问题看起来和蒙洛迪诺提出的问题十分相似,但加里却给出了完全不同的答案与解析。              

首先,他指出蒙洛迪诺“33.3%”的答案是错误的,然后他通过下表中的推算给出了自己的正确答案。

男孩用B表示,因此BB表示第一个孩子是男孩,同理,第二个孩子也是男孩。  

女孩用G表示,BG表示第一个孩子是男孩,第二个是女孩。      

该表显示了400个家庭平均分配了4种孩子类型,即,每种类型为100。 根据加里所证,可以得出以下推论:

已知事实

·     在100例的BB中,尼克应该总是和男孩散步。

·     在100例的GG中,尼克应该总是和女孩散步。

·     如果尼克有儿有女,则合理的假设是,他和男孩或女孩一起散步的概率是相同的。

分析

·     观察表格的第一行。 当尼克和一个女孩散步时,其中有100例(GG)表明另一位不在场的孩子也是女孩,而其他50+50例(BG&GB)则表明缺席的孩子是男孩。

·     当尼克和一个男孩散步时,也可以做出同样的推论,因此,比较BB与BG+GB(100 vs 50+50),也可以得出同样的结论

结论

不管现在和尼克散步的是男孩还是女孩,另一个孩子是“男孩或女孩”概率保持不变(它们是自变量)因此答案是1/2,而不是1/3。    

当然,还有一个更为直观的解释: 你看到一个女孩,这是一个独立的事件,对其他孩子的性 别没有影响。            

如果你现在还没有丝毫的困惑,那么你可能对这个问题还只停留在表面理解上(也可能你是个真正的天才,那便来看看下面的解释是否与你的思维过程相同)

深入探讨这个问题…

那么,加里和蒙洛迪诺,谁对谁错?  

实际上,他们都是对的,因为他们试图解决的是两个不同的问题。 再看看以上的问题,    

•A: 我的朋友尼克有两个孩子,他告诉你他至少有一个女儿,那么另一个孩子是女孩的概率是多少?        

•B: 你看到我的朋友尼克和他的女儿在街上散步。 尼克告诉你他家里还有一个孩子,那么,另一个孩子是女孩的概率有多大?   

两个问题有什么不同吗,“看见一个孩子是女孩”和“一个孩子是女孩”一样吗?     

你认为呢? 现在就是把聪明人弄糊涂的时候了。 经济学教授加里混淆了以上两者的区别。

贝叶斯方程是解释这个问题最简单、最优雅的方法,尽管如此,笔者还是想从另一角度(使用全概率定律)来看待该问题。              

“至少有一个女儿”和“看到一个女孩”不是一回事。 这是关键。    

这两个前提在时间和空间维度上的差异可以表示为“全局关系vs.局部关系”。

1.  空间维度上的“全球关系 VS 社会关系”

“至少有一个女儿”并不代表你能看到那个女孩

如上图所示,“至少有一个女儿”包含了“看到一个女孩”,而“看到一个女孩”所传递的信息更具概率描述。

2.  时间维度上的“全球关系 VS 本地关系”

“至少有一个女儿”是鸟瞰的统计结果角度。    

“看见一个女孩”是人类观察的角度。     

下面是更直观的描述,       

统计是对样本空间的总体描述。 观察是对平行空间中一种可能组合(所有可能发生的事情)的实际描述。

在理解了这两个问题之间的根本区别之后,可以得出结论:    

•“至少有一个女儿”是样本空间中的一个概率问题。 因此答案是1/3;   


•“看见一个女孩”是根据目前的观察作出的未知推断,这是一个贝叶斯统计计算。

因此,“看到一个女孩,问另一个孩子是女孩的概率”就等于“有两个孩子,你看到其中一个是女孩,那么这个家庭有两个女儿的概率是多少? ”            

“猜性别”的话题到此结束。        

笔者想总结的是,即使是系统1(快速直观的本能,以及由‘或快或慢思考’产生的情感大脑)也没有很好的概率直觉。 但是,我们总是可以通过增强对概率因果关系的认识,来提高自己解释周围环境中的动态和不确定性的能力。

总结

如何通过概率建立主观假设与客观结果之间的联系?              

为什么对真实世界的观察会影响事件的偶然性概率?              

将要发生的事情和已经发生的事情有什么根本的区别?              

最后,如想找到一种回答这些问题的方法,或者想戏弄你的智能数据科学家朋友,可阅读以下书籍:

·      The Drunkard’s Walk: How Randomness Rules Our Lives

·      EssentialStatistics, Regression, and Econometrics

·      The Book of Why: The New Science of Cause and Effect

推荐阅读专题

留言 点赞 发个朋友圈

我们一起分享AI学习与发展的干货

编译组:何孟琛、杨月

相关链接:

https://towardsdatascience.com/how-to-gain-data-science-experience-before-your-first-data-science-job-88bed5f9fee3

如需转载,请后台留言,遵守转载规范

推荐文章阅读

ACL2018论文集50篇解读

EMNLP2017论文集28篇论文解读

2018年AI三大顶会中国学术成果全链接

ACL2017 论文集:34篇解读干货全在这里

10篇AAAI2017经典论文回顾

长按识别二维码可添加关注

读芯君爱你

相关文章