作者 | YOUNG

  题图 | 网络

  据媒体报道,中国目前的单身成年女性的数量已经超过一个多亿,也就是说14.3%的成年女性处于单身状态,与日本全国人口总数基本相当。知己知彼,百战不殆。如果你是一个单身女性,你可以看到自己的某些影子;如果是单身男生,你需要了解目标人群的特点;如果是已婚男士,要相信“天下凤凰一般美!!!”

  本文转自公众号科学小镇

  开始本文之前有几点说明:

  1、本文数据主要来自于某婚恋网站的爬虫搜索数据;

  2、该网站上的女生默认为单身;

  3、该网站上的个人信息默认为真实;

  4、爬取的样本数据具有充分的代表性。

  ▍基本概况

  爬取该网站18~37岁之间的女生个人主页信息,总体数量在5000左右,地域范围涵盖三十多个省(自治区、直辖市)。数据质量方面:身高、体重和工作等部分信息缺省。

  ▍人群年龄与星座分布

  从年龄直方图看,基本满足正态分布,在24岁和32岁左右存在两个较大的波峰。18~23岁正处于大学教育阶段,校园恋情比较多,因此该年龄阶段在网站注册人数较少;26岁处于两个波峰之间,是剩下比较少的年纪,说明这个年龄阶段的比较抢手。

  从星座分布来看,风相星座中的双子座(11.47%)和天秤座(10.58%)的优异成绩勇夺前两名,有意思的是,同属风相星座的水瓶座以5.51%垫底。按照一般的理解,风相星座想象力丰富,擅长社交,语言表达能力强,但性格变化多端,有喜新厌旧和情绪化的毛病,这也许是呈现两极分化的原因吧。而自带招黑体质的处女座(8.78%)表现相对中庸。

  ▍外貌协会特点

  从身高分布直方图上看,身高的众数为165CM,主要分布区间为160~170。

  从体重分布直方图上看,体重集中于48~53kg之间,基本满足正态分布规律。

  从外貌自我描述的关键词上看,“迷人”、“秀气”、“可爱”高居三甲,同时“长发”看起来是一个很重要的特征,有意思的是还有人将“爱笑”、“健康”作为自我外貌的描述关键词。

  ▍个性和爱好

  从个性描述上看,“温柔”、“开朗”、“活泼”的女生占据了单身女性的大多数,估计和人群分布规律类似。比较吸引眼球的关键词“简单”。我觉得此处的简单,可能就是所谓的“喂马劈柴周游世界”“从明天起关心粮食和蔬菜”吧。

  从爱好上看,“旅游”、“逛街”、“聚会交友”爱好榜前三名。这也很好理解,主要的爱好其实是买买买,可以逛街买,也可以旅游买,买了之后可以聚会交友,而后带上朋友一起买。。。

  ▍受教育情况

  受教育程度上看,本科占据了绝大多数,这和人群的分布规律基本一致。

  ▍工作和收入

  职业分布情况见下图:

  令人比较吃惊的是各位单身的收入,不想评论了,都这么高。。。

  ▍全国分布情况

  可以看出,经济发达的上海、北京等大城市的数量比较多,与黑河腾冲线人口分布规律一致。

  ▍数据相关性

  选取年龄、身高、星座、省份、学历、收入、职业等7个维度的刻画数据,分别计算Pearson、Spearman和Kendall相关系数。

  结论基本一致:收入和职业的相关性较强(Pearson相关系数=0.46),其次是收入和年龄、学历的相关性。一个有趣的发现是身高和学历竟然存在微弱的相关性,Pearson相关系数为0.26;而星座与其他各项的相关性最弱,所以经常说的XX星座擅长考试的说法应该是没有依据的吧。

  ▍小结

  单身女生分析报告基本完成。从统计结论上看,与人群分布规律基本一致,也与外界的认知基本统一。不过也有几点有意思的发现:比如年龄分布的双峰特点、风相星座的两极分化、“旅游逛街交友”的三大爱好以及身高和学历间的微弱相关性。

  注:本文仅为作者观点,不代表DT数据侠立场。

  ▍数据侠门派

  本文数据侠YOUNG,三栖不出名科学爱好者,喜欢异想天开捯饬代码,对数据分析和挖掘很有兴趣。

  ▍加入数据侠

  “数据侠计划”是由第一财经旗下DT财经发起的数据社群,包含数据侠专栏、数据侠实验室系列活动和数据侠联盟,旨在聚集大数据领域精英,共同挖掘数据价值。了解数据侠计划详情请回复“数据侠计划”,申请入群请添加DT君微信(dtcaijing003)并备注“数据社群”,投稿、合作请联系[email protected]

查看原文 >>
相关文章