摘要:其他结合网络数据研究还有很多,如根据足球中传球的位置,将球队聚类,从而对应于球迷常说的442,434等不同阵型上 (Clustering algorithm for formations in football games)。本文将介绍近期的四篇相关研究,视角逐渐放大,先看球员的传球对胜负的影响,再看球队持续的风格如何定量化的考察,之后分析整个联盟在不同时间的整体特征,最后分析体育在社会中的位置,展示复杂网络研究和体育结合的诸多可能方向。

本文来自微信公众号: 集智俱乐部(ID:swarma_org) ,作者: 郭瑞东,头图来自东方IC

随着复杂网络研究范围的日益扩大,体育竞技也逐渐被应用到其中,尤其是足球和篮球这两项团体运动中。本文梳理了近年来的多篇相关研究,从球员传球风格与球队胜率,到球队风格的量化,再到联赛整体特征,以及体育与社会的关系等,展示复杂网络研究和数据分析技术与体育结合的多种可能。

1. 复杂网络是个框,体育也能往里装?

不管是足球还是篮球,团体性的竞技体育都是涉及几十亿人,数万亿美元的大产业。随着体育比赛的数据化,海量的数据使得数据科学得以在体育产业展示它的魔法。NBA勇士队掀起了利用专业的数据分析提高成绩的浪潮,随着勇士队的连续夺冠,数据分析师已经成为了各个NBA球队篮球教练组必不可少的一员。

在足球,网球,排球等其他运动项目上,数据分析也起到了提升球队的比赛的效果。

任何涉及到团队配合的运动,都可以被自然地视为参与者之间相互作用组成的网络。由于竞技体育的胜负是清晰定义的,这使得数据天生就带有标注;而竞技体育中球员特征,例如身高、体重等以及在场上的传球、射门、突破等动作,也是有明确定义的。

随着计算机视觉对视频数据的自动标注,海量的数据,使得竞技体育中积累了众多天然的 随机双盲实验 。这使得研究者得以使用复杂网络的成熟方法学,研究 网络结构的变化,网络中的信息传递和网络涌现出的宏观结果 (比赛输赢) 这三者的关系。

复杂网络在体育中的应用,有广阔的空间。比如除了职业的各种球类运动,对于团队性的电子竞技项目,例如Dota,一些研究方法和结论也是适用的。而在未来,网络分析的框架,还可以整合包括视频、可穿戴设备、体检体测数据等数据源,可以使网络具有更多的层次,从而更好的发挥网络分析的威力。

对于非职业的体育项目,随着用户上传数据的增加,也能产生全新的研究方向,例如研究如何避免运动产生的伤病,如何让参加运动的球员相对平均地得到锻炼和发展。

本文将介绍近期的四篇相关研究,视角逐渐放大,先看球员的传球对胜负的影响,再看球队持续的风格如何定量化的考察,之后分析整个联盟在不同时间的整体特征,最后分析体育在社会中的位置,展示复杂网络研究和体育结合的诸多可能方向。

2. 怎样传接球能让你赢得篮球比赛

球队状态不好,某名球员发挥不好,是输球之后常见的借口。而用网络科学的视角来分析的时候,就可以定义一个新的指标,来预测球队的输赢。

杜克大学的研究者,在18年arxiv.org上的一篇预印本论文中,针对篮球比赛,提出了一项预测指标。

论文题目:

SMOGS: Social Network Metrics of Game Success

论文地址:

https://arxiv.org/abs/1806.06696

该研究基于美国高校的NCAA联赛,统一安装了高清晰度的三维立体摄影和分析,该文关于的也是传球网络,有了这样的数据,就能针对每名球员,给出其传球和接球的热点位置。如下图所示,图a)中的热点区域说明该球员最经常在三分线弧顶传球,bcd分别展示了传给锋线,中锋和后卫位置的球员时,最常见的成功接球位置。

图1:某球员的传球出球位置与不同类型球员的接球位置的热图

之后作者结合篮球规则,自己定义了一个指标,用来描述每名球员在传接球网络中的影响。该指标可理解为结合了具体应用场景的一种中心度计算方法 (SMOGS) ,只是该计算方法分别针对传球和接球,且每名球员对给出一个在二维空间的,而不是一维空间的值。

作者比较了同一个队伍在赢球时和输球时,传接球网络根据新提出的指标,通过展示俩者的显著区别,说明该指标能够预测球队的输赢。

图2:赢球和输球时,一只球队的上场球员的传球指标对比

上图中的每个点 (数字代表球员的编号) 代表一名球员,红色代表接球,蓝色代表传球,所在的位置代表了根据SMOGS计算得出的指标在二维空间上所处的位置。左边对应输球时,右边对应赢球时。不管是从整体上 (一个球队) 还是个体来看,都有明显差别。而用作预测时,新提出的指标也比现有的指标要好。

3. 瓜迪奥拉治下的巅峰巴萨,有何不同

9月 Nature 子刊 Scientific Reports 上发表的一篇论文,研究者利用网络科学方法,佐证了球迷对主帅瓜迪奥拉旗下的巴萨队 (10赛季~11赛季) 传球细腻,控制比赛节奏的印象。

论文题目:

Defining a historic football team: Using Network Science to analyze Guardiola’s F.C. Barcelona

论文地址:

https://www.nature.com/articles/s41598-019-49969-2

研究者关注比赛中的传球,将球队在西甲单赛季的传球记录,组成如下图所示的有向网络。图中的每个点是一个球员,点的大小代表在网络中的特征向量中心性 (Eigenvector Centrality) ,点的位置是其平均传球的位置,线的深度代表了传球的总次数。

图3:巴萨队的传球网络可视化

之后,研究者对比了传统足球分析中用到的指标,例如传球距离50次传球所需的时间,以及网络分析中用到的指标,如聚类系数 (cluster cofficient) 、最大的特征向量、队中球员的特征向量中心度的最大值等,发现巴萨和西甲其他球队传球网络的平均值,都有明显的差异。

而在进球或者丢球之前,巴萨的传球网络与西甲其他球队也有明显不同。

图4:西甲不同球队的进球/丢球前50次传球网络的对应指标对比

上图展示的是进球和丢球前的五十次传球组成的网络,依次考察的是网络的聚类系数、传球网络对应矩阵的最大特征向量。纵轴是进球时的值,横轴是丢球时的值。

该分析用来说明在进球/丢球的关键时刻,巴萨和其他球队的差异依然存在,而且这种球队间差异具有鲁棒性。研究者还通过横轴和纵轴的区别,说明在丢球和进球前的传球网络有所不同。

4. 足球比赛正在变得无趣——比赛结果爆冷门越来越难了

竞技体育的魅力就在于没有永远的赢家,但最近的一篇文章,打破了爱拼就会赢的神话。今年8月在arixv上的一篇论文,通过对11个主流的欧洲联赛中8万场比赛的胜负的分析,作者得出球队间的强弱差距正在变得显著,比赛结果也更具有可预测性,同时主场优势普遍变得不那么显著。

论文题目:

Football is becoming boring;Network analysis of 88 thousands matches in 11 major leagues

论文地址:

https://arxiv.org/abs/1908.08991

图5:英超比赛中胜负关系的网络可视化

上图展示的该文研究的网络,图中的每个点是英超联赛中的一支球队,线的深浅代表这两队之间的净胜球数目,点的大小代表该球队在胜负网络中的中介中心性 (Betweenness Centrality)

该文基于球队的平均赛季进球丢球数等指标,结合是否在主场,用简单的逻辑回归模型预测比赛的输赢。

下图展示的是欧洲几个顶级联赛中预测模型的AUC (橙色,用来评价模型的准确性) 及基尼系数 (蓝色,用来评价不平等的程度) ,可以看出从95年到18年,两者都在显著地增加。

图6:英超,德甲,西甲,意甲中胜负的可预测性与衡量球队胜负差异大学的基尼系数

5. 某队球迷数量和所在城市的人口呈现幂律关系

竞技体育具有跨越国界的魅力。在18年的一篇arxiv文章中,作者发现了三只足球豪门皇马,曼联,拜仁的球迷数目 (twitter关注量,转发条数) 和各个国家不同城市之间的人口数呈现幂律分布。

论文题目:

Urban scaling of football followership on Twitter

论文地址:

https://arxiv.org/abs/1812.04453

这并不意外,但该文章有趣的是分析了球迷人数的增长,在那些国家是超线性的 (superliner) ,即球迷人数的增加比城市总人口的增长还要快,例如城市人口增长10倍,球迷数量增长15倍,这是对应的expnent系数就是15/10=1.5。下图分别展示了印尼 (ID) ,哥伦比亚 (CO) ,墨西哥 (MX) ,西班牙 (ES) ,英国 (GB) 和美国 (US) 中,这三个球队的球迷数目和城市人口之间的幂指数大小。

图7:不同国家中不同城市里三只足球豪门的球迷人数增长率

可以看出,在印尼、哥伦比亚,都存在不同程度的超线性增长,也就是说球迷的比例在大城市要高于小城市。

而在美国,英国,西班牙则是相反的,美国人对足球不感兴趣,但对于英国和西班牙为何也没有出现超线性的增长,这说明在发展中国家,对足球的喜爱更加紧密的依赖着城市大小的增长。

一种可能的解释是,在贫富差距大的地方,越是大的城市,越需要竞技体育带来的消遣娱乐。

这篇论文除了其结论契合幂律法则的通用性,而且将体育看成是社会物理学 (social physics) 中的一部分,研究体育和其他我们关心的指标的关系,例如球队的成绩和所在城市的经济兴衰。

6. 用数据说话,做一个专业球迷

关于网络科学与数据科学在体育比赛中的应用,相关的研究越来越多,与行业知识的结合也越来越深。

如果你问一个篮球迷,主场优势意味着什么,他不一定能说清楚。而用数据科学的武装的你,就可以拿出 (Home Sweet Home: Quantifying Home Court Advantages For NCAA Basketball Statistics) 这篇论文的研究,指出主场打球的队伍,盖帽数目,助攻数目,相比平均值会出现接近20%的增加,而罚球数和抢断数目也会有5%-10%的增加。这和球迷看球的一般印象是吻合的,盖帽,抢断数据上升的原因是球员更积极的拼抢,罚球多则是裁判对主队的照顾,助攻多则是球队打得更有耐心。

论文题目:

Home Sweet Home: Quantifying Home Court Advantages For NCAA

Basketball Statistics

论文地址:

https://arxiv.org/abs/1909.04817

其他结合网络数据研究还有很多,如根据足球中传球的位置,将球队聚类,从而对应于球迷常说的442,434等不同阵型上 (Clustering algorithm for formations in football games) 。再如用遗传算法,帮助球队经理选择最佳的球员组合。

论文题目:

Players’ selection for basketball teams, through Performance Index

Rating, using multiobjective evolutionary algorithm

论文地址:

https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0221258

另一个可能的结合点是研究那些因素决定着职业运动员/教练员的成败,关于成功的科学 (Science of success) 也是近来的研究热点。而将球员共同比赛的关系组成网络,研究者是否也会在体育界,发现在艺术家和科学家中存在的“与大牛合作”、“名师出高徒”等成功规律,这也是值得研究的方向。

而笔者更关心的是体育和普通人的关系 ,能否通过大数据的研究,说明体质训练,体质测评的得分和个人的学业,事业成功或创新能力有相关性? 或者指出体育锻炼设施多少和城市的经济发展有因果关系?这是更具有普遍价值,也更接地气的研究方向。

本文来自微信公众号: 集智俱乐部(ID:swarma_org) ,作者: 郭瑞东

相关文章