原标题:看了今年《英雄联盟》S11比赛,我见识到了不少黑科技

技术确实可以改变很多事情。

文/严锦彦

最近,《英雄联盟》除了推出国服手游以外,也迎来了一年一度的世界总决赛。上周,葡萄君在虎牙看比赛时,发现今年的赛事直播竟然多了一些黑科技。

比如, 《英雄联盟》本身是没有HDR配置的,虎牙却可以将直播调整为色彩更丰富、对比度更高的HDR画面。

各个平台都会有一路、二路、主播解说等多个房间同时直播赛事,这不是什么稀奇事。有趣的是,虎牙这次有个直播间叫AI字幕。进去后,你会看到解说的人声内容都实时转变为了字幕,而且准确度还挺高,不仅英雄、技能名字翻译正确,连国外选手的外号、一些赛场梗也能对应上。

当然,AI还没有聪明到能完全听懂外国人说话。当国外选手接受采访时,AI字幕的"可爱表现"往往能成为另一种趣梗。

或许某种程度上,这也算是一种加强沉浸感的方式(?)

如果你留意进度条,还会看到有团战、争夺大龙资源等关键时刻的时间点,直接点击就能回到对应的比赛时间。更方便我们回看选手下饭精彩操作,也不用全程盯着屏幕,生怕错过某些精彩瞬间。

那么,这些黑科技到底是如何实现的?虎牙又为什么要花这么大力气去做?

01

「尝试定义游戏直播HDR的效果」

从数据统计来看,目前在支持HDR功能的虎牙直播APP版本里,约15%的S11观众在观看HDR直播,而这个比例在4K HDR频道里还要更高。

虎牙音视频算法负责人陀健告诉我,HDR是音视频直播技术迭代的必然趋势。目前市面上一些采集设备以及高端手机都已经支持了HDR的视频拍摄,该类型的显示屏更是越来越多。虎牙在极大优化了直播的延时和清晰度等问题后,视频色彩顺理成章地成为了提升画质的着力点。

HDR画面

普通画面

葡萄君是技术门外汉,一开始看到直播支持HDR的时候,有过一阵纳闷。毕竟《英雄联盟》本身是没有HDR配置的,那直播视频要怎么做出HDR的效果?

陀健认为这也是他们遇到的难点之一。大家普遍把一般视频称为SDR视频,以此来区别HDR,这里涉及到色深、峰值亮度、色域映射等一系列参数。举例来说,SDR的图像理论上色深是8bit,而虎牙用到的HDR10是10bit。从感性认知角度来看,SDR能显示约1658万个颜色单位,而HDR10的标准下,能拥有10亿多个颜色单位。

"目前虽然有很多视频平台会对SDR视频进行HDR的转换处理,但其实转换后的视频有些只是经过色域映射,即用tonemapping技术来拟合HDR效果,实际上还是一个SDR的普通视频。"

事实上,目前大部分游戏本身也是没有HDR效果的。陀健团队要通过AI图像生成模型、视频编解码、播放器渲染等方式,把游戏画面转换为色彩更丰富的HDR视频画面。这里面,大到虎牙流媒体各个系统的支持,小到一个图像内存拷贝的函数优化,都得按需进行。

"与所有音视频直播领域面对的问题一样,我们还有个最入门但也最苛刻的要求:实时性。尤其对S11直播而言,以4K+60FPS+HDR举例,我们需要在1秒内对60张1080P图像进行超分辨率到4K,以及对4K图像进行SDR2HDR的AI模型推理,最后通过编码器编码成4K HDR视频流。"

在研发过程中,为了获取最佳HDR效果,陀健团队做了一系列精细化的处理。比如对视频场景实时分类,以此区别游戏场景和舞台场景的HDR效果;为了准确控制HDR的亮度分布和色彩呈现效果,进行了实时的ROI分割,使用对应的SDR2HDR模型进行调色转换等等。

在落实SDR2HDR的AI模型时,陀健团队里有个年轻的算法研究员小曹,在做效果fine-tuning时,需要长时间盯着屏幕校对效果。由于HDR拥有更高的峰值亮度和对比度,眼药水成了小曹的常备物品。团队甚至开玩笑地用滴眼药水的次数来检验各模型的优劣。

"我们其实也不知道游戏的HDR效果应该是什么样。我们无意参与到游戏创作里面去,但我们尝试去定义游戏直播HDR的效果。这需要长期的算法和优化经验沉淀。"

02

要怎么保证AI字幕的准确和流畅?

再说到黑科技的部分。像去年就推出的AI智能回放和弹幕防遮挡功能,我们不难想象它们的使用场景。比如经典的The Shy剑魔天神下凡1V4,这种精彩操作总会让人去回顾和欣赏,同时玩家还会有讨论热情,想要看看弹幕是怎么说的。

而AI字幕功能,放眼所有传统体育赛事中都颇为罕见。虎牙技术副总裁许佳告诉我,其实这也是从用户需求出发。

"首先,虎牙赛事观众有很多硬核玩家,他们想要通过观看比赛向职业选手学习。解说可以把专业的战术、关键的操作捕捉到,讲解出来,便于玩家学习。光听一遍,可能很快就会过去,但如果配合字幕,观众可以加深印象,或者更好地理解赛事里转瞬既逝的内容。

另外,直播内容本身是视觉+语音多模态的。当观众没有耳机也不方便外放(或者听力不方便时),比如在乘车坐地铁,或者晚上和家人在一起,甚至上班的时候,AI字幕就可以满足观众的需求,将多模态内容完整呈现出来。"

正如文章开头提到,游戏赛事直播中,会涉及到大量的黑话、专业术语、甚至是无厘头的梗等等。大家用过语音转文字,都能感受到文字转换的准确性是影响体验的重要因素。那虎牙的AI字幕要怎么保证准确性?

03

技术驱动内容

有了这些黑科技之后,我的观赛体验确实有所提升,虽然不算天翻地覆,但起码我多了好几个选项,可以自由地选择各个功能。

对于虎牙来说,更重要的是,通过S赛事这样的大型节点,他们可以针对性地对直播基础能力做优化,在底层技术上研发出更多的配套功能。

去年S赛推出的智能回放和弹幕防遮挡功能,目前已经成为了虎牙的赛事直播标配,应用到了《王者荣耀》《和平精英》等比赛中。虎牙视频、主播动态中,系统自动捕捉并剪辑的主播精彩时刻,其实用的也是智能回放的技术方案。

在实际的观赛功能以外,虎牙也结合虚拟形象技术、AI技术、肢体驱动系统推出了虎牙双马尾的虚拟形象,在PGC综艺《虎说S11》中,和解说、主播同台互动。类似的还有《联盟键盘侠》这样的赛事评论节目,在赛后承接用户的讨论。

目前,直播这条赛道上,头部平台已经形成。我们可以看到,虎牙近年的策略便是从用户的角度出发,在技术迭代的过程中,用内容满足用户体验与需求。而这些技术驱动下诞生的功能,如果未来能得到更广泛的衍生与应用,或许整个直播行业生态,都会得到一个更好的发展。

游戏葡萄招聘产业记者/内容编辑,

推荐阅读

上海人才战 | 成都人才战| 哈利波特

黑神话悟空 | 中日二次元美术对比 | 防沉迷困局

最终幻想14 | 天美工业化 | 失控玩家

点击下方公众号名片,获取游戏行业更多信息

相关文章