最近在看《二十不惑》的时候,发现爱奇艺左边有一个按钮,点击一下可以识别出画面中出现的人物,并显示百科资料。

真是完美解决了观众的常见需求——这人是谁呀?

这个功能是爱奇艺推出的“奇观”,支持即时识别和搜索视频内信息。简单来说,它是识别技术在视频领域中创新的应用。

实际上,在当下的生活场景中,识别技术的应用无处不在。

无论是手机解锁、门禁开锁,还是外出场景下的商场试衣、上班打卡、公路抓拍、高铁检票,亦或是疫情当下的体温检测······

与此同时,不论是迪士尼研发机器学习平台做卡通识别,还是爱奇艺推出奇观,可以很明显感受到,识别技术的博弈战场,已经“杀”到了视频行业。

简易识别,技术不简单

一键识别视频中的信息,很轻松的解决了用户不同层面获取信息的需求。

但仔细想想,技术上的实现,还真挺难的。

比如奇观,除了提供影视内容,还覆盖了演员资料查询、BGM 乐曲识别、戏曲知识解析、台词提取理解等功能需求;而这些,都是基于识别技术的融合。

还以开头提到的热播剧《二十不惑》为例,基于剧集带来的热度,当中的演员也成为了关注焦点。

如果用户对其中的“新人演员”有了解需求,可以直接利用该剧的播放平台爱奇艺的“奇观”功能点击识别,了解其百科信息。

不过,尽管操作简单快捷,但要真正做到精确识别,可不容易。

先看“人物识别”。

“人物识别”的难度主要表现在两个方面——多人物画面识别和模糊性识别。

在影视画面中,同时出现多个任务的画面并不少见,要在同一个画面中精确识别出特定人物,或是覆盖画面出现的所有人物,这种非“1:1”的识别,是极具挑战性的。

最为典型的,是类似于《青春有你2》的选秀型综艺。无论是团体表演画面,还是观战席画面,多人物画面无处不在。

另外,对于尚未出道的练习生,识别数据库是否足够全面以覆盖所有新人,也是识别的难点之一。

对于模糊性识别的难点,在实际应用中,由于姿态、表情、遮挡、角色化妆、镜头移动速度过快等非受限场景带来的画面模糊,也会给人物识别增加难度。

在“识人”场景中,除了演员人物识别,还有动画人物识别;这也是目前多个流媒体平台主要的着力方向。

不同于含有端正五官的人脸,卡通人物的脸部较为抽象,且种类丰富,既有动物外观的《熊出没》,也有机器人外形的《铠甲勇士》,甚至于还有长得一模一样的人形七兄弟“葫芦娃”······

想要实现精确识别,只能说“太难了!”

再看“内容识别”。

内容识别主要体现为语音识别,包括 BGM 识别和台词提取。

在影视片段中,不乏有环境音嘈杂的情况,比如多人同时会话、播放 BGM 时有说话声等,这些都会对识别造成一定难度,影响 BGM 识别、台词内容提取的效果。

不难看出,要想在流媒体领域中真正实现精确识别,路上还有很多“石子”。

那么,要如何扫清这些障碍物?

在于技术的积累。

识别技术,为何如此重要?

放眼全球,包括 Netflix、YouTube、迪士尼在内的流媒体平台均在识别技术上狠下功夫,国内流媒体平台中,爱奇艺、优酷、腾讯同样在利用机器学习提升识别技术。

识别技术,为何如此重要?

先看几个应用实例:

  • Netflix 利用 AI 生成预告片:通过识别电影内容,分析人物、景色、物体、台词、配乐后,根据既定工业化套路生成预告。

  • YouTube 自动删除不良内容:利用人工智能分类器,对用户上传内容进行自动识别和标记,再清理不符标准的内容。

  • 迪士尼“内容基因组平台”:将面部识别软件应用至电影和电视节目中,识别成功后,进一步探测到特定位置,帮助动画师找到特定镜头和序列。

  • 优酷“鱼脑”系统:快速扫描内容,识别各类场景、人物情绪、语言等信息并打上标签,再进一步分析剧本、明星角色提供数据化参考。

  • 爱奇艺“奇观”:通过画面信息识别,能够进行人物检索、台词抽取解析、链接同款商品等。

不难发现,各大流媒体平台上出现的个性化功能服务都离不开“识别技术”;识别是基础,生成、定位、分析都列在其后。

先有地基,再有高楼,地基打得稳,楼层才建得高。

正是基于识别技术的重要性,国内外流媒体巨头才不遗余力展开研发。识别技术的赛跑,正在展开。

前有 Netflix 通过举办竞赛方式将算法提升了 10%,后有爱奇艺与 PRCV2018、ACMMM 等顶尖会议合作举办“多模态视频人物识别挑战赛”,联合产学研探索识别技术的落地和应用。

值得说明的是,多模态人物识别是指利用人脸、人头、人体、声纹等多维度特征信息进行识别的一项 AI 前沿技术,能够提高综艺、电影、电视剧中的人物识别率。据报道,爱奇艺奇观已经可以识别近 10 万明星。

竞赛固然是提升技术实力的好方式,但对于“识别技术”,数据库的积累,也同样重要。

以人脸识别为例,流媒体平台的识别是“1vN”的人脸查找形式,数据库越全面,训练AI的样本越多,识别率越高。

比如在爱奇艺今年举办的卡通人物检测识别挑战赛中,爱奇艺面向参赛者开放全球已知范围内最大的手工标注卡通人物检测数据集与识别数据集,提供累计超 40 万张高质量、实际取材的海量实景图片。这为参赛者的研发提供了极大支持。

打开应用想象空间

有了技术的积累与沉淀,下一步,便是落地应用。

无论是人物识别的数据积累,还是语音识别的技术突破,基础技术的进步都能够为应用场景带来更多的想象空间。

对于流媒体平台,在这一空间内的主体,不外乎用户、创作者以及商家。

对用户而言,在“识别技术”的助攻下,用户能够享受到更为个性化的服务,例如,YouTube “Up Next”功能生成实时推荐;爱奇艺“奇观”的明星信息查询以及进入其泡泡社区。

另外,用户还能够“只看想看”的内容。通过“只看TA” 功能,用户就可以只看自己爱豆 cut 的部分,无需手动快进跳过。这一功能,在爱奇艺、腾讯视频等流媒体平台都能够实现。

除了“只看想看”,用户还可以“边看边学”。

对于部分涉及专业知识的剧集,例如《鬓边不是海棠红》,通过奇观功能,用户能够边看边了解相关戏曲知识。

对创作者来说,基于识别技术的进步,利用 AI 剪辑预告片、利用 AI 创作等功能便显得轻而易举。

至于商业价值上的体现,或许可从综艺节目《潮流合伙人》中窥见一二。

这是一档潮流经营体验节目,节目中呈现了许多衣物、配饰。基于奇观功能,用户在爱奇艺平台观看过程中,可以根据个人喜好识别明星同款商品,进行一键购买。

这种通过综艺节目直接链接至购买界面的方式,不仅是对用户的服务升级,从商业层面来看,更是开启了新营销时代的大门。

另外,利用识别影视内容进行广告的精准投放也是商业价值体现之一。例如,当剧中人物感冒生病时,可以投放医药类相关商品。

从各场景下的应用不难看出,像奇观之类的流媒体 AI 功能正扮演着“新娱乐生态入口”的角色,将用户、创作者、商家有机连接。

同时,技术升级带来了体验升维,在便捷性功能的包围下,用户也越来越接受技术带来的“更上一层楼”的服务。

以爱奇艺奇观为例,截至目前,奇观功能累计使用量已超 20 亿次,在爱奇艺 App 中,奇观近一个月日均使用人次相较于上月增长超 30%。

可以想见,流媒体平台之间的竞争已不仅仅局限于内容层面的博弈,而是进阶为“体验”层级。

新一轮的视频平台竞赛,在内容之外,还有“技术”这一新赛道。

而流媒体平台的制胜之道,是顺应趋势,深耕技术,升级服务,打开流媒体领域的想象空间。

谁能提供更好的内容与服务,谁就握住了王牌。

雷锋网雷锋网 (公众号:雷锋网) 雷锋网

雷锋网原创文章,未经授权禁止转载。详情见 转载须知

相关文章