1. 前言
在电子竞技的环球里,没有哪个游戏像《英雄联盟》(League of Legends,简称LOL)那样,领有如此庞大的玩家数量和深远的影响力。
自2009年由Riot Games推出以来,这款多人在线战役竞技场(MOBA)游戏迅速风行环球,不只成为了电子竞技的标杆,更催生了一个庞大的产业生态。《英雄联盟》以其共同的英雄角色、丰盛的战术战略和强烈的团队反抗,吸引了有数玩家投身于呼唤师峡谷的战役之中。
2. 背景
随着电子竞技的蓬勃开展,赛事的组织和欣赏性成为了权衡一个游戏成功与否的关键规范。《英雄联盟》每年举行的各种赛事,如LPL、LCK、LCS等区域联赛,以及MSI和S赛等国内大赛,都是LOL电子竞技畛域中的关键盛事。
在这样的背景下,赛事直播的智能化和智能化成为了优化B站赛事观看体验和热度的关键。其中,游戏识别技术是咱们赛事智能化的**之一,它触及到图像处置、形式识别、深度学习等多个畛域,旨在实时准确地从游戏画面中提取关键事情信息,如英雄选用、击杀、局内数据等,进而为赛事直播、数据剖析和观众互动提供允许。
图1 观众点击进展条图标或高能列表可跳转到精彩瞬间
图2 观众将鼠标逗留在英雄头像上检查选手实时数据
3. 游戏识别
9月25日,备受注目的S14环球总决赛在欧洲隆重开启。关于常年观看B站赛事直播的观众们来说,经过点击进展条上的高能点来重温较量的精彩瞬间曾经成为一种习气。
追溯到2021年10月,B站的官网赛事直播间就已推出了自主研发的游戏识别系统,这一翻新性能为B站的游戏直播带来了幽默的高能打点交互体验。尔后,这一系统在B站LOL赛事直播中失掉了宽泛运行,除了S赛,还成功允许了包括LPL联赛、SMI、沙特杯等多项顶级赛事的直播。
咱们的高能打点性能也一直新陈代谢,旨在让每一位观众都能以全新的视角享用较量,捕捉每一个激动人心的瞬间。
接上去,咱们将引见B站在LOL赛事直播中游戏识别技术的运行和开展,宿愿能够为电子竞技喜好者、赛事组织者以及技术开发者提供有价值的见地和参考。
如图3所示,赛事直播视频信息相当密集,它蕴含了多种模态的数据,如文字、图标、语音等。这些信息以不同的方式出现,例照实时比分、英雄信息、经济状况、击杀事情播报等。
这些数据静态呈如今直播画面中,为了能以互动的方式展现给观众,提高观赛沉迷感,咱们首先要提取这些关键信息,经过算法对直播画面启动剖析,识别出画面中的关键元素,并了解它们之间的相互相关。
对此,咱们基于现有的AI技术开发了一套游戏识别系统,经过文字识别提取画面中的文字信息、经过指标检测定位关键图标、经过指标分类确定事情类型,并将这三种技术有效地串联起来,构成一套完整的技术链路。
最终咱们将扩散的信息整合起来,生成一个连接的赛事叙事,为观众提供愈加片面的较量视角。借助文字识别、指标检测、分类等技术手腕,咱们成功了一套如图4所示的从信息提取到信息剖析,再到信息整合的多模态识别链路,最后将高能点呈如今时移进展条中,并为观众提供互动性能。
3.1. 文字识别
光学字符识别(OCR)作为一项成熟的AI技术,在计算机视觉畛域有着宽泛的运行。LOL赛事直播画面中蕴含着少量的文字信息,如图5、图6,画面顶部区域显示了红蓝战队称号,游戏期间、击杀比、经济状况,两边区域则会在出现击杀等事情时以文字的方式播报详细的事情内容。
图6 两边区域的事情播报:从上到下区分为击杀炼金龙,双杀,击杀男爵
结合文字识别及特定的规定,咱们准确从顶部区域提取出了游戏期间、战队称号等9个字段,以及两边区域的事情字段。经过这两块信息,咱们将其转换为“游戏开局”、“第一滴血”、“三杀”、“四杀”、“五杀”、“击杀远古动物”等高能点,如图7所示。
3.1.1. 训练数据分解及模型微调
只管开源的OCR模型可以统筹大局部字体及场景,但不能保证能够齐全实用于LOL游戏画面中的文本场景,因此常出现由模型的泛化才干疑问造成的识别精度降低,而整个游戏识别链路中的抽帧环节会加大这一毛病,因此咱们须要尽或者提高识别的准确率。
游戏文字识别是一个很典型的OCR垂类运行场景,要提高识别精度,人造免不了在该场景下的数据分解及训练。对此咱们剖析了顶部区域和两边区域的组成方式,整顿出了文字对应的字体、色彩,以及或者出现的单词,并将它们和游戏画面的背景组合起来,成功了对实在数据的模拟。
最终,咱们基于上万条分解数据,成功了针对游戏中的文字识别的微调训练,文字识别准确率从90%优化至99%,而较小的模型复杂度也能让其在T4 GPU上到达33ms的推理速度。
3.1.2. 识别结果的结构化处置
文字识别精度提高之后,咱们面临的另一个应战是:模型只能提供识别结果,但无法将它们和指标字段精准婚配。例如,当咱们失掉一个识别结果“42:14”时,系统并不知道其对应的字段是较量期间。此时,须要对文字识别结果做结构化处置,来确保将文字信息顺利流转到后续模块。
咱们了解到,官网直播画面中的文字规划遵照严厉的规范,有一套固定的模板。基于此,咱们深化剖析了赛事视频画面中各个字段的位置,把握了字段间的相对位置相关,并据此开发了一套专门用于区分不同字段的识别规定。
最终,咱们不只能够识别出画面中的文本内容,还能经过结合文本内容和文本位置,准确判别出画面中的高能事情。这一翻新的方法极大地提高了系统对游戏画面中关键信息的了解和处置才干,为后续的模块提供了愈加准确和丰盛的数据允许。
3.2. 英雄识别
独自依托特定区域的文字识别结果来判别高能点,有时会出现漏检误检状况,如图8所示,在局内回放环节中出现高能事情时,画面两边雷同会以文字的方式启动播报并被文字识别模块识别进去,最终造成同一高能事情的重复打点,因此须要联结其余的识别信息做近一步的判定。对此,咱们在系统中引入了英雄识别模块来处置这个疑问。
图8 高能事情回放影响文字识别
关于经常观看LOL较量直播的观众来说,一个相熟的场景是:当出现英雄击杀或击败远古动物时,画面右下角会显示击杀方和被击杀方的头像图标,如图9所示。应用这一视觉特色,咱们应用自主研发的英雄识别模型,在特定区域内首先检测出双方在本局较量中经常使用的英雄。接着,咱们识别并剖析击杀事情区域中的击杀相关,最终结合文字识别模块的事情识别结果,以确定高能事情。
图9 英雄识别区域:局内经常使用英雄(红框)及击杀事情(绿框)
3.2.1.英雄识别训练数据的结构
正如文字识别一样,英雄识别模型的训练雷同面临着实在数据匮乏的应战。咱们能够失掉的数据往往仅限于官网提供的原始CG头像,这与实践游戏直播中的状况天壤之别。
在直播中,英雄头像会遭到多种复杂起因的影响,例如画面分辨率的变动以及视频传达输环节中的失真,这些都或者对模型的识别准确性形成搅扰。此外,英雄头像的显示效果还会遭到游戏背景画面不同区域的影响,这种变动性进一步参与了识别的难度。
为了应答这些应战,咱们精心构建了一个蕴含多种复杂场景的训练数据集,特意是参与了模拟低分辨率、光影变动、特效笼罩等状况的图片,以增强模型的鲁棒性。此外,咱们还运用了复杂的数据增强技术,经过旋转、缩放、含糊处置等方法来丰盛数据集,确保模型能够顺应多样化的直播场景。
经过精心设计的数据结构和增强战略清楚优化了英雄识别模型在复杂环境下的识别效果,成功了97%的识别准确率。同时,咱们对模型结构启动了优化,确保其在T4 GPU上的推理速度最快能够到达8ms。经过这些改良,咱们的模型不只在准确性上取得了打破,而且在性能上也满足了实时处置的需求。
3.2.2. 识别结果与时序信息的结合
在英雄识别模块的基础上,咱们进一步增强了系统的性能,引入了击杀事情的时序信息剖析。
详细而言,一旦咱们的系统检测到击杀方与被击杀方的图标组合,咱们便会记载它们的出现期间,并与文字识别模块捕捉的事情期间点启动比对,以确定它们能否属于同一事情。假设图标和相关文字在短期间内延续出现,咱们便能够较为准确地判别这是同一高能事情,从而防止重复标志的疑问。
此外,咱们的系统还集成了事情去重性能。当系统在短期间内屡次检测到相似的事情组合时,它会智能启动挑选,仅保管最具代表性的期间点作为该高能时辰的标志。这一性能的参与,不只提高了事情识别的准确性,也确保了直播中高能时辰的精准捕捉和出现。经过这些翻新的技术手腕,咱们的系统在处置复杂多变的直播场景时,展现出了更高的效率和牢靠性。
3.3.热区识别
咱们的游戏识别系统不只提供了高能打点性能,在较量环节中,咱们还宿愿观众能够随时检查每位选手及队伍的实况数据,实时把握赛事形势,从而更好地介入和体验观赛乐趣。
咱们在视频流中参与了SEI(Supplemental Enhancement Information)标志,用于传递画面中的热区识别数据,其在前端体现为:系统依据用户鼠标逗留位置实时渲染悬浮数据框,灵活展现该区域的详细数据,从而实事实时数据的可视化反应。
如图10、图11红框所示,一旦热区数据展现性能被触发,它将展现选手的团体数据以及各队伍的经济图表、英雄发育状况和符文天分等关键信息。
图10 触发选手数据悬浮展现
图11 触发数据面板悬浮展现
3.3.1. 热区智能识别与交互优化
图12 触发区域:左侧选手栏、右侧选手栏、下方英雄栏
在图12所示的画面中,左侧选手栏、右侧选手栏和下方英雄栏这三个热点区域被设计为观众可以经过鼠标悬停来触发局内选手数据及队伍数据的展现。
但是,一个潜在的疑问是,假设仅依据鼠标在预设热点区域的逗留来判别,或者会出现误触发的状况。这是由于在直播环节中,这些区域并非一直可见,当画面中出现高能回放、插播广告等场景时,预设的热点区域或者会被其余内容笼罩,这时若触发数据展现性能,将重大影响用户的交互体验。
为了处置这一疑问,咱们驳回了一种“验证预设热点区域能否为实在热点区域”的方法。详细来说,咱们应用自研的指标检测模型来识别直播画面中或者存在的热点区域,并将这些检测出的热点区域与预设的热点区域启动IOU(交并比)计算。基于IOU的计算结果,咱们选择能否克服或激活悬浮展现性能。实践效果证实了这种方法的有效性:驳回热点区域识别技术后,热点数据展现性能的漏检率降低到了0.3%,而误检率则降至0%。
经过这些技术的运行,咱们不只优化了观众的观赛体验,还使得赛事的数据剖析愈加直观和方便,让每位观众都或者成为赛事剖析的专家。
04总结与展望
经过对LOL赛事直播中关键事情的智能识别和剖析,B站在游戏识别技术方面取得了清楚的优化。咱们的技术涵盖了从文字识别、指标检测到多模态信息融合等多个畛域,构建了一条完备的高能打点和互动出现的技术链路。观众如今可以经过进展条上的高能点直观地回忆赛事中的精彩瞬间,也可以访问热区检查实时赛事数据,这种互动式的观赛形式极大地增强了观众的介入感和对赛事的关注度。