算法建议直播中的史诗时刻

如何在实时视频内容中发现令人难忘或“史诗”时刻?Meeyoung Cha和Kunwoo Park谈论他们最近出版的工作EPJ数据科学它使用深层学习模型来识别此类史诗时刻。

直播已成为一个受欢迎的互联网文化。Tiktok和Twitch等平台有超过60至1.4亿月的活跃用户。

几乎任何人都可以在这些平台上流出内容,这使得史诗和有趣的时刻由于看似平凡和冗长的视频的庞大数量而挑战。

在发表的新研究中EPJ数据科学,我们展示了人工智能(AI)如何帮助人类编辑能够快速发现实时流媒体内容的有趣部分。

该决定基于聊天消息中的受众反应,视频帧的结构,视图计数和媒体信息共同制作。其中,表情符号和观众反应充当指导AI算法的关键组件。

深度学习用于了解来自多模态数据的史诗时刻的特征,以建议具有各种背景的有趣的视频片段,包括胜利,有趣,尴尬和令人尴尬的时刻。

当通过用户学习进行测试时,该AI建议被发现与发现史诗时刻的专家建议相当。

使用推荐的剪辑作为指导数据

要培训算法,我们需要指导代表“史诗”的指导数据。在抽搐时,手动构造的“剪辑”或抽搐亮点是5到60秒的长段,由垃圾和观看者贡献。

图1显示了持续11分钟和55秒的直播内容的示例。这一内容的两个段已被突出显示为建议的“剪辑”,每个筛选,每个剪辑运行53秒和30秒。

图1.实时流的有趣片段被突出显示为两个单独的剪辑,该剪辑收到21次视图和170,000次视图。通过收集这些剪辑,我们可以构建一个算法来自动检测史诗时刻。
©作者(2021)

第二个剪辑达到170,000多个视图,表明更多史诗。该图还显示了对所选择的视频段的用户反应。表情符号或特定于抽搐的表情符号通常在聊天中表达。

我们收集了200万用户推荐的剪辑和相关的用户对话,以了解史诗时刻的成分。我们的工作将史诗时刻定义为一个长视频内容的令人愉快的咬合摘要。

史诗时刻类似于视频亮点,因为它们都是长视频的短摘要,但这两个功能不同。史诗时刻代表“令人愉快”的时刻,而亮点是“Informative”的自然界。

社会信号作为史诗时刻的提示

我们发现,情绪和用户反应在寻找史诗时刻起着重要作用。

图2显示了在用户在嵌入的T分布式随机邻居(T-SNE)识别的二维空间上出现的情绪的聚类结果。

颜色表示群集的类别,绘图呈现最接近每个Emote群集的五个示例字令牌。我们可以看到类似看起来类似的情绪在抽搐中作为情感表达。

图2.每个群集的示例情绪和相关文本。每个表达嵌入向量(上图)和示例情绪和相关文本令牌(下面)的群集表示曲线。表示由T-SNE绘制,并且通过表达簇与单词矢量之间的距离选择相关标记。
©作者(2021)

这些见解用于构建具有可解释性(MINT)的多媒体检测的深层学习模型,其合并和分析聊天,视频元数据和视图计数等关键功能。

这三个域的综合特征捕获了史诗时刻的不同方面,并结合这些提示导致更好的预测。

用户学习还证实,算法建议被判断为人员推荐剪辑令人愉快。

此外,算法建议跨越各种上下文,例如失败的游戏时刻,有趣的舞蹈动作,游戏期间令人惊讶的复出,以及非游戏时刻,如图3所示。

图3.史诗时刻的算法建议示例。薄荷模型可以发现(a)失败,(b)有趣,(c)overplay,和(d)非游戏时刻。
©作者(2021)

相比之下,大多数人类建议包含游戏获胜时刻。

随着人口越来越多的人口在互联网上观看直播,AI的建议可以帮助编辑和观众发现史诗时刻。

对薄荷算法的代码感兴趣的研究人员和用于培训的剪辑数据集可以在GitHub页面上找到更多信息https://github.com/dscig/twitch-highlight-detection.

查看关于物理科学的最新帖子主页

注释