您的位置 首页 > 数码极客

【无视频输入】AI读视频广告有多难?这个问题有4000多人挑战,冠军赢了10万美元

机器的心灵独具匠心

作者:张倩

在今年的腾讯广告算法比赛中,腾讯广告给全球算法圈带来难题,冠军奖励最高10万美元,比赛问题入选最高届挑战赛。什么比赛问题这么含金量?谁拿了冠军大奖?昨天决赛结果已经出来了。

进入全民视频时代后,广告业的需求也在日新月异。

国内移动互联网大数据公司QuestMobile最近发布的《2020 年中国互联网广告市场洞察》报告显示,从广告形式来看,视频信息流增长更快,成为主流广告形式。

桃园:

与此同时,对广告的创意要求也在提高。大量视频广告在播出前3秒被60%的观众吸引,新广告问世不到一周,就没有人再去看了。

为了适应这种消费习惯的变化和创造性需求的升级,视频广告创作者必须在短时间内制作出大量吸引人的广告。这意味着广告行业的生产模式要发生变化。

和许多其他产业一样,这种变化可以通过人力解放来实现。

特别是视频广告,AI算法能干什么?

另一方面,AI可以执行重复的任务,例如大量生产多种材料。另一方面,您可能希望将一些不重复的创造性工作交给AI。例如,您可以自己理解广告内容的亮点,并在此基础上制作新的广告。

但是,要想做好这一切,首先要让AI彻底了解视频广告。也就是我们常说的视频的深度理解。

腾讯广告已经做了这件事,很清楚它的价值和挑战。腾讯广告多媒体AI中心董事刘伟表示:“对视频的深刻理解令人绝望。如果视频认识是以中年水平开发的,我认为视频还处于婴儿水平。”视频的knowledge domain太大了。如果在某个地方再放一个小的,在特征空间里看到的会差很多。所以算法非常脆弱。类似的前沿算法研究表明,腾讯广告内部还有很多。

在挑战这些前沿算法的同时,腾讯广告将通过多种形式聚集生产、学习、研究领域,共同推动行业技术的进化,2017年开始的腾讯广告算法大赛就是其中之一。

这次比赛总是集中在工作最关心的问题上,今年的比赛问题是对更令人头疼的视频广告的深刻理解和困难的“多模态视频广告初级分析”。

由于比赛问题相当棘手,出题方将其分为两条赛道:“视频广告初级意义分析”(赛道1)和“多模态视频广告标签”(赛道2)。

这两条轨道在哪里?

首先,我要说一下没有那么难的赛道2。该音轨以视频、音频、文本三种模式作为输入,要求玩家预测测试视频样本的视频渲染格式、场景、样式等三维标签。

如上所述,理解视频本身是一个难题,这次比赛不仅要理解视频,还要和音频、文本等模态信息一起理解,实现多模态融合。(大卫亚设,Northern Exposure(美国电视新闻))这位考试法令选手嚎啕大哭。

但是赛道难度更高。这个比赛问题使用视频、音频、文本三个模态作为输入,但要求运动员将测试视频分成“膜”段,每段预测渲染格式、场景、风格等三维标签。“屏幕”是场景,可以包含多个镜头,因此也称为“语义超级镜头”。这些镜头在意义上相关,描述和传达高级概念。例如,下图中的第一个场景(屏幕)包含四个镜头,用于说明“电话”这一高级概念。如何将这些镜头分类成一个场景,总结其高级语义信息,显然是一个非常全面的问题。(阿尔伯特爱因斯坦,美国作家)。

另外,“多模态视频广告初级分析”主题是腾讯广告从实际业务需求中提取出来的,在算法领域还没有提出,也很少进行深入研究,相应的数据、代码、参考文献也比较少,从而增加了比赛的难度。怪不得很多选手反馈说:“baseline跑起来很困难。”

与比赛难度相符的是高额奖金池。这次比赛的冠军可以获得10万美元现金奖,奖金总额达100万级。

为什么这场比赛的问题这么重要?腾讯副总裁张杰在决赛演讲中表示:“随着5G技术的普及,以视频为载体的内容越来越受欢迎。深刻理解视频广告内容,发掘潜在价值的方法无疑成为了可能。”(威廉莎士比亚,《腾讯网》)。

当下广告行业发展的重点。而细粒度理解视频时序内容,对于广告业务具有积极意义,可以真正帮助广告主降本提效,让广告更有温度。」

今年的比赛吸引了上千家高校和企事业单位的4300余名选手报名。在昨天举行的决赛中,赛道一的冠军由「GZ」战队摘得,他们将视频广告秒级语义解析这个任务分成了 Temporal Segmentation 和 Proposal Tagging 两个子任务来完成,具体方案如下:

赛道一冠军解决方案概览。

赛道二的冠军则由「挥霍的人生」战队摘得,他们使用了基于 stacking 的方案,预测时可以并行提取每个独立部分的特征,模型迭代速度快。

除了现金奖励,通过此次大赛,选手还有机会现场参与 2021 ACM MM Grand Challenge Session(以下简称 ACM 多媒体挑战赛),同更多算法专家做进一步的现场交流。

参加腾讯广告算法大赛还有机会拿到顶会挑战赛门票?没错,因为本届赛事与 ACM Multimedia 实现了强强联合,两道赛题都入选了 ACM 多媒体挑战赛。

ACM Multimedia 是多媒体领域最重要的国际会议,也是中国计算机学会(CCF)认证以及多媒体研究领域评级中唯一的 A 类国际顶级会议。为了促进工业界和学术界的交流,大会设置了 ACM 多媒体挑战赛环节。可以说,这是多媒体领域工业界和学术界交流活动中最有影响力的一个。

那么,这个挑战赛关注什么样的议题呢?ACM 多媒体挑战赛主席李锡荣给出的答案是:工业界未来 5 年到 10 年关心的问题。

眼光放得长远,难度自然不会低,所以大赛也没指望选手通过一场比赛就把问题解决掉。

「(比赛)解决方案不见得在一两年内就能商业化或者产品化,它实际上是对于未来技术的一种探索。」李锡荣补充说。

换句话说,ACM 多媒体挑战赛探讨的问题必须要有前瞻性和实用性,这与腾讯广告算法大赛的两道赛题不谋而合。

同时,赛题入选顶会挑战赛也意味着,今年腾讯广告算法大赛的国际影响力进一步扩大,比赛中诞生的解决方案、代码、数据集等资源将为国际算法圈提供重要参考。

当然,这些资源也将为视频广告创意业务的发展带来新的助力。腾讯广告内部与之相关的就有多尺寸智能裁剪、 模板视频自动剪辑、 视频创意智能混剪等多项视频广告业务。

多尺寸智能裁剪是指利用一种规格的视频生成多种规格的视频,比如输入 16:9,输出 9:16、4:3、1:1 等多种格式。这里面涉及智能关键帧截取、焦点跟随、视频去填充、图像分割、背景融合等多项视频理解任务。

举个例子,在把一个竖版视频切换成横版的时候,AI 要截取画面的一部分来保持满屏铺开,这就需要 AI 识别出画面的焦点是什么(如下图中的一家三口),然后进行焦点跟随。这一功能有多实用?要知道,各个投放平台对视频广告的规格要求是不一样的,一个广告视频可能需要 20 多种规格。在没有 AI 介入的情况下,这无疑是一项低效的重复性工作。

模板视频自动剪辑是指复用之前积累的优秀素材快速剪出新的创意。此时,广告主可能只需要提供若干张商品图,而视频的「黄金前 3 秒」、转场、行动指引等片段都可以从素材库调取。AI 算法可以为这个素材库提供更加精准的标签(比如一个优秀的前 3 秒素材讲了什么内容),从而在再创作时更加精准地匹配新广告需求。到目前为止,腾讯广告已经积累了 10000 多套这样的模板,复用模板每天生产的视频量在 10 万以上。

视频创意智能混剪是指根据输入的一段视频剪出不同时长的版本,同时还要保留视频广告的吸引力、信任力、说服力和行动力。

举个例子,现在有一段 30 秒的产品介绍广告,需要让 AI 把它剪成 15 秒的。首先,AI 要把视频切成若干场景,然后从这些场景中找到那些可以吸引用户观看、增加用户信任、向用户展示产品优惠信息以及驱使用户下单的片段并保留下来。这一过程就是给各个场景进行秒级切分并打上各种标签的过程,也是赛道一考察的主要内容。

这些业务的顺利开展都离不开腾讯广告多年以来积累的多模态 AI 能力,包括文本、图像、语音、视频等多个领域。同时,这些能力的组合也为腾讯广告打造智能审核、智能创作、内容理解等广告业务平台奠定了基础。这些平台覆盖创意制作(投前)、广告推荐(投中)、创意复盘(投后)整个链路,支持文本、图片、视频、落地页等各种广告类型,已经在在游戏、电商、金融、教育、网服等多个行业的广告创作中得到应用。

可以预见的是,随着 AI 落地的深入,未来将有越来越多的 AI 技术应用到广告产品当中。或许哪天吸引你看下去的一个广告就是 AI 生成的呢。

关于作者: luda

无忧经验小编鲁达,内容侵删请Email至wohenlihai#qq.com(#改为@)

热门推荐