三个人BERT了一下,从腾讯广告拿走50万冠军奖

  金磊发自凹非寺

  量子位报道公众号 QbitAI

  凭着 BERT,这三个人拿下了 7 万美元 (近 50 万人民币)的巨额赛事冠军奖。

  这就是2020 腾讯广告算法大赛的终极战果——这支名为DYG的战队,从万名选手中一路披荆斩棘,最终斩获冠军。

  从左至右:腾讯广告副总裁蒋杰,「DYG」队王贺、郭达雅、梁少强

  冠军队伍 DYG 共由三名成员组成,分别是:

  • 武汉大学计算机硕士、算法工程师,王贺

  • 中山大学-微软亚洲研究院联合培养博士,郭达雅

  • NLP 相关从业者,梁少强

  腾讯广告算法大赛自 2017 年开展首届以来,每年都会吸引来自世界各地的技术高手参加。

  尽管今年遭遇疫情冲击,但本次腾讯广告算法大赛依然吸引到了超1,000 所国内外院校3,000 多家企事业单位11,000 人报名参与,规模超过同期其他算法大赛 2 倍之多,火热程度可想而知,目前已经成为了全球最受瞩目的顶级算法赛事之一

  而腾讯广告算法大赛能有如此魅力,靠的不仅仅是奖金,更是源于基于其真实场景的赛题、海量的数据、免费的超强计算资源,还有对人才的极力重视。  

  稀疏数据下也能精准预测,BERT 效用惊人

  由腾讯广告主办的腾讯广告算法大赛,已经迈入第四个年头,而今年的比赛在多个层面上都得到了进一步升级:

  • 奖金方面,今年的奖金池扩大到了百万级别,冠军队伍将斩获 7 万美元(近 50 万元人民币)的高额奖金,亚军和季军队伍也能分别获得 1 万美元和5,000 美元,而其余进入决赛圈的十强队伍也分别能获得1,000 美金的奖励。

  • 评委方面,阵容比去年有了更大升级,外部评委包括微众银行首席 AI 官杨强、清华大学计算机系教授唐杰、北京大学算计系副主任崔斌、大数据与人工智能专家刘鹏;内部评委包括腾讯广告副总裁蒋杰、腾讯公司副总裁王巨宏、腾讯广告副总经理杨毅果、腾讯云副总裁黄世飞等腾讯高管。在决赛现场,腾讯广告算法大赛组委会还邀请到了腾讯数据平台部副总经理刘煜宏、英特尔全球大客户总监米琦、腾讯云产品部 AI 基础产品中心总经理徐晓敏,以及多位技术高管莅临现场指导。

  • 资源支持方面,腾讯广告算法大赛引入了更多的合作伙伴,联合了腾讯云 AI、腾讯大数据、腾讯招聘、腾讯高校合作以及英特尔举办。与此同时,腾讯会议为大赛全程提供远程协同、线上会议及直播等服务,英特尔和腾讯云智能钛机器学习平台 TI-ONE 共同支持 AI 算法平台,大赛同时推荐使用针对稀疏高维模型优化的 Angel 训练框架。

  除此之外,赛题本身因其挑战性和趣味性也成为了一道别样的风景线——首次采用「逆向思考」赛题:「广告受众基础属性预估」

根据腾讯广告真实业务的脱敏数据,利用机器学习的技术,在用户数据稀疏的情况下,实现精准预测用户属性。

  可以说,这样的赛题具有很强的现实意义——既能保证用户的数据隐私安全,又能解决投放中广告主自有数据稀疏的实际问题。

  也正如腾讯广告副总裁蒋杰所说:

数据隐私和冷启动问题,是行业所面临的共性问题。

  那么面对这样的挑战,参赛选手又是如何解决的呢?

  斩获第一名的「DYG」战队给出了一个清晰的解法——BERT

  BERT 是由谷歌提出,与自然语言处理相关的技术,并且至今还在不断迭代优化。

  「DYG」赢得比赛的关键点,就是将 BERT 应用到预训练模型(基础属性预测场景)之中。

  此外,「DYG」还提出了「融合概率分布」的方法及模型,利用多层 Transformer 融合概率分布及 BERT 的语义表示,有效地提升了性能。

  「DYG」也凭着 BERT 一路披荆斩棘,在A榜、B榜成绩中都拿下了第一的名次。

  获得亚军的「山有木兮」团队也曾想在预训练模型阶段直接采用 BERT,但是考虑到训练时长、调试成本等因素,最终换了一种方式——仿 BERT,实现分层次的标签信息注入,再通过 Target Encoding、多模型融合等操作不断刷新比赛成绩,最终取得了本场比赛的第二名。

  而排名第三至十名的队伍中,虽然也有队伍表示曾考虑采用 BERT,但面对计算量的问题,最终采用的还是常用的 LSTM 等技术。

  对此,蒋杰在量子位的采访中表示:前两名队伍的计算量其实并不大,这是因为他们在做完 embedding 之后,对整个参数进行了一次强压缩,也就是说,已经做过了一次筛选。

  嗯,BERT,真香!

  无论是人力、物力,还是财力、精力,腾讯广告每年在这个大赛的投注不菲,而且今年疫情之下,难度更上一层楼。

  那么问题来了。

  腾讯广告为什么每年「重金」举办算法大赛?

  人才人才,还是人才

  本届腾讯广告算法大赛,除了高达百万的奖金池之外,还有一个特别亮眼的「福利」:

面试直通车——优秀团队可以获得免笔试资格。这样的案例过往不在少数,而对于今年面临就业难的应届生来说,通过技术比赛入职腾讯,是一个极具诱惑力的橄榄枝。

  也就是说,每年重金举办算法大赛,背后是腾讯广告对算法人才的「求贤若渴」。

  正如蒋杰在采访中表示:

欢迎这些拿到好名次的选手,明年能够继续参加算法大赛。我们也期待有更多的选手能通过算法大赛入职腾讯。

  今年腾讯广告算法大赛报名人数已经高达 11,000 人,这种规模的算法比赛,在全球范围来看也是顶级的。

  然而,蒋杰带领下的腾讯广告并不满足于此:

要吸引更多的人才,就需要更大的吸引力。

明年的赛事依然会持续升级,奖金池只会增加不会减少。

  通过算法比赛网罗天下英才,打造一个技术交流和分享的平台,是腾讯广告持续四年举办腾讯广告算法大赛不变的初衷。

  当然,对人才如此重视的腾讯广告,对技术的探索并不只局限于腾讯广告算法大赛这一项年度技术盛事。

  在今年的 6 月 2 日,新一年的「腾讯广告犀牛鸟专项研究计划」正式启动。

  这是腾讯广告在产学研合作计划中的重要项目之一:

该项目面向全球高校全职学者或科研机构的全职研究人员,旨在开放腾讯广告业务中的技术挑战,搭建产学研合作平台,共同探索影响广告技术长远发展的前沿问题,并培养优秀人才。

  从 2018 年开始,每年一次的腾讯广告「犀牛鸟专项研究计划」也得到了海内外学者的广泛关注和积极参与——已有 20 余所高校通过层层筛选,开启和腾讯广告的专项合作,面向广告真实问题与业务实际需求,与广告研发团队开展密切的科研协作。

  今年的「犀牛鸟专项研究计划」,围绕机器学习、推荐系统、自然语言处理三大技术领域话题设立八大研究命题。某种程度上也映射着腾讯广告着重发力的技术探索方向。

  当然,腾讯广告在这项计划中也给出了「福利」:

金额超百万的研究基金支持。

将向参与专项研究计划的师生开放实验环境。

赴腾讯实习的宝贵机会,在研发人员和学校导师的共同指导下开展研究工作。

  此外,腾讯广告联合腾讯高校合作搭建学界和产业界的直播活动——Wiztalk,也同步以浅显易懂的口吻,面向营销人及技术人员分享历年犀牛鸟专项合作成果。

  正如蒋杰所述:

从 2011 年的广点通团队一路发展至今,腾讯广告的技术毫无疑问属于第一梯队的行列。但我们肯定不会止步于此,更需要以一种求索的态度去探索最前沿的技术命题。而算法大赛就是一个绝佳的方式。

人才是腾讯最宝贵的财富。只有让更多的人才加入腾讯,来到腾讯广告,才能让腾讯广告平台能力和技术能力得到持续的提升。

  AI 变革下的腾讯广告

  实际上,如果对「算法」和「鹅厂」有所关注,应该对这场影响力越来越大的比赛以及背后的腾讯广告,不会太陌生。

  在去年腾讯广告算法大赛落幕现场, 不少人也感叹:

腾讯广告,可能是一个被低估的腾讯 AI 业务。

  广告目前是最为成熟的互联网商业化模式。而腾讯作为一家国内数一数二的互联网公司,广告业务在商业化的技术探索上也走在行业前列:

有 AI 亟需的百亿维数据,有复杂多元的效果转化链路能够源源不断地提出新的挑战,更有可以不断产生效果和反馈的行业应用场景。

  一言以蔽之,AI 在广告业务中,能够找到最合适的用武之地。

  而今年,这种特征变得更加显性。

  今年年中的「腾讯广告 2020 年中秀·营销大变局」线上峰会上,腾讯广告提出了它的全新定位——商业服务中台

根植于腾讯独有的 C to B「超级连接」体系,腾讯广告首次系统化提出了全链路数字化营销四大连接模型,即品牌心智连接、交易转化连接、私域用户连接和体验创新连接。

这个模型定位于腾讯面向企业的商业服务中台,并联动全平台资源和生态合作伙伴共同助力企业实现全链路数字化营销转型,更好地实现用户与商业的连接。

  在去年年底担任腾讯广告副总裁之前,2012 年入职腾讯的蒋杰已经是腾讯数据平台部总经理及腾讯智慧零售产研副总裁,但他在采访中一直自谦自己是一个「广告新人」。

  他在加入腾讯广告之后,大刀阔斧地实现了多项整合工作,将投放端及 API 生态实现多端统一和升级,并以此推动了数据能力、策略能力等多个维度的技术整合。

  从「用户理解」、「用户触达与影响」及「用户转化与运营」三大环节,蒋杰所负责的腾讯广告技术业务,也将为企业的全链路数字化营销提供全面支撑。

  他总结道:

腾讯广告的产品和技术愿景旨在连接用户与商业,驱动交易全链路的用户增长,让技术为商业创造更大的价值。

  但腾讯广告的中台,并不是「自上而下」高屋建瓴地进行规划,也不是先喊出一个「中台」的口号,再逐步进行建设的。

  蒋杰认为:

中台是在服务业务的过程中一步步沉淀出来的。腾讯广告把「中台思想」贯穿到每一次对广告主的服务当中。

广告链路很长,腾讯广告需要在全链路上的每个环节都要实现技术突破,基于全链路的优化,也将是腾讯广告的技术团队的一场持久战。

  而在这一点上,腾讯广告并不会以牺牲用户隐私为代价,相反,腾讯广告一直贯彻腾讯「用户为本,科技向善」的愿景与使命,将用户隐私的保护放在最重要的位置上。

  本次算法大赛的题目也是基于用户隐私的保护而设立,希望能通过对用户数据特征的深度理解,在合法合规的基础上提高广告业务的投放精准度,在保障用户隐私的前提下最大化用户体验。

  这也正是腾讯广告每年不惜重金举办如此大规模的算法大赛,且对算法人才如此渴求的原因所在。

  人才渴求、技术重视,也进一步转换为业绩。

  在疫情影响下的 2020 年第一季度,腾讯网络广告业务的收入同比增长 32%,至人民币177. 13 亿元,社交及其他广告收入增长 47%至人民币145. 92 亿元

  腾讯广告业绩堪称逆市上涨。而腾讯市值也随着创下新高。

  「美好连接,智慧增长」, 这是腾讯广告的品牌主张。

  我们也相信,像腾讯广告算法大赛这样难得的技术交流平台,能够为腾讯广告以及腾讯输送更多的人才,让用户和广告在美好的场景下自然相遇,让互联网的商业化路径变得更加智能和智慧。

  —  —

Published by

风君子

独自遨游何稽首 揭天掀地慰生平

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注