您的位置 首页 > 体育运动

【fm2014球员uid】揭秘:腾讯阿里京东推荐系统架构如何设计?

SACC大会于10月22日圆满落幕。因此,10月21日,搜索和推荐系统体系结构设计专业领域的5名演讲者分享了熟悉的推荐系统体系结构技术。他们分别是第四范式资深算法科学家郑晓成、腾讯音乐娱乐集团技术公司李心远、58届搜索推荐部负责人照片、阿里巴巴高级技术专家邓万熙、京东集团设计师尹德伟。

《推荐系统架构演进的实战分享》

首先为大家介绍今天的第一位演讲嘉宾来自第四范式资深算法科学家程晓澄。程晓澄是推荐系统服务算法负责人,负责逻辑思维得到 APP、海外移动新闻聚合 APP News In Palm 等多个推荐系统的搭建,及推荐服务功能与架构的设计,以支撑客户在各类场景和业务的需求。曾任职豆瓣算法部门,参与了豆瓣 FM 等多个推荐系统的搭建和改进。

演讲的主要内容主要分为三个部分:推荐系统的诞生土壤和早期演进、推荐系统当下的基本架构、推荐系统的搭建及挑战。

在推荐系统的早期,推荐在这两假设上才能建立:user based recommendation以及item based recommendation。但是早期的模型存在一些局限。有些方法用到的信息只有 uid、iid、历史评分,而一些新的商品就没有历史评分。显然如果用到更多的信息和空间就能使预测更加准确。如果有一个更丰富的选择和假设,每个用户都有自己的行为逻辑,然后利用评分的方式进行捕捉,并且根据每个用户喜欢什么不喜欢什么,能够自主去进行修正和反馈,这就涉及到机器学习的概念。

在推荐系统的典型架构中主要分为三个方面:召回、排序、生成推荐列表。

大致的步骤为:首先从客户提供的数百亿内容中选出数千召回的内容,然后进行机器学习推荐模型排序,最后再基于场景进行去重、多样性控制、加权,生成最终的推荐列表。

谈到推荐系统的搭建时,程晓澄认为主要包括线上请求、线下数据流闭环、数据分析、算法实验等几个方面。整个推荐系统需要能够快速迭代,快速回应产品和性能上算法上要求,需要更多的进步和进化。

最后程晓澄表示,一个象棋大师会被一个每回合走两步的业余选手轻松击败,而任意一个系统上线后也会暴露一些问题。一个好的系统不应该仅仅拥有响应产品、性能、算法需求的架构,还应该同时拥有可进行大量实验的环境机制。

《腾讯音乐推荐系统的探索与实践》

第二位演讲嘉宾是来自腾讯音乐娱乐集团的李深远。李深远现是腾讯QQ音乐智能数据中心技术总监及高级工程师,2010年起先后负责腾讯视频(前QQLive)视频编解码优化,QQ音乐音频编解码框架研发,2014年后主要负责QQ音乐个性化推荐系统,智能精准营销以及用户画像等技术工作。

演讲的开始,李深远表示现在QQ音乐、酷狗、酷我成立了独立的音乐公司,目前QQ音乐的注册用户目前达到8亿、DAU用户1亿。全面K歌也属于QQ音乐旗下的一员,两个平台互利互通。李深远还表示,未来QQ音乐很有可能会成为一家经纪人公司,从全面K歌挖掘有才华的音乐人进行包装。

据李深远介绍,目前QQ音乐的用户分布在一线城市占比大约10%,二线城市为30%,三线及以下线城市大约为60%。

李深远还把QQ音乐做了一个形象的比喻。他说,如果把豆瓣比喻成日料,那么QQ音乐就好像一个大排档。对于任何一个公司来讲,企业长期更看重的可能是用户口碑和品牌调性,短期主要为业务KPI,case by case。口碑是一个长期的效果,而短期智能通过现有数据去衡量,于是就有了个性化推荐。

谈到个性化推荐的全景图,李深远说其实QQ音乐的全景图和大多数架构区别不大。大致包含的都一样:应用层、在线推荐层、模型训练层。数据流水转存数据仓库,通过形成知识网实时更新,很多线上服务可以直接用。

使用了QQ音乐的个性化引擎后,产品指标明显得到了提升,听歌人数Android、Iphone平台提升20%以上,人均听歌时长也提升了15%以上,并获得了用户的一致好评。此外,他们还做了一些关于广告个性化推荐的尝试,也产生了不错的效果。

最后,李深远还介绍AI时代,QQ音乐团队通过不同尝试研制了智能推荐新系统。智能推荐(Intelligence Recommendation)是依托于腾讯海量用户行为和广泛产品覆盖,以数据+算法+系统为核心,并结合腾讯在电商,游戏,金融,泛娱乐,资讯,3C等众多领域深厚的大数据技术积累,为客户提供基于海量用户画像+实时大数据机器学习的内容个性化推荐PaaS服务,通过简单的API调用,就能快速拥有业界顶尖的大数据应用能力。

李深远在演讲中还提到,做算法应该抬头看路,对于技术开发人员来讲,在同比的时间跑赢自己才是最重要的。

《C2C电商市场中推荐系统的挑战与机遇》

今天的第三位演讲嘉宾是来自58转转的张相於。张相於毕业于中国人民大学,现任转转推荐算法部负责人,负责转转的推荐系统以及其他算法相关工作,曾任当当网推荐系统开发经理。多年来主要从事推荐系统以及机器学习系统的相关工作,也做过搜索、计算广告、反作弊等相关工作,并热衷于探索大数据技术、机器学习技术在其他领域的应用实践。

演讲的开始,张相於首先对C2C市场及其特点进行了分析。他表示,C2C平台目前可能还是以交易为主,但是它本质上是连接了个人与个人,前景会非常广阔。C2C平台的意义主要为物品交易、技能交换、发现世界。主要特点包括信息发布随意性强、商品库存唯一性、时效敏感性,由于库存的唯一性,导致了发现的好东西不能推荐给更多人的现状,这和新品电商以及资讯推荐有很大不同。

面对这种状况,张相於总结出了自己对C2C市场目前面临的挑战:用户发布的数据异质性、买卖双方的时效敏感性、复杂策略下的性能压力。而面对这些挑战,转转团队提出了自己的应对策略。

用户发布的数据异质性解决方法分为两种,一种是将非结构化数据转为结构化数据,第二种是使用NLP相关技术直接处理和使用非结构化数据。面对买卖双方的时效敏感性挑战,转转通过优化改造CF算法,构建统一画像管理系统,来将各种算法进行了实时化改造。第三个挑战——复杂策略下的性能压力,通过对架构进行算能升级,实现了性能的提升了和计算能力的提升。

《开放搜索多租户实时计算架构的演进之路》

第四位演讲嘉宾是来自阿里巴巴高级技术专家邓万禧,邓万禧2009年毕业于南开大学并加入阿里巴巴,主要参与isearch5搜索引擎的研发,该引擎目前已经广泛应用于阿里集团电商搜索、神马搜索等核心业务。近年来主要负责开放搜索的设计与研发,致力于降低搜索技术的门槛和成本,让搜索技术不再成为客户的业务瓶颈。

邓万禧本次的演讲主要对阿里巴巴的产品、业务发展和架构演进进行了介绍。

Opensearch是一种完全自助式、可定制搜索托管服务,研发的主要目标为使学习成本更低、定制更加灵活。阿里巴巴的Opensearch的主要优点为:降低门槛、产品5分钟迭代、解放算法同学生产力。Opensearch托管服务上线只需三步,产品经理就能搞定。

谈到阿里的业务发展,邓万禧透露主要包括阿里巴巴集团内各BU和阿里云公有云业务。此外,在演讲中邓万禧还介绍了2014、2016、以及2017年阿里的主要计算架构图。

演讲的最后,他还透露了阿里云计算架构的后续规划:

  • 计算框架升级:blink

  • 存储自定义

  • 白屏化运维:

  • 聚焦搜索场景:提升相关性定制能力,分词定制/查询分析/相关性定制

  • 支持数据分析场景的新产品:

《支持亿级流量的海量商品搜索架构》

最后一位演讲嘉宾是来自京东集团架构师尹德位。尹德位现任职于京东,主要从事搜索引擎架构研发及平台化设计工作,使技术更好地服务于集团业务快速发展。作为京东重要的流量入口,搜索是京东电商生态中的核心系统。京东搜索系统经过多代发展,现已支持每日数亿PV请求,为中国几亿用户提供高效精准的搜索服务。经过持续的迭代优化,系统伸缩弹性和通用性进一步完善,在数据增长与成本控制之间找到最佳结合点,如今已成长为可支持百亿数据级的高性能高并发分布式搜索系统。

尹德位演讲的主要内容包括搜索系统简介、搜索架构演进之路以及搜索系统的发展与挑战。

演讲的开始,尹德位主要对京东搜索系统的规模概况进行了大致的介绍。

接着,谈到搜索架构演进之路时,他重点介绍了京东的平行搜索引擎。而平行搜索(分布式)引擎中的负载均衡管理是重点需要关注的内容。负载均衡管理主要包括:1.轮询2.负载窗口机制3.哈希4.动态伸缩5.集群灾备。

最后他表示,搜索系统的发展与挑战主要面临三个方面:数据量持续增长和搜索多维化,而京东亿级流量的海量商品搜索架构在挑战中不断发展,积极迎接挑战。

▲更多信息尽在IT168现场报道专题

关于作者: luda

无忧经验小编鲁达,内容侵删请Email至wohenlihai#qq.com(#改为@)

热门推荐