Netflix的推荐系统演变,是一场关于数据、算法与人性的对话
| 探显家| 2025-06-08
【流媒体网】摘要:推荐系统的本质,是让每个人都能在茫茫片海中,遇见属于自己的那一部好内容。

  Netflix 的成功不仅仅在于内容本身,还有其背后强大的推荐系统。Netflix 推荐系统的演变,是一场关于数据、算法与人性的对话。从最初的“千人千面”,到“混合推荐”算法,再到今天由智能算法驱动的个性化体验,Netflix 始终站在技术与体验的前沿。

  2006 年,Netflix 刚刚完成了从 DVD 邮寄业务到流媒体平台的巨大转型。如果说 DVD 时代的 Netflix 像是一家高效的邮局,把光盘一张张送到用户家门口,那么流媒体时代则像是突然将所有电影和剧集都搬进了用户的客厅,随时随地、无限量地任你挑选。

  表面上看,这样的转型为用户带来了前所未有的自由和便利。但实际上,内容的极大丰富也带来了“幸福的烦恼”——面对浩如烟海的影视库,很多用户反而会陷入“选择焦虑”,一不小心就在片单里迷失了方向。Netflix 很快意识到,单靠内容的丰富远远不够,如何帮助用户在信息洪流中找到真正喜欢的那部电影,才是赢得用户心智的关键。

  彼时,Netflix 主要依靠的还是“第一代智能助手”---Cinematch。

  Cinematch:Netflix 在“个性化推荐”领域迈出了关键一步

  时间倒退到 2000 年,Netflix 正从单次付费租赁模式转型为包月订阅制,面对不断扩大的 DVD 片库和用户基数,如何让每个人都能快速找到喜欢的电影,成为公司生死攸关的问题。

  彼时的互联网,内容分发的权力牢牢掌握在少数人手中。门户网站的编辑、排行榜的制定者、影评人的主观意见,决定了大多数用户能看到什么、喜欢什么。这种“千人一面”的分发逻辑,本质上是工业时代的遗产——标准化、规模化、中心化。它的优点是效率高、成本低,但缺点也极其明显:忽视了个体的差异,牺牲了用户的真实兴趣。

  Netflix 敏锐地意识到,这种“千人一面”显然已经无法满足用户“千人千面”的需求。于是,Cinematch 应运而生。

  Cinematch 这个名字融合了 Cinema(电影)和 Match(匹配),意为“为你匹配电影”,非常契合这套推荐系统的设计初衷。Cinematch 的诞生标志着 Netflix 在个性化推荐领域迈出了关键一步。

  Cinematch 基于用户的历史评分数据,通过分析哪些类型的电影受到用户青睐,预测他们可能喜欢哪些新片。Cinematch 的算法核心,是协同过滤(Collaborative Filtering)。它的基本假设是:“相似的人喜欢相似的东西”。

  这句话看似简单,实则蕴含着深刻的社会学和统计学原理。它意味着,人的兴趣和行为是可以被量化、被归纳、被预测的。只要有足够多的用户评分数据,算法就能找到“你和谁最像”,进而推断“你可能会喜欢什么”。

  这种方法的革命性在于,它把“推荐”从主观判断变成了客观计算,从“少数人决定多数人”变成了“每个人都能影响每个人”。协同过滤的本质,是用“群体智慧”服务于“个体幸福”。它让 Netflix 第一次具备了“千人千面”的能力——每个人的首页都不一样,每个人都能在海量内容中,找到属于自己的那一部电影。

  这套系统不仅提升了用户体验,也极大地推动了 Netflix 的会员留存和增长。

  此后,Cinematch 不断迭代,甚至成为了 The Netflix Prize 竞赛(后面会详细介绍)的基线算法,也为后来的深度学习和大模型推荐系统奠定了基础。

  虽然 Cinematch 在当时已经很有创新性,但它的准确率只有大约 75%,在面对用户口味多变、内容日益丰富的挑战时,这套推荐系统逐渐显得力不从心。可以说,对于依赖订阅的 Netflix 来说,这样的表现远远不够,甚至可能让公司陷入危机。

  The Netflix Prize 竞赛:催生了“众包创新”的范式

  在困境面前,Netflix 没有选择闭门造车,而是发起了一个震动业界的全球范围内的“有奖竞赛””活动——The Netflix Prize。活动表示只要有人能把推荐算法的准确率提升 10%,就能获得 100 万美元的巨奖。更大胆的是,Netflix 首次向全球开放了来自 48 万名订阅用户的近 1 亿条匿名用户评分数据,邀请全世界的数据科学家共赴这场算法盛宴。果不其然,这个举措犹如在平静的湖面投下一枚重磅炸弹,激起了全球创新的浪潮。

  竞赛机制极具戏剧性:全球团队可以不限次数的提交算法,实时排行榜让每一次进步都成为业界关注的焦点。短短两周,Cinematch 就被超越;一年后,最优算法提升已达 7%。直到 2009 年,“BellKor’s Pragmatic Chaos” 团队凭借融合数百种算法的集成方法,成功实现 10% 的提升目标这一刻,一举夺得百万大奖。

  这场竞赛不仅仅是一场算法的比拼,也为整个数字经济时代的创新方式和行业发展,提供了全新的思路和范本。

  1、首先,它彻底改变了技术创新的传统路径,催生了“众包创新”的范式。过去,推荐系统的优化往往局限于公司内部的工程师和研究团队,创新速度受限于组织边界和资源。而 Netflix 则打破了这一壁垒,将问题和数据向全球公开,设立高额奖金,邀请世界各地的数据科学家、工程师、学者甚至业余爱好者参与竞争。本质上,这是一种“用平台思维做创新”的典范。它不再依赖单一团队的闭门造车,而是通过开放、协作和激励机制,把创新的边界扩展到全球。这种“众包创新”模式,后来被无数科技公司和研究机构效仿,成为数字经济时代解决复杂问题的重要方法论。

  2、其次,它还开启了一场关于“如何理解和预测大规模人类行为”的革命。这些创新不仅改变了 Netflix,也成为现代推荐系统的基石。如今,零售、电商、新闻、医疗等领域都在用类似技术分析海量行为数据,实现精准个性化。比如,电商平台不仅能预测你喜欢什么商品,还能推测你最可能下单的时间;新闻平台则在“你喜欢”与“能拓展你视野”的内容之间做平衡。

  Netflix Prize 竞赛的最大突破之一,就是推动了“混合推荐”算法

  具体来说,这套“混合推荐”算法主要做了三件事:

  1、融合多种算法:它不是只用一种推荐方法,而是把几十种、上百种不同的算法(比如矩阵分解、邻居推荐、神经网络等)都用上了。每种算法都有自己的强项,有的擅长找出你和别人相似的地方,有的能发现电影之间的隐藏关系,还有的能捕捉你口味随时间变化的小细节。

  2、每个算法各显神通:团队会让每个算法都先给出一份“你可能喜欢什么”的预测,然后再比较这些预测到底准不准。哪些算法在某些情况下表现更好,就在那块多给它点“发言权”。

  3、最后加权平均,综合推荐:所有算法的预测结果会被加权融合,最终形成一个更靠谱、更全面的推荐清单。就像一群评委各自打分,最后算个总分,得分最高的电影就被推荐给你。

  这样一来,推荐系统既不会被某一个算法的局限性拖后腿,也能充分利用各种方法的优点。结果就是——比以前 Cinematch 的这种单一算法靠谱得多,推荐的内容更贴合你的真实兴趣。

  所以,这个团队的秘诀不是某种神奇的算法,而是把“众人拾柴火焰高”这句话用到了极致。只要你能把各种方法组合好,最后的推荐效果就会比任何单打独斗都更强。这也是为什么他们能最终赢得 Netflix 百万大奖的原因。

  此外,这场竞赛的意义还让全行业意识到:

  1、用户的隐性行为(比如看过哪些、反复播放哪些、在哪些片段暂停或退出)往往比显性评分更能反映真实偏好。

  传统推荐系统如 Cinematch 主要依赖用户的显性反馈,比如打分、点赞、评论等。但在实际应用中,显性反馈往往稀缺且带有主观偏差。大多数用户不会频繁打分,甚至根本不打分。相比之下,隐性行为(如浏览、点击、观看时长、反复播放、在哪些片段暂停或退出)更真实地反映了用户的兴趣和偏好。

  举例来说,一个用户可能没有给某部电影打分,但他反复观看某个片段,或者在某部剧集上停留时间很长,这些行为比一两次评分更能揭示他的真实兴趣。The Netflix Prize 竞赛推动了推荐系统对隐性行为的重视,促使算法从“你说你喜欢什么”转向“你实际做了什么”,极大提升了推荐的准确性和用户体验。如今,主流推荐系统都会综合分析用户的各种行为数据,甚至包括停留时长、快进、回看等细节,以捕捉更深层的兴趣信号。

  2、推荐的关键不再只是内容本身,更是用户在特定时刻和情境下的心理状态。

  内容本身固然重要,但用户的需求和心理状态是动态变化的。比如,同一个人在不同时间、不同情境下,可能会喜欢完全不同的内容:下班后想看轻松喜剧,深夜可能偏好悬疑片,和家人一起则更倾向于合家欢电影。推荐系统如果只关注内容本身,而忽略用户的心理和场景,就很难做到真正的个性化。

  现代推荐系统越来越重视“场景感知”和“心理建模”。它们会结合时间、地点、设备、历史行为等多维度数据,推测用户此刻的心理状态和需求。例如,优化后的 Netflix 推荐系统会根据你最近的观影习惯、当前的时间段、甚至你用的设备(手机、电视)来动态调整推荐内容。这种“理解用户此刻想要什么”的能力,是推荐系统进化的核心,也是提升用户满意度的关键。⁠

  3、算法的混合创新,远比单一方法更能捕捉人性的复杂。

  人类的兴趣和行为极其复杂,单一的推荐算法很难全面捕捉。The Netflix Prize 竞赛的最大突破之一,就是推动了“混合推荐”——将多种算法(如协同过滤、内容推荐、矩阵分解、深度学习等)融合,取长补短,提升整体效果。

  比如,协同过滤擅长发现“相似用户喜欢什么”,内容推荐能处理新内容的冷启动问题,矩阵分解能挖掘潜在兴趣因子,深度学习则能自动提取复杂特征。Netflix 最终获胜的团队融合了上百种算法,才实现了 10% 的准确率提升。这种“混合创新”不仅提升了推荐效果,也让系统更具鲁棒性和适应性。如今,混合推荐已成为业界主流,几乎所有大型平台都采用多模型融合,动态权重调整,以应对用户兴趣的多样性和变化性。⁠

  这三点共同推动了推荐系统从“数据驱动”到“心理洞察”,再到“技术融合”的进化。它们不仅提升了推荐的准确性,更让系统能够理解和服务于每一个独特的用户,成为数字经济时代不可或缺的基础设施。

  在 AI 时代,Netflix 推荐系统的“基础模型”应运而生

  随着流媒体业务的迅猛发展,Netflix 的推荐系统也面临着前所未有的复杂性挑战。原本,每个推荐场景,比如 “Continue Watching(继续观看)”和 “Today’s Top Picks for You(今日为你推荐)”等,都有自己独立的模型,各自为政、各自优化。

  刚开始,这种“分而治之”的方法还能应付不同的业务需求,但随着内容和用户规模的爆炸性增长,这种架构逐渐暴露出明显的短板:模型之间难以协同,创新难以快速迁移,数据和算力资源也被严重浪费。

  你可以把这种多模型架构想象成一座城市里,交通、供水、供电系统各自为政,互不连通。每次想升级或扩展服务,都需要单独修路、挖管道,既慢又费力。Netflix 很快意识到,这样下去不仅效率低下,还会拖累整个产品体验。

  2022 年末,ChatGPT 的出现彻底点燃了 AI 的新浪潮。Netflix 敏锐地捕捉到这一趋势,就像 NLP(自然语言处理)领域已经迈入 LLM(大语言模型)时代一样,Netflix 也需要打造一个统一且可扩展的 Foundation Model(基础模型),来承载和驱动所有个性化推荐任务。

  下面将进一步揭示 Netflix 最新一代推荐系统的技术架构与创新实践,探索它如何在亿万用户的行为洪流中,持续为每个人打造独一无二的观影旅程。其算法的核心思想是:用数据驱动、端到端的方式,构建一个能理解用户长期偏好、可被下游多种推荐任务复用的超级模型。其主要内容包括:

  1. 数据与“交互 Token 化”:Netflix 拥有数亿用户、数千亿次交互。如何高效利用这些数据?文章提出了“交互 Token 化”——类似 NLP 中的分词,把用户的行为序列压缩成有意义的“事件 Token”,既保留关键信息,又避免冗余。比如,把同一部剧的多次观看合并成一个 Token,并保留观看时长、设备、时间等细节。这样既能延长模型可处理的历史窗口,又不会丢失重要信号。

  2. 模型架构与目标:基础模型采用自回归的“下一个 Token 预测”目标(类似 GPT),但针对推荐场景做了改进:

  (1)不是所有行为权重相同,比如看 5 分钟预告和看 2 小时电影的意义不同。

  (2)采用多 Token 预测,鼓励模型捕捉长期依赖,避免只关注短期行为。

  (3)辅助目标(如预测下一个类型、语言等)作为正则化,提升泛化能力和对用户意图的理解。

  3. 冷启动与新内容挑战:推荐系统的难题之一是“冷启动”——新片上线时没有历史数据。Netflix 通过元数据(如类型、剧情、风格)和 ID 嵌入的混合方式,为新内容生成合理的初始表示。模型会根据内容“年龄”动态调整对元数据和 ID 的依赖,确保新片也能被精准推荐。

  4. 下游应用与可扩展性:基础模型不仅能直接用于预测用户下一个行为,还能输出高质量的用户和内容嵌入,供其他模型或业务场景复用。比如,用户画像、内容召回、相似内容推荐等。为解决每次模型重训后嵌入空间不一致的问题,Netflix 引入了正交低秩变换,保证嵌入的稳定性和可解释性。

  5. 扩展性与未来展望:文章强调,像 LLM 一样,推荐基础模型的性能随着数据量和参数规模的提升而持续增长。Netflix 通过稀疏注意力、滑动窗口采样等技术,既保证了模型的长序列建模能力,又兼顾了推理效率。未来,这种统一架构将极大提升创新效率和资源利用率。

  Netflix 的做法本质上是“用平台思维做推荐”,即用一个强大的底座模型承载所有创新和业务需求。这种方式不仅提升了系统的整体智能,还极大降低了维护和创新的边际成本。它代表了推荐系统从“手工特征+小模型”到“数据驱动+大模型”的范式转变。未来,随着多模态数据(视频、语音、文本等)和外部知识的引入,这种基础模型的能力还会进一步增强,成为内容分发和用户体验的核心引擎。

  从另一个纬度来讲,推荐系统的“平台化”得益于技术的发展,是数据(数据规模的指数级增长)、算力(计算能力的飞跃)和算法(算法和模型范式的突破)三者协同进化的必然结果。

  下面的内容编译自 Netflix 官方的技术博客---Netflix Tech Blog,详细介绍了 Netflix 为个性化推荐系统打造的 Foundation Model,借鉴 LLM 的理念,通过大规模数据和统一架构,提升推荐系统的效率、可扩展性和创新能力。为了帮助大家更好的理解,其中有部分内容我进行了一些拓展。

  拓展下:Netflix Tech Blog 是一个面向全球技术社区的窗口,系统地记录和分享 Netflix 在技术创新、工程实践、产品开发以及企业文化等领域的探索与成果。内容涵盖了从机器学习、数据分析、云计算、分布式系统,到用户体验优化、内容推荐算法、广告系统、全球化生产工具等多个前沿话题。

  01

  动机 Motivation

  Netflix 的个性化推荐系统本身就是一个相当复杂的体系,包含了多种特定的机器学习模型,分别服务于不同的需求,比如 “Continue Watching(继续观看)” 和 “Today’s Top Picks for You(今日为你推荐)” 等。

  这里稍微延伸下,所谓的特定的机器学习模型,它其实指的是 Netflix 为不同推荐场景和业务需求量身定制的各种小模型,每个模型各司其职,解决特定的个性化推荐问题。比如:

  “继续观看”模型:专门预测用户最有可能继续看的内容,通常基于用户最近的观看历史和未完成的剧集。

  “今日为你推荐”模型:聚焦于为用户发现新内容,可能结合了用户长期兴趣、平台新上线内容、流行趋势等多维度信号。

  类型/主题推荐模型:比如专门为喜欢纪录片、动画片、悬疑剧的用户定制的模型,挖掘细分兴趣。

  搜索排序模型:优化用户在搜索时看到的内容顺序,提升相关性和点击率。

  冷启动模型:为新用户或新内容设计的模型,解决“没有历史数据”的难题,通常依赖元数据、内容特征等。

  这些模型虽然都用到了用户行为数据和内容信息,但由于目标不同,特征工程、模型结构、训练方式和评估指标也各不相同。比如,有的模型更注重短期兴趣,有的则强调长期偏好;有的模型用深度学习,有的则可能用更轻量的算法以保证实时性。为什么要这么做?本质上,这是“工程分治”的思想。每个推荐场景的业务目标、数据分布和用户行为模式都不一样,强行用一个模型“包打天下”往往效果平庸。通过“专用模型”分而治之,可以让每个环节都做到极致,整体系统的表现也会更优。

  但问题也随之而来,随着个性化算法不断扩展以满足日益增长的业务需求,推荐系统的维护成本也水涨船高。而且,由于大多数模型都是独立训练的,尽管它们使用的是相同的数据源,创新成果很难在不同模型间迁移。这一现实促使我们思考,是否需要一种全新的推荐系统架构——让用户偏好的学习实现集中化,从而提升不同模型间的可访问性与实用性。

  目前,这些模型主要依赖用户最近的互动历史记录来提取特征。但受限于服务延迟和训练成本,许多模型只能关注很短的时间窗口。这一局限促使我们开发了一种推荐的“基础模型”。这种模型能够在极大规模下,整合用户的完整互动历史和内容信息,并通过共享模型权重(用于微调)或直接输出嵌入,方便其他模型复用这些学习成果。

  我们之所以要构建推荐基础模型,灵感其实来自 NLP 领域向 LLM 的范式转变。在 NLP 领域,大家已经逐步从众多小而专的模型转向一个可以直接或经过少量微调就能胜任多种任务的大型语言模型。

  因为 LLM 的出现,证明了一个事实:只要数据足够多、模型足够大、训练方式足够端到端(减少人为干预),足够强大的“单一模型”就能胜任多种任务,甚至能通过微调适配各种细分需求。

  这一转变带来了几条重要启示:

  数据为核心的方法:从以模型为中心、重度依赖特征工程的策略,转向以数据为核心,优先积累大规模高质量数据,并在可行的情况下追求端到端学习。在过去的机器学习和推荐系统实践中,工程师们往往把大量精力花在“特征工程”上——也就是手动设计、筛选、组合各种特征,希望模型能更好地理解用户和内容。这种“以模型为中心”的思路,本质上是相信“聪明的工程师+复杂的模型结构”能解决一切问题。它的优点是灵活、可控,但缺点也很明显:

  高度依赖专家经验,难以迁移和复用;

  创新速度慢,每次业务变化都要重新设计特征;

  难以充分利用数据,尤其是非结构化或大规模数据。

  而“以数据为中心”的方法则完全不同。它的核心信念是:只要数据足够多、足够好,模型本身可以相对简单,甚至可以端到端自动学习最优特征和决策逻辑。这背后有两个关键前提:

  数据是第一生产力。在联网和智能时代,数据的规模和质量决定了系统的上限。谁能掌握更多、更真实、更丰富的数据,谁就能训练出更强大的模型。

  端到端学习的崛起。深度学习和大模型的发展,让我们可以直接用原始数据(比如用户的所有行为序列、内容的原始元数据等)训练模型,让系统自己去“发现”哪些特征最有用,极大减少了人工干预和主观偏见。

  Netflix 的做法正是如此:他们不再把主要精力放在“怎么设计特征”上,而是投入资源去收集、清洗、标注和管理海量高质量数据,然后用强大的基础模型去自动挖掘数据中的价值。利用半监督学习:LLM 中的“下一个 token 预测”目标极为高效。它不仅能用无标注数据进行大规模半监督学习,还能让模型形成对世界知识的深刻理解。传统机器学习依赖大量标注数据,获取成本高、效率低。而 LLM 采用“下一个 token 预测”作为训练目标,可以直接利用海量无标注数据进行自我学习,这极大地扩展了模型的知识边界和泛化能力。为什么这种方式有效?本质上,世界上的绝大多数数据都是无标注的。人类学习语言、知识、常识,也不是靠别人一条条标注,而是通过大量阅读、观察和推理,逐步建立起对世界的理解。LLM 的“下一个 token 预测”目标,模拟了这种人类学习机制:模型不断预测下一个词、下一个行为,过程中自我纠错、自我完善。这样一来,模型不仅能学会语言规律,还能在无监督的环境下,捕捉到世界的深层结构和知识关联。对于推荐系统来说,这种半监督学习同样具有革命性意义。Netflix 拥有海量用户行为数据,但绝大多数是无标注的。通过类似 LLM 的训练目标,推荐基础模型可以充分挖掘这些数据中的隐含模式和用户偏好,不再受限于有限的标注样本。最终,模型不仅能更精准地预测用户行为,还能形成对内容、用户、场景的深刻理解,推动推荐系统从“相关性”走向“理解力”。

  这些经验深刻影响了我们“基础模型”的设计,使我们能够从维护众多小而专的模型,转向构建一个可扩展、高效的统一系统。通过扩展半监督训练数据和模型参数,我们希望打造一个不仅能满足当前需求,还能灵活适应未来变化、持续创新且高效利用资源的推荐模型。

  因此,这正是 Netflix 推出“基础模型”的背景——希望用一个统一、可扩展的大模型,打破“专用模型”各自为政的局面,实现知识和能力的共享,提升整体效率和创新速度。“专用模型”是大规模推荐系统早期最务实、最有效的工程解法,但随着数据和业务复杂度的提升,系统的“协同进化”能力变得更重要。未来,推荐系统一定会走向“底座统一、场景定制”的新范式:底层用强大的基础模型承载通用能力,上层通过轻量微调适配不同场景,实现效率与创新的统一。这是技术进化和商业需求共同推动的必然趋势。

  02

  数据 Data

  在 Netflix,用户的互动形式多种多样,从随意浏览到专注观影应有尽有。到 2024 年底,Netflix 拥有超过 3 亿用户,这意味着平台上积累了数千亿次互动数据——这个数据量级,已经可以和 LLM 所需的 token 数量相媲美。然而,正如 LLM 领域的经验所示,数据的“质量”往往比单纯的“数量”更为重要。为了高效利用这些数据,我们采用了“交互分词”(interaction tokenization)的方法,确保能够识别出有意义的事件,并尽量减少冗余信息。

  Tokenizing User Interactions(用户交互的分词处理):并非所有原始用户行为都同等有助于理解用户偏好。分词的过程,实际上就是界定什么样的行为可以成为序列中的“有意义 token”。可以类比 NLP 里的 BPE(字节对编码),我们通过将相邻的行为合并,生成新的、更高层级的 token。不过,与语言分词不同,这里的合并过程必须格外谨慎,确保保留关键信息。例如,总的观看时长可能需要相加,不同的互动类型也要进行汇总,以便保存重要细节。

  图 1. 通过在同一标题上合并操作并保留重要信息,对用户交互历史记录进行了衡量

  在精细化数据和序列压缩之间的权衡,类似于 LLM 在词汇表大小与上下文窗口长度之间的平衡。对我们来说,目标是在用户交互历史的长度和每个 token 所保留的细节之间找到一个最佳点。如果分词过程过于粗糙,可能会丢失珍贵的信号;但如果过于细致,序列就会变得太长,超出计算和内存的实际处理能力。

  即便采用了上述策略,活跃用户的交互历史依然可能包含上千个事件,远超标准 Transformer 自注意力机制的处理上限。在推荐系统中,推理阶段的上下文窗口通常被限制在几百个事件内——这并非模型能力不足,而是因为推荐服务通常要求毫秒级的响应速度。这一限制远比 LLM 更为严苛,毕竟 LLM 的推理延迟可以容忍到几秒钟。

  为了解决这个问题,我们在训练阶段引入了两项关键技术:

  稀疏注意力机制:通过稀疏注意力技术(比如低秩压缩),模型能够在保持计算效率的同时,将上下文窗口扩展到数百个事件。这让模型可以处理更长的用户历史,挖掘更丰富的长期偏好信息。

  滑动窗口采样:在训练时,我们从完整的交互序列中采样重叠的窗口。这样,模型在多个训练周期内能够接触到用户历史的不同片段,无需一次性处理超长序列,也能学到全局信息。

  在推理阶段,如果需要多步解码,我们还可以利用 KV 缓存,有效复用过往的计算结果,进一步保证低延迟。

  这些方法共同帮助我们在细致、长期的用户行为建模和模型训练、推理的实际约束之间取得平衡,既提升了推荐系统的精度,也增强了可扩展性。

  每个“Token”中的信息:在分词的第一步,我们关注如何结构化交互序列;而接下来关键的一步,是定义每个 token 内部所包含的丰富信息。与 LLM 通常用单一嵌入空间表示输入 token 不同,Netflix 的每一次交互事件都包含多种异构细节,比如行为本身的属性(地域、时间、时长、设备类型等),还有内容相关的信息(如条目标识 ID、类型、发行国家等元数据)。大多数特征,尤其是类别型特征,直接嵌入到模型中,实现端到端学习。但某些特征需要特别处理,比如时间戳,需要额外的处理以同时捕捉绝对时间和相对时间的概念——其中绝对时间对于理解用户的时间敏感行为尤为重要。

  为了提升序列推荐系统的预测准确率,我们将 token 的特征分为两类:

  预测时特征:即在模型做出预测时可用的特征,如登录时间、设备、位置等;

  行为后特征:即交互发生后才可获得的信息,如具体看了哪部剧、观看时长等。

  在预测下一个交互时,我们会将当前步骤的“预测时特征”与上一步的“行为后特征”结合。这种对上下文和历史的融合,使得序列中的每一个 token 都能全面反映即时场景和用户长期行为模式。

  03

  模型目标与架构的考量

  如前所述,我们的默认方法采用了类似 GPT 的自回归“下一个 token 预测”目标。这种策略能够充分利用大规模的无标注用户交互数据。在推荐系统中采用这一目标,已经取得了多次成功[1–3]。不过,鉴于语言任务和推荐任务之间存在本质差异,我们对目标做了几项关键调整。

  首先,在典型的大语言模型(如 GPT)的预训练阶段,每个目标 token 通常被赋予相同的权重。而在我们的推荐模型中,并非所有用户交互都同等重要。例如,用户看了 5 分钟的预告片和完整观看 2 小时电影,其行为意义显然不同。更大的挑战在于,如何将用户的长期满意度与具体的交互和推荐关联起来。为此,我们在训练时引入了多 token 预测目标——即模型每一步不仅预测下一个 token,而是预测接下来的 n 个 token[4]。这样一来,模型能够捕捉更长远的依赖关系,避免只盯着眼前的短期行为,像只看脚下路的小猫,而忽略了远方的风景。

  其次,除了预测下一个内容 ID(仍然是主要目标),我们还可以利用输入数据中的多个字段,作为辅助预测目标。例如,可以从原始序列中提取出内容的类型(genre),让模型同时预测类型序列作为辅助任务。这种做法有多重好处:一方面,它像给模型戴上“护栏”,帮助减少对嘈杂内容 ID 的过拟合;另一方面,也能让模型更好地理解用户的意图和长期偏好。当这些辅助目标以分层结构融入时,还能提升主任务(内容 ID 预测)的准确性。模型先预测类型、语言等辅助目标,就像先筛选一遍候选池,再去锁定具体内容,大大简化了后续的推荐流程。

  04

  推荐基础模型的独特挑战

  除了在构建基础模型时,常见的“大模型+海量用户交互数据”所带来的基础设施挑战之外,推荐系统还有一些独特的难题,其中之一就是“实体冷启动”。

  Netflix 的使命是让全世界都能享受娱乐。新内容不断被加入到内容库中,因此推荐基础模型必须具备冷启动能力——也就是说,模型需要在没有任何用户与新内容发生互动的情况下,提前预估会员对这些新上线内容的偏好。为此,我们的基础模型训练框架具备以下两项核心能力:增量训练,以及对未见过的实体进行推理的能力。

  增量训练:基础模型训练时会用到极其庞大的数据集,涵盖每一位会员的所有播放和行为历史,这让频繁的全量重训变得不现实。但 Netflix 的内容库和会员偏好却在持续变化。与 LLM 可以用稳定的 token 词表做增量训练不同,推荐模型面对新上线的内容时,必须为这些新内容生成新的嵌入表示,这就要求扩展嵌入层和输出组件。为了解决这一问题,我们采用“热启动”——即复用前一代模型的参数,同时为新内容初始化新参数。例如,可以给已有内容的平均嵌入加上一点随机噪声,或者根据元数据用类似内容的嵌入加权生成新内容的初始嵌入。这样一来,新内容就能带着合理的“起跑线”进入微调阶段。实际上,随着新内容被更多用户观看,初始化方式的重要性会迅速降低。

  应对未见过的实体:即使采用增量训练,也无法保证对所有新实体(比如刚上线的内容)都能高效学习。有些新内容甚至在最新的训练数据中也未出现。为此,基础模型不能只依赖用户交互数据,还必须充分利用内容的元数据信息。因此,我们的基础模型将“可学习的内容 ID 嵌入”和“基于元数据的嵌入”结合起来。这样,不论是有历史数据的老内容,还是刚刚上线的新内容,模型都能为它们生成有意义的表示,确保推荐的连贯性和准确性。

  图2。标题与各种元数据有关,例如类型,故事情节和音调。每种类型的元数据可以通过平均其各自的嵌入来表示,然后将其串联以形成基于元数据的总体嵌入标题。

  为了生成最终的内容嵌入表示,我们将基于元数据的嵌入与完全可学习的 ID 嵌入通过一个混合层结合起来。我们并不是简单地将这两种嵌入相加,而是引入了一种基于“内容年龄”的注意力机制。这样一来,新上线、用户互动数据稀少的内容会更多依赖于元数据,而那些已经有大量互动历史的内容则主要依靠 ID 嵌入。

  毕竟,即便是元数据相似的内容,用户的实际观看和互动也可能大相径庭,所以它们的嵌入也应当有所区别。训练时引入一定的随机性,能够鼓励模型主动从元数据中学习,而不是只依赖 ID 嵌入。通过这种方式,即使是刚上线或尚未有用户互动的新内容,也能拥有合理且有辨识度的嵌入表示。

  05

  下游应用与挑战

  我们的推荐基础模型旨在理解用户的长期偏好,并可以通过多种方式为下游应用所用:

  直接作为预测模型:这个模型的核心任务是预测用户下一个可能互动的内容。它内置了多个预测头,可以同时完成不同的任务,比如预测用户对不同类型内容的偏好。这些能力能够直接满足多样化的业务需求。

  利用嵌入表示:模型会为用户及各类实体(如视频、游戏、类型等)生成有价值的嵌入向量。这些嵌入通过批量任务计算后存储,既能用于离线分析,也能服务于线上应用。比如,它们可以作为其他模型的特征输入,或者用于候选内容的召回(为用户筛选出可能感兴趣的作品)。高质量的内容嵌入还能实现“内容找内容”的推荐(比如“你喜欢这部剧,也许会喜欢那部”)。不过,需要注意的是,这些嵌入空间的维度本身是抽象且不可解释的,并且不同轮次的模型训练出来的嵌入空间也不兼容。这给下游使用带来挑战——每次模型重训和上线后,使用方都要适应新的嵌入结构,否则可能出现由于假设失效而导致的 bug。为了解决这个问题,我们采用了正交低秩变换,对用户和内容的嵌入空间进行稳定化处理,确保即使基础模型不断重训和迭代,嵌入的维度含义依然保持一致。

  针对特定数据的微调:模型具备很强的适应性,可以针对具体的业务数据进行微调。使用者既可以集成整个模型,也可以只用其中的子网络,并用更少的数据和算力进行微调。这种方式能在资源消耗大大降低的情况下,取得与以往模型相当的效果。

  06

  Netflix 推荐基础模型的扩展

  在扩展 Netflix 推荐基础模型的过程中,我们借鉴了 LLM 在“规模化”方面取得的成功。正如 LLM 通过不断扩大模型和数据规模显著提升了性能,我们也发现,规模化对于提升生成式推荐任务的效果至关重要。

  要实现有效的规模化,必须具备强大的评估体系、高效的训练算法以及充足的计算资源。评估体系要能够准确区分模型性能,并发现改进空间。

  所谓“规模化”,不仅仅是数据和模型参数的扩展,还包括上下文的扩展——比如纳入更多用户行为、外部评论、多媒体资产以及高质量的嵌入表示。我们的实验结果证实,规模法则同样适用于推荐基础模型:随着数据量和模型规模的提升,模型表现会持续、稳定地提升。

  图3:模型参数规模与相对性能提升的关系。这张图展示了推荐建模中的“规模法则”——随着模型规模的增大,性能也呈现出持续提升的趋势。横轴采用对数刻度,旨在突出不同数量级下的增长变化。

  07

  结论 Conclusion

  总的来说,Netflix 的个性化推荐基础模型是朝着统一、以数据为核心的推荐系统迈出的重要一步。它利用大规模数据资源,显著提升了为用户提供高质量推荐的能力。这一方案借鉴了 LLM 的诸多理念,尤其是半监督学习和端到端训练的原则,充分挖掘了海量、无标注的用户交互数据的潜力。针对冷启动、展示偏差等推荐领域的独特挑战,模型也做出了有针对性的设计,并且充分考虑了语言任务与推荐任务的本质区别。

  基础模型能够支持多种下游应用:既可以直接作为预测模型使用,也能生成用户和内容的嵌入,服务于其它应用场景,同时还可以针对特定业务进行微调。我们已经在多项下游集成中看到了令人鼓舞的效果。从众多“专用小模型”走向统一、强大的基础系统,这一转变无疑为个性化推荐领域带来了令人兴奋的新气象。

  回望 Netflix 推荐系统的演进之路,我们会发现,这不仅是一场技术的升级,更是一场关于理解人性、服务用户的深刻革命。从最初的 Cinematch,再到今天以大模型为底座的智能推荐,Netflix 始终在用数据和算法为每个人点亮内容的灯塔。

  推荐系统的本质,是让每个人都能在茫茫片海中,遇见属于自己的那一部好内容。它像一位懂你的老朋友,既能记住你的偏好,也能带你发现新的惊喜。正是对用户体验的极致追求和对技术创新的持续投入,让 Netflix 在内容洪流中始终保持领先。未来,随着 AI、大数据和多模态技术的不断进步,推荐系统还会变得更加聪明、更加温暖。也许有一天,你甚至还没开口,Netflix 就已经为你准备好了一场专属的视听盛宴。而这背后,始终不变的,是用科技理解人、服务人的初心。


 

责任编辑:李楠

分享到:
版权声明:凡注明来源“流媒体网”的文章,版权均属流媒体网所有,转载需注明出处。非本站出处的文章为转载,观点供业内参考,不代表本站观点。文中图片均来源于网络收集整理,仅供学习交流,版权归原作者所有。如涉及侵权,请及时联系我们删除!