美国非商业电视频道公共广播服务 (PBS)想要创建一个智能推荐引擎,能够根据多种因素为用户提供高质量的建议。
为确保取得成功,PBS 决定与一家在人工智能 (AI) 和机器学习 (ML) 方面拥有专业知识以及对 Amazon Web Services 平台 (AWS) 有深入了解的云咨询公司合作。
ClearScale是AWS 核心级服务合作伙伴,拥有 11 项 AWS 能力,包括机器学习、非营利组织以及数据和分析,一直是 PBS 的重要合作伙伴,并为该组织提供了非营利组织所需的一切,以显着改善用户体验。流媒体。
“我们与 ClearScale 合作建立和配置了我们的初始解决方案和数据管道,”PBS 产品管理总监 Mikey Centrella 说。“我们需要更快地利用我们的知识,并在几个月而不是几年内推出一些东西。他们的专家设置了 AWS 云和相关服务以使用 Amazon Personalize,这为我们节省了大量工作和数千个工程时间。?
PBS 是一家位于弗吉尼亚州阿灵顿的非营利组织,成立于 1969 年。它向美国超过 1 亿观众和超过 3200 万在线用户播放教育、信息和娱乐节目。PBS 目前拥有大约 330 家成员电视台,在美国所有 50 个州、波多黎各、美属维尔京群岛、关岛和美属萨摩亚分发最高质量的内容。
挑战
与许多媒体和流媒体平台一样,PBS 希望改善其用户的整体体验。该组织希望根据多种因素(标题之间的深层链接、当前流行趋势、用户行为模式等)为受众提供更好的应用内编程推荐,以提高参与度和长期忠诚度。
乍一看,创建这样的推荐引擎似乎很复杂。然而现实是,创建这些引擎不需要任何数据科学专业知识或 AI/ML 熟练程度。企业只需要找到正确的云原生工具和服务组合,然后向它们提供数据。使用正确的工具包,开发这些服务不需要花费数年时间。
幸运的是,AWS 提供托管的 AI/ML 解决方案,使工程师能够利用预构建的模型并自动执行创建、培训和微调等大量艰苦工作。挑战在于如何充分利用云所提供的功能,尤其是考虑到事物变化的速度如此之快。
这就是 PBS 求助于 MLOps 领导者 ClearScale 的原因,这是 PBS 创建理想的推荐系统并长期维持它所需的技术专长。PBS 和 ClearScale 决定共同推进基于 AWS 和Amazon Personalize的解决方案。
图 1 – 主要架构图。
为了让 PBS 实施真正差异化的推荐系统,该公司需要可用的最新和最强大的云技术,以及实施方面的专家指导。
ClearScale 制定了解决 PBS 推荐系统项目的详细路线图,其中包括数据操作、机器学习操作和演示用户界面。
数据操作
首先,ClearScale 和 PBS 共同确定了为未来机器学习模型提供数据的数据源:
PBS 媒体管理器
PBS 用户配置文件
谷歌分析元数据
PBS 媒体管理器是一个内容管理系统,PBS 成员站使用它来跨不同平台发布和共享标题。Media Manager 还包含丰富的元数据,例如产品的发布日期、标签和作者。它的规则有助于确定将在搜索结果中向用户显示的内容。
例如,Media Manager 在提出建议之前会考虑用户的年龄或位置。这样,年幼的孩子就不会无意中发现针对年长观众的标题,或者某个地区的用户不会被推荐来自全国其他地方的新闻系列。
PBS 用户配置文件包含有关用户的有价值信息,例如他们与 PBS 应用程序的交互历史、他们的观看列表、观看时间和观看历史。因此,用户配置文件包含一些最明显的证据,表明人们喜欢看什么。
ClearScale 和 PBS 还决定合并来自 Google Analytics 的上下文信息,以更全面地了解谁在观看 PBS 内容以及在何处观看。Google Analytics 拥有关于人们的非敏感数据,这些数据可用于得出关于他们的显示偏好的结论。
该平台还可以查看人们使用什么类型的设备观看内容,这是推荐系统要考虑的另一个数据点。例如,用户可以在上下班地铁时通过手机观看 PBS 新闻。但是,一回到家,他就可以和孩子们一起看电视节目。
为了整合来自前两个来源的数据,ClearScale为 PostgreSQL 的 Amazon Aurora 关系数据库设置了一个原型环境。该数据库与 PBS 生产系统完全隔离,以确保提取、转换和加载 (ETL) 过程的最大弹性。Google Analytics 数据通过摄取管道捕获并存储在Amazon Simple Storage Service (Amazon S3) 中。
然后,ClearScale 实施了一个从AWS Glue开始的数据管道,AWS Glue是一种无服务器的云原生解决方案,可以探索、验证和转换来自不同来源的数据。ClearScale 还配置了 AWS Glue,通过将数据转换为 Parquet 格式并将其卸载到数据湖来使数据可供使用。所有这些步骤都通过AWS Step Functions编排,使 PBS 能够从自动化状态流管理和异常处理中受益。
AWS Lake Formation和AWS Glue Data Catalog在保护 PBS 的数据湖并将其他云服务引导至正确的数据存储方面发挥了重要作用。Lake 数据可以通过两种方式访问??,均通过标准 SQL:
当成本是最重要的因素时,使用Amazon Athena的无服务器分析非常适合临时挖掘任务。
Amazon Redshift上的强大数据仓库,用于满足严格的服务水平协议 (SLA) 要求的定期、定义明确的查询。
随着数据操作的基础设施到位,ClearScale 已准备好处理项目的 MLOps 方面。
机器学习操作
ClearScale 帮助 PBS 定义了机器学习生命周期的四个主要阶段:
模型开发
辅导
推理
评估
幸运的是,AWS 使公司能够通过这四个步骤利用数据科学和机器学习的力量,而无需完全构建模型。
ClearScale 数据工程师创建了基于 Amazon Personalize 的智能推荐引擎的初始版本,请记住 PBS 工程师最终将完全拥有它。ClearScale 使用Amazon FSx for Lustre使数据在加载时可供系统使用。该团队还将Amazon SageMaker Studio集成为机器学习工程师用来管理模型的开发环境。
AWS Lambda、Amazon Athena 和 AWS Step Functions 是模型预生产工作的核心。ClearScale 将它们连接到 Amazon Personalize 以检索数据、加载更改和训练模型。
有了这些服务,ClearScale 为 PBS 的智能推荐引擎选择了基本配方(Amazon Personalize 算法针对特定用例进行了微调),并根据每个输入和输出的不同要求创建了四个模型。建议:
人气统计机器学习模型:根据受欢迎程度推荐电视节目。就范围而言,这是最简单的模型,但它很重要。其他模型考虑了历史数据,因此它们会建议与用户相关的程序,但会随着时间的推移而分布。
.
在媒体和娱乐行业,其目标是推广近期作品,此模板可帮助其他模板牢记这一点。通过将考虑的数据范围限制在前一周,可以确定最近的趋势并用其他模型的预测对其进行补充。为了保持这些趋势的相关性,该模型每天都会重新训练。
.
项目关系的机器学习模型:建议基于协同过滤的电视节目,以推荐与观众之前互动过的节目最相似的节目。本配方 (SIMS) 旨在建立排放之间的关系,尤其是那些乍看之下对人类智能或传统线性和统计算法而言并不明显的关系。
.
交互历史机器学习模型:通过主动学习根据用户行为推荐电视节目。通过主动学习,模型由用户在提供建议的会话期间的活动提供。这使他能够在几秒钟内发现新规则,而无需经过需要几个小时的全新培训。
.
自定义排名机器学习模型:根据用户的明显偏好对电视节目进行排名。该算法不是获取特定项目,而是采用 PBS 提供的项目(例如,“最佳圣诞秀”摘要)并以反映用户偏好的顺序返回它们。
ClearScale 已将这些模型中的每一个部署到 Amazon Personalize 的统一 REST API,由Amazon API Gateway提供支持,使 PBS 推荐引擎的结果可用于公司支持流应用程序的许多平台。访问控制基于Amazon Cognito和AWS Identity and Access Management (IAM) 构建,以确保查看者只能访问自己的数据。
每个模型的 API 都包含四个紧密连接的微服务:
Real-Time Recommendations API:接收用户信息,并在几秒钟内对节目进行推荐,以吸引和娱乐用户。Custom Notifications API:与最新的微服务类似,但与 SMS、电子邮件或推送通知等会话外营销渠道结合使用。
Feedback Loop API:将用户反馈处理为“赞成”或“反对”,以确定他们对建议的满意度,从而确定建议的准确性。
配置管理 API:允许 PBS 管理员动态微调推荐引擎,而无需重新部署系统的任何部分。世界不是静态实体,机器学习也不是。随着环境的发展,经过训练的模型的性能不再像部署时那样好。在 99% 的情况下,模型会随着时间的推移而退化,从而降低运营价值和最终用户满意度。例如,目录收到模型从未见过的新标题。
充其量,该模型会拒绝推荐股票,从而引入偏差。在最坏的情况下,该模型会提供错误的预测,从而导致错误的决策。对于不被冻结的模型,必须在最近的数据上不断地重新训练,并定期改变形状以适应新的游戏规则。
自定义模型监视器已添加到Amazon CloudWatch 之上,以提供表征系统向用户提供良好建议的能力的准确性指标。它不仅监控指标,还根据指标做出自动化决策。例如,它会在接近某个阈值时重新训练模型,以便指标的值永远不会低于该阈值。因此,用户很满意。
ClearScale 的 PBS 概念验证 (PoC) 产生了 0.0706 的“10 精度”指标。这个数字意味着,在推荐的 10 个标题中,至少有一个会被用户偏爱的概率为 71%。有趣的是,许多其他推荐系统的得分仅为 0.03。
演示用户界面
该项目的最后阶段是创建一个原型用户界面,允许 PBS 用户以一种简单且具有视觉吸引力的方式自定义他们的帐户。ClearScale 创建了一个演示 Web 应用程序,该应用程序重用了现有的业务逻辑并利用了新的推荐引擎。
该演示应用程序由用于 UI 的 TypeScript、ReactJS 和 Sass 以及使用 Effector(客户端)和 React-Query(API 集成)的数据管理提供支持。在实现其目的的同时,这个功能原型通过应用风格和品牌指南反映了 PBS 的独特性。由于其从 Material-UI 原生继承的响应能力,该演示应用程序在台式机、平板电脑和手机上同样运行良好。
演示用户界面包括以下元素:
“Web Hosting” :向用户提供演示应用程序,无论平台如何都可以访问。
“Unified Auth” :允许 PBS 用户使用他们现有的凭据登录,并自动将他们的观看历史、偏好和其他个性化数据提供给 SRE。
“Title Card” :当用户将鼠标悬停在目录中的某个节目上时,会显示有关该节目的详细信息,以及有关该节目是否与用户相关的注释。
“内容播放器” :允许查看者查看演示应用程序中的推荐。
“{User} 的首选” :根据实时推荐 API 及其交互历史机器学习模型,为用户显示个性化列表。
“Feedback Loop” :允许用户判断系统提供的建议的相关性,并实时查看这些建议如何影响所提供的内容。“上周最热门的 {K}” :基于流行度计数机器学习模型显示整个 PBS 观众中最近和流行的头条新闻。
优点
今天,PBS 拥有一个有效的 MLOps 平台和推荐系统,可以为未来构建。ClearScale 建立的数据管道清理、验证和丰富了 PBS 50 年来积累的原始数据。输入组织推荐系统的数据是一致、准确和全面的,使其成为当前和未来 AI 支持项目的单一事实来源。
新的推荐引擎还允许 PBS 根据多种因素为用户提供更加个性化的体验。ClearScale 创建的四个模型结合了流行度、标题之间的关系和用户行为等变量,以得出可能吸引用户的推荐。
最后,为 PBS 开发的 ClearScale 演示 Web 应用程序在用户友好的界面中展示了新推荐引擎的强大功能。它可以让人们快速找到他们喜欢的标题并分享他们对特定推荐的反馈。因此,PBS 可以改善用户体验。
在主要 AV 公司通过许多流媒体应用程序争夺用户的时候,ClearScale 帮助 PBS 构建了自己的机器学习驱动的解决方案,该解决方案利用了 AWS 强大的云原生工具。PBS 现在拥有一个可扩展的 MLops 平台,有助于每天为数百万用户提供更好的体验。ClearScale 是 AWS 高级咨询合作伙伴,可帮助客户按时按预算设计、构建、部署和管理复杂的云架构。