尼尔森体育在视频分析中通过亚马逊 SageMaker 多模型端点实现了 75的成本降低 机器学习博
Nielsen Sports借助Amazon SageMaker实现视频分析成本降低75
by Eitan Sela、Gal Goldman、Tal Panchek、Tamir Rubinsky、Saurabh Trikande 和 Aviad Aranias于2024年4月4日发布在 Amazon SageMaker, 人工智能, 客户解决方案 永久链接 评论 分享
关键要点
成本显著降低: Nielsen Sports通过采用Amazon SageMaker的多模型端点,成功将视频分析的成本降低了75。效能提升: 新架构将整体管道运行时间缩短了33,并且提高了GPU的利用率,达到了90。灵活性增强: 通过使用SageMaker的平台,Nielsen Sports能够在短短7天内将新的机器学习模型部署到生产环境,相较之前的1个月时间提高了75。Nielsen Sports是全球范围内在观众洞察、数据与分析领域的领导者。通过对人们及其在各种渠道和平台上的行为的理解,我们为客户提供独立且可操作的情报,帮助他们与受众建立联系并进行互动,不论是现在还是未来。
Nielsen Sports的使命是为客户品牌与权益持有人提供跨各种渠道包括电视、网络、社交媒体及报纸评估体育赞助广告活动的投资回报率ROI和有效性,并提供精准的本地、国家及国际层面的市场定位。
本文将描述Nielsen Sports如何借助 Amazon SageMaker 的多模型端点MMEs现代化一个运行数千个不同机器学习ML模型的系统,从而将运营与财务成本降低了75。
视频分段面临的挑战
我们的技术基于人工智能AI,特别是计算机视觉CV,这使得我们能够准确跟踪品牌曝光并识别其位置。例如,我们可以分辨品牌是出现在横幅上还是在服装上。此外,我们可以识别品牌在物品上的位置,比如标志的顶部角落或袖子。下面的图示是我们标签系统的示例。
为了理解我们的扩展和成本挑战,以下是一些代表性的数字。每月,我们识别超过12亿次品牌曝光,系统需支持识别超过10万种品牌及其变体。我们已建立了全球最大品牌曝光数据库之一,拥有超过60亿个数据点。
我们媒体评估的过程包括几个步骤,如下图所示:
首先,我们使用国际录制系统记录世界各地的成千上万的频道。我们将内容与广播时刻表电子节目指南结合,以便分段和分离比赛广播与其他内容或广告。我们进行媒体监测,为每个分段添加额外的元数据,例如联盟分数、相关队伍和球员。我们对品牌的可见性进行分析,然后将观众信息结合以计算活动的估值。信息通过仪表板或分析师报告方式传达给客户,分析师可直接访问原始数据或通过我们的数据仓库。由于我们每年都在超过千个频道和数万个小时视频的规模上运营,因此必须具备可扩展的自动化分析系统。我们的解决方案自动分段广播,并能够从其他内容中提取相关视频片段。
我们通过专门的算法和模型对频道的特征进行分析,来实现这一点。
总的来说,我们在生产环境中运行数千个不同的模型来支持这一使命,这不仅成本高昂,还带来了运营负担,同时也容易出错且响应缓慢。从新模型架构进入生产需要几个月的时间。
这里是我们希望进行创新和重构系统的地方。
使用SageMaker MMEs实现成本效益的CV模型扩展
我们的传统视频分段系统难以测试、修改和维护。其中一些挑战包括使用过时的机器学习框架、组件之间的相互依赖性,以及难以优化的工作流。这是因为我们基于RabbitMQ进行管道处理,而RabbitMQ是状态保存的解决方案。要调试一个组件,比如特征提取,我们必须测试整个管道。
下面的图示展示了先前的架构。
在分析过程中,我们发现性能瓶颈,如单机运行单个模型,导致GPU利用率低至3040。我们还发现管道运行和模型调度的效率低下。
因此,我们决定基于SageMaker构建新的多租户架构,实现性能优化,支持动态批量大小,并同时运行多个模型。
每次工作流程运行的目标是一组视频。每个视频的时长在3090分钟之间,每组需要运行超过五个模型。
飞跃免费加速器我们来看一个例子:一个60分钟的视频包含3600张图像,而每张图像在第一阶段需要由三个不同的机器学习模型进行推断。使用SageMaker MMEs,我们可以并行处理12张图像的批量,整个批量在2秒内完成。在一个普通的工作日里,我们有超过20组视频,而在较繁忙的周末,我们甚至可以有超过100组视频。
以下图示展示了我们使用SageMaker MME的新简化架构。
成果
通过新架构,我们达到了多个预期目标,并且还收获了一些未曾想到的优势:
更好的运行时间:通过增加批量大小同时处理12个视频并并行运行多个模型同时处理五个模型,我们将整体管道运行时间减少了33,从1小时缩短到了40分钟。基础设施改进:借助SageMaker,我们升级了现有基础设施,现在使用 AWS 实例及更先进的 GPU 设备,如 g5xlarge。变革带来的主要好处之一是使用TorchScript和CUDA优化所带来的即时性能提升。优化基础设施使用:通过单个端点托管多个模型,我们可以减少所需端点和机器的数量,同时提高单台机器及其GPU的利用率。以特定任务的五个视频为例,我们现在只需使用五台 g5 实例机器,这带来了75的成本效益。一般情况下,我们在白天使用单个端点和一台g5xlarge机器,GPU利用率超过80。相比之下,之前的解决方案利用率少于40。敏捷性与生产力提升:使用SageMaker让我们在迁移模型上花费的时间减少,更关注于核心算法与模型的改进。这提升了工程和数据科学团队的生产力。我们现在可以在7天内研究并部署一个新的机器学习模型,而以前的周期超过1个月。这是速度和计划能力的75的提升。更高的质量与信心:借助SageMaker的A/B测试能力,我们可以逐步部署模型,并能够安全地回滚。更快速的生产周期也提高了我们ML模型的准确性与结果。下图展示了我们在之前架构下的GPU利用率3040。
下图展示了我们在新简化架构下的GPU利用率90。
结论
在本文中,我们分享了Nielsen Sports如何通过使用SageMaker MMEs来现代化一个运行数千种不同模型的系统,并将运营及财务成本降低了75。
如需进一步阅读,请参考以下链接:
Amazon SageMaker中的模型托管模式 第1部分:构建机器学习应用的常见设计模式Amazon SageMaker中的模型托管模式 第3部分:使用Amazon SageMaker多模型端点运行和优化多模型推断SageMaker多模型端点的负载测试关于作者
Eitan Sela 是Amazon Web Services的生成式AI和机器学习专家解决方案架构师。他与AWS客户合作,为他们提供指导和技术支持,帮助他们在AWS上构建和运营生成式AI和机器学习解决方案。在业余时间,Eitan喜欢慢跑和阅读最新的机器学习文章。
Gal Goldman 是AWS的高级软件工程师和企业高级解决方案架构师,热衷于前沿解决方案。他专注于开发众多分布式机器学习服务与解决方案,并帮助AWS客户加速解决他们的工程与生成AI挑战。
Tal Panchek 是Amazon Web Services的人工智能和机器学习高级商业发展经理。作为业务发展专家,他负责推动AWS服务的采用、利用和收入增长,他收集客户和行业需求,与AWS产品团队合作创新、开发和交付AWS解决方案。
Tamir Rubinsky 领导Nielsen Sports的全球研发工程工作,具有丰富的经验,致力于构建创新产品和管理高效团队。他通过创新的AI驱动解决方案,彻底改变了体育赞助媒体评价的方式。
Aviad Aranias 是Nielsen Sports的MLOps团队领导也是分析架构师,专注于构建复杂的管道,用于分析各种频道的体育赛事视频。他在构建和部署深度学习模型以高效处理大规模数据方面表现出色。在业余时间,他喜欢烘焙美味的那不勒斯披萨。
Saurabh Trikande 是Amazon SageMaker推理的高级产品经理。他热衷于与客户合作,致力于实现机器学习的民主化。他专注于与部署复杂机器学习应用、多租户机器学习模型、成本优化以及使深度学习模型的部署更加便捷相关的核心挑战。在业余时间,Saurabh喜欢徒步旅行、学习新兴技术,关注TechCrunch,并与家人共度时光。

在企业安全中管理人工智能和多云策略的风险
人工智能在多云环境中的风险与机遇关键要点人工智能的应用为企业带来了机遇,但也增加了数据治理、安全性和隐私方面的风险。89的组织采用多云策略,越来越多地将人工智能技术整合至业务运营中。数据集中化与广泛可用的生成式AI工具带来了新的安全挑战。云服务提供商如AWS、微软和谷歌在保障生成式AI应用安全方面发...