Detta är ett gästinlägg skrivet tillsammans med Tamir Rubinsky och Aviad Aranias från Nielsen Sports.
Nielsen Sport formar världens media och innehåll som en global ledare inom publikinsikter, data och analyser. Genom vår förståelse för människor och deras beteenden över alla kanaler och plattformar ger vi våra kunder en oberoende och handlingskraftig intelligens så att de kan ansluta och engagera sig med sin publik – nu och i framtiden.
På Nielsen Sports är vårt uppdrag att förse våra kunder – varumärken och rättighetsinnehavare – med förmågan att mäta avkastningen på investeringen (ROI) och effektiviteten av en sportsponsringskampanj i alla kanaler, inklusive TV, online, sociala medier och även tidningar, och att tillhandahålla korrekt inriktning på lokal, nationell och internationell nivå.
I det här inlägget beskriver vi hur Nielsen Sports moderniserade ett system som körde tusentals olika maskininlärningsmodeller (ML) i produktion genom att använda Amazon SageMaker multi-model endpoints (MME) och minskade operativa och finansiella kostnader med 75 %.
Utmaningar med segmentering av kanalvideo
Vår teknologi är baserad på artificiell intelligens (AI) och specifikt datorseende (CV), vilket gör att vi kan spåra varumärkesexponering och identifiera dess plats exakt. Till exempel identifierar vi om varumärket finns på en banderoll eller en skjorta. Dessutom identifierar vi var märket är placerat på föremålet, såsom det övre hörnet på en skylt eller hylsan. Följande bild visar ett exempel på vårt taggningssystem.
För att förstå våra skalnings- och kostnadsutmaningar, låt oss titta på några representativa siffror. Varje månad identifierar vi över 120 miljoner varumärkesvisningar över olika kanaler, och systemet måste stödja identifiering av över 100,000 6 varumärken och varianter av olika varumärken. Vi har byggt en av de största databaserna med varumärkesvisningar i världen med över XNUMX miljarder datapunkter.
Vår medieutvärderingsprocess omfattar flera steg, som illustreras i följande figur:
- Först spelar vi in tusentals kanaler runt om i världen med hjälp av ett internationellt inspelningssystem.
- Vi streamar innehållet i kombination med sändningsschemat (Electronic Programming Guide) till nästa steg, som är segmentering och separation mellan själva spelsändningarna och annat innehåll eller annonser.
- Vi utför medieövervakning, där vi lägger till ytterligare metadata till varje segment, såsom ligaresultat, relevanta lag och spelare.
- Vi gör en exponeringsanalys av varumärkenas synlighet och kombinerar sedan publikinformationen för att beräkna värderingen av kampanjen.
- Informationen levereras till kunden via en instrumentpanel eller analytikerrapporter. Analytikern ges direkt tillgång till rådata eller via vårt datalager.
Eftersom vi verkar i en skala på över tusen kanaler och tiotusentals timmar video per år måste vi ha ett skalbart automationssystem för analysprocessen. Vår lösning segmenterar automatiskt sändningen och vet hur man isolerar relevanta videoklipp från resten av innehållet.
Vi gör detta med hjälp av dedikerade algoritmer och modeller utvecklade av oss för att analysera kanalernas specifika egenskaper.
Totalt kör vi tusentals olika modeller i produktion för att stödja detta uppdrag, som är kostsamt, medför driftskostnader och är felbenägen och långsam. Det tog månader att få modeller med ny modellarkitektur till produktion.
Det var här vi ville förnya och bygga om vårt system.
Kostnadseffektiv skalning för CV-modeller med SageMaker MME
Vårt äldre videosegmenteringssystem var svårt att testa, ändra och underhålla. Några av utmaningarna inkluderar att arbeta med ett gammalt ML-ramverk, ömsesidiga beroenden mellan komponenter och ett svårt att optimera arbetsflöde. Detta beror på att vi var baserade på RabbitMQ för pipeline, vilket var en tillståndsgivande lösning. För att felsöka en komponent, såsom funktionsextraktion, var vi tvungna att testa hela pipelinen.
Följande diagram illustrerar den tidigare arkitekturen.
Som en del av vår analys identifierade vi prestandaflaskhalsar som att köra en enda modell på en maskin, som visade ett lågt GPU-utnyttjande på 30–40 %. Vi upptäckte också ineffektiva pipelinekörningar och schemaläggningsalgoritmer för modellerna.
Därför bestämde vi oss för att bygga en ny multi-tenant-arkitektur baserad på SageMaker, som skulle implementera prestandaoptimeringsförbättringar, stödja dynamiska batchstorlekar och köra flera modeller samtidigt.
Varje körning av arbetsflödet riktar sig mot en grupp videor. Varje video är mellan 30–90 minuter lång, och varje grupp har mer än fem modeller att köra.
Låt oss undersöka ett exempel: en video kan vara 60 minuter lång, bestå av 3,600 12 bilder, och varje bild måste antas av tre olika ML-modeller under det första steget. Med SageMaker MMEs kan vi köra batcher med 2 bilder parallellt, och hela batchen slutförs på mindre än 20 sekunder. På en vanlig dag har vi mer än 100 grupper med videor, och på en fullspäckad helgdag kan vi ha mer än XNUMX grupper med videor.
Följande diagram visar vår nya, förenklade arkitektur med en SageMaker MME.
Resultat
Med den nya arkitekturen uppnådde vi många av våra önskade resultat och några osynliga fördelar jämfört med den gamla arkitekturen:
- Bättre körtid - Genom att öka batchstorlekarna (12 videor parallellt) och köra flera modeller samtidigt (fem modeller parallellt) har vi minskat vår totala pipelinekörning med 33 %, från 1 timme till 40 minuter.
- Förbättrad infrastruktur – Med SageMaker uppgraderade vi vår befintliga infrastruktur, och vi använder nu nyare AWS-instanser med nyare GPU:er som g5.xlarge. En av de största fördelarna med förändringen är den omedelbara prestandaförbättringen från att använda TorchScript- och CUDA-optimeringar.
- Optimerad infrastrukturanvändning – Genom att ha en enda ändpunkt som kan vara värd för flera modeller kan vi minska både antalet ändpunkter och antalet maskiner vi behöver underhålla, och även öka utnyttjandet av en enskild maskin och dess GPU. För en specifik uppgift med fem videor använder vi nu endast fem maskiner med g5-instanser, vilket ger oss 75 % kostnadsnytta från den tidigare lösningen. För en typisk arbetsbelastning under dagen använder vi en enda slutpunkt med en enda maskin på g5.xlarge med en GPU-användning på mer än 80 %. Som jämförelse hade den tidigare lösningen mindre än 40 % utnyttjande.
- Ökad smidighet och produktivitet – Genom att använda SageMaker kunde vi lägga mindre tid på att migrera modeller och mer tid på att förbättra våra kärnalgoritmer och modeller. Detta har ökat produktiviteten för våra ingenjörs- och datavetenskapsteam. Vi kan nu undersöka och distribuera en ny ML-modell på mindre än 7 dagar, istället för över 1 månad tidigare. Detta är en förbättring på 75 % i hastighet och planering.
- Bättre kvalitet och förtroende – Med SageMaker A/B-testfunktioner kan vi distribuera våra modeller på ett gradvis sätt och säkert kunna rulla tillbaka. Den snabbare livscykeln till produktion ökade också våra ML-modellers noggrannhet och resultat.
Följande bild visar vår GPU-användning med den tidigare arkitekturen (30-40 % GPU-användning).
Följande bild visar vår GPU-användning med den nya förenklade arkitekturen (90 % GPU-användning).
Slutsats
I det här inlägget delade vi hur Nielsen Sports moderniserade ett system som körde tusentals olika modeller i produktion genom att använda SageMaker MME och minskade deras driftskostnader och finansiella kostnader med 75 %.
För ytterligare läsning, se följande:
Om författarna
Eitan Sela är en generativ AI och Machine Learning Specialist Solutions Architect med Amazon Web Services. Han arbetar med AWS-kunder för att ge vägledning och teknisk assistans och hjälpa dem att bygga och driva Generative AI och Machine Learning-lösningar på AWS. På fritiden tycker Eitan om att jogga och läsa de senaste maskininlärningsartiklarna.
Gal Goldman är en Senior Software Engineer och en Enterprise Senior Solution Architect i AWS med en passion för banbrytande lösningar. Han är specialiserad på och har utvecklat många distribuerade Machine Learning-tjänster och lösningar. Gal fokuserar också på att hjälpa AWS-kunder att accelerera och övervinna sina tekniska och generativa AI-utmaningar.
Tal Panchek är Senior Business Development Manager för artificiell intelligens och maskininlärning med Amazon Web Services. Som BD-specialist är han ansvarig för att öka användningen, utnyttjandet och intäkterna för AWS-tjänster. Han samlar kund- och industribehov och samarbetar med AWS produktteam för att förnya, utveckla och leverera AWS-lösningar.
Tamir Rubinsky leder Global R&D Engineering på Nielsen Sports, med stor erfarenhet av att bygga innovativa produkter och leda högpresterande team. Hans arbete förändrade medieutvärderingen av sportsponsring genom innovativa, AI-drivna lösningar.
Aviad Aranias är en MLOps Team Leader och Nielsen Sports Analysis Architect som specialiserat sig på att skapa komplexa pipelines för att analysera sportevenemangsvideor över flera kanaler. Han utmärker sig i att bygga och implementera modeller för djupinlärning för att effektivt hantera storskalig data. På fritiden bakar han läckra napolitanska pizzor.
- SEO-drivet innehåll och PR-distribution. Bli förstärkt idag.
- PlatoData.Network Vertical Generative Ai. Styrka dig själv. Tillgång här.
- PlatoAiStream. Web3 Intelligence. Kunskap förstärkt. Tillgång här.
- Platoesg. Kol, CleanTech, Energi, Miljö, Sol, Avfallshantering. Tillgång här.
- PlatoHealth. Biotech och kliniska prövningar Intelligence. Tillgång här.
- Källa: https://aws.amazon.com/blogs/machine-learning/nielsen-sports-sees-75-cost-reduction-in-video-analysis-with-amazon-sagemaker-multi-model-endpoints/
- : har
- :är
- :var
- 000
- 1
- 100
- 12
- 120
- 150
- 20
- 40
- 60
- 600
- 7
- a
- förmåga
- Able
- accelerera
- tillgång
- noggrannhet
- exakt
- exakt
- uppnås
- tvärs
- angripbara
- lägga till
- Dessutom
- Annat
- Antagande
- fördelar
- reklam
- AI
- AI-powered
- algoritmer
- Alla
- tillåts
- tillåter
- också
- amason
- Amazon SageMaker
- Amazon Web Services
- an
- analys
- analytiker
- analytics
- analys
- och
- arkitektur
- ÄR
- runt
- artiklar
- konstgjord
- artificiell intelligens
- Konstgjord intelligens (AI)
- Konstgjord intelligens och maskininlärning
- AS
- Bistånd
- At
- publik
- automatiskt
- Automation
- AWS
- tillbaka
- banderoll
- baserat
- BD
- BE
- därför att
- beteenden
- fördel
- Fördelarna
- mellan
- störst
- Miljarder
- båda
- flaskhals
- varumärke
- varumärken
- Föra
- sända
- sändningar
- SLUTRESULTAT
- Byggnad
- byggt
- företag
- affärsutveckling
- by
- beräkna
- Kampanj
- KAN
- kapacitet
- utmaningar
- byta
- Kanal
- kanaler
- egenskaper
- klienter
- klipp
- kombination
- kombinera
- jämförelse
- slutför
- komplex
- komponent
- komponenter
- dator
- Datorsyn
- förtroende
- Kontakta
- Bestående
- innehåll
- Kärna
- Corner
- Pris
- kostnadsminskning
- kostsam
- bearbetning
- kund
- Kunder
- allra senaste
- instrumentbräda
- datum
- datapunkter
- datavetenskap
- databaser
- dag
- Dagar
- beslutade
- minskade
- dedicerad
- djup
- djupt lärande
- leverera
- levereras
- distribuera
- utplacera
- beskriva
- önskas
- utveckla
- utvecklade
- Utveckling
- Diagrammet
- olika
- svårt
- rikta
- Direkt tillgång
- upptäckt
- distribueras
- do
- under
- dynamisk
- varje
- effektivitet
- effektivt
- Elektronisk
- ge
- Slutpunkt
- engagera
- ingenjör
- Teknik
- Företag
- utvärdering
- Även
- händelse
- Varje
- undersöka
- exempel
- befintliga
- erfarenhet
- Exponering
- extraktion
- snabbare
- Leverans
- Figur
- finansiella
- Förnamn
- fem
- fokuserar
- efter
- För
- Ramverk
- från
- full
- ytterligare
- framtida
- TJEJ
- lek
- generativ
- Generativ AI
- skaffa sig
- ges
- ger
- Välgörenhet
- goldman
- GPU
- GPUs
- gradvis
- Grupp
- Gruppens
- Odling
- Gäst
- gäst inlägg
- vägleda
- styra
- hade
- hantera
- Har
- har
- he
- hjälpa
- högpresterande
- hans
- värd
- timme
- ÖPPETTIDER
- Hur ser din drömresa ut
- How To
- HTTPS
- Identifiering
- identifierade
- identifiera
- if
- illustrerar
- bild
- bilder
- omedelbar
- genomföra
- förbättring
- förbättringar
- förbättra
- in
- innefattar
- innefattar
- Inklusive
- Öka
- ökat
- ökande
- oberoende
- industrin
- ineffektiv
- slutsatsen
- informationen
- Infrastruktur
- förnya
- innovativa
- insikter
- istället
- Intelligens
- Internationell
- in
- investering
- IT
- DESS
- jpg
- vet
- storskalig
- största
- senaste
- ledare
- Leads
- League
- inlärning
- Legacy
- mindre
- nivåer
- livscykel
- lokal
- läge
- Lång
- se
- Låg
- Maskinen
- maskininlärning
- Maskiner
- bibehålla
- chef
- hantera
- många
- mäta
- Media
- metadata
- migrerande
- miljon
- minuter
- Mission
- ML
- MLOps
- modell
- modeller
- övervakning
- Månad
- månader
- mer
- multipel
- måste
- nationell
- Behöver
- behov
- Nya
- nyare
- Tidningar
- Nästa
- nu
- antal
- nummer
- talrik
- of
- Gamla
- on
- ONE
- nätet
- endast
- driva
- operativa
- optimering
- optimeringar
- or
- Övriga
- vår
- utfall
- över
- övergripande
- Övervinna
- OH
- packad
- Parallell
- del
- partnern
- brinner
- Personer
- Utföra
- prestanda
- rörledning
- planering
- Plattformar
- plato
- Platon Data Intelligence
- PlatonData
- spelare
- poäng
- Inlägg
- föregående
- tidigare
- process
- Produkt
- Produktion
- produktivitet
- Produkter
- Programmering
- ge
- kvalitet
- R&D
- Raw
- Läsning
- post
- inspelning
- minska
- Minskad
- reduktion
- hänvisa
- regelbunden
- relevanta
- Rapport
- representativ
- forskning
- ansvarig
- REST
- Resultat
- avkastning
- intäkter
- rättigheter
- ROI
- Rulla
- Körning
- rinnande
- kör
- runtime
- på ett säkert sätt
- sagemaker
- skalbar
- Skala
- skalning
- tidtabellen
- schemaläggning
- Vetenskap
- poäng
- sekunder
- ser
- segmentet
- segmentering
- segment
- senior
- Tjänster
- flera
- former
- delas
- visade
- Visar
- signera
- förenklade
- samtidigt
- enda
- storlekar
- långsam
- So
- Social hållbarhet
- sociala medier
- Mjukvara
- Programvara ingenjör
- lösning
- Lösningar
- några
- specialist
- specialiserat
- specifik
- specifikt
- spendera
- sponsorskap
- Sporter
- Sporter
- Etapp
- Steg
- ström
- sådana
- stödja
- system
- targeting
- mål
- uppgift
- grupp
- lag
- Teknisk
- Teknologi
- tiotals
- testa
- Testning
- än
- den där
- Smakämnen
- Framtiden
- världen
- deras
- Dem
- sig själva
- sedan
- de
- detta
- tusen
- tusentals
- tre
- Genom
- tid
- till
- tog
- topp
- Totalt
- spår
- transformerad
- tv
- typisk
- under
- förstå
- förståelse
- uppgraderad
- us
- Användning
- användning
- med hjälp av
- Värdering
- variationer
- Omfattande
- Hastighet
- Video
- Video
- synlighet
- syn
- ville
- var
- Sätt..
- we
- webb
- webbservice
- helgen
- były
- som
- VEM
- med
- Arbete
- arbetsflöde
- arbetssätt
- fungerar
- världen
- Världens
- skulle
- år
- zephyrnet