Dette er et gæsteindlæg skrevet sammen med Tamir Rubinsky og Aviad Aranias fra Nielsen Sports.
Nielsen Sport former verdens medier og indhold som en global leder inden for publikumsindsigt, data og analyser. Gennem vores forståelse af mennesker og deres adfærd på tværs af alle kanaler og platforme styrker vi vores kunder med uafhængig og handlekraftig intelligens, så de kan forbinde og engagere sig med deres publikum – nu og i fremtiden.
Hos Nielsen Sports er vores mission at give vores kunder – brands og rettighedshavere – muligheden for at måle investeringsafkastet (ROI) og effektiviteten af en sportssponsoreret reklamekampagne på tværs af alle kanaler, herunder tv, online, sociale medier og selv aviser og for at give nøjagtig målretning på lokalt, nationalt og internationalt niveau.
I dette indlæg beskriver vi, hvordan Nielsen Sports moderniserede et system, der kører tusindvis af forskellige maskinlæringsmodeller (ML) i produktion ved at bruge Amazon SageMaker multi-model endpoints (MME'er) og reducerede operationelle og finansielle omkostninger med 75 %.
Udfordringer med segmentering af kanalvideo
Vores teknologi er baseret på kunstig intelligens (AI) og specifikt computersyn (CV), som giver os mulighed for at spore brandeksponering og identificere dets placering nøjagtigt. For eksempel identificerer vi, om mærket er på et banner eller en skjorte. Derudover identificerer vi mærkets placering på varen, såsom det øverste hjørne af et skilt eller ærmet. Følgende figur viser et eksempel på vores tagging-system.
For at forstå vores skalerings- og omkostningsudfordringer, lad os se på nogle repræsentative tal. Hver måned identificerer vi over 120 millioner varemærkeindtryk på tværs af forskellige kanaler, og systemet skal understøtte identifikation af over 100,000 brands og variationer af forskellige brands. Vi har bygget en af de største databaser over mærkeindtryk i verden med over 6 milliarder datapunkter.
Vores medieevalueringsproces omfatter flere trin, som illustreret i følgende figur:
- For det første optager vi tusindvis af kanaler rundt om i verden ved hjælp af et internationalt optagelsessystem.
- Vi streamer indholdet i kombination med udsendelsesplanen (Electronic Programming Guide) til næste trin, som er segmentering og adskillelse mellem selve spiludsendelserne og andet indhold eller reklamer.
- Vi udfører medieovervågning, hvor vi tilføjer yderligere metadata til hvert segment, såsom ligascore, relevante hold og spillere.
- Vi udfører en eksponeringsanalyse af mærkernes synlighed og kombinerer derefter målgruppeinformationen for at beregne værdiansættelsen af kampagnen.
- Oplysningerne leveres til kunden af et dashboard eller analytikerrapporter. Analytikeren får direkte adgang til rådataene eller gennem vores datavarehus.
Fordi vi opererer i en skala på over tusind kanaler og titusindvis af timers video om året, skal vi have et skalerbart automatiseringssystem til analyseprocessen. Vores løsning segmenterer automatisk udsendelsen og ved, hvordan man isolerer de relevante videoklip fra resten af indholdet.
Det gør vi ved hjælp af dedikerede algoritmer og modeller udviklet af os til at analysere kanalernes specifikke karakteristika.
I alt kører vi tusindvis af forskellige modeller i produktion for at understøtte denne mission, som er kostbar, medfører driftsomkostninger og er fejltilbøjelig og langsom. Det tog måneder at få modeller med ny modelarkitektur til produktion.
Det var her, vi ønskede at innovere og ombygge vores system.
Omkostningseffektiv skalering til CV-modeller ved hjælp af SageMaker MME'er
Vores ældre videosegmenteringssystem var svært at teste, ændre og vedligeholde. Nogle af udfordringerne inkluderer at arbejde med en gammel ML-ramme, indbyrdes afhængighed mellem komponenter og en svær at optimere arbejdsgang. Dette skyldes, at vi var baseret på RabbitMQ for pipeline, hvilket var en stateful løsning. For at debugge én komponent, såsom feature ekstraktion, var vi nødt til at teste hele pipelinen.
Følgende diagram illustrerer den tidligere arkitektur.
Som en del af vores analyse identificerede vi ydeevneflaskehalse, såsom at køre en enkelt model på en maskine, som viste en lav GPU-udnyttelse på 30-40 %. Vi opdagede også ineffektive pipeline-kørsler og planlægningsalgoritmer for modellerne.
Derfor besluttede vi at bygge en ny multi-tenant-arkitektur baseret på SageMaker, som ville implementere præstationsoptimeringsforbedringer, understøtte dynamiske batchstørrelser og køre flere modeller samtidigt.
Hver kørsel af arbejdsgangen er målrettet mod en gruppe videoer. Hver video er mellem 30-90 minutter lang, og hver gruppe har mere end fem modeller at køre.
Lad os se på et eksempel: en video kan være 60 minutter lang og bestå af 3,600 billeder, og hvert billede skal udledes af tre forskellige ML-modeller i den første fase. Med SageMaker MME'er kan vi køre batches af 12 billeder parallelt, og hele batchen fuldføres på mindre end 2 sekunder. På en almindelig dag har vi mere end 20 grupper af videoer, og på en fyldt weekenddag kan vi have mere end 100 grupper af videoer.
Følgende diagram viser vores nye, forenklede arkitektur ved hjælp af en SageMaker MME.
Resultater
Med den nye arkitektur opnåede vi mange af vores ønskede resultater og nogle usete fordele i forhold til den gamle arkitektur:
- Bedre køretid - Ved at øge batchstørrelser (12 videoer parallelt) og køre flere modeller samtidigt (fem modeller parallelt), har vi reduceret vores samlede pipeline-runtid med 33 %, fra 1 time til 40 minutter.
- Forbedret infrastruktur – Med SageMaker opgraderede vi vores eksisterende infrastruktur, og vi bruger nu nyere AWS-instanser med nyere GPU'er såsom g5.xlarge. En af de største fordele ved ændringen er den øjeblikkelige forbedring af ydeevnen ved at bruge TorchScript- og CUDA-optimeringer.
- Optimeret infrastrukturbrug – Ved at have et enkelt endepunkt, der kan hoste flere modeller, kan vi reducere både antallet af endepunkter og antallet af maskiner, vi skal vedligeholde, og også øge udnyttelsen af en enkelt maskine og dens GPU. Til en specifik opgave med fem videoer bruger vi nu kun fem maskiner med g5-instanser, hvilket giver os 75 % omkostningsfordel fra den tidligere løsning. Til en typisk arbejdsbelastning i løbet af dagen bruger vi et enkelt slutpunkt med en enkelt maskine på g5.xlarge med en GPU-udnyttelse på mere end 80 %. Til sammenligning havde den tidligere løsning mindre end 40 % udnyttelse.
- Øget smidighed og produktivitet – Ved at bruge SageMaker kunne vi bruge mindre tid på at migrere modeller og mere tid på at forbedre vores kernealgoritmer og modeller. Dette har øget produktiviteten for vores ingeniør- og datavidenskabsteams. Vi kan nu undersøge og implementere en ny ML-model på under 7 dage i stedet for over 1 måned tidligere. Dette er en forbedring på 75 % i hastighed og planlægning.
- Bedre kvalitet og selvtillid – Med SageMaker A/B-testfunktioner kan vi implementere vores modeller gradvist og være i stand til sikkert at rulle tilbage. Den hurtigere livscyklus til produktion øgede også vores ML-modellers nøjagtighed og resultater.
Følgende figur viser vores GPU-udnyttelse med den tidligere arkitektur (30-40 % GPU-udnyttelse).
Følgende figur viser vores GPU-udnyttelse med den nye forenklede arkitektur (90 % GPU-udnyttelse).
Konklusion
I dette indlæg delte vi, hvordan Nielsen Sports moderniserede et system, der kører tusindvis af forskellige modeller i produktionen ved at bruge SageMaker MME'er og reducerede deres operationelle og økonomiske omkostninger med 75%.
For yderligere læsning henvises til følgende:
Om forfatterne
Eitan Sela er en generativ AI og Machine Learning Specialist Solutions Architect med Amazon Web Services. Han arbejder med AWS-kunder for at yde vejledning og teknisk assistance, og hjælper dem med at bygge og drive Generative AI og Machine Learning-løsninger på AWS. I sin fritid nyder Eitan at jogge og læse de seneste maskinlæringsartikler.
Gal Goldman er en Senior Software Engineer og en Enterprise Senior Solution Architect i AWS med en passion for banebrydende løsninger. Han har specialiseret sig i og har udviklet mange distribuerede Machine Learning-tjenester og -løsninger. Gal fokuserer også på at hjælpe AWS-kunder med at accelerere og overvinde deres tekniske og Generative AI-udfordringer.
Tal Panchek er en Senior Business Development Manager for kunstig intelligens og maskinlæring med Amazon Web Services. Som BD-specialist er han ansvarlig for voksende anvendelse, udnyttelse og indtjening for AWS-tjenester. Han samler kunde- og industribehov og samarbejder med AWS-produktteams for at innovere, udvikle og levere AWS-løsninger.
Tamir Rubinsky leder Global R&D Engineering hos Nielsen Sports, med stor erfaring med at bygge innovative produkter og lede højtydende teams. Hans arbejde forvandlede sportssponsorater medieevaluering gennem innovative, AI-drevne løsninger.
Aviad Aranias er en MLOps-teamleder og Nielsen Sports Analysis Architect, der har specialiseret sig i at skabe komplekse pipelines til analyse af sportsbegivenhedsvideoer på tværs af adskillige kanaler. Han udmærker sig ved at opbygge og implementere deep learning-modeller til at håndtere data i stor skala effektivt. I sin fritid nyder han at bage lækre napolitanske pizzaer.
- SEO Powered Content & PR Distribution. Bliv forstærket i dag.
- PlatoData.Network Vertical Generative Ai. Styrk dig selv. Adgang her.
- PlatoAiStream. Web3 intelligens. Viden forstærket. Adgang her.
- PlatoESG. Kulstof, CleanTech, Energi, Miljø, Solenergi, Affaldshåndtering. Adgang her.
- PlatoHealth. Bioteknologiske og kliniske forsøgs intelligens. Adgang her.
- Kilde: https://aws.amazon.com/blogs/machine-learning/nielsen-sports-sees-75-cost-reduction-in-video-analysis-with-amazon-sagemaker-multi-model-endpoints/
- :har
- :er
- :hvor
- 000
- 1
- 100
- 12
- 120
- 150
- 20
- 40
- 60
- 600
- 7
- a
- evne
- I stand
- fremskynde
- adgang
- nøjagtighed
- præcis
- præcist
- opnået
- tværs
- handlingsrettede
- tilføje
- Desuden
- Yderligere
- Vedtagelse
- fordele
- Reklame
- AI
- AI-drevne
- algoritmer
- Alle
- tilladt
- tillader
- også
- Amazon
- Amazon SageMaker
- Amazon Web Services
- an
- analyse
- analytiker
- analytics
- analysere
- ,
- arkitektur
- ER
- omkring
- artikler
- kunstig
- kunstig intelligens
- Kunstig intelligens (AI)
- Kunstig intelligens og maskinlæring
- AS
- Assistance
- At
- publikum
- automatisk
- Automation
- AWS
- tilbage
- banner
- baseret
- BD
- BE
- fordi
- adfærd
- gavner det dig
- fordele
- mellem
- Største
- Billion
- både
- flaskehalse
- brand
- brands
- Bringe
- udsende
- udsendelser
- bygge
- Bygning
- bygget
- virksomhed
- forretningsudvikling
- by
- beregne
- Kampagne
- CAN
- kapaciteter
- udfordringer
- lave om
- Kanal
- kanaler
- karakteristika
- kunder
- clips
- kombination
- kombinerer
- sammenligning
- Fuldender
- komplekse
- komponent
- komponenter
- computer
- Computer Vision
- tillid
- Tilslut
- Bestående
- indhold
- Core
- Corner
- Koste
- omkostningsreduktion
- kostbar
- crafting
- kunde
- Kunder
- banebrydende
- instrumentbræt
- data
- datapunkter
- datalogi
- databaser
- dag
- Dage
- besluttede
- er faldet
- dedikeret
- dyb
- dyb læring
- levere
- leveret
- indsætte
- implementering
- beskrive
- ønskes
- udvikle
- udviklet
- Udvikling
- diagram
- forskellige
- svært
- direkte
- Direkte adgang
- opdaget
- distribueret
- do
- i løbet af
- dynamisk
- hver
- effektivitet
- effektivt
- elektronisk
- bemyndige
- Endpoint
- engagere
- ingeniør
- Engineering
- Enterprise
- evaluering
- Endog
- begivenhed
- Hver
- undersøge
- eksempel
- eksisterende
- erfaring
- Eksponering
- udvinding
- hurtigere
- Feature
- Figur
- finansielle
- Fornavn
- fem
- fokuserer
- efter
- Til
- Framework
- fra
- fuld
- yderligere
- fremtiden
- GAL
- spil
- generative
- Generativ AI
- få
- given
- giver
- Global
- guldmand
- GPU
- GPU'er
- gradvis
- gruppe
- Gruppens
- Dyrkning
- Gæst
- gæst Indlæg
- vejledning
- vejlede
- havde
- håndtere
- Have
- have
- he
- hjælpe
- højtydende
- hans
- host
- time
- HOURS
- Hvordan
- How To
- HTTPS
- Identifikation
- identificeret
- identificere
- if
- illustrerer
- billede
- billeder
- umiddelbar
- gennemføre
- forbedringer
- forbedring
- in
- omfatter
- omfatter
- Herunder
- Forøg
- øget
- stigende
- uafhængig
- industrien
- ineffektiv
- udledte
- oplysninger
- Infrastruktur
- innovere
- innovativ
- indsigt
- i stedet
- Intelligens
- internationalt
- ind
- investering
- IT
- ITS
- jpg
- kender
- storstilet
- største
- seneste
- leder
- Leads
- League
- læring
- Legacy
- mindre
- niveauer
- livscyklus
- lokale
- placering
- Lang
- Se
- Lav
- maskine
- machine learning
- Maskiner
- vedligeholde
- leder
- styring
- mange
- måle
- Medier
- Metadata
- migrere
- million
- minutter
- Mission
- ML
- MLOps
- model
- modeller
- overvågning
- Måned
- måned
- mere
- flere
- skal
- national
- Behov
- behov
- Ny
- nyere
- Aviser
- næste
- nu
- nummer
- numre
- talrige
- of
- Gammel
- on
- ONE
- online
- kun
- betjene
- operationelle
- optimering
- optimeringer
- or
- Andet
- vores
- udfald
- i løbet af
- samlet
- Overvind
- overliggende
- pakket
- Parallel
- del
- partner
- lidenskab
- Mennesker
- Udfør
- ydeevne
- pipeline
- planlægning
- Platforme
- plato
- Platon Data Intelligence
- PlatoData
- spillere
- punkter
- Indlæg
- tidligere
- tidligere
- behandle
- Produkt
- produktion
- produktivitet
- Produkter
- Programmering
- give
- kvalitet
- F & U
- Raw
- Læsning
- optage
- optagelse
- reducere
- Reduceret
- reduktion
- henvise
- fast
- relevant
- Rapporter
- repræsentativt
- forskning
- ansvarlige
- REST
- Resultater
- afkast
- indtægter
- rettigheder
- ROI
- Roll
- Kør
- kører
- løber
- runtime
- sikkert
- sagemaker
- skalerbar
- Scale
- skalering
- planlægge
- planlægning
- Videnskab
- scores
- sekunder
- Sees
- segment
- segmentering
- segmenter
- senior
- Tjenester
- flere
- former
- delt
- viste
- Shows
- underskrive
- forenklet
- samtidigt
- enkelt
- størrelser
- langsom
- So
- Social
- sociale medier
- Software
- Software Engineer
- løsninger
- Løsninger
- nogle
- specialist
- specialiseret
- specifikke
- specifikt
- tilbringe
- sponsorering
- Sport
- Sport
- Stage
- Steps
- strøm
- sådan
- support
- systemet
- rettet mod
- mål
- Opgaver
- hold
- hold
- Teknisk
- Teknologier
- tiere
- prøve
- Test
- end
- at
- Fremtiden
- verdenen
- deres
- Them
- selv
- derefter
- de
- denne
- tusinde
- tusinder
- tre
- Gennem
- tid
- til
- tog
- top
- I alt
- spor
- omdannet
- tv
- typisk
- under
- forstå
- forståelse
- opgraderet
- us
- Brug
- brug
- ved brug af
- Værdiansættelse
- variationer
- Vast
- VeloCity
- video
- Videoer
- synlighed
- vision
- ønskede
- var
- Vej..
- we
- web
- webservices
- weekend
- var
- som
- WHO
- med
- Arbejde
- workflow
- arbejder
- virker
- world
- Verdens
- ville
- år
- zephyrnet