Ko so začeli veljati novi predpisi o zasebnosti podatkov, kot je GDPR (Splošna uredba o varstvu podatkov, 2017), so stranke pod večjim pritiskom, da monetizirajo medijska sredstva ob spoštovanju novih pravil. Monetizacija medijev ob spoštovanju predpisov o zasebnosti zahteva zmožnost samodejnega ekstrahiranja zdrobljenih metapodatkov iz sredstev, kot so besedilo, slike, video in zvočne datoteke, v internetnem merilu. Potrebuje tudi razširljiv način za preslikavo medijskih sredstev v taksonomije industrije, ki olajša odkrivanje in monetizacijo vsebine. Ta primer uporabe je še posebej pomemben za oglaševalsko industrijo, saj pravila o zasebnosti podatkov povzročajo premik od vedenjskega ciljanja z uporabo piškotkov tretjih oseb.
Piškotki tretjih oseb pomagajo omogočiti prilagojene oglase za spletne uporabnike in omogočijo oglaševalcem, da dosežejo ciljno občinstvo. Tradicionalna rešitev za prikazovanje oglasov brez piškotkov tretjih oseb je kontekstualno oglaševanje, ki umešča oglase na spletne strani glede na vsebino, objavljeno na straneh. Vendar kontekstualno oglaševanje predstavlja izziv pridobivanja konteksta iz medijskih sredstev v velikem obsegu in uporabe tega konteksta za monetizacijo sredstev.
V tej objavi razpravljamo o tem, kako lahko zgradite rešitev strojnega učenja (ML), ki jo imenujemo Contextual Intelligence Taxonomy Mapper (CITM), da iz digitalne vsebine izvlečete kontekst in ga preslikate v standardne taksonomije, da ustvarite vrednost. Čeprav to rešitev uporabljamo za kontekstualno oglaševanje, jo lahko uporabite za reševanje drugih primerov uporabe. Podjetja, ki se ukvarjajo z izobraževalno tehnologijo, jo lahko na primer uporabijo za preslikavo svoje vsebine v taksonomije industrije, da olajšajo prilagodljivo učenje, ki zagotavlja prilagojene učne izkušnje na podlagi individualnih potreb študentov.
Pregled rešitev
Rešitev je sestavljena iz dveh komponent: AWS Media Intelligence (AWS MI) zmogljivosti za ekstrakcijo konteksta iz vsebine na spletnih straneh in CITM za inteligentno preslikavo vsebine v taksonomijo industrije. Lahko dostopate do rešitev skladišče kode za podroben vpogled v to, kako izvajamo njegove komponente.
AWS Media Intelligence
Zmogljivosti AWS MI omogočajo samodejno pridobivanje metapodatkov, ki zagotavljajo kontekstualno razumevanje vsebine spletne strani. Kombinirate lahko tehnike ML, kot so računalniški vid, govor v besedilo in obdelava naravnega jezika (NLP), da samodejno ustvarite metapodatke iz besedila, videoposnetkov, slik in zvočnih datotek za uporabo v nadaljnji obdelavi. Upravljane storitve AI, kot je npr Amazonsko ponovno vžiganje, Amazonski prepis, Amazonsko razumevanjein Amazonovo besedilo narediti te tehnike ML dostopne s klici API-ja. To odpravlja režijske stroške, potrebne za usposabljanje in izdelavo modelov ML iz nič. V tej objavi vidite, kako uporaba Amazon Comprehend in Amazon Rekognition za medijsko obveščanje omogoča pridobivanje metapodatkov v velikem obsegu.
Kartograf taksonomije kontekstne inteligence
Ko iz medijske vsebine izvlečete metapodatke, potrebujete način za preslikavo teh metapodatkov v taksonomijo panoge, da olajšate kontekstualno ciljanje. Če želite to narediti, zgradite Contextual Intelligence Taxonomy Mapper (CITM), ki ga poganja pretvornik stavkov BERT podjetja Hugging Face.
Pretvornik stavkov BERT omogoča CITM kategorizacijo spletne vsebine s kontekstualno povezanimi ključnimi besedami. Spletni članek o zdravem življenju lahko na primer kategorizira s ključnimi besedami iz panožne taksonomije, kot so »Zdravo kuhanje in prehranjevanje«, »Tek in tek« in več, na podlagi napisanega besedila in slik, uporabljenih v članku. CITM ponuja tudi možnost izbire preslikanih taksonomskih izrazov, ki jih boste uporabili za postopek zbiranja oglasov na podlagi vaših meril.
Naslednji diagram ponazarja konceptualni pogled na arhitekturo s CITM.
Taksonomija vsebine IAB (Interactive Advertising Bureau).
Za to objavo uporabljamo Taksonomija vsebin IAB Tech Lab kot industrijsko standardno taksonomijo za kontekstno oglaševanje. Taksonomija IAB po zasnovi pomaga ustvarjalcem vsebin natančneje opisati njihovo vsebino in zagotavlja skupni jezik za vse strani v procesu programskega oglaševanja. Uporaba skupne terminologije je ključnega pomena, saj se mora izbor oglasov za spletno stran, ki jo uporabnik obišče, zgoditi v milisekundah. Taksonomija IAB služi kot standardiziran način za kategoriziranje vsebine iz različnih virov, hkrati pa je industrijski protokol, ki ga platforme za ponudbe v realnem času uporabljajo za izbiro oglasov. Ima hierarhično strukturo, ki zagotavlja razdrobljenost taksonomskih izrazov in izboljšan kontekst za oglaševalce.
Potek dela rešitve
Naslednji diagram prikazuje potek dela rešitve.
Koraki so naslednji:
- Preprosta storitev shranjevanja Amazon (Amazon S3) shranjuje taksonomijo vsebine IAB in izvlečeno spletno vsebino.
- Amazon Comprehend izvaja modeliranje tem, da iz zbirke člankov izlušči pogoste teme.
- Amazonsko priznanje API oznake objekta zazna oznake na slikah.
- CITM preslika vsebino v standardno taksonomijo.
- Po želji lahko shranite vsebino za preslikavo taksonomije v shrambi metapodatkov.
V naslednjih razdelkih se podrobno sprehodimo skozi vsak korak.
Amazon S3 shranjuje taksonomijo vsebin IAB in izvlečeno spletno vsebino
Izvlečeno besedilo in slike iz zbirke spletnih člankov shranjujemo v vedro S3. Hranimo tudi taksonomijo vsebine IAB. Kot prvi korak združimo različne stopnje taksonomije, da ustvarimo kombinirane termine taksonomije. Ta pristop pomaga ohranjati hierarhično strukturo taksonomije, ko pretvornik stavkov BERT ustvari vdelave za vsako ključno besedo. Oglejte si naslednjo kodo:
Naslednji diagram ponazarja taksonomijo konteksta IAB s kombiniranimi plastmi.
Amazon Comprehend izvaja modeliranje tem, da iz zbirke člankov izlušči pogoste teme
Z API-jem za modeliranje tem Amazon Comprehend analizirate vsa besedila člankov z uporabo modela Latent Dirichlet Allocation (LDA). Model pregleda vsak članek v korpusu in združi ključne besede v isto temo glede na kontekst in pogostost, v kateri se pojavljajo v celotni zbirki člankov. Da zagotovite, da model LDA zazna zelo koherentne teme, izvedete korak predprocesiranja, preden pokličete Amazon Comprehend API. Lahko uporabite knjižnica gensim CoherenceModel za določitev optimalnega števila tem za zaznavanje iz zbirke člankov ali besedilnih datotek. Oglejte si naslednjo kodo:
Ko dobite optimalno število tem, to vrednost uporabite za nalogo modeliranja teme Amazon Comprehend. Zagotavljanje različnih vrednosti za parameter NumberOfTopics v Amazon Comprehend Operacija StartTopicsDetectionJob povzroči variacijo v porazdelitvi ključnih besed v vsaki skupini tem. Optimizirana vrednost za parameter NumberOfTopics predstavlja število tem, ki zagotavljajo najbolj skladno skupino ključnih besed z večjo kontekstualno ustreznostjo. Izhod modeliranja teme iz Amazon Comprehend lahko shranite v neobdelani obliki v Amazon S3.
API za oznake predmetov Amazon Rekognition zazna oznake na slikah
Vsako sliko, izvlečeno iz vseh spletnih strani, analizirate z uporabo Operacija Amazon Rekognition DetectLabels. Za vsako sliko operacija zagotovi odziv JSON z vsemi oznakami, zaznanimi v sliki, skupaj z oceno zaupanja za vsako. Za naš primer uporabe poljubno izberemo oceno zaupanja 60 % ali več kot prag za oznake predmetov, ki jih bomo uporabili v naslednjem koraku. Oznake predmetov shranjujete v njihovi surovi obliki v Amazon S3. Oglejte si naslednjo kodo:
CITM preslika vsebino v standardno taksonomijo
CITM primerja izvlečene metapodatke vsebine (teme iz besedila in oznake iz slik) s ključnimi besedami v taksonomiji IAB in nato preslika metapodatke vsebine v ključne besede iz taksonomije, ki so pomensko povezane. Za to nalogo CITM opravi naslednje tri korake:
- Ustvarite nevronske vdelave za taksonomijo vsebine, ključne besede tem in oznake slik z uporabo pretvornika stavkov BERT Hugging Face. Dostopamo do modela transformatorja stavkov iz Amazon SageMaker. V tej objavi uporabljamo parafraza-MiniLM-L6-v2 model, ki ključne besede in oznake preslika v 384-dimenzionalni zgoščeni vektorski prostor.
- Izračunajte rezultat kosinusne podobnosti med ključnimi besedami taksonomije in ključnimi besedami teme z uporabo njihovih vdelav. Izračuna tudi kosinusno podobnost med ključnimi besedami taksonomije in oznakami slikovnih objektov. Kosinusno podobnost uporabljamo kot mehanizem točkovanja za iskanje pomensko podobnih ujemanj med metapodatki vsebine in taksonomijo. Oglejte si naslednjo kodo:
- Identificirajte pare z rezultati podobnosti, ki so nad uporabniško določenim pragom, in jih uporabite za preslikavo vsebine v pomensko povezane ključne besede v taksonomiji vsebine. V našem preizkusu izberemo vse ključne besede iz parov, ki imajo oceno kosinusne podobnosti 0.5 ali več. Oglejte si naslednjo kodo:
Pogost izziv pri delu z jezikovno predstavitvijo v internetnem merilu (kot je v tem primeru uporabe) je, da potrebujete model, ki se lahko prilega večini vsebine – v tem primeru besedam v angleškem jeziku. Transformator BERT podjetja Hugging Face je bil predhodno usposobljen z uporabo velikega korpusa objav Wikipedije v angleškem jeziku, da predstavlja semantični pomen besed v medsebojni povezavi. Vnaprej usposobljeni model natančno prilagodite z uporabo svojega specifičnega nabora podatkov o ključnih besedah teme, oznak slik in taksonomskih ključnih besed. Ko postavite vse vdelave v isti prostor funkcij in jih vizualizirate, vidite, da BERT logično predstavlja semantično podobnost med izrazi.
Naslednji primer vizualizira ključne besede taksonomije vsebine IAB za razred Automotive, predstavljene kot vektorji z uporabo BERT. BERT uvršča avtomobilske ključne besede iz taksonomije blizu pomensko podobnih izrazov.
Vektorji funkcij omogočajo CITM primerjavo oznak metapodatkov in ključnih besed taksonomije v istem prostoru funkcij. V tem prostoru funkcij CITM izračuna podobnost kosinusa med vsakim vektorjem značilnosti za ključne besede taksonomije in vsakim vektorjem značilnosti za ključne besede teme. V ločenem koraku CITM primerja vektorje značilnosti taksonomije in vektorje značilnosti za oznake slik. Pari s kosinusnimi rezultati, ki so najbližji 1, so prepoznani kot pomensko podobni. Upoštevajte, da je par lahko ključna beseda teme in taksonomska ključna beseda ali oznaka predmeta in taksonomska ključna beseda.
Naslednji posnetek zaslona prikazuje primere parov tematskih ključnih besed in taksonomskih ključnih besed z uporabo kosinusne podobnosti, izračunane z vdelavami BERT.
Za preslikavo vsebine v ključne besede taksonomije CITM izbere ključne besede iz parov s kosinusnimi rezultati, ki ustrezajo pragu, ki ga določi uporabnik. To so ključne besede, ki bodo uporabljene na platformah za ponudbe v realnem času za izbiro oglasov za inventar spletne strani. Rezultat je bogato preslikavo spletne vsebine v taksonomijo.
Izbirno shranite vsebino za preslikavo taksonomije v shrambo metapodatkov
Ko identificirate kontekstualno podobne taksonomske izraze iz CITM, potrebujete način za API-je z nizko zakasnitvijo za dostop do teh informacij. Pri programskem ponujanju za oglase imata kratek odzivni čas in visoka sočasnost pomembno vlogo pri monetizaciji vsebine. Shema za shrambo podatkov mora biti prilagodljiva, da lahko sprejme dodatne metapodatke, kadar so potrebni za obogatitev zahtevkov za ponudbe. Amazon DynamoDB lahko ustreza vzorcem dostopa do podatkov in operativnim zahtevam za takšno storitev.
zaključek
V tej objavi ste se naučili, kako zgraditi rešitev za kontekstualno ciljanje, ki temelji na taksonomiji, z uporabo Contextual Intelligence Taxonomy Mapper (CITM). Naučili ste se uporabljati Amazon Comprehend in Amazon Rekognition za ekstrahiranje zrnatih metapodatkov iz vaših medijskih sredstev. Nato ste z uporabo CITM preslikali sredstva v standardno panožno taksonomijo, da bi olajšali ponujanje programskih oglasov za kontekstualno povezane oglase. To ogrodje lahko uporabite za druge primere uporabe, ki zahtevajo uporabo standardne taksonomije za povečanje vrednosti obstoječih medijskih sredstev.
Če želite eksperimentirati s CITM, lahko dostopate do njega skladišče kode in ga uporabite z naborom besedilnih in slikovnih podatkov po vaši izbiri.
Priporočamo, da izveste več o komponentah rešitve, predstavljenih v tej objavi. Odkrijte več o AWS Media Intelligence za pridobivanje metapodatkov iz medijske vsebine. Izvedite tudi več o uporabi Modeli objemajočih se obrazov za NLP z uporabo Amazon SageMaker.
O avtorjih
Aramid Kehinde je starejši arhitekt partnerskih rešitev pri AWS na področju strojnega učenja in umetne inteligence. Njena karierna pot je zajemala področja poslovne inteligence in napredne analitike v več panogah. Dela, da bi partnerjem omogočila izgradnjo rešitev s storitvami AWS AI/ML, ki izpolnjujejo potrebe strank po inovacijah. Uživa tudi v gradnji presečišča umetne inteligence in ustvarjalnih prizorišč ter preživlja čas s svojo družino.
Anuj Gupta je glavni arhitekt rešitev, ki sodeluje s hitro rastočimi podjetji na njihovi domači poti v oblaku. Navdušen je nad uporabo tehnologije za reševanje zahtevnih problemov in je sodeloval s strankami pri izdelavi visoko porazdeljenih aplikacij z nizko zakasnitvijo. Prispeva k odprtokodnim rešitvam brez strežnikov in strojnega učenja. Zunaj dela rad potuje z družino ter piše pesmi in filozofske bloge.
- AI
- ai art
- ai art generator
- imajo robota
- Amazonsko razumevanje
- Amazonsko ponovno vžiganje
- Amazon SageMaker
- Umetna inteligenca
- certificiranje umetne inteligence
- umetna inteligenca v bančništvu
- robot z umetno inteligenco
- roboti z umetno inteligenco
- programska oprema za umetno inteligenco
- Strojno učenje AWS
- blockchain
- blockchain konferenca ai
- coingenius
- pogovorna umetna inteligenca
- kripto konferenca ai
- dall's
- globoko učenje
- strojno učenje
- Trženje in oglaševanje
- platon
- platon ai
- Platonova podatkovna inteligenca
- Igra Platon
- PlatoData
- platogaming
- lestvica ai
- sintaksa
- Tehnična navodila
- miselno vodstvo
- zefirnet