Kun uudet tietosuojasäännökset, kuten GDPR (General Data Protection Regulation, 2017), ovat tulleet voimaan, asiakkaisiin kohdistuu lisääntyviä paineita kaupallistaa mediavarat uusien sääntöjen mukaisesti. Median ansaitseminen yksityisyyttä koskevia sääntöjä noudattaen edellyttää kykyä poimia automaattisesti yksityiskohtaisia metatietoja resursseista, kuten tekstistä, kuvista, videoista ja äänitiedostoista Internetin mittakaavassa. Se vaatii myös skaalautuvan tavan kartoittaa mediavarat alan taksonomioihin, mikä helpottaa sisällön löytämistä ja kaupallistamista. Tämä käyttötapaus on erityisen tärkeä mainosalalle, koska tietosuojasäännöt aiheuttavat siirtymisen käyttäytymiseen perustuvasta kohdistamisesta kolmannen osapuolen evästeiden avulla.
Kolmannen osapuolen evästeet auttaa mahdollistamaan räätälöityjä mainoksia verkkokäyttäjille ja mahdollistaa mainostajien tavoittaa kohdeyleisönsä. Perinteinen ratkaisu mainosten näyttämiseen ilman kolmannen osapuolen evästeitä on kontekstuaalinen mainonta, joka sijoittaa mainoksia verkkosivuille sivuilla julkaistun sisällön perusteella. Asiayhteyteen perustuva mainonta asettaa kuitenkin haasteen kontekstin poimimisessa mediaresursseista laajassa mittakaavassa ja myös kontekstin käyttämisessä resurssien kaupallistamiseen.
Tässä viestissä keskustelemme siitä, kuinka voit rakentaa koneoppimisratkaisun (ML), jota kutsumme Contextual Intelligence Taxonomy Mapperiksi (CITM), jolla poimitaan konteksti digitaalisesta sisällöstä ja kartoitetaan se tavallisiin taksonomioihin arvon luomiseksi. Vaikka käytämme tätä ratkaisua kontekstuaaliseen mainontaan, voit käyttää sitä muiden käyttötapausten ratkaisemiseen. Esimerkiksi koulutusteknologiayritykset voivat käyttää sitä kartoittaakseen sisältöään alan taksonomioihin helpottaakseen mukautuvaa oppimista, joka tuottaa yksilöllisiä oppimiskokemuksia opiskelijoiden yksilöllisten tarpeiden mukaan.
Ratkaisun yleiskatsaus
Ratkaisu koostuu kahdesta osasta: AWS Media Intelligence (AWS MI) -ominaisuudet kontekstin poimimiseen verkkosivujen sisällöstä ja CITM sisällön älykkääseen kartoittamiseen alan taksonomiaan. Pääset käsiksi ratkaisuun koodivarasto saadaksesi yksityiskohtaisen kuvan siitä, kuinka toteutamme sen komponentit.
AWS Media Intelligence
AWS MI -ominaisuudet mahdollistavat metatietojen automaattisen purkamisen, joka tarjoaa kontekstuaalisen ymmärryksen verkkosivun sisällöstä. Voit yhdistää ML-tekniikoita, kuten tietokonenäön, puheen tekstiksi ja luonnollisen kielen käsittelyn (NLP), luodaksesi automaattisesti metatietoja tekstistä, videoista, kuvista ja äänitiedostoista käytettäväksi jatkokäsittelyssä. Hallitut tekoälypalvelut, kuten Amazonin tunnistus, Amazonin transkriptio, Amazonin käsitysja Amazonin teksti tehdä näistä ML-tekniikoista saataville API-kutsujen avulla. Tämä eliminoi ylimääräiset kustannukset, joita tarvitaan ML-mallien kouluttamiseen ja rakentamiseen tyhjästä. Tässä viestissä näet, kuinka Amazon Comprehendin ja Amazon Rekognitionin käyttäminen mediaälyyn mahdollistaa metatietojen poimimisen laajassa mittakaavassa.
Kontekstuaalisen älykkyyden taksonomiakartoittaja
Kun olet poiminut metatiedot mediasisällöstä, tarvitset tavan yhdistää metatiedot alan taksonomiaan, jotta asiayhteyteen kohdistus helpottuu. Tätä varten rakennat Contextual Intelligence Taxonomy Mapperin (CITM), jonka virtalähteenä on Hugging Facen BERT-lausemuuntaja.
BERT-lausemuuntajan avulla CITM voi luokitella verkkosisällön asiayhteyteen liittyvillä avainsanoilla. Se voi esimerkiksi luokitella terveellistä elämäntapaa käsittelevän verkkoartikkelin alan taksonomian avainsanoilla, kuten "Terveellinen ruoanlaitto ja syöminen", "Juoksu ja lenkkeily" kirjoitetun tekstin ja artikkelissa käytettyjen kuvien perusteella. CITM tarjoaa myös mahdollisuuden valita kartoitetut taksonomiatermit, joita käytetään mainoksesi hintatarjousprosessissa kriteerisi perusteella.
Seuraava kaavio havainnollistaa käsitteellistä näkymää CITM:n arkkitehtuurista.
IAB (Interactive Advertising Bureau) -sisältöluokitus
Tähän viestiin käytämme IAB Tech Labin sisällön taksonomia alan standardi taksonomia kontekstuaalisen mainonnan käyttötapaukselle. Suunniteltu IAB:n taksonomia auttaa sisällöntuottajia kuvaamaan sisältöään tarkemmin, ja se tarjoaa yhteisen kielen kaikille ohjelmallisen mainonnan osapuolille. Yhteisen terminologian käyttö on ratkaisevan tärkeää, koska mainosten valinnan käyttäjän vierailemalle verkkosivulle on tapahduttava millisekunnissa. IAB:n taksonomia toimii standardoituna tapana luokitella eri lähteistä peräisin olevaa sisältöä, mutta se on myös alan protokolla, jota reaaliaikaiset hintatarjousalustat käyttävät mainosten valintaan. Sillä on hierarkkinen rakenne, joka tarjoaa taksonomian termien tarkkuuden ja paremman kontekstin mainostajille.
Ratkaisun työnkulku
Seuraava kaavio kuvaa ratkaisun työnkulkua.
Vaiheet ovat seuraavat:
- Amazonin yksinkertainen tallennuspalvelu (Amazon S3) tallentaa IAB:n sisällön taksonomian ja poimitun verkkosisällön.
- Amazon Comprehend suorittaa aihemallinnuksen poimiakseen yleisiä teemoja artikkelikokoelmasta.
- Amazon Rekognition objektitunniste API tunnistaa kuvissa olevat tarrat.
- CITM kartoittaa sisällön tavalliseen taksonomiaan.
- Valinnaisesti voit tallentaa sisällön taksonomiakartoitukseen metatietosäilöön.
Seuraavissa osioissa käymme läpi jokaisen vaiheen yksityiskohtaisesti.
Amazon S3 tallentaa IAB-sisällön taksonomian ja puretun verkkosisällön
Tallennamme poimittua tekstiä ja kuvia verkkoartikkelikokoelmasta S3-ämpäriin. Tallennamme myös IAB-sisällön taksonomian. Ensimmäisenä vaiheena yhdistämme taksonomian eri tasoja luodaksemme yhdistettyjä taksonomiatermejä. Tämä lähestymistapa auttaa säilyttämään taksonomian hierarkkisen rakenteen, kun BERT-lausemuuntaja luo upotteita kullekin avainsanalle. Katso seuraava koodi:
Seuraava kaavio havainnollistaa IAB-kontekstin taksonomiaa yhdistetyillä tasoilla.
Amazon Comprehend suorittaa aihemallinnuksen poimiakseen yleisiä teemoja artikkelikokoelmasta
Amazon Comprehend -aihemallinnussovellusliittymän avulla analysoit kaikki artikkelitekstit käyttämällä Latent Dirichlet Allocation (LDA) -mallia. Malli tarkastelee jokaisen artikkelin artikkelia ja ryhmittelee avainsanat samaan aiheeseen kontekstin ja esiintymistiheyden perusteella koko artikkelikokoelmassa. Varmistaaksesi, että LDA-malli havaitsee erittäin johdonmukaiset aiheet, suoritat esikäsittelyvaiheen ennen Amazon Comprehend API:n kutsumista. Voit käyttää gensim-kirjasto CoherenceModel määrittää optimaalisen määrän aiheita, jotka tunnistetaan artikkelikokoelmasta tai tekstitiedostoista. Katso seuraava koodi:
Kun olet saanut optimaalisen määrän aiheita, käytät tätä arvoa Amazon Comprehend -aihemallinnustyössä. Erilaisten arvojen tarjoaminen NumberOfTopics-parametrille Amazon Comprehendissä AloitaTopicsDetectionJob-toiminto johtaa vaihteluun kuhunkin aiheryhmään sijoitettujen avainsanojen jakautumisessa. NumberOfTopics-parametrin optimoitu arvo edustaa niiden aiheiden määrää, jotka tarjoavat johdonmukaisimman ja asiayhteyden kannalta merkityksellisemmän avainsanojen ryhmittelyn. Voit tallentaa Amazon Comprehendin aihemallinnustulosten raakamuodossa Amazon S3:een.
Amazon Rekognition -objektietiketin API havaitsee kuvissa olevat tarrat
Analysoit jokaista kaikilta verkkosivuilta poimittua kuvaa käyttämällä Amazon Rekognition DetectLabels -toiminto. Toiminto tarjoaa jokaiselle kuvalle JSON-vastauksen, jossa on kaikki kuvassa havaitut tunnisteet sekä kunkin kuvan luottamuspisteet. Käyttötapauksessamme valitsemme mielivaltaisesti 60 %:n tai korkeamman luotettavuuspisteen kynnysarvoksi objektitunnisteille, joita käytetään seuraavassa vaiheessa. Tallennat objektien etiketit raakamuodossaan Amazon S3:ssa. Katso seuraava koodi:
CITM kartoittaa sisällön tavalliseen taksonomiaan
CITM vertaa poimittuja sisällön metatietoja (aiheita tekstistä ja tunnisteita kuvista) IAB:n taksonomian avainsanoihin ja kartoittaa sitten sisällön metatiedot taksonomian avainsanoihin, jotka liittyvät semanttisesti. Tätä tehtävää varten CITM suorittaa seuraavat kolme vaihetta:
- Luo hermoupotuksia sisällön taksonomiaa, aiheen avainsanoja ja kuvatunnisteita varten käyttämällä Hugging Facen BERT-lausemuuntajaa. Pääsemme lausemuuntajamalliin osoitteesta Amazon Sage Maker. Tässä viestissä käytämme parafraasi-MiniLM-L6-v2 malli, joka kartoittaa avainsanat ja tunnisteet 384-ulotteiseen tiheään vektoriavaruuteen.
- Laske taksonomian avainsanojen ja aiheen avainsanojen kosinin samankaltaisuuspisteet käyttämällä niiden upotuksia. Se myös laskee kosinin samankaltaisuuden taksonomian avainsanojen ja kuvaobjektien tunnisteiden välillä. Käytämme kosinin samankaltaisuutta pisteytysmekanismina löytääksemme semanttisesti samankaltaisia vastaavuuksia sisällön metatietojen ja taksonomian välillä. Katso seuraava koodi:
- Tunnista parit, joiden samankaltaisuuspisteet ylittävät käyttäjän määrittämän kynnyksen, ja käytä niitä sisällön yhdistämiseen semanttisesti liittyviin avainsanoihin sisällön taksonomiassa. Testissämme valitsemme kaikki avainsanat pareista, joiden kosinin samankaltaisuuspisteet ovat 0.5 tai korkeammat. Katso seuraava koodi:
Yleinen haaste Internet-mittakaavaisen kieliesityksen parissa (kuten tässä käyttötapauksessa) on, että tarvitset mallin, joka sopii suurimmalle osalle sisällöstä – tässä tapauksessa englannin kielen sanoista. Hugging Facen BERT-muuntaja on esikoulutettu käyttämällä laajaa englanninkielistä Wikipedia-viestien kokoelmaa edustamaan sanojen semanttista merkitystä suhteessa toisiinsa. Hienosäädä esikoulutettua mallia käyttämällä erityistä aiheen avainsanojen, kuvatunnisteiden ja taksonomian avainsanojen tietojoukkoasi. Kun sijoitat kaikki upotukset samaan ominaisuustilaan ja visualisoit ne, näet, että BERT edustaa loogisesti termien semanttista samankaltaisuutta.
Seuraava esimerkki visualisoi IAB-sisällön taksonomian avainsanoja luokassa Automotive, joka esitetään vektoreina BERT:n avulla. BERT sijoittaa taksonomian Automotive-avainsanat lähelle semanttisesti samankaltaisia termejä.
Piirrevektorit antavat CITM:lle mahdollisuuden verrata metatietotunnisteita ja taksonomian avainsanoja samassa ominaisuustilassa. Tässä ominaisuustilassa CITM laskee kosinin samankaltaisuuden taksonomian avainsanojen kunkin piirrevektorin ja aiheen avainsanojen kunkin piirrevektorin välillä. Erillisessä vaiheessa CITM vertaa taksonomian piirrevektoreita ja piirrevektoreita kuvatarroille. Parit, joiden kosinipisteet ovat lähimpänä yhtä, tunnistetaan semanttisesti samanlaisiksi. Huomaa, että pariliitos voi olla joko aiheen avainsana ja taksonomian avainsana tai objektinimike ja taksonomian avainsana.
Seuraavassa kuvakaappauksessa on esimerkkipareja aiheen avainsanoista ja taksonomian avainsanoista käyttämällä kosinin samankaltaisuutta, joka on laskettu BERT-upotuksilla.
Kartoittaakseen sisällön taksonomian avainsanoihin CITM valitsee avainsanat pareittain kosinipisteillä, jotka täyttävät käyttäjän määrittämän kynnyksen. Nämä ovat avainsanoja, joita käytetään reaaliaikaisissa hintatarjousalustoissa mainosten valitsemiseen verkkosivun mainosjakaumaan. Tuloksena on rikas verkkosisällön kartoitus taksonomiaan.
Valinnaisesti tallenna sisältöä taksonomian kartoitukseen metatietosäilöön
Kun olet tunnistanut kontekstuaalisesti samankaltaiset taksonomiatermit CITM:stä, tarvitset tavan, jolla alhaisen viiveen sovellusliittymät voivat käyttää näitä tietoja. Mainosten ohjelmallisissa hintatarjouksissa alhaisella vasteajalla ja korkealla samanaikaisuudella on tärkeä rooli sisällön kaupallistamisessa. Tietosäilön skeeman on oltava joustava, jotta siihen voidaan sisällyttää lisää metatietoja, kun niitä tarvitaan tarjouspyyntöjen rikastamiseksi. Amazon DynamoDB voi vastata tällaisen palvelun tiedonkäyttömalleja ja toimintavaatimuksia.
Yhteenveto
Tässä viestissä opit luomaan taksonomiaan perustuvan asiayhteyteen kohdistusratkaisun Contextual Intelligence Taxonomy Mapperin (CITM) avulla. Opit käyttämään Amazon Comprehendia ja Amazon Rekognitionia rakeisen metadatan poimimiseen mediasisällöstäsi. Tämän jälkeen CITM:n avulla määritit resurssit alan standardinmukaiseen taksonomiaan helpottaaksesi ohjelmallista mainosten hinnoittelua asiayhteyteen liittyville mainoksille. Voit soveltaa tätä viitekehystä muihin käyttötapauksiin, jotka edellyttävät vakiotaksonomian käyttöä olemassa olevien mediaresurssien arvon lisäämiseksi.
Voit kokeilla CITM:ää käyttämällä sitä koodivarasto ja käytä sitä valitsemasi teksti- ja kuvatietojoukon kanssa.
Suosittelemme oppimaan lisää tässä viestissä esitellyistä ratkaisukomponenteista. Tutustu lisää aiheesta AWS Media Intelligence poimimaan metatietoja mediasisällöstä. Lue myös lisää käytöstä Halaavat kasvomallit NLP:lle Amazon SageMakerin avulla.
Tietoja Tekijät
Aramide Kehinde on vanhempi kumppaniratkaisuarkkitehti AWS:ssä koneoppimisessa ja tekoälyssä. Hänen uransa on kattanut Business Intelligencen ja Advanced Analyticsin alueet useilla toimialoilla. Hän pyrkii siihen, että kumppanit voivat rakentaa AWS AI/ML -palveluilla ratkaisuja, jotka palvelevat asiakkaiden innovaatiotarpeita. Hän nauttii myös tekoälyn ja luovien areenoiden risteyksen rakentamisesta ja ajan viettämisestä perheensä kanssa.
Anuj Gupta on pääratkaisuarkkitehti, joka työskentelee hyperkasvuyritysten kanssa heidän pilvipohjaisella matkallaan. Hän on intohimoinen teknologian käyttämiseen haastavien ongelmien ratkaisemiseen ja on työskennellyt asiakkaiden kanssa erittäin hajautettujen ja alhaisen latenssin sovellusten rakentamiseksi. Hän osallistuu avoimen lähdekoodin palvelimettomiin ja koneoppimisratkaisuihin. Työn ulkopuolella hän rakastaa matkustamista perheensä kanssa ja kirjoittaa runoja ja filosofisia blogeja.
- AI
- ai taide
- ai taiteen generaattori
- ai robotti
- Amazonin käsitys
- Amazonin tunnistus
- Amazon Sage Maker
- tekoäly
- tekoälyn sertifiointi
- tekoäly pankkitoiminnassa
- tekoäly robotti
- tekoälyrobotit
- tekoälyohjelmisto
- AWS-koneoppiminen
- blockchain
- blockchain-konferenssi ai
- coingenius
- keskustelullinen tekoäly
- kryptokonferenssi ai
- dall's
- syvä oppiminen
- google ai
- koneoppiminen
- Markkinointi ja mainonta
- Platon
- plato ai
- Platonin tietotieto
- Platon peli
- PlatonData
- platopeliä
- mittakaava ai
- syntaksi
- Tekniset ohjeet
- ajatusjohtajuus
- zephyrnet