Miten Amp On Amazon käytti dataa lisätäkseen asiakkaiden sitoutumista, osa 1: Data Analytics -alustan rakentaminen

Julkaissut Platon

seuraajia: 0

Vahvistin, Amazonin uusi live-radiosovellus, on uusi keksintö radiosta, joka sisältää ihmisen kuratoimia suoria ääniohjelmia. Se on suunniteltu tarjoamaan saumaton asiakaskokemus kuuntelijoille ja tekijöille debytoimalla interaktiivisia live-ääniohjelmia suosikkiartisteiltasi, radio-DJ:ltä, podcasterilta ja ystäviltäsi.

Uutena tuotteena uudessa tilassa Amazonille Amp tarvitsi kuitenkin enemmän relevanttia tietoa päätöksentekoprosessissaan. Amp halusi skaalautuvan data- ja analytiikkaalustan, joka mahdollistaisi helpon pääsyn dataan ja koneen taipumiseen (ML) kokeiden suorittamiseen live-äänen transkriptiota, sisällön moderointia, ominaisuussuunnittelua ja henkilökohtaista esityssuosituspalvelua varten sekä tarkastaa tai mitata liiketoiminnan KPI:itä ja mittareita.

Tämä postaus on ensimmäinen kaksiosaisessa sarjassa. Osa 1 näyttää, kuinka dataa kerättiin ja käsiteltiin data- ja analytiikkaalustan avulla Osa 2 näyttää, kuinka tietoja käytettiin esityssuositusten luomiseen käyttämällä Amazon Sage Maker, täysin hallittu ML-palvelu. Henkilökohtainen ohjelmasuosituslistapalvelu on osoittanut 3 %:n lisäyksen seurattaviin asiakkaiden sitoutumismittareihin (kuten ohjelman pitäminen, tekijän seuraaminen tai tulevien ohjelmien ilmoitusten salliminen) sen julkaisun jälkeen toukokuussa 2022.

Ratkaisun yleiskatsaus

Amp:n tietolähteet voidaan luokitella laajasti joko suoratoistoon (lähes reaaliaikainen) tai eräksi (ajankohtana). Lähdetiedot lähetetään Amp:n omistamista järjestelmistä tai muista Amazon-järjestelmistä. Kaksi erilaista tietotyyppiä ovat seuraavat:

Suoratoisto – Tämän tyyppiset tiedot koostuvat pääasiassa seuraamisesta, ilmoituksista (koskee käyttäjien ystäviä, suosikkitekijöitä tai ohjelmia), aktiviteettipäivityksiä, live-esitysten vuorovaikutusta (puhelut, isännöitsijät, kyselyt, sovelluksen sisäinen chat), reaaliaikainen päivityksiä suorien esitysten aktiviteeteista (live-kuuntelumäärä, tykkäykset), live-äänen toistomittareista ja muista Amp-sovelluksen napsautusvirtamittareista. Vahvistimen sidosryhmät tarvitsevat näitä tietoja ML-prosessien tai ennakoivien mallien, sisällön moderointityökalujen sekä tuote- ja ohjelmahallintapaneelien (esimerkiksi trendiohjelmien) tehostamiseksi. Suoratoistodatan avulla Amp-asiakkaat voivat suorittaa ja mitata kokeiluja.
Erätiedot – Nämä tiedot koostuvat pääasiassa luettelotiedoista, esitysten tai luojien metatiedoista ja käyttäjäprofiilitiedoista. Erätiedot mahdollistavat enemmän ajantasaisen raportoinnin ja analytiikan kuin reaaliaikaisen.

Seuraava kaavio havainnollistaa korkean tason arkkitehtuuria.

Amp-data- ja analytiikkaalusta voidaan jakaa kolmeen korkean tason järjestelmään:

Suoratoistodatan otto, streamin käsittely ja muuntaminen sekä suoratoiston tallennus
Erätietojen käsittely, eräkäsittely ja muunnos sekä erätallennus
Business Intelligence (BI) ja analytiikka

Seuraavissa osioissa käsittelemme jokaista komponenttia yksityiskohtaisemmin.

Tietojen suoratoisto, käsittely, muuntaminen ja tallennus

Amp loi palvelimettoman suoratoiston käsittelyputken, joka pystyy hyödyntämään lähteiden tietoja ilman infrastruktuurin hallintaa, kuten seuraavassa kaaviossa näkyy.

Liukulinja pystyi nielemään Amp-esitysluettelotiedot (mitä esitykset ovat saatavilla Ampissa) ja välittämään ne datajärvelle kahta eri käyttötapausta varten: toinen lähes reaaliaikaista analytiikkaa varten ja toinen eräanalytiikkaa varten.

Amp-tiimillä on osana tuloputkea Amazonin yksinkertainen jonopalvelu (Amazon SQS) -jono, joka vastaanottaa viestejä ylävirran puolelta Amazonin yksinkertainen ilmoituspalvelu (Amazon SNS) -aihe, joka sisältää tietoa luettelon esitysten muutoksista. Nämä muutokset voivat olla uusien esitysten lisäämistä tai mukautuksia olemassa oleviin, jotka on ajoitettu.

Kun SQS-jono vastaanottaa viestin, se laukaisee AWS Lambda toiminto, jolla voit soittaa API-kutsun Amp-luettelopalveluun. Lambda-toiminto noutaa halutut esityksen metatiedot, suodattaa metatiedot ja lähettää sitten tulosteen metatiedot Amazon Kinesis -tietovirrat. Amazon Kinesis Data Firehose vastaanottaa tietueet tietovirrasta. Kinesis Data Firehose kutsuu sitten toissijaisen lambda-toiminnon suorittaakseen datamuunnoksen, joka tasoittaa vastaanotetut JSON-tietueet ja kirjoittaa muunnetut tietueet Amazonin yksinkertainen tallennuspalvelu (Amazon S3) datajärvi Amp-sidosryhmien kulutukseen.

Kinesis Data Firehose mahdollistaa puskuroinnin ja tietojen kirjoittamisen Amazon S3:een 60 sekunnin välein. Tämä auttoi Amp-tiimejä tekemään lähes reaaliaikaisia ohjelmointipäätöksiä, jotka vaikuttivat ulkoisiin asiakkaisiin.

Suoratoiston käsittelyputki tuki seuraavia tavoitteita: suorituskyky, saatavuus, skaalautuvuus ja joustavuus lähettää tietoja useisiin loppupään sovelluksiin tai palveluihin:

Kinesis Data Streams käsittelee suoratoistodatan käsittelyn tarvittaessa. Kinesis Data Streams tuki näitä tavoitteita antamalla Amp-tiimille mahdollisuuden saada nopeasti dataa analytiikkaa varten minimaalisella toiminnallisella kuormituksella. Täysin hallinnoituna palveluna se vähensi käyttökustannuksia, ja Amp pystyi skaalautumaan tuotetarpeiden mukaan.
Lambda antoi tiimille mahdollisuuden luoda kevyitä toimintoja API-kutsujen suorittamiseen ja datamuunnosten suorittamiseen.
Koska Kinesis Data Firehose on hallittu palvelu, se pystyi käsittelemään kaikki suoratoistodatan skaalaus-, jakamis- ja valvontatarpeet ilman, että tiimille tarvitsisi ylimääräistä ylikuutelua.

Erätietojen käsittely, käsittely, muuntaminen ja tallennus

Amp loi ohimenevän erän (aikapisteen) käsittelyputken, joka pystyy syöttämään, prosessoimaan ja muuntamaan sekä tallentamaan tietoja, kuten seuraavassa kaaviossa näkyy.

Ohimenevä erotus, muunnos ja lataus (ETL) ja erotus, lataus ja muunnos (ELT) -työhön otettiin käyttöön näiden työkuormien eräluonteen ja tuntemattomien tietomäärien vuoksi. Osana työnkulun automaatiota käytettiin Amazon SQS:ää käynnistämään Lambda-toiminto. Lambda-toiminto aktivoi sen jälkeen AWS Glue -indeksointirobotin päättelemään skeeman ja tietotyypit. Indeksointirobotti kirjoitti skeeman metatiedot AWS Glue Data Catalogiin, mikä tarjoaa yhtenäisen metatietosäilön tietojen jakamista varten.

ETL- ja ELT-töiden oli suoritettava joko määrätyn aikataulun tai tapahtumapohjaisen työnkulun mukaisesti. Näiden tarpeiden hoitamiseksi Amp käytti Amazonin hallinnoidut työnkulut Apache Airflowlle (Amazon MWAA). Apache Airflow on avoimen lähdekoodin Python-pohjainen työnkulun hallintaalusta. Amazon MWAA on täysin hallittu palvelu, joka käsittelee skaalauksen automaattisesti. Se tarjoaa sekvensoinnin, virheiden käsittelyn, uudelleenyrityslogiikan ja tilan. Amazon MWAA:n avulla Amp pystyi hyödyntämään Airflown edut työn organisoinnissa ilman, että hänen tarvitsisi hallita tai ylläpitää omistettuja Airflow-palvelimia. Lisäksi käyttämällä Amazon MWAA:ta Amp pystyi luomaan Amazon S3:een tallennetun koodivaraston ja työnkulkuputken, johon Amazon MWAA pääsi käsiksi. Putkilinjan ansiosta Amp-tietosuunnittelijat saattoivat helposti ottaa Airflow DAG:t tai PySpark-komentosarjat käyttöön useissa ympäristöissä.

Käytetty vahvistin Amazonin EMR on Amazonin elastisten kuberneettien palvelu (Amazon EKS) konfiguroida ja hallita säilöjä tietojenkäsittely- ja muunnostöitä varten. Amp-palvelun ainutlaatuisesta luonteesta johtuen alustavat odotetut käsiteltävät datamäärät olivat suhteellisen tuntemattomia. Joustavuuden tarjoamiseksi palvelun kehittyessä tiimi päätti käyttää Amazon EMR:ää EKS:ssä eliminoidakseen kaikki tarpeettomat toiminnalliset ylikuulotukset, joita tarvitaan Amazon EMR:n käynnistämiseen ja skaalaamiseen tietojenkäsittelyä varten. Tämä lähestymistapa antoi heille mahdollisuuden ajaa ohimeneviä hybridi-EMR-klustereita, joita tuki sekoitus AWS-veljeskunta ja Amazonin elastinen laskentapilvi (Amazon EC2) -solmut, joissa kaikki järjestelmätehtävät ja työkuormat siirrettiin Fargateen, kun taas Amazon EC2 hoiti kaiken Apache Spark -prosessoinnin ja muunnoksen. Tämä tarjosi joustavuutta klusteriin, jossa yksi solmu oli käynnissä, kun taas Amazon EKS -automaattinen skaalaaja instantoi ja käynnistyi dynaamisesti kaikki työhön tarvittavat EC2-solmut. Kun työ oli valmis, klusterin automaattinen skaalaaja poisti ne automaattisesti. Tämä malli eliminoi ryhmän tarpeen hallita klusterin käynnistystoimintoja tai skaalausta, jota tarvitaan vastaamaan muuttuviin työkuormiin.

Keskitettynä datajärvenä käytettiin Amazon S3:a, ja tiedot tallennettiin Apache Parquet (Parquet) -muodossa. Parketti on pylväsmuoto, joka nopeuttaa tiedonhakua ja tarjoaa tehokkaan tiedon pakkaamisen. Amazon S3 tarjosi ampeerin joustavuutta, skaalautuvuutta ja tietoturvatarpeita. Amazon S3:n avulla Amp-tiimi pystyi keskittämään tietojen tallennuksen yhteen paikkaan ja yhdistämään pääsyn dataan käytännössä minkä tahansa palvelun tai työkalun kautta AWS:n sisällä tai ulkopuolella. Datajärvi jaettiin kahteen S3-säihöön: yksi raakadatan käsittelyä varten ja toinen muunnetun datan ulostuloa varten. Amazon EMR suoritti muunnoksen raakatiedoista muunnetuiksi tiedoiksi. Kun Amazon S3 oli keskeinen tietojärvi, Amp pystyi paljastamaan ja jakamaan tiedot turvallisesti muiden ryhmien kanssa Ampissa ja Amazonissa.

Yksinkertaistaakseen tietojen määrittelyä, taulukoiden käyttöoikeuksia ja taulukoiden lisäämistä ja poistamista he käyttivät AWS Glue -indeksointirobotteja ja AWS Glue Data Catalogia. Koska Amp on uusi palvelu ja kehittyy jatkuvasti, tiimi tarvitsi tavan helposti määrittää, käyttää ja hallita datajärven taulukoita. Indeksointirobotit käsittelivät tietojen määrittelyä (mukaan lukien skeeman muutokset) ja taulukoiden lisäämistä ja poistamista, kun taas Data Catalog toimi yhtenäisenä metatietovarastona.

Liiketoimintatieto ja analytiikka

Seuraava kaavio havainnollistaa BI- ja analytiikkakomponentin arkkitehtuuria.

Amp päätti tallentaa tiedot S3-datajärveen, ei tietovarastoon. Tämä antoi heille mahdollisuuden käyttää sitä yhtenäisellä tavalla AWS Glue Data Catalogin kautta ja tarjosi enemmän joustavuutta tiedon kuluttajille. Tämä johti nopeampaan tietojen saatavuuteen useissa palveluissa tai työkaluissa. Tietojen tallentaminen Amazon S3:een alensi myös tietovaraston infrastruktuurikustannuksia, koska kustannukset riippuvat laskentatyypistä ja tallennetun datan määrästä.

- Amazonin punainen siirto RA3-solmutyyppiä käytettiin laskentakerroksena, jotta sidosryhmät voivat tehdä kyselyjä Amazon S3:een tallennetuista tiedoista. Amazon Redshift RA3 -solmut erottavat tallennustilan ja laskennan, ja ne on suunniteltu AWS Glue Data Catalogin kautta käytettävälle käyttökuviolle. RA3-solmut esittelevät Amazon Redshift Managed Storagen, joka on Amazon S3:n tukema. Näiden ominaisuuksien yhdistelmä mahdollisti Amp:n oikean kokoisen klusterit ja paremman kyselyn suorituskyvyn asiakkailleen minimoimalla kustannukset.

Amazon Redshift -konfiguraatio automatisoitiin Lambda-funktiolla, joka liittyi tiettyyn klusteriin ja suoritti parametroidut SQL-käskyt. SQL-käskyt sisälsivät logiikan skeemojen, käyttäjäryhmien ja käyttäjien käyttöönottamiseksi AWS -salaisuuksien hallinta käytettiin Amazon Redshift -käyttäjien salasanojen automaattiseen luomiseen, tallentamiseen ja kiertämiseen. Taustalla olevat konfiguraatiomuuttujat tallennettiin Amazon DynamoDB. Lambda-toiminto haki muuttujat ja pyysi väliaikaisia Amazon Redshift -tunnistetietoja konfiguroinnin suorittamiseksi. Tämän prosessin ansiosta Amp-tiimi pystyi perustamaan Amazon Redshift -klustereita johdonmukaisella tavalla.

Liiketoiminnan tulokset

Amp onnistui saavuttamaan seuraavat liiketoimintatulokset:

Liiketoiminnan raportointi – Yrityksen suorittamiseen vaadittava vakioraportointi, kuten päivittäiset pikaraportit, kootut liiketoiminnan arviointimekanismit tai projekti- ja ohjelmapäivitykset.
Tuoteraportointi – Erityinen raportointi vaaditaan tärkeimpien tuotteiden KPI:iden ja mittareiden tarkastuksen tai mittaamisen mahdollistamiseksi. Tämä sisälsi visuaalisia raportteja hallintapaneelien kautta, kuten markkinoinnin edistämisen tehokkuutta, sovelluksen sitoutumismittareita ja trendiohjelmia.
ML-kokeilu – Amazonin loppupään tiimit voivat käyttää näitä tietoja kokeilujen tukemiseen tai ennusteiden ja suositusten luomiseen. Esimerkiksi ML-kokeilut, kuten henkilökohtainen esityssuositusluettelo, esitysten luokittelu ja sisällön moderointi, auttoivat Ampin käyttäjien säilyttämisessä.

Avainedut

Ottamalla käyttöön skaalautuvan, kustannustehokkaan arkkitehtuurin, Amp pystyi saavuttamaan seuraavat:

Rajoitettu toiminnallinen monimutkaisuus – He rakensivat joustavan järjestelmän, joka käytti AWS:n hallinnoimia palveluita aina kun mahdollista.
Käytä tiedon kieliä – Amp pystyi tukemaan kahta yleisintä tiedonkäsittelykieltä, Python ja SQL, suorittamaan alustatoimintoja, suorittamaan ML-kokeita ja luomaan analytiikkaa. Tämän tuen avulla Amp:n kehittäjät pystyivät käyttämään tuntemiaan kieliä.
Ota kokeilu ja mittaus käyttöön – Amp antoi kehittäjille mahdollisuuden luoda nopeasti tietojoukot, joita tarvitaan kokeiden suorittamiseen ja tulosten mittaamiseen. Tämä auttaa optimoimaan Amp-asiakaskokemusta.
Rakenna oppimaan, mutta suunnittele mittakaavassa – Amp on uusi tuote, joka on löytämässä markkinoidensa sopivaksi ja pystyi keskittämään alkuvoimansa rakentamaan juuri tarpeeksi ominaisuuksia saadakseen palautetta. Tämä antoi heille mahdollisuuden kääntyä kohti oikeaa tuotemarkkinasovitusta jokaisen lanseerauksen yhteydessä. He pystyivät rakentamaan asteittain, mutta suunnittelemaan pitkällä aikavälillä.

Yhteenveto

Tässä viestissä näimme, kuinka Amp loi data-analytiikka-alustan käyttämällä käyttäjien käyttäytymistietoja suoratoisto- ja erätietolähteistä. Tärkeimmät käyttöönottoon johtaneet tekijät olivat tarve tarjota joustava, skaalautuva, kustannustehokas ja tehokas data-analytiikka-alusta. Suunnitteluvalinnat tehtiin arvioimalla erilaisia AWS-palveluita.

Osa 2 Tämä sarja näyttää, kuinka käytimme näitä tietoja ja loimme henkilökohtaisen esityssuositusluettelon SageMakerin avulla.

Seuraavina vaiheina suosittelemme perehtymään syvällisesti tietoputkijärjestelmän jokaiseen vaiheeseen ja tekemään suunnitteluvalintoja, jotka olisivat kustannustehokkaita ja skaalautuvia tarpeisiisi. Lisätietoja saat myös tutustumalla muihin asiakaskäyttötapauksiin osoitteessa AWS Analytics -blogi.

Jos sinulla on palautetta tästä postauksesta, lähetä se kommenttiosiossa.

Tietoja kirjoittajista

Tulppaani Gupta on ratkaisuarkkitehti Amazon Web Servicesissä. Hän työskentelee Amazonin kanssa suunnitella, rakentaa ja ottaa käyttöön teknologiaratkaisuja AWS:ssä. Hän auttaa asiakkaita ottamaan käyttöön parhaita käytäntöjä, kun hän ottaa ratkaisun käyttöön AWS:ssä, ja on analytiikka- ja ML-harrastaja. Vapaa-ajallaan hän harrastaa uintia, patikointia ja lautapelejä.

David Kuo on ratkaisuarkkitehti Amazon Web Servicesissä. Hän työskentelee AWS-asiakkaiden kanssa suunnitella, rakentaa ja ottaa käyttöön teknologiaratkaisuja AWS:ssä. Hän työskentelee Media- ja Entertainment-asiakkaiden kanssa ja on kiinnostunut koneoppimistekniikoista. Vapaa-ajallaan hän miettii, mitä hänen pitäisi tehdä vapaa-ajallaan.

Manolya McCormick on Sr-ohjelmistokehitysinsinööri Ampille Amazonissa. Hän suunnittelee ja rakentaa hajautettuja järjestelmiä AWS:n avulla palvellakseen asiakkaiden sovelluksia. Hän lukee ja valmistaa mielellään uusia reseptejä vapaa-ajallaan.

Jeff Christophersen on vanhempi tietoinsinööri Ampille Amazonissa. Hän suunnittelee, rakentaa ja ottaa käyttöön Big Data -ratkaisuja AWS:ssä, jotka tuovat käyttökelpoisia oivalluksia. Hän avustaa sisäisiä tiimejä skaalautuvien ja automatisoitujen ratkaisujen käyttöönotossa ja on analytiikka- ja Big Data -harrastaja. Vapaa-ajallaan, kun hän ei ole suksilla, löydät hänet maastopyörästään.

Aikaleima: Syyskuu 9, 2022Syyskuu 11, 2022

Aikaleima: Huhtikuu 17, 2023

Miten Amp on Amazon käytti dataa lisätäkseen asiakkaiden sitoutumista, Osa 1: Data-analytiikkaalustan rakentaminen

Julkaissut Platon

Ratkaisun yleiskatsaus

Tietojen suoratoisto, käsittely, muuntaminen ja tallennus

Erätietojen käsittely, käsittely, muuntaminen ja tallennus

Liiketoimintatieto ja analytiikka

Liiketoiminnan tulokset

Avainedut

Yhteenveto

Tietoja kirjoittajista

Lisää aiheesta AWS-koneoppiminen

Luo koneoppimisvalmiita tietojoukkoja Amazon SageMaker offline Feature Storesta käyttämällä Amazon SageMaker Python SDK:ta | Amazon Web Services

Ota käyttöön MLOps-ratkaisu, joka isännöi mallisi päätepisteitä AWS Lambdassa

Henkilökohtaisten tunnistetietojen muokkaaminen The Very Groupissa Amazon Comprehendin avulla

Aloita onnistunut matkasi aikasarjaennusteilla Amazon Forecastin avulla

Tietoa meistä

Pystysuuntainen haku ja Ai

foorumi

Pysy yhteydessä

Tili