Mange applikasjoner ment for vedlikehold av industrielt utstyr, handelsovervåking, flåtestyring og ruteoptimalisering er bygd ved å bruke åpen kildekode Cassandra APIer og drivere for å behandle data med høye hastigheter og lav ventetid. Å administrere Cassandra-bord selv kan være tidkrevende og dyrt. Amazon Keyspaces (for Apache Cassandra) lar deg sette opp, sikre og skalere Cassandra-tabeller i AWS Cloud uten å administrere ekstra infrastruktur.
I dette innlegget vil vi lede deg gjennom AWS-tjenester relatert til treningsmodeller for maskinlæring (ML) ved bruk av Amazon Keyspaces på et høyt nivå, og gi trinnvise instruksjoner for inntak av data fra Amazon Keyspaces i Amazon SageMaker og opplæring av en modell som kan brukes for et spesifikt kundesegmenteringsbruk.
AWS har flere tjenester for å hjelpe bedrifter med å implementere ML-prosesser i skyen.
AWS ML Stack har tre lag. I det midterste laget er SageMaker, som gir utviklere, dataforskere og ML-ingeniører muligheten til å bygge, trene og distribuere ML-modeller i stor skala. Det fjerner kompleksiteten fra hvert trinn i ML-arbeidsflyten, slik at du lettere kan distribuere ML-brukstilfellene dine. Dette inkluderer alt fra prediktivt vedlikehold til datasyn for å forutsi kundeatferd. Kunder oppnår opptil 10 ganger forbedring i dataforskeres produktivitet med SageMaker.
Apache Cassandra er et populært valg for lesetunge brukstilfeller med ustrukturerte eller semistrukturerte data. For eksempel anslår en populær matleveringsvirksomhet leveringstiden, og en detaljkunde kan fortsette å bruke produktkataloginformasjon i Apache Cassandra-databasen. Amazon nøkkelrom er en skalerbar, svært tilgjengelig og administrert serverløs Apache Cassandra-kompatibel databasetjeneste. Du trenger ikke klargjøre, lappe eller administrere servere, og du trenger ikke installere, vedlikeholde eller betjene programvare. Tabeller kan skaleres opp og ned automatisk, og du betaler kun for ressursene du bruker. Amazon Keyspaces lar deg kjøre Cassandra-arbeidsbelastningene dine på AWS ved å bruke den samme Cassandra-applikasjonskoden og utviklerverktøyene du bruker i dag.
SageMaker tilbyr en pakke med innebygde algoritmer for å hjelpe dataforskere og ML-utøvere raskt i gang med opplæring og distribusjon av ML-modeller. I dette innlegget viser vi deg hvordan en detaljkunde kan bruke kundekjøpshistorikk i Keyspaces-databasen og målrette mot ulike kundesegmenter for markedsføringskampanjer.
K-anordning er en uovervåket læringsalgoritme. Den prøver å finne diskrete grupperinger innenfor data, der medlemmer av en gruppe er så like hverandre som mulig og så forskjellige som mulig fra medlemmer av andre grupper. Du definerer attributtene du vil at algoritmen skal bruke for å bestemme likhet. SageMaker bruker en modifisert versjon av nettskala k-betyr klyngealgoritme. Sammenlignet med den originale versjonen av algoritmen, er versjonen brukt av SageMaker mer nøyaktig. I likhet med den originale algoritmen skalerer den imidlertid til massive datasett og leverer forbedringer i treningstid.
Løsningsoversikt
Instruksjonene forutsetter at du vil bruke SageMaker Studio til å kjøre koden. Den tilknyttede koden har blitt delt på AWS-eksempel på GitHub. Ved å følge instruksjonene i laboratoriet kan du gjøre følgende:
- Installer nødvendige avhengigheter.
- Koble til Amazon Keyspaces, lag en tabell og legg inn eksempeldata.
- Bygg en ML-klassifiseringsmodell ved å bruke dataene i Amazon Keyspaces.
- Utforsk modellresultater.
- Rydd opp i nyopprettede ressurser.
Når du er ferdig, vil du ha integrert SageMaker med Amazon Keyspaces for å trene ML-modeller som vist i bildet nedenfor.
Nå kan du følge trinnvise instruksjoner i dette innlegget for å innta rådata som er lagret i Amazon Keyspaces ved å bruke SageMaker og dataene som dermed hentes for ML-behandling.
Forutsetninger
Først, naviger til SageMaker.
Deretter, hvis dette er første gang du bruker SageMaker, velger du Kom i gang.
Deretter velger du Konfigurer SageMaker Domain.
Deretter oppretter du en ny brukerprofil med Navn – sagemakerbruker, og velg Opprett ny rolle i Standard utførelsesrolle underseksjon.
Deretter velger du en hvilken som helst på skjermen som dukker opp Amazon Simple Storage Service (Amazon S3) bøtte, og velg Opprett rolle.
Denne rollen vil bli brukt i de følgende trinnene for å tillate SageMaker å få tilgang til Keyspaces Table ved å bruke midlertidig legitimasjon fra rollen. Dette eliminerer behovet for å lagre brukernavn og passord i den bærbare datamaskinen.
Deretter henter du rollen som er knyttet til sagemakerbruker som ble opprettet i forrige trinn fra sammendragsdelen.
Deretter navigerer du til AWS-konsoll og se opp AWS Identity and Access Management (IAM). Naviger til Roller i IAM. I Roller, søk etter utførelsesrollen identifisert i forrige trinn.
Deretter velger du rollen identifisert i forrige trinn og velger Legg til tillatelser. Velg Opprett innebygd policy i rullegardinmenyen som vises. SageMaker lar deg gi et detaljert tilgangsnivå som begrenser hvilke handlinger en bruker/applikasjon kan utføre basert på forretningskrav.
Deretter velger du JSON-fanen og kopierer policyen fra Note-delen av Github side. Denne policyen lar SageMaker-notisboken koble til Keyspaces og hente data for videre behandling.
Velg deretter Legg til tillatelser igjen og fra rullegardinmenyen, og velg Legg ved policy.
Slå opp AmazonKeyspacesFullAccess-policy, og merk av i avmerkingsboksen ved siden av det samsvarende resultatet, og velg Legg ved retningslinjer.
Bekreft at tillatelsespolicydelen inkluderer AmazonS3FullAccess
, AmazonSageMakerFullAccess
, AmazonKeyspacesFullAccess
, samt den nylig lagt til innebygde policyen.
Deretter går du til SageMaker Studio ved å bruke AWS-konsollen og velger SageMaker Studio. Når du er der, velg Start app og velg Studio.
Notebook gjennomgang
Den foretrukne måten å koble til Keyspaces fra SageMaker Notebook er ved å bruke AWS Signature versjon 4-prosess (SigV4) basert Midlertidig legitimasjon for autentisering. I dette scenariet trenger vi IKKE å generere eller lagre Keyspaces-legitimasjon og kan bruke legitimasjonen til å autentisere med SigV4-plugin. Midlertidig sikkerhetslegitimasjon består av en tilgangsnøkkel-ID og en hemmelig tilgangsnøkkel. Imidlertid inkluderer de også et sikkerhetstoken som indikerer når legitimasjonen utløper. I dette innlegget oppretter vi en IAM-rolle og genererer midlertidig sikkerhetslegitimasjon.
Først installerer vi en driver (cassandra-sigv4). Denne driveren lar deg legge til autentiseringsinformasjon til API-forespørslene dine ved å bruke AWS Signature Versjon 4-prosessen (SigV4). Ved å bruke pluginet kan du gi brukere og applikasjoner kortsiktig legitimasjon for å få tilgang til Amazon Keyspaces (for Apache Cassandra) ved å bruke IAM-brukere og roller. Etter dette vil du importere et nødvendig sertifikat sammen med ytterligere pakkeavhengigheter. Til slutt vil du tillate at notatboken påtar seg rollen som å snakke med Keyspaces.
Koble deretter til Amazon Keyspaces og les systemdata fra Keyspaces inn i Pandas DataFrame for å validere tilkoblingen.
Deretter forbereder du dataene for trening på rådatasettet. I python-notisboken knyttet til dette innlegget, bruk et detaljdatasett som er lastet ned fra her., og behandle den. Vårt forretningsmål gitt datasettet er å gruppere kundene ved å bruke en spesifikk metrisk samtale RFM. RFM-modellen er basert på tre kvantitative faktorer:
- Nylig: Hvor nylig en kunde har foretatt et kjøp.
- Frekvens: Hvor ofte en kunde foretar et kjøp.
- Pengeverdi: Hvor mye penger en kunde bruker på kjøp.
RFM-analyse rangerer en kunde numerisk i hver av disse tre kategoriene, vanligvis på en skala fra 1 til 5 (jo høyere tall, jo bedre resultat). Den "beste" kunden vil få en toppscore i hver kategori. Vi bruker pandas' Quantile-baserte diskretiseringsfunksjon (qcut). Det vil hjelpe å diskretisere verdier i like store bøtter basert på eller basert på prøvekvantiler.
I dette eksemplet bruker vi CQL til å lese poster fra Keyspace-tabellen. I noen ML-brukstilfeller må du kanskje lese de samme dataene fra den samme Keyspaces-tabellen flere ganger. I dette tilfellet vil vi anbefale at du lagrer dataene dine i en Amazon S3-bøtte for å unngå ekstra kostnader kostes lesing fra Amazon Keyspaces. Avhengig av scenarioet ditt, kan du også bruke Amazon EMR til innta en veldig stor Amazon S3-fil til SageMaker.
Deretter trener vi en ML-modell ved å bruke KMeans-algoritmen og sørger for at klyngene er opprettet. I dette spesielle scenariet vil du se at de opprettede klyngene skrives ut, noe som viser at kundene i rådatasettet er gruppert sammen basert på ulike attributter i datasettet. Denne klyngeinformasjonen kan brukes til målrettede markedsføringskampanjer.
(Valgfritt) Deretter lagrer vi kundesegmentene som er identifisert av ML-modellen, tilbake til en Amazon Keyspaces-tabell for målrettet markedsføring. En batch-jobb kan lese disse dataene og kjøre målrettede kampanjer til kunder i bestemte segmenter.
Til slutt, vi rydde opp i ressursene opprettet under denne opplæringen for å unngå ekstra kostnader.
Det kan ta noen sekunder til et minutt å fullføre slettingen av tastområde og tabeller. Når du sletter et tastefelt, slettes tasterommet og alle dets tabeller, og du slutter å påløpe kostnader fra dem.
konklusjonen
Dette innlegget viste deg hvordan du kan ta inn kundedata fra Amazon Keyspaces til SageMaker og trene en klyngemodell som tillot deg å segmentere kunder. Du kan bruke denne informasjonen til målrettet markedsføring, og dermed forbedre bedriftens KPI betraktelig. For å lære mer om Amazon Keyspaces, se gjennom følgende ressurser:
- Tren maskinlæringsmodeller ved å bruke Amazon Keyspaces som datakilde (SageMaker Notebook)
- Koble til Amazon Keyspaces fra skrivebordet ditt ved hjelp av IntelliJ, PyCharm eller DataGrip IDEer
- CQL Language Reference for Amazon Keyspaces (for Apache Cassandra)
- Hvordan sette opp kommandolinjetilgang til Amazon Keyspaces (for Apache Cassandra) ved å bruke det nye utviklerverktøysettet Docker image
- Identitets- og tilgangsadministrasjon for Amazon Keyspaces (for Apache Cassandra)
- Koble til Amazon Keyspaces fra SageMaker med tjenestespesifikk legitimasjon
- Nyhet, frekvens, pengeverdi (RFM)
- Kaggle-kodereferanse
Om forfatterne
Vadim Lyakhovich er Senior Solutions Architect hos AWS i San Francisco Bay Area som hjelper kunder med å migrere til AWS. Han jobber med organisasjoner som spenner fra store bedrifter til små startups for å støtte deres innovasjoner. Han hjelper også kunder med å bygge skalerbare, sikre og kostnadseffektive løsninger på AWS.
Parth Patel er en løsningsarkitekt ved AWS i San Francisco Bay Area. Parth veileder kundene til å akselerere reisen til skyen og hjelpe dem å ta i bruk AWS-skyen med suksess. Han fokuserer på ML og applikasjonsmodernisering.
Ram Pathangi er en løsningsarkitekt ved AWS i San Francisco Bay Area. Han har hjulpet kunder innen landbruk, forsikring, bank, detaljhandel, helsevesen og biovitenskap, gjestfrihet og høyteknologi med å drive virksomheten sin med suksess på AWS-skyen. Han har spesialisert seg på databaser, analyse og ML.
- Myntsmart. Europas beste Bitcoin og Crypto Exchange.
- Platoblokkkjede. Web3 Metaverse Intelligence. Kunnskap forsterket. FRI TILGANG.
- CryptoHawk. Altcoin Radar. Gratis prøveperiode.
- Kilde: https://aws.amazon.com/blogs/machine-learning/train-machine-learning-models-using-amazon-keyspaces-as-a-data-source/
- '
- "
- &
- 10
- 100
- 9
- evne
- Om oss
- akselerere
- adgang
- nøyaktig
- Oppnå
- handlinger
- Ytterligere
- landbruk
- fremover
- algoritme
- Alle
- Amazon
- analyse
- analytics
- En annen
- api
- APIer
- app
- Søknad
- søknader
- AREA
- oppmerksomhet
- attributter
- Autentisering
- automatisk
- tilgjengelig
- AWS
- Banking
- bukt
- Blogg
- grensen
- bygge
- virksomhet
- bedrifter
- ring
- Kampanjer
- hvilken
- saker
- Kategori
- sertifikat
- avgifter
- valg
- klassifisering
- Cloud
- kode
- sammenlignet
- datamaskin
- Koble
- tilkobling
- Konsoll
- kostnadseffektiv
- kunne
- land
- skape
- opprettet
- Credentials
- kunde
- Kunder
- dato
- datasett
- Database
- databaser
- leverer
- levering
- avhengig
- utplassere
- utplasserings
- desktop
- Bestem
- Utvikler
- utviklere
- forskjellig
- Docker
- ned
- sjåfør
- Drop
- under
- lett
- Ingeniører
- bedrifter
- utstyr
- estimater
- eksempel
- gjennomføring
- faktorer
- Først
- første gang
- FLÅTE
- fokuserer
- følge
- etter
- mat
- Francisco
- funksjon
- videre
- generelt
- generere
- få
- GitHub
- sterkt
- Gruppe
- Gruppens
- Guider
- Helse
- Health Care
- hjelpe
- hjelpe
- Høy
- høyere
- svært
- historie
- Hvordan
- Hvordan
- Men
- HTTPS
- Identitet
- bilde
- iverksette
- forbedring
- bedre
- inkludere
- inkluderer
- indeks
- industriell
- informasjon
- Infrastruktur
- innovasjoner
- installere
- forsikring
- integrert
- IT
- Jobb
- reise
- nøkkel
- lab
- Språk
- stor
- lansere
- lag
- LÆRE
- læring
- Nivå
- Life Sciences
- Se
- lojal
- maskin
- maskinlæring
- laget
- vedlikeholde
- GJØR AT
- administrer
- fikk til
- ledelse
- administrerende
- Marketing
- massive
- matchende
- medlemmer
- ML
- modell
- modeller
- Monetære
- penger
- overvåking
- mer
- mest
- flere
- nødvendig
- bærbare
- Antall
- betjene
- optimalisering
- organisasjoner
- Annen
- pakke
- Spesielt
- Passord
- patch
- Betale
- plugg inn
- Politikk
- politikk
- Populær
- mulig
- potensiell
- forutsi
- Forbered
- forrige
- pris
- primære
- prosess
- Prosesser
- prosessering
- Produkt
- produktivitet
- Profil
- lovende
- gi
- gir
- Kjøp
- kjøp
- kvantitativ
- raskt
- spenner
- Raw
- Lesning
- motta
- nylig
- anbefaler
- poster
- forespørsler
- påkrevd
- Krav
- Ressurser
- Resultater
- detaljhandel
- anmeldelse
- Risiko
- Rolle
- Rute
- Kjør
- San
- San Fransisco
- SC
- skalerbar
- Skala
- VITENSKAPER
- forskere
- Skjerm
- Søk
- sekunder
- sikre
- sikkerhet
- sikkerhetstegn
- segmentet
- segmentering
- segmenter
- server~~POS=TRUNC
- tjeneste
- Tjenester
- sett
- delt
- kortsiktig
- vist
- lignende
- Enkelt
- sove
- liten
- So
- Software
- solid
- Solutions
- noen
- spesialisert
- stable
- startet
- startups
- lagring
- oppbevare
- studio
- vellykket
- støtte
- system
- Systemer
- Snakk
- Target
- målrettet
- midlertidig
- De
- Gjennom
- tid
- ganger
- i dag
- sammen
- token
- verktøykasse
- verktøy
- topp
- handel
- Kurs
- bruke
- bruk-tilfeller
- Brukere
- verdi
- ulike
- versjon
- vertikaler
- syn
- Hva
- innenfor
- uten
- arbeid
- ville
- Din