Multe aplicații menite pentru întreținerea echipamentelor industriale, monitorizarea comerțului, managementul flotei și optimizarea rutelor sunt construite folosind API-uri și drivere Cassandra open-source pentru a procesa date la viteze mari și latență scăzută. Gestionarea personală a meselor Cassandra poate fi consumatoare de timp și costisitoare. Spații cheie Amazon (pentru Apache Cassandra) vă permite să configurați, să securizați și să scalați tabelele Cassandra în AWS Cloud fără a gestiona infrastructura suplimentară.
În această postare, vă vom prezenta serviciile AWS legate de formarea modelelor de învățare automată (ML) folosind Amazon Keyspaces la un nivel înalt și vă vom oferi instrucțiuni pas cu pas pentru ingerarea datelor din Amazon Keyspaces în Amazon SageMaker și instruirea unui model care poate fi utilizat pentru un caz de utilizare specific pentru segmentarea clienților.
AWS are mai multe servicii pentru a ajuta companiile să implementeze procesele ML în cloud.
AWS ML Stack are trei straturi. În stratul mijlociu este SageMaker, care oferă dezvoltatorilor, cercetătorilor de date și inginerilor ML capacitatea de a construi, antrena și implementa modele ML la scară. Îndepărtează complexitatea de la fiecare pas al fluxului de lucru ML, astfel încât să puteți implementa mai ușor cazurile de utilizare ML. Aceasta include orice, de la întreținerea predictivă la viziunea computerizată pentru a prezice comportamentele clienților. Clienții obțin o îmbunătățire de până la 10 ori a productivității cercetătorilor de date cu SageMaker.
Apache Cassandra este o alegere populară pentru cazurile de utilizare cu citire grea cu date nestructurate sau semi-structurate. De exemplu, o afacere populară de livrare a alimentelor estimează timpul de livrare, iar un client cu amănuntul ar putea persista în utilizarea frecventă a informațiilor din catalogul de produse din baza de date Apache Cassandra. Spații cheie Amazon este un serviciu de baze de date Apache Cassandra, scalabil, disponibil și gestionat fără server. Nu trebuie să furnizați, corecționați sau gestionați servere și nu trebuie să instalați, să întrețineți sau să operați software. Tabelele se pot scala automat în sus și în jos, iar tu plătești doar pentru resursele pe care le folosești. Amazon Keyspaces vă permite să vă rulați sarcinile de lucru Cassandra pe AWS utilizând același cod de aplicație Cassandra și instrumente de dezvoltare pe care le utilizați astăzi.
SageMaker oferă o suită de algoritmi încorporați pentru a ajuta oamenii de știință de date și practicienii ML să înceapă să se antreneze și să implementeze rapid modele ML. În această postare, vă vom arăta cum un client de vânzare cu amănuntul poate folosi istoricul cumpărăturilor clienților în baza de date Keyspaces și poate viza diferite segmente de clienți pentru campanii de marketing.
K-mijloace este un algoritm de învățare nesupravegheat. Încearcă să găsească grupări discrete în cadrul datelor, în care membrii unui grup sunt cât mai asemănători între ei și cât mai diferiți de membrii altor grupuri. Definiți atributele pe care doriți să le folosească algoritmul pentru a determina similaritatea. SageMaker folosește o versiune modificată a algoritm de grupare k-means la scară web. În comparație cu versiunea originală a algoritmului, versiunea folosită de SageMaker este mai precisă. Cu toate acestea, la fel ca algoritmul original, se scalează la seturi de date masive și oferă îmbunătățiri în timpul de antrenament.
Prezentare generală a soluțiilor
Instrucțiunile presupun că veți folosi SageMaker Studio pentru a rula codul. Codul asociat a fost distribuit pe Exemplu AWS GitHub. Urmând instrucțiunile din laborator, puteți face următoarele:
- Instalați dependențele necesare.
- Conectați-vă la Amazon Keyspaces, creați un tabel și ingerați date mostre.
- Creați un model ML de clasificare folosind datele din Amazon Keyspaces.
- Explorați rezultatele modelului.
- Curățați resursele nou create.
Odată finalizat, veți avea integrat SageMaker cu Amazon Keyspaces pentru a antrena modele ML, așa cum se arată în imaginea următoare.
Acum puteți urmări instrucțiuni pas cu pas în această postare pentru a ingera datele brute stocate în Amazon Keyspaces folosind SageMaker și datele astfel extrase pentru procesarea ML.
Cerințe preliminare
Mai întâi, navigați la SageMaker.
Apoi, dacă este prima dată când utilizați SageMaker, selectați Să începem!.
Apoi, selectați Configurați domeniul SageMaker.
Apoi, creați un nou profil de utilizator cu Nume - sagemakeruserȘi selectați Creați un rol nou în Rol de execuție implicit subsecțiune.
Apoi, în ecranul care apare, selectați oricare Serviciul Amazon de stocare simplă (Amazon S3) găleată și selectați Creare rol.
Acest rol va fi utilizat în următorii pași pentru a permite SageMaker să acceseze Keyspaces Table folosind acreditările temporare ale rolului. Acest lucru elimină necesitatea de a stoca un nume de utilizator și o parolă în notebook.
Apoi, recuperați rolul asociat cu sagemakeruser care a fost creat în pasul anterior din secțiunea rezumat.
Apoi, navigați la Consola AWS și uită-te în sus AWS Identity and Access Management (IAM). În IAM, navigați la Roluri. În Roluri, căutați rolul de execuție identificat la pasul anterior.
Apoi, selectați rolul identificat la pasul anterior și selectați Adăugați permisiuni. În meniul derulant care apare, selectați Creare politică integrată. SageMaker vă permite să oferiți un nivel granular de acces care limitează acțiunile pe care un utilizator/aplicație poate efectua în funcție de cerințele de afaceri.
Apoi, selectați fila JSON și copiați politica din secțiunea Note a Github pagină. Această politică permite notebook-ului SageMaker să se conecteze la Keyspaces și să preia date pentru procesare ulterioară.
Apoi, selectați din nou Adăugați permisiuni și din meniul drop-down și selectați Atașați politica.
Căutați politica AmazonKeyspacesFullAccess și bifați caseta de selectare de lângă rezultatul potrivit și selectați Atașați politici.
Verificați dacă secțiunea privind politicile de permisiuni include AmazonS3FullAccess
, AmazonSageMakerFullAccess
, AmazonKeyspacesFullAccess
, precum și noua politică integrată adăugată.
Apoi, navigați la SageMaker Studio folosind Consola AWS și selectați SageMaker Studio. Odată ajuns acolo, selectați Lansare aplicație și selectați Studio.
Rezumat pentru caiet
Modul preferat de a vă conecta la Keyspaces din SageMaker Notebook este utilizarea Procesul AWS Signature versiunea 4 (SigV4) bazat Acreditări temporare pentru autentificare. În acest scenariu, NU trebuie să generăm sau să stocăm acreditările Keyspaces și putem folosi acreditările pentru a ne autentifica cu pluginul SigV4. Acreditările temporare de securitate constau dintr-un ID de cheie de acces și o cheie de acces secretă. Cu toate acestea, acestea includ și un simbol de securitate care indică momentul expirării acreditărilor. În această postare, vom crea un rol IAM și vom genera acreditări temporare de securitate.
Mai întâi, instalăm un driver (cassandra-sigv4). Acest driver vă permite să adăugați informații de autentificare la solicitările dvs. API utilizând Procesul AWS Signature Version 4 (SigV4). Folosind pluginul, puteți oferi utilizatorilor și aplicațiilor acreditări pe termen scurt pentru a accesa Amazon Keyspaces (pentru Apache Cassandra) folosind utilizatori și roluri IAM. După aceasta, veți importa un certificat necesar împreună cu dependențe suplimentare de pachet. În cele din urmă, vei permite notebook-ului să-și asume rolul de a vorbi cu Keyspaces.
Apoi, conectați-vă la Amazon Keyspaces și citiți datele sistemelor din Keyspaces în Pandas DataFrame pentru a valida conexiunea.
Apoi, pregătiți datele pentru antrenament pe setul de date brute. În blocnotesul python asociat cu această postare, utilizați un set de date de vânzare cu amănuntul descărcat de la aiciși procesează-l. Obiectivul nostru de afaceri, având în vedere setul de date, este de a grupa clienții folosind un apel RFM specific. Modelul RFM se bazează pe trei factori cantitativi:
- Recent: cât de recent un client a făcut o achiziție.
- Frecvență: cât de des face un client o achiziție.
- Valoare monetară: Câți bani cheltuiește un client pe achiziții.
Analiza RFM clasifică numeric un client în fiecare dintre aceste trei categorii, în general pe o scară de la 1 la 5 (cu cât numărul este mai mare, cu atât rezultatul este mai bun). „Cel mai bun” client ar primi un punctaj maxim în fiecare categorie. Vom folosi funcția de discretizare bazată pe Quantile (qcut) a lui Pandas. Va ajuta la discretizarea valorilor în găleți de dimensiuni egale, pe baza sau pe baza cuantilelor eșantionului.
În acest exemplu, folosim CQL pentru a citi înregistrările din tabelul Keyspace. În unele cazuri de utilizare ML, poate fi necesar să citiți de mai multe ori aceleași date din același tabel Keyspaces. În acest caz, vă recomandăm să vă salvați datele într-o găleată Amazon S3 pentru a evita suportarea suplimentară costaCitește din Amazon Keyspaces. În funcție de scenariul dvs., puteți utiliza și Amazon EMR la ingera un fișier Amazon S3 foarte mare în SageMaker.
Apoi, antrenăm un model ML folosind algoritmul KMeans și ne asigurăm că clusterele sunt create. În acest scenariu particular, veți vedea că clusterele create sunt tipărite, arătând că clienții din setul de date brute au fost grupați pe baza diferitelor atribute din setul de date. Aceste informații despre cluster pot fi utilizate pentru campanii de marketing direcționate.
(Opțional) În continuare, salvăm segmentele de clienți care au fost identificate de modelul ML înapoi într-un tabel Amazon Keyspaces pentru marketing direcționat. O lucrare în lot ar putea citi aceste date și poate rula campanii direcționate către clienți din anumite segmente.
În cele din urmă, noi curata resursele creat în timpul acestui tutorial pentru a evita costurile suplimentare.
Poate dura câteva secunde până la un minut pentru a finaliza ștergerea spațiului de taste și a tabelelor. Când ștergeți un spațiu de taste, spațiul de taste și toate tabelele sale sunt șterse și nu mai acumulați taxe de la acestea.
Concluzie
Această postare v-a arătat cum să ingerați datele clienților din Amazon Keyspaces în SageMaker și să antrenați un model de grupare care v-a permis să segmentați clienții. Puteți utiliza aceste informații pentru marketing direcționat, îmbunătățind astfel foarte mult KPI-ul afacerii dvs. Pentru a afla mai multe despre Amazon Keyspaces, consultați următoarele resurse:
- Antrenați modele de învățare automată folosind Amazon Keyspaces ca sursă de date (SageMaker Notebook)
- Conectați-vă la Amazon Keyspaces de pe desktop utilizând IDE-uri IntelliJ, PyCharm sau DataGrip
- Referință pentru limbajul CQL pentru Amazon Keyspaces (pentru Apache Cassandra)
- Cum să configurați accesul la linia de comandă la Amazon Keyspaces (pentru Apache Cassandra) utilizând noul set de instrumente pentru dezvoltatori imaginea Docker
- Gestionarea identității și a accesului pentru Amazon Keyspaces (pentru Apache Cassandra)
- Conectarea la Amazon Keyspaces de la SageMaker cu acreditările specifice serviciului
- Recent, Frecvency, Monetary Value (RFM)
- Referința codului Kaggle
Despre Autori
Vadim Lahovici este arhitect senior de soluții la AWS din San Francisco Bay Area, ajutând clienții să migreze la AWS. El lucrează cu organizații, de la întreprinderi mari până la startup-uri mici, pentru a le susține inovațiile. De asemenea, ajută clienții să proiecteze soluții scalabile, sigure și rentabile pe AWS.
Parth Patel este arhitect de soluții la AWS în zona golfului San Francisco. Parth îi îndrumă pe clienți să-și accelereze călătoria către cloud și să-i ajute să adopte cloud AWS cu succes. El se concentrează pe ML și modernizarea aplicațiilor.
Ram Patangi este arhitect de soluții la AWS în zona golfului San Francisco. El a ajutat clienții din sectoarele agricultură, asigurări, servicii bancare, comerț cu amănuntul, îngrijire a sănătății și științe ale vieții, ospitalitate și hi-Tech să își desfășoare afacerea cu succes pe cloud AWS. Este specializat în Baze de date, Analytics și ML.
- Coinsmart. Cel mai bun schimb de Bitcoin și Crypto din Europa.
- Platoblockchain. Web3 Metaverse Intelligence. Cunoștințe amplificate. ACCES LIBER.
- CryptoHawk. Radar Altcoin. Încercare gratuită.
- Sursa: https://aws.amazon.com/blogs/machine-learning/train-machine-learning-models-using-amazon-keyspaces-as-a-data-source/
- '
- "
- &
- 10
- 100
- 9
- capacitate
- Despre Noi
- accelera
- acces
- precis
- Obține
- acțiuni
- Suplimentar
- agricultură
- înainte
- Algoritmul
- TOATE
- Amazon
- analiză
- Google Analytics
- O alta
- api
- API-uri
- aplicaţia
- aplicație
- aplicatii
- ZONĂ
- atenţie
- atribute
- Autentificare
- în mod automat
- disponibil
- AWS
- Bancar
- Golf
- Blog
- frontieră
- construi
- afaceri
- întreprinderi
- apel
- Campanii
- pasă
- cazuri
- Categorii
- certificat
- taxe
- alegere
- clasificare
- Cloud
- cod
- comparație
- calculator
- Conectați
- conexiune
- Consoleze
- cost-eficiente
- ar putea
- ţară
- crea
- a creat
- scrisori de acreditare
- client
- clienţii care
- de date
- set de date
- Baza de date
- baze de date
- Oferă
- livrare
- În funcție
- implementa
- Implementarea
- desktop
- Determina
- Dezvoltator
- Dezvoltatorii
- diferit
- Docher
- jos
- şofer
- Picătură
- în timpul
- cu ușurință
- inginerii
- Companii
- echipament
- estimări
- exemplu
- execuție
- factori
- First
- prima dată
- FLOTA
- se concentrează
- urma
- următor
- alimente
- Francisco
- funcţie
- mai mult
- în general
- genera
- obtinerea
- GitHub
- foarte mult
- grup
- Grupului
- Ghiduri
- Sănătate
- Sănătate
- ajutor
- ajutor
- Înalt
- superior
- extrem de
- istorie
- Cum
- Cum Pentru a
- Totuși
- HTTPS
- Identitate
- imagine
- punerea în aplicare a
- îmbunătățire
- îmbunătățirea
- include
- include
- index
- industrial
- informații
- Infrastructură
- inovații
- instala
- asigurare
- integrate
- IT
- Loc de munca
- călătorie
- Cheie
- de laborator
- limbă
- mare
- lansa
- strat
- AFLAȚI
- învăţare
- Nivel
- Life Sciences
- Uite
- loial
- maşină
- masina de învățare
- făcut
- menține
- FACE
- administra
- gestionate
- administrare
- de conducere
- Marketing
- masiv
- potrivire
- Membri actuali
- ML
- model
- Modele
- Monetar
- bani
- Monitorizarea
- mai mult
- cele mai multe
- multiplu
- necesar
- caiet
- număr
- funcionar
- optimizare
- organizații
- Altele
- pachet
- special
- Parolă
- Plasture
- Plătește
- conecteaza
- Politicile
- Politica
- Popular
- posibil
- potenţial
- prezice
- Pregăti
- precedent
- preţ
- primar
- proces
- procese
- prelucrare
- Produs
- productivitate
- Profil
- promițător
- furniza
- furnizează
- cumpărare
- achiziții
- cantitativ
- repede
- variind
- Crud
- Citind
- a primi
- recent
- recomanda
- înregistrări
- cereri de
- necesar
- Cerinţe
- Resurse
- REZULTATE
- cu amănuntul
- revizuiască
- Risc
- Rol
- Traseul
- Alerga
- San
- San Francisco
- SC
- scalabil
- Scară
- ȘTIINȚE
- oamenii de stiinta
- Ecran
- Caută
- secunde
- sigur
- securitate
- token de securitate
- segment
- segmentarea
- segmente
- serverless
- serviciu
- Servicii
- set
- comun
- Pe termen scurt
- indicat
- asemănător
- simplu
- dormi
- mic
- So
- Software
- solid
- soluţii
- unele
- specializată
- stivui
- început
- Startup-urile
- depozitare
- stoca
- studio
- Reușit
- a sustine
- sistem
- sisteme
- Vorbi
- Ţintă
- vizate
- temporar
- Prin
- timp
- ori
- astăzi
- împreună
- semn
- Toolkit
- Unelte
- top
- comerţului
- Pregătire
- utilizare
- utilizare-cazuri
- utilizatorii
- valoare
- diverse
- versiune
- verticalele
- viziune
- Ce
- în
- fără
- de lucru
- ar
- Ta