Configurați o locație personalizată de ieșire a interogării Amazon S3 și o politică de păstrare a datelor pentru sursele de date Amazon Athena în Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Căutare verticală. Ai.

Configurați o locație personalizată de ieșire a interogării Amazon S3 și o politică de păstrare a datelor pentru sursele de date Amazon Athena în Amazon SageMaker Data Wrangler

Amazon SageMaker Data Wrangler reduce timpul necesar pentru agregarea și pregătirea datelor pentru învățarea automată (ML) de la săptămâni la minute Amazon SageMaker Studio, primul mediu de dezvoltare complet integrat (IDE) pentru ML. Cu Data Wrangler, puteți simplifica procesul de pregătire a datelor și de inginerie a caracteristicilor și puteți finaliza fiecare pas al fluxului de lucru de pregătire a datelor, inclusiv selecția datelor, curățarea, explorarea și vizualizarea, dintr-o singură interfață vizuală. Puteți importa date din mai multe surse de date, cum ar fi Serviciul Amazon de stocare simplă (Amazon S3), Amazon RedShift, Fulg de nea, și 26 de surse de date de interogare federate susținută de Amazon Atena.

Începând de astăzi, atunci când importați date din sursele de date Athena, puteți configura locația de ieșire a interogării S3 și perioada de păstrare a datelor pentru a importa date în Data Wrangler pentru a controla unde și cât timp stochează Athena datele intermediare. În această postare, vă prezentăm această nouă funcție.

Prezentare generală a soluțiilor

Athena este un serviciu interactiv de interogări care facilitează răsfoirea AWS Adeziv Catalog de date și analizați datele în Amazon S3 și 26 de surse de date de interogare federate folosind SQL standard. Când utilizați Athena pentru a importa date, puteți utiliza locația S3 implicită a Data Wrangler pentru ieșirea interogării Athena sau puteți specifica un grup de lucru Athena pentru a impune o locație S3 personalizată. Anterior, trebuia să implementați fluxuri de lucru de curățare pentru a elimina aceste date intermediare sau să configurați manual configurația ciclului de viață S3 pentru a controla costurile de stocare și pentru a îndeplini cerințele de securitate a datelor ale organizației dvs. Aceasta este o suprasarcină operațională mare și nu este scalabilă.

Data Wrangler acceptă acum locații S3 personalizate și perioade de păstrare a datelor pentru ieșirea interogării dvs. Athena. Cu această nouă caracteristică, puteți schimba locația de ieșire a interogării Athena într-un compartiment S3 personalizat. Aveți acum o politică implicită de păstrare a datelor de 5 zile pentru ieșirea interogării Athena și o puteți modifica pentru a îndeplini cerințele de securitate a datelor ale organizației dvs. Pe baza perioadei de păstrare, ieșirea interogării Athena din compartimentul S3 este curățată automat. După ce importați datele, puteți efectua o analiză exploratorie a datelor pe acest set de date și puteți stoca datele curate înapoi pe Amazon S3.

Următoarea diagramă ilustrează această arhitectură.

Pentru cazul nostru de utilizare, folosim un exemplu de set de date bancare pentru a parcurge soluția. Fluxul de lucru constă din următorii pași:

  1. Descărcați set de date eșantion și încărcați-l într-o găleată S3.
  2. Configurați un AWS Glue tractor pe şenile pentru a accesa cu crawlere schema și a stoca schema de metadate în AWS Glue Data Catalog.
  3. Utilizați Athena pentru a accesa Catalogul de date pentru a interoga datele din compartimentul S3.
  4. Creați un nou flux Data Wrangler pentru a vă conecta la Athena.
  5. Când creați conexiunea, setați TTL de reținere pentru setul de date.
  6. Utilizați această conexiune în fluxul de lucru și stocați datele curate într-o altă găleată S3.

Pentru simplitate, presupunem că ați configurat deja mediul Athena (pașii 1–3). Detaliem pașii următori în această postare.

Cerințe preliminare

Pentru a configura mediul Athena, consultați Manual de utilizare pentru instrucțiuni pas cu pas și parcurgeți pașii 1–3, așa cum este descris în secțiunea anterioară.

Importați-vă datele din Athena în Data Wrangler

Pentru a importa datele, parcurgeți următorii pași:

  1. Pe consola Studio, alegeți Resurse pictograma din panoul de navigare.
  2. Alege Data Wrangler din meniul derulant.
  3. Alege Flux nou.
    Configurați o locație personalizată de ieșire a interogării Amazon S3 și o politică de păstrare a datelor pentru sursele de date Amazon Athena în Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Căutare verticală. Ai.
  4. Pe Import fila, alegeți Amazon Atena.
    Configurați o locație personalizată de ieșire a interogării Amazon S3 și o politică de păstrare a datelor pentru sursele de date Amazon Athena în Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Căutare verticală. Ai.
    Se deschide o pagină de detalii unde vă puteți conecta la Athena și puteți scrie o interogare SQL pentru a o importa din baza de date.
  5. Introduceți un nume pentru conexiunea dvs.
    Configurați o locație personalizată de ieșire a interogării Amazon S3 și o politică de păstrare a datelor pentru sursele de date Amazon Athena în Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Căutare verticală. Ai.
  6. Extinde Configurare avansată.
    Când se conectează la Athena, Data Wrangler folosește Amazon S3 pentru a pune în scenă datele interogate. În mod implicit, aceste date sunt puse în scenă în locația S3 s3://sagemaker-{region}-{account_id}/athena/ cu o perioadă de păstrare de 5 zile.
  7. Pentru Locația Amazon S3 a rezultatelor interogării, introduceți locația dvs. S3.
  8. Selectați Perioada de păstrare a datelor și setați perioada de păstrare a datelor (pentru această postare, 1 zi).
    Dacă deselectați această opțiune, datele vor persista pe termen nelimitat.Configurați o locație personalizată de ieșire a interogării Amazon S3 și o politică de păstrare a datelor pentru sursele de date Amazon Athena în Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Căutare verticală. Ai.În culise, Data Wrangler atașează o politică de configurare a ciclului de viață S3 la acea locație S3 pentru a curăța automat. Consultați următorul exemplu de politică:
     "Rules": [
            {
                "Expiration": {
                    "Days": 1
                },
                "ID": "sm-data-wrangler-retention-policy-xxxxxxx",
                "Filter": {
                    "Prefix": "athena/test"
                },
                "Status": "Enabled"
            }
        ]

    Ai nevoie de s3:GetLifecycleConfiguration și s3:PutLifecycleConfiguration pentru ca rolul dumneavoastră de execuție SageMaker să aplice corect politicile de configurare a ciclului de viață. Fără aceste permisiuni, primiți mesaje de eroare atunci când încercați să importați datele.

    Următorul mesaj de eroare este un exemplu de lipsă GetLifecycleConfiguration permisiune.
    Configurați o locație personalizată de ieșire a interogării Amazon S3 și o politică de păstrare a datelor pentru sursele de date Amazon Athena în Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Căutare verticală. Ai.

    Următorul mesaj de eroare este un exemplu de lipsă PutLifecycleConfiguration permisiune.

    Configurați o locație personalizată de ieșire a interogării Amazon S3 și o politică de păstrare a datelor pentru sursele de date Amazon Athena în Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Căutare verticală. Ai.

  9. Opțional, pentru Grup de lucru, puteți specifica un grup de lucru Athena.
    An Athena workgroup isolates users, teams, applications, or workloads into groups, each with its own permissions and configuration settings. When you specify a workgroup, Data Wrangler inherits the workgroup setting defined in Athena. For example, if a workgroup has an S3 location defined to store query results and enables Override client side settings, you can’t edit the S3 query result location.Configurați o locație personalizată de ieșire a interogării Amazon S3 și o politică de păstrare a datelor pentru sursele de date Amazon Athena în Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Căutare verticală. Ai.În mod implicit, Data Wrangler salvează și conexiunea Athena pentru dvs. Aceasta este afișată ca o nouă piesă Athena în Import fila. Puteți oricând redeschide acea conexiune pentru a interoga și a aduce date diferite în Data Wrangler.
    Configurați o locație personalizată de ieșire a interogării Amazon S3 și o politică de păstrare a datelor pentru sursele de date Amazon Athena în Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Căutare verticală. Ai.
  10. Deselectați Salvați conexiunea dacă nu doriți să salvați conexiunea.
    Configurați o locație personalizată de ieșire a interogării Amazon S3 și o politică de păstrare a datelor pentru sursele de date Amazon Athena în Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Căutare verticală. Ai.
  11. Pentru a configura conexiunea Athena, alegeți Nici unul pentru Prelevarea de probe pentru a importa întregul set de date.
    Configurați o locație personalizată de ieșire a interogării Amazon S3 și o politică de păstrare a datelor pentru sursele de date Amazon Athena în Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Căutare verticală. Ai.
    Pentru seturi de date mari, Data Wrangler vă permite să importați un subset de date pentru a vă construi fluxul de lucru de transformare și să procesați întregul set de date numai când sunteți gata. Acest lucru accelerează ciclul de iterație și economisește timp și costuri de procesare. Pentru a afla mai multe despre diferitele opțiuni de eșantionare a datelor disponibile, vizitați Amazon SageMaker Data Wrangler acceptă acum eșantionarea aleatorie și eșantionarea stratificată.
  12. Pentru Catalog de date¸ alege AwsDataCatalog.
  13. Pentru Baza de date, alegeți baza de date.
    Configurați o locație personalizată de ieșire a interogării Amazon S3 și o politică de păstrare a datelor pentru sursele de date Amazon Athena în Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Căutare verticală. Ai.
    Data Wrangler afișează tabelele disponibile. Puteți alege fiecare tabel pentru a verifica schema și a previzualiza datele.
    Configurați o locație personalizată de ieșire a interogării Amazon S3 și o politică de păstrare a datelor pentru sursele de date Amazon Athena în Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Căutare verticală. Ai.
  14. Introduceți următorul cod în câmpul de interogare:
    Select *
    From bank_additional_full

  15. Alege Alerga pentru a previzualiza datele.
  16. Dacă totul arată bine, alege Import.
  17. Introduceți un nume de set de date și alegeți Adăuga pentru a importa datele în spațiul de lucru Data Wrangler.
    Configurați o locație personalizată de ieșire a interogării Amazon S3 și o politică de păstrare a datelor pentru sursele de date Amazon Athena în Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Căutare verticală. Ai.

Analizați și procesați datele cu Data Wrangler

După ce încărcați datele în Data Wrangler, puteți face o analiză exploratorie a datelor (EDA) și puteți pregăti datele pentru învățarea automată.

  1. Alegeți semnul plus de lângă bank-data set de date în fluxul de date și alegeți Adăugați analiza.
    Data Wrangler oferă analize încorporate, inclusiv un raport privind calitatea datelor și informații, corelarea datelor, un raport de părtinire înainte de antrenament, un rezumat al setului dvs. de date și vizualizări (cum ar fi histogramele și diagramele de dispersie). În plus, vă puteți crea propria vizualizare personalizată.
    Configurați o locație personalizată de ieșire a interogării Amazon S3 și o politică de păstrare a datelor pentru sursele de date Amazon Athena în Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Căutare verticală. Ai.
  2. Pentru Tipul analizei¸ alege Raport privind calitatea datelor și perspectivă.
    Acest lucru generează automat vizualizări, analize pentru a identifica problemele de calitate a datelor și recomandări pentru transformările corecte necesare pentru setul dvs. de date.
  3. Pentru Coloana țintă, alege Y.
  4. Pentru că aceasta este o declarație de problemă de clasificare, pentru Tipul problemei, Selectați Clasificare.
  5. Alege Crea.
    Configurați o locație personalizată de ieșire a interogării Amazon S3 și o politică de păstrare a datelor pentru sursele de date Amazon Athena în Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Căutare verticală. Ai.
    Data Wrangler creează un raport detaliat despre setul dvs. de date. De asemenea, puteți descărca raportul pe computerul dvs. local.
    Configurați o locație personalizată de ieșire a interogării Amazon S3 și o politică de păstrare a datelor pentru sursele de date Amazon Athena în Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Căutare verticală. Ai.
  6. Pentru pregătirea datelor, alegeți semnul plus de lângă setul de date bancare din fluxul de date și alegeți Adăugați transformare.
  7. Alege Adăugați pasul pentru a începe să vă construiți transformările.
    Configurați o locație personalizată de ieșire a interogării Amazon S3 și o politică de păstrare a datelor pentru sursele de date Amazon Athena în Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Căutare verticală. Ai.

La momentul scrierii acestui articol, Data Wrangler oferă peste 300 de transformări încorporate. De asemenea, puteți scrie propriile transformări folosind Pandas sau PySpark.

Configurați o locație personalizată de ieșire a interogării Amazon S3 și o politică de păstrare a datelor pentru sursele de date Amazon Athena în Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Căutare verticală. Ai.

Acum puteți începe să vă construiți transformările și analizele pe baza cerințelor dvs. de afaceri.

A curăța

Pentru a evita costurile continue, ștergeți resursele Data Wrangler utilizând pașii de mai jos când ați terminat.

  1. Selectați pictograma Running Instances and Kernels.
  2. Sub RUNNING APPS, faceți clic pe pictograma de închidere de lângă sagemaker-data-wrangler-1.0 app.
  3. Alegeți Închideți totul pentru a confirma.

Configurați o locație personalizată de ieșire a interogării Amazon S3 și o politică de păstrare a datelor pentru sursele de date Amazon Athena în Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Căutare verticală. Ai.

Concluzie

În această postare, am oferit o prezentare generală a personalizării locației dvs. S3 și a activării configurațiilor ciclului de viață S3 pentru importarea datelor de la Athena în Data Wrangler. Cu această caracteristică, puteți stoca date intermediare într-o locație S3 securizată și puteți elimina automat copia datelor după perioada de păstrare pentru a reduce riscul accesului neautorizat la date. Vă încurajăm să încercați această nouă funcție. Construire fericită!

Pentru a afla mai multe despre Athena și SageMaker, vizitați Ghidul utilizatorului Athena și Documentația Amazon SageMaker.


Despre autori

Configurați o locație personalizată de ieșire a interogării Amazon S3 și o politică de păstrare a datelor pentru sursele de date Amazon Athena în Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Căutare verticală. Ai. Meenakshisundaram Thandavarayan este un specialist senior AI/ML cu AWS. El ajută conturile strategice de înaltă tehnologie în călătoria lor AI și ML. Este foarte pasionat de IA bazată pe date.

Configurați o locație personalizată de ieșire a interogării Amazon S3 și o politică de păstrare a datelor pentru sursele de date Amazon Athena în Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Căutare verticală. Ai.Harish Rajagopalan este arhitect senior de soluții la Amazon Web Services. Harish lucrează cu clienții companiei și îi ajută în călătoria lor în cloud.

Configurați o locație personalizată de ieșire a interogării Amazon S3 și o politică de păstrare a datelor pentru sursele de date Amazon Athena în Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Căutare verticală. Ai.James Wu este arhitect senior de soluții de specialitate AI/ML la AWS. ajutând clienții să proiecteze și să construiască soluții AI/ML. Munca lui James acoperă o gamă largă de cazuri de utilizare ML, cu un interes principal în viziunea computerizată, învățarea profundă și scalarea ML în întreaga întreprindere. Înainte de a se alătura AWS, James a fost arhitect, dezvoltator și lider tehnologic timp de peste 10 ani, inclusiv 6 ani în inginerie și 4 ani în industriile de marketing și publicitate.

Timestamp-ul:

Mai mult de la Învățare automată AWS