Interaktiivne andmete ettevalmistamise vidin sülearvutitele, mida toetab Amazon SageMaker Data Wrangler

Taasavaldanud Platon

järgijaid: 0

Anaconda 2020. aasta andmeteadlaste küsitluse kohaselt on andmete ettevalmistamine masinõppe (ML) ja andmeanalüütika töövoogude üks kriitilisi etappe ning sageli väga aeganõudev andmeteadlaste jaoks. Andmeteadlased kulutavad umbes 66% oma ajast andmete ettevalmistamise ja analüüsimise ülesannetele, sealhulgas laadimisele (19%), puhastamisele (26%) ja andmete visualiseerimisele (21%).

Amazon SageMaker Studio on esimene täielikult integreeritud arenduskeskkond (IDE) ML jaoks. Andmeteadlased ja -arendajad saavad ühe klõpsuga kiiresti tegutseda Stuudiomärkmikud andmekogude uurimiseks ja mudelite loomiseks. Kui eelistate GUI-põhist ja interaktiivset liidest, saate seda kasutada Amazon SageMaker Data Wrangler, mis sisaldab enam kui 300 sisseehitatud visualiseerimist, analüüsi ja teisendust, et Sparki tagatud andmeid tõhusalt töödelda ilma ühtki koodirida kirjutamata.

Data Wrangler pakub nüüd sisseehitatud andmete ettevalmistamise võimalust Amazon SageMaker Studio sülearvutid mis võimaldab ML-i praktikutel andmete omadusi visuaalselt üle vaadata, probleeme tuvastada ja andmekvaliteediga seotud probleeme lahendada – vaid mõne klõpsuga otse sülearvutis.

Selles postituses näitame teile, kuidas Data Wrangler andmete ettevalmistamise vidin genereerib Pandase andmeraami peal automaatselt peamised visualiseeringud, et mõista andmete jaotust, tuvastada andmete kvaliteediprobleeme ja saada andmetest ülevaadet, näiteks iga funktsiooni kõrvalekaldeid. See aitab andmetega suhelda ja avastada teadmisi, mis võivad ad hoc päringute puhul märkamatuks jääda. Samuti soovitab see parandamiseks teisendusi, võimaldab teil rakendada kasutajaliideses andmete teisendusi ja genereerida automaatselt koodi märkmiku lahtrites. See funktsioon on saadaval kõigis piirkondades, kus SageMaker Studio on saadaval.

Lahenduse ülevaade

Mõistame lähemalt, kuidas see uus vidin muudab andmete uurimise oluliselt lihtsamaks ja pakub sujuvat kogemust, et parandada andmeinseneride ja praktikute üldist andmete ettevalmistamise kogemust. Meie kasutusjuhul kasutame me modifitseeritud versiooni Titanicu andmestik, populaarne andmestik ML-i kogukonnas, mis on nüüd lisatud kui a näidisandmekogum nii et saate SageMaker Data Wrangleriga kiiresti alustada. Algne andmekogum saadi aadressilt OpenMLja muutis selle demo jaoks sünteetiliste andmete kvaliteediprobleemide lisamiseks Amazon. Andmestiku muudetud versiooni saate alla laadida avalikult S3 teelt s3://sagemaker-sample-files/datasets/tabular/dirty-titanic/titanic-dirty-4.csv.

Eeldused

Kõigi selles postituses kirjeldatud funktsioonide praktilise kogemuse saamiseks täitke järgmised eeltingimused.

Veenduge, et teil oleks AWS-i konto, turvaline juurdepääs kontole sisselogimiseks AWS-i juhtimiskonsoolja AWS-i identiteedi- ja juurdepääsuhaldus (IAM) kasutusõigused Amazon SageMaker ja Amazoni lihtne salvestusteenus (Amazon S3) ressursse.
Kasutage avaliku S3 tee näidisandmestikku s3://sagemaker-sample-files/datasets/tabular/dirty-titanic/titanic-dirty-4.csv või alternatiivselt laadige see S3 ämbrisse teie kontol.
Liituge SageMakeri domeeniga ja avage märkmike kasutamiseks Studio. Juhiste saamiseks vaadake Sisseehitatud Amazon SageMakeri domeeniga. Kui kasutate olemasolevat Studiot, minge üle versioonile Studio uusim versioon.

Lubage andmete uurimise vidin

Kui kasutate Pandase andmeraame, saavad Studio sülearvuti kasutajad andmete uurimise vidina käsitsi lubada, nii et uued visualiseeringud kuvatakse vaikimisi iga veeru peal. Vidin näitab arvandmete histogrammi ja muud tüüpi andmete jaoks tulpdiagrammi. Need esitused võimaldavad teil kiiresti aru saada andmete jaotusest ning avastada puuduvad väärtused ja kõrvalekalded, ilma et peaksite iga veeru jaoks standardseid meetodeid kirjutama. Jaotusest kiireks mõistmiseks hõljutage kursorit igas visuaalis riba kohal.

Avage Studio ja looge uus Python 3 märkmik. Valige kindlasti Andmeteadus 3.0 pilt SageMakeri piltidest, klõpsates Muutke keskkonda nuppu.

Andmete uurimise vidin on saadaval järgmistel piltidel. SageMakeri vaikepiltide loendi leiate jaotisest Saadaval olevad Amazon SageMakeri pildid.

Python 3 (Data Science) koos Python 3.7-ga
Python 3 (Data Science 2.0) koos Python 3.8-ga
Python 3 (Data Science 3.0) koos Python 3.10-ga
Spark Analytics 1.0 ja 2.0

Selle vidina kasutamiseks importige SageMaker_DataWrangler raamatukogu. Laadige Titanicu andmekogumi muudetud versioon aadressilt S3://sagemaker-sample-files/datasets/tabular/dirty-titanic/titanic-dirty-4.csv ja lugege Pandase teegiga CSV-d:

import pandas as pd
import boto3
import io
import sagemaker_datawrangler

s3 = boto3.client('s3')
obj = s3.get_object(Bucket='sagemaker-sample-files', Key='datasets/tabular/dirty-titanic/titanic-dirty-4.csv')
df = pd.read_csv(io.BytesIO(obj['Body'].read()))

Visualiseerige andmed

Pärast andmete laadimist Panda andmeraami saate andmeid vaadata lihtsalt kasutades df or display(df). Lisaks rea loetlemisele loob andmete ettevalmistamise vidin statistikat, visualiseeringuid ja nõuandeid andmete kvaliteedi kohta. Te ei pea lisakoodi kirjutama, et luua funktsioone ja sihtmärke, levitamisteavet ega renderdamise kvaliteedikontrolli. Saate valida andmeraami tabeli päise, et vaadata statistilist kokkuvõtet, mis näitab andmete kvaliteedi hoiatusi, kui neid on.

visualiseerida andmeid

Igas veerus kuvatakse andmetüübi põhjal tulpdiagramm või histogramm. Vaikimisi proovib vidin sisuka ülevaate saamiseks kuni 10,000 XNUMX vaatlust. See pakub ka võimalust käitada kogu andmestiku ülevaateanalüüsi.

Nagu on näidatud järgmisel ekraanipildil, tuvastab see vidin, kas veerus on kategoorilisi või kvantitatiivseid andmeid.

kategoorilised või kvantitatiivsed andmed

Kategooriliste andmete jaoks loob vidin tulpdiagrammi kõigi kategooriatega. Järgmisel ekraanipildil näiteks veerg Sex tuvastab andmetel olevad kategooriad. Võite hõljutada kursorit riba kohal (mees antud juhul), et näha nende kategooriate üksikasju (nt väärtust sisaldavate ridade koguarv). male ja selle jaotus kogu visualiseeritud andmekogumis (selles näites 64.07%). Samuti tõstab see esile kategooriliste andmete jaoks erineva värviga puuduvate väärtuste koguprotsendi. Kvantitatiivsete andmete jaoks, nagu ticket veerus, näitab see jaotust koos kehtetute väärtuste protsendiga.

Kui soovite märkmikus näha standardset Panda visualiseerimist, saate valida Vaadake Pandade tabelit ja lülitage vidina ja Panda esituse vahel, nagu on näidatud järgmisel ekraanipildil.

Vaadake Pandade tabelit

vaadake andmevõitlustabelit

Veerus olevate andmete kohta üksikasjalikuma ülevaate saamiseks valige veeru päis, et avada veerule pühendatud külgpaneel. Siin saate jälgida kahte vahekaarti: Insights ja Andmete kvaliteet.

Statistika ja andmete kvaliteet

Järgmistes jaotistes uurime neid kahte võimalust üksikasjalikumalt.

Insights

. Insights vahekaart sisaldab iga veeru üksikasju ja kirjeldusi. Selles jaotises on loetletud koondatud statistika, nagu režiim, unikaalsete väärtuste arv, suhtarvud ja puuduvate/kehtetute väärtuste arv jne, samuti visualiseeritakse andmete jaotus histogrammi või tulpdiagrammi abil. Järgmistel ekraanipiltidel saate vaadata andmete ülevaadet ja levitusteavet, mis kuvatakse valitud veeru jaoks koos hõlpsasti mõistetavate visualisatsioonidega survived.

Andmete kvaliteet

Stuudio andmete ettevalmistamise vidin tõstab esile tuvastatud andmekvaliteedi probleemid päises oleva hoiatusmärgiga. Vidin suudab tuvastada kogu andmekvaliteedi probleemide spektri alates põhitõdedest (puuduvad väärtused, konstantne veerg jne) kuni ML-spetsiifilisemateni (sihtleke, madala ennustava skoori funktsioonid jne). Vidin tõstab esile andmekvaliteedi probleemi põhjustavad lahtrid ja korraldab read ümber, et asetada probleemsed lahtrid ülaossa. Andmekvaliteedi probleemi lahendamiseks pakub vidin mitut trafot, mida saab kasutada ühe nupuvajutusega.

Andmekvaliteedi jaotise uurimiseks valige veeru päis ja külgpaneelil Andmete kvaliteet sakk. Peaksite oma Studio keskkonnas nägema järgmist.

andmekvaliteedi vahekaart

Vaatame erinevaid veebilehel saadaolevaid valikuid Andmete kvaliteet sakk. Selle näite jaoks valime vanuse veeru, mis tuvastatakse andmete põhjal kvantitatiivse veeruna. Nagu näeme järgmisel ekraanipildil, pakub see vidin välja erinevat tüüpi teisendusi, mida saate rakendada, sealhulgas kõige tavalisemaid toiminguid, nagu Asendage uue väärtusega, Tilk puudu, Asenda mediaanigavõi Asenda keskmisega. Saate valida oma andmestiku jaoks mis tahes neist, lähtudes kasutusjuhtumist (ML probleem, mida proovite lahendada). Samuti annab see teile Langetage veerg valik, kui soovite funktsiooni üldse eemaldada.

vanus

Kui valite Rakendage ja eksportige kood, rakendatakse teisendus andmeraami sügavale koopiale. Pärast teisenduse edukat rakendamist värskendatakse andmetabelit ülevaate ja visualiseeringutega. Teisenduskood genereeritakse märkmikus olemasoleva lahtri järel. Saate seda eksporditud koodi hiljem käivitada, et rakendada teisendust oma andmekogumitele ja laiendada seda vastavalt oma vajadustele. Saate kohandada teisendust, muutes otse loodud koodi. Kui me rakendame Tilk puudu suvand veerus Vanus, rakendatakse andmekogumile järgmine teisenduskood ja kood genereeritakse ka vidina all olevasse lahtrisse:

#Pandas code generated by sagemaker_datawrangler
output_df = df.copy(deep=True) 

#Code to Drop missing for column: age to resolve warning: Missing values 
output_df = output_df[output_df['age'].notnull()]

Järgmine on veel üks näide koodilõigu kohta Asenda mediaaniga:

#Pandas code generated by sagemaker_datawrangler
output_df = df.copy(deep=True) 

#Code to Replace with median for column: age to resolve warning: Missing values 
output_df['age']=output_df['age'].fillna(output_df['age'].median(skipna=True))

Nüüd vaatame andmete ettevalmistamise vidina sihtülevaate võimalust. Oletame, et soovite kasutada survived funktsioon, mis ennustab, kas reisija jääb ellu. Vali survived veeru päis. Valige külgpaneelil Valige sihtveeruks. Ideaalne andmete jaotus survived funktsioonil peaks olema ainult kaks klassi: jah (1) või ei (0), mis aitab klassifitseerida Titanicu õnnetuse ellujäämisvõimalusi. Kuid valitud sihtveeru andmete ebaühtluse tõttu on säilinud funktsioon 0, 1, ?, unknownja yes.

valige sihtveeruks

Valige probleemi tüüp valitud sihtveeru põhjal, mis võib olla kumbki Klassifikatsioon or Regressioon. Säilinud veeru puhul on probleemi tüüp klassifikatsioon. Vali jooks sihtveeru jaoks statistika loomiseks.

säilinud

Andmete ettevalmistamise vidin loetleb sihtveergude ülevaate koos soovituste ja näidisselgitustega, et lahendada sihtveeru andmete kvaliteediga seotud probleemid. Samuti tõstab see automaatselt esile veerus olevad anomaalsed andmed.

sihtveergude statistika koos soovitustega

Valime soovitatava teisenduse Loobuge haruldastest sihtväärtustest, sest haruldaste sihtväärtuste puhul on vähem vaatlusi.

Langetage haruldane sihtväärtus

Valitud teisendus rakendatakse Pandase andmeraamile ja ebatavalised sihtväärtused eemaldati säilinud veerust. Vaadake järgmist koodi:

# Pandas code generated by sagemaker_datawrangler
output_df = df.copy(deep=True)

# Code to Drop rare target values for column: survived to resolve warning: Too few instances per class 
rare_target_labels_to_drop = ['?', 'unknown', 'yes']
output_df = output_df[~output_df['survived'].isin(rare_target_labels_to_drop)]

Rakendatud teisenduse tulemused on andmeraamil kohe näha. Andmete ettevalmistamise vidina abil rakendatud andmete ettevalmistamise tegevuste jälgimiseks genereeritakse teisendatud kood ka järgmises märkmiku lahtris.

Järeldus

Selles postituses andsime juhiseid selle kohta, kuidas Studio andmete ettevalmistamise vidin aitab teil analüüsida andmete jaotusi, uurida tööriista loodud andmete kvaliteedi statistikat ja avastada võimalikke probleeme, nagu iga kriitilise funktsiooni kõrvalekalded. See aitab parandada üldist andmekvaliteeti, et aidata teil koolitada kvaliteetseid mudeleid, ja see eemaldab eristamata raskuste tõstmise, võimaldades teil andmeid kasutajaliideses teisendada ja sülearvuti lahtrite jaoks automaatselt koodi genereerida. Seejärel saate seda koodi kasutada oma MLOps-konveierites, et luua reprodutseeritavust, vältida aja raiskamist korduvatele ülesannetele ja vähendada ühilduvusprobleeme, kiirendades andmevahetuse torujuhtmete ehitamist ja juurutamist.

Kui olete SageMaker Data Wrangleri või Studio uus kasutaja, vaadake Alustage SageMaker Data Wrangleriga. Kui teil on selle postitusega seotud küsimusi, lisage need kommentaaride jaotisesse.

Autoritest

Parth Patel on lahenduste arhitekt AWSis San Francisco lahe piirkonnas. Parth juhendab kliente kiirendama oma teekonda pilve poole ning aitama neil AWS-pilve edukalt kasutusele võtta ja selles kasvada. Ta keskendub masinõppele, keskkonnasäästlikkusele ja rakenduste moderniseerimisele.

Isha Dua on San Francisco lahe piirkonnas asuv vanemlahenduste arhitekt. Ta aitab AWS Enterprise'i klientidel kasvada, mõistes nende eesmärke ja väljakutseid ning juhendades neid, kuidas nad saavad oma rakendusi pilvepõhiselt üles ehitada, tagades samal ajal nende vastupidavuse ja skaleeritavuse. Ta on kirglik masinõppetehnoloogiate ja keskkonnasäästlikkuse vastu.

Hariharan Suresh on AWSi vanemlahenduste arhitekt. Ta on kirglik andmebaaside, masinõppe ja uuenduslike lahenduste kujundamise vastu. Enne AWS-iga liitumist oli Hariharan tootearhitekt, põhipanganduse juurutamise spetsialist ja arendaja ning töötas BFSI organisatsioonidega üle 11 aasta. Väljaspool tehnikat naudib ta paraplaaniga lendamist ja jalgrattasõitu.

Dani Mitchell on AI/ML spetsialistilahenduste arhitekt ettevõttes Amazon Web Services. Ta keskendub Computer Visioni kasutusjuhtudele ja aitab klientidel kogu EMEA-s oma ML-teekonda kiirendada.

Ajatempel: Detsember 1, 2022Detsember 1, 2022

Ajatempel: Veebruar 16, 2024

Interaktiivne andmete ettevalmistamise vidin sülearvutitele, mida toetab Amazon SageMaker Data Wrangler

Taasavaldanud Platon

Lahenduse ülevaade

Eeldused

Lubage andmete uurimise vidin

Visualiseerige andmed

Insights

Andmete kvaliteet

Järeldus

Autoritest

Veel alates AWS-i masinõpe

Täiustatud ML-mudeli juurutamine Amazon SageMaker Inference Recommenderi abil

Teksti klassifikatsioon AWS-i masinõppega veebivestluste jaoks

Kallistava näo (PyAnnote) kõlarite diariseerimise mudeli juurutamine Amazon SageMakeris asünkroonse lõpp-punktina | Amazoni veebiteenused

Arukas dokumenditöötlus AWS AI ja Analyticsi teenustega kindlustussektoris: 2. osa

Defektide tuvastamine kõrge eraldusvõimega kujutistel, kasutades kaheastmelisi Amazon Rekognitioni kohandatud siltide mudeleid | Amazoni veebiteenused

Meist

Vertikaalne otsing ja Ai

Platvorm

Püsi ühenduses

konto