Anaconda 2020. aasta andmeteadlaste küsitluse kohaselt on andmete ettevalmistamine masinõppe (ML) ja andmeanalüütika töövoogude üks kriitilisi etappe ning sageli väga aeganõudev andmeteadlaste jaoks. Andmeteadlased kulutavad umbes 66% oma ajast andmete ettevalmistamise ja analüüsimise ülesannetele, sealhulgas laadimisele (19%), puhastamisele (26%) ja andmete visualiseerimisele (21%).
Amazon SageMaker Studio on esimene täielikult integreeritud arenduskeskkond (IDE) ML jaoks. Andmeteadlased ja -arendajad saavad ühe klõpsuga kiiresti tegutseda Stuudiomärkmikud andmekogude uurimiseks ja mudelite loomiseks. Kui eelistate GUI-põhist ja interaktiivset liidest, saate seda kasutada Amazon SageMaker Data Wrangler, mis sisaldab enam kui 300 sisseehitatud visualiseerimist, analüüsi ja teisendust, et Sparki tagatud andmeid tõhusalt töödelda ilma ühtki koodirida kirjutamata.
Data Wrangler pakub nüüd sisseehitatud andmete ettevalmistamise võimalust Amazon SageMaker Studio sülearvutid mis võimaldab ML-i praktikutel andmete omadusi visuaalselt üle vaadata, probleeme tuvastada ja andmekvaliteediga seotud probleeme lahendada – vaid mõne klõpsuga otse sülearvutis.
Selles postituses näitame teile, kuidas Data Wrangler andmete ettevalmistamise vidin genereerib Pandase andmeraami peal automaatselt peamised visualiseeringud, et mõista andmete jaotust, tuvastada andmete kvaliteediprobleeme ja saada andmetest ülevaadet, näiteks iga funktsiooni kõrvalekaldeid. See aitab andmetega suhelda ja avastada teadmisi, mis võivad ad hoc päringute puhul märkamatuks jääda. Samuti soovitab see parandamiseks teisendusi, võimaldab teil rakendada kasutajaliideses andmete teisendusi ja genereerida automaatselt koodi märkmiku lahtrites. See funktsioon on saadaval kõigis piirkondades, kus SageMaker Studio on saadaval.
Lahenduse ülevaade
Mõistame lähemalt, kuidas see uus vidin muudab andmete uurimise oluliselt lihtsamaks ja pakub sujuvat kogemust, et parandada andmeinseneride ja praktikute üldist andmete ettevalmistamise kogemust. Meie kasutusjuhul kasutame me modifitseeritud versiooni Titanicu andmestik, populaarne andmestik ML-i kogukonnas, mis on nüüd lisatud kui a näidisandmekogum nii et saate SageMaker Data Wrangleriga kiiresti alustada. Algne andmekogum saadi aadressilt OpenMLja muutis selle demo jaoks sünteetiliste andmete kvaliteediprobleemide lisamiseks Amazon. Andmestiku muudetud versiooni saate alla laadida avalikult S3 teelt s3://sagemaker-sample-files/datasets/tabular/dirty-titanic/titanic-dirty-4.csv
.
Eeldused
Kõigi selles postituses kirjeldatud funktsioonide praktilise kogemuse saamiseks täitke järgmised eeltingimused.
- Veenduge, et teil oleks AWS-i konto, turvaline juurdepääs kontole sisselogimiseks AWS-i juhtimiskonsoolja AWS-i identiteedi- ja juurdepääsuhaldus (IAM) kasutusõigused Amazon SageMaker ja Amazoni lihtne salvestusteenus (Amazon S3) ressursse.
- Kasutage avaliku S3 tee näidisandmestikku
s3://sagemaker-sample-files/datasets/tabular/dirty-titanic/titanic-dirty-4.csv
või alternatiivselt laadige see S3 ämbrisse teie kontol. - Liituge SageMakeri domeeniga ja avage märkmike kasutamiseks Studio. Juhiste saamiseks vaadake Sisseehitatud Amazon SageMakeri domeeniga. Kui kasutate olemasolevat Studiot, minge üle versioonile Studio uusim versioon.
Lubage andmete uurimise vidin
Kui kasutate Pandase andmeraame, saavad Studio sülearvuti kasutajad andmete uurimise vidina käsitsi lubada, nii et uued visualiseeringud kuvatakse vaikimisi iga veeru peal. Vidin näitab arvandmete histogrammi ja muud tüüpi andmete jaoks tulpdiagrammi. Need esitused võimaldavad teil kiiresti aru saada andmete jaotusest ning avastada puuduvad väärtused ja kõrvalekalded, ilma et peaksite iga veeru jaoks standardseid meetodeid kirjutama. Jaotusest kiireks mõistmiseks hõljutage kursorit igas visuaalis riba kohal.
Avage Studio ja looge uus Python 3 märkmik. Valige kindlasti Andmeteadus 3.0 pilt SageMakeri piltidest, klõpsates Muutke keskkonda nuppu.
Andmete uurimise vidin on saadaval järgmistel piltidel. SageMakeri vaikepiltide loendi leiate jaotisest Saadaval olevad Amazon SageMakeri pildid.
- Python 3 (Data Science) koos Python 3.7-ga
- Python 3 (Data Science 2.0) koos Python 3.8-ga
- Python 3 (Data Science 3.0) koos Python 3.10-ga
- Spark Analytics 1.0 ja 2.0
Selle vidina kasutamiseks importige SageMaker_DataWrangler
raamatukogu. Laadige Titanicu andmekogumi muudetud versioon aadressilt S3://sagemaker-sample-files/datasets/tabular/dirty-titanic/titanic-dirty-4.csv
ja lugege Pandase teegiga CSV-d:
Visualiseerige andmed
Pärast andmete laadimist Panda andmeraami saate andmeid vaadata lihtsalt kasutades df
or display(df)
. Lisaks rea loetlemisele loob andmete ettevalmistamise vidin statistikat, visualiseeringuid ja nõuandeid andmete kvaliteedi kohta. Te ei pea lisakoodi kirjutama, et luua funktsioone ja sihtmärke, levitamisteavet ega renderdamise kvaliteedikontrolli. Saate valida andmeraami tabeli päise, et vaadata statistilist kokkuvõtet, mis näitab andmete kvaliteedi hoiatusi, kui neid on.
Igas veerus kuvatakse andmetüübi põhjal tulpdiagramm või histogramm. Vaikimisi proovib vidin sisuka ülevaate saamiseks kuni 10,000 XNUMX vaatlust. See pakub ka võimalust käitada kogu andmestiku ülevaateanalüüsi.
Nagu on näidatud järgmisel ekraanipildil, tuvastab see vidin, kas veerus on kategoorilisi või kvantitatiivseid andmeid.
Kategooriliste andmete jaoks loob vidin tulpdiagrammi kõigi kategooriatega. Järgmisel ekraanipildil näiteks veerg Sex
tuvastab andmetel olevad kategooriad. Võite hõljutada kursorit riba kohal (mees antud juhul), et näha nende kategooriate üksikasju (nt väärtust sisaldavate ridade koguarv). male
ja selle jaotus kogu visualiseeritud andmekogumis (selles näites 64.07%). Samuti tõstab see esile kategooriliste andmete jaoks erineva värviga puuduvate väärtuste koguprotsendi. Kvantitatiivsete andmete jaoks, nagu ticket
veerus, näitab see jaotust koos kehtetute väärtuste protsendiga.
Kui soovite märkmikus näha standardset Panda visualiseerimist, saate valida Vaadake Pandade tabelit ja lülitage vidina ja Panda esituse vahel, nagu on näidatud järgmisel ekraanipildil.
Veerus olevate andmete kohta üksikasjalikuma ülevaate saamiseks valige veeru päis, et avada veerule pühendatud külgpaneel. Siin saate jälgida kahte vahekaarti: Insights ja Andmete kvaliteet.
Järgmistes jaotistes uurime neid kahte võimalust üksikasjalikumalt.
Insights
. Insights vahekaart sisaldab iga veeru üksikasju ja kirjeldusi. Selles jaotises on loetletud koondatud statistika, nagu režiim, unikaalsete väärtuste arv, suhtarvud ja puuduvate/kehtetute väärtuste arv jne, samuti visualiseeritakse andmete jaotus histogrammi või tulpdiagrammi abil. Järgmistel ekraanipiltidel saate vaadata andmete ülevaadet ja levitusteavet, mis kuvatakse valitud veeru jaoks koos hõlpsasti mõistetavate visualisatsioonidega survived
.
Andmete kvaliteet
Stuudio andmete ettevalmistamise vidin tõstab esile tuvastatud andmekvaliteedi probleemid päises oleva hoiatusmärgiga. Vidin suudab tuvastada kogu andmekvaliteedi probleemide spektri alates põhitõdedest (puuduvad väärtused, konstantne veerg jne) kuni ML-spetsiifilisemateni (sihtleke, madala ennustava skoori funktsioonid jne). Vidin tõstab esile andmekvaliteedi probleemi põhjustavad lahtrid ja korraldab read ümber, et asetada probleemsed lahtrid ülaossa. Andmekvaliteedi probleemi lahendamiseks pakub vidin mitut trafot, mida saab kasutada ühe nupuvajutusega.
Andmekvaliteedi jaotise uurimiseks valige veeru päis ja külgpaneelil Andmete kvaliteet sakk. Peaksite oma Studio keskkonnas nägema järgmist.
Vaatame erinevaid veebilehel saadaolevaid valikuid Andmete kvaliteet sakk. Selle näite jaoks valime vanuse veeru, mis tuvastatakse andmete põhjal kvantitatiivse veeruna. Nagu näeme järgmisel ekraanipildil, pakub see vidin välja erinevat tüüpi teisendusi, mida saate rakendada, sealhulgas kõige tavalisemaid toiminguid, nagu Asendage uue väärtusega, Tilk puudu, Asenda mediaanigavõi Asenda keskmisega. Saate valida oma andmestiku jaoks mis tahes neist, lähtudes kasutusjuhtumist (ML probleem, mida proovite lahendada). Samuti annab see teile Langetage veerg valik, kui soovite funktsiooni üldse eemaldada.
Kui valite Rakendage ja eksportige kood, rakendatakse teisendus andmeraami sügavale koopiale. Pärast teisenduse edukat rakendamist värskendatakse andmetabelit ülevaate ja visualiseeringutega. Teisenduskood genereeritakse märkmikus olemasoleva lahtri järel. Saate seda eksporditud koodi hiljem käivitada, et rakendada teisendust oma andmekogumitele ja laiendada seda vastavalt oma vajadustele. Saate kohandada teisendust, muutes otse loodud koodi. Kui me rakendame Tilk puudu suvand veerus Vanus, rakendatakse andmekogumile järgmine teisenduskood ja kood genereeritakse ka vidina all olevasse lahtrisse:
Järgmine on veel üks näide koodilõigu kohta Asenda mediaaniga:
Nüüd vaatame andmete ettevalmistamise vidina sihtülevaate võimalust. Oletame, et soovite kasutada survived
funktsioon, mis ennustab, kas reisija jääb ellu. Vali survived
veeru päis. Valige külgpaneelil Valige sihtveeruks. Ideaalne andmete jaotus survived
funktsioonil peaks olema ainult kaks klassi: jah (1
) või ei (0
), mis aitab klassifitseerida Titanicu õnnetuse ellujäämisvõimalusi. Kuid valitud sihtveeru andmete ebaühtluse tõttu on säilinud funktsioon 0
, 1
, ?
, unknown
ja yes
.
Valige probleemi tüüp valitud sihtveeru põhjal, mis võib olla kumbki Klassifikatsioon or Regressioon. Säilinud veeru puhul on probleemi tüüp klassifikatsioon. Vali jooks sihtveeru jaoks statistika loomiseks.
Andmete ettevalmistamise vidin loetleb sihtveergude ülevaate koos soovituste ja näidisselgitustega, et lahendada sihtveeru andmete kvaliteediga seotud probleemid. Samuti tõstab see automaatselt esile veerus olevad anomaalsed andmed.
Valime soovitatava teisenduse Loobuge haruldastest sihtväärtustest, sest haruldaste sihtväärtuste puhul on vähem vaatlusi.
Valitud teisendus rakendatakse Pandase andmeraamile ja ebatavalised sihtväärtused eemaldati säilinud veerust. Vaadake järgmist koodi:
Rakendatud teisenduse tulemused on andmeraamil kohe näha. Andmete ettevalmistamise vidina abil rakendatud andmete ettevalmistamise tegevuste jälgimiseks genereeritakse teisendatud kood ka järgmises märkmiku lahtris.
Järeldus
Selles postituses andsime juhiseid selle kohta, kuidas Studio andmete ettevalmistamise vidin aitab teil analüüsida andmete jaotusi, uurida tööriista loodud andmete kvaliteedi statistikat ja avastada võimalikke probleeme, nagu iga kriitilise funktsiooni kõrvalekalded. See aitab parandada üldist andmekvaliteeti, et aidata teil koolitada kvaliteetseid mudeleid, ja see eemaldab eristamata raskuste tõstmise, võimaldades teil andmeid kasutajaliideses teisendada ja sülearvuti lahtrite jaoks automaatselt koodi genereerida. Seejärel saate seda koodi kasutada oma MLOps-konveierites, et luua reprodutseeritavust, vältida aja raiskamist korduvatele ülesannetele ja vähendada ühilduvusprobleeme, kiirendades andmevahetuse torujuhtmete ehitamist ja juurutamist.
Kui olete SageMaker Data Wrangleri või Studio uus kasutaja, vaadake Alustage SageMaker Data Wrangleriga. Kui teil on selle postitusega seotud küsimusi, lisage need kommentaaride jaotisesse.
Autoritest
Parth Patel on lahenduste arhitekt AWSis San Francisco lahe piirkonnas. Parth juhendab kliente kiirendama oma teekonda pilve poole ning aitama neil AWS-pilve edukalt kasutusele võtta ja selles kasvada. Ta keskendub masinõppele, keskkonnasäästlikkusele ja rakenduste moderniseerimisele.
Isha Dua on San Francisco lahe piirkonnas asuv vanemlahenduste arhitekt. Ta aitab AWS Enterprise'i klientidel kasvada, mõistes nende eesmärke ja väljakutseid ning juhendades neid, kuidas nad saavad oma rakendusi pilvepõhiselt üles ehitada, tagades samal ajal nende vastupidavuse ja skaleeritavuse. Ta on kirglik masinõppetehnoloogiate ja keskkonnasäästlikkuse vastu.
Hariharan Suresh on AWSi vanemlahenduste arhitekt. Ta on kirglik andmebaaside, masinõppe ja uuenduslike lahenduste kujundamise vastu. Enne AWS-iga liitumist oli Hariharan tootearhitekt, põhipanganduse juurutamise spetsialist ja arendaja ning töötas BFSI organisatsioonidega üle 11 aasta. Väljaspool tehnikat naudib ta paraplaaniga lendamist ja jalgrattasõitu.
Dani Mitchell on AI/ML spetsialistilahenduste arhitekt ettevõttes Amazon Web Services. Ta keskendub Computer Visioni kasutusjuhtudele ja aitab klientidel kogu EMEA-s oma ML-teekonda kiirendada.
- AI
- ai kunst
- ai kunsti generaator
- on robot
- Amazon SageMaker
- Amazon SageMaker Data Wrangler
- tehisintellekti
- tehisintellekti sertifikaat
- tehisintellekt panganduses
- tehisintellekti robot
- tehisintellekti robotid
- tehisintellekti tarkvara
- AWS-i masinõpe
- blockchain
- plokiahela konverents ai
- coingenius
- vestluslik tehisintellekt
- krüptokonverents ai
- dall's
- sügav õpe
- google ai
- Keskmine (200)
- masinõpe
- Platon
- plato ai
- Platoni andmete intelligentsus
- Platoni mäng
- PlatoData
- platogaming
- skaala ai
- süntaks
- sephyrnet