Enligt en undersökning 2020 av dataforskare utförd av Anaconda är dataförberedelse ett av de kritiska stegen i arbetsflöden för maskininlärning (ML) och dataanalys, och ofta mycket tidskrävande för datavetare. Dataforskare lägger cirka 66 % av sin tid på dataförberedelser och analysuppgifter, inklusive laddning (19 %), rengöring (26 %) och visualisering av data (21 %).
Amazon SageMaker Studio är den första helt integrerade utvecklingsmiljön (IDE) för ML. Med ett enda klick kan datavetare och utvecklare snabbt snurra upp Studioanteckningsböcker att utforska datauppsättningar och bygga modeller. Om du föredrar ett GUI-baserat och interaktivt gränssnitt kan du använda Amazon SageMaker Data Wrangler, med över 300 inbyggda visualiseringar, analyser och transformationer för att effektivt bearbeta data som backas upp av Spark utan att skriva en enda rad kod.
Data Wrangler erbjuder nu en inbyggd dataförberedelsefunktion i Amazon SageMaker Studio bärbara datorer som gör det möjligt för ML-utövare att visuellt granska dataegenskaper, identifiera problem och åtgärda problem med datakvalitet – med bara några få klick direkt i bärbara datorer.
I det här inlägget visar vi dig hur Data Wrangler dataprep-widgeten genererar automatiskt viktiga visualiseringar ovanpå en Pandas dataram för att förstå datadistribution, upptäcka datakvalitetsproblem och ytdatainsikter såsom extremvärden för varje funktion. Det hjälper till att interagera med data och upptäcka insikter som kan gå obemärkt förbi med ad hoc-frågor. Den rekommenderar också transformationer för att åtgärda, gör att du kan tillämpa datatransformationer på användargränssnittet och automatiskt generera kod i anteckningsbokens celler. Den här funktionen är tillgänglig i alla regioner där SageMaker Studio är tillgänglig.
Lösningsöversikt
Låt oss ytterligare förstå hur denna nya widget gör datautforskning avsevärt enklare och ger en sömlös upplevelse för att förbättra den övergripande databeredningsupplevelsen för dataingenjörer och praktiker. För vårt användningsfall använder vi en modifierad version av Titanic-dataset, en populär datauppsättning i ML-gemenskapen, som nu har lagts till som en exempeluppsättning så att du snabbt kan komma igång med SageMaker Data Wrangler. Den ursprungliga datamängden erhölls från OpenML, och modifierad för att lägga till problem med syntetisk datakvalitet av Amazon för denna demo. Du kan ladda ner den modifierade versionen av datasetet från den offentliga S3-sökvägen s3://sagemaker-sample-files/datasets/tabular/dirty-titanic/titanic-dirty-4.csv
.
Förutsättningar
För att få praktisk erfarenhet av alla funktioner som beskrivs i det här inlägget, fyll i följande förutsättningar:
- Se till att du har ett AWS-konto, säker åtkomst för att logga in på kontot via AWS Management Consoleoch AWS identitets- och åtkomsthantering (IAM) behörigheter att använda Amazon SageMaker och Amazon enkel lagringstjänst (Amazon S3) resurser.
- Använd exempeldataset från den offentliga S3-sökvägen
s3://sagemaker-sample-files/datasets/tabular/dirty-titanic/titanic-dirty-4.csv
eller alternativt ladda upp den till en S3-hink på ditt konto. - Gå ombord på en SageMaker-domän och få tillgång till Studio för att använda bärbara datorer. För instruktioner, se Ombord på Amazon SageMaker Domain. Om du använder befintlig Studio, uppgradera till senaste versionen av Studio.
Aktivera widgeten för datautforskning
När du använder Pandas dataramar kan användare av Studio-anteckningsboken manuellt aktivera datautforskningswidgeten så att nya visualiseringar visas som standard överst i varje kolumn. Widgeten visar ett histogram för numerisk data och ett stapeldiagram för andra typer av data. Dessa representationer låter dig snabbt förstå datadistributionen och upptäcka saknade värden och extremvärden utan att behöva skriva standardmetoder för varje kolumn. Du kan hålla muspekaren över fältet i varje visualisering för att få en snabb förståelse av distributionen.
Öppna Studio och skapa en ny Python 3-anteckningsbok. Se till att välja Datavetenskap 3.0 bild från SageMaker-bilder genom att klicka Byt miljö knapp.
Widgeten för datautforskning är tillgänglig i följande bilder. För listan över standard SageMaker-bilder, se Tillgängliga Amazon SageMaker-bilder.
- Python 3 (Data Science) med Python 3.7
- Python 3 (Data Science 2.0) med Python 3.8
- Python 3 (Data Science 3.0) med Python 3.10
- Spark Analytics 1.0 och 2.0
För att använda den här widgeten, importera SageMaker_DataWrangler
bibliotek. Ladda den modifierade versionen av Titanic dataset från S3://sagemaker-sample-files/datasets/tabular/dirty-titanic/titanic-dirty-4.csv
och läs CSV med Pandas bibliotek:
Visualisera data
Efter att data har laddats i Pandas dataram kan du se data genom att bara använda df
or display(df)
. Tillsammans med att lista raden ger dataprep-widgeten insikter, visualiseringar och råd om datakvalitet. Du behöver inte skriva någon ytterligare kod för att generera funktions- och målinsikter, distributionsinformation eller renderingsdatakvalitetskontroller. Du kan välja dataramtabellens rubrik för att se den statistiska sammanfattningen som visar varningar för datakvalitet, om några.
Varje kolumn visar ett stapeldiagram eller histogram baserat på datatypen. Som standard samplar widgeten upp till 10,000 XNUMX observationer för att generera meningsfulla insikter. Det ger också möjlighet att köra insiktsanalysen på hela datamängden.
Som visas i följande skärmdump identifierar denna widget om en kolumn har kategoriska eller kvantitativa data.
För kategorisk data genererar widgeten stapeldiagrammet med alla kategorier. I följande skärmdump, till exempel, kolumnen Sex
identifierar kategorierna på data. Du kan hålla muspekaren över baren (man i det här fallet) för att se detaljerna för dessa kategorier, som det totala antalet rader med värdet male
och dess fördelning i den totala visualiserade datamängden (64.07 % i detta exempel). Den framhäver också den totala procentandelen av saknade värden i en annan färg för kategoridata. För kvantitativa data som ticket
kolumnen visar den fördelningen tillsammans med procentandelen ogiltiga värden.
Om du vill se en vanlig Panda-visualisering i anteckningsboken kan du välja Se Panda-bordet och växla mellan widgeten och Pandas-representationen, som visas i följande skärmdump.
För att få mer detaljerade insikter om data i kolumnen, välj kolumnhuvudet för att öppna en sidopanel dedikerad till kolumnen. Här kan du se två flikar: Insikter och Datakvalitet.
I de följande avsnitten utforskar vi dessa två alternativ mer i detalj.
Insikter
Smakämnen Insikter fliken ger detaljer med beskrivningar för varje kolumn. Detta avsnitt listar aggregerad statistik, såsom läge, antal unika, kvoter och antal för saknade/ogiltiga värden, etc., samt visualiserar datadistribution med hjälp av ett histogram eller ett stapeldiagram. I följande skärmdumpar kan du kolla in datainsikterna och distributionsinformationen som visas med lättbegripliga visualiseringar som genereras för den valda kolumnen survived
.
Datakvalitet
Studiodataprep-widgeten framhäver identifierade datakvalitetsproblem med varningsskylten i rubriken. Widget kan identifiera hela spektrumet av datakvalitetsproblem från grunderna (saknade värden, konstant kolumn, etc.) till mer ML-specifika (målläckage, funktioner med låg prediktiv poäng, etc.). Widget markerar cellerna som orsakar datakvalitetsproblemet och organiserar om raderna för att placera de problematiska cellerna överst. För att åtgärda datakvalitetsproblemet tillhandahåller widgeten flera transformatorer som kan användas med ett klick på en knapp.
För att utforska avsnittet om datakvalitet, välj kolumnrubriken och i sidopanelen väljer du Datakvalitet flik. Du bör se följande i din Studio-miljö.
Låt oss titta på de olika alternativen som finns tillgängliga på Datakvalitet flik. För det här exemplet väljer vi ålderskolumnen, som detekteras som en kvantitativ kolumn baserat på data. Som vi kan se i följande skärmdump föreslår den här widgeten olika typer av transformationer som du kan använda, inklusive de vanligaste åtgärderna, som t.ex. Ersätt med nytt värde, Droppe saknas, Ersätt med median, eller Ersätt med medelvärde. Du kan välja vilken som helst av dessa för din datauppsättning baserat på användningsfallet (ML-problemet du försöker lösa). Det ger dig också Släpp kolumn alternativet om du vill ta bort funktionen helt och hållet.
När du väljer Använd och exportera kod, appliceras transformationen på den djupa kopian av dataramen. När omvandlingen har tillämpats framgångsrikt uppdateras datatabellen med insikter och visualiseringar. Transformeringskoden genereras efter den befintliga cellen i anteckningsboken. Du kan köra den här exporterade koden senare för att tillämpa transformationen på dina datauppsättningar och utöka den enligt dina behov. Du kan anpassa transformationen genom att direkt modifiera den genererade koden. Om vi tillämpar Droppe saknas alternativet i kolumnen Ålder tillämpas följande transformationskod på datasetet, och kod genereras också i en cell under widgeten:
Följande är ett annat exempel på ett kodavsnitt för Ersätt med median:
Låt oss nu titta på dataprep-widgetens målinsiktskapacitet. Anta att du vill använda survived
funktion för att förutsäga om en passagerare kommer att överleva. Välj den survived
kolumnrubriken. Välj i sidopanelen Välj som målkolumn. Den idealiska datadistributionen för survived
funktion ska bara ha två klasser: ja (1
) eller nej (0
), som hjälper till att klassificera Titanic-kraschens överlevnadsmöjligheter. Men på grund av datainkonsekvenser i den valda målkolumnen har den överlevda funktionen 0
, 1
, ?
, unknown
och yes
.
Välj problemtyp baserat på den valda målkolumnen, vilket kan vara antingen Klassificering or Regression. För den överlevda kolumnen är problemtypen klassificering. Välja Körning för att generera insikter för målkolumnen.
Dataprep-widgeten listar målkolumnens insikter med rekommendationer och exempelförklaringar för att lösa problemen med målkolumnens datakvalitet. Den framhäver också automatiskt de onormala uppgifterna i kolumnen.
Vi väljer den rekommenderade transformationen Släpp sällsynta målvärden, eftersom det finns färre observationer för de sällsynta målvärdena.
Den valda transformationen tillämpas på Pandas dataram och de ovanliga målvärdena eliminerades från den överlevda kolumnen. Se följande kod:
Resultaten av den tillämpade transformationen är omedelbart synliga på dataramen. För att spåra dataförberedande aktiviteter som tillämpas med hjälp av dataprep-widgeten, genereras den transformerade koden också i följande anteckningsbokcell.
Slutsats
I det här inlägget gav vi vägledning om hur Studio-dataprep-widgeten kan hjälpa dig att analysera datadistributioner, utforska datakvalitetsinsikter som genereras av verktyget och avslöja potentiella problem som extremvärden för varje kritisk funktion. Detta hjälper till att förbättra den övergripande datakvaliteten för att hjälpa dig att träna högkvalitativa modeller, och det tar bort de odifferentierade tunga lyften genom att låta dig transformera data i användargränssnittet och generera kod för bärbara celler automatiskt. Du kan sedan använda den här koden i dina MLOps-pipelines för att bygga upp reproducerbarhet, undvika att slösa tid på repetitiva uppgifter och minska kompatibilitetsproblem genom att påskynda konstruktionen och distributionen av pipelines för databråk.
Om du är ny på SageMaker Data Wrangler eller Studio, se Kom igång med SageMaker Data Wrangler. Om du har några frågor relaterade till det här inlägget, lägg till det i kommentarsfältet.
Om författarna
Parth Patel är en lösningsarkitekt på AWS i San Francisco Bay Area. Parth vägleder kunder att påskynda sin resa till molnet och hjälpa dem att framgångsrikt anta och växa på AWS Cloud. Han fokuserar på maskininlärning, miljömässig hållbarhet och applikationsmodernisering.
Isha Dua är en senior lösningsarkitekt baserad i San Francisco Bay Area. Hon hjälper AWS Enterprise-kunder att växa genom att förstå deras mål och utmaningar och vägleda dem om hur de kan utforma sina applikationer på ett molnbaserat sätt samtidigt som de ser till att de är motståndskraftiga och skalbara. Hon brinner för maskininlärningsteknik och miljömässig hållbarhet.
Hariharan Suresh är Senior Solutions Architect på AWS. Han brinner för databaser, maskininlärning och att designa innovativa lösningar. Innan han började på AWS var Hariharan produktarkitekt, specialist på implementering av kärnbanker och utvecklare och arbetade med BFSI-organisationer i över 11 år. Utanför tekniken tycker han om att skärmflyga och cykla.
Dani Mitchell är en AI/ML Specialist Solutions Architect på Amazon Web Services. Han är fokuserad på användningsfall för Computer Vision och att hjälpa kunder över hela EMEA att påskynda sin ML-resa.
- AI
- ai konst
- ai art generator
- har robot
- Amazon SageMaker
- Amazon SageMaker Data Wrangler
- artificiell intelligens
- artificiell intelligenscertifiering
- artificiell intelligens inom bankväsendet
- artificiell intelligens robot
- robotar med artificiell intelligens
- programvara för artificiell intelligens
- AWS maskininlärning
- blockchain
- blockchain konferens ai
- coingenius
- konversationskonstnärlig intelligens
- kryptokonferens ai
- dalls
- djupt lärande
- du har google
- Mellan (200)
- maskininlärning
- plato
- plato ai
- Platon Data Intelligence
- Platon spel
- PlatonData
- platogaming
- skala ai
- syntax
- zephyrnet