Adatok előkészítése a Databricksből gépi tanuláshoz az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.

Készítsen adatokat a Databricksből a gépi tanuláshoz az Amazon SageMaker Data Wrangler segítségével

Az adattudományi és adatmérnöki csapatok idejük jelentős részét a gépi tanulási (ML) életciklus adat-előkészítési szakaszában töltik, és adatkiválasztási, -tisztítási és -átalakítási lépéseket hajtanak végre. Ez minden ML-munkafolyamat szükséges és fontos lépése annak érdekében, hogy értelmes betekintést és előrejelzéseket generálhassunk, mivel a rossz vagy rossz minőségű adatok nagymértékben csökkentik a levezetett betekintések relevanciáját.

Az adatmérnöki csapatok hagyományosan felelősek a nyers adatok feldolgozásáért, konszolidálásáért és átalakításáért a továbbfelhasználáshoz. Az adattudósoknak gyakran további adatfeldolgozást kell végezniük a tartományspecifikus ML használati eseteknél, például a természetes nyelv és az idősorok esetében. Például bizonyos ML-algoritmusok érzékenyek lehetnek a hiányzó értékekre, ritka jellemzőkre vagy kiugró értékekre, és különös figyelmet igényelnek. Még azokban az esetekben is, amikor az adatkészlet jó állapotban van, előfordulhat, hogy az adatkutatóknak át kell alakítaniuk a jellemzők eloszlását vagy új funkciókat kell létrehozniuk, hogy maximalizálják a modellekből nyert betekintést. E célok elérése érdekében az adattudósoknak adatmérnöki csapatokra kell támaszkodniuk, hogy alkalmazkodjanak a kért változtatásokhoz, ami függőséget és késést eredményez a modellfejlesztési folyamatban. Alternatív megoldásként az adattudományi csoportok dönthetnek úgy, hogy különböző programozási paradigmák használatával belsőleg végzik az adat-előkészítést és a jellemzők tervezését. Ez azonban időt és erőfeszítést igényel a könyvtárak és keretrendszerek telepítésében és konfigurálásában, ami nem ideális, mert ezt az időt jobban el lehet tölteni a modell teljesítményének optimalizálásával.

Amazon SageMaker Data Wrangler leegyszerűsíti az adat-előkészítési és szolgáltatástervezési folyamatot, hetekről percekre csökkenti az adatok összesítésének és előkészítésének idejét az ML-hez, mivel egyetlen vizuális felületet biztosít az adatkutatók számára az adatkészleteik kiválasztásához, tisztításához és feltárásához. A Data Wrangler több mint 300 beépített adatátalakítást kínál a funkciók normalizálásához, átalakításához és kombinálásához kód írása nélkül. Több adatforrásból is importálhat adatokat, mint pl Amazon Simple Storage Service (Amazon S3), Amazon Athéné, Amazon RedShiftés Hópehely. Most már használhatod is Adattárak adatforrásként a Data Wranglerben az adatok könnyű előkészítéséhez az ML-hez.

A Databricks Lakehouse Platform az adatlakkok és adattárházak legjobb elemeit ötvözi, hogy biztosítsa az adattárházak megbízhatóságát, erős irányítását és teljesítményét az adatlakkok nyitottságával, rugalmasságával és gépi tanulási támogatásával. A Databricks a Data Wrangler adatforrásaként most gyorsan és egyszerűen csatlakozhat a Databrickshez, interaktívan lekérdezheti a Databricksben tárolt adatokat SQL használatával, és megtekintheti az adatok előnézetét az importálás előtt. Ezenkívül a Databricksben lévő adatait egyesítheti az Amazon S3-ban tárolt adatokkal, valamint az Amazon Athena, az Amazon Redshift és a Snowflake szolgáltatáson keresztül lekérdezett adatokkal, hogy létrehozza a megfelelő adatkészletet az ML használati esetéhez.

Ebben a bejegyzésben átalakítjuk a Lending Club Loan adatkészletet az Amazon SageMaker Data Wrangler segítségével az ML modell képzésben való felhasználáshoz.

Megoldás áttekintése

Az alábbi ábra szemlélteti megoldásunk architektúráját.

Adatok előkészítése a Databricksből gépi tanuláshoz az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.

A Lending Club Loan adatkészlet a 2007–2011 között kibocsátott összes hitel teljes hiteladatait tartalmazza, beleértve a hitel aktuális állapotát és a legutóbbi fizetési információkat. 39,717 22 sorból, 3 jellemzőoszlopból és XNUMX célcímkéből áll.

Adataink Data Wrangler használatával történő átalakításához a következő magas szintű lépéseket hajtjuk végre:

  1. Töltse le és ossza fel az adatkészletet.
  2. Hozzon létre egy Data Wrangler folyamatot.
  3. Adatok importálása a Databricksből a Data Wranglerbe.
  4. Importáljon adatokat az Amazon S3-ból a Data Wranglerbe.
  5. Csatlakoztassa az adatokat.
  6. Transzformációk alkalmazása.
  7. Exportálja az adatkészletet.

Előfeltételek

A bejegyzés feltételezi, hogy van egy futó Databricks-fürtje. Ha a fürt AWS-en fut, ellenőrizze, hogy a következők vannak konfigurálva:

Databricks beállítás

Kövesse Biztonságos hozzáférés az S3-csoportokhoz példányprofilok segítségével a szükségeshez AWS Identity and Access Management (IAM) szerepkörök, S3 csoportházirend és Databricks-fürtkonfiguráció. Győződjön meg arról, hogy a Databricks-fürt a megfelelővel van konfigurálva Instance Profile, a speciális opciók alatt kiválasztva, hogy hozzáférjen a kívánt S3 vödörhöz.

Adatok előkészítése a Databricksből gépi tanuláshoz az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.

Miután a Databricks-fürt elkészült és fut az Amazon S3 szükséges hozzáférésével, lekérheti a JDBC URL a Databricks-fürtből, hogy a Data Wrangler csatlakozzon hozzá.

Töltse le a JDBC URL-t

A JDBC URL lekéréséhez hajtsa végre a következő lépéseket:

  1. A Databricksben lépjen a fürtök felhasználói felületére.
  2. Válassza ki a klasztert.
  3. A Configuration lapot választani Speciális beállítások.
  4. Alatt Speciális beállítások, válaszd a JDBC/ODBC Tab.
  5. Másolja ki a JDBC URL-t.
    Adatok előkészítése a Databricksből gépi tanuláshoz az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.

Ügyeljen arra, hogy a személyes hozzáférést helyettesítse jelképes az URL-ben.

Data Wrangler beállítása

Ez a lépés feltételezi, hogy rendelkezik hozzáféréssel az Amazon SageMaker alkalmazáshoz, amely egy példánya Amazon SageMaker Studioés egy Studio-felhasználó.

A Data Wranglertől a Databricks JDBC kapcsolathoz való hozzáférés engedélyezéséhez a Studio felhasználójának a következő engedélyekre van szüksége:

  • secretsmanager:PutResourcePolicy

Kövesse az alábbi lépéseket a Studio fenti engedéllyel rendelkező felhasználójához rendelt IAM-végrehajtási szerepkör frissítéséhez, mint IAM-adminisztrációs felhasználó.

  1. Az IAM konzolon válassza a lehetőséget szerepek a navigációs ablaktáblában.
  2. Válassza ki a Studio-felhasználóhoz rendelt szerepet.
  3. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Engedélyek hozzáadása.
  4. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Inline szabályzat létrehozása.
  5. A Szolgáltatáshoz válassza a lehetőséget Titkok menedzsere.
  6. On Hozzászólások, választ Hozzáférési szint.
  7. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Engedélyek kezelése.
  8. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a PutResourcePolicy.
  9. A Tudástár, választ Különleges és válassza ki a Bármelyik ebben a fiókban.
    Adatok előkészítése a Databricksből gépi tanuláshoz az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.

Töltse le és ossza fel az adatkészletet

Kezdheti azzal az adatkészlet letöltése. Demonstrációs célból felosztjuk az adatkészletet a jellemzőoszlopok másolásával id, emp_title, emp_length, home_ownerés annual_inc hogy létrehozzon egy másodikat hitelek_2.csv fájlt. A fent említett oszlopokat eltávolítjuk az eredeti kölcsönfájlból, kivéve a id oszlopot, és nevezze át az eredeti fájlt erre hitelek_1.csv. Töltse fel a hitelek_1.csv fájlt Adattárak táblázat létrehozásához loans_1 és a hitelek_2.csv egy S3 vödörben.

Hozzon létre egy Data Wrangler folyamatot

A Data Wrangler előfeltételeivel kapcsolatos információkért lásd: Ismerkedjen meg a Data Wranglerrel.

Kezdjük egy új adatfolyam létrehozásával.

  1. A Studio konzolon a filé menüben válasszon Új.
  2. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Data Wrangler áramlás.
  3. Nevezze át a folyamatot tetszés szerint.
    Adatok előkészítése a Databricksből gépi tanuláshoz az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.

Alternatív megoldásként létrehozhat egy új adatfolyamot az Indítóból.

  • A Studio konzolon válassza a lehetőséget Amazon SageMaker Studio a navigációs ablaktáblában.
  • A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Új adatfolyam.
    Adatok előkészítése a Databricksből gépi tanuláshoz az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.

Az új folyamat létrehozása néhány percig tarthat. Az áramlás létrehozása után megjelenik a Adatok importálása cimre.

Importáljon adatokat a Databricksből a Data Wranglerbe

Ezután a Databricks-t (JDBC) állítottuk be adatforrásként a Data Wranglerben. Ahhoz, hogy adatokat importálhassunk a Databricks szolgáltatásból, először hozzá kell adnunk a Databrickst adatforrásként.

  1. A Adatok importálása a Data Wrangler-folyamat lapján válassza ki Adatforrás hozzáadása.
  2. A legördülő menüben válassza a lehetőséget Databricks (JDBC).
    Adatok előkészítése a Databricksből gépi tanuláshoz az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.

A Adatok importálása a Databrickből oldalon adja meg a fürt adatait.

  1. A Adatkészlet neve, írjon be egy nevet, amelyet használni szeretne a folyamatfájlban.
  2. A Vezető, válassza ki az illesztőprogramot com.simba.spark.jdbc.Driver.
  3. A JDBC URL, írja be a korábban szerzett Databricks-fürt URL-címét.

Az URL-nek a következő formátumhoz kell hasonlítania jdbc:spark://<serve- hostname>:443/default;transportMode=http;ssl=1;httpPath=<http- path>;AuthMech=3;UID=token;PWD=<personal-access-token>.

  1. Az SQL lekérdezésszerkesztőben adja meg a következő SQL SELECT utasítást:
    select * from loans_1

Ha más táblanevet választott az adatok Databricksbe való feltöltésekor, cserélje le a hitelek_1 értéket a fenti SQL-lekérdezésben ennek megfelelően.

A SQL lekérdezés szakaszában a Data Wranglerben lekérdezhet bármely, a JDBC Databricks adatbázishoz kapcsolódó táblát. Az előre kiválasztott Mintavétel engedélyezése beállítás alapértelmezés szerint lekéri az adatkészlet első 50,000 XNUMX sorát. Az adatkészlet méretétől függően a kijelölés törlése Mintavétel engedélyezése hosszabb behozatali időt eredményezhet.

  1. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a futás.

A lekérdezés futtatásával megtekintheti a Databricks adatkészletét közvetlenül a Data Wranglerben.
Adatok előkészítése a Databricksből gépi tanuláshoz az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.

  1. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a import.
    Adatok előkészítése a Databricksből gépi tanuláshoz az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.

A Data Wrangler rugalmasságot biztosít több párhuzamos kapcsolat beállításához egy Databricks-fürthöz vagy szükség esetén több fürthöz, lehetővé téve a kombinált adatkészletek elemzését és előkészítését.

Importálja az adatokat az Amazon S3-ból a Data Wranglerbe

Ezután importáljuk a loan_2.csv fájl az Amazon S3-ból.

  1. Az Importálás lapon válassza a lehetőséget Amazon S3 adatforrásként.
    Adatok előkészítése a Databricksből gépi tanuláshoz az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.
  2. Navigáljon az S3 csoporthoz a loan_2.csv fájlt.

A CSV-fájl kiválasztásakor megtekintheti az adatok előnézetét.

  1. A Részletek panelen válassza a lehetőséget Speciális konfiguráció hogy megbizonyosodjon arról Mintavétel engedélyezése van kiválasztva és VESSZŐ számára van kiválasztva delimiter.
  2. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a import.
    Adatok előkészítése a Databricksből gépi tanuláshoz az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.

Azután loans_2.csv Az adatkészlet importálása sikeres volt, az adatfolyam felület megjeleníti a Databricks JDBC és az Amazon S3 adatforrásokat is.

Adatok előkészítése a Databricksből gépi tanuláshoz az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.

Csatlakoztassa az adatokat

Most, hogy adatokat importáltunk a Databricksből és az Amazon S3-ból, csatlakoztassuk az adatkészleteket egy közös egyedi azonosító oszlop segítségével.

  1. A Adatáramlás fül, for Adattípusok, válassza ki a pluszjelet loans_1.
  2. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Csatlakozik.
    Adatok előkészítése a Databricksből gépi tanuláshoz az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.
  3. Válassza a loans_2.csv fájl, mint a Jobb adatkészlet.
  4. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a konfigurálása a csatlakozási feltételek beállításához.
    Adatok előkészítése a Databricksből gépi tanuláshoz az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.
  5. A Név, adja meg a csatlakozás nevét.
  6. A Csatlakozás típusa, választ Belső ehhez a bejegyzéshez.
  7. Válassza a id oszlop, amelyhez csatlakozhat.
  8. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a alkalmaz az egyesített adatkészlet előnézetének megtekintéséhez.
  9. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a hozzáad hogy hozzáadja az adatfolyamhoz.
    Adatok előkészítése a Databricksből gépi tanuláshoz az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.

Transzformációk alkalmazása

A Data Wrangler több mint 300 beépített transzformációt tartalmaz, amelyek nem igényelnek kódolást. Használjunk beépített transzformációkat az adatkészlet előkészítéséhez.

Dobja el az oszlopot

Először eldobjuk a redundáns azonosító oszlopot.

  1. Az összekapcsolt csomóponton válassza ki a pluszjelet.
  2. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Transzformáció hozzáadása.
    Adatok előkészítése a Databricksből gépi tanuláshoz az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.
  3. Alatt Átalakítja, választani + Lépés hozzáadása.
  4. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Oszlopok kezelése.
  5. A Átalakítás, választ Dobja el az oszlopot.
  6. A Eldobandó oszlopok, válassza ki az oszlopot id_0.
  7. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Preview.
    Adatok előkészítése a Databricksből gépi tanuláshoz az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.
  8. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a hozzáad.

Karakterlánc formázása

Alkalmazzunk karakterlánc formázást, hogy eltávolítsuk a százalékos szimbólumot a int_rate és a revol_util oszlopok.

  1. A dátum fül alatt Átalakítások, választ + Lépés hozzáadása.
    Adatok előkészítése a Databricksből gépi tanuláshoz az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.
  2. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Karakterlánc formázása.
  3. A Átalakítás, választ Karakterek lehúzása jobbról.

A Data Wrangler lehetővé teszi, hogy a kiválasztott átalakítást egyszerre több oszlopon alkalmazza.

  1. A Beviteli oszlopok, választ int_rate és a revol_util.
  2. A Eltávolítandó karakterek, belép %.
  3. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Preview.
    Adatok előkészítése a Databricksből gépi tanuláshoz az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.
  4. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a hozzáad.

Szöveg megjelenítése

Most vektorizáljunk verification_status, egy szöveges jellemző oszlop. A szövegoszlopot terminus gyakoriság–inverz dokumentumfrekvenciás (TF-IDF) vektorokká alakítjuk a számlálóvektor és egy szabványos tokenizátor alkalmazásával az alábbiakban leírtak szerint. A Data Wrangler lehetőséget biztosít arra is, hogy saját tokenizátort vigyen magával, ha kívánja.

  1. Alatt transzformerek, választ + Lépés hozzáadása.
  2. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Szöveg megjelenítése.
  3. A Átalakítás, választ Vektorosítani.
  4. A Beviteli oszlopok, választ verification_status.
  5. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Preview.
    Adatok előkészítése a Databricksből gépi tanuláshoz az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.
  6. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a hozzáad.

Exportálja az adatkészletet

Miután több átalakítást alkalmaztunk különböző típusú oszlopokon, beleértve a szöveges, kategorikus és numerikus oszlopokat, készen állunk az átalakított adatkészlet felhasználására az ML modell betanítására. Az utolsó lépés az átalakított adatkészlet exportálása az Amazon S3-ba. A Data Wranglerben több lehetőség közül választhat az átalakítások későbbi felhasználásához:

  • A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Exportálási lépés hogy automatikusan generáljon egy Jupyter notebookot SageMaker Processing kóddal a feldolgozáshoz, és exportálja az átalakított adatkészletet egy S3 tárolóba. További információkért lásd a Indítsa el a feldolgozási feladatokat néhány kattintással az Amazon SageMaker Data Wrangler segítségével.
  • Exportáljon egy Studio-jegyzetfüzetet, amely létrehozza a SageMaker csővezeték adatfolyamával, vagy egy notebookot, amely létrehoz egy Amazon SageMaker Feature Store funkciócsoport, és funkciókat ad hozzá egy offline vagy online szolgáltatásbolthoz.
  • A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Adatok exportálása közvetlenül az Amazon S3-ba exportálni.

Ebben a bejegyzésben kihasználjuk a Adatok exportálása lehetőség a Átalakítás nézetben, hogy az átalakított adatkészletet közvetlenül az Amazon S3-ba exportálja.

  1. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Adatok exportálása.
    Adatok előkészítése a Databricksből gépi tanuláshoz az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.
  2. A S3 hely, választ Tallózás és válassza ki az S3 vödröt.
  3. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Adatok exportálása.
    Adatok előkészítése a Databricksből gépi tanuláshoz az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.

Tisztítsuk meg

Ha a Data Wranglerrel végzett munka befejeződött, állítsa le a Data Wrangler-példányt további díjak elkerülése érdekében.

Következtetés

Ebben a bejegyzésben bemutattuk, hogyan lehet gyorsan és egyszerűen beállítani és csatlakoztatni a Databricks-t adatforrásként a Data Wranglerben, interaktívan lekérdezni a Databricksben tárolt adatokat SQL használatával, és megtekinteni az adatok előnézetét az importálás előtt. Ezenkívül megvizsgáltuk, hogyan kapcsolhatja össze adatait a Databricksben az Amazon S3-ban tárolt adatokkal. Ezután adattranszformációkat alkalmaztunk a kombinált adatkészleten, hogy létrehozzunk egy adat-előkészítési folyamatot. A Data Wrangler elemzési képességeinek további felfedezéséhez, beleértve a célszivárgási és torzítási jelentések generálását, tekintse meg a következő blogbejegyzést Gyorsítsa fel az adatok előkészítését az Amazon SageMaker Data Wrangler segítségével a cukorbetegek visszafogadásának előrejelzéséhez.

A Data Wrangler használatának megkezdéséhez lásd: Készítsen ML adatokat az Amazon SageMaker Data Wrangler segítségével, és tekintse meg a Data Wranglerrel kapcsolatos legfrissebb információkat Termékoldal.


A szerzőkről

Adatok előkészítése a Databricksből gépi tanuláshoz az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.Roop Bains az AWS megoldástervezője, aki az AI/ML-re összpontosít. Szenvedélyesen segíti ügyfeleit az innovációban és üzleti céljaik elérésében a mesterséges intelligencia és a gépi tanulás segítségével. Szabadidejében Roop szeret olvasni és túrázni.

Adatok előkészítése a Databricksből gépi tanuláshoz az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.Igor Alekseev az AWS adat- és elemzési partner megoldástervezője. Igor stratégiai partnerekkel dolgozik együtt, segítve őket komplex, AWS-optimalizált architektúrák felépítésében. Mielőtt Data/Solution Architect-ként csatlakozott az AWS-hez, számos Big Data-projektet valósított meg, beleértve a Hadoop ökoszisztéma több adattóját is. Adatmérnökként az AI/ML csalásfelderítésben és irodaautomatizálásban való alkalmazásában vett részt. Igor projektjei számos iparágban zajlottak, beleértve a kommunikációt, a pénzügyet, a közbiztonságot, a gyártást és az egészségügyet. Korábban Igor full stack mérnökként/technikai vezetőként dolgozott.

Adatok előkészítése a Databricksből gépi tanuláshoz az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.Huong Nguyen az AWS idősebb termékmenedzsere. Ő vezeti a SageMaker Studio felhasználói élményét. 13 éves tapasztalattal rendelkezik az ügyfelek megszállottja és adatvezérelt termékek létrehozásában mind a vállalati, mind a fogyasztói terek számára. Szabadidejében szívesen olvas, a természetben tartózkodik és a családjával tölti az idejét.

Adatok előkészítése a Databricksből gépi tanuláshoz az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.Henry Wang az AWS szoftverfejlesztő mérnöke. Nemrég csatlakozott a Data Wrangler csapatához, miután végzett az UC Davis-en. Érdekli az adattudomány és a gépi tanulás, és hobbiból 3D nyomtatással foglalkozik.

Időbélyeg:

Még több AWS gépi tanulás