Refit trained parameters on large datasets using Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Szerelje fel újra a betanított paramétereket nagy adatkészletekre az Amazon SageMaker Data Wrangler segítségével

Amazon SageMaker Data Wrangler segít megérteni, összesíteni, átalakítani és előkészíteni az adatokat a gépi tanuláshoz (ML) egyetlen vizuális felületről. Több mint 300 beépített adatátalakítást tartalmaz, így gyorsan normalizálhatja, átalakíthatja és kombinálhatja a funkciókat anélkül, hogy kódot kellene írnia.

Az adattudományi szakemberek adatokat generálnak, figyelnek meg és dolgozzanak fel olyan üzleti problémák megoldására, ahol az adatkészletekből szolgáltatásokat kell átalakítaniuk és kinyerniük. Az olyan átalakítások, mint az ordinális kódolás vagy a one-hot kódolás, megtanulják a kódolásokat az adatkészleten. Ezeket a kódolt kimeneteket betanított paramétereknek nevezzük. Mivel az adatkészletek idővel változnak, szükség lehet a korábban nem látott adatok kódolásának újraírására, hogy az átalakítási folyamat releváns maradjon az adatok szempontjából.

Örömmel jelentjük be az újra betanított paraméterek funkciót, amely lehetővé teszi a korábban betanított paraméterek használatát, és tetszés szerint átalakíthatja azokat. Ebben a bejegyzésben bemutatjuk, hogyan kell használni ezt a funkciót.

A Data Wrangler átszerelési funkciójának áttekintése

A következő példával szemléltetjük ennek a funkciónak a működését, mielőtt belevetnénk magunkat a betanított paraméterek javításának jellemzőibe.

Tételezzük fel, hogy az ügyféladatkészlet kategorikus tulajdonsággal rendelkezik country karakterláncokként ábrázolva, mint Australia és a Singapore. Az ML algoritmusok numerikus bevitelt igényelnek; ezért ezeket a kategorikus értékeket numerikus értékekké kell kódolni. A kategorikus adatok kódolása a kategóriák számszerű ábrázolásának létrehozásának folyamata. Például, ha a kategória országának értékei vannak Australia és a Singapore, ezt az információt két vektorba kódolhatja: [1, 0] a reprezentációhoz Australia és [0, 1] képviseli Singapore. Az itt használt transzformáció egy gyors kódolás, és az új kódolású kimenet a betanított paramétereket tükrözi.

A modell betanítása után idővel az ügyfelek száma növekedhet, és az országlistában jobban megkülönböztethető értékek jelennek meg. Az új adatkészlet tartalmazhat egy másik kategóriát, India, amely nem volt része az eredeti adatkészletnek, ami befolyásolhatja a modell pontosságát. Ezért újra kell képeznie a modellt az idők során összegyűjtött új adatokkal.

A probléma kiküszöbölése érdekében frissítenie kell a kódolást, hogy tartalmazza az új kategóriát, és frissítenie kell a vektorábrázolást a legújabb adatkészletnek megfelelően. Példánkban a kódolásnak tükröznie kell az új kategóriát country, Amely India. A kódolás frissítésének ezt a folyamatát általában újraillesztési műveletnek nevezzük. Az újratelepítési művelet végrehajtása után megkapja az új kódolást: Australia: [1, 0, 0], Singapore: [0, 1, 0] és India: [0, 0, 1]. A one-hot kódolás újbóli felszerelése, majd a modell új adatkészletre való átképzése jobb minőségű előrejelzéseket eredményez.

A Data Wrangler újratölthető paraméterezési funkciója a következő esetekben hasznos:

  • Az új adatok hozzáadódnak az adatkészlethez – Az ML modell átképzése akkor szükséges, ha az adatkészlet új adatokkal gazdagodik. Az optimális eredmény elérése érdekében a betanított paramétereket újra kell illesztenünk az új adatkészletre.
  • Képzés egy teljes adatkészletre, miután a mintaadatokon végrehajtotta a funkciótervezést – Nagy adatkészlet esetén az adatkészlet egy mintáját veszik figyelembe a betanított paraméterek megtanulásához, amelyek nem feltétlenül képviselik a teljes adatkészletet. Újra kell tanulnunk a betanított paramétereket a teljes adatkészleten.

Íme néhány az adathalmazon végrehajtott leggyakoribb Data Wrangler-transzformációk közül, amelyek hasznot húznak a betanított paraméterek visszaállítása opcióból:

A Data Wrangler átalakításaival kapcsolatos további információkért lásd: Adatok átalakítása.

Ebben a bejegyzésben bemutatjuk, hogyan lehet feldolgozni ezeket a betanított paramétereket az adatkészleteken a Data Wrangler segítségével. Használhatja a Data Wrangler-folyamatokat a termelési feladatokban az adatok újrafeldolgozására, ahogy azok növekednek és változnak.

Megoldás áttekintése

Ebben a bejegyzésben bemutatjuk, hogyan kell használni a Data Wrangler újratölthető paraméter funkcióját a nyilvánosan elérhető adatkészlettel Kaggle: US Housing Data from Zillow, Eladó ingatlanok az Egyesült Államokban. Megtalálja az otthonok eladási árait az otthonok különböző földrajzi elosztásaiban.

A következő diagram a Data Wrangler magas szintű architektúráját mutatja be a betanított paraméter funkció használatával. Megmutatjuk az adatminőségre gyakorolt ​​hatást az újra betanított paraméter nélkül is, és a végén összevetjük az eredményeket.

A munkafolyamat a következő lépéseket tartalmazza:

  1. Végezzen feltáró adatelemzést – Hozzon létre egy új folyamatot a Data Wranglerben a feltáró adatelemzés (EDA) elindításához. Importáljon üzleti adatokat, hogy megértse, megtisztítsa, összesítse, átalakítsa és előkészítse adatait a képzésre. Hivatkozni Fedezze fel az Amazon SageMaker Data Wrangler képességeit mintaadatkészletekkel további részletekért az EDA Data Wranglerrel való végrehajtásáról.
  2. Hozzon létre egy adatfeldolgozási feladatot – Ez a lépés az adatkészleten végzett összes átalakítást a konfigurált fájlban tárolt folyamatfájlként exportálja Amazon egyszerű tárolási szolgáltatás (Amazon S3) helyen. Az adatfeldolgozási feladat a Data Wrangler által generált folyamatfájllal alkalmazza az adatkészleten tanult átalakításokat és betanított paramétereket. Amikor az adatfeldolgozási feladat befejeződött, a kimeneti fájlok feltöltődnek a célcsomópontban konfigurált Amazon S3 helyre. Vegye figyelembe, hogy az újratöltés opció alapértelmezés szerint ki van kapcsolva. A feldolgozási feladat azonnali végrehajtásának alternatívájaként ezt is megteheti ütemezzen be egy feldolgozási munkát néhány kattintással a Data Wrangler – Create Job segítségével meghatározott időpontokban futtatható.
  3. Hozzon létre egy adatfeldolgozási feladatot a betanított paraméterek visszaállításával – Válassza ki a betanított paraméterek újbóli rögzítése funkciót a feladat létrehozásakor, hogy a betanított paraméterek újratanulását a teljes vagy megerősített adatkészleten kényszerítse ki. A folyamatfájl tárolására szolgáló Amazon S3 helykonfiguráció szerint az adatfeldolgozási feladat létrehozza vagy frissíti az új folyamatfájlt. Ha ugyanazt az Amazon S3 helyet konfigurálja, mint a 2. lépésben, az adatfeldolgozási feladat frissíti a 2. lépésben generált folyamatfájlt, amely felhasználható a folyamat adatainak megfelelő megőrzésére. A feldolgozási feladat befejezésekor a kimeneti fájlok feltöltődnek a célcsomópont konfigurált S3 gyűjtőhelyére. A frissített folyamatot a teljes adatkészleten használhatja egy éles munkafolyamathoz.

Előfeltételek

Mielőtt elkezdené, töltse fel az adatkészletet egy S3 tárolóba, majd importálja a Data Wranglerbe. Az utasításokat lásd Adatok importálása az Amazon S3-ból.

Most menjünk végig az architektúra diagramban említett lépéseken.

Végezze el az EDA-t a Data Wranglerben

A betanított paraméterek visszaállítása funkció kipróbálásához állítsa be a következő elemzést és átalakítást a Data Wranglerben. Az EDA beállításának végén a Data Wrangler létrehoz egy folyamatfájlt, amelyet betanított paraméterekkel rögzít az adatkészletből.

  1. Hozzon létre egy új folyamatot az Amazon SageMaker Data Wranglerben a feltáró adatelemzés érdekében.
  2. Importálja az Amazon S3-ba feltöltött üzleti adatokat.
  3. Megtekintheti a fájltípus, a határoló, a mintavétel stb. kiválasztására vonatkozó adatokat és beállításokat. Ebben a példában a Először K A Data Wrangler által biztosított mintavételi lehetőség az első 50,000 XNUMX rekord importálásához az adatkészletből.
  4. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a import.

Refit trained parameters on large datasets using Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertical Search. Ai.

  1. Miután ellenőrizte a Data Wrangler által alkalmazott adattípus-egyeztetést, adjon hozzá egy új elemzést.

Refit trained parameters on large datasets using Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertical Search. Ai.

  1. A Elemzés típusa, választ Adatminőségi és betekintési jelentés.
  2. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Teremt.

Az Adatminőség és az Insights jelentéssel rövid összefoglalót kap az adatkészletről olyan általános információkkal, mint a hiányzó értékek, érvénytelen értékek, jellemzőtípusok, kiugró értékek stb. Kiválaszthatja a funkciókat property_type és a city transzformációk alkalmazásához az adatkészleten, hogy megértsék az újra betanított paraméter-szolgáltatást.

Koncentráljunk a funkcióra property_type az adatkészletből. A jelentésben Funkció részletei részben láthatja a property_type, amely kategorikus jellemző, és hat egyedi érték, amely a Data Wrangler 50,000 XNUMX mintavételezett adatkészletéből származik. A teljes adatkészlet több kategóriát tartalmazhat a funkcióhoz property_type. Egy sok egyedi értékkel rendelkező szolgáltatás esetén előnyben részesítheti az ordinális kódolást. Ha a szolgáltatásnak néhány egyedi értéke van, akkor egy gyors kódolási megközelítés használható. Ebben a példában a one-hot kódolást választjuk property_type.

Refit trained parameters on large datasets using Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Hasonlóképpen a city jellemző, amely egy szöveges adattípus nagyszámú egyedi értékkel, alkalmazzunk sorszámú kódolást erre a jellemzőre.

Refit trained parameters on large datasets using Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertical Search. Ai.

  1. Navigáljon a Data Wrangler folyamathoz, válassza ki a pluszjelet, és válassza a lehetőséget Transzformáció hozzáadása.

Refit trained parameters on large datasets using Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertical Search. Ai.

  1. Válassza a Kategorikus kódolás lehetőség a kategorikus jellemzők átalakítására.

Refit trained parameters on large datasets using Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Az Adatminőségi és Betekintési Jelentés szolgáltatásból property_type hat egyedi kategóriát mutat: CONDO, LOT, MANUFACTURED, SINGLE_FAMILY, MULTI_FAMILYés TOWNHOUSE.

  1. A Átalakítás, választ Egyszeri kódolás.

Refit trained parameters on large datasets using Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertical Search. Ai.

A funkció egyidejű kódolása után property_type, megtekintheti mind a hat kategória előnézetét különálló funkciókként, amelyeket új oszlopként ad hozzá. Vegye figyelembe, hogy az előnézet létrehozásához 50,000 XNUMX rekordot vettek mintát az adatkészletből. Amikor egy Data Wrangler feldolgozási feladatot futtat ezzel a folyamattal, ezek az átalakítások a teljes adatkészletre vonatkoznak.

Refit trained parameters on large datasets using Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertical Search. Ai.

  1. Adjon hozzá egy új transzformációt, és válassza ki Kategorikus kódolás transzformáció alkalmazásához a jellemzőn city, amely nagyobb számú egyedi kategorikus szövegértékkel rendelkezik.
  2. Ha ezt a funkciót numerikus ábrázolásba szeretné kódolni, válassza a lehetőséget Sorrendi kódolás mert Átalakítás.

Refit trained parameters on large datasets using Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Refit trained parameters on large datasets using Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertical Search. Ai.

  1. Válassza az átalakítás előnézetét.

Látható ez a kategorikus jellemző city a kimeneti oszlopban sorszámértékekre van leképezve e_city.

  1. Adja hozzá ezt a lépést a kiválasztással Frissítések.

Refit trained parameters on large datasets using Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertical Search. Ai.

  1. Beállíthatja az Amazon S3 célhelyét, hogy az alkalmazott átalakításokat az adatkészleten tárolja, és a kimenetet CSV-fájlként hozza létre.

Refit trained parameters on large datasets using Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertical Search. Ai.

A Data Wrangler a felhasználói felületen megadott munkafolyamatot folyamatfájlként tárolja, és feltölti a konfigurált adatfeldolgozási feladat Amazon S3 helyére. Ez a folyamatfájl akkor használatos, amikor Data Wrangler feldolgozási feladatokat hoz létre, hogy alkalmazza az átalakításokat nagyobb adatkészletekre, vagy új megerősítő adatokat alakítson át a modell átképzése érdekében.

Indítson el egy Data Wrangler adatfeldolgozási feladatot az újratöltés engedélyezése nélkül

Most láthatja, hogy az újratelepítési opció hogyan használja a betanított paramétereket az új adatkészleteken. Ehhez a demonstrációhoz két Data Wrangler feldolgozási feladatot határozunk meg, amelyek ugyanazon az adatokon működnek. Az első feldolgozási feladat nem engedélyezi az újratöltést; a második feldolgozási munkához a refit-et használjuk. A végén összehasonlítjuk a hatásokat.

  1. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Állás létrehozása hogy adatfeldolgozási munkát kezdeményezzen a Data Wranglerrel.

Refit trained parameters on large datasets using Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertical Search. Ai.

  1. A Munka megnevezés, írjon be egy nevet.
  2. Alatt Képzett paraméterek, do not select kijavítás.
  3. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Munka konfigurálása.

Refit trained parameters on large datasets using Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertical Search. Ai.

  1. Konfigurálja a feladat paramétereit, például a példánytípusokat, a kötet méretét és az Amazon S3 helyét a kimeneti folyamatfájl tárolásához.
  2. A Data Wrangler létrehoz egy folyamatfájlt az S3 folyamatfájl helyén. A folyamat transzformációkat használ a paraméterek betanításához, és később az újratöltés opciót használjuk ezeknek a paramétereknek az újratanítására.
  3. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Teremt.

Refit trained parameters on large datasets using Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Várja meg, amíg az adatfeldolgozási feladat befejeződik, hogy megtekinthesse az átalakított adatokat a célcsomópontban konfigurált S3 tárolóban.

Indítson el egy Data Wrangler adatfeldolgozási feladatot az újratelepítés engedélyezésével

Hozzon létre egy másik feldolgozási feladatot, amely engedélyezve van a betanított paraméterek visszaállítása funkcióval. Ez az opció a betanított paramétereket a teljes adatkészleten kényszeríti ki. Amikor ez az adatfeldolgozási feladat befejeződött, egy folyamatfájl jön létre vagy frissül a konfigurált Amazon S3 helyre.

  1. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Állás létrehozása.

Refit trained parameters on large datasets using Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertical Search. Ai.

  1. A Munka megnevezés, írjon be egy nevet.
  2. A Képzett paraméterekválassza kijavítás.
  3. Ha úgy döntesz Teljes NeXtime falióra kínálat, áttekintheti az összes betanított paramétert.

Refit trained parameters on large datasets using Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertical Search. Ai.

  1. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Munka konfigurálása.
  2. Adja meg az Amazon S3 folyamatfájl helyét.
  3. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Teremt.

Refit trained parameters on large datasets using Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Várja meg, amíg az adatfeldolgozási feladat befejeződik.

A definiált átalakításokat futtató adatfeldolgozási feladat által generált adatok megtekintéséhez tekintse meg a célcsomópontban konfigurált S3 tárolót.

Exportálás Python kódba a Data Wrangler feldolgozási feladatok futtatásához

A feldolgozási feladatoknak a Data Wrangler Feladat létrehozása beállításával történő indításának alternatívájaként az adatfeldolgozási feladatokat úgy indíthatja el, hogy exportálja a Data Wrangler folyamatot egy Jupyter-jegyzetfüzetbe. A Data Wrangler egy Jupyter notebookot hoz létre bemenetekkel, kimenetekkel, feldolgozási feladatkonfigurációkkal és kóddal a feladatok állapotának ellenőrzéséhez. Az adatátalakítási követelményeknek megfelelően módosíthatja vagy frissítheti a paramétereket.

  1. Válassza a plusz jelet a döntő mellett Átalakítás csomópont.
  2. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Export és Amazon S3 (Via Jupyter Notebook).

Refit trained parameters on large datasets using Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Megjelenik egy Jupyter-jegyzetfüzet, amely bemenetekkel, kimenetekkel, feldolgozási feladatkonfigurációkkal és kóddal van megnyitva a feladatok állapotának ellenőrzéséhez.

  1. A betanított paraméterek visszaállítása opció kódon keresztüli érvényesítéséhez állítsa be a refit paraméter a True.

Refit trained parameters on large datasets using Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertical Search. Ai.Hasonlítsa össze az adatfeldolgozási feladatok eredményeit

Miután a Data Wrangler feldolgozási feladatok befejeződtek, létre kell hoznia két új Data Wrangler folyamot a konfigurált Amazon S3 célhelyen tárolt adatfeldolgozási feladatok által generált kimenettel.

Az adatfeldolgozási feladatok kimeneteinek áttekintéséhez tekintse meg az Amazon S3 célmappájában lévő konfigurált helyet.

Refit trained parameters on large datasets using Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertical Search. Ai.

A feldolgozási feladat eredményeinek ellenőrzéséhez hozzon létre két új Data Wrangler-folyamatot az Adatminőség és az Insights jelentés használatával az átalakítási eredmények összehasonlításához.

  1. Hozzon létre egy új folyamatot az Amazon SageMaker Data Wranglerben.
  2. Importálja az adatfeldolgozási feladatot az újratöltést engedélyező kimeneti fájl nélkül az Amazon S3-ból.
  3. Új elemzés hozzáadása.
  4. A Elemzés típusa, választ Adatminőségi és betekintési jelentés.
  5. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Teremt.

Refit trained parameters on large datasets using Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertical Search. Ai.
Refit trained parameters on large datasets using Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Ismételje meg a fenti lépéseket, és hozzon létre új adatcsavaró folyamatot az adatfeldolgozási feladat kimenetének elemzéséhez, ha az újratöltés engedélyezett.

Most nézzük meg a szolgáltatás feldolgozási feladatainak kimeneteit property_type az Adatminőség és az Insights jelentések használatával. Görgessen a funkció részleteihez a Data and Insights Reports listában feature_type.

A betanított paraméter-feldolgozási feladat újraillesztette a betanított paramétereket a teljes adatkészletre, és kódolta az új értéket APARTMENT hét különböző értékkel a teljes adatkészleten.

Refit trained parameters on large datasets using Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertical Search. Ai.

A normál feldolgozási feladat a mintaadatkészlet betanított paramétereit alkalmazta, amelyeknek csak hat különböző értéke van a property_type funkció. Az adatokhoz feature_type APARTMENT, a érvénytelen kezelési stratégia A kihagyás alkalmazásra kerül, és az adatfeldolgozási feladat nem tanulja meg ezt az új kategóriát. A one-hot kódolás kihagyta ezt az új kategóriát az új adatokon, a kódolás pedig a kategóriát APARTMENT.

Refit trained parameters on large datasets using Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Koncentráljunk most egy másik funkcióra, city. A betanított paraméter-feldolgozási feladat újratanulta a következőhöz rendelkezésre álló összes értéket city az új adatokat figyelembe véve.

Amint az a A szolgáltatás összefoglalása szakaszában, az új kódolt jellemző oszlopban e_city 100%-ban érvényes paraméterekkel rendelkezik az újra betanított paraméter funkció használatával.

Refit trained parameters on large datasets using Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Ezzel szemben a normál feldolgozási feladatban a hiányzó értékek 82.4%-a van az új kódolt szolgáltatás oszlopában e_city. Ennek a jelenségnek az az oka, hogy csak a betanított paraméterek mintakészletét alkalmazzák a teljes adatkészletre, és az adatfeldolgozási feladat nem alkalmaz újraillesztést.

Refit trained parameters on large datasets using Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertical Search. Ai.

A következő hisztogramok az ordinális kódolású jellemzőt ábrázolják e_city. Az első hisztogram az újratelepítési opcióval átalakított jellemzőre vonatkozik.

Refit trained parameters on large datasets using Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertical Search. Ai.

A következő hisztogram az újratelepítés opció nélkül átalakított jellemzőről szól. A narancssárga oszlopban a hiányzó értékek (NaN) láthatók az Adatminőség és az Insights jelentésben. A mintaadatkészletből meg nem tanult új értékeket a rendszer a Data Wrangler felhasználói felületén konfigurált, nem szám (NaN) értékre cseréli. érvénytelen kezelési stratégia.

Refit trained parameters on large datasets using Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Az újra betanított paraméterrel végzett adatfeldolgozási feladat újratanulta a property_type és a city jellemzői, figyelembe véve a teljes adatkészlet új értékeit. Az újra betanított paraméter nélkül az adatfeldolgozási feladat csak a mintavételezett adatkészlet előre betanított paramétereit használja. Ezután alkalmazza őket az új adatokra, de az új értékeket nem veszi figyelembe a kódolás során. Ez hatással lesz a modell pontosságára.

Tisztítsuk meg

Ha nem használja a Data Wranglert, fontos, hogy leállítsa azt a példányt, amelyen az fut, hogy elkerülje a további költségeket.

A munkavesztés elkerülése érdekében mentse el az adatfolyamot, mielőtt leállítja a Data Wranglert.

  1. Az adatáramlás mentéséhez Amazon SageMaker Studio, választ filé, majd válassza ki Adatmentés Wrangler Flow. A Data Wrangler 60 másodpercenként automatikusan menti az adatfolyamot.
  2. A Data Wrangler példány leállításához a Studio alkalmazásban válassza a lehetőséget Példányok és kernelek futtatása.
  3. Alatt ALKALMAZÁSOK FUTÁSA, válassza ki a leállítás ikont a sagemaker-data-wrangler-1.0 alkalmazás mellett.

Refit trained parameters on large datasets using Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertical Search. Ai.

  1. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Zárja be az összeset megerősítéséhez.

Refit trained parameters on large datasets using Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertical Search. Ai.

A Data Wrangler egy ml.m5.4xnagy példányon fut. Ez a példány eltűnik innen FUTÁSI PÉLDATOK amikor leállítja a Data Wrangler alkalmazást.

A Data Wrangler alkalmazás leállítása után újra kell indulnia, amikor legközelebb megnyit egy Data Wrangler folyamatfájlt. Ez eltarthat néhány percig.

Következtetés

Ebben a bejegyzésben áttekintést adtunk a Data Wranglerben betanított paraméter-funkcióról. Ezzel az új funkcióval a betanított paramétereket tárolhatja a Data Wrangler folyamatban, az adatfeldolgozási feladatok pedig a betanított paraméterek segítségével alkalmazzák a tanult transzformációkat nagy adatkészleteken vagy megerősítési adatkészleteken. Ezt a beállítást szöveges jellemzők, numerikus adatok vektorizálására és kiugró értékek kezelésére használhatja.

A betanított paraméterek megőrzése az ML életciklusának teljes adatfeldolgozása során leegyszerűsíti és csökkenti az adatfeldolgozási lépéseket, támogatja a robusztus jellemzők tervezését, valamint támogatja a modelltanítást és az új adatok megerősítését.

Javasoljuk, hogy próbálja ki ezt az új funkciót adatkezelési követelményeihez.


A szerzőkről

Refit trained parameters on large datasets using Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertical Search. Ai. Hariharan Suresh az AWS vezető megoldási építésze. Szenvedélye az adatbázisok, a gépi tanulás és az innovatív megoldások tervezése. Mielőtt csatlakozott az AWS-hez, Hariharan terméktervező, központi banki implementációs specialista és fejlesztő volt, és több mint 11 évig dolgozott a BFSI szervezeteivel. A technikán kívül szeret siklóernyőzni és kerékpározni.

Refit trained parameters on large datasets using Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertical Search. Ai.Santosh Kulkarni az Amazon Web Services vállalati megoldások építésze, aki sportügyfelekkel dolgozik Ausztráliában. Szenvedélyesen épít nagyszabású elosztott alkalmazásokat üzleti problémák megoldására, felhasználva tudását az AI/ML, a big data és a szoftverfejlesztés terén.

Refit trained parameters on large datasets using Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertical Search. Ai.Vishaal Kapoor az AWS AI vezető alkalmazott tudósa. Szenvedélyesen segíti ügyfeleit a Data Wranglerben tárolt adataik megértésében. Szabadidejében mountain bike-zik, snowboardozik, és családjával tölti az idejét.

Refit trained parameters on large datasets using Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertical Search. Ai.Aniketh Manjunath az Amazon SageMaker szoftverfejlesztő mérnöke. Segít az Amazon SageMaker Data Wrangler támogatásában, és szenvedélyesen rajong az elosztott gépi tanulási rendszerekért. A munkán kívül szeret túrázni, filmeket nézni és krikettezni.

Időbélyeg:

Még több AWS gépi tanulás