Szerelje fel újra a betanított paramétereket nagy adatkészletekre az Amazon SageMaker Data Wrangler segítségével

Újra kiadta Platón

Követő: 0

Amazon SageMaker Data Wrangler segít megérteni, összesíteni, átalakítani és előkészíteni az adatokat a gépi tanuláshoz (ML) egyetlen vizuális felületről. Több mint 300 beépített adatátalakítást tartalmaz, így gyorsan normalizálhatja, átalakíthatja és kombinálhatja a funkciókat anélkül, hogy kódot kellene írnia.

Az adattudományi szakemberek adatokat generálnak, figyelnek meg és dolgozzanak fel olyan üzleti problémák megoldására, ahol az adatkészletekből szolgáltatásokat kell átalakítaniuk és kinyerniük. Az olyan átalakítások, mint az ordinális kódolás vagy a one-hot kódolás, megtanulják a kódolásokat az adatkészleten. Ezeket a kódolt kimeneteket betanított paramétereknek nevezzük. Mivel az adatkészletek idővel változnak, szükség lehet a korábban nem látott adatok kódolásának újraírására, hogy az átalakítási folyamat releváns maradjon az adatok szempontjából.

Örömmel jelentjük be az újra betanított paraméterek funkciót, amely lehetővé teszi a korábban betanított paraméterek használatát, és tetszés szerint átalakíthatja azokat. Ebben a bejegyzésben bemutatjuk, hogyan kell használni ezt a funkciót.

A Data Wrangler átszerelési funkciójának áttekintése

A következő példával szemléltetjük ennek a funkciónak a működését, mielőtt belevetnénk magunkat a betanított paraméterek javításának jellemzőibe.

Tételezzük fel, hogy az ügyféladatkészlet kategorikus tulajdonsággal rendelkezik country karakterláncokként ábrázolva, mint Australia és a Singapore. Az ML algoritmusok numerikus bevitelt igényelnek; ezért ezeket a kategorikus értékeket numerikus értékekké kell kódolni. A kategorikus adatok kódolása a kategóriák számszerű ábrázolásának létrehozásának folyamata. Például, ha a kategória országának értékei vannak Australia és a Singapore, ezt az információt két vektorba kódolhatja: [1, 0] a reprezentációhoz Australia és [0, 1] képviseli Singapore. Az itt használt transzformáció egy gyors kódolás, és az új kódolású kimenet a betanított paramétereket tükrözi.

A modell betanítása után idővel az ügyfelek száma növekedhet, és az országlistában jobban megkülönböztethető értékek jelennek meg. Az új adatkészlet tartalmazhat egy másik kategóriát, India, amely nem volt része az eredeti adatkészletnek, ami befolyásolhatja a modell pontosságát. Ezért újra kell képeznie a modellt az idők során összegyűjtött új adatokkal.

A probléma kiküszöbölése érdekében frissítenie kell a kódolást, hogy tartalmazza az új kategóriát, és frissítenie kell a vektorábrázolást a legújabb adatkészletnek megfelelően. Példánkban a kódolásnak tükröznie kell az új kategóriát country, Amely India. A kódolás frissítésének ezt a folyamatát általában újraillesztési műveletnek nevezzük. Az újratelepítési művelet végrehajtása után megkapja az új kódolást: Australia: [1, 0, 0], Singapore: [0, 1, 0] és India: [0, 0, 1]. A one-hot kódolás újbóli felszerelése, majd a modell új adatkészletre való átképzése jobb minőségű előrejelzéseket eredményez.

A Data Wrangler újratölthető paraméterezési funkciója a következő esetekben hasznos:

Az új adatok hozzáadódnak az adatkészlethez – Az ML modell átképzése akkor szükséges, ha az adatkészlet új adatokkal gazdagodik. Az optimális eredmény elérése érdekében a betanított paramétereket újra kell illesztenünk az új adatkészletre.
Képzés egy teljes adatkészletre, miután a mintaadatokon végrehajtotta a funkciótervezést – Nagy adatkészlet esetén az adatkészlet egy mintáját veszik figyelembe a betanított paraméterek megtanulásához, amelyek nem feltétlenül képviselik a teljes adatkészletet. Újra kell tanulnunk a betanított paramétereket a teljes adatkészleten.

Íme néhány az adathalmazon végrehajtott leggyakoribb Data Wrangler-transzformációk közül, amelyek hasznot húznak a betanított paraméterek visszaállítása opcióból:

A Data Wrangler átalakításaival kapcsolatos további információkért lásd: Adatok átalakítása.

Ebben a bejegyzésben bemutatjuk, hogyan lehet feldolgozni ezeket a betanított paramétereket az adatkészleteken a Data Wrangler segítségével. Használhatja a Data Wrangler-folyamatokat a termelési feladatokban az adatok újrafeldolgozására, ahogy azok növekednek és változnak.

Megoldás áttekintése

Ebben a bejegyzésben bemutatjuk, hogyan kell használni a Data Wrangler újratölthető paraméter funkcióját a nyilvánosan elérhető adatkészlettel Kaggle: US Housing Data from Zillow, Eladó ingatlanok az Egyesült Államokban. Megtalálja az otthonok eladási árait az otthonok különböző földrajzi elosztásaiban.

A következő diagram a Data Wrangler magas szintű architektúráját mutatja be a betanított paraméter funkció használatával. Megmutatjuk az adatminőségre gyakorolt hatást az újra betanított paraméter nélkül is, és a végén összevetjük az eredményeket.

A munkafolyamat a következő lépéseket tartalmazza:

Végezzen feltáró adatelemzést – Hozzon létre egy új folyamatot a Data Wranglerben a feltáró adatelemzés (EDA) elindításához. Importáljon üzleti adatokat, hogy megértse, megtisztítsa, összesítse, átalakítsa és előkészítse adatait a képzésre. Hivatkozni Fedezze fel az Amazon SageMaker Data Wrangler képességeit mintaadatkészletekkel további részletekért az EDA Data Wranglerrel való végrehajtásáról.
Hozzon létre egy adatfeldolgozási feladatot – Ez a lépés az adatkészleten végzett összes átalakítást a konfigurált fájlban tárolt folyamatfájlként exportálja Amazon egyszerű tárolási szolgáltatás (Amazon S3) helyen. Az adatfeldolgozási feladat a Data Wrangler által generált folyamatfájllal alkalmazza az adatkészleten tanult átalakításokat és betanított paramétereket. Amikor az adatfeldolgozási feladat befejeződött, a kimeneti fájlok feltöltődnek a célcsomópontban konfigurált Amazon S3 helyre. Vegye figyelembe, hogy az újratöltés opció alapértelmezés szerint ki van kapcsolva. A feldolgozási feladat azonnali végrehajtásának alternatívájaként ezt is megteheti ütemezzen be egy feldolgozási munkát néhány kattintással a Data Wrangler – Create Job segítségével meghatározott időpontokban futtatható.
Hozzon létre egy adatfeldolgozási feladatot a betanított paraméterek visszaállításával – Válassza ki a betanított paraméterek újbóli rögzítése funkciót a feladat létrehozásakor, hogy a betanított paraméterek újratanulását a teljes vagy megerősített adatkészleten kényszerítse ki. A folyamatfájl tárolására szolgáló Amazon S3 helykonfiguráció szerint az adatfeldolgozási feladat létrehozza vagy frissíti az új folyamatfájlt. Ha ugyanazt az Amazon S3 helyet konfigurálja, mint a 2. lépésben, az adatfeldolgozási feladat frissíti a 2. lépésben generált folyamatfájlt, amely felhasználható a folyamat adatainak megfelelő megőrzésére. A feldolgozási feladat befejezésekor a kimeneti fájlok feltöltődnek a célcsomópont konfigurált S3 gyűjtőhelyére. A frissített folyamatot a teljes adatkészleten használhatja egy éles munkafolyamathoz.

Előfeltételek

Mielőtt elkezdené, töltse fel az adatkészletet egy S3 tárolóba, majd importálja a Data Wranglerbe. Az utasításokat lásd Adatok importálása az Amazon S3-ból.

Most menjünk végig az architektúra diagramban említett lépéseken.

Végezze el az EDA-t a Data Wranglerben

A betanított paraméterek visszaállítása funkció kipróbálásához állítsa be a következő elemzést és átalakítást a Data Wranglerben. Az EDA beállításának végén a Data Wrangler létrehoz egy folyamatfájlt, amelyet betanított paraméterekkel rögzít az adatkészletből.

Hozzon létre egy új folyamatot az Amazon SageMaker Data Wranglerben a feltáró adatelemzés érdekében.
Importálja az Amazon S3-ba feltöltött üzleti adatokat.
Megtekintheti a fájltípus, a határoló, a mintavétel stb. kiválasztására vonatkozó adatokat és beállításokat. Ebben a példában a Először K A Data Wrangler által biztosított mintavételi lehetőség az első 50,000 XNUMX rekord importálásához az adatkészletből.
A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a import.