Amazon SageMaker Data Wrangler hetekről percekre csökkenti az adatok gépi tanuláshoz (ML) való összesítéséhez és előkészítéséhez szükséges időt Amazon SageMaker Studio, az első teljesen integrált fejlesztői környezet (IDE) az ML számára. A Data Wranglerrel leegyszerűsítheti az adat-előkészítési és szolgáltatástervezési folyamatot, és egyetlen vizuális felületről hajthatja végre az adat-előkészítési munkafolyamat minden lépését, beleértve az adatok kiválasztását, tisztítását, feltárását és megjelenítését. Több adatforrásból is importálhat adatokat, mint pl Amazon egyszerű tárolási szolgáltatás (Amazon S3), Amazon RedShift, Hópehelyés 26 egyesített lekérdezési adatforrás támogatta Amazon Athéné.
Mától kezdve, amikor adatokat importál az Athena adatforrásokból, beállíthatja az S3 lekérdezés kimeneti helyét és az adatmegőrzési időszakot, hogy adatokat importáljon a Data Wranglerben, hogy szabályozza, hol és mennyi ideig tárolja az Athena a közvetítő adatokat. Ebben a bejegyzésben végigvezetjük Önt ezen az új funkción.
Megoldás áttekintése
Az Athena egy interaktív lekérdező szolgáltatás, amely megkönnyíti a böngészést a AWS ragasztó Adatkatalógus, valamint adatok elemzése az Amazon S3-ban és a 26 egyesített lekérdezési adatforrásban szabványos SQL használatával. Ha az Athena-t használja adatok importálására, használhatja a Data Wrangler alapértelmezett S3-helyét az Athena-lekérdezés kimenetéhez, vagy megadhat egy Athena-munkacsoportot az egyéni S3-hely kényszerítéséhez. Korábban tisztítási munkafolyamatokat kellett végrehajtania a közvetítő adatok eltávolításához, vagy manuálisan be kellett állítania az S3 életciklus-konfigurációját a tárolási költségek szabályozásához és a szervezet adatbiztonsági követelményeinek teljesítéséhez. Ez nagy működési többletköltséget jelent, és nem méretezhető.
A Data Wrangler mostantól támogatja az egyéni S3 helyeket és az adatmegőrzési időszakokat az Athena lekérdezés kimenetéhez. Ezzel az új funkcióval módosíthatja az Athena lekérdezés kimeneti helyét egy egyéni S3 tárolóra. Mostantól az Athena lekérdezés kimenetére vonatkozó alapértelmezett adatmegőrzési szabályzat 5 nap, és ezt módosíthatja, hogy megfeleljen szervezete adatbiztonsági követelményeinek. A megőrzési időszak alapján az S3 tároló Athena lekérdezési kimenete automatikusan megtisztul. Az adatok importálása után feltáró adatelemzést végezhet ezen az adatkészleten, és visszatárolhatja a tiszta adatokat az Amazon S3-ba.
A következő diagram ezt az architektúrát szemlélteti.
Használati esetünkben egy mintabanki adatkészletet használunk a megoldás végigjátszásához. A munkafolyamat a következő lépésekből áll:
- Töltse le a minta adatkészlet és töltse fel egy S3 vödörbe.
- Állítson be egy AWS ragasztót lánctalpas a séma feltérképezéséhez és a metaadatsémának az AWS ragasztóadat-katalógusban való tárolásához.
- Az Athena segítségével hozzáférhet az adatkatalógushoz, és lekérdezheti az adatokat az S3 tárolóból.
- Hozzon létre egy új Data Wrangler folyamatot az Athénához való csatlakozáshoz.
- A kapcsolat létrehozásakor állítsa be az adatkészlet megőrzési TTL-jét.
- Használja ezt a kapcsolatot a munkafolyamatban, és tárolja a tiszta adatokat egy másik S3 tárolóban.
Az egyszerűség kedvéért feltételezzük, hogy már beállította az Athena környezetet (1–3. lépés). A következő lépéseket ebben a bejegyzésben részletezzük.
Előfeltételek
Az Athena környezet beállításához tekintse meg a Használati útmutató lépésről lépésre, és hajtsa végre az 1–3. lépést az előző részben leírtak szerint.
Importálja adatait az Athénából a Data Wranglerbe
Az adatok importálásához hajtsa végre a következő lépéseket:
- A Studio konzolon válassza ki a Tudástár ikonra a navigációs ablakban.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Data Wrangler a legördülő menüben.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Új áramlás.
- A import lapot választani Amazon Athéné.
Megnyílik egy részletező oldal, ahol csatlakozhat az Athénához, és írhat egy SQL-lekérdezést az adatbázisból való importáláshoz. - Adjon nevet a kapcsolatnak.
- Bontsa Speciális konfiguráció.
Amikor csatlakozik az Athena-hoz, a Data Wrangler az Amazon S3 segítségével állítja elő a lekérdezett adatokat. Alapértelmezés szerint ezek az adatok az S3 helyen vannak elhelyezves3://sagemaker-{region}-{account_id}/athena/
5 napos megőrzési idővel. - A Amazon S3 lekérdezési eredmények helye, adja meg S3 helyét.
- választ Adatmegőrzési időszak és állítsa be az adatmegőrzési időszakot (ennél a bejegyzésnél 1 nap).
Ha törli ezt a lehetőséget, az adatok korlátlan ideig megmaradnak.A színfalak mögött a Data Wrangler egy S3 életciklus-konfigurációs szabályzatot csatol az S3 helyhez az automatikus tisztítás érdekében. Tekintse meg a következő példaszabályzatot:VÁLASSZA A GREEN ARSENAL TERMÉKEIT!
s3:GetLifecycleConfiguration
és as3:PutLifecycleConfiguration
hogy a SageMaker végrehajtási szerepköre megfelelően alkalmazza az életciklus-konfigurációs házirendeket. Ezen engedélyek nélkül hibaüzeneteket kap, amikor megpróbálja importálni az adatokat.A következő hibaüzenet egy példa arra, hogy hiányzik a
GetLifecycleConfiguration
engedély.A következő hibaüzenet egy példa arra, hogy hiányzik a
PutLifecycleConfiguration
engedély. - Opcionálisan azért Munkacsoport, megadhat egy Athena-munkacsoportot.
An Athena workgroup isolates users, teams, applications, or workloads into groups, each with its own permissions and configuration settings. When you specify a workgroup, Data Wrangler inherits the workgroup setting defined in Athena. For example, if a workgroup has an S3 location defined to store query results and enables Override client side settings, you can’t edit the S3 query result location.Alapértelmezés szerint a Data Wrangler az Athena-kapcsolatot is elmenti az Ön számára. Ez új Athena lapkaként jelenik meg a import lapon. Bármikor újranyithatja ezt a kapcsolatot, hogy lekérdezzen és különböző adatokat vigyen be a Data Wranglerbe. - Törölje a kijelölést Kapcsolat mentése ha nem akarja menteni a kapcsolatot.
- Az Athena kapcsolat konfigurálásához válassza a lehetőséget Egyik sem mert Mintavétel a teljes adatkészlet importálásához.
Nagy adathalmazok esetén a Data Wrangler lehetővé teszi az adatok egy részhalmazának importálását az átalakítási munkafolyamat felépítéséhez, és csak akkor dolgozza fel a teljes adatkészletet, amikor készen áll. Ez felgyorsítja az iterációs ciklust, és feldolgozási időt és költséget takarít meg. Ha többet szeretne megtudni a különböző rendelkezésre álló adatmintavételi lehetőségekről, látogasson el a következő oldalra Az Amazon SageMaker Data Wrangler mostantól támogatja a véletlenszerű mintavételt és a rétegzett mintavételt. - A Adatkatalógusválaszt AwsDataCatalog.
- A adatbázis, válassza ki az adatbázist.
A Data Wrangler megjeleníti az elérhető táblákat. A séma ellenőrzéséhez és az adatok előnézetéhez minden táblát kiválaszthat. - Írja be a következő kódot a lekérdező mezőbe:
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a futás az adatok előnézetéhez.
- Ha minden jól néz ki, válassz import.
- Adja meg az adatkészlet nevét, és válassza ki hozzáad hogy importálja az adatokat a Data Wrangler munkaterületére.
Adatok elemzése és feldolgozása a Data Wrangler segítségével
Miután betöltötte az adatokat a Data Wranglerbe, elvégezheti a feltáró adatelemzést (EDA), és előkészítheti az adatokat a gépi tanuláshoz.
- Válassza a melletti pluszjelet
bank-data
adatkészletet az adatfolyamban, és válassza ki Elemzés hozzáadása.
A Data Wrangler beépített elemzéseket biztosít, beleértve az adatminőségi és betekintési jelentést, az adatkorrelációt, a képzés előtti torzítási jelentést, az adatkészlet összefoglalását és a vizualizációkat (például hisztogramokat és szóródiagramokat). Ezenkívül létrehozhat saját egyéni vizualizációt. - A Elemzés típusaválaszt Adatminőségi és betekintési jelentés.
Ez automatikusan generál vizualizációkat, elemzéseket az adatminőségi problémák azonosításához, valamint javaslatokat tesz az adatkészlethez szükséges megfelelő átalakításokhoz. - A Céloszlop, választ Y.
- Mert ez egy osztályozási probléma kijelentés, mert Probléma típusaválassza Osztályozás.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Teremt.
A Data Wrangler részletes jelentést készít az adatkészletről. A jelentést a helyi gépére is letöltheti. - Az adatok előkészítéséhez válassza az adatfolyamban a banki adatkészlet melletti pluszjelet, és válassza ki Transzformáció hozzáadása.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Lépés hozzáadása hogy elkezdje felépíteni az átalakulásait.
Az írás idején a Data Wrangler több mint 300 beépített átalakítást kínál. Saját átalakításokat is írhat a Pandas vagy a PySpark segítségével.
Most megkezdheti az átalakítások és elemzések elkészítését az üzleti igényei alapján.
Tisztítsuk meg
A folyamatos költségek elkerülése érdekében törölje a Data Wrangler-erőforrásokat az alábbi lépésekkel, ha végzett.
- Válassza a Futó példányok és kernelek ikont.
- A FUTÓ ALKALMAZÁSOK alatt kattintson a leállítás ikonra a mellett
sagemaker-data-wrangler-1.0 app
. - A megerősítéshez válassza az Összes leállítása lehetőséget.
Következtetés
Ebben a bejegyzésben áttekintést adunk az S3 hely testreszabásáról és az S3 életciklus-konfigurációinak engedélyezéséről az Athena-ból a Data Wranglerbe történő adatimportáláshoz. Ezzel a funkcióval a közvetítő adatokat egy biztonságos S3 helyen tárolhatja, és a megőrzési időszak letelte után automatikusan eltávolíthatja az adatmásolatot, hogy csökkentse az adatokhoz való jogosulatlan hozzáférés kockázatát. Javasoljuk, hogy próbálja ki ezt az új funkciót. Boldog építkezést!
Ha többet szeretne megtudni az Athénáról és a SageMakerről, látogassa meg a Athena felhasználói kézikönyv és a Amazon SageMaker dokumentáció.
A szerzőkről
Meenakshisundaram Thandavarayan vezető AI/ML specialista az AWS-vel. Segíti a hi-tech stratégiai fiókokat az AI és az ML útjukon. Nagyon szenvedélyes az adatvezérelt mesterséges intelligencia iránt.
Harish Rajagopalan az Amazon Web Services vezető megoldási építésze. A Harish vállalati ügyfelekkel dolgozik, és segíti őket felhőalapú utazásukban.
James Wu az AWS vezető AI/ML specialista megoldástervezője. segít az ügyfeleknek AI/ML megoldások tervezésében és kivitelezésében. James munkája az ML felhasználási esetek széles skáláját fedi le, elsősorban a számítógépes látás, a mély tanulás és az ML méretezése a vállalaton belül. Mielőtt csatlakozott az AWS-hez, James több mint 10 évig építész, fejlesztő és technológiai vezető volt, ebből 6 évig mérnöki és 4 évig marketing és reklámiparban dolgozott.
- AI
- ai művészet
- ai art generátor
- van egy robotod
- Amazon Athéné
- Amazon SageMaker
- Amazon SageMaker Data Wrangler
- Amazon Simple Storage Service (S3)
- mesterséges intelligencia
- mesterséges intelligencia tanúsítás
- mesterséges intelligencia a bankszektorban
- mesterséges intelligencia robot
- mesterséges intelligencia robotok
- mesterséges intelligencia szoftver
- AWS gépi tanulás
- blockchain
- blokklánc konferencia ai
- coingenius
- társalgási mesterséges intelligencia
- kriptokonferencia ai
- dall's
- mély tanulás
- google azt
- gépi tanulás
- Plató
- plato ai
- Platón adatintelligencia
- Platón játék
- PlatoData
- platogaming
- skála ai
- szintaxis
- zephyrnet