Konfiguráljon egyéni Amazon S3 lekérdezési kimeneti helyet és adatmegőrzési szabályzatot az Amazon Athena adatforrásokhoz az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence szolgáltatásban. Függőleges keresés. Ai.

Egyéni Amazon S3 lekérdezési kimeneti hely és adatmegőrzési házirend konfigurálása az Amazon Athena adatforrásokhoz az Amazon SageMaker Data Wranglerben

Amazon SageMaker Data Wrangler hetekről percekre csökkenti az adatok gépi tanuláshoz (ML) való összesítéséhez és előkészítéséhez szükséges időt Amazon SageMaker Studio, az első teljesen integrált fejlesztői környezet (IDE) az ML számára. A Data Wranglerrel leegyszerűsítheti az adat-előkészítési és szolgáltatástervezési folyamatot, és egyetlen vizuális felületről hajthatja végre az adat-előkészítési munkafolyamat minden lépését, beleértve az adatok kiválasztását, tisztítását, feltárását és megjelenítését. Több adatforrásból is importálhat adatokat, mint pl Amazon egyszerű tárolási szolgáltatás (Amazon S3), Amazon RedShift, Hópehelyés 26 egyesített lekérdezési adatforrás támogatta Amazon Athéné.

Mától kezdve, amikor adatokat importál az Athena adatforrásokból, beállíthatja az S3 lekérdezés kimeneti helyét és az adatmegőrzési időszakot, hogy adatokat importáljon a Data Wranglerben, hogy szabályozza, hol és mennyi ideig tárolja az Athena a közvetítő adatokat. Ebben a bejegyzésben végigvezetjük Önt ezen az új funkción.

Megoldás áttekintése

Az Athena egy interaktív lekérdező szolgáltatás, amely megkönnyíti a böngészést a AWS ragasztó Adatkatalógus, valamint adatok elemzése az Amazon S3-ban és a 26 egyesített lekérdezési adatforrásban szabványos SQL használatával. Ha az Athena-t használja adatok importálására, használhatja a Data Wrangler alapértelmezett S3-helyét az Athena-lekérdezés kimenetéhez, vagy megadhat egy Athena-munkacsoportot az egyéni S3-hely kényszerítéséhez. Korábban tisztítási munkafolyamatokat kellett végrehajtania a közvetítő adatok eltávolításához, vagy manuálisan be kellett állítania az S3 életciklus-konfigurációját a tárolási költségek szabályozásához és a szervezet adatbiztonsági követelményeinek teljesítéséhez. Ez nagy működési többletköltséget jelent, és nem méretezhető.

A Data Wrangler mostantól támogatja az egyéni S3 helyeket és az adatmegőrzési időszakokat az Athena lekérdezés kimenetéhez. Ezzel az új funkcióval módosíthatja az Athena lekérdezés kimeneti helyét egy egyéni S3 tárolóra. Mostantól az Athena lekérdezés kimenetére vonatkozó alapértelmezett adatmegőrzési szabályzat 5 nap, és ezt módosíthatja, hogy megfeleljen szervezete adatbiztonsági követelményeinek. A megőrzési időszak alapján az S3 tároló Athena lekérdezési kimenete automatikusan megtisztul. Az adatok importálása után feltáró adatelemzést végezhet ezen az adatkészleten, és visszatárolhatja a tiszta adatokat az Amazon S3-ba.

A következő diagram ezt az architektúrát szemlélteti.

Használati esetünkben egy mintabanki adatkészletet használunk a megoldás végigjátszásához. A munkafolyamat a következő lépésekből áll:

  1. Töltse le a minta adatkészlet és töltse fel egy S3 vödörbe.
  2. Állítson be egy AWS ragasztót lánctalpas a séma feltérképezéséhez és a metaadatsémának az AWS ragasztóadat-katalógusban való tárolásához.
  3. Az Athena segítségével hozzáférhet az adatkatalógushoz, és lekérdezheti az adatokat az S3 tárolóból.
  4. Hozzon létre egy új Data Wrangler folyamatot az Athénához való csatlakozáshoz.
  5. A kapcsolat létrehozásakor állítsa be az adatkészlet megőrzési TTL-jét.
  6. Használja ezt a kapcsolatot a munkafolyamatban, és tárolja a tiszta adatokat egy másik S3 tárolóban.

Az egyszerűség kedvéért feltételezzük, hogy már beállította az Athena környezetet (1–3. lépés). A következő lépéseket ebben a bejegyzésben részletezzük.

Előfeltételek

Az Athena környezet beállításához tekintse meg a Használati útmutató lépésről lépésre, és hajtsa végre az 1–3. lépést az előző részben leírtak szerint.

Importálja adatait az Athénából a Data Wranglerbe

Az adatok importálásához hajtsa végre a következő lépéseket:

  1. A Studio konzolon válassza ki a Tudástár ikonra a navigációs ablakban.
  2. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Data Wrangler a legördülő menüben.
  3. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Új áramlás.
    Konfiguráljon egyéni Amazon S3 lekérdezési kimeneti helyet és adatmegőrzési szabályzatot az Amazon Athena adatforrásokhoz az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence szolgáltatásban. Függőleges keresés. Ai.
  4. A import lapot választani Amazon Athéné.
    Konfiguráljon egyéni Amazon S3 lekérdezési kimeneti helyet és adatmegőrzési szabályzatot az Amazon Athena adatforrásokhoz az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence szolgáltatásban. Függőleges keresés. Ai.
    Megnyílik egy részletező oldal, ahol csatlakozhat az Athénához, és írhat egy SQL-lekérdezést az adatbázisból való importáláshoz.
  5. Adjon nevet a kapcsolatnak.
    Konfiguráljon egyéni Amazon S3 lekérdezési kimeneti helyet és adatmegőrzési szabályzatot az Amazon Athena adatforrásokhoz az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence szolgáltatásban. Függőleges keresés. Ai.
  6. Bontsa Speciális konfiguráció.
    Amikor csatlakozik az Athena-hoz, a Data Wrangler az Amazon S3 segítségével állítja elő a lekérdezett adatokat. Alapértelmezés szerint ezek az adatok az S3 helyen vannak elhelyezve s3://sagemaker-{region}-{account_id}/athena/ 5 napos megőrzési idővel.
  7. A Amazon S3 lekérdezési eredmények helye, adja meg S3 helyét.
  8. választ Adatmegőrzési időszak és állítsa be az adatmegőrzési időszakot (ennél a bejegyzésnél 1 nap).
    Ha törli ezt a lehetőséget, az adatok korlátlan ideig megmaradnak.Konfiguráljon egyéni Amazon S3 lekérdezési kimeneti helyet és adatmegőrzési szabályzatot az Amazon Athena adatforrásokhoz az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence szolgáltatásban. Függőleges keresés. Ai.A színfalak mögött a Data Wrangler egy S3 életciklus-konfigurációs szabályzatot csatol az S3 helyhez az automatikus tisztítás érdekében. Tekintse meg a következő példaszabályzatot:
     "Rules": [
            {
                "Expiration": {
                    "Days": 1
                },
                "ID": "sm-data-wrangler-retention-policy-xxxxxxx",
                "Filter": {
                    "Prefix": "athena/test"
                },
                "Status": "Enabled"
            }
        ]

    VÁLASSZA A GREEN ARSENAL TERMÉKEIT! s3:GetLifecycleConfiguration és a s3:PutLifecycleConfiguration hogy a SageMaker végrehajtási szerepköre megfelelően alkalmazza az életciklus-konfigurációs házirendeket. Ezen engedélyek nélkül hibaüzeneteket kap, amikor megpróbálja importálni az adatokat.

    A következő hibaüzenet egy példa arra, hogy hiányzik a GetLifecycleConfiguration engedély.
    Konfiguráljon egyéni Amazon S3 lekérdezési kimeneti helyet és adatmegőrzési szabályzatot az Amazon Athena adatforrásokhoz az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence szolgáltatásban. Függőleges keresés. Ai.

    A következő hibaüzenet egy példa arra, hogy hiányzik a PutLifecycleConfiguration engedély.

    Konfiguráljon egyéni Amazon S3 lekérdezési kimeneti helyet és adatmegőrzési szabályzatot az Amazon Athena adatforrásokhoz az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence szolgáltatásban. Függőleges keresés. Ai.

  9. Opcionálisan azért Munkacsoport, megadhat egy Athena-munkacsoportot.
    An Athena workgroup isolates users, teams, applications, or workloads into groups, each with its own permissions and configuration settings. When you specify a workgroup, Data Wrangler inherits the workgroup setting defined in Athena. For example, if a workgroup has an S3 location defined to store query results and enables Override client side settings, you can’t edit the S3 query result location.Konfiguráljon egyéni Amazon S3 lekérdezési kimeneti helyet és adatmegőrzési szabályzatot az Amazon Athena adatforrásokhoz az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence szolgáltatásban. Függőleges keresés. Ai.Alapértelmezés szerint a Data Wrangler az Athena-kapcsolatot is elmenti az Ön számára. Ez új Athena lapkaként jelenik meg a import lapon. Bármikor újranyithatja ezt a kapcsolatot, hogy lekérdezzen és különböző adatokat vigyen be a Data Wranglerbe.
    Konfiguráljon egyéni Amazon S3 lekérdezési kimeneti helyet és adatmegőrzési szabályzatot az Amazon Athena adatforrásokhoz az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence szolgáltatásban. Függőleges keresés. Ai.
  10. Törölje a kijelölést Kapcsolat mentése ha nem akarja menteni a kapcsolatot.
    Konfiguráljon egyéni Amazon S3 lekérdezési kimeneti helyet és adatmegőrzési szabályzatot az Amazon Athena adatforrásokhoz az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence szolgáltatásban. Függőleges keresés. Ai.
  11. Az Athena kapcsolat konfigurálásához válassza a lehetőséget Egyik sem mert Mintavétel a teljes adatkészlet importálásához.
    Konfiguráljon egyéni Amazon S3 lekérdezési kimeneti helyet és adatmegőrzési szabályzatot az Amazon Athena adatforrásokhoz az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence szolgáltatásban. Függőleges keresés. Ai.
    Nagy adathalmazok esetén a Data Wrangler lehetővé teszi az adatok egy részhalmazának importálását az átalakítási munkafolyamat felépítéséhez, és csak akkor dolgozza fel a teljes adatkészletet, amikor készen áll. Ez felgyorsítja az iterációs ciklust, és feldolgozási időt és költséget takarít meg. Ha többet szeretne megtudni a különböző rendelkezésre álló adatmintavételi lehetőségekről, látogasson el a következő oldalra Az Amazon SageMaker Data Wrangler mostantól támogatja a véletlenszerű mintavételt és a rétegzett mintavételt.
  12. A Adatkatalógusválaszt AwsDataCatalog.
  13. A adatbázis, válassza ki az adatbázist.
    Konfiguráljon egyéni Amazon S3 lekérdezési kimeneti helyet és adatmegőrzési szabályzatot az Amazon Athena adatforrásokhoz az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence szolgáltatásban. Függőleges keresés. Ai.
    A Data Wrangler megjeleníti az elérhető táblákat. A séma ellenőrzéséhez és az adatok előnézetéhez minden táblát kiválaszthat.
    Konfiguráljon egyéni Amazon S3 lekérdezési kimeneti helyet és adatmegőrzési szabályzatot az Amazon Athena adatforrásokhoz az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence szolgáltatásban. Függőleges keresés. Ai.
  14. Írja be a következő kódot a lekérdező mezőbe:
    Select *
    From bank_additional_full

  15. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a futás az adatok előnézetéhez.
  16. Ha minden jól néz ki, válassz import.
  17. Adja meg az adatkészlet nevét, és válassza ki hozzáad hogy importálja az adatokat a Data Wrangler munkaterületére.
    Konfiguráljon egyéni Amazon S3 lekérdezési kimeneti helyet és adatmegőrzési szabályzatot az Amazon Athena adatforrásokhoz az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence szolgáltatásban. Függőleges keresés. Ai.

Adatok elemzése és feldolgozása a Data Wrangler segítségével

Miután betöltötte az adatokat a Data Wranglerbe, elvégezheti a feltáró adatelemzést (EDA), és előkészítheti az adatokat a gépi tanuláshoz.

  1. Válassza a melletti pluszjelet bank-data adatkészletet az adatfolyamban, és válassza ki Elemzés hozzáadása.
    A Data Wrangler beépített elemzéseket biztosít, beleértve az adatminőségi és betekintési jelentést, az adatkorrelációt, a képzés előtti torzítási jelentést, az adatkészlet összefoglalását és a vizualizációkat (például hisztogramokat és szóródiagramokat). Ezenkívül létrehozhat saját egyéni vizualizációt.
    Konfiguráljon egyéni Amazon S3 lekérdezési kimeneti helyet és adatmegőrzési szabályzatot az Amazon Athena adatforrásokhoz az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence szolgáltatásban. Függőleges keresés. Ai.
  2. A Elemzés típusaválaszt Adatminőségi és betekintési jelentés.
    Ez automatikusan generál vizualizációkat, elemzéseket az adatminőségi problémák azonosításához, valamint javaslatokat tesz az adatkészlethez szükséges megfelelő átalakításokhoz.
  3. A Céloszlop, választ Y.
  4. Mert ez egy osztályozási probléma kijelentés, mert Probléma típusaválassza Osztályozás.
  5. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Teremt.
    Konfiguráljon egyéni Amazon S3 lekérdezési kimeneti helyet és adatmegőrzési szabályzatot az Amazon Athena adatforrásokhoz az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence szolgáltatásban. Függőleges keresés. Ai.
    A Data Wrangler részletes jelentést készít az adatkészletről. A jelentést a helyi gépére is letöltheti.
    Konfiguráljon egyéni Amazon S3 lekérdezési kimeneti helyet és adatmegőrzési szabályzatot az Amazon Athena adatforrásokhoz az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence szolgáltatásban. Függőleges keresés. Ai.
  6. Az adatok előkészítéséhez válassza az adatfolyamban a banki adatkészlet melletti pluszjelet, és válassza ki Transzformáció hozzáadása.
  7. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Lépés hozzáadása hogy elkezdje felépíteni az átalakulásait.
    Konfiguráljon egyéni Amazon S3 lekérdezési kimeneti helyet és adatmegőrzési szabályzatot az Amazon Athena adatforrásokhoz az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence szolgáltatásban. Függőleges keresés. Ai.

Az írás idején a Data Wrangler több mint 300 beépített átalakítást kínál. Saját átalakításokat is írhat a Pandas vagy a PySpark segítségével.

Konfiguráljon egyéni Amazon S3 lekérdezési kimeneti helyet és adatmegőrzési szabályzatot az Amazon Athena adatforrásokhoz az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence szolgáltatásban. Függőleges keresés. Ai.

Most megkezdheti az átalakítások és elemzések elkészítését az üzleti igényei alapján.

Tisztítsuk meg

A folyamatos költségek elkerülése érdekében törölje a Data Wrangler-erőforrásokat az alábbi lépésekkel, ha végzett.

  1. Válassza a Futó példányok és kernelek ikont.
  2. A FUTÓ ALKALMAZÁSOK alatt kattintson a leállítás ikonra a mellett sagemaker-data-wrangler-1.0 app.
  3. A megerősítéshez válassza az Összes leállítása lehetőséget.

Konfiguráljon egyéni Amazon S3 lekérdezési kimeneti helyet és adatmegőrzési szabályzatot az Amazon Athena adatforrásokhoz az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence szolgáltatásban. Függőleges keresés. Ai.

Következtetés

Ebben a bejegyzésben áttekintést adunk az S3 hely testreszabásáról és az S3 életciklus-konfigurációinak engedélyezéséről az Athena-ból a Data Wranglerbe történő adatimportáláshoz. Ezzel a funkcióval a közvetítő adatokat egy biztonságos S3 helyen tárolhatja, és a megőrzési időszak letelte után automatikusan eltávolíthatja az adatmásolatot, hogy csökkentse az adatokhoz való jogosulatlan hozzáférés kockázatát. Javasoljuk, hogy próbálja ki ezt az új funkciót. Boldog építkezést!

Ha többet szeretne megtudni az Athénáról és a SageMakerről, látogassa meg a Athena felhasználói kézikönyv és a Amazon SageMaker dokumentáció.


A szerzőkről

Konfiguráljon egyéni Amazon S3 lekérdezési kimeneti helyet és adatmegőrzési szabályzatot az Amazon Athena adatforrásokhoz az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence szolgáltatásban. Függőleges keresés. Ai. Meenakshisundaram Thandavarayan vezető AI/ML specialista az AWS-vel. Segíti a hi-tech stratégiai fiókokat az AI és az ML útjukon. Nagyon szenvedélyes az adatvezérelt mesterséges intelligencia iránt.

Konfiguráljon egyéni Amazon S3 lekérdezési kimeneti helyet és adatmegőrzési szabályzatot az Amazon Athena adatforrásokhoz az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence szolgáltatásban. Függőleges keresés. Ai.Harish Rajagopalan az Amazon Web Services vezető megoldási építésze. A Harish vállalati ügyfelekkel dolgozik, és segíti őket felhőalapú utazásukban.

Konfiguráljon egyéni Amazon S3 lekérdezési kimeneti helyet és adatmegőrzési szabályzatot az Amazon Athena adatforrásokhoz az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence szolgáltatásban. Függőleges keresés. Ai.James Wu az AWS vezető AI/ML specialista megoldástervezője. segít az ügyfeleknek AI/ML megoldások tervezésében és kivitelezésében. James munkája az ML felhasználási esetek széles skáláját fedi le, elsősorban a számítógépes látás, a mély tanulás és az ML méretezése a vállalaton belül. Mielőtt csatlakozott az AWS-hez, James több mint 10 évig építész, fejlesztő és technológiai vezető volt, ebből 6 évig mérnöki és 4 évig marketing és reklámiparban dolgozott.

Időbélyeg:

Még több AWS gépi tanulás