Az adatvezérelt kultúra felé haladó szervezetek a döntéshozatal során az adatok és a gépi tanulás (ML) használatát veszik magukévá. Ahhoz, hogy az adatok alapján ML-alapú döntéseket hozhasson, az adatoknak rendelkezésre kell állniuk, hozzáférhetők, tiszták és megfelelő formátumban kell lenniük az ML-modellek betanításához. A többfiókos architektúrával rendelkező szervezetek el akarják kerülni az olyan helyzeteket, amikor adatokat kell kinyerniük az egyik fiókból, és betölteniük egy másikba az adat-előkészítési tevékenységekhez. A különböző kibontási, átalakítási és betöltési (ETL) feladatok manuális felépítése és karbantartása a különböző fiókokban bonyolultabbá és költségesebbé teszi, és megnehezíti az irányítási, megfelelőségi és biztonsági bevált gyakorlatok fenntartását az adatok biztonsága érdekében.
Amazon RedShift egy gyors, teljes körűen felügyelt felhő adattárház. Az Amazon Redshift több fiókra kiterjedő adatmegosztó funkciója egyszerű és biztonságos módot kínál az Amazon Redshift adattárházában lévő friss, teljes és konzisztens adatok megosztására a különböző AWS-fiókokban lévő érdekelt felekkel. Amazon SageMaker Data Wrangler képessége Amazon SageMaker amely vizuális interfész segítségével gyorsabbá teszi az adattudósok és mérnökök számára az adatok előkészítését az ML alkalmazásokhoz. A Data Wrangler lehetővé teszi az ML-adatok feltárását és átalakítását az Amazon Redshift adatmegosztásokhoz való csatlakozással.
Ebben a bejegyzésben egy több fiókra kiterjedő integráció beállítását mutatjuk be az Amazon Redshift adatmegosztás használatával, és az adatok előkészítését a Data Wrangler segítségével.
Megoldás áttekintése
Két AWS-fiókkal kezdünk: egy termelői fiókkal az Amazon Redshift adattárházzal, és egy fogyasztói fiókkal a SageMaker ML használati eseteihez. Ehhez a bejegyzéshez a banki adatkészlet. A folytatáshoz töltse le az adatkészletet a helyi gépére. Az alábbiakban a munkafolyamat magas szintű áttekintése látható:
- Példányosítson egy Amazon Redshift RA3 fürtöt a termelői fiókban, és töltse be az adatkészletet.
- Hozzon létre egy Amazon Redshift adatmegosztást a termelői fiókban, és engedélyezze a fogyasztói fiók számára az adatok elérését.
- Hozzáférés az Amazon Redshift adatmegosztáshoz a fogyasztói fiókban.
- Elemezze és dolgozza fel az adatokat a Data Wrangler segítségével a fogyasztói fiókban, és építse fel adat-előkészítési munkafolyamatait.
Legyen tisztában a megfontolások az Amazon Redshift adatmegosztással való együttműködéshez:
- Több AWS-fiók – Legalább két AWS-fiókra van szüksége: egy termelői és egy fogyasztói fiókra.
- Klaszter típusa – Az adatmegosztást az RA3 fürttípus támogatja. Amazon Redshift-fürt példányosításakor ügyeljen arra, hogy az RA3 fürttípust válassza.
- Titkosítás – Ahhoz, hogy az adatmegosztás működjön, mind a gyártói, mind a fogyasztói klaszternek titkosítottnak kell lennie, és ugyanabban az AWS-régióban kell lennie.
- Régiók – A fiókok közötti adatmegosztás elérhető az összes Amazon Redshift esetében RA3 csomóponttípusok az Egyesült Államok keleti (Észak-Virginia), USA keleti (Ohio), USA nyugati része (Észak-Kalifornia), USA nyugati része (Oregon), Ázsia-csendes-óceáni (Mumbai), Ázsia-csendes-óceáni (Szöul), Ázsia-csendes-óceáni (Szingapúr), Ázsia-csendes-óceáni (Szingapúr) Sydney), Ázsia-csendes-óceáni (Tokió), Kanada (Közép), Európa (Frankfurt), Európa (Írország), Európa (London), Európa (Párizs), Európa (Stockholm) és Dél-Amerika (São Paulo).
- Árazás – A több fiókra kiterjedő adatmegosztás elérhető az azonos régióban lévő fürtök között. Az adatok megosztásának nincs költsége. Csak a megosztásban részt vevő Amazon Redshift-fürtökért fizet.
A több fiókra kiterjedő adatmegosztás kétlépcsős folyamat. Először egy termelői fürt adminisztrátora létrehoz egy adatmegosztást, objektumokat ad hozzá, és hozzáférést biztosít a fogyasztói fiókhoz. Ezután a termelői fiók adminisztrátora engedélyezi az adatok megosztását a megadott fogyasztó számára. Ezt megteheti az Amazon Redshift konzolról.
Hozzon létre egy Amazon Redshift adatmegosztást a termelői fiókban
Az adatmegosztás létrehozásához hajtsa végre a következő lépéseket:
- Az Amazon Redshift konzolon hozzon létre egy Amazon Redshift fürtöt.
- Adja meg Termelés és válassza ki az RA3 csomópont típusát.
- Alatt További konfigurációk, törölje a kijelölést Alapértelmezések használata.
- Alatt Adatbázis konfigurációk, állítson be titkosítást a fürthöz.
- A fürt létrehozása után importálja a direkt marketing banki adatkészletet. A következő URL-ről töltheti le: https://sagemaker-sample-data-us-west-2.s3-us-west-2.amazonaws.com/autopilot/direct_marketing/bank-additional.zip.
- Feltöltés
bank-additional-full.csv
egy Amazon egyszerű tárolási szolgáltatás (Amazon S3) vödör, amelyhez a fürt hozzáfér. - Használja az Amazon Redshift lekérdezésszerkesztőt, és futtassa a következő SQL lekérdezést az adatok Amazon Redshiftbe másolásához:
- Navigáljon a fürt részleteinek oldalára és a Adatmegosztások lapot választani Adatmegosztás létrehozása.
- A Adatmegosztás neve, írjon be egy nevet.
- A Adatbázis név, válasszon adatbázist.
- A Adjon hozzá adatmegosztási objektumokat szakaszban válassza ki azokat az objektumokat az adatbázisból, amelyeket fel szeretne venni az adatmegosztásba.
Ön pontosan szabályozhatja, hogy mit oszt meg másokkal. Az egyszerűség kedvéért az összes táblázatot megosztjuk. A gyakorlatban választhat egy vagy több táblát, nézetet vagy felhasználó által definiált függvényt. - A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a hozzáad.
- Adatfogyasztók hozzáadásához válassza a lehetőséget Adjon hozzá AWS-fiókokat az adatmegosztáshoz és adja hozzá másodlagos AWS-fiókazonosítóját.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Adatmegosztás létrehozása.
- Az imént létrehozott adatfogyasztó engedélyezéséhez nyissa meg a Adatmegosztások oldalon az Amazon Redshift konzolon, és válassza ki az új adatmegosztást.
- Válassza ki az adatfogyasztót, és válassza ki engedélyez.
A fogyasztói státusz megváltozik Pending authorization
nak nek Authorized
.
Hozzáférés az Amazon Redshift fiókok közötti adatmegosztáshoz a fogyasztói AWS-fiókban
Most, hogy az adatmegosztás be van állítva, váltson fogyasztói AWS-fiókjára az adatmegosztás használatához. Győződjön meg arról, hogy legalább egy Amazon Redshift-fürtöt hozott létre a fogyasztói fiókjában. A fürtnek titkosítottnak kell lennie, és ugyanabban a régióban kell lennie, mint a forrásnak.
- Az Amazon Redshift konzolon válassza a lehetőséget Adatmegosztások a navigációs ablaktáblában.
- A Más fiókokból lapon válassza ki a létrehozott adatmegosztást, és válassza ki Társult.
- Az adatmegosztást társíthatja egy vagy több fürttel ebben a fiókban, vagy társíthatja az adatmegosztást a teljes fiókhoz, így a fogyasztói fiók jelenlegi és jövőbeli fürtjei hozzáférhetnek ehhez a megosztáshoz.
- Adja meg a kapcsolat adatait, és válassza ki Csatlakozás.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Adatbázis létrehozása adatmegosztásból és adjon nevet az új adatbázisnak.
- Az adatmegosztás teszteléséhez lépjen a lekérdezésszerkesztőbe, és futtasson lekérdezéseket az új adatbázisban, hogy megbizonyosodjon arról, hogy az összes objektum elérhető az adatmegosztás részeként.
Adatok elemzése és feldolgozása a Data Wrangler segítségével
Mostantól a Data Wrangler segítségével hozzáférhet az Amazon Redshiftben adatmegosztásként létrehozott több fiókhoz tartozó adatokhoz.
- Nyisd ki Amazon SageMaker Studio.
- A filé menüben válasszon Új és a Data Wrangler Flow.
- A import lapot választani Adatforrás hozzáadása és a Amazon RedShift.
- Adja meg az imént létrehozott Amazon Redshift-fürt kapcsolati adatait az adatmegosztáshoz tartozó fogyasztói fiókban.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Csatlakozás.
- Használja a AWS Identity and Access Management (IAM) szerepkört, amelyet az Amazon Redshift-fürtjéhez használt.
Vegye figyelembe, hogy bár az adatmegosztás egy új adatbázis az Amazon Redshift-fürtben, nem csatlakozhat közvetlenül a Data Wranglerből.
A helyes módszer az, ha először csatlakozik az alapértelmezett fürtadatbázishoz, majd SQL-t használ az adatmegosztási adatbázis lekérdezéséhez. Adja meg a szükséges információkat az alapértelmezett fürt adatbázishoz való csatlakozáshoz. Vegye figyelembe, hogy egy AWS kulcskezelési szolgáltatás (AWS KMS) kulcsazonosító nem szükséges a csatlakozáshoz.
A Data Wrangler most csatlakozik az Amazon Redshift példányhoz.
- Az Amazon Redshift adatmegosztási adatbázisban lévő adatok lekérdezése SQL-szerkesztővel.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a import hogy importálja az adatkészletet a Data Wranglerbe.
- Adja meg az adatkészlet nevét, és válassza ki hozzáad.
Most már láthatja az áramlást a Adatáramlás a Data Wrangler lapon.
Miután betöltötte az adatokat a Data Wranglerbe, feltáró adatelemzést végezhet, és adatokat készíthet elő az ML-hez.
- Válassza ki a plusz jelet, és válassza ki Elemzés hozzáadása.
A Data Wrangler beépített elemzéseket biztosít. Ezek közé tartozik többek között az adatminőségi és betekintési jelentés, az adatkorreláció, a képzés előtti torzítási jelentés, az adatkészlet összefoglalása és a vizualizációk (például hisztogramok és szóródiagramok). Saját egyéni vizualizációt is létrehozhat.
Az Adatminőség és Betekintési jelentés segítségével automatikusan generálhat vizualizációkat és elemzéseket az adatminőséggel kapcsolatos problémák azonosításához, és javasolhatja az adatkészlethez szükséges megfelelő átalakítást.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Adatminőségi és betekintési jelentés, és válassza a Céloszlop as y.
- Mert ez egy osztályozási probléma kijelentés, mert Probléma típusaválassza Osztályozás.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Teremt.
A Data Wrangler részletes jelentést készít az adatkészletről. A jelentést a helyi gépére is letöltheti.
- Az adatok előkészítéséhez válassza a plusz jelet, és válassza ki Elemzés hozzáadása.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Lépés hozzáadása hogy elkezdje felépíteni az átalakulásait.
Az írás idején a Data Wrangler több mint 300 beépített átalakítást kínál. Saját átalakításokat is írhat a Pandas vagy a PySpark segítségével.
Most megkezdheti az átalakítások és elemzések felépítését az üzleti követelményei alapján.
Következtetés
Ebben a bejegyzésben megvizsgáltuk az adatok megosztását a fiókok között az Amazon Redshift adatmegosztások használatával anélkül, hogy manuálisan kellene letölteni és feltölteni az adatokat. Végigjártuk, hogyan érhetjük el a megosztott adatokat a Data Wrangler segítségével, és hogyan készíthetjük elő az adatokat az ML használati eseteihez. Az Amazon Redshift adatmegosztók és a Data Wrangler kód nélküli/alacsony kódú képessége felgyorsítja a képzési adatok előkészítését, és gyorsabb iteratív adat-előkészítéssel növeli az adatmérnökök és adattudósok agilitását.
Ha többet szeretne megtudni az Amazon Redshiftről és a SageMakerről, tekintse meg a Amazon Redshift Database fejlesztői útmutató és a Amazon SageMaker dokumentáció.
A szerzőkről
Meenakshisundaram Thandavarayan vezető AI/ML specialista az AWS-vel. Segíti a hi-tech stratégiai fiókokat az AI és az ML útjukon. Nagyon szenvedélyes az adatvezérelt mesterséges intelligencia iránt.
James Wu az AWS vezető AI/ML specialista megoldástervezője. segít az ügyfeleknek AI/ML megoldások tervezésében és kivitelezésében. James munkája az ML felhasználási esetek széles skáláját fedi le, elsősorban a számítógépes látás, a mély tanulás és az ML méretezése a vállalaton belül. Mielőtt csatlakozott az AWS-hez, James több mint 10 évig építész, fejlesztő és technológiai vezető volt, ebből 6 évig mérnöki és 4 évig marketing és reklámiparban dolgozott.
- Coinsmart. Európa legjobb Bitcoin- és kriptográfiai tőzsdéje.
- Platoblockchain. Web3 metaverzum intelligencia. Felerősített tudás. SZABAD HOZZÁFÉRÉS.
- CryptoHawk. Altcoin radar. Ingyenes próbaverzió.
- Forrás: https://aws.amazon.com/blogs/machine-learning/import-data-from-cross-account-amazon-redshift-in-amazon-sagemaker-data-wrangler-for-exploratory-data-analysis- és-adat-előkészítés/
- "
- &
- 10
- 100
- 11
- 7
- a
- Rólunk
- hozzáférés
- hozzáférhető
- Fiók
- át
- tevékenységek
- Hirdetés
- ellen
- AI
- Minden termék
- lehetővé teszi, hogy
- amazon
- Amerika
- elemzés
- Másik
- alkalmazások
- építészet
- Ázsia
- asia pacific
- Társult
- automatikusan
- elérhető
- AWS
- Bank
- BEST
- legjobb gyakorlatok
- határ
- épít
- Épület
- beépített
- üzleti
- Kalifornia
- Kampány
- Kanada
- esetek
- központi
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a
- besorolás
- felhő
- teljes
- teljesítés
- számítógép
- Csatlakozás
- összefüggő
- Csatlakozó
- kapcsolat
- következetes
- Konzol
- fogyaszt
- fogyasztó
- Fogyasztók
- kapcsolat
- ellenőrzés
- teremt
- készítette
- teremt
- Hitelesítő adatok
- kultúra
- Jelenlegi
- szokás
- Ügyfelek
- dátum
- adatelemzés
- adatmegosztás
- adatbázis
- határozatok
- mély
- Design
- részletes
- részletek
- Fejlesztő
- különböző
- nehéz
- közvetlen
- közvetlenül
- letöltés
- szerkesztő
- Oktatás
- ölelés
- titkosítás
- Mérnöki
- Mérnökök
- belép
- Vállalkozás
- Európa
- feltárása
- GYORS
- gyorsabb
- Funkció
- vezetéknév
- áramlási
- következik
- következő
- formátum
- friss
- ból ből
- funkciók
- jövő
- generál
- kormányzás
- tekintettel
- segít
- segít
- ház
- Hogyan
- How To
- HTTPS
- azonosítani
- Identitás
- tartalmaz
- Beleértve
- iparágak
- információ
- meglátások
- példa
- integráció
- kamat
- Felület
- Írország
- kérdések
- IT
- Munka
- Állások
- csatlakozott
- utazás
- Tart
- Kulcs
- vezető
- TANUL
- tanulás
- Korlátozott
- kiszámításának
- helyi
- elhelyezkedés
- London
- gép
- gépi tanulás
- fenntartása
- csinál
- KÉSZÍT
- sikerült
- vezetés
- kézzel
- Marketing
- esetleg
- ML
- modellek
- Hónap
- több
- mozgó
- Mumbai
- Navigáció
- szám
- Ohio
- érdekében
- Oregon
- szervezetek
- Más
- saját
- Csendes-óceán
- Párizs
- rész
- részt vesz
- szenvedélyes
- Fizet
- gyakorlat
- Készít
- előző
- elsődleges
- Probléma
- folyamat
- termelő
- ad
- biztosít
- világítás
- hatótávolság
- ajánl
- vidék
- jelentést
- kötelező
- Szerep
- futás
- biztonságos
- azonos
- skálázás
- tudósok
- másodlagos
- biztonság
- biztonság
- Szöul
- készlet
- beállítás
- Megosztás
- megosztott
- megosztás
- <p></p>
- Egyszerű
- Szingapúr
- So
- szilárd
- megoldások
- Megoldások
- Dél
- szakember
- kezdet
- nyilatkozat
- Állapot
- tárolás
- Stratégiai
- Támogatott
- kapcsoló
- sydney
- Technológia
- teszt
- A
- The Source
- Keresztül
- idő
- tokyo
- felé
- Képzések
- Átalakítás
- Átalakítás
- transzformációk
- us
- használ
- Virginia
- látomás
- megjelenítés
- Nyugati
- Mit
- nélkül
- Munka
- munkafolyamatok
- dolgozó
- írás
- év
- A te