Lansko leto smo objavili splošno razpoložljivost RStudio na Amazon SageMaker, prvo popolnoma upravljano integrirano razvojno okolje (IDE) RStudio Workbench v industriji v oblaku. Hitro lahko zaženete znani RStudio IDE in kličete navzgor in navzdol po osnovnih računalniških virih, ne da bi pri tem prekinili svoje delo, kar olajša gradnjo strojnega učenja (ML) in analitičnih rešitev v R v velikem obsegu.
Mnogi uporabniki RStudio na SageMaker so tudi uporabniki Amazon RedShift, popolnoma upravljano, masivno vzporedno podatkovno skladišče velikosti petabajtov za shranjevanje podatkov in analitične delovne obremenitve. Omogoča hitro, preprosto in stroškovno učinkovito analizo vseh vaših podatkov z uporabo standardnega SQL in vaših obstoječih orodij poslovne inteligence (BI). Uporabniki lahko s podatki komunicirajo tudi z ODBC, JDBC ali Amazon Redshift Data API.
Uporaba RStudio na SageMaker in Amazon Redshift je lahko koristna za učinkovito izvajanje analiz velikih nizov podatkov v oblaku. Vendar pa lahko delo s podatki v oblaku predstavlja izzive, kot je potreba po odstranitvi silosov organizacijskih podatkov, ohranjanju varnosti in skladnosti ter zmanjšanju zapletenosti s standardizacijo orodij. AWS ponuja orodja, kot sta RStudio na SageMaker in Amazon Redshift, za pomoč pri reševanju teh izzivov.
V tej objavi v spletnem dnevniku vam bomo pokazali, kako uporabiti obe storitvi skupaj za učinkovito izvajanje analize ogromnih naborov podatkov v oblaku, hkrati pa obravnavati zgoraj omenjene izzive. Ta blog se osredotoča na Rstudio v jeziku Amazon SageMaker, s poslovnimi analitiki, podatkovnimi inženirji, podatkovnimi znanstveniki in vsemi razvijalci, ki uporabljajo jezik R in Amazon Redshift, kot ciljno občinstvo.
Če želite uporabiti tradicionalno izkušnjo SageMaker Studio z Amazon Redshift, glejte Uporaba Amazon Redshift Data API za interakcijo iz prenosnika Amazon SageMaker Jupyter.
Pregled rešitev
V današnjem blogu bomo izvedli naslednje korake:
- Kloniranje vzorčnega repozitorija z zahtevanimi paketi.
- Povezovanje z Amazon Redshift z varno povezavo ODBC (ODBC je prednostni protokol za RStudio).
- Izvajanje poizvedb in dejanj SageMaker API za podatke znotraj Amazon Redshift Serverless prek RStudio na SageMaker
Ta proces je prikazan v naslednji arhitekturi rešitev:
Rešitev za rešitev
Predpogoji
Preden začnete, se prepričajte, da imate vse zahteve za nastavitev RStudio na Amazon SageMaker in Amazon Redshift Serverless, kot so:
Za ustvarjanje potrebne infrastrukture bomo uporabili sklad CloudFormation.
Opomba: Če že imate domeno RStudio in gručo Amazon Redshift, lahko ta korak preskočite
Zagon tega sklada ustvari naslednje vire:
- 3 Zasebna podomrežja
- 1 javno podomrežje
- 1 NAT prehod
- Internet prehod
- Brezstrežniška gruča Amazon Redshift
- Domena SageMaker z RStudio
- Uporabniški profil SageMaker RStudio
- Vloga storitve IAM za izvajanje domene SageMaker RStudio
- Vloga storitve IAM za izvajanje uporabniškega profila SageMaker RStudio
Ta predloga je zasnovana za delovanje v regiji (npr. us-east-1
, us-west-2
) s tremi območji razpoložljivosti, RStudio na SageMakerju in Amazon Redshift Serverless. Zagotovite, da ima vaša regija dostop do teh virov, ali ustrezno spremenite predloge.
Pritisnite Izstrelite sklad gumb za ustvarjanje sklada.
- o Ustvari sklad stran, izberite Naslednji.
- o Določite podrobnosti zlaganja stran, vnesite ime za svoj sklad in pustite preostale možnosti privzete, nato izberite Naslednji.
- o Konfigurirajte možnosti zlaganja stran, pustite možnosti privzete in pritisnite Naslednji.
- o Preglej stranIzberite
- Zavedam se, da AWS CloudFormation lahko ustvari vire IAM z imeni po meri
- Zavedam se, da AWS CloudFormation morda zahteva naslednje zmogljivosti: CAPABILITY_AUTO_EXPANDpotrditvena polja in izberite Prijave se.
Predloga bo ustvarila pet nizov.
Ko je stanje sklada CREATE_COMPLETE, se pomaknite do konzole Amazon Redshift Serverless. To je nova zmožnost, ki omogoča izjemno preprosto izvajanje analitike v oblaku z visoko zmogljivostjo v katerem koli obsegu. Samo naložite svoje podatke in začnite s poizvedovanjem. Ni potrebe po nastavitvi in upravljanju grozdov.
Opombe: V tem spletnem dnevniku predstavljen vzorec integracije Amazon Redshift in RStudio na Amazon SageMaker bo enak ne glede na vzorec uvajanja Amazon Redshift (brez strežnika ali tradicionalna gruča).
Nalaganje podatkov v Amazon Redshift Serverless
Skript CloudFormation je ustvaril bazo podatkov, imenovano sagemaker
. Napolnimo to zbirko podatkov s tabelami, po katerih lahko uporabnik RStudio poizveduje. Ustvarite zavihek urejevalnika SQL in se prepričajte, da sagemaker
podatkovna baza je izbrana. Uporabljali bomo sintetični podatki o transakcijah s kreditno kartico za ustvarjanje tabel v naši bazi podatkov. Ti podatki so del vzorčnih naborov tabelarnih podatkov SageMaker s3://sagemaker-sample-files/datasets/tabular/synthetic_credit_card_transactions
.
V urejevalniku poizvedb bomo izvedli naslednjo poizvedbo. To bo ustvarilo tri tabele, kartice, transakcije, in Uporabniki.
Če si ogledate tri tabele v levem podoknu urejevalnika poizvedb, lahko potrdite, da se je poizvedba uspešno izvedla.
Ko so vse tabele zapolnjene, se pomaknite do SageMaker RStudio in začnite novo sejo z osnovno sliko RSession na primerku ml.m5.xlarge.
Ko se seja zažene, bomo zagnali to kodo, da ustvarimo povezavo z našo bazo podatkov Amazon Redshift Serverless.
Če si želite ogledati tabele v sintetični shemi, boste morali prek urejevalnika poizvedb odobriti dostop v Amazon Redshift.
RStudio povezave podokno mora prikazati sagemaker
baza podatkov s sintetičnimi shemami in tabelami, kartice, transakcije, uporabniki.
Za ogled 1,000 zapisov lahko kliknete ikono tabele poleg tabel.
Opomba: Ustvarili smo vnaprej zgrajeno datoteko R Markdown z vsemi vnaprej zgrajenimi bloki kode, ki jih je mogoče najti v projektu GitHub repo.
Zdaj pa uporabimo DBI
funkcija paketa dbListTables()
za ogled obstoječih tabel.
Uporabite dbGetQuery(), da posredujete poizvedbo SQL v bazo podatkov.
Lahko uporabimo tudi dbplyr
in dplyr
paketi za izvajanje poizvedb v bazi podatkov. dajmo count()
koliko transakcij je v tabeli transakcij. Toda najprej moramo namestiti te pakete.
Uporaba tbl()
funkcijo med podajanjem sheme.
Zaženimo štetje števila vrstic za vsako tabelo.
Imamo torej 2,000 uporabnikov; 6,146 kart; in 24,386,900 transakcij. Tabele lahko pregledujemo tudi v konzoli.
transactions_tbl
Ogledamo si lahko tudi kaj dplyr
glagoli delajo pod pokrovom.
Oglejmo si vizualno število transakcij po letih.
Podatke v bazi lahko povzamemo tudi na naslednji način:
Recimo, da si želimo ogledati goljufije z uporabo podatkov o kartici. Samo združiti moramo tabele in jih nato združiti po atributu.
Zdaj pa pripravimo nabor podatkov, ki bi ga lahko uporabili za strojno učenje. Filtrirajmo podatke o transakcijah, da bomo vključevali samo kreditne kartice Discover, pri tem pa ohranili samo podmnožico stolpcev.
In zdaj naredimo nekaj čiščenja z naslednjimi transformacijami:
- Pretvarjanje
is_fraud
na binarni atribut - Odstrani transakcijski niz iz
use_chip
in ga preimenujte v tip - Združite leto, mesec in dan v podatkovni objekt
- Odstranite $ iz količine in pretvorite v številski podatkovni tip
Zdaj, ko smo naš nabor podatkov filtrirali in očistili, smo pripravljeni na zbiranje tega nabora podatkov v lokalni RAM.
Zdaj imamo delujoč nabor podatkov za začetek ustvarjanja funkcij in prilagajanja modelov. V tem spletnem dnevniku ne bomo obravnavali teh korakov, če pa želite izvedeti več o gradnji modelov v RStudiu na SageMakerju, glejte Predstavljamo popolnoma upravljan RStudio na Amazon SageMaker za podatkovne znanstvenike.
Pospravi
Če želite počistiti vse vire in se izogniti ponavljajočim se stroškom, izbrišite korensko predlogo CloudFormation. Izbrišite tudi vse ustvarjene namestitve EFS ter vsa ustvarjena vedra in predmete S3.
zaključek
Analiza podatkov in modeliranje sta lahko izziv pri delu z velikimi nabori podatkov v oblaku. Amazon Redshift je priljubljeno skladišče podatkov, ki lahko uporabnikom pomaga pri opravljanju teh nalog. RStudio, eno najbolj razširjenih integriranih razvojnih okolij (IDE) za analizo podatkov, se pogosto uporablja z jezikom R. V tej objavi v spletnem dnevniku smo pokazali, kako skupaj uporabljati Amazon Redshift in RStudio na SageMakerju za učinkovito izvajanje analize ogromnih naborov podatkov. Z uporabo RStudio na SageMakerju lahko uporabniki izkoristijo popolnoma upravljano infrastrukturo, nadzor dostopa, mreženje in varnostne zmogljivosti SageMakerja, hkrati pa poenostavijo integracijo z Amazon Redshift. Če želite izvedeti več o uporabi teh dveh orodij skupaj, si oglejte naše druge objave v spletnem dnevniku in vire. Poskusite lahko tudi sami uporabiti RStudio na SageMaker in Amazon Redshift ter si ogledate, kako vam lahko pomagata pri nalogah analize podatkov in modeliranja.
Dodajte svoje povratne informacije v ta spletni dnevnik ali ustvarite zahtevo za vlečenje na GitHub.
O avtorjih
Ryan Garner je podatkovni znanstvenik pri AWS Professional Services. Strastno želi pomagati strankam AWS pri uporabi R za reševanje njihovih težav s podatkovno znanostjo in strojnim učenjem.
Raj Pathak je višji arhitekt rešitev in tehnolog, specializiran za finančne storitve (zavarovalništvo, bančništvo, kapitalski trgi) in strojno učenje. Specializiran je za obdelavo naravnega jezika (NLP), velike jezikovne modele (LLM) ter infrastrukturo in operativne projekte strojnega učenja (MLOps).
Aditi Rajniš je študent drugega letnika programskega inženirstva na Univerzi Waterloo. Njeni interesi vključujejo računalniški vid, obdelavo naravnega jezika in robno računalništvo. Prav tako je navdušena nad ozaveščanjem in zagovarjanjem STEM v skupnosti. V prostem času jo lahko najdemo med plezanjem po skalah, igranjem klavirja ali učenjem peke popolnega kolačka.
Saiteja Pudi je arhitekt rešitev pri AWS s sedežem v Dallasu, Tx. Z AWS je zaposlen že več kot 3 leta in strankam pomaga izpeljati pravi potencial AWS, tako da je njihov zaupanja vreden svetovalec. Prihaja iz ozadja razvoja aplikacij, zanimata ga podatkovna znanost in strojno učenje.
- AI
- ai art
- ai art generator
- imajo robota
- Amazon RedShift
- Amazon SageMaker
- Umetna inteligenca
- certificiranje umetne inteligence
- umetna inteligenca v bančništvu
- robot z umetno inteligenco
- roboti z umetno inteligenco
- programska oprema za umetno inteligenco
- Strojno učenje AWS
- blockchain
- blockchain konferenca ai
- coingenius
- pogovorna umetna inteligenca
- kripto konferenca ai
- dall's
- globoko učenje
- strokovnjak (400)
- strojno učenje
- platon
- platon ai
- Platonova podatkovna inteligenca
- Igra Platon
- PlatoData
- platogaming
- lestvica ai
- sintaksa
- Tehnična navodila
- zefirnet