Eelmisel aastal teatasime üldisest saadavusest RStudio Amazon SageMakeris, valdkonna esimene täielikult hallatav RStudio Workbenchi integreeritud arenduskeskkond (IDE) pilves. Saate kiiresti käivitada tuttava RStudio IDE ja valida selle aluseks olevaid arvutusressursse üles ja alla ilma oma tööd katkestamata, muutes masinõppe (ML) ja analüütikalahenduste loomise R-vormingus lihtsaks.
Paljud SageMakeri RStudio kasutajad on ka kasutajad Amazoni punane nihe, täielikult hallatav, petabaitide mastaabis, massiliselt paralleelne andmeladu andmete salvestamiseks ja analüütiliseks töökoormuseks. See muudab kõigi andmete analüüsimise standardse SQL-i ja olemasolevate ärianalüüsi (BI) tööriistade abil kiireks, lihtsaks ja kulutõhusaks. Kasutajad saavad andmetega suhelda ka ODBC, JDBC või Amazon Redshift Data API abil.
RStudio kasutamine SageMakeris ja Amazon Redshiftis võib olla abiks pilves olevate suurte andmekogumite tõhusaks analüüsimiseks. Pilves andmetega töötamine võib aga tekitada väljakutseid, näiteks vajadus eemaldada organisatsiooni andmehoidlad, säilitada turvalisus ja vastavus ning vähendada keerukust tööriistade standardimise kaudu. AWS pakub nende väljakutsetega toimetulemiseks selliseid tööriistu nagu RStudio saidil SageMaker ja Amazon Redshift.
Selles ajaveebipostituses näitame teile, kuidas neid mõlemaid teenuseid koos kasutada, et tõhusalt analüüsida pilves olevaid tohutuid andmekogumeid, lahendades samal ajal ülalmainitud väljakutseid. See ajaveeb keskendub Amazon SageMakeri keele Rstudiole, mille sihtrühmaks on ärianalüütikud, andmeinsenerid, andmeteadlased ja kõik arendajad, kes kasutavad R-keelt ja Amazon Redshiftit.
Kui soovite kasutada traditsioonilist SageMaker Studio kogemust Amazon Redshiftiga, vaadake Amazon Redshift Data API kasutamine Amazon SageMaker Jupyteri sülearvutiga suhtlemiseks.
Lahenduse ülevaade
Tänases ajaveebis teostame järgmisi samme:
- Proovihoidla kloonimine vajalike pakettidega.
- Ühenduse loomine Amazon Redshiftiga turvalise ODBC-ühendusega (ODBC on RStudio eelistatud protokoll).
- Päringute ja SageMaker API toimingute käitamine andmetel Amazon Redshift Serverlessis SageMakeri RStudio kaudu
Seda protsessi on kujutatud järgmises lahenduste arhitektuuris:
Lahenduse ülevaade
Eeldused
Enne alustamist veenduge, et teil on kõik nõuded RStudio seadistamiseks Amazon SageMakeris ja Amazon Redshift Serverlessis, näiteks:
Kasutame vajaliku infrastruktuuri loomiseks CloudFormationi pinu.
Märge: Kui teil on juba RStudio domeen ja Amazon Redshifti klaster, võite selle sammu vahele jätta
Selle virna käivitamine loob järgmised ressursid:
- 3 Privaatsed alamvõrgud
- 1 Avalik alamvõrk
- 1 NAT-lüüs
- Interneti-lüüs
- Amazon Redshift serverita klaster
- SageMakeri domeen RStudioga
- SageMaker RStudio kasutajaprofiil
- IAM-teenuse roll SageMaker RStudio domeeni täitmiseks
- IAM-i teenuseroll SageMaker RStudio kasutajaprofiili täitmiseks
See mall on loodud töötama piirkonnas (nt. us-east-1
, us-west-2
), millel on kolm saadavustsooni, RStudio SageMakeris ja Amazon Redshift Serverless. Veenduge, et teie piirkonnal oleks juurdepääs neile ressurssidele, või muutke malle vastavalt.
Vajutage Käivitage Stack nuppu virna loomiseks.
- Kohta Loo virn lehel, valige järgmine.
- Kohta Määrake virna üksikasjad lehele, andke oma virnale nimi ja jätke ülejäänud valikud vaikevalikuks, seejärel valige järgmine.
- Kohta Konfigureerige virna valikud lehele, jätke valikud vaikeväärtusteks ja vajutage järgmine.
- Kohta Ülevaate lehtValige
- Tunnistan, et AWS CloudFormation võib luua kohandatud nimedega IAM-i ressursse
- Tunnistan, et AWS CloudFormation võib vajada järgmist võimalust: CAPABILITY_AUTO_EXPANDmärkeruudud ja valige LIITU.
Mall loob viis virna.
Kui virna staatus on CREATE_COMPLETE, navigeerige Amazon Redshift Serverless konsooli. See on uus võimalus, mis muudab analüütika käitamise pilves ülilihtsaks suure jõudlusega mis tahes skaalal. Lihtsalt laadige oma andmed ja alustage päringuid. Klastreid pole vaja seadistada ja hallata.
märkused: Selles ajaveebis näidatud muster, mis ühendab Amazon SageMakeris Amazon Redshift ja RStudio, on sama, olenemata Amazon Redshifti juurutusmustrist (serverita või traditsiooniline klaster).
Andmete laadimine Amazon Redshift Serverlessis
CloudFormationi skript lõi andmebaasi nimega sagemaker
. Täidame selle andmebaasi tabelitega, mida RStudio kasutaja saab päringuid teha. Looge SQL-i redaktori vahekaart ja veenduge, et sagemaker
andmebaas on valitud. Me hakkame kasutama sünteetilise krediitkaardi tehingute andmed et luua tabeleid meie andmebaasis. Need andmed on osa SageMakeri tabelinäidistest s3://sagemaker-sample-files/datasets/tabular/synthetic_credit_card_transactions
.
Me täidame päringuredaktoris järgmise päringu. See loob kolm tabelit, kaardid, tehingud, ja Kasutajad.
Saate kontrollida päringu edukat käitamist, kui näete päringuredaktori vasakpoolses paanis kolme tabelit.
Kui kõik tabelid on täidetud, liikuge saidile SageMaker RStudio ja alustage uut seanssi RSessioni baaspildiga ml.m5.xlarge eksemplaris.
Kui seanss on käivitatud, käivitame selle koodi, et luua ühendus meie Amazon Redshift Serverless andmebaasiga.
Sünteetilises skeemis olevate tabelite vaatamiseks peate päringuredaktori kaudu andma juurdepääsu rakendusele Amazon Redshift.
RStudio Side paan peaks näitama sagemaker
andmebaas sünteetilise skeemiga ja tabelitega kaardid, tehingud, kasutajad.
1,000 kirje vaatamiseks võite klõpsata tabeli ikoonil tabelite kõrval.
Märkus: oleme loonud eelehitatud R Markdown faili kõigi eelehitatud koodiplokkidega, mis projekti juurest leiate GitHub repo.
Nüüd kasutame DBI
paketi funktsioon dbListTables()
olemasolevate tabelite vaatamiseks.
SQL-päringu edastamiseks andmebaasi kasutage käsku dbGetQuery().
Saame kasutada ka dbplyr
ja dplyr
paketid päringute täitmiseks andmebaasis. Lähme count()
mitu tehingut on tehingute tabelis. Kuid kõigepealt peame need paketid installima.
Kasuta tbl()
skeemi määramisel.
Loendame iga tabeli ridade arvu.
Seega on meil 2,000 kasutajat; 6,146 kaarti; ja 24,386,900 XNUMX XNUMX tehingut. Tabeleid saame vaadata ka konsoolist.
transactions_tbl
Saame ka vaadata, mida dplyr
verbid teevad kapoti all.
Uurime visuaalselt tehingute arvu aastate lõikes.
Samuti saame andmebaasis olevad andmed kokku võtta järgmiselt:
Oletame, et tahame kaarditeavet kasutades vaadata pettusi. Peame tabelid lihtsalt ühendama ja seejärel atribuudi järgi rühmitama.
Nüüd valmistame ette andmestiku, mida saaks kasutada masinõppeks. Filtreerime tehinguandmeid nii, et need hõlmaksid lihtsalt Discoveri krediitkaarte, jättes alles vaid veergude alamhulga.
Ja nüüd puhastame, kasutades järgmisi teisendusi:
- Muutma
is_fraud
binaarsele atribuudile - Eemaldage tehingustring
use_chip
ja nimetage see tippimiseks ümber - Ühendage aasta, kuu ja päev andmeobjektiks
- Eemaldage summast $ ja teisendage numbriliseks andmetüübiks
Nüüd, kui oleme oma andmestiku filtreerinud ja puhastanud, oleme valmis koguma selle andmestiku kohalikku RAM-i.
Nüüd on meil toimiv andmestik, et alustada funktsioonide ja mudelite sobitamisega. Me ei käsitle neid samme selles ajaveebis, kuid kui soovite SageMakeris RStudio mudelite ehitamise kohta lisateavet, vaadake Täielikult hallatava RStudio väljakuulutamine andmeteadlaste jaoks mõeldud Amazon SageMakeris.
Korista ära
Ressursside puhastamiseks, et vältida korduvaid kulusid, kustutage CloudFormationi juurmall. Kustutage ka kõik loodud EFS-i kinnitused ja kõik loodud S3-salved ja objektid.
Järeldus
Andmete analüüs ja modelleerimine võivad pilves suurte andmekogumitega töötamisel olla keerulised. Amazon Redshift on populaarne andmeladu, mis aitab kasutajatel neid ülesandeid täita. R-keelega kasutatakse sageli RStudiot, mis on üks enim kasutatavaid integreeritud arenduskeskkondi (IDE) andmete analüüsimiseks. Selles ajaveebi postituses näitasime, kuidas kasutada Amazon Redshifti ja RStudiot SageMakeris koos, et massiivseid andmekogumeid tõhusalt analüüsida. Kasutades RStudiot SageMakeris, saavad kasutajad ära kasutada SageMakeri täielikult hallatavat infrastruktuuri, juurdepääsukontrolli, võrgundus- ja turbevõimalusi, lihtsustades samal ajal integreerimist Amazon Redshiftiga. Kui soovite nende kahe tööriista koos kasutamise kohta lisateavet, vaadake meie teisi ajaveebi postitusi ja ressursse. Võite ka ise proovida RStudio kasutamist SageMakeris ja Amazon Redshiftis ning näha, kuidas need saavad teid andmete analüüsi- ja modelleerimisülesannete täitmisel aidata.
Palun lisage oma tagasiside sellele blogile või looge tõmbetaotlus GitHub.
Autoritest
Ryan Garner on AWS-i professionaalsete teenustega andmeteadlane. Ta soovib kirglikult aidata AWS-i klientidel kasutada R-i oma andmeteaduse ja masinõppe probleemide lahendamiseks.
Raj Pathak on vanemlahenduste arhitekt ja tehnoloog, kes on spetsialiseerunud finantsteenustele (kindlustus, pangandus, kapitaliturud) ja masinõppele. Ta on spetsialiseerunud loomuliku keele töötlemisele (NLP), suurtele keelemudelitele (LLM) ning masinõppe infrastruktuuri ja operatsiooniprojektidele (MLOps).
Aditi Rajnish on Waterloo ülikooli teise aasta tarkvaratehnika üliõpilane. Tema huvide hulka kuuluvad arvutinägemine, loomuliku keele töötlemine ja äärearvutus. Ta on kirglik ka kogukonnapõhise STEM-i teavitamise ja propageerimise vastu. Vabal ajal võib teda leida kaljuronimisest, klaverit mängimast või ideaalse skooni küpsetamise õppimisest.
Saiteja Pudi on lahenduste arhitekt AWSis, mis asub Dallases, Texases. Ta on olnud AWS-is juba üle 3 aasta, aidates klientidel saada AWS-i tõelist potentsiaali, olles nende usaldusväärne nõustaja. Ta on pärit rakenduste arendamise taustast, olles huvitatud andmeteadusest ja masinõppest.
- AI
- ai kunst
- ai kunsti generaator
- on robot
- Amazoni punane nihe
- Amazon SageMaker
- tehisintellekti
- tehisintellekti sertifikaat
- tehisintellekt panganduses
- tehisintellekti robot
- tehisintellekti robotid
- tehisintellekti tarkvara
- AWS-i masinõpe
- blockchain
- plokiahela konverents ai
- coingenius
- vestluslik tehisintellekt
- krüptokonverents ai
- dall's
- sügav õpe
- Ekspert (400)
- google ai
- masinõpe
- Platon
- plato ai
- Platoni andmete intelligentsus
- Platoni mäng
- PlatoData
- platogaming
- skaala ai
- süntaks
- Tehniline juhend
- sephyrnet