Amazon SageMaker पर Amazon Redshift और RStudio को कनेक्ट करना

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

पिछले साल, हमने की सामान्य उपलब्धता की घोषणा की थी अमेज़न सेजमेकर पर RStudio, क्लाउड में उद्योग का पहला पूरी तरह से प्रबंधित RStudio कार्यक्षेत्र एकीकृत विकास वातावरण (IDE)। आप जल्दी से परिचित RStudio IDE लॉन्च कर सकते हैं और अपने काम को बाधित किए बिना अंतर्निहित कंप्यूट संसाधनों को डायल और डाउन कर सकते हैं, जिससे मशीन लर्निंग (ML) और एनालिटिक्स सॉल्यूशंस को R में बड़े पैमाने पर बनाना आसान हो जाता है।

SageMaker के कई RStudio उपयोगकर्ता भी इसके उपयोगकर्ता हैं अमेज़न रेडशिफ्ट, डेटा भंडारण और विश्लेषणात्मक वर्कलोड के लिए पूरी तरह से प्रबंधित, पेटाबाइट-स्केल, बड़े पैमाने पर समानांतर डेटा वेयरहाउस। यह मानक एसक्यूएल और आपके मौजूदा बिजनेस इंटेलिजेंस (बीआई) टूल्स का उपयोग करके आपके सभी डेटा का विश्लेषण करने के लिए तेज़, सरल और लागत प्रभावी बनाता है। उपयोगकर्ता ODBC, JDBC, या Amazon Redshift Data API के साथ डेटा के साथ इंटरैक्ट भी कर सकते हैं।

क्लाउड में बड़े डेटा सेट पर कुशलतापूर्वक विश्लेषण करने के लिए सेजमेकर और अमेज़ॅन रेडशिफ्ट पर RStudio का उपयोग सहायक हो सकता है। हालाँकि, क्लाउड में डेटा के साथ काम करना चुनौतियाँ पेश कर सकता है, जैसे संगठनात्मक डेटा साइलो को हटाने, सुरक्षा और अनुपालन बनाए रखने और टूलिंग को मानकीकृत करके जटिलता को कम करने की आवश्यकता। AWS इन चुनौतियों से निपटने में मदद करने के लिए SageMaker और Amazon Redshift पर RStudio जैसे टूल ऑफ़र करता है।

इस ब्लॉग पोस्ट में, हम आपको दिखाएंगे कि ऊपर उल्लिखित चुनौतियों का समाधान करते हुए क्लाउड में बड़े पैमाने पर डेटा सेट पर कुशलतापूर्वक विश्लेषण करने के लिए इन दोनों सेवाओं का एक साथ उपयोग कैसे करें। यह ब्लॉग व्यापार विश्लेषकों, डेटा इंजीनियरों, डेटा वैज्ञानिकों और सभी डेवलपर्स के साथ Amazon SageMaker भाषा पर Rstudio पर ध्यान केंद्रित करता है, जो लक्षित दर्शकों के रूप में R Language और Amazon Redshift का उपयोग करते हैं।

यदि आप अमेज़न रेडशिफ्ट के साथ पारंपरिक सेजमेकर स्टूडियो अनुभव का उपयोग करना चाहते हैं, तो इसे देखें Amazon SageMaker Jupyter नोटबुक से इंटरैक्ट करने के लिए Amazon Redshift Data API का उपयोग करना.

समाधान अवलोकन

आज के ब्लॉग में, हम निम्नलिखित चरणों को क्रियान्वित करेंगे:

आवश्यक पैकेजों के साथ नमूना रिपॉजिटरी की क्लोनिंग।
एक सुरक्षित ओडीबीसी कनेक्शन के साथ अमेज़न रेडशिफ्ट से जुड़ना (RStudio के लिए ODBC पसंदीदा प्रोटोकॉल है).
SageMaker पर RStudio के माध्यम से Amazon Redshift Serverless के भीतर डेटा पर क्वेरीज़ और SageMaker API क्रियाएँ चलाना

इस प्रक्रिया को निम्नलिखित समाधान वास्तुकला में दर्शाया गया है:

समाधान वॉकथ्रू

.. पूर्वापेक्षाएँ

आरंभ करने से पहले, सुनिश्चित करें कि Amazon SageMaker और Amazon Redshift Serverless पर RStudio की स्थापना के लिए आपके पास सभी आवश्यकताएं हैं, जैसे:

आवश्यक आधारभूत संरचना उत्पन्न करने के लिए हम क्लाउडफॉर्मेशन स्टैक का उपयोग करेंगे।

नोट: यदि आपके पास पहले से RStudio डोमेन और Amazon Redshift क्लस्टर है, तो आप इस चरण को छोड़ सकते हैं

इस स्टैक को लॉन्च करने से निम्नलिखित संसाधन बनते हैं:

3 निजी सबनेट
1 सार्वजनिक सबनेट
1 एनएटी गेटवे
इंटरनेट का प्रवेश द्वार
अमेज़न रेडशिफ्ट सर्वर रहित क्लस्टर
RStudio के साथ SageMaker डोमेन
SageMaker RStudio उपयोगकर्ता प्रोफ़ाइल
SageMaker RStudio डोमेन निष्पादन के लिए IAM सेवा भूमिका
SageMaker RStudio उपयोगकर्ता प्रोफ़ाइल निष्पादन के लिए IAM सेवा भूमिका

यह टेम्प्लेट एक क्षेत्र में काम करने के लिए डिज़ाइन किया गया है (उदा। us-east-1, us-west-2) तीन उपलब्धता क्षेत्रों के साथ, SageMaker पर RStudio, और Amazon Redshift Serverless। सुनिश्चित करें कि आपके क्षेत्र के पास उन संसाधनों तक पहुंच है, या तदनुसार टेम्प्लेट संशोधित करें।

प्रेस स्टैक लॉन्च करें ढेर बनाने के लिए बटन।

Amazon SageMaker प्लेटोब्लॉकचेन डेटा इंटेलिजेंस पर Amazon Redshift और RStudio को कनेक्ट करना। लंबवत खोज. ऐ.

पर स्टैक बनाएँ पृष्ठ, चुनें अगला.
पर स्टैक विवरण निर्दिष्ट करें पृष्ठ, अपने स्टैक के लिए एक नाम प्रदान करें और शेष विकल्पों को डिफ़ॉल्ट के रूप में छोड़ दें, फिर चुनें अगला.
पर स्टैक विकल्प कॉन्फ़िगर करें पेज, विकल्पों को डिफ़ॉल्ट के रूप में छोड़ दें और दबाएं अगला.
पर समीक्षा पृष्ठका चयन करें

मैं स्वीकार करता हूं कि AWS CloudFormation कस्टम नाम के साथ IAM संसाधन बना सकता है
मैं स्वीकार करता हूं कि AWS CloudFormation को निम्नलिखित क्षमता की आवश्यकता हो सकती है: CAPABILITY_AUTO_EXPANDचेकबॉक्स और चुनें सब्मिट.

टेम्पलेट पाँच ढेर उत्पन्न करेगा।

एक बार ढेर की स्थिति है बनाएं_पूरा करें, Amazon Redshift सर्वर रहित कंसोल पर नेविगेट करें। यह एक नई क्षमता है जो किसी भी पैमाने पर उच्च प्रदर्शन के साथ क्लाउड में एनालिटिक्स चलाना बेहद आसान बनाती है। बस अपना डेटा लोड करें और क्वेरी करना प्रारंभ करें। क्लस्टर स्थापित करने और प्रबंधित करने की कोई आवश्यकता नहीं है।

नोट: अमेज़ॅन सैजमेकर पर अमेज़ॅन रेडशिफ्ट और आरस्टूडियो को एकीकृत करने वाले इस ब्लॉग में प्रदर्शित पैटर्न अमेज़ॅन रेडशिफ्ट परिनियोजन पैटर्न (सर्वर रहित या पारंपरिक क्लस्टर) की परवाह किए बिना समान होगा।

Amazon Redshift Serverless में डेटा लोड हो रहा है

CloudFormation स्क्रिप्ट ने एक डेटाबेस बनाया, जिसे कहा जाता है sagemaker. आइए इस डेटाबेस को RStudio उपयोगकर्ता द्वारा क्वेरी करने के लिए तालिकाओं के साथ पॉप्युलेट करें। एक SQL संपादक टैब बनाएँ और सुनिश्चित करें कि sagemaker डेटाबेस चुना गया है। हम प्रयोग करेंगे सिंथेटिक क्रेडिट कार्ड लेनदेन डेटा हमारे डेटाबेस में टेबल बनाने के लिए। यह डेटा SageMaker नमूना सारणीबद्ध डेटासेट का हिस्सा है s3://sagemaker-sample-files/datasets/tabular/synthetic_credit_card_transactions.

हम क्वेरी एडिटर में निम्नलिखित क्वेरी को निष्पादित करने जा रहे हैं। यह तीन तालिकाएँ उत्पन्न करेगा, कार्ड, लेनदेन, और उपयोगकर्ताओं.

CREATE SCHEMA IF NOT EXISTS synthetic;
DROP TABLE IF EXISTS synthetic.transactions;

CREATE TABLE synthetic.transactions(
    user_id INT,
    card_id INT,
    year INT,
    month INT,
    day INT,
    time_stamp TIME,
    amount VARCHAR(100),
    use_chip VARCHAR(100),
    merchant_name VARCHAR(100),
    merchant_city VARCHAR(100),
    merchant_state VARCHAR(100),
    merchant_zip_code VARCHAR(100),
    merchant_category_code INT,
    is_error VARCHAR(100),
    is_fraud VARCHAR(100)
);

COPY synthetic.transactions
FROM 's3://sagemaker-sample-files/datasets/tabular/synthetic_credit_card_transactions/credit_card_transactions-ibm_v2.csv'
IAM_ROLE default
REGION 'us-east-1' 
IGNOREHEADER 1 
CSV;

DROP TABLE IF EXISTS synthetic.cards;

CREATE TABLE synthetic.cards(
    user_id INT,
    card_id INT,
    card_brand VARCHAR(100),
    card_type VARCHAR(100),
    card_number VARCHAR(100),
    expire_date VARCHAR(100),
    cvv INT,
    has_chip VARCHAR(100),
    number_cards_issued INT,
    credit_limit VARCHAR(100),
    account_open_date VARCHAR(100),
    year_pin_last_changed VARCHAR(100),
    is_card_on_dark_web VARCHAR(100)
);

COPY synthetic.cards
FROM 's3://sagemaker-sample-files/datasets/tabular/synthetic_credit_card_transactions/sd254_cards.csv'
IAM_ROLE default
REGION 'us-east-1' 
IGNOREHEADER 1 
CSV;

DROP TABLE IF EXISTS synthetic.users;

CREATE TABLE synthetic.users(
    name VARCHAR(100),
    current_age INT,
    retirement_age INT,
    birth_year INT,
    birth_month INT,
    gender VARCHAR(100),
    address VARCHAR(100),
    apartment VARCHAR(100),
    city VARCHAR(100),
    state VARCHAR(100),
    zip_code INT,
    lattitude VARCHAR(100),
    longitude VARCHAR(100),
    per_capita_income_zip_code VARCHAR(100),
    yearly_income VARCHAR(100),
    total_debt VARCHAR(100),
    fico_score INT,
    number_credit_cards INT
);

COPY synthetic.users
FROM 's3://sagemaker-sample-files/datasets/tabular/synthetic_credit_card_transactions/sd254_users.csv'
IAM_ROLE default
REGION 'us-east-1' 
IGNOREHEADER 1 
CSV;

आप क्वेरी संपादक के बाएँ हाथ के फलक में तीन तालिकाओं को देखकर सत्यापित कर सकते हैं कि क्वेरी सफलतापूर्वक चली।

एक बार जब सभी तालिकाएँ आबाद हो जाती हैं, तो SageMaker RStudio पर नेविगेट करें और एक ml.m5.xlarge उदाहरण पर RSession आधार छवि के साथ एक नया सत्र शुरू करें।

सत्र शुरू होने के बाद, हम इस कोड को अपने Amazon Redshift सर्वर रहित डेटाबेस से कनेक्शन बनाने के लिए चलाएंगे।

library(DBI)
library(reticulate)
boto3 <- import('boto3')
client <- boto3$client('redshift-serverless')
workgroup <- unlist(client$list_workgroups())
namespace <- unlist(client$get_namespace(namespaceName=workgroup$workgroups.namespaceName))
creds <- client$get_credentials(dbName=namespace$namespace.dbName,
                                durationSeconds=3600L,
                                workgroupName=workgroup$workgroups.workgroupName)
con <- dbConnect(odbc::odbc(),
                 Driver='redshift',
                 Server=workgroup$workgroups.endpoint.address,
                 Port='5439',
                 Database=namespace$namespace.dbName,
                 UID=creds$dbUser,
                 PWD=creds$dbPassword)

सिंथेटिक स्कीमा में तालिकाओं को देखने के लिए, आपको क्वेरी संपादक के माध्यम से अमेज़ॅन रेडशिफ्ट में पहुंच प्रदान करने की आवश्यकता होगी।

GRANT ALL ON SCHEMA synthetic to "IAMR:SageMakerUserExecutionRole";
GRANT ALL ON ALL TABLES IN SCHEMA synthetic to "IAMR:SageMakerUserExecutionRole";

द आरस्टूडियो कनेक्शन फलक को दिखाना चाहिए sagemaker स्कीमा सिंथेटिक और टेबल कार्ड, लेनदेन, उपयोगकर्ताओं के साथ डेटाबेस।

आप 1,000 रिकॉर्ड देखने के लिए टेबल के बगल में स्थित टेबल आइकन पर क्लिक कर सकते हैं।

नोट: हमने एक पूर्व-निर्मित आर मार्कडाउन फ़ाइल बनाई है जिसमें सभी कोड-ब्लॉक पूर्व-निर्मित हैं जो परियोजना में पाए जा सकते हैं गीथहब रेपो.

अब प्रयोग करते हैं DBI पैकेज समारोह dbListTables() मौजूदा तालिकाओं को देखने के लिए।

dbListTables(con)

डेटाबेस में SQL क्वेरी पास करने के लिए dbGetQuery() का उपयोग करें।

dbGetQuery(con, "select * from synthetic.users limit 100")
dbGetQuery(con, "select * from synthetic.cards limit 100")
dbGetQuery(con, "select * from synthetic.transactions limit 100")

हम भी उपयोग कर सकते हैं dbplyr और dplyr संकुल डेटाबेस में प्रश्नों को निष्पादित करने के लिए। के जाने count() लेन-देन तालिका में कितने लेन-देन हैं। लेकिन पहले, हमें इन पैकेजों को स्थापित करने की जरूरत है।

install.packages(c("dplyr", "dbplyr", "crayon"))

उपयोग tbl() स्कीमा निर्दिष्ट करते समय कार्य करें।

library(dplyr)
library(dbplyr)

users_tbl <- tbl(con, in_schema("synthetic", "users"))
cards_tbl <- tbl(con, in_schema("synthetic", "cards"))
transactions_tbl <- tbl(con, in_schema("synthetic", "transactions"))

आइए प्रत्येक तालिका के लिए पंक्तियों की संख्या की गणना करें।

count(users_tbl)
count(cards_tbl)
count(transactions_tbl)

तो हमारे पास 2,000 उपयोगकर्ता हैं; 6,146 कार्ड; और 24,386,900 लेनदेन। हम कंसोल में टेबल भी देख सकते हैं।

transactions_tbl

हम भी क्या देख सकते हैं dplyr क्रिया हुड के नीचे कर रहे हैं।

show_query(transactions_tbl)

आइए दृष्टिगत रूप से वर्ष के अनुसार लेन-देन की संख्या का अन्वेषण करें।

transactions_by_year %
  count(year) %>%
  arrange(year) %>%
  collect()

transactions_by_year
install.packages(c('ggplot2', 'vctrs'))
library(ggplot2)
ggplot(transactions_by_year) +
  geom_col(aes(year, as.integer(n))) +
  ylab('transactions')

हम डेटाबेस में डेटा को संक्षेप में निम्नानुसार भी कर सकते हैं:

transactions_tbl %>%
  group_by(is_fraud) %>%
  count()
transactions_tbl %>%
  group_by(merchant_category_code, is_fraud) %>%
  count() %>% 
  arrange(merchant_category_code)

मान लीजिए हम कार्ड की जानकारी का उपयोग करके धोखाधड़ी देखना चाहते हैं। हमें केवल तालिकाओं में शामिल होने और फिर उन्हें विशेषता द्वारा समूहित करने की आवश्यकता है।

cards_tbl %>%
  left_join(transactions_tbl, by = c("user_id", "card_id")) %>%
  group_by(card_brand, card_type, is_fraud) %>%
  count() %>% 
  arrange(card_brand)

अब एक डेटासेट तैयार करते हैं जिसका उपयोग मशीन लर्निंग के लिए किया जा सकता है। चलो लेन-देन डेटा को केवल कॉलम के सबसेट को रखते हुए केवल डिस्कवर क्रेडिट कार्ड शामिल करने के लिए फ़िल्टर करते हैं।

discover_tbl %
  filter(card_brand == 'Discover', card_type == 'Credit') %>%
  left_join(transactions_tbl, by = c("user_id", "card_id")) %>%
  select(user_id, is_fraud, merchant_category_code, use_chip, year, month, day, time_stamp, amount)

और अब निम्नलिखित परिवर्तनों का उपयोग करके कुछ सफाई करते हैं:

में कनवर्ट करना is_fraud बाइनरी विशेषता के लिए
से लेन-देन स्ट्रिंग निकालें use_chip और इसे टाइप करने के लिए नाम बदलें
वर्ष, माह और दिन को एक डेटा ऑब्जेक्ट में संयोजित करें
राशि से $ निकालें और एक संख्यात्मक डेटा प्रकार में बदलें

discover_tbl %
  mutate(is_fraud = ifelse(is_fraud == 'Yes', 1, 0),
         type = str_remove(use_chip, 'Transaction'),
         type = str_trim(type),
         type = tolower(type),
         date = paste(year, month, day, sep = '-'),
         date = as.Date(date),
         amount = str_remove(amount, '[$]'),
         amount = as.numeric(amount)) %>%
  select(-use_chip, -year, -month, -day)

अब जब हमने अपने डेटासेट को फ़िल्टर और साफ़ कर लिया है, तो हम इस डेटासेट को स्थानीय RAM में एकत्रित करने के लिए तैयार हैं।

discover <- collect(discover_tbl)
summary(discover)

अब हमारे पास फीचर और फिटिंग मॉडल बनाना शुरू करने के लिए एक कार्यशील डेटासेट है। हम उन चरणों को इस ब्लॉग में शामिल नहीं करेंगे, लेकिन यदि आप SageMaker पर RStudio में मॉडल बनाने के बारे में अधिक जानना चाहते हैं तो देखें डेटा वैज्ञानिकों के लिए Amazon SageMaker पर पूरी तरह से प्रबंधित RStudio की घोषणा.

साफ - सफाई

आवर्ती लागतों से बचने के लिए किसी भी संसाधन को साफ करने के लिए, रूट CloudFormation टेम्प्लेट को हटा दें। बनाए गए सभी EFS माउंट और बनाए गए किसी भी S3 बकेट और ऑब्जेक्ट को भी हटा दें।

निष्कर्ष

क्लाउड में बड़े डेटासेट के साथ काम करते समय डेटा विश्लेषण और मॉडलिंग चुनौतीपूर्ण हो सकता है। अमेज़न रेडशिफ्ट एक लोकप्रिय डेटा वेयरहाउस है जो उपयोगकर्ताओं को इन कार्यों को करने में मदद कर सकता है। RStudio, डेटा विश्लेषण के लिए सबसे व्यापक रूप से उपयोग किए जाने वाले एकीकृत विकास वातावरण (IDEs) में से एक है, जिसका उपयोग अक्सर R भाषा के साथ किया जाता है। इस ब्लॉग पोस्ट में, हमने बड़े पैमाने पर डेटासेट पर कुशलता से विश्लेषण करने के लिए SageMaker पर Amazon Redshift और RStudio का एक साथ उपयोग करने का तरीका दिखाया। SageMaker पर RStudio का उपयोग करके, उपयोगकर्ता SageMaker की पूरी तरह से प्रबंधित अवसंरचना, अभिगम नियंत्रण, नेटवर्किंग और सुरक्षा क्षमताओं का लाभ उठा सकते हैं, जबकि Amazon Redshift के साथ एकीकरण को भी सरल बना सकते हैं। यदि आप इन दो उपकरणों का एक साथ उपयोग करने के बारे में अधिक जानना चाहते हैं, तो हमारे अन्य ब्लॉग पोस्ट और संसाधन देखें। आप अपने लिए SageMaker और Amazon Redshift पर RStudio का उपयोग करने का प्रयास कर सकते हैं और देख सकते हैं कि वे आपके डेटा विश्लेषण और मॉडलिंग कार्यों में आपकी सहायता कैसे कर सकते हैं।

कृपया इस ब्लॉग पर अपनी प्रतिक्रिया जोड़ें, या पर एक पुल अनुरोध बनाएँ GitHub.

लेखक के बारे में

रयान गार्नर AWS प्रोफेशनल सर्विसेज के साथ डेटा साइंटिस्ट हैं। वह AWS ग्राहकों को उनकी डेटा साइंस और मशीन लर्निंग समस्याओं को हल करने के लिए R का उपयोग करने में मदद करने के लिए भावुक हैं।

राज पाठक वित्तीय सेवाओं (बीमा, बैंकिंग, पूंजी बाजार) और मशीन लर्निंग में विशेषज्ञता रखने वाला एक वरिष्ठ समाधान वास्तुकार और टेक्नोलॉजिस्ट है। वह प्राकृतिक भाषा प्रसंस्करण (एनएलपी), बड़े भाषा मॉडल (एलएलएम) और मशीन लर्निंग इंफ्रास्ट्रक्चर और ऑपरेशंस प्रोजेक्ट्स (एमएलओपीएस) में माहिर हैं।

अदिति रजनीश वाटरलू विश्वविद्यालय में सॉफ्टवेयर इंजीनियरिंग का द्वितीय वर्ष का छात्र है। उनकी रुचियों में कंप्यूटर विजन, नेचुरल लैंग्वेज प्रोसेसिंग और एज कंप्यूटिंग शामिल हैं। वह समुदाय-आधारित एसटीईएम आउटरीच और वकालत के बारे में भी भावुक हैं। अपने खाली समय में, वह रॉक क्लाइम्बिंग, पियानो बजाते हुए, या सही स्कोन बेक करना सीखते हुए पाई जा सकती हैं।

सैतेजा पुडी डलास, टेक्सास में स्थित एडब्ल्यूएस में एक समाधान वास्तुकार है। वह 3 साल से अधिक समय से AWS के साथ हैं, ग्राहकों को उनके विश्वसनीय सलाहकार बनकर AWS की वास्तविक क्षमता प्राप्त करने में मदद करते हैं। वह एक एप्लिकेशन डेवलपमेंट बैकग्राउंड से आता है, जिसकी दिलचस्पी डेटा साइंस और मशीन लर्निंग में है।