Минулого року ми оголосили про загальну доступність RStudio на Amazon SageMaker, перше в галузі повністю кероване інтегроване середовище розробки (IDE) RStudio Workbench у хмарі. Ви можете швидко запустити звичну IDE RStudio і налаштувати базові обчислювальні ресурси, не перериваючи роботу, що полегшить створення машинного навчання (ML) і аналітичних рішень у масштабі R.
Багато користувачів RStudio на SageMaker також є користувачами Амазонська червона зміна, повністю кероване петабайтне масово паралельне сховище даних для зберігання даних і аналітичних навантажень. Це дозволяє швидко, просто та економічно ефективно аналізувати всі ваші дані за допомогою стандартного SQL і наявних інструментів бізнес-аналітики (BI). Користувачі також можуть взаємодіяти з даними за допомогою ODBC, JDBC або API даних Amazon Redshift.
Використання RStudio на SageMaker і Amazon Redshift може бути корисним для ефективного аналізу великих наборів даних у хмарі. Однак робота з даними в хмарі може спричинити труднощі, наприклад, необхідність усунути корпоративні дані, підтримувати безпеку та відповідність вимогам, а також зменшити складність шляхом стандартизації інструментів. AWS пропонує такі інструменти, як RStudio на SageMaker і Amazon Redshift, щоб допомогти впоратися з цими проблемами.
У цій публікації блогу ми покажемо вам, як використовувати обидві ці служби разом для ефективного аналізу масивних наборів даних у хмарі, одночасно вирішуючи згадані вище проблеми. Цей блог присвячено Rstudio на мові Amazon SageMaker, цільовою аудиторією є бізнес-аналітики, інженери з обробки даних, спеціалісти з обробки даних та всі розробники, які використовують мову R і Amazon Redshift.
Якщо ви хочете використовувати традиційний досвід SageMaker Studio з Amazon Redshift, зверніться до Використання API даних Amazon Redshift для взаємодії з блокнота Amazon SageMaker Jupyter.
Огляд рішення
Сьогодні в блозі ми виконаємо наступні кроки:
- Клонування репозиторію зразків з потрібними пакетами.
- Підключення до Amazon Redshift за допомогою безпечного з’єднання ODBC (ODBC є кращим протоколом для RStudio).
- Виконання запитів і дій SageMaker API над даними в Amazon Redshift Serverless через RStudio на SageMaker
Цей процес зображено в такій архітектурі рішень:
Покрокове керівництво
Передумови
Перш ніж почати, переконайтеся, що у вас є всі вимоги для налаштування RStudio на Amazon SageMaker і Amazon Redshift Serverless, наприклад:
Ми будемо використовувати стек CloudFormation для створення необхідної інфраструктури.
Примітка: Якщо у вас уже є домен RStudio та кластер Amazon Redshift, ви можете пропустити цей крок
Запуск цього стека створює такі ресурси:
- 3 Приватні підмережі
- 1 Публічна підмережа
- 1 шлюз NAT
- Інтернет-шлюз
- Безсерверний кластер Amazon Redshift
- Домен SageMaker з RStudio
- Профіль користувача SageMaker RStudio
- Роль служби IAM для виконання домену SageMaker RStudio
- Роль служби IAM для виконання профілю користувача SageMaker RStudio
Цей шаблон розроблено для роботи в регіоні (наприклад, us-east-1
, us-west-2
) із трьома зонами доступності, RStudio на SageMaker і Amazon Redshift Serverless. Переконайтеся, що ваш регіон має доступ до цих ресурсів, або відповідно змініть шаблони.
Натисніть Запустити стек кнопку для створення стека.
- на Створити стек сторінку, виберіть МАЙБУТНІ.
- на Вкажіть деталі стека сторінки, введіть назву для свого стека та залиште інші параметри за замовчуванням, а потім виберіть МАЙБУТНІ.
- на Налаштувати параметри стека залиште параметри за замовчуванням і натисніть МАЙБУТНІ.
- на Перегляньте сторінку, виберіть
- Я розумію, що AWS CloudFormation може створювати ресурси IAM із власними іменами
- Я визнаю, що AWS CloudFormation може потребувати таких можливостей: CAPABILITY_AUTO_EXPANDпрапорці та виберіть Надіслати.
Шаблон створить п'ять стеків.
Після того, як стан стека є CREATE_COMPLETE, перейдіть до безсерверної консолі Amazon Redshift. Це нова можливість, яка дозволяє надзвичайно легко запускати аналітику в хмарі з високою продуктивністю в будь-якому масштабі. Просто завантажте свої дані та почніть запит. Немає необхідності налаштовувати та керувати кластерами.
примітки: продемонстрований у цьому блозі шаблон інтеграції Amazon Redshift і RStudio на Amazon SageMaker буде однаковим незалежно від шаблону розгортання Amazon Redshift (безсерверний або традиційний кластер).
Завантаження даних у Amazon Redshift Serverless
Сценарій CloudFormation створив базу даних під назвою sagemaker
. Давайте заповнимо цю базу даних таблицями для запиту користувача RStudio. Створіть вкладку редактора SQL і переконайтеся, що sagemaker
вибрано базу даних. Ми будемо використовувати синтетичні дані транзакцій кредитної картки для створення таблиць у нашій базі даних. Ці дані є частиною зразків табличних наборів даних SageMaker s3://sagemaker-sample-files/datasets/tabular/synthetic_credit_card_transactions
.
Ми збираємося виконати наступний запит у редакторі запитів. Це створить три таблиці, картки, транзакції, та користувачі.
Ви можете переконатися, що запит виконано успішно, переглянувши три таблиці на лівій панелі редактора запитів.
Після заповнення всіх таблиць перейдіть до SageMaker RStudio та розпочніть новий сеанс із базовим зображенням RSession на екземплярі ml.m5.xlarge.
Після запуску сеансу ми запустимо цей код, щоб створити з’єднання з нашою базою даних Amazon Redshift Serverless.
Щоб переглядати таблиці в синтетичній схемі, вам потрібно буде надати доступ в Amazon Redshift за допомогою редактора запитів.
RStudio Зв'язки панель має відображати sagemaker
база даних зі схемами синтетичними та таблицями карток, транзакцій, користувачів.
Ви можете натиснути значок таблиці поруч із таблицями, щоб переглянути 1,000 записів.
Примітка. Ми створили попередньо зібраний файл R Markdown з усіма попередньо зібраними кодовими блоками, які можна знайти в проекті GitHub репо.
Тепер скористаємося DBI
пакетна функція dbListTables()
щоб переглянути існуючі таблиці.
Використовуйте dbGetQuery(), щоб передати SQL-запит до бази даних.
Ми також можемо використовувати dbplyr
та dplyr
пакети для виконання запитів до бази даних. Давайте count()
скільки транзакцій у таблиці транзакцій. Але спочатку нам потрібно встановити ці пакети.
Використовувати tbl()
функцію під час визначення схеми.
Давайте запустимо підрахунок кількості рядків для кожної таблиці.
Отже, у нас 2,000 користувачів; 6,146 карток; і 24,386,900 XNUMX XNUMX транзакцій. Ми також можемо переглядати таблиці в консолі.
transactions_tbl
Ми також можемо переглянути що dplyr
дієслова роблять під капотом.
Давайте наочно дослідимо кількість угод по роках.
Ми також можемо узагальнити дані в базі даних наступним чином:
Припустімо, ми хочемо переглянути шахрайство з використанням інформації картки. Нам просто потрібно об’єднати таблиці, а потім згрупувати їх за атрибутом.
Тепер давайте підготуємо набір даних, який можна використовувати для машинного навчання. Давайте відфільтруємо дані транзакцій, щоб включати лише кредитні картки Discover, зберігаючи лише підмножину стовпців.
А тепер давайте зробимо очищення за допомогою наступних перетворень:
- Конвертувати
is_fraud
до двійкового атрибута - Видалити рядок транзакції з
use_chip
і перейменуйте його на тип - Об’єднайте рік, місяць і день в об’єкт даних
- Видаліть $ із суми та перетворіть на числовий тип даних
Тепер, коли ми відфільтрували та очистили наш набір даних, ми готові зібрати цей набір даних у локальну оперативну пам’ять.
Тепер у нас є робочий набір даних, щоб почати створювати функції та підгонку моделей. Ми не будемо розглядати ці кроки в цьому блозі, але якщо ви хочете дізнатися більше про створення моделей у RStudio на SageMaker, зверніться до Анонс повністю керованого RStudio на Amazon SageMaker для спеціалістів із обробки даних.
Прибирати
Щоб очистити будь-які ресурси та уникнути повторних витрат, видаліть кореневий шаблон CloudFormation. Також видаліть усі створені монтування EFS і будь-які створені сегменти та об’єкти S3.
Висновок
Аналіз даних і моделювання можуть бути складними під час роботи з великими наборами даних у хмарі. Amazon Redshift — популярне сховище даних, яке може допомогти користувачам виконувати ці завдання. RStudio, одне з найпоширеніших інтегрованих середовищ розробки (IDE) для аналізу даних, часто використовується з мовою R. У цьому дописі в блозі ми показали, як разом використовувати Amazon Redshift і RStudio на SageMaker для ефективного аналізу масивних наборів даних. Використовуючи RStudio на SageMaker, користувачі можуть скористатися перевагами повністю керованої інфраструктури, контролю доступу, мереж і можливостей безпеки SageMaker, а також спростити інтеграцію з Amazon Redshift. Якщо ви хочете дізнатися більше про використання цих двох інструментів разом, перегляньте інші публікації та ресурси нашого блогу. Ви також можете спробувати самостійно використати RStudio на SageMaker і Amazon Redshift і побачити, як вони можуть допомогти вам із завданнями аналізу даних і моделювання.
Будь ласка, додайте свій відгук до цього блогу або створіть запит на отримання на сайті GitHub.
Про авторів
Райан Гарнер є спеціалістом із обробки даних у AWS Professional Services. Він захоплено допомагає клієнтам AWS використовувати R для вирішення їхніх проблем із наукою про дані та машинним навчанням.
Радж Патхак є старшим архітектором рішень і технологом, який спеціалізується на фінансових послугах (страхування, банківська справа, ринки капіталу) і машинному навчанні. Він спеціалізується на обробці природної мови (NLP), моделях великих мов (LLM) і проектах інфраструктури й операцій машинного навчання (MLOps).
Адіті Раджніш є студентом другого курсу інженерії програмного забезпечення в Університеті Ватерлоо. Її інтереси включають комп’ютерне бачення, обробку природної мови та периферійні обчислення. Вона також захоплюється просвітницькою діяльністю та адвокацією STEM у громаді. У вільний час вона займається скелелазінням, грою на піаніно або вчиться пекти ідеальну булочку.
Сайтея Пуді є архітектором рішень в AWS, розташованому в Далласі, Техас. Він працює в AWS більше 3 років, допомагаючи клієнтам розкрити справжній потенціал AWS, будучи їхнім довіреним радником. Він займається розробкою програм, цікавиться наукою про дані та машинним навчанням.
- AI
- ai мистецтво
- AI арт генератор
- ai робот
- Амазонська червона зміна
- Amazon SageMaker
- штучний інтелект
- сертифікація штучного інтелекту
- штучний інтелект у банківській справі
- робот зі штучним інтелектом
- роботи зі штучним інтелектом
- програмне забезпечення для штучного інтелекту
- AWS Машинне навчання
- blockchain
- блокчейн конференція AI
- coingenius
- розмовний штучний інтелект
- крипто конференція ai
- dall's
- глибоке навчання
- експерт (400)
- у вас є гугл
- навчання за допомогою машини
- plato
- платон ai
- Інформація про дані Платона
- Гра Платон
- PlatoData
- platogaming
- масштаб ai
- синтаксис
- Технічні інструкції
- зефірнет