Організації, які рухаються до культури, керованої даними, використовують дані та машинне навчання (ML) під час прийняття рішень. Щоб приймати рішення на основі машинного машинного навчання на основі даних, вам потрібні ваші дані, доступні, чисті та в правильному форматі для навчання моделей ML. Організації з архітектурою кількох облікових записів хочуть уникати ситуацій, коли вони повинні витягувати дані з одного облікового запису та завантажувати їх в інший для підготовки даних. Створення та підтримка вручну різних завдань вилучення, перетворення та завантаження (ETL) в різних облікових записах додає складності й витрат, а також ускладнює підтримання найкращих методів керування, дотримання та безпеки для збереження ваших даних.
Амазонська червона зміна це швидке, повністю кероване хмарне сховище даних. Функція обміну даними між обліковими записами Amazon Redshift забезпечує простий і безпечний спосіб обміну свіжими, повними та послідовними даними у вашому сховищі даних Amazon Redshift з будь-якою кількістю зацікавлених сторін у різних облікових записах AWS. Amazon SageMaker Data Wrangler це здатність Amazon SageMaker завдяки чому науковці та інженери з обробки даних швидше готують дані для програм ML за допомогою візуального інтерфейсу. Data Wrangler дозволяє досліджувати та перетворювати дані для ML, підключаючись до Amazon Redshift Datashares.
У цій публікації ми розглянемо налаштування інтеграції між обліковими записами за допомогою спільного доступу до даних Amazon Redshift та підготовку даних за допомогою Data Wrangler.
Огляд рішення
Ми починаємо з двох облікових записів AWS: облікового запису виробника зі сховищем даних Amazon Redshift та облікового запису споживача для випадків використання SageMaker ML. Для цієї публікації ми використовуємо банківський набір даних. Щоб продовжити, завантажте набір даних на локальну машину. Нижче наведено огляд робочого процесу високого рівня:
- Створіть кластер Amazon Redshift RA3 в обліковому записі виробника та завантажте набір даних.
- Створіть спільний доступ до даних Amazon Redshift в обліковому записі виробника та надайте обліковому запису споживача доступ до даних.
- Отримайте доступ до спільного доступу до даних Amazon Redshift в обліковому записі споживача.
- Аналізуйте та обробляйте дані за допомогою Data Wrangler в обліковому записі споживача та створюйте свої робочі процеси підготовки даних.
Будьте в курсі міркування для роботи з обміном даними Amazon Redshift:
- Кілька облікових записів AWS – Вам потрібні принаймні два облікові записи AWS: обліковий запис виробника та обліковий запис споживача.
- Кластерний тип – Спільний доступ до даних підтримується в кластері типу RA3. Створюючи екземпляр кластера Amazon Redshift, не забудьте вибрати тип кластера RA3.
- Шифрування – Щоб обмін даними працював, кластери виробника та споживача мають бути зашифровані й перебувати в одному регіоні AWS.
- райони – Обмін даними між обліковими записами доступний для всіх Amazon Redshift Типи вузлів RA3 у Східній частині США (Н. Вірджинія), Сході США (Огайо), Заході США (США (США), Заході США (Орегон), Азіатсько-Тихоокеанському регіоні (Мумбаї), Азіатсько-Тихоокеанському регіоні (Сеул), Азіатсько-Тихоокеанському регіоні (Сінгапур), Азіатсько-Тихоокеанському регіоні ( Сідней), Азіатсько-Тихоокеанський регіон (Токіо), Канада (Центральна), Європа (Франкфурт), Європа (Ірландія), Європа (Лондон), Європа (Париж), Європа (Стокгольм) і Південна Америка (Сан-Паулу).
- Ціни – Обмін даними між обліковими записами доступний між кластерами, які знаходяться в одному регіоні. Обмін даними не платний. Ви просто платите за кластери Amazon Redshift, які беруть участь у спільному доступі.
Обмін даними між обліковими записами — це двоетапний процес. По-перше, адміністратор кластера виробників створює спільний доступ до даних, додає об’єкти та надає доступ до облікового запису споживача. Потім адміністратор облікового запису виробника дозволяє ділитися даними для зазначеного споживача. Ви можете зробити це з консолі Amazon Redshift.
Створіть спільний доступ до даних Amazon Redshift в обліковому записі виробника
Щоб створити загальний доступ до даних, виконайте такі дії:
- На консолі Amazon Redshift створіть кластер Amazon Redshift.
- Вказувати Production і виберіть тип вузла RA3.
- під Додаткові конфігурації, зніміть вибір Використовуйте параметри за замовчуванням.
- під Конфігурації бази даних, налаштуйте шифрування для свого кластера.
- Після створення кластера імпортуйте набір даних банку прямого маркетингу. Ви можете завантажити за такою URL-адресою: https://sagemaker-sample-data-us-west-2.s3-us-west-2.amazonaws.com/autopilot/direct_marketing/bank-additional.zip.
- Завантажувати
bank-additional-full.csv
в Служба простого зберігання Amazon (Amazon S3) відро, до якого має доступ ваш кластер. - Використовуйте редактор запитів Amazon Redshift і виконайте такий запит SQL, щоб скопіювати дані в Amazon Redshift:
- Перейдіть на сторінку відомостей про кластер і на Спільні дані вкладку, виберіть Створення спільного доступу до даних.
- для Ім'я спільного доступу до даних, введіть ім'я.
- для Назва бази даних, виберіть базу даних.
- У Додайте об'єкти спільного доступу до даних у розділі виберіть об’єкти з бази даних, які потрібно включити до спільного доступу до даних.
Ви маєте детальний контроль над тим, чим поділитися з іншими. Для простоти ділимося всіма таблицями. На практиці ви можете вибрати одну або кілька таблиць, представлень або визначених користувачем функцій. - Вибирати додавати.
- Щоб додати споживачів даних, виберіть Додайте облікові записи AWS до спільного доступу до даних і додайте ідентифікатор додаткового облікового запису AWS.
- Вибирати Створення спільного доступу до даних.
- Щоб авторизувати щойно створеного споживача даних, перейдіть до Спільні дані на консолі Amazon Redshift і виберіть новий спільний доступ до даних.
- Виберіть споживача даних і виберіть Авторизація.
Статус споживача змінюється з Pending authorization
до Authorized
.
Отримайте доступ до спільного доступу до даних між обліковими записами Amazon Redshift в обліковому записі споживача AWS
Тепер, коли спільне використання даних налаштовано, перейдіть до свого облікового запису AWS для споживача, щоб використовувати його. Переконайтеся, що у вашому обліковому записі споживача створено принаймні один кластер Amazon Redshift. Кластер має бути зашифрованим і в тому ж регіоні, що й джерело.
- На консолі Amazon Redshift виберіть Спільні дані у навігаційній панелі.
- на З інших рахунків на вкладці виберіть створений вами спільний ресурс та виберіть Юрист.
- Ви можете пов’язати спільні дані з одним або кількома кластерами в цьому обліковому записі або пов’язати спільні дані з усім обліковим записом, щоб поточні та майбутні кластери в обліковому записі споживача отримали доступ до цього спільного ресурсу.
- Вкажіть деталі підключення та виберіть З'єднуватися.
- Вибирати Створити базу даних із спільного використання даних і введіть назву для нової бази даних.
- Щоб перевірити спільне використання даних, перейдіть до редактора запитів і запустіть запити до нової бази даних, щоб переконатися, що всі об’єкти доступні як частина спільного використання даних.
Аналізуйте та обробляйте дані за допомогою Data Wrangler
Тепер ви можете використовувати Data Wrangler для доступу до даних кількох облікових записів, створених як спільні дані в Amazon Redshift.
- відкритий Студія Amazon SageMaker.
- на філе меню, виберіть Нові та Потік даних Wrangler.
- на Імпортувати вкладку, виберіть Додати джерело даних та Амазонська червона зміна.
- Введіть деталі підключення до кластера Amazon Redshift, який ви щойно створили, в обліковий запис споживача для спільного використання даних.
- Вибирати З'єднуватися.
- Використовувати Управління ідентифікацією та доступом AWS (IAM), яку ви використовували для свого кластера Amazon Redshift.
Зауважте, що хоча спільна база даних є новою базою даних у кластері Amazon Redshift, ви не можете підключитися до неї безпосередньо з Data Wrangler.
Правильний спосіб — спочатку підключитися до кластерної бази даних за замовчуванням, а потім використовувати SQL для запиту до бази даних спільного доступу. Надайте необхідну інформацію для підключення до кластерної бази даних за замовчуванням. Зауважте, що an Служба управління ключами AWS Ідентифікатор ключа (AWS KMS) не потрібен для підключення.
Data Wrangler тепер підключений до екземпляра Amazon Redshift.
- Запитуйте дані в базі даних Amazon Redshift datashare за допомогою редактора SQL.
- Вибирати Імпортувати щоб імпортувати набір даних до Data Wrangler.
- Введіть назву для набору даних і виберіть додавати.
Тепер ви можете побачити потік на Потік даних вкладка Data Wrangler.
Після того, як ви завантажили дані в Data Wrangler, ви можете провести дослідницький аналіз даних і підготувати дані для ML.
- Виберіть знак плюс і виберіть Додати аналіз.
Data Wrangler надає вбудований аналіз. Вони включають, але не обмежуються, звіт про якість даних і статистику, кореляцію даних, звіт про упередження перед тренуванням, підсумок вашого набору даних і візуалізації (наприклад, гістограми та діаграми розкиду). Ви також можете створити свою власну візуалізацію.
Ви можете використовувати звіт про якість і статистику даних, щоб автоматично створювати візуалізації та аналізи, щоб виявити проблеми з якістю даних, а також рекомендувати правильне перетворення, необхідне для вашого набору даних.
- Вибирати Звіт про якість даних і статистикуі виберіть Цільова колонка as y.
- Оскільки це постановка задачі класифікації, для Тип проблемивиберіть Класифікація.
- Вибирати Створювати.
Data Wrangler створює детальний звіт про ваш набір даних. Ви також можете завантажити звіт на локальну машину.
- Для підготовки даних виберіть знак плюс і виберіть Додати аналіз.
- Вибирати Додати крок щоб почати будувати свої перетворення.
На момент написання цієї статті Data Wrangler надає понад 300 вбудованих перетворень. Ви також можете написати власні трансформації за допомогою Pandas або PySpark.
Тепер ви можете почати створювати свої трансформації та аналіз на основі потреб вашого бізнесу.
Висновок
У цій публікації ми досліджували обмін даними між обліковими записами за допомогою спільних даних Amazon Redshift без необхідності вручну завантажувати та завантажувати дані. Ми розповіли, як отримати доступ до спільних даних за допомогою Data Wrangler та підготувати дані для ваших випадків використання ML. Ця можливість безкоду/низького коду в Amazon Redshift datashares і Data Wrangler прискорює підготовку навчальних даних і підвищує спритність інженерів даних і науковців з даних завдяки швидшій ітераційній підготовці даних.
Щоб дізнатися більше про Amazon Redshift і SageMaker, див Посібник розробника баз даних Amazon Redshift та Документація Amazon SageMaker.
Про авторів
Мінакшісундарам Тандавараян є старшим спеціалістом AI/ML із AWS. Він допомагає високотехнологічним стратегічним обліковим записам на їхньому шляху ШІ та ML. Він дуже захоплений ШІ, що керується даними.
Джеймс Ву є старшим архітектором рішень для AI/ML у AWS. допомога клієнтам у проектуванні та створенні рішень AI/ML. Робота Джеймса охоплює широкий спектр випадків використання машинного машинного навчання, з головним інтересом до комп’ютерного зору, глибокого навчання та масштабування машинного машинного навчання на підприємстві. До того, як приєднатися до AWS, Джеймс був архітектором, розробником і технологічним лідером понад 10 років, у тому числі 6 років у галузі інженерії та 4 роки в галузі маркетингу та реклами.
- Coinsmart. Найкраща в Європі біржа біткойн та криптовалют.
- Платоблокчейн. Web3 Metaverse Intelligence. Розширені знання. БЕЗКОШТОВНИЙ ДОСТУП.
- CryptoHawk. Альткойн Радар. Безкоштовне випробування.
- Джерело: https://aws.amazon.com/blogs/machine-learning/import-data-from-cross-account-amazon-redshift-in-amazon-sagemaker-data-wrangler-for-exploratory-data-analysis- and-data-preparation/
- "
- &
- 10
- 100
- 11
- 7
- a
- МЕНЮ
- доступ
- доступною
- рахунки
- через
- діяльності
- реклама
- проти
- AI
- ВСІ
- дозволяє
- Amazon
- Америка
- аналіз
- Інший
- застосування
- архітектура
- Азія
- Азіатсько-Тихоокеанському регіоні
- Юрист
- автоматично
- доступний
- AWS
- Банк
- КРАЩЕ
- передового досвіду
- border
- будувати
- Створюємо
- вбудований
- бізнес
- Каліфорнія
- Кампанія
- Канада
- випадків
- центральний
- Вибирати
- класифікація
- хмара
- повний
- дотримання
- комп'ютер
- З'єднуватися
- підключений
- З'єднувальний
- зв'язку
- послідовний
- Консоль
- споживати
- споживач
- Споживачі
- контакт
- контроль
- створювати
- створений
- створює
- Повноваження
- культура
- Поточний
- виготовлений на замовлення
- Клієнти
- дані
- аналіз даних
- обмін даними
- Database
- рішення
- глибокий
- дизайн
- докладно
- деталі
- Розробник
- різний
- важкий
- прямий
- безпосередньо
- скачати
- редактор
- Освіта
- обійняти
- шифрування
- Машинобудування
- Інженери
- Що натомість? Створіть віртуальну версію себе у
- підприємство
- Європа
- дослідити
- ШВИДКО
- швидше
- особливість
- Перший
- потік
- стежити
- після
- формат
- свіжий
- від
- Функції
- майбутнє
- породжувати
- управління
- має
- допомогу
- допомагає
- житло
- Як
- How To
- HTTPS
- ідентифікувати
- Особистість
- включати
- У тому числі
- промисловості
- інформація
- розуміння
- екземпляр
- інтеграція
- інтерес
- інтерфейс
- Ірландія
- питання
- IT
- робота
- Джобс
- приєднання
- подорож
- тримати
- ключ
- лідер
- УЧИТЬСЯ
- вивчення
- обмеженою
- загрузка
- місцевий
- розташування
- Лондон
- машина
- навчання за допомогою машини
- підтримувати
- зробити
- РОБОТИ
- вдалося
- управління
- вручну
- Маркетинг
- може бути
- ML
- Моделі
- місяць
- більше
- переміщення
- Мумбаї
- навігація
- номер
- Огайо
- порядок
- Орегон
- організації
- Інше
- власний
- Тихий океан
- Паріс
- частина
- брати участь
- пристрасний
- Платити
- практика
- Готувати
- попередній
- первинний
- Проблема
- процес
- виробник
- забезпечувати
- забезпечує
- якість
- діапазон
- рекомендувати
- регіон
- звітом
- вимагається
- Роль
- прогін
- сейф
- то ж
- Масштабування
- Вчені
- вторинний
- безпечний
- безпеку
- Сеул
- комплект
- установка
- Поділитись
- загальні
- поділ
- підпис
- простий
- Сінгапур
- So
- solid
- рішення
- Рішення
- Південь
- спеціаліст
- старт
- Заява
- Статус
- зберігання
- Стратегічний
- Підтриманий
- перемикач
- Сідней
- Технологія
- тест
- Команда
- Джерело
- через
- час
- Токіо
- до
- Навчання
- Перетворення
- Перетворення
- перетворень
- us
- використання
- Віргінія
- бачення
- візуалізації
- West
- Що
- без
- Work
- Робочі процеси
- робочий
- лист
- років
- вашу