Amazon SageMaker Data Wrangler це єдиний візуальний інтерфейс, який скорочує час, необхідний для підготовки даних і розробки функцій, з тижнів до хвилин із можливістю вибору та очищення даних, створення функцій і автоматизації підготовки даних у робочих процесах машинного навчання (ML) без написання коду.
Підтримує SageMaker Data Wrangler Сніжинка, популярне джерело даних для користувачів, які хочуть використовувати ML. Ми запускаємо пряме підключення Snowflake із SageMaker Data Wrangler, щоб покращити взаємодію з клієнтами. Перед запуском цієї функції адміністратори повинні були налаштувати початкову інтеграцію сховища для підключення до Snowflake для створення функцій для машинного навчання в Data Wrangler. Це включає забезпечення Служба простого зберігання Amazon (Amazon S3) відра, Управління ідентифікацією та доступом AWS (IAM) дозволи на доступ, інтеграція сховища Snowflake для окремих користувачів і постійний механізм керування або очищення копій даних в Amazon S3. Цей процес неможливий для клієнтів із суворим контролем доступу до даних і великою кількістю користувачів.
У цьому дописі ми показуємо, як пряме підключення Snowflake до SageMaker Data Wrangler спрощує роботу адміністратора, а спеціаліста з обробки даних – шлях від даних до бізнес-інсайтів.
Огляд рішення
У цьому рішенні ми використовуємо SageMaker Data Wrangler, щоб пришвидшити підготовку даних для ML та Автопілот Amazon SageMaker для автоматичного створення, навчання та точного налаштування моделей ML на основі ваших даних. Обидві послуги розроблено спеціально для підвищення продуктивності та скорочення часу для практиків ML. Ми також демонструємо спрощений доступ до даних від SageMaker Data Wrangler до Snowflake із прямим підключенням до запитів і створення функцій для ML.
Зверніться до діаграми нижче, щоб отримати огляд процесу ML з низьким кодом за допомогою Snowflake, SageMaker Data Wrangler і SageMaker Autopilot.
Робочий процес включає наступні кроки:
- Перейдіть до SageMaker Data Wrangler, щоб підготувати дані та розробити функції.
- Налаштуйте з’єднання Snowflake із SageMaker Data Wrangler.
- Досліджуйте свої таблиці Snowflake у SageMaker Data Wrangler, створюйте набір даних ML і виконуйте розробку функцій.
- Навчання та тестування моделей за допомогою SageMaker Data Wrangler і SageMaker Autopilot.
- Завантажте найкращу модель у кінцеву точку висновку в реальному часі для прогнозів.
- Використовуйте блокнот Python, щоб викликати запущену кінцеву точку висновку в реальному часі.
Передумови
Для цієї посади адміністратору потрібні такі передумови:
Науковці даних повинні мати наступні передумови
Нарешті, ви повинні підготувати свої дані для Snowflake
- Ми використовуємо дані транзакцій кредитної картки від Згорнути створювати моделі ML для виявлення шахрайських транзакцій кредитних карток, щоб з клієнтів не стягувалася плата за товари, які вони не купували. Набір даних включає транзакції кредитних карток у вересні 2013 року, здійснені європейськими власниками карток.
- Ви повинні використовувати Клієнт SnowSQL і встановіть його на вашій локальній машині, щоб ви могли використовувати його для завантаження набору даних до таблиці Snowflake.
Наступні кроки показують, як підготувати та завантажити набір даних у базу даних Snowflake. Це одноразове налаштування.
Таблиця сніжинок і підготовка даних
Для цього одноразового налаштування виконайте такі дії:
- По-перше, як адміністратор, створіть віртуальне сховище Snowflake, користувача та роль і надайте доступ іншим користувачам, таким як спеціалісти з обробки даних, для створення бази даних і обробки даних для їхніх випадків використання ML:
- Як дослідник даних, давайте тепер створимо базу даних та імпортуємо транзакції кредитних карток у базу даних Snowflake, щоб отримати доступ до даних із SageMaker Data Wrangler. Для ілюстрації ми створюємо базу даних Snowflake під назвою
SF_FIN_TRANSACTION
: - Завантажте файл CSV набору даних на локальну машину та створіть етап для завантаження даних у таблицю бази даних. Оновіть шлях до файлу, щоб він вказував на розташування завантаженого набору даних перед виконанням команди PUT для імпорту даних на створений етап:
- Створіть таблицю з іменем
credit_card_transactions
: - Імпортуйте дані в створену таблицю зі сцени:
Налаштуйте підключення SageMaker Data Wrangler і Snowflake
Після того, як ми підготуємо набір даних для використання з SageMaker Data Wrangler, давайте створимо нове підключення Snowflake у SageMaker Data Wrangler для підключення до sf_fin_transaction
бази даних у Snowflake і запитайте credit_card_transaction
стіл:
- Вибирати Сніжинка на SageMaker Data Wrangler Connection стр.
- Введіть назву, щоб ідентифікувати ваше підключення.
- Виберіть метод автентифікації для підключення до бази даних Snowflake:
- Якщо використовується базова автентифікація, надайте ім’я користувача та пароль, надані вашим адміністратором Snowflake. У цій публікації ми використовуємо базову автентифікацію для підключення до Snowflake за допомогою облікових даних користувача, створених на попередньому кроці.
- Якщо ви використовуєте OAuth, надайте облікові дані постачальника ідентифікаційної інформації.
SageMaker Data Wrangler за умовчанням запитує ваші дані безпосередньо у Snowflake, не створюючи жодних копій даних у сегментах S3. Нове покращення зручності використання SageMaker Data Wrangler використовує Apache Spark для інтеграції зі Snowflake для підготовки та легкого створення набору даних для вашої подорожі МЛ.
Наразі ми створили базу даних у Snowflake, імпортували файл CSV у таблицю Snowflake, створили облікові дані Snowflake і створили конектор у SageMaker Data Wrangler для підключення до Snowflake. Щоб перевірити налаштоване підключення Snowflake, запустіть такий запит до створеної таблиці Snowflake:
Зауважте, що параметр інтеграції сховища, який був необхідний раніше, тепер необов’язковий у розширених налаштуваннях.
Дослідіть дані Snowflake
Після підтвердження результатів запиту виберіть Імпортувати щоб зберегти результати запиту як набір даних. Ми використовуємо цей витягнутий набір даних для дослідницького аналізу даних і розробки функцій.
Ви можете вибрати вибірку даних зі Snowflake в інтерфейсі SageMaker Data Wrangler. Іншим варіантом є завантаження повних даних для випадків використання навчання моделі ML за допомогою завдань обробки SageMaker Data Wrangler.
Виконайте пошуковий аналіз даних у SageMaker Data Wrangler
Дані в Data Wrangler потрібно спроектувати, перш ніж їх можна буде навчити. У цьому розділі ми демонструємо, як виконати розробку функцій на даних із Snowflake за допомогою вбудованих можливостей SageMaker Data Wrangler.
Спочатку скористаємося Data Quality and Insights Report
функція SageMaker Data Wrangler для створення звітів для автоматичної перевірки якості даних і виявлення відхилень у даних зі Snowflake.
Ви можете використовувати звіт, щоб допомогти вам очистити та обробити свої дані. Він надає вам таку інформацію, як кількість пропущених значень і кількість викидів. Якщо у вас є проблеми з вашими даними, як-от витік цілей або дисбаланс, аналітичний звіт може звернути вашу увагу на ці проблеми. Щоб зрозуміти деталі звіту, див Прискорте підготовку даних завдяки якості даних і аналізу даних у Amazon SageMaker Data Wrangler.
Перевіривши відповідність типу даних, застосовану SageMaker Data Wrangler, виконайте наступні дії:
- Виберіть знак плюс біля Типи даних І вибирай Додати аналіз.
- для Тип аналізувиберіть Звіт про якість даних і статистику.
- Вибирати Створювати.
- Перегляньте деталі звіту про якість даних і статистику, щоб переглянути попередження високого пріоритету.
Ви можете усунути повідомлення про попередження, перш ніж продовжити свою подорож МЛ.
Цільовий стовпець Class
для прогнозування класифікується як рядок. Спочатку застосуємо перетворення, щоб видалити застарілі порожні символи.
- Вибирати Додати крок І вибирай Формат рядка.
- Виберіть у списку перетворень Смуга вліво і вправо.
- Введіть символи, які потрібно видалити, і виберіть додавати.
Далі ми перетворюємо цільовий стовпець Class
з рядкового типу даних на логічний, оскільки транзакція законна або шахрайська.
- Вибирати Додати крок.
- Вибирати Розібрати стовпець як тип.
- Для колонки виберіть
Class
. - для Відвиберіть рядок.
- для Довиберіть Boolean.
- Вибирати додавати.
Після перетворення цільового стовпця ми зменшуємо кількість стовпців ознак, оскільки у вихідному наборі даних понад 30 функцій. Ми використовуємо аналіз основних компонентів (PCA), щоб зменшити розміри на основі важливості функції. Щоб дізнатися більше про PCA та зменшення розмірності, див Алгоритм аналізу головних компонентів (PCA)..
- Вибирати Додати крок.
- Вибирати Зменшення розмірності.
- для Перетвореннявиберіть Аналіз головних компонентів.
- для Вхідні стовпцівиберіть усі стовпці, крім цільового
Class
. - Виберіть знак плюс біля Потік даних І вибирай Додати аналіз.
- для Тип аналізувиберіть Швидка модель.
- для Назва аналізу, введіть ім'я.
- для етикеткавиберіть
Class
. - Вибирати прогін.
На основі результатів PCA ви можете вирішити, які функції використовувати для побудови моделі. На наступному знімку екрана графік показує функції (або параметри), упорядковані від найвищої до найменшої важливості для прогнозування цільового класу, який у цьому наборі даних визначає, чи є транзакція шахрайською чи дійсною.
Ви можете зменшити кількість функцій на основі цього аналізу, але для цієї публікації ми залишаємо стандартні параметри без змін.
На цьому наш процес розробки функцій завершується, хоча ви можете запустити швидку модель і знову створити звіт про якість даних і статистику, щоб зрозуміти дані перед виконанням подальшої оптимізації.
Експорт даних і навчання моделі
На наступному кроці ми використовуємо автопілот SageMaker для автоматичного створення, навчання та налаштування найкращих моделей машинного навчання на основі ваших даних. За допомогою SageMaker Autopilot ви все ще зберігаєте повний контроль і видимість своїх даних і моделі.
Тепер, коли ми завершили дослідження та розробку функцій, давайте навчимо модель на наборі даних і експортуємо дані для навчання моделі ML за допомогою SageMaker Autopilot.
- на Навчання вкладку, виберіть Експорт і поїзд.
Ми можемо контролювати хід експорту, поки чекаємо його завершення.
Давайте налаштуємо SageMaker Autopilot для запуску автоматизованого навчального завдання, вказавши ціль, яку ми хочемо передбачити, і тип проблеми. У цьому випадку ми використовуємо двійкову класифікацію, оскільки ми навчаємо набір даних передбачати, чи є транзакція шахрайською чи дійсною.
- Введіть назву свого експерименту, надайте дані про місцезнаходження S3 і виберіть Далі: Ціль і особливості.
- для Метавиберіть
Class
як стовпець для прогнозування. - Вибирати Далі: Методика навчання.
Давайте дозволимо SageMaker Autopilot визначити метод навчання на основі набору даних.
- для Методика та алгоритми навчаннявиберіть Авто.
Щоб дізнатися більше про режими навчання, які підтримує SageMaker Autopilot, див Режими та алгоритм навчання support.
- Вибирати Далі: розгортання та додаткові налаштування.
- для Варіант розгортаннявиберіть Автоматичне розгортання найкращої моделі за допомогою трансформацій із Data Wrangler, який завантажує найкращу модель для висновку після завершення експерименту.
- Введіть назву кінцевої точки.
- для Виберіть тип проблеми машинного навчаннявиберіть Двійкова класифікація.
- для Метрика запереченьвиберіть F1.
- Вибирати Далі: перегляд і створення.
- Вибирати Створіть експеримент.
Це запускає завдання SageMaker Autopilot, яке створює набір навчальних завдань, які використовують комбінації гіперпараметрів для оптимізації цільової метрики.
Зачекайте, поки SageMaker Autopilot завершить створення моделей і оцінку найкращої моделі ML.
Запустіть кінцеву точку висновку в реальному часі, щоб перевірити найкращу модель
SageMaker Autopilot проводить експерименти, щоб визначити найкращу модель, яка може класифікувати транзакції кредитної картки як законні або шахрайські.
Коли SageMaker Autopilot завершить експеримент, ми зможемо переглянути результати навчання з показниками оцінювання та дослідити найкращу модель на сторінці опису роботи SageMaker Autopilot.
- Виберіть найкращу модель і вибирайте Розгорнути модель.
Ми використовуємо кінцеву точку висновку в реальному часі, щоб перевірити найкращу модель, створену за допомогою SageMaker Autopilot.
- Select Робіть прогнози в реальному часі.
Коли кінцева точка доступна, ми можемо передати корисне навантаження та отримати результати висновків.
Давайте запустимо блокнот Python, щоб використовувати кінцеву точку висновку.
- На консолі SageMaker Studio виберіть піктограму папки на навігаційній панелі та виберіть Створити блокнот.
- Використовуйте такий код Python, щоб викликати розгорнуту кінцеву точку висновку в реальному часі:
Вихідні дані показують результат як false
, що означає, що дані зразка функції не є шахрайськими.
Прибирати
Щоб переконатися, що після завершення цього підручника з вас не стягуватиметься плата, закрийте програму SageMaker Data Wrangler та вимкніть екземпляр блокнота використовується для виконання висновків. Ви також повинні видалити кінцеву точку висновку ви створили за допомогою SageMaker Autopilot, щоб уникнути додаткових витрат.
Висновок
У цій публікації ми продемонстрували, як перенести ваші дані зі Snowflake безпосередньо без створення проміжних копій у процесі. Ви можете взяти або завантажити повний набір даних у SageMaker Data Wrangler безпосередньо зі Snowflake. Потім ви можете досліджувати дані, очищати дані та виконувати інженерні розробки за допомогою візуального інтерфейсу SageMaker Data Wrangler.
Ми також підкреслили, як можна легко навчити та налаштувати модель за допомогою SageMaker Autopilot безпосередньо з інтерфейсу користувача SageMaker Data Wrangler. Завдяки інтеграції SageMaker Data Wrangler і SageMaker Autopilot ми можемо швидко побудувати модель після завершення розробки функцій, не пишучи жодного коду. Тоді ми посилалися на найкращу модель SageMaker Autopilot для виконання висновків за допомогою кінцевої точки в реальному часі.
Спробуйте нову пряму інтеграцію Snowflake із SageMaker Data Wrangler сьогодні, щоб легко створювати моделі ML із вашими даними за допомогою SageMaker.
Про авторів
Харіхаран Суреш є старшим архітектором рішень в AWS. Він захоплюється базами даних, машинним навчанням і розробкою інноваційних рішень. До того як приєднатися до AWS, Харіхаран був архітектором продукту, фахівцем із впровадження основних банківських операцій і розробником, а також працював з організаціями BFSI понад 11 років. Крім технологій, він захоплюється парапланеризмом і їздою на велосипеді.
Апараджітан Вайдянатан є головним архітектором корпоративних рішень в AWS. Він підтримує корпоративних клієнтів у міграції та модернізації своїх робочих навантажень у хмарі AWS. Він хмарний архітектор із понад 23-річним досвідом проектування та розробки корпоративних, великомасштабних і розподілених програмних систем. Він спеціалізується на машинному навчанні та аналітиці даних, зосереджуючись на домені Data and Feature Engineering. Він – початківець марафонець, і його хобі включає піші прогулянки, їзду на велосипеді та проведення часу з дружиною та двома хлопчиками.
Тім Сонг є інженером із розробки програмного забезпечення в AWS SageMaker, має понад 10 років досвіду розробника програмного забезпечення, консультанта та технічного керівника, він продемонстрував здатність створювати масштабовані та надійні продукти та вирішувати складні проблеми. У вільний час любить природу, бігає на свіжому повітрі, походить у гори тощо.
Боско Альбукерке є старшим архітектором партнерських рішень в AWS і має понад 20 років досвіду роботи з базами даних і аналітичними продуктами від постачальників корпоративних баз даних і хмарних провайдерів. Він допомагав великим технологічним компаніям розробляти рішення для аналітики даних і очолював команди інженерів у розробці та впровадженні аналітичних платформ і продуктів даних.
- Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
- PlatoData.Network Vertical Generative Ai. Додайте собі сили. Доступ тут.
- PlatoAiStream. Web3 Intelligence. Розширення знань. Доступ тут.
- ПлатонЕСГ. Автомобільні / електромобілі, вуглець, CleanTech, Енергія, Навколишнє середовище, Сонячна, Поводження з відходами. Доступ тут.
- BlockOffsets. Модернізація екологічної компенсаційної власності. Доступ тут.
- джерело: https://aws.amazon.com/blogs/machine-learning/accelerate-time-to-business-insights-with-the-amazon-sagemaker-data-wrangler-direct-connection-to-snowflake/
- : має
- :є
- : ні
- $UP
- 1
- 10
- 100
- 11
- 12
- 14
- 15%
- 20
- 20 роки
- 2013
- 27
- 30
- 40
- 500
- 7
- 9
- a
- здатність
- МЕНЮ
- прискорювати
- доступ
- рахунки
- Додатковий
- Адміністратори
- просунутий
- після
- знову
- AI / ML
- ВСІ
- дозволяти
- Також
- хоча
- Amazon
- Amazon SageMaker
- Amazon SageMaker Data Wrangler
- Amazon Web Services
- кількість
- an
- аналіз
- аналітика
- та
- Інший
- будь-який
- Apache
- API
- прикладної
- Застосовувати
- ЕСТЬ
- AS
- прагне
- At
- увагу
- Authentication
- автоматизувати
- Автоматизований
- автоматично
- доступний
- AWS
- Banking
- заснований
- основний
- BE
- оскільки
- перед тим
- нижче
- КРАЩЕ
- BFSI
- тіло
- обидва
- приносити
- будувати
- Створюємо
- вбудований
- бізнес
- але
- by
- CAN
- можливості
- захоплення
- карта
- випадок
- випадків
- символи
- стягується
- вантажі
- перевірка
- Вибирати
- клас
- класифікація
- класифікований
- Класифікувати
- клієнт
- хмара
- код
- Колонка
- Колони
- комбінації
- Компанії
- повний
- Зроблено
- Завершує
- завершення
- комплекс
- компонент
- налаштувати
- З'єднуватися
- зв'язку
- Консоль
- консультант
- продовжувати
- контроль
- конвертувати
- Core
- Основний банкінг
- створювати
- створений
- створює
- створення
- Повноваження
- кредит
- кредитна картка
- клієнт
- Досвід клієнтів
- Клієнти
- дані
- доступ до даних
- аналіз даних
- Analytics даних
- Підготовка даних
- вчений даних
- Database
- базами даних
- вирішувати
- дефолт
- за замовчуванням
- доставляти
- демонструвати
- продемонстрований
- розгортання
- розгорнути
- розгортання
- description
- дизайн
- призначений
- проектування
- деталі
- Визначати
- Розробник
- розвивається
- розробка
- розміри
- прямий
- безпосередньо
- розподілений
- домен
- Не знаю
- вниз
- скачати
- легко
- або
- Кінцева точка
- інженер
- Машинобудування
- Що натомість? Створіть віртуальну версію себе у
- підприємство
- і т.д.
- Європейська
- оцінка
- Крім
- існує
- досвід
- експеримент
- Експерименти
- дослідження
- Дослідницький аналіз даних
- дослідити
- експорт
- далеко
- особливість
- риси
- Показуючи
- філе
- фінансовий
- закінчення
- Перший
- Поплавок
- Сфокусувати
- після
- для
- формат
- шахрайський
- від
- Повний
- далі
- породжувати
- отримати
- дає
- надавати
- графік
- Мати
- he
- допомога
- допоміг
- найвищий
- Виділено
- його
- Як
- How To
- HTML
- HTTP
- HTTPS
- ICON
- ідентифікувати
- Особистість
- if
- дисбаланс
- реалізація
- реалізації
- імпорт
- значення
- імпорт
- імпорт
- удосконалювати
- in
- включати
- includes
- Augmenter
- індивідуальний
- інформація
- початковий
- інноваційний
- розуміння
- встановлювати
- інтегрувати
- інтеграція
- інтерфейс
- внутрішній
- в
- питання
- IT
- пунктів
- робота
- Джобс
- приєднання
- подорож
- JPG
- json
- великий
- масштабний
- запуск
- запущений
- лідер
- вивчення
- Залишати
- Led
- залишити
- законний
- дозволяти
- бібліотека
- МЕЖА
- список
- загрузка
- вантажі
- місцевий
- розташування
- найнижчий
- машина
- навчання за допомогою машини
- made
- підтримувати
- зробити
- управляти
- Марафон
- узгодження
- Може..
- механізм
- метод
- метрика
- Метрика
- мігрувати
- хвилин
- відсутній
- ML
- модель
- Моделі
- модернізувати
- Режими
- монітор
- більше
- ім'я
- Названий
- природа
- навігація
- потреби
- Нові
- наступний
- ноутбук
- зараз
- номер
- oauth
- об'єкт
- мета
- of
- on
- постійний
- Оптимізувати
- варіант
- or
- порядок
- організації
- оригінал
- OS
- Інше
- наші
- з
- вихід
- поза
- над
- огляд
- сторінка
- pane
- партнер
- проходити
- пристрасний
- Пароль
- шлях
- Виконувати
- виконанні
- Дозволи
- Платформи
- plato
- Інформація про дані Платона
- PlatoData
- плюс
- точка
- популярний
- пошта
- передбачати
- передвіщений
- Прогнози
- підготовка
- Готувати
- передумови
- запобігати
- попередній
- Головний
- друк
- попередній
- Проблема
- проблеми
- процес
- обробка
- Product
- продуктивність
- Продукти
- прогрес
- забезпечувати
- Постачальник
- провайдери
- громадськість
- покупка
- цілей
- put
- Python
- якість
- запити
- Швидко
- швидко
- реального часу
- зменшити
- знижує
- скорочення
- надійний
- видаляти
- замінювати
- звітом
- Повідомляється
- Звіти
- запросити
- вимагається
- відповідь
- результат
- результати
- огляд
- верхова їзда
- Роль
- прогін
- бігун
- біг
- s
- мудрець
- зберегти
- масштабовані
- вчений
- Вчені
- плавно
- розділ
- послати
- старший
- Вересень
- Послуги
- комплект
- налаштування
- установка
- загальні
- Повинен
- Показувати
- Шоу
- підпис
- простий
- спрощений
- один
- So
- Софтвер
- розробка програмного забезпечення
- рішення
- Рішення
- ВИРІШИТИ
- пісня
- Source
- Іскритися
- спеціаліст
- спеціалізується
- конкретно
- швидкість
- Витрати
- Стажування
- починається
- Крок
- заходи
- Як і раніше
- зберігання
- зберігати
- Strict
- рядок
- студія
- представляти
- успішний
- Успішно
- такі
- підтримка
- Підтриманий
- Опори
- Systems
- таблиця
- Мета
- завдання
- команди
- технології
- Технологія
- технологічні компанії
- тест
- Що
- Команда
- Графік
- їх
- потім
- Там.
- вони
- це
- ті
- через
- час
- до
- сьогодні
- поїзд
- навчений
- Навчання
- угода
- Transactions
- Перетворення
- перетворення
- правда
- підручник
- два
- тип
- ui
- розуміти
- Оновити
- us
- юзабіліті
- використання
- використовуваний
- користувач
- Інтерфейс користувача
- користувачі
- використовує
- використання
- v1
- ПЕРЕВІР
- значення
- Цінності
- постачальники
- перевірити
- вид
- Віртуальний
- видимість
- чекати
- хотіти
- було
- we
- Web
- веб-сервіси
- тижня
- були
- Чи
- який
- в той час як
- ВООЗ
- дружина
- з
- в
- без
- Work
- працював
- робочий
- Робочі процеси
- робочий
- лист
- років
- Ти
- вашу
- зефірнет