Обработчик данных Amazon SageMaker — это единый визуальный интерфейс, который сокращает время, необходимое для подготовки данных и разработки функций, с недель до минут, с возможностью выбирать и очищать данные, создавать функции и автоматизировать подготовку данных в рабочих процессах машинного обучения (ML) без написания кода.
SageMaker Data Wrangler поддерживает Снежинка, популярный источник данных для пользователей, которые хотят выполнять машинное обучение. Мы запускаем прямое подключение Snowflake из SageMaker Data Wrangler, чтобы улучшить качество обслуживания клиентов. Перед запуском этой функции администраторы должны были настроить первоначальную интеграцию хранилища для подключения к Snowflake для создания функций машинного обучения в Data Wrangler. Это включает обеспечение Простой сервис хранения Amazon (Amazon S3) ведра, Управление идентификацией и доступом AWS (IAM), интеграция хранилища Snowflake для отдельных пользователей и постоянный механизм для управления или очистки копий данных в Amazon S3. Этот процесс не масштабируется для клиентов со строгим контролем доступа к данным и большим количеством пользователей.
В этом посте мы покажем, как прямое подключение Snowflake к SageMaker Data Wrangler упрощает процесс машинного обучения администратора и специалиста по обработке и анализу данных от данных к бизнес-аналитике.
Обзор решения
В этом решении мы используем SageMaker Data Wrangler для ускорения подготовки данных для ML и Amazon SageMaker Автопилот для автоматического создания, обучения и тонкой настройки моделей машинного обучения на основе ваших данных. Обе услуги разработаны специально для повышения производительности и сокращения времени окупаемости для специалистов по машинному обучению. Мы также демонстрируем упрощенный доступ к данным из SageMaker Data Wrangler в Snowflake с прямым подключением к запросам и созданию функций для машинного обучения.
На приведенной ниже диаграмме представлен обзор процесса машинного обучения с низким кодом в Snowflake, SageMaker Data Wrangler и SageMaker Autopilot.
Рабочий процесс включает в себя следующие шаги:
- Перейдите к SageMaker Data Wrangler для подготовки данных и задач разработки функций.
- Настройте соединение Snowflake с помощью SageMaker Data Wrangler.
- Изучите свои таблицы Snowflake в SageMaker Data Wrangler, создайте набор данных машинного обучения и выполните проектирование функций.
- Обучайте и тестируйте модели с помощью SageMaker Data Wrangler и SageMaker Autopilot.
- Загрузите лучшую модель в конечную точку логического вывода в реальном времени для прогнозов.
- Используйте записную книжку Python для вызова запущенной конечной точки логического вывода в реальном времени.
Предпосылки
Для этого поста администратору необходимы следующие предварительные условия:
Специалисты по данным должны иметь следующие предпосылки
Наконец, вы должны подготовить свои данные для Snowflake.
- Мы используем данные о транзакциях по кредитным картам из Kaggle для создания моделей машинного обучения для обнаружения мошеннических транзакций по кредитным картам, чтобы с клиентов не взималась плата за товары, которые они не покупали. Набор данных включает транзакции по кредитным картам в сентябре 2013 года, совершенные держателями карт из Европы.
- Вы должны использовать клиент SnowSQL и установите его на свой локальный компьютер, чтобы вы могли использовать его для загрузки набора данных в таблицу Snowflake.
Следующие шаги показывают, как подготовить и загрузить набор данных в базу данных Snowflake. Это разовая установка.
Таблица снежинок и подготовка данных
Выполните следующие шаги для этой одноразовой настройки:
- Во-первых, в качестве администратора создайте виртуальное хранилище Snowflake, пользователя и роль и предоставьте доступ другим пользователям, таким как специалисты по данным, для создания базы данных и промежуточных данных для их сценариев использования ML:
- Как специалист по данным, давайте теперь создадим базу данных и импортируем транзакции по кредитным картам в базу данных Snowflake, чтобы получить доступ к данным из SageMaker Data Wrangler. Для иллюстрации мы создаем базу данных Snowflake с именем
SF_FIN_TRANSACTION
: - Загрузите CSV-файл набора данных на локальный компьютер и создайте сцену для загрузки данных в таблицу базы данных. Обновите путь к файлу, чтобы он указывал на расположение загруженного набора данных, прежде чем запускать команду PUT для импорта данных на созданный этап:
- Создайте таблицу с именем
credit_card_transactions
: - Импортируйте данные в созданную таблицу со сцены:
Настройте соединение SageMaker Data Wrangler и Snowflake.
После того, как мы подготовим набор данных для использования с SageMaker Data Wrangler, давайте создадим новое подключение Snowflake в SageMaker Data Wrangler для подключения к sf_fin_transaction
базу данных в Snowflake и запросить credit_card_transaction
таблица:
- Выберите Снежинка на SageMaker Data Wrangler Связь стр.
- Укажите имя для идентификации вашего соединения.
- Выберите метод аутентификации для подключения к базе данных Snowflake:
- Если вы используете обычную аутентификацию, укажите имя пользователя и пароль, предоставленные вашим администратором Snowflake. В этом посте мы используем обычную аутентификацию для подключения к Snowflake, используя учетные данные пользователя, созданные на предыдущем шаге.
- Если вы используете OAuth, укажите учетные данные поставщика удостоверений.
SageMaker Data Wrangler по умолчанию запрашивает данные непосредственно из Snowflake, не создавая копий данных в корзинах S3. Новое улучшение удобства использования SageMaker Data Wrangler использует Apache Spark для интеграции со Snowflake для подготовки и беспрепятственного создания набора данных для вашего пути к машинному обучению.
На данный момент мы создали базу данных на Snowflake, импортировали CSV-файл в таблицу Snowflake, создали учетные данные Snowflake и создали коннектор в SageMaker Data Wrangler для подключения к Snowflake. Чтобы проверить настроенное соединение Snowflake, выполните следующий запрос для созданной таблицы Snowflake:
Обратите внимание, что опция интеграции хранилища, которая требовалась ранее, теперь не является обязательной в дополнительных настройках.
Исследуйте данные Snowflake
После проверки результатов запроса выберите Импортировать чтобы сохранить результаты запроса в виде набора данных. Мы используем этот извлеченный набор данных для исследовательского анализа данных и разработки функций.
Вы можете выбрать выборку данных из Snowflake в пользовательском интерфейсе SageMaker Data Wrangler. Другой вариант — загрузить полные данные для сценариев обучения модели машинного обучения с помощью заданий обработки SageMaker Data Wrangler.
Выполнение исследовательского анализа данных в SageMaker Data Wrangler
Данные в Data Wrangler необходимо спроектировать, прежде чем их можно будет обучить. В этом разделе мы продемонстрируем, как выполнить разработку признаков для данных из Snowflake, используя встроенные возможности SageMaker Data Wrangler.
Во-первых, воспользуемся Data Quality and Insights Report
в SageMaker Data Wrangler для создания отчетов для автоматической проверки качества данных и обнаружения аномалий в данных из Snowflake.
Вы можете использовать отчет, чтобы помочь вам очистить и обработать ваши данные. Он дает вам такую информацию, как количество пропущенных значений и количество выбросов. Если у вас есть проблемы с вашими данными, такие как целевая утечка или дисбаланс, аналитический отчет может привлечь ваше внимание к этим проблемам. Чтобы понять детали отчета, см. Ускорьте подготовку данных с помощью качества данных и аналитики в Amazon SageMaker Data Wrangler..
После проверки сопоставления типов данных, применяемого SageMaker Data Wrangler, выполните следующие действия:
- Выберите знак плюс рядом с Типы данных , а затем выбрать Добавить анализ.
- Что касается Тип анализа, выберите Отчет о качестве данных и аналитических данных.
- Выберите Создавай.
- Обратитесь к подробностям отчета о качестве данных и аналитических данных, чтобы проверить предупреждения с высоким приоритетом.
Вы можете устранить предупреждения, о которых сообщалось, прежде чем продолжить путь машинного обучения.
Целевой столбец Class
для предсказания классифицируется как строка. Во-первых, давайте применим преобразование для удаления устаревших пустых символов.
- Выберите Добавить шаг , а затем выбрать Строка формата.
- В списке преобразований выберите Разденьтесь влево и вправо.
- Введите символы для удаления и выберите Добавить.
Далее мы преобразуем целевой столбец Class
из строкового типа данных в логический, потому что транзакция является законной или мошеннической.
- Выберите Добавить шаг.
- Выберите Разобрать столбец как тип.
- Для столбца выберите
Class
. - Что касается от, выберите строка.
- Что касается к, выберите Логический.
- Выберите Добавить.
После преобразования целевого столбца мы уменьшаем количество столбцов признаков, потому что в исходном наборе данных более 30 признаков. Мы используем анализ основных компонентов (PCA), чтобы уменьшить размеры в зависимости от важности функций. Чтобы узнать больше о PCA и уменьшении размерности, см. Алгоритм анализа главных компонентов (PCA).
- Выберите Добавить шаг.
- Выберите Уменьшение размерности.
- Что касается Transform, выберите Анализ главных компонентов.
- Что касается Входные столбцы, выберите все столбцы, кроме целевого столбца
Class
. - Выберите знак плюс рядом с Поток данных , а затем выбрать Добавьте анализ.
- Что касается Тип анализа, выберите Быстрая модель.
- Что касается Название анализавведите имя.
- Что касается этикетка, выберите
Class
. - Выберите Run.
Основываясь на результатах PCA, вы можете решить, какие функции использовать для построения модели. На следующем снимке экрана на графике показаны функции (или измерения), упорядоченные в порядке убывания важности для прогнозирования целевого класса, который в этом наборе данных определяет, является ли транзакция мошеннической или действительной.
Вы можете уменьшить количество функций на основе этого анализа, но для этого поста мы оставляем значения по умолчанию как есть.
На этом наш процесс разработки функций завершается, хотя вы можете запустить быструю модель и снова создать отчет о качестве данных и анализе, чтобы понять данные, прежде чем выполнять дальнейшую оптимизацию.
Экспорт данных и обучение модели
На следующем этапе мы используем SageMaker Autopilot для автоматического создания, обучения и настройки лучших моделей машинного обучения на основе ваших данных. С помощью SageMaker Autopilot вы по-прежнему сохраняете полный контроль и видимость своих данных и модели.
Теперь, когда мы завершили исследование и проектирование признаков, давайте обучим модель на наборе данных и экспортируем данные для обучения модели машинного обучения с помощью SageMaker Autopilot.
- На Обучение , выберите Экспорт и обучение.
Мы можем следить за ходом экспорта, пока ждем его завершения.
Давайте настроим SageMaker Autopilot для запуска автоматизированного задания обучения, указав цель, которую мы хотим предсказать, и тип проблемы. В этом случае, поскольку мы обучаем набор данных предсказывать, является ли транзакция мошеннической или действительной, мы используем двоичную классификацию.
- Введите название для своего эксперимента, предоставьте данные о местоположении S3 и выберите Далее: Цель и функции.
- Что касается цель, выберите
Class
как столбец для прогнозирования. - Выберите Далее: Метод обучения.
Давайте позволим SageMaker Autopilot выбрать метод обучения на основе набора данных.
- Что касается Метод обучения и алгоритмы, наведите на Авто.
Чтобы узнать больше о режимах обучения, поддерживаемых SageMaker Autopilot, см. Режимы и алгоритм тренировок .
- Выберите Далее: Развертывание и дополнительные настройки.
- Что касается Вариант развертывания, выберите Автоматическое развертывание лучшей модели с преобразованиями из Data Wrangler, который загружает лучшую модель для вывода после завершения эксперимента.
- Введите имя для вашей конечной точки.
- Что касается Выберите тип задачи машинного обучения, выберите Бинарная классификация.
- Что касается Метрика возражений, выберите F1.
- Выберите Далее: Просмотрите и создайте.
- Выберите Создать эксперимент.
Это запускает задание SageMaker Autopilot, которое создает набор обучающих заданий, использующих комбинации гиперпараметров для оптимизации целевой метрики.
Подождите, пока SageMaker Autopilot завершит построение моделей и оценку лучшей модели машинного обучения.
Запустите конечную точку логического вывода в реальном времени, чтобы протестировать лучшую модель
SageMaker Autopilot проводит эксперименты, чтобы определить лучшую модель, которая может классифицировать транзакции по кредитным картам как законные или мошеннические.
Когда SageMaker Autopilot завершит эксперимент, мы сможем просмотреть результаты обучения с оценочными показателями и изучить лучшую модель на странице описания работы SageMaker Autopilot.
- Выбирайте лучшую модель и выбирайте Развернуть модель.
Мы используем конечную точку логического вывода в реальном времени для тестирования лучшей модели, созданной с помощью SageMaker Autopilot.
- Выберите Делайте прогнозы в реальном времени.
Когда конечная точка доступна, мы можем передать полезную нагрузку и получить результаты логического вывода.
Давайте запустим блокнот Python, чтобы использовать конечную точку вывода.
- В консоли SageMaker Studio выберите значок папки на панели навигации и выберите Создать блокнот.
- Используйте следующий код Python для вызова развернутой конечной точки логического вывода в реальном времени:
Вывод показывает результат как false
, из чего следует, что данные примера признаков не являются мошенническими.
Убирать
Чтобы убедиться, что с вас не будет взиматься плата после прохождения этого руководства, закрыть приложение SageMaker Data Wrangler и закрыть экземпляр ноутбука используется для выполнения вывода. Вы также должны удалить конечную точку вывода вы создали с помощью SageMaker Autopilot, чтобы избежать дополнительных расходов.
Заключение
В этом посте мы продемонстрировали, как перенести ваши данные из Snowflake напрямую, не создавая в процессе промежуточных копий. Вы можете взять образец или загрузить полный набор данных в SageMaker Data Wrangler непосредственно из Snowflake. Затем вы можете исследовать данные, очищать данные и выполнять инжиниринг с помощью визуального интерфейса SageMaker Data Wrangler.
Мы также рассказали, как легко обучить и настроить модель с помощью SageMaker Autopilot непосредственно из пользовательского интерфейса SageMaker Data Wrangler. Благодаря интеграции SageMaker Data Wrangler и SageMaker Autopilot мы можем быстро построить модель после завершения разработки функций без написания кода. Затем мы обратились к лучшей модели SageMaker Autopilot для выполнения выводов с использованием конечной точки в реальном времени.
Попробуйте новую прямую интеграцию Snowflake с SageMaker Data Wrangler сегодня, чтобы легко создавать модели машинного обучения с вашими данными с помощью SageMaker.
Об авторах
Харихаран Суреш является старшим архитектором решений в AWS. Он увлечен базами данных, машинным обучением и разработкой инновационных решений. До прихода в AWS Харихаран был архитектором продуктов, специалистом по внедрению основных банковских услуг и разработчиком и более 11 лет работал с организациями BFSI. Помимо технологий, он увлекается парапланеризмом и ездой на велосипеде.
Апараджитан Вайдьянатан является главным архитектором корпоративных решений в AWS. Он помогает корпоративным клиентам перенести и модернизировать свои рабочие нагрузки в облаке AWS. Он облачный архитектор с более чем 23-летним опытом проектирования и разработки корпоративных, крупномасштабных и распределенных программных систем. Он специализируется на машинном обучении и анализе данных, уделяя особое внимание области проектирования данных и функций. Он начинающий марафонец, и его хобби включают пешие прогулки, езду на велосипеде и времяпрепровождение с женой и двумя сыновьями.
Тим Сонг является инженером по разработке программного обеспечения в AWS SageMaker. Обладая более чем 10-летним опытом работы в качестве разработчика программного обеспечения, консультанта и технического руководителя, он продемонстрировал способность создавать масштабируемые и надежные продукты и решать сложные проблемы. В свободное время он любит природу, бег на свежем воздухе, походы и т. д.
Боско Альбукерке является старшим архитектором партнерских решений в AWS и имеет более чем 20-летний опыт работы с базами данных и аналитическими продуктами от поставщиков корпоративных баз данных и облачных провайдеров. Он помогал крупным технологическим компаниям разрабатывать решения для анализа данных и руководил инженерными группами по разработке и внедрению платформ и продуктов для анализа данных.
- SEO-контент и PR-распределение. Получите усиление сегодня.
- PlatoData.Network Вертикальный генеративный ИИ. Расширьте возможности себя. Доступ здесь.
- ПлатонАйСтрим. Интеллект Web3. Расширение знаний. Доступ здесь.
- ПлатонЭСГ. Автомобили / электромобили, Углерод, чистые технологии, Энергия, Окружающая среда, Солнечная, Управление отходами. Доступ здесь.
- Смещения блоков. Модернизация права собственности на экологические компенсации. Доступ здесь.
- Источник: https://aws.amazon.com/blogs/machine-learning/accelerate-time-to-business-insights-with-the-amazon-sagemaker-data-wrangler-direct-connection-to-snowflake/
- :имеет
- :является
- :нет
- $UP
- 1
- 10
- 100
- 11
- 12
- 14
- 15%
- 20
- 20 лет
- 2013
- 27
- 30
- 40
- 500
- 7
- 9
- a
- способность
- О нас
- ускорять
- доступ
- Учетная запись
- дополнительный
- администраторы
- продвинутый
- После
- снова
- AI / ML
- Все
- позволять
- причислены
- Несмотря на то, что
- Amazon
- Создатель мудреца Амазонки
- Обработчик данных Amazon SageMaker
- Amazon Web Services
- количество
- an
- анализ
- аналитика
- и
- Другой
- любой
- апаш
- API
- прикладной
- Применить
- МЫ
- AS
- стремящийся
- At
- внимание
- Аутентификация
- автоматизировать
- Автоматизированный
- автоматически
- доступен
- AWS
- Банковское дело
- основанный
- основной
- BE
- , так как:
- до
- ниже
- ЛУЧШЕЕ
- BFSI
- тело
- изоферменты печени
- приносить
- строить
- Строительство
- встроенный
- бизнес
- но
- by
- CAN
- возможности
- захватить
- карта
- случаев
- случаев
- символы
- заряженный
- расходы
- проверка
- Выберите
- класс
- классификация
- классифицированный
- классифицировать
- клиент
- облако
- код
- Column
- Колонки
- комбинации
- Компании
- полный
- Заполненная
- зАВЕРШАЕТ
- комплектующие
- комплекс
- компонент
- настроить
- Свяжитесь
- связи
- Консоли
- консультант
- продолжать
- контроль
- конвертировать
- Основные
- Базовый банкинг
- Создайте
- создали
- создает
- Создающий
- Полномочия
- кредит
- кредитная карта
- клиент
- опыт работы с клиентами
- Клиенты
- данным
- доступ к данным
- анализ данных
- Анализ данных
- Подготовка данных
- ученый данных
- База данных
- базы данных
- решать
- По умолчанию
- по умолчанию
- доставить
- демонстрировать
- убивают
- развертывание
- развернуть
- развертывание
- описание
- Проект
- предназначенный
- проектирование
- подробнее
- Определять
- Застройщик
- развивающийся
- Развитие
- размеры
- направлять
- непосредственно
- распределенный
- домен
- Dont
- вниз
- скачать
- легко
- или
- Конечная точка
- инженер
- Проект и
- Enter
- Предприятие
- и т.д
- Европейская кухня
- оценка
- Кроме
- существует
- опыт
- эксперимент
- Эксперименты
- исследование
- Исследовательский анализ данных
- Больше
- экспорт
- далеко
- Особенность
- Особенности
- Показывая
- Файл
- финансовый
- окончание
- Во-первых,
- Поплавок
- Фокус
- после
- Что касается
- формат
- и мошенническими
- от
- полный
- далее
- порождать
- получить
- дает
- предоставлять
- график
- Есть
- he
- помощь
- помог
- наивысший
- Выделенные
- его
- Как
- How To
- HTML
- HTTP
- HTTPS
- ICON
- определения
- Личность
- if
- дисбаланс
- реализация
- Осуществляющий
- Импортировать
- значение
- импортирующий
- импорт
- улучшать
- in
- включают
- включает в себя
- Увеличение
- individual
- информация
- начальный
- инновационный
- размышления
- устанавливать
- интегрировать
- интеграции.
- Интерфейс
- в нашей внутренней среде,
- в
- вопросы
- IT
- пункты
- работа
- Джобс
- присоединение
- путешествие
- JPG
- JSON
- большой
- крупномасштабный
- запуск
- запустили
- лидер
- изучение
- Оставлять
- привело
- оставил
- законный
- позволять
- Библиотека
- ОГРАНИЧЕНИЯ
- Список
- загрузка
- грузы
- локальным
- расположение
- низший
- машина
- обучение с помощью машины
- сделанный
- поддерживать
- сделать
- управлять
- Марафон
- согласование
- Май..
- механизм
- метод
- метрический
- Метрика
- мигрировать
- Минут
- отсутствующий
- ML
- модель
- Модели
- модернизировать
- Режимы
- монитор
- БОЛЕЕ
- имя
- Названный
- природа
- Навигация
- потребности
- Новые
- следующий
- ноутбук
- сейчас
- номер
- OAuth
- объект
- цель
- of
- on
- постоянный
- Оптимизировать
- Опция
- or
- заказ
- организации
- оригинал
- OS
- Другое
- наши
- внешний
- выходной
- внешнюю
- за
- обзор
- страница
- хлеб
- партнер
- pass
- страстный
- Пароль
- путь
- Выполнять
- выполнения
- Разрешения
- Платформы
- Платон
- Платон Интеллектуальные данные
- ПлатонДанные
- плюс
- Точка
- Популярное
- После
- предсказывать
- предсказанный
- Predictions
- подготовка
- Подготовить
- предпосылки
- предотвращать
- предыдущий
- Основной
- Печать / PDF
- Предварительный
- Проблема
- проблемам
- процесс
- обработка
- Продукт
- производительность
- Продукция
- Прогресс
- обеспечивать
- Недвижимости
- поставщики
- что такое варган?
- покупки
- целей
- положил
- Питон
- Запросы
- САЙТ
- быстро
- реального времени
- уменьшить
- снижает
- снижение
- складская
- удаление
- замещать
- отчету
- Сообщается
- Отчеты
- запросить
- обязательный
- ответ
- результат
- Итоги
- обзоре
- верховая езда
- Роли
- Run
- бегун
- Бег
- s
- sagemaker
- Сохранить
- масштабируемые
- Ученый
- Ученые
- легко
- Раздел
- Отправить
- старший
- сентябрь
- Услуги
- набор
- настройки
- установка
- общие
- должен
- показывать
- Шоу
- подпись
- просто
- упрощенный
- одинарной
- So
- Software
- разработка программного обеспечения
- Решение
- Решения
- РЕШАТЬ
- песня
- Источник
- Искриться
- специалист
- специализируется
- конкретно
- скорость
- Расходы
- Этап
- начинается
- Шаг
- Шаги
- По-прежнему
- диск
- магазин
- Строгий
- строка
- студия
- отправить
- успешный
- Успешно
- такие
- поддержка
- Поддержанный
- Поддержка
- системы
- ТАБЛИЦЫ
- цель
- задачи
- команды
- технологии
- Технологии
- технологические компании
- тестXNUMX
- который
- Ассоциация
- График
- их
- тогда
- Там.
- они
- этой
- те
- Через
- время
- в
- сегодня
- Train
- специалистов
- Обучение
- сделка
- Сделки
- трансформация
- прообразы
- правда
- учебник
- два
- напишите
- ui
- понимать
- Обновление ПО
- us
- юзабилити
- использование
- используемый
- Информация о пользователе
- Пользовательский интерфейс
- пользователей
- использования
- через
- v1
- VALIDATE
- ценностное
- Наши ценности
- поставщики
- проверить
- Вид
- Виртуальный
- видимость
- ждать
- хотеть
- законопроект
- we
- Web
- веб-сервисы
- Недели
- были
- будь то
- который
- в то время как
- КТО
- жена
- в
- без
- Работа
- работавший
- рабочий
- Рабочие процессы
- работает
- письмо
- лет
- Ты
- ВАШЕ
- зефирнет