Amazon SageMaker Автопилот автоматически создает, обучает и настраивает лучшие модели машинного обучения (ML) на основе ваших данных, позволяя вам сохранять полный контроль и прозрачность. Недавно мы объявили поддержка данных временных рядов в автопилоте. Вы можете использовать Autopilot для решения задач регрессии и классификации данных временных рядов или данных последовательности в целом. Данные временных рядов — это особый тип данных последовательности, в котором точки данных собираются через равные промежутки времени.
Подготовка данных вручную, выбор правильной модели машинного обучения и оптимизация ее параметров — сложная задача даже для эксперта-практика. Хотя существуют автоматизированные подходы, которые могут найти лучшие модели и их параметры, они, как правило, не могут обрабатывать данные, поступающие в виде последовательностей, таких как сетевой трафик, потребление электроэнергии или расходы домохозяйства, зарегистрированные в течение долгого времени. Поскольку эти данные представляют собой наблюдения, полученные в разные моменты времени, последовательные наблюдения нельзя рассматривать как независимые друг от друга и их необходимо обрабатывать как единое целое. Вы можете использовать Autopilot для решения широкого круга задач, связанных с последовательными данными. Например, вы можете классифицировать сетевой трафик, записанный с течением времени, для выявления злонамеренных действий или определить, имеют ли люди право на получение ипотечного кредита на основе их кредитной истории. Вы предоставляете набор данных, содержащий данные временных рядов, а автопилот обрабатывает все остальное, обрабатывая последовательные данные с помощью специализированных преобразований функций и находя лучшую модель от вашего имени.
Автопилот избавляет от тяжелой работы по построению моделей машинного обучения и помогает автоматически создавать, обучать и настраивать лучшую модель машинного обучения на основе ваших данных. Автопилот запускает несколько алгоритмов на ваших данных и настраивает их гиперпараметры в полностью управляемой вычислительной инфраструктуре. В этом посте мы покажем, как вы можете использовать Автопилот для решения задач классификации и регрессии данных временных рядов. Инструкции по созданию и обучению модели автопилота см. Прогнозирование оттока клиентов с помощью Amazon SageMaker Autopilot.
Классификация данных временных рядов с использованием автопилота
В качестве рабочего примера рассмотрим многоклассовую задачу на временном ряду Набор данных UWaveGestureLibraryX, содержащий эквидистантные показания датчиков акселерометра при выполнении одного из восьми предопределенных жестов рукой. Для простоты мы рассматриваем только размер X акселерометра. Задача состоит в том, чтобы построить классификационную модель для сопоставления данных временного ряда от показаний датчиков с предопределенными жестами. На следующем рисунке показаны первые строки набора данных в формате CSV. Вся таблица состоит из 896 строк и двух столбцов: первый столбец — это метка жеста, а второй столбец — временной ряд показаний датчиков.
Преобразование данных в нужный формат с помощью Amazon SageMaker Data Wrangler
Помимо числовых, категориальных и стандартных текстовых столбцов, Autopilot теперь также принимает столбец последовательного ввода. Если ваши данные временных рядов не соответствуют этому формату, вы можете легко преобразовать их с помощью Обработчик данных Amazon SageMaker. Data Wrangler сокращает время, необходимое для агрегирования и подготовки данных для машинного обучения, с недель до минут. С помощью Data Wrangler вы можете упростить процесс подготовки данных и проектирования функций, а также выполнять каждый этап рабочего процесса подготовки данных, включая выбор данных, очистку, исследование и визуализацию, из единого визуального интерфейса. Например, рассмотрим тот же набор данных, но в другом формате ввода: каждый жест (указанный идентификатором) представляет собой последовательность равноудаленных измерений акселерометра. При вертикальном хранении каждая строка содержит метку времени и одно значение. На следующем рисунке эти данные сравниваются в исходном формате и в формате последовательности.
Чтобы преобразовать этот набор данных в формат, описанный ранее с помощью Data Wrangler, загрузите набор данных из Простой сервис хранения Amazon (Амазон С3). Затем используйте временной ряд Группировка по преобразованию, как показано на следующем снимке экрана, и экспортируйте данные обратно в Amazon S3 в формате CSV.
Когда набор данных находится в заданном формате, вы можете продолжить работу с автопилотом. Чтобы проверить другие преобразователи временных рядов Data Wrangler, обратитесь к Подготовка данных временных рядов с помощью Amazon SageMaker Data Wrangler.
Запустите задание AutoML
Как и в случае с другими входными типами, поддерживаемыми Autopilot, каждая строка набора данных представляет собой отдельное наблюдение, а каждый столбец — характеристику. В этом примере у нас есть один столбец, содержащий данные временных рядов, но у вас может быть несколько столбцов временных рядов. Вы также можете иметь несколько столбцов с различными типами ввода, такими как временные ряды, текстовые и числовые.
к создать эксперимент автопилота, поместите набор данных в корзину S3 и создайте новый эксперимент в ней. Студия Amazon SageMaker. Как показано на следующем снимке экрана, вы должны указать имя эксперимента, местоположение S3 набора данных, местоположение S3 для выходных артефактов и имя столбца для прогнозирования.
Автопилот анализирует данные, создает конвейеры машинного обучения и запускает по умолчанию 250 итераций оптимизации гиперпараметров для этой задачи классификации. Как показано в следующей таблице лидеров моделей, Autopilot достигает точности 0.821, и вы можете развернуть лучшую модель всего одним щелчком мыши.
Кроме того, автопилот генерирует отчет об исследовании данных, где вы можете визуализировать и исследовать свои данные.
Прозрачность — основа автопилота. Вы можете проверять и изменять сгенерированные конвейеры машинного обучения в блокноте определения кандидатов. На следующем снимке экрана показано, как Autopilot рекомендует ряд конвейеров, объединяя преобразователь временных рядов TSFeatureExtractor
с различными алгоритмами машинного обучения, такими как деревья решений с градиентным усилением и линейные модели. То TSFeatureExtractor
извлекает для вас сотни функций временных рядов, которые затем передаются нижестоящим алгоритмам для прогнозирования. Полный список функций временных рядов см. Обзор извлеченных функций.
Заключение
В этом посте мы продемонстрировали, как использовать SageMaker Autopilot для решения задач классификации временных рядов и регрессии всего за несколько кликов.
Дополнительные сведения об автопилоте см. Amazon SageMaker Автопилот. Чтобы изучить связанные функции SageMaker, см. Обработчик данных Amazon SageMaker.
Об авторах
Никита Ивкин — ученый-прикладник Amazon SageMaker Data Wrangler.
Энн Милберт — инженер-разработчик программного обеспечения, работающий над автоматической настройкой моделей Amazon SageMaker.
Валерио Перроне — менеджер по прикладным наукам, работающий над автоматической настройкой моделей и автопилотом Amazon SageMaker.
Мегана Сатиш — инженер-разработчик программного обеспечения, работающий над автоматической настройкой моделей Amazon SageMaker.
Али Такбири является архитектором решений, специализирующимся на искусственном интеллекте и машинном обучении, и помогает клиентам с помощью машинного обучения решать свои бизнес-задачи в облаке AWS.
- Коинсмарт. Лучшая в Европе биржа биткойнов и криптовалют.
- Платоблокчейн. Интеллект метавселенной Web3. Расширение знаний. БЕСПЛАТНЫЙ ДОСТУП.
- КриптоХок. Альткоин Радар. Бесплатная пробная версия.
- Источник: https://aws.amazon.com/blogs/machine-learning/amazon-sagemaker-autopilot-now-supports-time-series-data/
- "
- 100
- О нас
- приобретенный
- активно
- алгоритмы
- Позволяющий
- Несмотря на то, что
- Amazon
- объявило
- Автоматизированный
- AWS
- ЛУЧШЕЕ
- Повышенный
- строить
- Строительство
- строит
- бизнес
- проблемы
- классификация
- облако
- Column
- комплекс
- Вычисление
- последовательный
- потребление
- содержит
- контроль
- Создающий
- кредит
- Клиенты
- данным
- занимавшийся
- развертывание
- Развитие
- различный
- Размеры
- не
- легко
- электричество
- инженер
- Проект и
- пример
- расходы
- эксперимент
- исследование
- Экстракты
- Особенность
- Особенности
- ФРС
- фигура
- Во-первых,
- следовать
- после
- форма
- формат
- полный
- Общие
- группы
- помогает
- история
- домашнее хозяйство
- Как
- How To
- HTTPS
- Сотни
- определения
- В том числе
- информация
- Инфраструктура
- Интерфейс
- IT
- изучение
- Список
- загрузка
- расположение
- машина
- обучение с помощью машины
- менеджер
- карта
- ML
- модель
- Модели
- сеть
- сетевой трафик
- ноутбук
- оптимизация
- Другое
- прогноз
- Predictions
- Проблема
- проблемам
- процесс
- обеспечивать
- ассортимент
- рекомендует
- ОТДЫХ
- Бег
- Наука
- Ученый
- Серии
- просто
- Software
- разработка программного обеспечения
- Решения
- РЕШАТЬ
- специализированный
- диск
- Поддержанный
- Поддержка
- задачи
- Через
- время
- топ
- трафик
- Обучение
- поезда
- использование
- ценностное
- видимость
- визуализация
- в
- работает
- X