Выявление и предотвращение распространенных проблем с данными при создании моделей машинного обучения без кода с помощью Amazon SageMaker Canvas

Переиздано Платоном

Читают: 0

Бизнес-аналитики работают с данными и любят анализировать, исследовать и понимать данные для достижения эффективных бизнес-результатов. Для решения бизнес-проблем они часто полагаются на специалистов по машинному обучению (ML), таких как специалисты по данным, для помощи с такими методами, как использование ML для построения моделей с использованием существующих данных и создания прогнозов. Однако это не всегда возможно, так как специалисты по данным обычно заняты своими задачами и не имеют пропускной способности, чтобы помочь аналитикам.

Чтобы быть независимым и достигать своих целей в качестве бизнес-аналитика, было бы идеально работать с простыми в использовании, интуитивно понятными и визуальными инструментами, которые используют машинное обучение без необходимости знать детали и использовать код. Использование этих инструментов поможет вам решить ваши бизнес-задачи и добиться желаемых результатов.

Чтобы помочь вам и вашей организации стать более эффективными и использовать машинное обучение без написания кода, мы представил Amazon SageMaker Canvas. Это решение машинного обучения без кода, которое помогает создавать точные модели машинного обучения без необходимости изучать технические детали, такие как алгоритмы машинного обучения и метрики оценки. SageMaker Canvas предлагает визуальный, интуитивно понятный интерфейс, который позволяет импортировать данные, обучать модели машинного обучения, выполнять анализ моделей и генерировать прогнозы машинного обучения без написания единой строки кода.

При использовании SageMaker Canvas для экспериментов вы можете столкнуться с проблемами качества данных, такими как отсутствующие значения или неправильный тип проблемы. Эти проблемы могут быть обнаружены только на поздних этапах процесса после обучения модели машинного обучения. Чтобы решить эту проблему, SageMaker Canvas теперь поддерживает проверку данных. Эта функция заблаговременно проверяет наличие проблем в ваших данных и предоставляет рекомендации по их устранению.

В этом посте мы покажем, как можно использовать функцию проверки данных в SageMaker Canvas перед построением модели. Как следует из названия, эта функция проверяет ваш набор данных, сообщает о проблемах и предоставляет полезные указатели для их исправления. Используя данные более высокого качества, вы получите более эффективную модель машинного обучения.

Проверка данных в SageMaker Canvas

Проверка данных — это новая функция в SageMaker Canvas для упреждающей проверки потенциальных проблем с качеством данных. После импорта данных и выбора целевого столбца вам будет предложено проверить данные, как показано здесь:

Если вы решите проверить свои данные, Canvas проанализирует ваши данные по многочисленным условиям, включая:

Слишком много уникальных ярлыков в целевом столбце – для типа модели предсказания категории
Слишком много уникальных меток в целевом столбце для количества строк в ваших данных. – для типа модели предсказания категории
Неправильный тип модели для ваших данных - тип модели не соответствует данным, которые вы прогнозируете в столбце Target
Слишком много недопустимых строк - отсутствующие значения в целевом столбце
Все столбцы функций являются текстовыми столбцами. они будут удалены для стандартных сборок
Слишком мало столбцов - слишком мало столбцов в ваших данных
Нет полных строк – все строки в ваших данных содержат пропущенные значения
Одно или несколько имен столбцов содержат двойное подчеркивание - SageMaker не может обрабатывать (__) в заголовке столбца.

Подробная информация о каждом критерии проверки будет представлена в следующих разделах этого поста.

Если все проверки пройдены, вы получите следующее подтверждение: «В вашем наборе данных проблем не обнаружено».

Если будет обнаружена какая-либо проблема, вы получите уведомление для просмотра и понимания. Это выявляет проблемы с качеством данных на ранней стадии и позволяет решить их сразу, прежде чем тратить время и ресурсы на дальнейшие действия.

Вы можете вносить свои коррективы и продолжать проверять свой набор данных, пока все проблемы не будут решены.

Проверка целевого столбца и типов моделей

При создании модели машинного обучения в SageMaker Canvas некоторые проблемы с качеством данных, связанные с целевой столбец может привести к сбою сборки вашей модели. SageMaker Canvas проверяет различные виды проблем, которые могут повлиять на целевой столбец.

Для целевого столбца проверьте Неправильный тип модели для ваших данных. Например, если выбрана модель прогнозирования с двумя категориями, но ваш целевой столбец имеет более двух уникальных меток, то SageMaker Canvas выдаст следующее предупреждение о проверке.
Если тип модели — прогноз категории 2 или 3+, вы должны проверить слишком много уникальных ярлыков для вашего целевого столбца. Максимальное количество уникальных классов — 2000. Если вы выберете столбец с более чем 2000 уникальными значениями в столбце Target, Canvas выдаст следующее предупреждение о проверке.
В дополнение к слишком большому количеству уникальных целевых меток, вы также должны остерегаться слишком множество уникальных целевых меток для количества строк в ваших данных. SageMaker Canvas обеспечивает соотношение целевой метки к общему количеству строк менее 10 %. Это гарантирует, что у вас будет достаточно представлений для каждой категории для высококачественной модели, и уменьшит вероятность переобучения. Ваша модель считается переоснащенной, если она хорошо предсказывает обучающие данные, но не новые данные, которых она раньше не видела. Ссылаться здесь чтобы узнать больше.
Наконец, последняя проверка для целевого столбца слишком много неверных строк. Если в целевом столбце отсутствует или недействительно более 10 % данных, это повлияет на производительность вашей модели, а в некоторых случаях приведет к сбою построения модели. В следующем примере в целевом столбце имеется много отсутствующих значений (отсутствует > 90%), и вы получаете следующее предупреждение проверки.

Если вы получаете какое-либо из приведенных выше предупреждений для целевого столбца, выполните следующие действия, чтобы устранить проблемы:

Вы используете правильный целевой столбец?
Вы выбрали правильный тип модели?
Можете ли вы увеличить количество строк в наборе данных для каждой целевой метки?
Можете ли вы объединить/сгруппировать похожие ярлыки вместе?
Можете ли вы заполнить отсутствующие/недопустимые значения?
Достаточно ли у вас данных, чтобы вы могли удалить отсутствующие/недопустимые значения?
Если все вышеперечисленные параметры не устраняют предупреждение, вам следует рассмотреть возможность использования другого набора данных.

См. Документация по преобразованию данных SageMaker Canvas для выполнения шагов вменения, упомянутых выше.

Проверить все столбцы

Помимо целевого столбца, вы можете столкнуться с проблемами качества данных и с другими столбцами данных (столбцами функций). Столбцы функций — это входные данные, используемые для прогнозирования машинного обучения.

В каждом наборе данных должен быть как минимум 1 столбец функций и 1 целевой столбец (всего 2 столбца). В противном случае SageMaker Canvas выдаст вам Слишком мало столбцов в ваших данных предупреждение. Вы должны выполнить это требование, прежде чем сможете приступить к построению модели.
После этого вы должны убедиться, что ваши данные имеют хотя бы 1 числовой столбец. Если нет, то вы получите все столбцы функций являются текстовыми столбцами предупреждение. Это связано с тем, что текстовые столбцы обычно удаляются во время стандартных сборок, в результате чего в модели не остается функций для обучения. Следовательно, это приведет к сбою построения вашей модели. Вы можете использовать SageMaker Canvas для кодирования некоторых текстовых столбцов в числа или использовать быструю сборку вместо стандартной.
Третий тип предупреждений, которые вы можете получить для столбцов функций, это Нет полных строк. Эта проверка проверяет, есть ли у вас хотя бы одна строка без пропущенных значений. Для SageMaker Canvas требуется как минимум одна полная строка, иначе ваш быстрая сборка не удастся. Попробуйте заполнить пропущенные значения перед построением модели.
Последний тип проверки Одно или несколько имен столбцов содержат двойное подчеркивание. Это особое требование SageMaker Canvas. Если у вас есть двойное подчеркивание (__) в заголовках столбцов, это приведет к тому, что ваш быстрая сборка потерпеть неудачу. Переименуйте столбцы, чтобы удалить двойные символы подчеркивания, и повторите попытку.

Убирать

Чтобы избежать будущих плата за сеанс, выйдите из SageMaker Canvas.

Заключение

SageMaker Canvas — это решение машинного обучения без кода, которое позволяет бизнес-аналитикам создавать точные модели машинного обучения и генерировать прогнозы с помощью визуального интерфейса «укажи и щелкни». Мы показали вам, как SageMaker Canvas помогает вам убедиться в качестве данных и устранить проблемы с данными за счет упреждающей проверки набора данных. Выявляя проблемы на ранней стадии, SageMaker Canvas помогает создавать качественные модели машинного обучения и сокращать количество итераций сборки, не имея опыта работы с данными и программированием. Чтобы узнать больше об этой новой функции, см. Документация SageMaker Canvas.

Чтобы начать работу и узнать больше о SageMaker Canvas, обратитесь к следующим ресурсам:

Об авторах

Харихаран Суреш является старшим архитектором решений в AWS. Он увлечен базами данных, машинным обучением и разработкой инновационных решений. До прихода в AWS Харихаран был архитектором продуктов, специалистом по внедрению основных банковских услуг и разработчиком и более 11 лет работал с организациями BFSI. Помимо технологий, он увлекается парапланеризмом и ездой на велосипеде.

Сайнатх Мирияла — старший технический менеджер по работе с клиентами в AWS, работающий с клиентами из автомобильной отрасли в США. Сайнат увлекается проектированием и созданием крупномасштабных распределенных приложений с использованием AI/ML. В свободное время Сайнатх проводит время с семьей и друзьями.

Джеймс Ву является старшим специалистом по архитектуре решений AI/ML в AWS. помогая клиентам разрабатывать и создавать решения AI/ML. Работа Джеймса охватывает широкий спектр вариантов использования машинного обучения, в первую очередь интересуясь компьютерным зрением, глубоким обучением и масштабированием машинного обучения на предприятии. До прихода в AWS Джеймс более 10 лет был архитектором, разработчиком и руководителем технологий, в том числе 6 лет в области проектирования и 4 года в сфере маркетинга и рекламы.

Отметка времени: 10 ноября 202211 ноября 2022

Отметка времени: 5 мая 2022

Выявление и предотвращение распространенных проблем с данными при создании моделей машинного обучения без кода с помощью Amazon SageMaker Canvas

Переиздано Платоном

Проверка данных в SageMaker Canvas

Проверка целевого столбца и типов моделей

Проверить все столбцы

Убирать

Заключение

Об авторах

Больше от Машинное обучение AWS

Анонс новых инструментов и возможностей, обеспечивающих ответственные инновации в области искусственного интеллекта | Веб-сервисы Amazon

Включение CI/CD для многорегиональных конечных точек Amazon SageMaker

Интеллектуальная обработка документов с помощью сервисов AWS AI и Analytics в страховой отрасли: часть 2

О Нас

Вертикальный поиск и AI

Платформа

Оставайтесь на связи

Учетная запись