Многие приложения, предназначенные для обслуживания промышленного оборудования, мониторинга торговли, управления автопарком и оптимизации маршрутов, созданы с использованием API и драйверов Cassandra с открытым исходным кодом для обработки данных с высокой скоростью и малой задержкой. Самостоятельное управление таблицами Cassandra может занять много времени и средств. Amazon Keyspaces (для Apache Cassandra) позволяет настраивать, защищать и масштабировать таблицы Cassandra в облаке AWS без управления дополнительной инфраструктурой.
В этом посте мы познакомим вас с сервисами AWS, связанными с обучением моделей машинного обучения (ML) с использованием Amazon Keyspaces на высоком уровне, и предоставим пошаговые инструкции по загрузке данных из Amazon Keyspaces в Создатель мудреца Амазонки и обучение модели, которую можно использовать для конкретного варианта использования сегментации клиентов.
У AWS есть несколько сервисов, помогающих компаниям внедрять процессы машинного обучения в облаке.
Стек AWS ML состоит из трех уровней. В среднем слое находится SageMaker, который предоставляет разработчикам, специалистам по данным и инженерам машинного обучения возможность создавать, обучать и развертывать модели машинного обучения в любом масштабе. Он устраняет сложность каждого шага рабочего процесса машинного обучения, чтобы вам было проще развертывать варианты использования машинного обучения. Это включает в себя все, от профилактического обслуживания до компьютерного зрения для прогнозирования поведения клиентов. С помощью SageMaker клиенты достигают 10-кратного повышения производительности специалистов по данным.
Apache Cassandra — популярный выбор для случаев использования с большим количеством операций чтения с неструктурированными или полуструктурированными данными. Например, популярная компания по доставке еды оценивает время доставки, а розничный клиент может часто использовать информацию из каталога продуктов в базе данных Apache Cassandra. Ключевые пространства Amazon — это масштабируемая, высокодоступная и управляемая бессерверная служба базы данных, совместимая с Apache Cassandra. Вам не нужно выделять, исправлять или управлять серверами, а также устанавливать, обслуживать или использовать программное обеспечение. Таблицы могут масштабироваться вверх и вниз автоматически, и вы платите только за те ресурсы, которые используете. Amazon Keyspaces позволяет запускать рабочие нагрузки Cassandra на AWS, используя тот же код приложения Cassandra и инструменты разработчика, которые вы используете сегодня.
SageMaker предоставляет набор встроенные алгоритмы чтобы помочь специалистам по данным и специалистам по машинному обучению быстро приступить к обучению и развертыванию моделей машинного обучения. В этом посте мы покажем вам, как розничный клиент может использовать историю покупок клиентов в базе данных Keyspaces и ориентироваться на различные сегменты клиентов для маркетинговых кампаний.
K-средних алгоритм обучения без учителя. Он пытается найти в данных дискретные группы, в которых члены группы максимально похожи друг на друга и максимально отличаются от членов других групп. Вы определяете атрибуты, которые вы хотите, чтобы алгоритм использовал для определения сходства. SageMaker использует модифицированную версию алгоритм кластеризации k-средних в веб-масштабе. По сравнению с оригинальной версией алгоритма версия, используемая SageMaker, является более точной. Однако, как и исходный алгоритм, он масштабируется до массивных наборов данных и сокращает время обучения.
Обзор решения
В инструкциях предполагается, что вы будете использовать SageMaker Studio для запуска кода. Связанный код был опубликован на Образец AWS на GitHub. Следуя инструкциям в лаборатории, вы можете сделать следующее:
- Установите необходимые зависимости.
- Подключитесь к Amazon Keyspaces, создайте таблицу и получите образцы данных.
- Создайте классификационную модель машинного обучения, используя данные в Amazon Keyspaces.
- Изучите результаты модели.
- Очистите вновь созданные ресурсы.
После завершения вы интегрируете SageMaker с Amazon Keyspaces для обучения моделей машинного обучения, как показано на следующем рисунке.
Теперь вы можете следить за пошаговые инструкции в этом посте, чтобы получить необработанные данные, хранящиеся в Amazon Keyspaces, с помощью SageMaker, и данные, полученные таким образом, для обработки ML.
Предпосылки
Сначала перейдите к SageMaker.
Далее, если вы используете SageMaker впервые, выберите Свяжитесь с нами!.
Затем выберите Настройка домена SageMaker.
Затем создайте новый профиль пользователя с именем – sagemakeruserИ выберите Создание новой роли в Роль исполнения по умолчанию подраздел.
Далее в появившемся окне выберите любой Сервис Amazon Simple Storage (Amazon S3) ведро и выберите Создать роль.
Эта роль будет использоваться в следующих шагах, чтобы позволить SageMaker получить доступ к таблице Keyspaces с использованием временных учетных данных из роли. Это избавляет от необходимости хранить имя пользователя и пароль в записной книжке.
Затем извлеките роль, связанную с sagemakeruser который был создан на предыдущем шаге из сводного раздела.
Затем перейдите к Консоль AWS и посмотри вверх AWS Управление идентификацией и доступом (IAM). В IAM перейдите к Ролям. В разделе «Роли» найдите роль исполнения, указанную на предыдущем шаге.
Затем выберите роль, указанную на предыдущем шаге, и нажмите «Добавить разрешения». В появившемся раскрывающемся списке выберите «Создать встроенную политику». SageMaker позволяет предоставить детальный уровень доступа, который ограничивает действия, которые может выполнять пользователь/приложение, в зависимости от бизнес-требований.
Затем выберите вкладку JSON и скопируйте политику из раздела Note на Github. страница. Эта политика позволяет блокноту SageMaker подключаться к Keyspaces и извлекать данные для дальнейшей обработки.
Затем снова выберите «Добавить разрешения» и в раскрывающемся списке выберите «Прикрепить политику».
Найдите политику AmazonKeyspacesFullAccess, установите флажок рядом с соответствующим результатом и выберите Прикрепить политики.
Убедитесь, что раздел политик разрешений включает AmazonS3FullAccess
, AmazonSageMakerFullAccess
, AmazonKeyspacesFullAccess
, а также недавно добавленная встроенная политика.
Затем перейдите в SageMaker Studio с помощью консоли AWS и выберите SageMaker Studio. Оказавшись там, выберите «Запустить приложение» и выберите «Студия».
Пошаговое руководство по записной книжке
Предпочтительный способ подключения к Keyspaces из SageMaker Notebook — использование Процесс подписи AWS версии 4 (SigV4) основанный Временные учетные данные для аутентификации. В этом сценарии нам НЕ нужно создавать или хранить учетные данные Keyspaces, и мы можем использовать эти учетные данные для аутентификации с помощью подключаемого модуля SigV4. Временные учетные данные безопасности состоят из идентификатора ключа доступа и секретного ключа доступа. Однако они также включают маркер безопасности, который указывает, когда истечет срок действия учетных данных. В этом посте мы создадим роль IAM и создадим временные учетные данные безопасности.
Сначала мы устанавливаем драйвер (cassandra-sigv4). Этот драйвер позволяет добавлять информацию для аутентификации в запросы API с помощью процесса подписи AWS версии 4 (SigV4). С помощью подключаемого модуля вы можете предоставить пользователям и приложениям краткосрочные учетные данные для доступа к Amazon Keyspaces (для Apache Cassandra) с использованием пользователей и ролей IAM. После этого вы импортируете необходимый сертификат вместе с дополнительными зависимостями пакета. В конце концов, вы позволите блокноту взять на себя роль общения с Keyspaces.
Затем подключитесь к Amazon Keyspaces и прочитайте системные данные из Keyspaces в Pandas DataFrame, чтобы проверить подключение.
Затем подготовьте данные для обучения на необработанном наборе данных. В записной книжке Python, связанной с этим постом, используйте розничный набор данных, загруженный из здесь, и обработайте его. Наша бизнес-цель, учитывая набор данных, состоит в том, чтобы сгруппировать клиентов с использованием определенного метрического вызова RFM. Модель RFM основана на трех количественных факторах:
- Недавность: как недавно клиент совершил покупку.
- Частота: как часто клиент совершает покупку.
- Денежная ценность: сколько денег клиент тратит на покупки.
RFM-анализ численно ранжирует клиента в каждой из этих трех категорий, как правило, по шкале от 1 до 5 (чем выше число, тем лучше результат). «Лучший» клиент получит высший балл в каждой категории. Мы будем использовать функцию дискретизации на основе квантилей pandas (qcut). Это поможет разбить значения на сегменты одинакового размера на основе квантилей выборки.
В этом примере мы используем CQL для чтения записей из таблицы Keyspace. В некоторых случаях использования ML вам может потребоваться несколько раз прочитать одни и те же данные из одной и той же таблицы Keyspaces. В этом случае мы рекомендуем вам сохранить данные в корзину Amazon S3, чтобы избежать дополнительных стоятчтение из Amazon Keyspaces. В зависимости от вашего сценария вы также можете использовать Амазонка ЭМИ в употребляете очень большой файл Amazon S3 в SageMaker.
Далее мы обучаем модель машинного обучения с использованием алгоритма KMeans и убеждаемся, что кластеры созданы. В этом конкретном сценарии вы увидите, что созданные кластеры напечатаны, показывая, что клиенты в наборе необработанных данных были сгруппированы вместе на основе различных атрибутов в наборе данных. Эту кластерную информацию можно использовать для целевых маркетинговых кампаний.
(Необязательно) Затем мы сохраняем сегменты клиентов, определенные моделью машинного обучения, обратно в таблицу Amazon Keyspaces для целевого маркетинга. Пакетное задание может считывать эти данные и запускать целевые кампании для клиентов в определенных сегментах.
Наконец, мы очистить ресурсы созданные во время этого руководства, чтобы избежать дополнительных расходов.
Удаление пространства ключей и таблиц может занять от нескольких секунд до минуты. Когда вы удаляете пространство ключей, пространство ключей и все его таблицы удаляются, и с них перестают взиматься сборы.
Заключение
В этом посте показано, как принимать данные о клиентах из Amazon Keyspaces в SageMaker и обучать модель кластеризации, позволяющую сегментировать клиентов. Вы можете использовать эту информацию для целевого маркетинга, тем самым значительно улучшив свой бизнес-KPI. Чтобы узнать больше об Amazon Keyspaces, просмотрите следующие ресурсы:
- Обучайте модели машинного обучения, используя Amazon Keyspaces в качестве источника данных (записная книжка SageMaker)
- Подключайтесь к Amazon Keyspaces со своего рабочего стола с помощью IDE IntelliJ, PyCharm или DataGrip.
- Справочник по языку CQL для пространств ключей Amazon (для Apache Cassandra)
- Как настроить доступ из командной строки к Amazon Keyspaces (для Apache Cassandra) с помощью образа Docker нового инструментария разработчика
- Управление идентификацией и доступом для пространств ключей Amazon (для Apache Cassandra)
- Подключение к Amazon Keyspaces из SageMaker с помощью учетные данные для конкретной службы
- Недавность, частота, денежная стоимость (RFM)
- Справочник по коду Kaggle
Об авторах
Вадим Ляхович — старший архитектор решений в AWS в районе залива Сан-Франциско, помогающий клиентам перейти на AWS. Он работает с организациями, начиная от крупных предприятий и заканчивая небольшими стартапами, чтобы поддерживать их инновации. Он также помогает клиентам разрабатывать масштабируемые, безопасные и экономичные решения на AWS.
Парт Патель работает архитектором решений в AWS в районе залива Сан-Франциско. Парт помогает клиентам ускорить переход к облаку и успешно внедрить облако AWS. Он специализируется на машинном обучении и модернизации приложений.
Рам Патанги работает архитектором решений в AWS в районе залива Сан-Франциско. Он помог клиентам из отраслей сельского хозяйства, страхования, банковского дела, розничной торговли, здравоохранения и медико-биологических наук, гостиничного бизнеса и высоких технологий успешно вести свой бизнес в облаке AWS. Он специализируется на базах данных, аналитике и машинном обучении.
- Коинсмарт. Лучшая в Европе биржа биткойнов и криптовалют.
- Платоблокчейн. Интеллект метавселенной Web3. Расширение знаний. БЕСПЛАТНЫЙ ДОСТУП.
- КриптоХок. Альткоин Радар. Бесплатная пробная версия.
- Источник: https://aws.amazon.com/blogs/machine-learning/train-machine-learning-models-using-amazon-keyspaces-as-a-data-source/
- '
- "
- &
- 10
- 100
- 9
- способность
- О нас
- ускорять
- доступ
- точный
- Достигать
- действия
- дополнительный
- сельское хозяйство
- впереди
- алгоритм
- Все
- Amazon
- анализ
- аналитика
- Другой
- API
- API
- приложение
- Применение
- Приложения
- ПЛОЩАДЬ
- внимание
- Атрибуты
- Аутентификация
- автоматически
- доступен
- AWS
- Банковское дело
- залив
- Блог
- граница
- строить
- бизнес
- бизнес
- призывают
- Кампании
- заботится
- случаев
- Категории
- сертификат
- расходы
- выбор
- классификация
- облако
- код
- сравненный
- компьютер
- Свяжитесь
- связи
- Консоли
- рентабельным
- может
- страна
- Создайте
- создали
- Полномочия
- клиент
- Клиенты
- данным
- набор данных
- База данных
- базы данных
- обеспечивает
- поставка
- в зависимости
- развертывание
- развертывание
- компьютера
- Определять
- Застройщик
- застройщиков
- различный
- Docker
- вниз
- водитель
- Падение
- в течение
- легко
- Инженеры
- предприятий
- Оборудование
- Оценки
- пример
- выполнение
- факторы
- First
- Впервые
- ФЛОТ
- фокусируется
- следовать
- после
- питание
- Франциско
- функция
- далее
- в общем
- порождать
- получающий
- GitHub
- значительно
- группы
- Группы
- Гиды
- Медицина
- Товары для здоровья
- помощь
- помощь
- High
- высший
- очень
- история
- Как
- How To
- Однако
- HTTPS
- Личность
- изображение
- осуществлять
- улучшение
- улучшение
- включают
- включает в себя
- индекс
- промышленность
- информация
- Инфраструктура
- инновации
- устанавливать
- страхование
- интегрированный
- IT
- работа
- путешествие
- Основные
- лаборатория
- язык
- большой
- запуск
- слой
- УЧИТЬСЯ
- изучение
- уровень
- Медико-биологическая промышленность
- посмотреть
- верный
- машина
- обучение с помощью машины
- сделанный
- поддерживать
- ДЕЛАЕТ
- управлять
- управляемого
- управление
- управления
- Маркетинг
- массивный
- согласование
- Участники
- ML
- модель
- Модели
- монетарный
- деньги
- Мониторинг
- БОЛЕЕ
- самых
- с разными
- необходимо
- ноутбук
- номер
- работать
- оптимизация
- организации
- Другое
- пакет
- особый
- Пароль
- Патчи
- ОПЛАТИТЬ
- плагин
- сборах
- политика
- Популярное
- возможное
- потенциал
- предсказывать
- Подготовить
- предыдущий
- цена
- первичный
- процесс
- Процессы
- обработка
- Продукт
- производительность
- Профиль
- многообещающий
- обеспечивать
- приводит
- покупки
- Покупка
- количественный
- быстро
- ранжирование
- Сырье
- Reading
- Получать
- недавно
- рекомендовать
- учет
- Запросы
- обязательный
- Требования
- Полезные ресурсы
- Итоги
- розничный
- обзоре
- Снижение
- Роли
- дорога
- Run
- Сан -
- Сан-Франциско
- SC
- масштабируемые
- Шкала
- НАУКА
- Ученые
- экран
- Поиск
- секунды
- безопасный
- безопасность
- маркер безопасности
- сегмент
- сегментация
- сегментами
- Serverless
- обслуживание
- Услуги
- набор
- общие
- краткосрочный
- показанный
- аналогичный
- просто
- спать
- небольшой
- So
- Software
- твердый
- Решения
- некоторые
- специализируется
- стек
- и политические лидеры
- Стартапы
- диск
- магазин
- студия
- Успешно
- поддержка
- система
- системы
- Говорить
- цель
- целевое
- временный
- Ассоциация
- Через
- время
- раз
- сегодня
- вместе
- знак
- Инструментарий
- инструменты
- топ
- торговать
- Обучение
- использование
- случаи использования
- пользователей
- ценностное
- различный
- версия
- вертикалей
- видение
- Что
- в
- без
- работает
- бы
- ВАШЕ