Багато додатків, призначених для обслуговування промислового обладнання, моніторингу торгівлі, керування автопарком та оптимізації маршрутів, створено з використанням API та драйверів Cassandra з відкритим кодом для обробки даних з високою швидкістю та низькою затримкою. Самостійне керування таблицями Cassandra може зайняти багато часу та дорого. Amazon Keyspaces (для Apache Cassandra) дозволяє налаштовувати, захищати та масштабувати таблиці Cassandra в хмарі AWS, не керуючи додатковою інфраструктурою.
У цій публікації ми розповімо вам про служби AWS, пов’язані з навчанням моделей машинного навчання (ML) із використанням Amazon Keyspaces на високому рівні, і надамо покрокові інструкції щодо отримання даних із Amazon Keyspaces в Amazon SageMaker і навчання моделі, яку можна використовувати для конкретного випадку сегментації клієнтів.
AWS має кілька сервісів, які допомагають підприємствам впроваджувати процеси ML у хмарі.
AWS ML Stack має три шари. У середньому шарі є SageMaker, який надає розробникам, науковцям з даних та інженерам з машинного навчання можливість створювати, навчати та розгортати моделі машинного навчання в масштабі. Це усуває складність кожного кроку робочого процесу ML, щоб ви могли легше розгортати свої варіанти використання ML. Сюди входить будь-що, від прогнозного обслуговування до комп’ютерного зору до прогнозування поведінки клієнтів. За допомогою SageMaker клієнти досягають у 10 разів підвищення продуктивності дослідників даних.
Apache Cassandra є популярним вибором для важких випадків використання з неструктурованими або напівструктурованими даними. Наприклад, популярний бізнес з доставки їжі оцінює час доставки, і роздрібний клієнт може продовжувати часто використовувати інформацію з каталогу продуктів у базі даних Apache Cassandra. Простір ключів Amazon — це масштабована, високодоступна й керована безсерверна служба баз даних, сумісна з Apache Cassandra. Вам не потрібно надавати, виправляти чи керувати серверами, а також не потрібно встановлювати, підтримувати або експлуатувати програмне забезпечення. Таблиці можуть автоматично збільшуватися і зменшуватися, і ви платите лише за ресурси, які використовуєте. Amazon Keyspaces дозволяє запускати робочі навантаження Cassandra на AWS, використовуючи той самий код програми Cassandra та інструменти розробника, які ви використовуєте сьогодні.
SageMaker надає набір вбудовані алгоритми щоб допомогти науковцям з даних і практикам ML швидко розпочати навчання та розгортати моделі машинного навчання. У цій публікації ми покажемо вам, як роздрібний клієнт може використовувати історію покупок клієнта в базі даних Keyspaces і орієнтуватися на різні сегменти клієнтів для маркетингових кампаній.
K-означає є алгоритмом навчання без нагляду. Він намагається знайти дискретні угруповання в даних, де члени групи максимально схожі один на одного і максимально відрізняються від членів інших груп. Ви визначаєте атрибути, які ви хочете, щоб алгоритм використовував для визначення схожості. SageMaker використовує модифіковану версію алгоритм кластеризації k-середніх у веб-масштабі. У порівнянні з оригінальною версією алгоритму, версія, використана SageMaker, є більш точною. Однак, як і оригінальний алгоритм, він масштабується до масивних наборів даних і забезпечує покращення часу навчання.
Огляд рішення
В інструкціях передбачається, що ви будете використовувати SageMaker Studio для запуску коду. Пов’язаний код опубліковано на Зразок AWS GitHub. Дотримуючись інструкцій в лабораторії, ви можете зробити наступне:
- Встановіть необхідні залежності.
- Підключіться до Amazon Keyspaces, створіть таблицю та отримайте зразки даних.
- Побудуйте модель класифікації ML, використовуючи дані в Amazon Keyspaces.
- Досліджуйте результати моделі.
- Очищення новостворених ресурсів.
Після завершення ви інтегруєте SageMaker з Amazon Keyspaces для навчання моделей ML, як показано на наступному зображенні.
Тепер ви можете стежити за покрокова інструкція у цій публікації, щоб отримати вихідні дані, що зберігаються в Amazon Keyspaces за допомогою SageMaker, і дані, отримані таким чином для обробки ML.
Передумови
Спочатку перейдіть до SageMaker.
Далі, якщо ви вперше використовуєте SageMaker, виберіть Розпочати.
Потім виберіть Налаштуйте домен SageMaker.
Далі створіть новий профіль користувача з ім’ям – sagemakeruser, і виберіть Створити нову роль в Роль виконання за замовчуванням підрозділ.
Далі на екрані, що з’явиться, виберіть будь-який Служба простого зберігання Amazon (Amazon S3) і виберіть Створити роль.
Ця роль буде використовуватися на наступних кроках, щоб дозволити SageMaker отримати доступ до таблиці Keyspaces за допомогою тимчасових облікових даних з ролі. Це позбавляє від необхідності зберігати ім’я користувача та пароль у блокноті.
Далі отримайте роль, пов’язану з sagemakeruser який був створений на попередньому кроці з розділу підсумків.
Потім перейдіть до Консоль AWS і подивіться вгору AWS Identity and Access Management (IAM). У IAM перейдіть до Ролі. У межах Ролі знайдіть роль виконання, визначену на попередньому кроці.
Далі виберіть роль, визначену на попередньому кроці, і виберіть Додати дозволи. У спадному меню, що з’явиться, виберіть Створити вбудовану політику. SageMaker дозволяє надати детальний рівень доступу, який обмежує дії, які користувач/програма може виконувати на основі вимог бізнесу.
Потім виберіть вкладку JSON і скопіюйте політику з розділу «Примітка» на Github сторінка. Ця політика дозволяє блокноту SageMaker підключатися до Keyspaces і отримувати дані для подальшої обробки.
Потім знову виберіть Додати дозволи та зі спадного меню, а потім виберіть Вкласти політику.
Знайдіть політику AmazonKeyspacesFullAccess, поставте прапорець біля відповідного результату та виберіть Вкласти політики.
Переконайтеся, що розділ політики дозволів містить AmazonS3FullAccess
, AmazonSageMakerFullAccess
, AmazonKeyspacesFullAccess
, а також нещодавно додану вбудовану політику.
Далі перейдіть до SageMaker Studio за допомогою консолі AWS і виберіть SageMaker Studio. Опинившись там, виберіть Запустити програму та виберіть Studio.
Покрокове керівництво по блокноту
Переважним способом підключення до Keyspaces із SageMaker Notebook є використання Процес AWS Signature версії 4 (SigV4) заснований Тимчасові повноваження для аутентифікації. У цьому сценарії нам НЕ потрібно створювати або зберігати облікові дані Keyspaces і можемо використовувати облікові дані для аутентифікації за допомогою плагіна SigV4. Тимчасові облікові дані безпеки складаються з ідентифікатора ключа доступу та секретного ключа доступу. Однак вони також містять маркер безпеки, який вказує, коли закінчується термін дії облікових даних. У цій публікації ми створимо роль IAM та створимо тимчасові облікові дані безпеки.
Спочатку встановлюємо драйвер (cassandra-sigv4). Цей драйвер дозволяє додавати інформацію автентифікації до запитів API за допомогою процесу підпису AWS версії 4 (SigV4). За допомогою плагіна ви можете надати користувачам і програмам короткострокові облікові дані для доступу до Amazon Keyspaces (для Apache Cassandra) за допомогою користувачів і ролей IAM. Після цього ви імпортуєте необхідний сертифікат разом із додатковими залежностями пакетів. Зрештою, ви дозволите ноутбуку взяти на себе роль спілкування з Keyspaces.
Потім підключіться до Amazon Keyspaces і зчитайте системні дані з Keyspaces у Pandas DataFrame, щоб перевірити з’єднання.
Далі підготуйте дані для навчання на наборі необроблених даних. У блокноті Python, пов’язаному з цією публікацією, використовуйте набір роздрібних даних, завантажений з тут, і обробити його. Наша бізнес-ціль, враховуючи набір даних, полягає в тому, щоб об’єднати клієнтів у групу за допомогою певної метрики виклику RFM. Модель RFM заснована на трьох кількісних факторах:
- Недавність: як нещодавно клієнт зробив покупку.
- Частота: як часто клієнт робить покупку.
- Грошова вартість: скільки грошей клієнт витрачає на покупки.
Аналіз RFM чисельно оцінює клієнта в кожній із цих трьох категорій, як правило, за шкалою від 1 до 5 (чим більше число, тим кращий результат). «Кращий» клієнт отримає найвищий бал у кожній категорії. Ми будемо використовувати функцію дискретизації на основі квантилів (qcut) від pandas. Це допоможе дискретизувати значення в сегменти однакового розміру на основі або на основі квантилів вибірки.
У цьому прикладі ми використовуємо CQL для читання записів із таблиці Keyspace. У деяких випадках використання ML вам може знадобитися кілька разів прочитати одні й ті самі дані з однієї таблиці Keyspaces. У цьому випадку ми рекомендуємо вам зберегти ваші дані у відро Amazon S3, щоб уникнути додаткових витрат коштуватичитання з Amazon Keyspaces. Залежно від вашого сценарію, ви також можете використовувати Amazon EMR до приймати всередину дуже великий файл Amazon S3 в SageMaker.
Далі ми навчаємо ML-модель за допомогою алгоритму KMeans і переконаємося, що кластери створені. У цьому конкретному сценарії ви побачите, що створені кластери друкуються, що показує, що клієнти в набір необроблених даних були згруповані разом на основі різних атрибутів у наборі даних. Цю інформацію про кластер можна використовувати для цільових маркетингових кампаній.
(Необов’язково) Далі ми зберігаємо сегменти клієнтів, які були визначені моделлю ML, назад у таблицю Amazon Keyspaces для цільового маркетингу. Пакетне завдання може зчитувати ці дані та запускати цільові кампанії для клієнтів у певних сегментах.
Нарешті ми очистити ресурси створений під час цього посібника, щоб уникнути додаткових витрат.
Для завершення видалення простору ключів і таблиць може знадобитися від кількох секунд до хвилини. Коли ви видаляєте простір ключів, простір ключів і всі його таблиці видаляються, і ви припиняєте нараховувати з них витрати.
Висновок
Ця публікація показала вам, як отримати дані про клієнтів із Amazon Keyspaces в SageMaker та навчити модель кластеризації, яка дозволила б сегментувати клієнтів. Ви можете використовувати цю інформацію для цільового маркетингу, таким чином значно покращуючи KPI свого бізнесу. Щоб дізнатися більше про Amazon Keyspaces, перегляньте такі ресурси:
- Навчайте моделі машинного навчання, використовуючи простори ключів Amazon як джерело даних (Зошит SageMaker)
- Підключайтеся до Amazon Keyspaces зі свого робочого столу за допомогою IDE IntelliJ, PyCharm або DataGrip
- Посилання на мову CQL для просторів ключів Amazon (для Apache Cassandra)
- Як налаштувати доступ командного рядка до Amazon Keyspaces (для Apache Cassandra) за допомогою нового образу Docker для розробників
- Керування ідентифікацією та доступом для просторів ключів Amazon (для Apache Cassandra)
- Підключення до Amazon Keyspaces від SageMaker за допомогою облікові дані для певної служби
- Останній час, частота, грошова вартість (RFM)
- Посилання на код Kaggle
Про авторів
Вадим Ляхович є старшим архітектором рішень в AWS в районі затоки Сан-Франциско, який допомагає клієнтам перейти на AWS. Він співпрацює з організаціями, починаючи від великих підприємств і закінчуючи невеликими стартапами, щоб підтримати їхні інновації. Він також допомагає клієнтам розробляти масштабовані, безпечні та економічно ефективні рішення на AWS.
Парт Патель є архітектором рішень в AWS в районі затоки Сан-Франциско. Parth допомагає клієнтам прискорити свій шлях до хмари та допомогти їм успішно запровадити хмару AWS. Він зосереджується на ML та модернізації додатків.
Рам Патангі є архітектором рішень в AWS в районі затоки Сан-Франциско. Він допомагав клієнтам у сферах сільського господарства, страхування, банківської справи, роздрібної торгівлі, охорони здоров’я та природничих наук, гостинності та високих технологій успішно вести свій бізнес у хмарі AWS. Він спеціалізується на базах даних, аналітиці та ML.
- Coinsmart. Найкраща в Європі біржа біткойн та криптовалют.
- Платоблокчейн. Web3 Metaverse Intelligence. Розширені знання. БЕЗКОШТОВНИЙ ДОСТУП.
- CryptoHawk. Альткойн Радар. Безкоштовне випробування.
- Джерело: https://aws.amazon.com/blogs/machine-learning/train-machine-learning-models-using-amazon-keyspaces-as-a-data-source/
- '
- "
- &
- 10
- 100
- 9
- здатність
- МЕНЮ
- прискорювати
- доступ
- точний
- Achieve
- дії
- Додатковий
- сільське господарство
- попереду
- алгоритм
- ВСІ
- Amazon
- аналіз
- аналітика
- Інший
- API
- Інтерфейси
- додаток
- додаток
- застосування
- ПЛОЩА
- увагу
- Атрибути
- Authentication
- автоматично
- доступний
- AWS
- Banking
- затока
- Блог
- border
- будувати
- бізнес
- підприємства
- call
- Кампанії
- який
- випадків
- Категорія
- сертифікат
- вантажі
- вибір
- класифікація
- хмара
- код
- порівняний
- комп'ютер
- З'єднуватися
- зв'язку
- Консоль
- рентабельним
- може
- країна
- створювати
- створений
- Повноваження
- клієнт
- Клієнти
- дані
- набір даних
- Database
- базами даних
- постачає
- доставка
- Залежно
- розгортання
- розгортання
- робочий стіл
- Визначати
- Розробник
- розробників
- різний
- Docker
- вниз
- водій
- Падіння
- під час
- легко
- Інженери
- підприємств
- обладнання
- Оцінки
- приклад
- виконання
- фактори
- Перший
- перший раз
- ФЛЕТ
- фокусується
- стежити
- після
- харчування
- Франциско
- функція
- далі
- в цілому
- породжувати
- отримання
- GitHub
- значно
- Group
- Групи
- Гід
- здоров'я
- Охорона здоров'я
- допомога
- допомогу
- Високий
- вище
- дуже
- історія
- Як
- How To
- Однак
- HTTPS
- Особистість
- зображення
- здійснювати
- поліпшення
- поліпшення
- включати
- includes
- індекс
- промислові
- інформація
- Інфраструктура
- інновації
- встановлювати
- страхування
- інтегрований
- IT
- робота
- подорож
- ключ
- lab
- мова
- великий
- запуск
- шар
- УЧИТЬСЯ
- вивчення
- рівень
- Life Sciences
- подивитися
- лояльний
- машина
- навчання за допомогою машини
- made
- підтримувати
- РОБОТИ
- управляти
- вдалося
- управління
- управління
- Маркетинг
- масивний
- узгодження
- члени
- ML
- модель
- Моделі
- Грошові
- гроші
- моніторинг
- більше
- найбільш
- множинний
- необхідно
- ноутбук
- номер
- працювати
- оптимізація
- організації
- Інше
- пакет
- приватність
- Пароль
- пластир
- Платити
- підключати
- Політика
- політика
- популярний
- це можливо
- потенціал
- передбачати
- Готувати
- попередній
- price
- первинний
- процес
- процеси
- обробка
- Product
- продуктивність
- профіль
- перспективний
- забезпечувати
- забезпечує
- покупка
- Купівля
- кількісний
- швидко
- ранжування
- Сировина
- читання
- отримати
- нещодавно
- рекомендувати
- облік
- запитів
- вимагається
- Вимога
- ресурси
- результати
- роздрібна торгівля
- огляд
- Risk
- Роль
- Маршрут
- прогін
- Сан -
- Сан Франциско
- SC
- масштабовані
- шкала
- НАУКИ
- Вчені
- Екран
- Пошук
- seconds
- безпечний
- безпеку
- токен безпеки
- сегмент
- сегментація
- сегменти
- Без сервера
- обслуговування
- Послуги
- комплект
- загальні
- короткий термін
- показаний
- аналогічний
- простий
- сон
- невеликий
- So
- Софтвер
- solid
- Рішення
- деякі
- спеціалізується
- стек
- почалася
- Стартапи
- зберігання
- зберігати
- студія
- Успішно
- підтримка
- система
- Systems
- балаканина
- Мета
- цільове
- тимчасовий
- Команда
- через
- час
- times
- сьогодні
- разом
- знак
- Інструментарій
- інструменти
- топ
- торгувати
- Навчання
- використання
- випадки використання
- користувачі
- значення
- різний
- версія
- вертикалі
- бачення
- Що
- в
- без
- робочий
- б
- вашу