Створіть робочий процес машинного навчання керування ризиками на Amazon SageMaker без коду PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Створіть робочий процес машинного навчання управління ризиками на Amazon SageMaker без коду

Після світової фінансової кризи управління ризиками відіграло важливу роль у формуванні рішень банків, зокрема прогнозування статусу кредитів для потенційних клієнтів. Це часто інтенсивна вправа, що потребує машинного навчання (ML). Однак не всі організації мають наукові ресурси та досвід для створення робочого процесу ML з управління ризиками.

Amazon SageMaker це повністю керована платформа ML, яка дозволяє інженерам з обробки даних і бізнес-аналітикам швидко й легко створювати, навчати та розгортати моделі ML. Інженери з обробки даних і бізнес-аналітики можуть співпрацювати, використовуючи можливості SageMaker без коду/низького коду. Інженери даних можуть використовувати Amazon SageMaker Data Wrangler для швидкого агрегування та підготовки даних для створення моделі без написання коду. Тоді бізнес-аналітики зможуть використовувати візуальний інтерфейс «вкажи й клацни». Canvas Amazon SageMaker самостійно створювати точні прогнози ML.

У цьому дописі ми показуємо, наскільки просто для інженерів даних і бізнес-аналітиків співпрацювати, щоб побудувати робочий процес машинного навчання, включаючи підготовку даних, побудову моделі та висновки без написання коду.

Огляд рішення

Хоча розробка ML є складним і повторюваним процесом, ви можете узагальнити робочий процес ML на етапах підготовки даних, розробки моделі та розгортання моделі.

Створіть робочий процес машинного навчання керування ризиками на Amazon SageMaker без коду PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Data Wrangler і Canvas абстрагуються від складнощів підготовки даних і розробки моделей, тож ви можете зосередитися на створенні цінності для свого бізнесу, аналізуючи свої дані, не будучи експертом у розробці коду. На наступній діаграмі архітектури висвітлено компоненти рішення без коду/з низьким кодом.

Створіть робочий процес машинного навчання керування ризиками на Amazon SageMaker без коду PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Служба простого зберігання Amazon (Amazon S3) діє як наше сховище даних для необроблених даних, інженерних даних і артефактів моделей. Ви також можете імпортувати дані з Амазонська червона зміна, Амазонка Афіна, Databricks і Snowflake.

Як дослідники обробки даних ми використовуємо Data Wrangler для дослідницького аналізу даних і розробки функцій. Хоча Canvas може виконувати завдання розробки функцій, розробка функцій зазвичай потребує певних статистичних і предметних знань, щоб збагатити набір даних у правильній формі для розробки моделі. Тому ми передаємо цю відповідальність розробникам даних, щоб вони могли перетворювати дані без написання коду за допомогою Data Wrangler.

Після підготовки даних ми передаємо відповідальність за створення моделі аналітикам даних, які можуть використовувати Canvas для навчання моделі без необхідності писати код.

Нарешті, ми робимо поодинокі та пакетні прогнози безпосередньо в Canvas на основі отриманої моделі без необхідності розгортати кінцеві точки моделі самостійно.

Огляд набору даних

Ми використовуємо функції SageMaker для прогнозування статусу позики за допомогою модифікованої версії Lending Club's загальнодоступний набір даних аналізу кредитів. Набір даних містить дані про кредити, видані протягом 2007–2011 років. Стовпці з описом кредиту та позичальника є нашими особливостями. Стовпець loan_status є цільовою змінною, яку ми намагаємося передбачити.

Щоб продемонструвати в Data Wrangler, ми розділили набір даних на два файли CSV: частина перша та друга частина. Ми видалили деякі стовпці з вихідного набору даних Lending Club, щоб спростити демонстрацію. Наш набір даних містить понад 37,000 21 рядків і XNUMX стовпець функцій, як описано в наступній таблиці.

Назва стовпця Опис
loan_status Поточний статус кредиту (цільова змінна).
loan_amount Вказана сума кредиту, на яку претендує позичальник. Якщо кредитний відділ зменшує суму кредиту, це відображається в цьому значенні.
funded_amount_by_investors Загальна сума, виділена інвесторами для цієї позики на той час.
term Кількість платежів по кредиту. Значення наведено в місяцях і може бути 36 або 60.
interest_rate Процентна ставка за кредитом.
installment Щомісячний платіж, який борг позичальника, якщо кредит надано.
grade LC присвоєно рейтинг кредиту.
sub_grade LC присвоєно субклас кредиту.
employment_length Стаж роботи в роках. Можливі значення від 0 до 10, де 0 означає менше одного року, а 10 означає десять або більше років.
home_ownership Статус власності на житло, наданий позичальником при реєстрації. Наші цінності - ОРЕНДА, ВЛАСНІСТЬ, ІПОТЕКА та ІНШЕ.
annual_income Самостійний річний дохід, наданий позичальником під час реєстрації.
verification_status Вказує, підтверджувався дохід РК чи ні.
issued_amount Місяць, у якому було надано кредит.
purpose Категорія, яку надає позичальник для запиту на позику.
dti Співвідношення, розраховане шляхом поділення суми загальних щомісячних платежів позичальника до загальної суми боргових зобов’язань, за винятком іпотеки та запитаної кредитної позики, на місячний дохід, зазначений позичальником.
earliest_credit_line Місяць, у якому позичальник відкрив першу кредитну лінію.
inquiries_last_6_months Кількість запитів за останні 6 місяців (за винятком запитів щодо авто та іпотеки).
open_credit_lines Кількість відкритих кредитних ліній у кредитній справі позичальника.
derogatory_public_records Кількість принизливих публічних записів.
revolving_line_utilization_rate Коефіцієнт використання поновлюваної лінії або сума кредиту, яку використовує позичальник, відносно всього наявного поновлюваного кредиту.
total_credit_lines Загальна кількість кредитних ліній у кредитній справі позичальника.

Ми використовуємо цей набір даних для підготовки даних і навчання моделей.

Передумови

Виконайте такі необхідні кроки:

  1. Завантажте обидва файли кредиту на відро S3 на ваш вибір.
  2. Переконайтеся, що у вас є необхідні дозволи. Для отримання додаткової інформації див Почніть роботу з Data Wrangler.
  3. Налаштуйте домен SageMaker, налаштований на використання Data Wrangler. Інструкції див На борту до домену Amazon SageMaker.

Імпортуйте дані

Створіть новий потік даних Data Wrangler від Інтерфейс Amazon SageMaker Studio.

Створіть робочий процес машинного навчання керування ризиками на Amazon SageMaker без коду PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Імпортуйте дані з Amazon S3, вибравши файли CSV із сегмента S3, де ви розмістили набір даних. Після того, як ви імпортуєте обидва файли, ви побачите два окремих робочих цикли в Потік даних вид

Під час імпорту даних у потік Data Wrangler можна вибрати кілька варіантів вибірки. Вибірка може допомогти, якщо у вас є набір даних, який завеликий для інтерактивної підготовки, або якщо ви хочете зберегти частку рідкісних подій у наборі вибіркових даних. Оскільки наш набір даних невеликий, ми не використовуємо вибірку.

Підготуйте дані

Для нашого випадку використання ми маємо два набори даних із спільним стовпцем: id. Як перший крок у підготовці даних ми хочемо об’єднати ці файли, об’єднавши їх. Інструкції див Перетворення даних.

Створіть робочий процес машинного навчання керування ризиками на Amazon SageMaker без коду PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Ми використовуємо Приєднайся до крок перетворення даних і використання Внутрішній тип приєднання на id колонка.

Створіть робочий процес машинного навчання керування ризиками на Amazon SageMaker без коду PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

У результаті нашого перетворення об’єднання Data Wrangler створює два додаткових стовпці: id_0 та id_1. Однак ці стовпці непотрібні для побудови нашої моделі. Ми видаляємо ці зайві стовпці за допомогою Керувати стовпцями крок трансформації.

Створіть робочий процес машинного навчання керування ризиками на Amazon SageMaker без коду PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.
Створіть робочий процес машинного навчання керування ризиками на Amazon SageMaker без коду PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Ми імпортували наші набори даних, об’єднали їх і видалили непотрібні стовпці. Тепер ми готові збагатити наші дані за допомогою розробки функцій і підготуватися до створення моделі.

Виконайте розробку функцій

Для підготовки даних ми використовували Data Wrangler. Ви також можете використовувати Якість даних і функція Insights Report в Data Wrangler, щоб перевірити якість даних і виявити відхилення у них. Науковцям з обробки даних часто доводиться використовувати ці дані, щоб ефективно застосувати потрібні знання предметної області до інженерних функцій. Для цієї публікації ми припускаємо, що ми завершили ці оцінки якості та можемо переходити до розробки функцій.

На цьому кроці ми застосовуємо кілька перетворень до числових, категорійних і текстових стовпців.

Спочатку ми нормалізуємо відсоткову ставку, щоб масштабувати значення від 0 до 1. Ми робимо це за допомогою Числовий процес трансформувати, щоб масштабувати interest_rate стовпець за допомогою мінімально-максимального масштабувальника. Метою нормалізації (або стандартизації) є усунення зміщення з нашої моделі. Змінні, які вимірюються в різних масштабах, не будуть однаково сприяти процесу вивчення моделі. Тому така функція перетворення, як мінімально-максимальне перетворення масштабу, допомагає нормалізувати функції.

Створіть робочий процес машинного навчання керування ризиками на Amazon SageMaker без коду PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Щоб перетворити категоріальну змінну в числове значення, ми використовуємо однооперативне кодування. Ми вибираємо Закодувати категоричне перетворення, а потім виберіть Одне гаряче кодування. Одночасне кодування покращує передбачувані можливості моделі ML. Цей процес перетворює категоріальне значення на нову функцію, призначаючи їй двійкове значення 1 або 0. Як простий приклад, якщо у вас був один стовпець, який містив або значення yes or no, швидке кодування перетворить цей стовпець на два стовпці: a Yes стовпець та a No колонка. Значення "так" матиме 1 у Yes і 0 у стовпці No колонка. Одночасне кодування робить наші дані більш корисними, оскільки числові значення можуть легше визначити ймовірність наших прогнозів.

Нарешті, ми представляємо employer_title для перетворення його рядкових значень у числовий вектор. Застосовуємо Графічний векторизатор і стандартний токенізатор всередині Векторизувати трансформувати. Токенізація розбиває речення або ряд тексту на слова, тоді як векторизатор перетворює текстові дані в машиночитану форму. Ці слова представлені у вигляді векторів.

Створіть робочий процес машинного навчання керування ризиками на Amazon SageMaker без коду PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Після завершення всіх етапів розробки функцій ми можемо експортувати дані та виводити результати в наше відро S3. Крім того, ви можете експортувати свій потік як код Python або блокнот Jupyter, щоб створити конвеєр із вашим представленням за допомогою Трубопроводи Amazon SageMaker. Враховуйте це, якщо ви хочете виконати етапи розробки функцій у масштабі або як частину конвеєра машинного навчання.

Створіть робочий процес машинного навчання керування ризиками на Amazon SageMaker без коду PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Тепер ми можемо використовувати вихідний файл Data Wrangler як вхідні дані для Canvas. Ми посилаємося на це як набір даних у Canvas для створення нашої моделі ML.

Створіть робочий процес машинного навчання керування ризиками на Amazon SageMaker без коду PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

У нашому випадку ми експортували наш підготовлений набір даних у стандартне відро Studio за допомогою output префікс. Ми посилаємося на це розташування набору даних під час наступного завантаження даних у Canvas для створення моделі.

Створіть і навчіть свою модель ML за допомогою Canvas

На консолі SageMaker запустіть програму Canvas. Щоб побудувати модель ML з підготовлених даних у попередньому розділі, ми виконуємо наступні кроки:

  1. Імпортуйте підготовлений набір даних на Canvas із сегмента S3.

Створіть робочий процес машинного навчання керування ризиками на Amazon SageMaker без коду PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Ми посилаємося на той самий шлях S3, куди ми експортували результати Data Wrangler із попереднього розділу.

  1. Створіть нову модель у Canvas і назвіть її loan_prediction_model.
  2. Виберіть імпортований набір даних і додайте його до об’єкта моделі.

Створіть робочий процес машинного навчання керування ризиками на Amazon SageMaker без коду PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Щоб створити модель Canvas, ми повинні вибрати цільовий стовпець.

  1. Оскільки наша мета — передбачити ймовірність спроможності кредитора погасити позику, ми обираємо loan_status колонка.

Canvas автоматично визначає тип формулювання проблеми ML. На момент написання Canvas підтримує задачі регресії, класифікації та прогнозування часових рядів. Ви можете вказати тип проблеми або дозволити Canvas автоматично визначити проблему на основі ваших даних.

Створіть робочий процес машинного навчання керування ризиками на Amazon SageMaker без коду PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

  1. Виберіть свій варіант, щоб почати процес створення моделі: Швидка збірка or Стандартна збірка.

Команда Швидка збірка параметр використовує ваш набір даних для навчання моделі протягом 2–15 хвилин. Це корисно, коли ви експериментуєте з новим набором даних, щоб визначити, чи буде достатньо наявного набору даних для прогнозування. Ми використовуємо цю опцію для цієї публікації.

Команда Стандартна збірка варіант вибирає точність над швидкістю та використовує приблизно 250 кандидатів на модель для навчання моделі. Зазвичай процес займає 1-2 години.

Після того, як модель створено, ви можете переглянути її результати. За оцінками Canvas, ваша модель здатна передбачити правильний результат у 82.9% випадків. Ваші власні результати можуть відрізнятися через варіативність моделей навчання.

Створіть робочий процес машинного навчання керування ризиками на Amazon SageMaker без коду PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Крім того, ви можете глибоко зануритися в детальний аналіз моделі, щоб дізнатися більше про модель.

Важливість функції представляє передбачувану важливість кожної функції для прогнозування цільового стовпця. У цьому випадку стовпець кредитної лінії має найбільш значний вплив на прогнозування, чи поверне клієнт суму позики, за якою йдуть відсоткова ставка та річний дохід.

Створіть робочий процес машинного навчання керування ризиками на Amazon SageMaker без коду PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Матриця плутанини в Розширені показники розділ містить інформацію для користувачів, які хочуть глибше зрозуміти продуктивність своєї моделі.

Створіть робочий процес машинного навчання керування ризиками на Amazon SageMaker без коду PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Перш ніж розгортати свою модель для виробничих робочих навантажень, використовуйте Canvas, щоб перевірити модель. Canvas керує нашою кінцевою точкою моделі та дозволяє нам робити прогнози безпосередньо в інтерфейсі користувача Canvas.

  1. Вибирати Прогнозуйте і переглянути висновки будь-якого з них Пакетне прогнозування or Єдине передбачення Вкладка.

У наступному прикладі ми робимо один прогноз, змінюючи значення для прогнозування нашої цільової змінної loan_status в режимі реального часу

Створіть робочий процес машинного навчання керування ризиками на Amazon SageMaker без коду PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Ми також можемо вибрати більший набір даних і дозволити Canvas створювати пакетні прогнози від нашого імені.

Створіть робочий процес машинного навчання керування ризиками на Amazon SageMaker без коду PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Висновок

Наскрізне машинне навчання є складним і повторюваним, і часто включає кілька персонажів, технологій і процесів. Data Wrangler і Canvas дозволяють співпрацювати між командами, не вимагаючи від цих команд писати код.

Інженер даних може легко підготувати дані за допомогою Data Wrangler без написання коду та передати підготовлений набір даних бізнес-аналітику. Потім бізнес-аналітик може легко створювати точні моделі машинного навчання лише кількома клацаннями за допомогою Canvas і отримувати точні прогнози в режимі реального часу або пакетно.

Почніть роботу з Data Wrangler використовувати ці інструменти без необхідності керувати будь-якою інфраструктурою. Ти можеш налаштувати Canvas швидко й негайно почніть створювати моделі ML для підтримки потреб вашого бізнесу.


Про авторів

Створіть робочий процес машинного навчання керування ризиками на Amazon SageMaker без коду PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.Пітер Чанг є архітектором рішень для AWS і прагне допомагати клієнтам отримувати висновки з їхніх даних. Він розробляв рішення, які допомагали організаціям приймати рішення на основі даних як у державному, так і в приватному секторах. Він має всі сертифікати AWS, а також дві сертифікації GCP.

Створіть робочий процес машинного навчання керування ризиками на Amazon SageMaker без коду PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai. Мінакшісундарам Тандавараян є старшим спеціалістом AI/ML із AWS. Він допомагає високотехнологічним стратегічним обліковим записам на їхньому шляху ШІ та ML. Він дуже захоплений ШІ, що керується даними.

Створіть робочий процес машинного навчання керування ризиками на Amazon SageMaker без коду PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.Ден Фергюсон є архітектором рішень в AWS, що базується в Нью-Йорку, США. Як експерт із послуг машинного навчання, Ден працює над підтримкою клієнтів на шляху до ефективної, результативної та стійкої інтеграції робочих процесів машинного навчання.

Часова мітка:

Більше від AWS Машинне навчання