Створіть робочий процес машинного навчання управління ризиками на Amazon SageMaker без коду

Перевидано Платоном

читають: 0

Після світової фінансової кризи управління ризиками відіграло важливу роль у формуванні рішень банків, зокрема прогнозування статусу кредитів для потенційних клієнтів. Це часто інтенсивна вправа, що потребує машинного навчання (ML). Однак не всі організації мають наукові ресурси та досвід для створення робочого процесу ML з управління ризиками.

Amazon SageMaker це повністю керована платформа ML, яка дозволяє інженерам з обробки даних і бізнес-аналітикам швидко й легко створювати, навчати та розгортати моделі ML. Інженери з обробки даних і бізнес-аналітики можуть співпрацювати, використовуючи можливості SageMaker без коду/низького коду. Інженери даних можуть використовувати Amazon SageMaker Data Wrangler для швидкого агрегування та підготовки даних для створення моделі без написання коду. Тоді бізнес-аналітики зможуть використовувати візуальний інтерфейс «вкажи й клацни». Canvas Amazon SageMaker самостійно створювати точні прогнози ML.

У цьому дописі ми показуємо, наскільки просто для інженерів даних і бізнес-аналітиків співпрацювати, щоб побудувати робочий процес машинного навчання, включаючи підготовку даних, побудову моделі та висновки без написання коду.

Огляд рішення

Хоча розробка ML є складним і повторюваним процесом, ви можете узагальнити робочий процес ML на етапах підготовки даних, розробки моделі та розгортання моделі.

Створіть робочий процес машинного навчання керування ризиками на Amazon SageMaker без коду PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Data Wrangler і Canvas абстрагуються від складнощів підготовки даних і розробки моделей, тож ви можете зосередитися на створенні цінності для свого бізнесу, аналізуючи свої дані, не будучи експертом у розробці коду. На наступній діаграмі архітектури висвітлено компоненти рішення без коду/з низьким кодом.

Служба простого зберігання Amazon (Amazon S3) діє як наше сховище даних для необроблених даних, інженерних даних і артефактів моделей. Ви також можете імпортувати дані з Амазонська червона зміна, Амазонка Афіна, Databricks і Snowflake.

Як дослідники обробки даних ми використовуємо Data Wrangler для дослідницького аналізу даних і розробки функцій. Хоча Canvas може виконувати завдання розробки функцій, розробка функцій зазвичай потребує певних статистичних і предметних знань, щоб збагатити набір даних у правильній формі для розробки моделі. Тому ми передаємо цю відповідальність розробникам даних, щоб вони могли перетворювати дані без написання коду за допомогою Data Wrangler.

Після підготовки даних ми передаємо відповідальність за створення моделі аналітикам даних, які можуть використовувати Canvas для навчання моделі без необхідності писати код.

Нарешті, ми робимо поодинокі та пакетні прогнози безпосередньо в Canvas на основі отриманої моделі без необхідності розгортати кінцеві точки моделі самостійно.

Огляд набору даних

Ми використовуємо функції SageMaker для прогнозування статусу позики за допомогою модифікованої версії Lending Club's загальнодоступний набір даних аналізу кредитів. Набір даних містить дані про кредити, видані протягом 2007–2011 років. Стовпці з описом кредиту та позичальника є нашими особливостями. Стовпець loan_status є цільовою змінною, яку ми намагаємося передбачити.

Щоб продемонструвати в Data Wrangler, ми розділили набір даних на два файли CSV: частина перша та друга частина. Ми видалили деякі стовпці з вихідного набору даних Lending Club, щоб спростити демонстрацію. Наш набір даних містить понад 37,000 21 рядків і XNUMX стовпець функцій, як описано в наступній таблиці.

Назва стовпця	Опис
`loan_status`	Поточний статус кредиту (цільова змінна).
`loan_amount`	Вказана сума кредиту, на яку претендує позичальник. Якщо кредитний відділ зменшує суму кредиту, це відображається в цьому значенні.
`funded_amount_by_investors`	Загальна сума, виділена інвесторами для цієї позики на той час.
`term`	Кількість платежів по кредиту. Значення наведено в місяцях і може бути 36 або 60.
`interest_rate`	Процентна ставка за кредитом.
`installment`	Щомісячний платіж, який борг позичальника, якщо кредит надано.
`grade`	LC присвоєно рейтинг кредиту.
`sub_grade`	LC присвоєно субклас кредиту.
`employment_length`	Стаж роботи в роках. Можливі значення від 0 до 10, де 0 означає менше одного року, а 10 означає десять або більше років.
`home_ownership`	Статус власності на житло, наданий позичальником при реєстрації. Наші цінності - ОРЕНДА, ВЛАСНІСТЬ, ІПОТЕКА та ІНШЕ.
`annual_income`	Самостійний річний дохід, наданий позичальником під час реєстрації.
`verification_status`	Вказує, підтверджувався дохід РК чи ні.
`issued_amount`	Місяць, у якому було надано кредит.
`purpose`	Категорія, яку надає позичальник для запиту на позику.
`dti`	Співвідношення, розраховане шляхом поділення суми загальних щомісячних платежів позичальника до загальної суми боргових зобов’язань, за винятком іпотеки та запитаної кредитної позики, на місячний дохід, зазначений позичальником.
`earliest_credit_line`	Місяць, у якому позичальник відкрив першу кредитну лінію.
`inquiries_last_6_months`	Кількість запитів за останні 6 місяців (за винятком запитів щодо авто та іпотеки).
`open_credit_lines`	Кількість відкритих кредитних ліній у кредитній справі позичальника.
`derogatory_public_records`	Кількість принизливих публічних записів.
`revolving_line_utilization_rate`	Коефіцієнт використання поновлюваної лінії або сума кредиту, яку використовує позичальник, відносно всього наявного поновлюваного кредиту.
`total_credit_lines`	Загальна кількість кредитних ліній у кредитній справі позичальника.

Ми використовуємо цей набір даних для підготовки даних і навчання моделей.

Передумови

Виконайте такі необхідні кроки:

Завантажте обидва файли кредиту на відро S3 на ваш вибір.
Переконайтеся, що у вас є необхідні дозволи. Для отримання додаткової інформації див Почніть роботу з Data Wrangler.
Налаштуйте домен SageMaker, налаштований на використання Data Wrangler. Інструкції див На борту до домену Amazon SageMaker.

Імпортуйте дані

Створіть новий потік даних Data Wrangler від Інтерфейс Amazon SageMaker Studio.

Імпортуйте дані з Amazon S3, вибравши файли CSV із сегмента S3, де ви розмістили набір даних. Після того, як ви імпортуєте обидва файли, ви побачите два окремих робочих цикли в Потік даних вид

Під час імпорту даних у потік Data Wrangler можна вибрати кілька варіантів вибірки. Вибірка може допомогти, якщо у вас є набір даних, який завеликий для інтерактивної підготовки, або якщо ви хочете зберегти частку рідкісних подій у наборі вибіркових даних. Оскільки наш набір даних невеликий, ми не використовуємо вибірку.

Підготуйте дані

Для нашого випадку використання ми маємо два набори даних із спільним стовпцем: id. Як перший крок у підготовці даних ми хочемо об’єднати ці файли, об’єднавши їх. Інструкції див Перетворення даних.

Ми використовуємо Приєднайся до крок перетворення даних і використання Внутрішній тип приєднання на id колонка.

У результаті нашого перетворення об’єднання Data Wrangler створює два додаткових стовпці: id_0 та id_1. Однак ці стовпці непотрібні для побудови нашої моделі. Ми видаляємо ці зайві стовпці за допомогою Керувати стовпцями крок трансформації.

Ми імпортували наші набори даних, об’єднали їх і видалили непотрібні стовпці. Тепер ми готові збагатити наші дані за допомогою розробки функцій і підготуватися до створення моделі.

Виконайте розробку функцій

Для підготовки даних ми використовували Data Wrangler. Ви також можете використовувати Якість даних і функція Insights Report в Data Wrangler, щоб перевірити якість даних і виявити відхилення у них. Науковцям з обробки даних часто доводиться використовувати ці дані, щоб ефективно застосувати потрібні знання предметної області до інженерних функцій. Для цієї публікації ми припускаємо, що ми завершили ці оцінки якості та можемо переходити до розробки функцій.

На цьому кроці ми застосовуємо кілька перетворень до числових, категорійних і текстових стовпців.

Спочатку ми нормалізуємо відсоткову ставку, щоб масштабувати значення від 0 до 1. Ми робимо це за допомогою Числовий процес трансформувати, щоб масштабувати interest_rate стовпець за допомогою мінімально-максимального масштабувальника. Метою нормалізації (або стандартизації) є усунення зміщення з нашої моделі. Змінні, які вимірюються в різних масштабах, не будуть однаково сприяти процесу вивчення моделі. Тому така функція перетворення, як мінімально-максимальне перетворення масштабу, допомагає нормалізувати функції.

Щоб перетворити категоріальну змінну в числове значення, ми використовуємо однооперативне кодування. Ми вибираємо Закодувати категоричне перетворення, а потім виберіть Одне гаряче кодування. Одночасне кодування покращує передбачувані можливості моделі ML. Цей процес перетворює категоріальне значення на нову функцію, призначаючи їй двійкове значення 1 або 0. Як простий приклад, якщо у вас був один стовпець, який містив або значення yes or no, швидке кодування перетворить цей стовпець на два стовпці: a Yes стовпець та a No колонка. Значення "так" матиме 1 у Yes і 0 у стовпці No колонка. Одночасне кодування робить наші дані більш корисними, оскільки числові значення можуть легше визначити ймовірність наших прогнозів.

Нарешті, ми представляємо employer_title для перетворення його рядкових значень у числовий вектор. Застосовуємо Графічний векторизатор і стандартний токенізатор всередині Векторизувати трансформувати. Токенізація розбиває речення або ряд тексту на слова, тоді як векторизатор перетворює текстові дані в машиночитану форму. Ці слова представлені у вигляді векторів.

Після завершення всіх етапів розробки функцій ми можемо експортувати дані та виводити результати в наше відро S3. Крім того, ви можете експортувати свій потік як код Python або блокнот Jupyter, щоб створити конвеєр із вашим представленням за допомогою Трубопроводи Amazon SageMaker. Враховуйте це, якщо ви хочете виконати етапи розробки функцій у масштабі або як частину конвеєра машинного навчання.

Тепер ми можемо використовувати вихідний файл Data Wrangler як вхідні дані для Canvas. Ми посилаємося на це як набір даних у Canvas для створення нашої моделі ML.

У нашому випадку ми експортували наш підготовлений набір даних у стандартне відро Studio за допомогою output префікс. Ми посилаємося на це розташування набору даних під час наступного завантаження даних у Canvas для створення моделі.

Створіть і навчіть свою модель ML за допомогою Canvas

На консолі SageMaker запустіть програму Canvas. Щоб побудувати модель ML з підготовлених даних у попередньому розділі, ми виконуємо наступні кроки:

Імпортуйте підготовлений набір даних на Canvas із сегмента S3.

Ми посилаємося на той самий шлях S3, куди ми експортували результати Data Wrangler із попереднього розділу.

Створіть нову модель у Canvas і назвіть її loan_prediction_model.
Виберіть імпортований набір даних і додайте його до об’єкта моделі.

Щоб створити модель Canvas, ми повинні вибрати цільовий стовпець.

Оскільки наша мета — передбачити ймовірність спроможності кредитора погасити позику, ми обираємо loan_status колонка.

Canvas автоматично визначає тип формулювання проблеми ML. На момент написання Canvas підтримує задачі регресії, класифікації та прогнозування часових рядів. Ви можете вказати тип проблеми або дозволити Canvas автоматично визначити проблему на основі ваших даних.

Виберіть свій варіант, щоб почати процес створення моделі: Швидка збірка or Стандартна збірка.

Команда Швидка збірка параметр використовує ваш набір даних для навчання моделі протягом 2–15 хвилин. Це корисно, коли ви експериментуєте з новим набором даних, щоб визначити, чи буде достатньо наявного набору даних для прогнозування. Ми використовуємо цю опцію для цієї публікації.

Команда Стандартна збірка варіант вибирає точність над швидкістю та використовує приблизно 250 кандидатів на модель для навчання моделі. Зазвичай процес займає 1-2 години.

Після того, як модель створено, ви можете переглянути її результати. За оцінками Canvas, ваша модель здатна передбачити правильний результат у 82.9% випадків. Ваші власні результати можуть відрізнятися через варіативність моделей навчання.

Крім того, ви можете глибоко зануритися в детальний аналіз моделі, щоб дізнатися більше про модель.

Важливість функції представляє передбачувану важливість кожної функції для прогнозування цільового стовпця. У цьому випадку стовпець кредитної лінії має найбільш значний вплив на прогнозування, чи поверне клієнт суму позики, за якою йдуть відсоткова ставка та річний дохід.

Матриця плутанини в Розширені показники розділ містить інформацію для користувачів, які хочуть глибше зрозуміти продуктивність своєї моделі.

Перш ніж розгортати свою модель для виробничих робочих навантажень, використовуйте Canvas, щоб перевірити модель. Canvas керує нашою кінцевою точкою моделі та дозволяє нам робити прогнози безпосередньо в інтерфейсі користувача Canvas.

Вибирати Прогнозуйте і переглянути висновки будь-якого з них Пакетне прогнозування or Єдине передбачення Вкладка.

У наступному прикладі ми робимо один прогноз, змінюючи значення для прогнозування нашої цільової змінної loan_status в режимі реального часу

Ми також можемо вибрати більший набір даних і дозволити Canvas створювати пакетні прогнози від нашого імені.

Висновок

Наскрізне машинне навчання є складним і повторюваним, і часто включає кілька персонажів, технологій і процесів. Data Wrangler і Canvas дозволяють співпрацювати між командами, не вимагаючи від цих команд писати код.

Інженер даних може легко підготувати дані за допомогою Data Wrangler без написання коду та передати підготовлений набір даних бізнес-аналітику. Потім бізнес-аналітик може легко створювати точні моделі машинного навчання лише кількома клацаннями за допомогою Canvas і отримувати точні прогнози в режимі реального часу або пакетно.

Почніть роботу з Data Wrangler використовувати ці інструменти без необхідності керувати будь-якою інфраструктурою. Ти можеш налаштувати Canvas швидко й негайно почніть створювати моделі ML для підтримки потреб вашого бізнесу.

Про авторів

Створіть робочий процес машинного навчання керування ризиками на Amazon SageMaker без коду PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai. Пітер Чанг є архітектором рішень для AWS і прагне допомагати клієнтам отримувати висновки з їхніх даних. Він розробляв рішення, які допомагали організаціям приймати рішення на основі даних як у державному, так і в приватному секторах. Він має всі сертифікати AWS, а також дві сертифікації GCP.

Створіть робочий процес машинного навчання керування ризиками на Amazon SageMaker без коду PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai. Мінакшісундарам Тандавараян є старшим спеціалістом AI/ML із AWS. Він допомагає високотехнологічним стратегічним обліковим записам на їхньому шляху ШІ та ML. Він дуже захоплений ШІ, що керується даними.

Створіть робочий процес машинного навчання керування ризиками на Amazon SageMaker без коду PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai. Ден Фергюсон є архітектором рішень в AWS, що базується в Нью-Йорку, США. Як експерт із послуг машинного навчання, Ден працює над підтримкою клієнтів на шляху до ефективної, результативної та стійкої інтеграції робочих процесів машинного навчання.

Часова мітка: Травень 19, 2022

Часова мітка: Травень 4, 2022

Створіть робочий процес машинного навчання управління ризиками на Amazon SageMaker без коду

Перевидано Платоном

Огляд рішення

Огляд набору даних

Передумови

Імпортуйте дані

Підготуйте дані

Виконайте розробку функцій

Створіть і навчіть свою модель ML за допомогою Canvas

Висновок

Про авторів

Більше від AWS Машинне навчання

Сприяйте виявленню та повторному використанню функцій у вашій організації за допомогою Amazon SageMaker Feature Store і його можливостей метаданих на рівні функцій

Знизьте витрати на висновки Amazon SageMaker за допомогою AWS Graviton

Розгортайте конвеєри машинного навчання та керуйте ними за допомогою Terraform за допомогою Amazon SageMaker

Про нас

Вертикальний пошук & Ai

платформа

Залишайтеся на зв'язку

рахунки