Виявлення шахрайства є важливою проблемою, яка має застосування у фінансових послугах, соціальних мережах, електронній комерції, іграх та інших галузях. У цьому дописі представлено реалізацію рішення для виявлення шахрайства з використанням моделі згорткової мережі реляційних графів (RGCN) для прогнозування ймовірності того, що транзакція є шахрайською, як через трансдуктивний, так і індуктивний режими висновку. Ви можете розгорнути нашу реалізацію на Amazon SageMaker кінцева точка як рішення для виявлення шахрайства в режимі реального часу, не вимагаючи зовнішнього зберігання графів або оркестровки, що значно знижує вартість розгортання моделі.
Компанії, яким потрібен повністю керований сервіс AWS AI для виявлення шахрайства, також можуть використовувати Детектор шахрайства Amazon, який ви можете використовувати для виявлення підозрілих онлайн-платежів, виявлення нових шахрайських облікових записів, запобігання зловживанням пробним періодом і програмою лояльності або покращення виявлення захоплення облікових записів.
Огляд рішення
На наступній діаграмі описано зразок мережі фінансових операцій, яка включає різні типи інформації. Кожна транзакція містить таку інформацію, як ідентифікатори пристроїв, ідентифікатори Wi-Fi, IP-адреси, фізичне місцезнаходження, номери телефонів тощо. Ми представляємо набори даних транзакцій через неоднорідний граф, який містить різні типи вузлів і ребер. Потім проблема виявлення шахрайства обробляється як завдання класифікації вузлів на цьому неоднорідному графі.
Графові нейронні мережі (GNN) показали великі перспективи у вирішенні проблем виявлення шахрайства, перевершуючи популярні методи навчання під наглядом, як-от дерева рішень із градієнтним підсиленням або повністю підключені мережі прямого зв’язку на наборах даних бенчмаркінгу. У типовій установці виявлення шахрайства під час фази навчання модель GNN навчається на наборі позначених транзакцій. Кожна навчальна транзакція має двійкову мітку, яка вказує на те, чи є вона шахрайською. Потім цю навчену модель можна використовувати для виявлення шахрайських транзакцій серед набору непозначених транзакцій під час фази висновку. Існують два різні способи висновку: трансдуктивний висновок проти індуктивного висновку (який ми обговоримо далі в цій публікації).
Моделі на основі GNN, такі як RGCN, можуть використовувати переваги топологічної інформації, поєднуючи як структуру графа, так і характеристики вузлів і ребер, щоб отримати значуще представлення, яке відрізняє зловмисні транзакції від законних. RGCN може ефективно навчитися представляти різні типи вузлів і ребер (відношень) за допомогою вбудовування гетерогенних графів. На попередній діаграмі кожна транзакція моделюється як цільовий вузол, а кілька сутностей, пов’язаних із кожною транзакцією, моделюються як нецільові типи вузлів, наприклад ProductCD
та P_emaildomain
. Цільові вузли мають числові та категоріальні ознаки, тоді як інші типи вузлів не мають ознак. Модель RGCN вивчає вбудовування для кожного типу нецільового вузла. Для вбудовування цільового вузла використовується операція згортки для обчислення його вбудовування з використанням його функцій і вбудовування околиць. У решті публікації ми використовуємо терміни GNN і RGCN як взаємозамінні.
Варто зазначити, що альтернативні стратегії, такі як розгляд нецільових сутностей як функцій і їх одноразове кодування, часто були б нездійсненними через велику потужність цих сутностей. Навпаки, кодування їх як сутностей графа дозволяє моделі GNN використовувати переваги неявної топології у зв’язках сутностей. Наприклад, транзакції, які мають спільний номер телефону з відомими шахрайськими транзакціями, з більшою ймовірністю також будуть шахрайськими.
Представлення графів, що використовується GNN, створює певну складність у їх реалізації. Це особливо вірно для таких додатків, як виявлення шахрайства, у якому представлення графа може бути доповнено під час висновку за допомогою щойно доданих вузлів, які відповідають об’єктам, невідомим під час навчання моделі. Цей сценарій висновку зазвичай називають індуктивний режим. У контрасті, трансдуктивний режим це сценарій, який припускає, що представлення графіка, створене під час навчання моделі, не зміниться під час висновку. Моделі GNN часто оцінюються в трансдуктивному режимі шляхом побудови представлень графів із комбінованого набору навчальних і тестових прикладів, маскуючи тестові мітки під час зворотного поширення. Це гарантує, що представлення графа є статичним, і модель GNN не вимагає виконання операцій для розширення графа новими вузлами під час висновку. На жаль, під час виявлення шахрайських транзакцій у реальних умовах неможливо припустити статичне представлення графіка. Тому при розгортанні моделей GNN для виявлення шахрайства у виробничих середовищах необхідна підтримка індуктивного висновку.
Крім того, виявлення шахрайських транзакцій у режимі реального часу має вирішальне значення, особливо в комерційних випадках, коли є лише один шанс зупинити незаконну діяльність. Наприклад, користувачі-шахраї можуть зловмисно поводитися з обліковим записом лише один раз і більше ніколи не використовувати той самий обліковий запис. Висновок у режимі реального часу на моделях GNN вносить додаткову складність у реалізацію. Часто необхідно реалізувати операції вилучення підграфа для підтримки висновку в реальному часі. Операція вилучення підграфа необхідна для зменшення затримки висновку, коли представлення графа є великим і виконання висновку для всього графа стає непомірно дорогим. Алгоритм для індуктивного висновку в реальному часі з моделлю RGCN працює наступним чином:
- Враховуючи пакет транзакцій і навчену модель RGCN, розширте представлення графа за допомогою сутностей із пакета.
- Призначте векторам вбудовування нових нецільових вузлів середній вектор вбудовування відповідного типу вузла.
- Виділити підграф, індукований k-hop з околиць цільових вузлів із пакету.
- Виконайте висновок на підграфі та поверніть оцінки прогнозу для цільових вузлів пакету.
- Очистіть подання графіка, видаливши щойно додані вузли (цей крок гарантує, що потреба в пам’яті для висновку моделі залишається постійною).
Ключовим внеском цієї публікації є представлення моделі RGCN, що реалізує алгоритм індуктивного висновку в реальному часі. Ви можете розгорнути нашу реалізацію RGCN на кінцевій точці SageMaker як рішення для виявлення шахрайства в реальному часі. Наше рішення не потребує зовнішнього зберігання чи оркестровки графів і значно знижує вартість розгортання моделі RGCN для завдань виявлення шахрайства. Модель також реалізує трансдуктивний режим висновку, що дозволяє нам проводити експерименти для порівняння продуктивності моделі в індуктивному та трансдуктивному режимах. Код моделі та зошити з експериментами доступні з Приклади AWS GitHub repo.
Цей пост ґрунтується на публікації Створіть рішення для виявлення шахрайства в реальному часі на основі GNN за допомогою Amazon SageMaker, Amazon Neptune і Deep Graph Library. У попередньому дописі створено рішення для виявлення шахрайства в реальному часі на основі RGCN за допомогою SageMaker, Амазонка Нептун, А Бібліотека глибоких графіків (DGL). Попереднє рішення використовувало базу даних Neptune як необхідне зовнішнє сховище графіків AWS Lambda для оркестровки для висновків у реальному часі та включав лише експерименти в трансдуктивному режимі.
Модель RGCN, представлена в цій публікації, реалізує всі операції алгоритму індуктивного висновку в реальному часі, використовуючи лише DGL як залежність, і не вимагає зовнішнього зберігання графів або оркестровки для розгортання.
Спочатку ми оцінюємо продуктивність моделі RGCN у трансдуктивному та індуктивному режимах на контрольному наборі даних. Як і очікувалося, продуктивність моделі в індуктивному режимі трохи нижча, ніж у трансдуктивному. Ми також вивчаємо ефект гіперпараметра k на продуктивність моделі. Гіперпараметр k контролює кількість стрибків, виконаних для виділення підграфа на кроці 3 алгоритму виведення в реальному часі. Вищі значення k створить більші підграфи та може призвести до кращої продуктивності логічного висновку за рахунок вищої затримки. Таким чином, ми також проводимо експерименти з визначенням часу, щоб оцінити здійсненність моделі RGCN для програми реального часу.
Набір даних
Ми використовуємо Набір даних про шахрайство IEEE-CIS, той самий набір даних, що використовувався в попередньому після. Набір даних містить понад 590,000 XNUMX записів транзакцій, які мають двійкову мітку шахрайства (the isFraud
колонка). Дані розділені на дві таблиці: транзакції та ідентифікаційні дані. Однак не всі записи транзакцій мають відповідну ідентифікаційну інформацію. З’єднуємо дві таблиці на TransactionID
стовпець, що залишає нам загальну кількість 144,233 XNUMX записів транзакцій. Ми сортуємо таблицю за міткою часу транзакції (the TransactionDT
стовпець) і створіть відсоток 80/20 за часом, створюючи 115,386 28,847 і XNUMX XNUMX транзакцій для навчання та тестування відповідно.
Докладніше про набір даних і про те, як його відформатувати відповідно до вхідних вимог DGL, див Виявлення шахрайства в різнорідних мережах за допомогою Amazon SageMaker і Deep Graph Library.
Побудова графа
Ми використовуємо TransactionID
для створення цільових вузлів. Ми використовуємо наступні стовпці для створення 11 типів нецільових вузлів:
card1
черезcard6
ProductCD
addr1
таaddr2
P_emaildomain
таR_emaildomain
Ми використовуємо 38 стовпців як категоричні характеристики цільових вузлів:
M1
черезM9
DeviceType
таDeviceInfo
id_12
черезid_38
Ми використовуємо 382 стовпці як числові характеристики цільових вузлів:
TransactionAmt
dist1
таdist2
id_01
черезid_11
C1
черезC14
D1
черезD15
V1
черезV339
Наш граф, побудований з тренувальних транзакцій, містить 217,935 2,653,878 вузлів і XNUMX XNUMX XNUMX ребер.
Гіперпараметри
Інші параметри встановлюються відповідно до параметрів, зазначених у попередньому після. Наступний фрагмент ілюструє навчання моделі RGCN у трансдуктивному та індуктивному режимах:
Індуктивний проти трансдуктивного режиму
Ми виконуємо п’ять випробувань для індуктивного та п’ять випробувань для трансдуктивного режиму. Для кожного випробування ми тренуємо модель RGCN і зберігаємо її на диск, отримуючи 10 моделей. Ми оцінюємо кожну модель на тестових прикладах, збільшуючи кількість стрибків (параметр k) використовується для виділення підграфа для висновку, встановлення k до 1, 2 і 3. Ми прогнозуємо на всіх тестових прикладах одночасно та обчислюємо показник ROC AUC для кожного випробування. Наступний графік показує середнє значення та 95% довірчий інтервал показників AUC.
Ми бачимо, що продуктивність в трансдуктивному режимі трохи вища, ніж в індуктивному. для k=2, середні показники AUC для індуктивного та трансдуктивного режимів становлять 0.876 та 0.883 відповідно. Це очікувано, тому що модель RGCN здатна вивчати вбудовування всіх вузлів сутності в трансдуктивному режимі, включно з тими, які є в тестовому наборі. Навпаки, індуктивний режим дозволяє моделі вивчати лише вбудовування вузлів сутності, які присутні в навчальних прикладах, і тому деякі вузли повинні бути заповнені середнім під час висновку. У той же час, падіння продуктивності між трансдуктивним і індуктивним режимами незначне, і навіть в індуктивному режимі модель RGCN досягає хороших показників з AUC 0.876. Ми також спостерігаємо, що продуктивність моделі не покращується для значень k>2. Це означає, що налаштування k=2 виділить достатньо великий підграф під час висновку, що призведе до оптимальної продуктивності. Це спостереження також підтверджено нашим наступним експериментом.
Варто також зазначити, що для трансдуктивного режиму AUC нашої моделі 0.883 вище, ніж відповідний AUC 0.870, повідомлений у попередньому після. Ми використовуємо більше стовпців як числові та категориальні характеристики цільових вузлів, що може пояснити вищий показник AUC. Ми також зауважимо, що експерименти в попередній публікації проводили лише одне випробування.
Висновок на малій партії
Для цього експерименту ми оцінюємо модель RGCN у налаштуваннях малого пакетного висновку. Ми використовуємо п'ять моделей, які були навчені в індуктивному режимі в попередньому експерименті. Ми порівнюємо ефективність цих моделей під час прогнозування в двох налаштуваннях: повний і малий пакетний висновок. Для повного пакетного висновку ми прогнозуємо для всього тестового набору, як це було зроблено в попередньому експерименті. Для невеликих пакетних висновків ми передбачаємо невеликі пакети, розділивши набір тестів на 28 пакетів однакового розміру з приблизно 1,000 транзакціями в кожному пакеті. Ми обчислюємо показники AUC для обох параметрів, використовуючи різні значення k. Наступний графік показує середнє значення та 95% довірчі інтервали для налаштувань логічного висновку повної та малої партії.
Ми спостерігаємо цю продуктивність для невеликих пакетів висновків, коли k=1 менше, ніж для повної партії. Однак продуктивність виведення малих партій відповідає повній партії k>1. Це можна пояснити набагато меншими підграфами, які вилучаються для малих партій. Ми підтверджуємо це, порівнюючи розміри підграфа з розміром усього графа, побудованого з тренувальних транзакцій. Ми порівнюємо розміри графів за кількістю вузлів. для k=1, середній розмір підграфа для невеликих пакетних висновків становить менше 2% від навчального графа. І для повного пакетного висновку, коли k=1, розмір підграфа 22%. Коли k=2, розмір підграфа для малого та повного пакетного висновку становить 54% та 64% відповідно. Нарешті, розміри підграфа для обох налаштувань висновку досягають 100% для k=3. Іншими словами, коли k>1, підграф для невеликої партії стає достатньо великим, що дозволяє висновку малої партії досягти такої ж продуктивності, як і повний пакетний висновок.
Ми також реєструємо затримку передбачення для кожної партії. Ми проводимо наші експерименти на екземплярі ml.r5.12xlarge, але ви можете використовувати менший екземпляр із пам’яттю 64 Гб для проведення тих самих експериментів. Наступний графік показує середнє значення та 95% довірчі інтервали затримок малого пакетного прогнозування для різних значень k.
Затримка включає всі п’ять кроків алгоритму індуктивного висновку в реальному часі. Ми бачимо, що коли k=2, прогнозування 1,030 транзакцій у середньому займає 5.4 секунди, що призводить до пропускної здатності 190 транзакцій на секунду. Це підтверджує, що реалізація моделі RGCN підходить для виявлення шахрайства в реальному часі. Також зауважимо, що поперед після не надав жорстких значень затримки для їх реалізації.
Висновок
Модель RGCN, опублікована разом із цією публікацією, реалізує алгоритм для індуктивного висновку в реальному часі та не вимагає зовнішнього зберігання чи оркестровки графів. Параметр k на кроці 3 алгоритму вказує кількість стрибків, виконаних для виділення підграфа для висновку, і призводить до компромісу між точністю моделі та затримкою прогнозу. Ми використовували Набір даних про шахрайство IEEE-CIS в наших експериментах і емпірично підтверджено, що оптимальне значення параметра k для цього набору даних дорівнює 2, досягаючи оцінки AUC 0.876 і затримки передбачення менше 6 секунд на 1,000 транзакцій.
У цьому дописі наведено покроковий процес навчання та оцінювання моделі RGCN для виявлення шахрайства в реальному часі. Включений клас моделі реалізує методи для всього життєвого циклу моделі, включаючи методи серіалізації та десеріалізації. Це дозволяє використовувати модель для виявлення шахрайства в реальному часі. Ви можете навчити модель як засіб оцінки PyTorch SageMaker, а потім розгорнути її в кінцевій точці SageMaker, використовуючи наступне: ноутбук як шаблон. Кінцева точка здатна передбачати шахрайство на невеликих партіях вихідних транзакцій у режимі реального часу. Ви також можете використовувати Amazon SageMaker Inference Recommender щоб вибрати найкращий тип екземпляра та конфігурацію для кінцевої точки висновку на основі ваших робочих навантажень.
Щоб отримати додаткову інформацію про цю тему та реалізацію, радимо вам дослідити та протестувати наші сценарії самостійно. Ви можете отримати доступ до блокнотів і відповідного коду класу моделі з Приклади AWS GitHub repo.
Про авторів
Дмитро Беспалов є старшим прикладним науковим співробітником Amazon Machine Learning Solutions Lab, де він допомагає клієнтам AWS у різних галузях прискорити впровадження ШІ та хмарних технологій.
Райан Бренд є прикладним науковцем у Amazon Machine Learning Solutions Lab. Він має певний досвід у застосуванні машинного навчання до проблем охорони здоров’я та наук про життя. У вільний час любить читати історію та наукову фантастику.
Яньцзюнь Ці є старшим менеджером із прикладних наук у Amazon Machine Learning Solution Lab. Вона впроваджує інновації та застосовує машинне навчання, щоб допомогти клієнтам AWS прискорити впровадження ШІ та хмари.
- Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
- Платоблокчейн. Web3 Metaverse Intelligence. Розширені знання. Доступ тут.
- джерело: https://aws.amazon.com/blogs/machine-learning/build-a-gnn-based-real-time-fraud-detection-solution-using-the-deep-graph-library-without-using-external-graph-storage/
- 000
- 1
- 10
- 100
- 11
- 2%
- 28
- 7
- 95%
- a
- Здатний
- МЕНЮ
- зловживання
- прискорювати
- доступ
- доступний
- рахунки
- точність
- Досягає
- досягнення
- через
- діяльності
- доданий
- доповнення
- Додатковий
- адреси
- Прийняття
- Перевага
- AI
- алгоритм
- ВСІ
- дозволяє
- альтернатива
- Amazon
- Амазонське машинне навчання
- Амазонка Нептун
- Amazon SageMaker
- серед
- та
- додаток
- застосування
- прикладної
- Застосування
- приблизно
- масив
- призначений
- асоційований
- передбачається
- збільшено
- середній
- AWS
- заснований
- оскільки
- стає
- буття
- еталонний тест
- бенчмаркінг
- КРАЩЕ
- Краще
- між
- марка
- будувати
- Будує
- побудований
- бізнес
- нести
- випадків
- шанс
- зміна
- клас
- класифікація
- хмара
- прийняття хмари
- код
- Колонка
- Колони
- комбінований
- об'єднання
- порівняти
- порівняння
- складність
- обчислення
- Проводити
- довіра
- конфігурація
- підтвердити
- Підтверджено
- підключений
- постійна
- будівництво
- будівництво
- містить
- контрастність
- внесок
- управління
- Відповідний
- Коштувати
- створювати
- створює
- вирішальне значення
- Клієнти
- дані
- Database
- набори даних
- рішення
- глибокий
- дефолт
- певний
- Залежність
- розгортання
- розгортання
- розгортання
- деталі
- Виявлення
- пристрій
- dgl
- DID
- різний
- обговорювати
- Ні
- Падіння
- під час
- кожен
- електронної комерції
- ефект
- фактично
- дозволяє
- дозволяє
- заохочувати
- Кінцева точка
- гарантує
- Весь
- юридичні особи
- суб'єкта
- середовищах
- особливо
- оцінювати
- оцінюється
- оцінки
- Навіть
- Кожен
- приклад
- Приклади
- очікуваний
- дорогий
- досвід
- експеримент
- Пояснювати
- дослідити
- продовжити
- зовнішній
- витяг
- риси
- Художня література
- в кінці кінців
- фінансовий
- фінансові послуги
- Перший
- після
- слідує
- формат
- шахрайство
- виявлення шахрайства
- шахрайський
- Безкоштовна
- від
- Повний
- повністю
- азартні ігри
- породжувати
- отримати
- GitHub
- добре
- графік
- великий
- Жорсткий
- охорона здоров'я
- допомога
- допомагає
- вище
- історія
- Як
- How To
- Однак
- HTML
- HTTPS
- ідентифікувати
- Особистість
- незаконний
- здійснювати
- реалізація
- реалізації
- implements
- імпорт
- важливо
- удосконалювати
- in
- В інших
- включені
- includes
- У тому числі
- зростаючий
- промисловості
- інформація
- вхід
- екземпляр
- введені
- Вводить
- IP
- IP-адреси
- IT
- приєднатися
- ключ
- відомий
- lab
- етикетка
- етикетки
- великий
- більше
- Затримка
- вести
- УЧИТЬСЯ
- вивчення
- бібліотека
- життя
- Life Sciences
- Життєвий цикл
- Ймовірно
- загрузка
- місць
- шукати
- Лояльність
- програма лояльності
- машина
- навчання за допомогою машини
- менеджер
- матч
- значущим
- Медіа
- пам'ять
- методика
- ML
- режим
- модель
- Моделі
- Режими
- більше
- необхідно
- Нептун
- мережу
- мереж
- нейронні мережі
- Нові
- наступний
- вузол
- вузли
- номер
- номера
- спостерігати
- отримання
- ONE
- онлайн
- онлайн-платежів
- операція
- операції
- оптимальний
- оркестровка
- Інше
- випереджаючий
- власний
- панди
- параметр
- параметри
- Пройшов
- платежі
- відсоток
- Виконувати
- продуктивність
- виконанні
- фаза
- телефон
- фізичний
- plato
- Інформація про дані Платона
- PlatoData
- популярний
- пошта
- передбачати
- прогнозування
- прогноз
- представити
- подарунки
- запобігати
- попередній
- попередній
- Проблема
- проблеми
- процес
- виробляти
- Production
- програма
- обіцянку
- забезпечувати
- за умови
- піторх
- Qi
- Сировина
- досягати
- читання
- реальний
- Реальний світ
- реального часу
- запис
- облік
- зменшити
- знижує
- зниження
- називають
- пов'язаний
- відносини
- Відносини
- випущений
- видалення
- Повідомляється
- представляти
- подання
- вимагати
- вимагається
- вимога
- ті
- REST
- в результаті
- результати
- повертати
- прогін
- Райан
- мудрець
- Висновок SageMaker
- то ж
- зберегти
- сценарій
- наука
- Наукова фантастика
- НАУКИ
- вчений
- scripts
- другий
- seconds
- старший
- обслуговування
- Послуги
- комплект
- установка
- налаштування
- установка
- кілька
- Поділитись
- показаний
- Шоу
- значний
- істотно
- один
- Розмір
- розміри
- невеликий
- менше
- So
- соціальна
- соціальні медіа
- рішення
- Рішення
- деякі
- конкретний
- швидкість
- розкол
- Розколи
- Крок
- заходи
- зупинка
- зберігання
- стратегії
- структура
- Вивчення
- підграф
- підграфи
- такі
- костюм
- підходящий
- підтримка
- підозрілі
- таблиця
- Приймати
- поглинання
- приймає
- Мета
- Завдання
- завдання
- шаблон
- terms
- тест
- Тестування
- Команда
- Графік
- їх
- тим самим
- отже
- через
- пропускна здатність
- час
- відмітка часу
- синхронізація
- до
- занадто
- тема
- Усього:
- поїзд
- навчений
- Навчання
- угода
- Transactions
- лікування
- Дерева
- суд
- випробування
- правда
- Типи
- типовий
- us
- використання
- користувачі
- зазвичай
- підтверджено
- значення
- Цінності
- через
- який
- в той час як
- Wi-Fi
- волі
- без
- слова
- вартість
- б
- Ти
- вашу
- зефірнет