Створіть рішення для виявлення шахрайства в режимі реального часу на основі GNN, використовуючи бібліотеку Deep Graph без використання зовнішнього сховища Graph

Перевидано Платоном

читають: 0

Виявлення шахрайства є важливою проблемою, яка має застосування у фінансових послугах, соціальних мережах, електронній комерції, іграх та інших галузях. У цьому дописі представлено реалізацію рішення для виявлення шахрайства з використанням моделі згорткової мережі реляційних графів (RGCN) для прогнозування ймовірності того, що транзакція є шахрайською, як через трансдуктивний, так і індуктивний режими висновку. Ви можете розгорнути нашу реалізацію на Amazon SageMaker кінцева точка як рішення для виявлення шахрайства в режимі реального часу, не вимагаючи зовнішнього зберігання графів або оркестровки, що значно знижує вартість розгортання моделі.

Компанії, яким потрібен повністю керований сервіс AWS AI для виявлення шахрайства, також можуть використовувати Детектор шахрайства Amazon, який ви можете використовувати для виявлення підозрілих онлайн-платежів, виявлення нових шахрайських облікових записів, запобігання зловживанням пробним періодом і програмою лояльності або покращення виявлення захоплення облікових записів.

Огляд рішення

На наступній діаграмі описано зразок мережі фінансових операцій, яка включає різні типи інформації. Кожна транзакція містить таку інформацію, як ідентифікатори пристроїв, ідентифікатори Wi-Fi, IP-адреси, фізичне місцезнаходження, номери телефонів тощо. Ми представляємо набори даних транзакцій через неоднорідний граф, який містить різні типи вузлів і ребер. Потім проблема виявлення шахрайства обробляється як завдання класифікації вузлів на цьому неоднорідному графі.

Діаграма побудови графа RGCN

Графові нейронні мережі (GNN) показали великі перспективи у вирішенні проблем виявлення шахрайства, перевершуючи популярні методи навчання під наглядом, як-от дерева рішень із градієнтним підсиленням або повністю підключені мережі прямого зв’язку на наборах даних бенчмаркінгу. У типовій установці виявлення шахрайства під час фази навчання модель GNN навчається на наборі позначених транзакцій. Кожна навчальна транзакція має двійкову мітку, яка вказує на те, чи є вона шахрайською. Потім цю навчену модель можна використовувати для виявлення шахрайських транзакцій серед набору непозначених транзакцій під час фази висновку. Існують два різні способи висновку: трансдуктивний висновок проти індуктивного висновку (який ми обговоримо далі в цій публікації).

Моделі на основі GNN, такі як RGCN, можуть використовувати переваги топологічної інформації, поєднуючи як структуру графа, так і характеристики вузлів і ребер, щоб отримати значуще представлення, яке відрізняє зловмисні транзакції від законних. RGCN може ефективно навчитися представляти різні типи вузлів і ребер (відношень) за допомогою вбудовування гетерогенних графів. На попередній діаграмі кожна транзакція моделюється як цільовий вузол, а кілька сутностей, пов’язаних із кожною транзакцією, моделюються як нецільові типи вузлів, наприклад ProductCD та P_emaildomain. Цільові вузли мають числові та категоріальні ознаки, тоді як інші типи вузлів не мають ознак. Модель RGCN вивчає вбудовування для кожного типу нецільового вузла. Для вбудовування цільового вузла використовується операція згортки для обчислення його вбудовування з використанням його функцій і вбудовування околиць. У решті публікації ми використовуємо терміни GNN і RGCN як взаємозамінні.

Варто зазначити, що альтернативні стратегії, такі як розгляд нецільових сутностей як функцій і їх одноразове кодування, часто були б нездійсненними через велику потужність цих сутностей. Навпаки, кодування їх як сутностей графа дозволяє моделі GNN використовувати переваги неявної топології у зв’язках сутностей. Наприклад, транзакції, які мають спільний номер телефону з відомими шахрайськими транзакціями, з більшою ймовірністю також будуть шахрайськими.

Представлення графів, що використовується GNN, створює певну складність у їх реалізації. Це особливо вірно для таких додатків, як виявлення шахрайства, у якому представлення графа може бути доповнено під час висновку за допомогою щойно доданих вузлів, які відповідають об’єктам, невідомим під час навчання моделі. Цей сценарій висновку зазвичай називають індуктивний режим. У контрасті, трансдуктивний режим це сценарій, який припускає, що представлення графіка, створене під час навчання моделі, не зміниться під час висновку. Моделі GNN часто оцінюються в трансдуктивному режимі шляхом побудови представлень графів із комбінованого набору навчальних і тестових прикладів, маскуючи тестові мітки під час зворотного поширення. Це гарантує, що представлення графа є статичним, і модель GNN не вимагає виконання операцій для розширення графа новими вузлами під час висновку. На жаль, під час виявлення шахрайських транзакцій у реальних умовах неможливо припустити статичне представлення графіка. Тому при розгортанні моделей GNN для виявлення шахрайства у виробничих середовищах необхідна підтримка індуктивного висновку.

Крім того, виявлення шахрайських транзакцій у режимі реального часу має вирішальне значення, особливо в комерційних випадках, коли є лише один шанс зупинити незаконну діяльність. Наприклад, користувачі-шахраї можуть зловмисно поводитися з обліковим записом лише один раз і більше ніколи не використовувати той самий обліковий запис. Висновок у режимі реального часу на моделях GNN вносить додаткову складність у реалізацію. Часто необхідно реалізувати операції вилучення підграфа для підтримки висновку в реальному часі. Операція вилучення підграфа необхідна для зменшення затримки висновку, коли представлення графа є великим і виконання висновку для всього графа стає непомірно дорогим. Алгоритм для індуктивного висновку в реальному часі з моделлю RGCN працює наступним чином:

Враховуючи пакет транзакцій і навчену модель RGCN, розширте представлення графа за допомогою сутностей із пакета.
Призначте векторам вбудовування нових нецільових вузлів середній вектор вбудовування відповідного типу вузла.
Виділити підграф, індукований k-hop з околиць цільових вузлів із пакету.
Виконайте висновок на підграфі та поверніть оцінки прогнозу для цільових вузлів пакету.
Очистіть подання графіка, видаливши щойно додані вузли (цей крок гарантує, що потреба в пам’яті для висновку моделі залишається постійною).

Ключовим внеском цієї публікації є представлення моделі RGCN, що реалізує алгоритм індуктивного висновку в реальному часі. Ви можете розгорнути нашу реалізацію RGCN на кінцевій точці SageMaker як рішення для виявлення шахрайства в реальному часі. Наше рішення не потребує зовнішнього зберігання чи оркестровки графів і значно знижує вартість розгортання моделі RGCN для завдань виявлення шахрайства. Модель також реалізує трансдуктивний режим висновку, що дозволяє нам проводити експерименти для порівняння продуктивності моделі в індуктивному та трансдуктивному режимах. Код моделі та зошити з експериментами доступні з Приклади AWS GitHub repo.

Цей пост ґрунтується на публікації Створіть рішення для виявлення шахрайства в реальному часі на основі GNN за допомогою Amazon SageMaker, Amazon Neptune і Deep Graph Library. У попередньому дописі створено рішення для виявлення шахрайства в реальному часі на основі RGCN за допомогою SageMaker, Амазонка Нептун, А Бібліотека глибоких графіків (DGL). Попереднє рішення використовувало базу даних Neptune як необхідне зовнішнє сховище графіків AWS Lambda для оркестровки для висновків у реальному часі та включав лише експерименти в трансдуктивному режимі.

Модель RGCN, представлена в цій публікації, реалізує всі операції алгоритму індуктивного висновку в реальному часі, використовуючи лише DGL як залежність, і не вимагає зовнішнього зберігання графів або оркестровки для розгортання.

Спочатку ми оцінюємо продуктивність моделі RGCN у трансдуктивному та індуктивному режимах на контрольному наборі даних. Як і очікувалося, продуктивність моделі в індуктивному режимі трохи нижча, ніж у трансдуктивному. Ми також вивчаємо ефект гіперпараметра k на продуктивність моделі. Гіперпараметр k контролює кількість стрибків, виконаних для виділення підграфа на кроці 3 алгоритму виведення в реальному часі. Вищі значення k створить більші підграфи та може призвести до кращої продуктивності логічного висновку за рахунок вищої затримки. Таким чином, ми також проводимо експерименти з визначенням часу, щоб оцінити здійсненність моделі RGCN для програми реального часу.

Набір даних

Ми використовуємо Набір даних про шахрайство IEEE-CIS, той самий набір даних, що використовувався в попередньому після. Набір даних містить понад 590,000 XNUMX записів транзакцій, які мають двійкову мітку шахрайства (the isFraud колонка). Дані розділені на дві таблиці: транзакції та ідентифікаційні дані. Однак не всі записи транзакцій мають відповідну ідентифікаційну інформацію. З’єднуємо дві таблиці на TransactionID стовпець, що залишає нам загальну кількість 144,233 XNUMX записів транзакцій. Ми сортуємо таблицю за міткою часу транзакції (the TransactionDT стовпець) і створіть відсоток 80/20 за часом, створюючи 115,386 28,847 і XNUMX XNUMX транзакцій для навчання та тестування відповідно.

Докладніше про набір даних і про те, як його відформатувати відповідно до вхідних вимог DGL, див Виявлення шахрайства в різнорідних мережах за допомогою Amazon SageMaker і Deep Graph Library.

Побудова графа

Ми використовуємо TransactionID для створення цільових вузлів. Ми використовуємо наступні стовпці для створення 11 типів нецільових вузлів:

card1 через card6
ProductCD
addr1 та addr2
P_emaildomain та R_emaildomain

Ми використовуємо 38 стовпців як категоричні характеристики цільових вузлів:

M1 через M9
DeviceType та DeviceInfo
id_12 через id_38

Ми використовуємо 382 стовпці як числові характеристики цільових вузлів:

TransactionAmt
dist1 та dist2
id_01 через id_11
C1 через C14
D1 через D15
V1 через V339

Наш граф, побудований з тренувальних транзакцій, містить 217,935 2,653,878 вузлів і XNUMX XNUMX XNUMX ребер.

Гіперпараметри

Інші параметри встановлюються відповідно до параметрів, зазначених у попередньому після. Наступний фрагмент ілюструє навчання моделі RGCN у трансдуктивному та індуктивному режимах:

import pandas as pd
from fgnn.fraud_detector import FraudRGCN # overload default hyperparameters defined in FraudRGCN constructor
params = { "embedding_size": 64, "n_layers": 2, "n_epochs": 150, "n_hidden": 16, "dropout": 0.2, "weight_decay": 5e-05, "lr": 0.01
} # load train and test splits
df_train = pd.read_parquet('./data/train.parquet')
df_test = pd.read_parquet('./data/test.parquet') # train RGCN model in inductive mode
fd_ind = FraudRGCN()
fd_ind.train_fg(df_train, params=params) # train RGCN model in transductive mode
fd_trs = FraudRGCN()
# create boolean array to identify test examples
test_mask = [False]*len(df_train) + [True]*len(df_test)
# concatenate train and test examaples
df_combined = pd.concat([df_train, df_test], ignore_index=True) # test_mask must be passed in transductive mode, # so test labels are masked-out during back-propagation
fd.train_fg(df_combined, params=params, test_mask=test_mask) # predict on both models extracting subgraph with 2 k-hops
fraud_proba_ind = fd_ind.predict(df_test, k=2)
fraud_proba_trs = fd_trs.predict(df_test, k=2)

Індуктивний проти трансдуктивного режиму

Ми виконуємо п’ять випробувань для індуктивного та п’ять випробувань для трансдуктивного режиму. Для кожного випробування ми тренуємо модель RGCN і зберігаємо її на диск, отримуючи 10 моделей. Ми оцінюємо кожну модель на тестових прикладах, збільшуючи кількість стрибків (параметр k) використовується для виділення підграфа для висновку, встановлення k до 1, 2 і 3. Ми прогнозуємо на всіх тестових прикладах одночасно та обчислюємо показник ROC AUC для кожного випробування. Наступний графік показує середнє значення та 95% довірчий інтервал показників AUC.

Ефективність індуктивної та трансдуктивної моделі

Ми бачимо, що продуктивність в трансдуктивному режимі трохи вища, ніж в індуктивному. для k=2, середні показники AUC для індуктивного та трансдуктивного режимів становлять 0.876 та 0.883 відповідно. Це очікувано, тому що модель RGCN здатна вивчати вбудовування всіх вузлів сутності в трансдуктивному режимі, включно з тими, які є в тестовому наборі. Навпаки, індуктивний режим дозволяє моделі вивчати лише вбудовування вузлів сутності, які присутні в навчальних прикладах, і тому деякі вузли повинні бути заповнені середнім під час висновку. У той же час, падіння продуктивності між трансдуктивним і індуктивним режимами незначне, і навіть в індуктивному режимі модель RGCN досягає хороших показників з AUC 0.876. Ми також спостерігаємо, що продуктивність моделі не покращується для значень k>2. Це означає, що налаштування k=2 виділить достатньо великий підграф під час висновку, що призведе до оптимальної продуктивності. Це спостереження також підтверджено нашим наступним експериментом.

Варто також зазначити, що для трансдуктивного режиму AUC нашої моделі 0.883 вище, ніж відповідний AUC 0.870, повідомлений у попередньому після. Ми використовуємо більше стовпців як числові та категориальні характеристики цільових вузлів, що може пояснити вищий показник AUC. Ми також зауважимо, що експерименти в попередній публікації проводили лише одне випробування.

Висновок на малій партії

Для цього експерименту ми оцінюємо модель RGCN у налаштуваннях малого пакетного висновку. Ми використовуємо п'ять моделей, які були навчені в індуктивному режимі в попередньому експерименті. Ми порівнюємо ефективність цих моделей під час прогнозування в двох налаштуваннях: повний і малий пакетний висновок. Для повного пакетного висновку ми прогнозуємо для всього тестового набору, як це було зроблено в попередньому експерименті. Для невеликих пакетних висновків ми передбачаємо невеликі пакети, розділивши набір тестів на 28 пакетів однакового розміру з приблизно 1,000 транзакціями в кожному пакеті. Ми обчислюємо показники AUC для обох параметрів, використовуючи різні значення k. Наступний графік показує середнє значення та 95% довірчі інтервали для налаштувань логічного висновку повної та малої партії.

Продуктивність індуктивної моделі для повної та малої партії

Ми спостерігаємо цю продуктивність для невеликих пакетів висновків, коли k=1 менше, ніж для повної партії. Однак продуктивність виведення малих партій відповідає повній партії k>1. Це можна пояснити набагато меншими підграфами, які вилучаються для малих партій. Ми підтверджуємо це, порівнюючи розміри підграфа з розміром усього графа, побудованого з тренувальних транзакцій. Ми порівнюємо розміри графів за кількістю вузлів. для k=1, середній розмір підграфа для невеликих пакетних висновків становить менше 2% від навчального графа. І для повного пакетного висновку, коли k=1, розмір підграфа 22%. Коли k=2, розмір підграфа для малого та повного пакетного висновку становить 54% та 64% відповідно. Нарешті, розміри підграфа для обох налаштувань висновку досягають 100% для k=3. Іншими словами, коли k>1, підграф для невеликої партії стає достатньо великим, що дозволяє висновку малої партії досягти такої ж продуктивності, як і повний пакетний висновок.

Ми також реєструємо затримку передбачення для кожної партії. Ми проводимо наші експерименти на екземплярі ml.r5.12xlarge, але ви можете використовувати менший екземпляр із пам’яттю 64 Гб для проведення тих самих експериментів. Наступний графік показує середнє значення та 95% довірчі інтервали затримок малого пакетного прогнозування для різних значень k.

Результати хронометражу для індукційних дрібносерійних

Затримка включає всі п’ять кроків алгоритму індуктивного висновку в реальному часі. Ми бачимо, що коли k=2, прогнозування 1,030 транзакцій у середньому займає 5.4 секунди, що призводить до пропускної здатності 190 транзакцій на секунду. Це підтверджує, що реалізація моделі RGCN підходить для виявлення шахрайства в реальному часі. Також зауважимо, що поперед після не надав жорстких значень затримки для їх реалізації.

Висновок

Модель RGCN, опублікована разом із цією публікацією, реалізує алгоритм для індуктивного висновку в реальному часі та не вимагає зовнішнього зберігання чи оркестровки графів. Параметр k на кроці 3 алгоритму вказує кількість стрибків, виконаних для виділення підграфа для висновку, і призводить до компромісу між точністю моделі та затримкою прогнозу. Ми використовували Набір даних про шахрайство IEEE-CIS в наших експериментах і емпірично підтверджено, що оптимальне значення параметра k для цього набору даних дорівнює 2, досягаючи оцінки AUC 0.876 і затримки передбачення менше 6 секунд на 1,000 транзакцій.

У цьому дописі наведено покроковий процес навчання та оцінювання моделі RGCN для виявлення шахрайства в реальному часі. Включений клас моделі реалізує методи для всього життєвого циклу моделі, включаючи методи серіалізації та десеріалізації. Це дозволяє використовувати модель для виявлення шахрайства в реальному часі. Ви можете навчити модель як засіб оцінки PyTorch SageMaker, а потім розгорнути її в кінцевій точці SageMaker, використовуючи наступне: ноутбук як шаблон. Кінцева точка здатна передбачати шахрайство на невеликих партіях вихідних транзакцій у режимі реального часу. Ви також можете використовувати Amazon SageMaker Inference Recommender щоб вибрати найкращий тип екземпляра та конфігурацію для кінцевої точки висновку на основі ваших робочих навантажень.

Щоб отримати додаткову інформацію про цю тему та реалізацію, радимо вам дослідити та протестувати наші сценарії самостійно. Ви можете отримати доступ до блокнотів і відповідного коду класу моделі з Приклади AWS GitHub repo.

Про авторів

Дмитро Беспалов є старшим прикладним науковим співробітником Amazon Machine Learning Solutions Lab, де він допомагає клієнтам AWS у різних галузях прискорити впровадження ШІ та хмарних технологій.

Райан Бренд є прикладним науковцем у Amazon Machine Learning Solutions Lab. Він має певний досвід у застосуванні машинного навчання до проблем охорони здоров’я та наук про життя. У вільний час любить читати історію та наукову фантастику.

Яньцзюнь Ці є старшим менеджером із прикладних наук у Amazon Machine Learning Solution Lab. Вона впроваджує інновації та застосовує машинне навчання, щоб допомогти клієнтам AWS прискорити впровадження ШІ та хмари.

Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
Платоблокчейн. Web3 Metaverse Intelligence. Розширені знання. Доступ тут.
джерело: https://aws.amazon.com/blogs/machine-learning/build-a-gnn-based-real-time-fraud-detection-solution-using-the-deep-graph-library-without-using-external-graph-storage/

Часова мітка: 28 Лютого, 2023

Часова мітка: Січень 9, 2023

Перевидано Платоном

Святкуйте понад 20 років ШІ/ML на Innovation Day

Шаблони проектування для послідовного висновку на Amazon SageMaker

Створюйте потужні можливості самообслуговування за допомогою Amazon Lex у хмарному контакт-центрі Talkdesk CX

Інтегруйте Amazon Lex і цифрову людську платформу Uneeq

Про нас

Вертикальний пошук & Ai

платформа

Залишайтеся на зв'язку

рахунки