Hur generativ AI och syntetisk data kan användas för att träna bedrägerimodeller och förbättra upptäcktsfrekvensen

Hur generativ AI och syntetisk data kan användas för att träna bedrägerimodeller och förbättra upptäcktsfrekvensen

Hur generativ AI och syntetisk data kan användas för att träna bedrägerimodeller och förbättra upptäcktshastigheten PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

De möjliga tillämpningarna av generativ AI har undersökts av många de senaste veckorna. Ett stort outforskat ämne är dock hur bedrägerianalytiker kan använda data som skapats av generativ AI för att utöka och förbättra sina bedrägeriupptäckningsstrategier och konsekvenserna av att använda syntetisk data för att träna bedrägerimodeller och förbättra upptäcktsfrekvensen.

Det är välkänt inom datavetenskapliga kretsar att kvaliteten på data som presenteras för en maskininlärningsmodell gör eller bryter resultatet, och detta gäller särskilt för upptäckt av bedrägerier. Många maskininlärningsverktyg för att upptäcka bedrägerier förlitar sig på en stabil bedrägerisignal – vanligtvis lägre än 0.5 % av data, vilket gör det svårt för alla modeller att träna effektivt. I en idealisk datavetenskapsövning skulle data som används för att träna en AI-modell innehålla en 50/50-blandning av bedrägeri/icke-bedrägeriprover, men detta är svårt att uppnå och orealistiskt för många. Även om det finns många metoder för att hantera denna (klass)obalans, såsom klustring, filtrering eller översampling, kompenserar de inte helt för en extrem dataobalans mellan äkta och bedrägliga poster.

Generativ AI, tillämpningen av transformatorns djupa neurala nätverk, som OpenAIs ChatGPT, är designad för att producera datasekvenser som utdata och måste tränas med hjälp av sekventiell data, som meningar och betalningshistorik. Detta skiljer sig från andra AI- och ML-metoder, som producerar enstaka "klassificeringar" (bedrägeri/inte bedrägeri) baserat på presenterade indata och träningsdata, som matas in i en modell i valfri ordning. Omvänt kan en generativ AI-modells produktion fortsätta på obestämd tid, medan klassificeringsmetoder tenderar att ge enstaka resultat.

Som ett resultat är generativ AI ett idealiskt verktyg för att syntetiskt generera data baserat på faktiska data, och utvecklingen av denna teknik kommer att ha kritiska tillämpningar inom bedrägeriupptäcktsdomänen, där, som tidigare framhållits, mängden genomförbara bedrägeriprover är begränsade och svårt för en ML att lära sig effektivt från. 

Med generativ AI kan en modell använda befintliga mönster och generera nya, syntetiska prover som ser ut som "riktiga" bedrägeriprover, vilket förstärker bedrägerisignalen för ML-verktyg för att upptäcka bedrägerier.

En typisk bedrägerisignal är en kombination av äkta och bedräglig data. Den äkta informationen kommer (vanligtvis) först i händelseförloppet och innehåller den faktiska beteendeaktiviteten hos en kortinnehavare, till exempel med bedrägliga betalningar blandade när ett kort/annan betalningsmetod äventyras. Generativ AI kan producera liknande betalningssekvenser, simulera en bedrägeriattack på ett kort, vilket förstärker träningsdata för att hjälpa ML-verktygen för att upptäcka bedrägerier och hjälpa dem att prestera bättre.

En av de största kritikerna mot OpenAI:s ChatGPT är att dagens modeller kan producera felaktiga eller "hallucinogena" utdata – ett fel som många inom betalnings- och bedrägeriområdet med rätta är oroade över, eftersom de inte vill att deras offentliga verktyg, som kundtjänstchatbotar presenterar falsk eller påhittad information. Vi kan dock dra nytta av denna "brist" för att generera syntetiska bedrägeridata, eftersom artificiell variation i syntetiserad produktion kan generera unika bedrägerimönster, vilket stärker bedrägeriupptäcktsprestandan hos slutmodellen för bedrägeriförsvar.

Som många vet förbättrar inte upprepade exempel på samma bedrägerisignal effektivt upptäckten, eftersom de flesta ML-metoder kräver väldigt få instanser av var och en att lära sig av. Variationen i genererade utdata från den generativa modellen ger robusthet till slutbedrägerimodellen, vilket gör det möjligt för den att upptäcka bedrägerimönster som finns i data och upptäcka liknande attacker som kan missas med en traditionell process.

Den här typen av möjligheter kan vara något alarmerande för kortinnehavare och bedrägerihanterare – som gör rätt när de frågar hur en bedrägerimodell utbildad på påhittade data kan hjälpa till att förbättra upptäckten av bedrägerier och vilka fördelarna med att göra det. De kanske inte inser att innan någon modell används på livebetalningar, genomgår den rigorösa utvärderingsövningar för att säkerställa förväntad prestanda. Om modellen inte uppfyller de förväntade höga kraven kasseras den och ersättningsmodeller tränas tills en lämplig modell hittas. Detta är en standardprocess och en som följs med alla producerade ML-modeller, eftersom även modeller tränade på autentiska data kan sluta leverera undermåliga resultat vid utvärderingsstadiet.

Generativ AI är ett fascinerande verktyg med många tillämpningar inom olika branscher, men dagens iterationer, hur smarta de än är, har sina gränser. Lyckligtvis är de egenskaper som ses som allvarliga problem för vissa sektorer väsentliga egenskaper för andra, men strikt reglering och styrning krävs. Framtida användning av generativ AI kräver en fullständig genomgång av hur modeller som tränas på delvis genererad data används, och styrprocesser måste stärkas i enlighet därmed för att säkerställa att verktygens nödvändiga beteende och prestanda ständigt uppfylls.

Tidsstämpel:

Mer från Fintextra