এক্সটার্নাল গ্রাফ স্টোরেজ ব্যবহার না করে ডিপ গ্রাফ লাইব্রেরি ব্যবহার করে একটি GNN-ভিত্তিক রিয়েল-টাইম জালিয়াতি সনাক্তকরণ সমাধান তৈরি করুন

প্লেটো দ্বারা প্রকাশিত

অনুসরণকারী: 0

জালিয়াতি সনাক্তকরণ একটি গুরুত্বপূর্ণ সমস্যা যা আর্থিক পরিষেবা, সামাজিক মিডিয়া, ইকমার্স, গেমিং এবং অন্যান্য শিল্পে অ্যাপ্লিকেশন রয়েছে৷ এই পোস্টটি রিলেশনাল গ্রাফ কনভোলিউশনাল নেটওয়ার্ক (RGCN) মডেল ব্যবহার করে একটি জালিয়াতি সনাক্তকরণ সমাধানের একটি বাস্তবায়ন উপস্থাপন করে যে সম্ভাব্যতা ভবিষ্যদ্বাণী করতে যে একটি লেনদেন ট্রান্সডাক্টিভ এবং ইনডাকটিভ ইনফরেন্স উভয় মোডের মাধ্যমে প্রতারণামূলক। আপনি একটি আমাদের বাস্তবায়ন স্থাপন করতে পারেন আমাজন সেজমেকার বাহ্যিক গ্রাফ স্টোরেজ বা অর্কেস্ট্রেশনের প্রয়োজন ছাড়াই একটি রিয়েল-টাইম জালিয়াতি সনাক্তকরণ সমাধান হিসাবে এন্ডপয়েন্ট, যার ফলে মডেলের স্থাপনার খরচ উল্লেখযোগ্যভাবে হ্রাস পায়।

জালিয়াতি সনাক্তকরণের জন্য একটি সম্পূর্ণ-পরিচালিত AWS AI পরিষেবা খুঁজছেন এমন ব্যবসাগুলিও ব্যবহার করতে পারে আমাজন জালিয়াতি সনাক্তকারী, যা আপনি সন্দেহজনক অনলাইন পেমেন্ট শনাক্ত করতে, নতুন অ্যাকাউন্ট জালিয়াতি সনাক্ত করতে, ট্রায়াল এবং আনুগত্য প্রোগ্রামের অপব্যবহার প্রতিরোধ করতে বা অ্যাকাউন্ট টেকওভার সনাক্তকরণ উন্নত করতে ব্যবহার করতে পারেন৷

সমাধান ওভারভিউ

নিম্নলিখিত চিত্রটি একটি নমুনা আর্থিক লেনদেন নেটওয়ার্ক বর্ণনা করে যা বিভিন্ন ধরনের তথ্য অন্তর্ভুক্ত করে। প্রতিটি লেনদেনে ডিভাইস শনাক্তকারী, ওয়াই-ফাই আইডি, আইপি ঠিকানা, প্রকৃত অবস্থান, টেলিফোন নম্বর এবং আরও অনেক কিছুর মতো তথ্য থাকে। আমরা লেনদেন ডেটাসেটগুলিকে একটি ভিন্নধর্মী গ্রাফের মাধ্যমে উপস্থাপন করি যাতে বিভিন্ন ধরণের নোড এবং প্রান্ত রয়েছে৷ তারপর, জালিয়াতি সনাক্তকরণ সমস্যাটি এই ভিন্নধর্মী গ্রাফে একটি নোড শ্রেণীবিভাগের কাজ হিসাবে পরিচালনা করা হয়।

RGCN গ্রাফ নির্মাণ চিত্র

গ্রাফ নিউরাল নেটওয়ার্ক (GNNs) জালিয়াতি সনাক্তকরণ সমস্যাগুলি মোকাবেলায় দুর্দান্ত প্রতিশ্রুতি দেখিয়েছে, জনপ্রিয় তত্ত্বাবধানে শেখার পদ্ধতিগুলিকে ছাড়িয়ে গেছে যেমন গ্রেডিয়েন্ট-বুস্টেড ডিসিশন ট্রি বা বেঞ্চমার্কিং ডেটাসেটে সম্পূর্ণভাবে সংযুক্ত ফিড-ফরোয়ার্ড নেটওয়ার্কগুলি। একটি সাধারণ জালিয়াতি সনাক্তকরণ সেটআপে, প্রশিক্ষণ পর্বের সময়, একটি GNN মডেলকে লেবেলযুক্ত লেনদেনের একটি সেটে প্রশিক্ষণ দেওয়া হয়। প্রতিটি প্রশিক্ষণ লেনদেন একটি বাইনারি লেবেল দিয়ে প্রদান করা হয় যদি এটি জালিয়াতি হয়। এই প্রশিক্ষিত মডেলটি তখন অনুমান পর্বের সময় লেবেলবিহীন লেনদেনের একটি সেটের মধ্যে প্রতারণামূলক লেনদেন সনাক্ত করতে ব্যবহার করা যেতে পারে। অনুমানের দুটি ভিন্ন পদ্ধতি বিদ্যমান: ট্রান্সডাক্টিভ ইনফরেন্স বনাম ইনডাকটিভ ইনফরেন্স (যা আমরা এই পোস্টে আরও পরে আলোচনা করব)।

GNN-ভিত্তিক মডেলগুলি, যেমন RGCN, টপোলজিকাল তথ্যের সুবিধা নিতে পারে, গ্রাফ গঠন এবং নোড এবং প্রান্তের বৈশিষ্ট্য উভয়কে একত্রিত করে একটি অর্থপূর্ণ উপস্থাপনা শিখতে পারে যা বৈধ লেনদেন থেকে ক্ষতিকারক লেনদেনকে আলাদা করে। ভিন্নধর্মী গ্রাফ এম্বেডিংয়ের মাধ্যমে RGCN কার্যকরভাবে বিভিন্ন ধরনের নোড এবং প্রান্ত (সম্পর্ক) উপস্থাপন করতে শিখতে পারে। পূর্ববর্তী চিত্রে, প্রতিটি লেনদেন একটি টার্গেট নোড হিসাবে মডেল করা হচ্ছে, এবং প্রতিটি লেনদেনের সাথে যুক্ত বেশ কয়েকটি সত্তা নন-টার্গেট নোড প্রকার হিসাবে মডেল করা হয়েছে, যেমন ProductCD এবং P_emaildomain. টার্গেট নোডগুলিতে সংখ্যাসূচক এবং শ্রেণীবদ্ধ বৈশিষ্ট্যগুলি বরাদ্দ করা হয়েছে, যেখানে অন্যান্য নোডের ধরন বৈশিষ্ট্যহীন। RGCN মডেল প্রতিটি অ-টার্গেট নোড টাইপের জন্য একটি এম্বেডিং শেখে। একটি টার্গেট নোডের এমবেডিংয়ের জন্য, এর বৈশিষ্ট্য এবং আশেপাশের এম্বেডিংগুলি ব্যবহার করে এটির এমবেডিং গণনা করার জন্য একটি কনভোলুশনাল অপারেশন ব্যবহার করা হয়। পোস্টের বাকি অংশে, আমরা GNN এবং RGCN শব্দগুলিকে বিনিময়যোগ্যভাবে ব্যবহার করি।

এটি লক্ষণীয় যে বিকল্প কৌশলগুলি, যেমন লক্ষ্যবহির্ভূত সত্তাগুলিকে বৈশিষ্ট্য হিসাবে বিবেচনা করা এবং সেগুলিকে এক-হট-এনকোড করা, প্রায়শই এই সত্ত্বাগুলির বৃহৎ প্রধান বৈশিষ্ট্যগুলির কারণে অকার্যকর হবে। বিপরীতভাবে, গ্রাফ সত্তা হিসাবে তাদের এনকোড করা GNN মডেলকে সত্তা সম্পর্কের অন্তর্নিহিত টপোলজির সুবিধা নিতে সক্ষম করে। উদাহরণস্বরূপ, পরিচিত প্রতারণামূলক লেনদেনের সাথে একটি ফোন নম্বর ভাগ করে নেওয়া লেনদেনগুলিও জালিয়াতি হওয়ার সম্ভাবনা বেশি।

GNN দ্বারা নিযুক্ত গ্রাফ উপস্থাপনা তাদের বাস্তবায়নে কিছু জটিলতা তৈরি করে। এটি বিশেষত জালিয়াতি সনাক্তকরণের মতো অ্যাপ্লিকেশনগুলির জন্য সত্য, যেখানে মডেল প্রশিক্ষণের সময় পরিচিত নয় এমন সত্ত্বাগুলির সাথে সঙ্গতিপূর্ণ নতুন যোগ করা নোডগুলির সাথে অনুমানের সময় গ্রাফ উপস্থাপনা বর্ধিত হতে পারে। এই অনুমান দৃশ্যকল্প সাধারণত হিসাবে উল্লেখ করা হয় প্রবর্তক মোড। বিপরীতে, ট্রান্সডাক্টিভ মোড একটি দৃশ্যকল্প যা অনুমান করে যে মডেল প্রশিক্ষণের সময় নির্মিত গ্রাফ উপস্থাপনা অনুমানের সময় পরিবর্তন হবে না। জিএনএন মডেলগুলিকে প্রায়শই ট্রান্সডাক্টিভ মোডে মূল্যায়ন করা হয় প্রশিক্ষণ এবং পরীক্ষার উদাহরণগুলির একটি সম্মিলিত সেট থেকে গ্রাফ উপস্থাপনা তৈরি করে, যখন ব্যাক-প্রচারের সময় পরীক্ষার লেবেলগুলি মাস্ক করা হয়। এটি নিশ্চিত করে যে গ্রাফ উপস্থাপনাটি স্থির, এবং সেখানে GNN মডেলের অনুমানের সময় নতুন নোড সহ গ্রাফটি প্রসারিত করার জন্য অপারেশন বাস্তবায়নের প্রয়োজন হয় না। দুর্ভাগ্যবশত, বাস্তব-বিশ্বের সেটিংয়ে প্রতারণামূলক লেনদেন শনাক্ত করার সময় স্ট্যাটিক গ্রাফ উপস্থাপনা অনুমান করা যায় না। অতএব, উৎপাদন পরিবেশে জালিয়াতি সনাক্তকরণের জন্য GNN মডেল স্থাপন করার সময় প্রবর্তক অনুমানের জন্য সমর্থন প্রয়োজন।

উপরন্তু, রিয়েল টাইমে প্রতারণামূলক লেনদেন সনাক্ত করা অত্যন্ত গুরুত্বপূর্ণ, বিশেষ করে ব্যবসায়িক ক্ষেত্রে যেখানে অবৈধ কার্যকলাপ বন্ধ করার একমাত্র সুযোগ রয়েছে। উদাহরণস্বরূপ, প্রতারক ব্যবহারকারীরা একটি অ্যাকাউন্টের সাথে শুধুমাত্র একবার দূষিত আচরণ করতে পারে এবং একই অ্যাকাউন্টটি আর কখনও ব্যবহার করতে পারে না। GNN মডেলের রিয়েল-টাইম ইনফারেন্স বাস্তবায়নে অতিরিক্ত জটিলতার পরিচয় দেয়। রিয়েল-টাইম ইনফারেন্সকে সমর্থন করার জন্য সাবগ্রাফ নিষ্কাশন ক্রিয়াকলাপগুলি প্রয়োগ করা প্রায়শই প্রয়োজনীয়। যখন গ্রাফ উপস্থাপনা বড় হয় এবং সমগ্র গ্রাফে অনুমান সম্পাদন করা নিষেধমূলকভাবে ব্যয়বহুল হয়ে ওঠে তখন অনুমানের লেটেন্সি কমাতে সাবগ্রাফ এক্সট্রাকশন অপারেশনের প্রয়োজন হয়। একটি RGCN মডেলের সাথে রিয়েল-টাইম ইন্ডাকটিভ ইনফারেন্সের জন্য একটি অ্যালগরিদম নিম্নরূপ চলে:

লেনদেনের একটি ব্যাচ এবং একটি প্রশিক্ষিত RGCN মডেল দেওয়া, ব্যাচ থেকে সত্তার সাথে গ্রাফ উপস্থাপনা প্রসারিত করুন।
নতুন অ-টার্গেট নোডের এমবেডিং ভেক্টরকে তাদের নিজ নিজ নোড প্রকারের গড় এমবেডিং ভেক্টর দিয়ে বরাদ্দ করুন।
দ্বারা প্ররোচিত একটি সাবগ্রাফ বের করুন kব্যাচ থেকে লক্ষ্য নোডের আউট-আউট-হপ.
সাবগ্রাফে অনুমান সম্পাদন করুন এবং ব্যাচের লক্ষ্য নোডের জন্য পূর্বাভাস স্কোরগুলি ফেরত দিন।
নতুন যোগ করা নোডগুলি সরিয়ে গ্রাফ উপস্থাপনা পরিষ্কার করুন (এই পদক্ষেপটি নিশ্চিত করে যে মডেল অনুমানের জন্য মেমরির প্রয়োজনীয়তা স্থির থাকে)।

এই পোস্টের মূল অবদান হল রিয়েল-টাইম ইন্ডাকটিভ ইনফারেন্স অ্যালগরিদম বাস্তবায়ন করে একটি RGCN মডেল উপস্থাপন করা। আপনি একটি রিয়েল-টাইম জালিয়াতি সনাক্তকরণ সমাধান হিসাবে একটি SageMaker এন্ডপয়েন্টে আমাদের RGCN বাস্তবায়ন স্থাপন করতে পারেন। আমাদের সমাধানের জন্য বাহ্যিক গ্রাফ স্টোরেজ বা অর্কেস্ট্রেশনের প্রয়োজন হয় না, এবং জালিয়াতি সনাক্তকরণের কাজগুলির জন্য RGCN মডেলের স্থাপনা খরচ উল্লেখযোগ্যভাবে হ্রাস করে। মডেলটি ট্রান্সডাক্টিভ ইনফারেন্স মোডও প্রয়োগ করে, যা আমাদেরকে ইন্ডাকটিভ এবং ট্রান্সডাক্টিভ মোডে মডেলের পারফরম্যান্সের তুলনা করার জন্য পরীক্ষা চালাতে সক্ষম করে। পরীক্ষা সহ মডেল কোড এবং নোটবুক থেকে অ্যাক্সেস করা যেতে পারে AWS উদাহরণ GitHub রেপো.

এই পোস্ট পোস্টের উপর তৈরি Amazon SageMaker, Amazon Neptune, এবং Deep Graph Library ব্যবহার করে একটি GNN-ভিত্তিক রিয়েল-টাইম জালিয়াতি সনাক্তকরণ সমাধান তৈরি করুন. আগের পোস্টটি SageMaker ব্যবহার করে একটি RGCN-ভিত্তিক রিয়েল-টাইম জালিয়াতি সনাক্তকরণ সমাধান তৈরি করেছে, আমাজন নেপচুন, এবং গভীর গ্রাফ লাইব্রেরি (DGL)। পূর্ববর্তী সমাধান একটি নেপচুন ডাটাবেস ব্যবহার করে বহিরাগত গ্রাফ স্টোরেজ হিসাবে, প্রয়োজনীয় এডাব্লুএস ল্যাম্বদা রিয়েল-টাইম অনুমানের জন্য অর্কেস্ট্রেশনের জন্য, এবং শুধুমাত্র ট্রান্সডাক্টিভ মোডে পরীক্ষাগুলি অন্তর্ভুক্ত করেছে।

এই পোস্টে প্রবর্তিত RGCN মডেলটি রিয়েল-টাইম ইনডাকটিভ ইনফারেন্স অ্যালগরিদমের সমস্ত ক্রিয়াকলাপকে শুধুমাত্র ডিজিএলকে নির্ভরতা হিসাবে ব্যবহার করে প্রয়োগ করে এবং স্থাপনার জন্য বাহ্যিক গ্রাফ স্টোরেজ বা অর্কেস্ট্রেশনের প্রয়োজন হয় না।

আমরা প্রথমে একটি বেঞ্চমার্ক ডেটাসেটে ট্রান্সডাক্টিভ এবং ইনডাকটিভ মোডে RGCN মডেলের কর্মক্ষমতা মূল্যায়ন করি। প্রত্যাশিত হিসাবে, ইন্ডাকটিভ মোডে মডেলের কর্মক্ষমতা ট্রান্সডাক্টিভ মোডের তুলনায় সামান্য কম। আমরা হাইপারপ্যারামিটারের প্রভাবও অধ্যয়ন করি k মডেল কর্মক্ষমতা উপর. হাইপারপ্যারামিটার k রিয়েল-টাইম ইনফারেন্স অ্যালগরিদমের ধাপ 3-এ একটি সাবগ্রাফ বের করার জন্য সঞ্চালিত হপের সংখ্যা নিয়ন্ত্রণ করে। এর উচ্চতর মান k বৃহত্তর সাবগ্রাফ তৈরি করবে এবং উচ্চতর বিলম্বের খরচে আরও ভাল অনুমান কার্যক্ষমতার দিকে নিয়ে যেতে পারে। যেমন, আমরা রিয়েল-টাইম অ্যাপ্লিকেশনের জন্য RGCN মডেলের সম্ভাব্যতা মূল্যায়ন করার জন্য সময় পরীক্ষাও পরিচালনা করি।

ডেটা সেটটি

আমরা ব্যবহার করি IEEE-CIS জালিয়াতি ডেটাসেট, একই ডেটাসেট যা পূর্বে ব্যবহৃত হয়েছিল পোস্ট. ডেটাসেটটিতে 590,000টিরও বেশি লেনদেনের রেকর্ড রয়েছে যার একটি বাইনারি জালিয়াতির লেবেল রয়েছে ( isFraud কলাম)। ডেটা দুটি টেবিলে বিভক্ত: লেনদেন এবং পরিচয়। যাইহোক, সমস্ত লেনদেনের রেকর্ডে সংশ্লিষ্ট পরিচয় তথ্য থাকে না। আমরা দুই টেবিলে যোগদান TransactionID কলাম, যা আমাদের মোট 144,233টি লেনদেনের রেকর্ড রেখে দেয়। আমরা লেনদেন টাইমস্ট্যাম্প দ্বারা টেবিল বাছাই ( TransactionDT কলাম) এবং যথাক্রমে প্রশিক্ষণ এবং পরীক্ষার জন্য 80 এবং 20 লেনদেন তৈরি করে সময়ের দ্বারা একটি 115,386/28,847 শতাংশ বিভাজন তৈরি করুন।

ডেটাসেট এবং ডিজিএল-এর ইনপুট প্রয়োজনীয়তা অনুসারে কীভাবে এটি ফর্ম্যাট করা যায় সে সম্পর্কে আরও বিশদ বিবরণের জন্য, দেখুন অ্যামাজন সেজমেকার এবং ডিপ গ্রাফ লাইব্রেরি ব্যবহার করে ভিন্ন ভিন্ন নেটওয়ার্কে জালিয়াতি সনাক্ত করা.

গ্রাফ নির্মাণ

আমরা ব্যবহার করি TransactionID লক্ষ্য নোড তৈরি করতে কলাম। আমরা 11 ধরনের অ-টার্গেট নোড তৈরি করতে নিম্নলিখিত কলামগুলি ব্যবহার করি:

card1 দ্বারা card6
ProductCD
addr1 এবং addr2
P_emaildomain এবং R_emaildomain

আমরা টার্গেট নোডের শ্রেণীবদ্ধ বৈশিষ্ট্য হিসাবে 38টি কলাম ব্যবহার করি:

M1 দ্বারা M9
DeviceType এবং DeviceInfo
id_12 দ্বারা id_38

আমরা লক্ষ্য নোডের সংখ্যাসূচক বৈশিষ্ট্য হিসাবে 382 কলাম ব্যবহার করি:

TransactionAmt
dist1 এবং dist2
id_01 দ্বারা id_11
C1 দ্বারা C14
D1 দ্বারা D15
V1 দ্বারা V339

প্রশিক্ষণ লেনদেন থেকে নির্মিত আমাদের গ্রাফটিতে 217,935টি নোড এবং 2,653,878টি প্রান্ত রয়েছে।

হাইপারপ্যারামিটার

অন্যান্য পরামিতিগুলি পূর্বে রিপোর্ট করা পরামিতিগুলির সাথে মেলে সেট করা হয়েছে৷ পোস্ট. নিচের স্নিপেট RGCN মডেলকে ট্রান্সডাক্টিভ এবং ইনডাকটিভ মোডে প্রশিক্ষণের চিত্র তুলে ধরে:

import pandas as pd
from fgnn.fraud_detector import FraudRGCN # overload default hyperparameters defined in FraudRGCN constructor
params = { "embedding_size": 64, "n_layers": 2, "n_epochs": 150, "n_hidden": 16, "dropout": 0.2, "weight_decay": 5e-05, "lr": 0.01
} # load train and test splits
df_train = pd.read_parquet('./data/train.parquet')
df_test = pd.read_parquet('./data/test.parquet') # train RGCN model in inductive mode
fd_ind = FraudRGCN()
fd_ind.train_fg(df_train, params=params) # train RGCN model in transductive mode
fd_trs = FraudRGCN()
# create boolean array to identify test examples
test_mask = [False]*len(df_train) + [True]*len(df_test)
# concatenate train and test examaples
df_combined = pd.concat([df_train, df_test], ignore_index=True) # test_mask must be passed in transductive mode, # so test labels are masked-out during back-propagation
fd.train_fg(df_combined, params=params, test_mask=test_mask) # predict on both models extracting subgraph with 2 k-hops
fraud_proba_ind = fd_ind.predict(df_test, k=2)
fraud_proba_trs = fd_trs.predict(df_test, k=2)

ইন্ডাকটিভ বনাম ট্রান্সডাক্টিভ মোড

আমরা ইন্ডাকটিভের জন্য পাঁচটি ট্রায়াল এবং ট্রান্সডাক্টিভ মোডের জন্য পাঁচটি ট্রায়াল করি। প্রতিটি ট্রায়ালের জন্য, আমরা একটি RGCN মডেলকে প্রশিক্ষণ দিই এবং 10টি মডেল পেয়ে ডিস্কে সংরক্ষণ করি। হপগুলির সংখ্যা বৃদ্ধি করার সময় আমরা প্রতিটি মডেলকে পরীক্ষার উদাহরণে মূল্যায়ন করি (প্যারামিটার k) অনুমান, সেটিং এর জন্য একটি সাবগ্রাফ বের করতে ব্যবহৃত হয় k 1, 2, এবং 3 পর্যন্ত। আমরা একবারে সমস্ত পরীক্ষার উদাহরণের উপর ভবিষ্যদ্বাণী করি এবং প্রতিটি পরীক্ষার জন্য ROC AUC স্কোর গণনা করি। নিম্নলিখিত প্লটটি AUC স্কোরের গড় এবং 95% আত্মবিশ্বাসের ব্যবধান দেখায়।

ইন্ডাকটিভ বনাম ট্রান্সডাক্টিভ মডেল পারফরম্যান্স

আমরা দেখতে পাচ্ছি যে ট্রান্সডাক্টিভ মোডে পারফরম্যান্স ইন্ডাকটিভ মোডের তুলনায় সামান্য বেশি। জন্য k=2, মানে ইন্ডাকটিভ এবং ট্রান্সডাক্টিভ মোডের জন্য AUC স্কোর যথাক্রমে 0.876 এবং 0.883। এটি প্রত্যাশিত কারণ RGCN মডেল পরীক্ষা সেট সহ ট্রান্সডাক্টিভ মোডে সমস্ত সত্তা নোডের এমবেডিং শিখতে সক্ষম। বিপরীতে, ইন্ডাকটিভ মোড শুধুমাত্র মডেলটিকে সত্তা নোডগুলির এমবেডিং শিখতে দেয় যা প্রশিক্ষণের উদাহরণগুলিতে উপস্থিত থাকে এবং তাই কিছু নোডকে অনুমানের সময় গড়-পূর্ণ হতে হবে। একই সময়ে, ট্রান্সডাক্টিভ এবং ইনডাকটিভ মোডের মধ্যে কর্মক্ষমতা হ্রাস তাৎপর্যপূর্ণ নয়, এমনকি ইন্ডাকটিভ মোডেও, RGCN মডেল 0.876 এর AUC সহ ভাল কার্যক্ষমতা অর্জন করে। আমরা এটাও লক্ষ্য করি যে মডেলের কর্মক্ষমতা মানগুলির জন্য উন্নত হয় না k>2। এটি সেই সেটিং বোঝায় k=2 অনুমানের সময় একটি যথেষ্ট বড় সাবগ্রাফ বের করবে, যার ফলে সর্বোত্তম কার্যক্ষমতা হবে। এই পর্যবেক্ষণ আমাদের পরবর্তী পরীক্ষা দ্বারা নিশ্চিত করা হয়.

এটিও লক্ষণীয় যে, ট্রান্সডাক্টিভ মোডের জন্য, আমাদের মডেলের 0.883 এর AUC পূর্ববর্তী প্রতিবেদনে 0.870 এর অনুরূপ AUC থেকে বেশি পোস্ট. আমরা লক্ষ্য নোডের সংখ্যাসূচক এবং শ্রেণীগত বৈশিষ্ট্য হিসাবে আরও কলাম ব্যবহার করি, যা উচ্চতর AUC স্কোর ব্যাখ্যা করতে পারে। আমরা আরও লক্ষ্য করি যে পূর্ববর্তী পোস্টে পরীক্ষাগুলি শুধুমাত্র একটি একক ট্রায়াল সঞ্চালিত করেছিল।

একটি ছোট ব্যাচ উপর অনুমান

এই পরীক্ষার জন্য, আমরা RGCN মডেলটিকে একটি ছোট ব্যাচ ইনফারেন্স সেটিংয়ে মূল্যায়ন করি। আমরা পাঁচটি মডেল ব্যবহার করি যা পূর্ববর্তী পরীক্ষায় ইন্ডাকটিভ মোডে প্রশিক্ষিত ছিল। দুটি সেটিংসে ভবিষ্যদ্বাণী করার সময় আমরা এই মডেলগুলির কর্মক্ষমতা তুলনা করি: সম্পূর্ণ এবং ছোট ব্যাচের অনুমান। সম্পূর্ণ ব্যাচের অনুমানের জন্য, আমরা পুরো পরীক্ষার সেটে ভবিষ্যদ্বাণী করি, যেমনটি পূর্ববর্তী পরীক্ষায় করা হয়েছিল। ছোট ব্যাচের অনুমানের জন্য, আমরা প্রতিটি ব্যাচে প্রায় 28টি লেনদেনের সাথে সমান আকারের 1,000টি ব্যাচে পরীক্ষা সেটকে ভাগ করে ছোট ব্যাচে ভবিষ্যদ্বাণী করি। আমরা এর বিভিন্ন মান ব্যবহার করে উভয় সেটিংসের জন্য AUC স্কোর গণনা করি k. নিম্নলিখিত প্লটটি সম্পূর্ণ এবং ছোট ব্যাচের অনুমান সেটিংসের জন্য গড় এবং 95% আত্মবিশ্বাসের ব্যবধান দেখায়।

ফুল-ব্যাচ বনাম ছোট-ব্যাচের জন্য ইন্ডাকটিভ মডেল পারফরম্যান্স

আমরা ছোট ব্যাচ অনুমান জন্য যে কর্মক্ষমতা পর্যবেক্ষণ যখন k=1 সম্পূর্ণ ব্যাচের তুলনায় কম। যাইহোক, ছোট ব্যাচ ইনফারেন্স কর্মক্ষমতা সম্পূর্ণ ব্যাচ মেলে যখন k>1। ছোট ব্যাচের জন্য অনেক ছোট সাবগ্রাফ বের করার জন্য এটি দায়ী করা যেতে পারে। আমরা প্রশিক্ষণ লেনদেন থেকে নির্মিত সমগ্র গ্রাফের আকারের সাথে সাবগ্রাফ আকারের তুলনা করে এটি নিশ্চিত করি। আমরা নোডের সংখ্যার পরিপ্রেক্ষিতে গ্রাফ আকারের তুলনা করি। জন্য k=1, ছোট ব্যাচ অনুমানের জন্য গড় সাবগ্রাফ আকার প্রশিক্ষণ গ্রাফের 2% এর কম। এবং সম্পূর্ণ ব্যাচ অনুমানের জন্য যখন k=1, সাবগ্রাফের আকার হল 22%। কখন k=2, ছোট এবং সম্পূর্ণ ব্যাচের অনুমানের জন্য সাবগ্রাফের আকার যথাক্রমে 54% এবং 64%। অবশেষে, উভয় অনুমান সেটিংসের জন্য সাবগ্রাফের আকার 100% পর্যন্ত পৌঁছায় k=3। অন্য কথায়, যখন k>1, একটি ছোট ব্যাচের সাবগ্রাফ যথেষ্ট বড় হয়ে যায়, ছোট ব্যাচের অনুমানকে সম্পূর্ণ ব্যাচের অনুমানের মতো একই কার্যকারিতা পেতে সক্ষম করে।

আমরা প্রতিটি ব্যাচের জন্য পূর্বাভাস লেটেন্সি রেকর্ড করি। আমরা একটি ml.r5.12x বড় উদাহরণে আমাদের পরীক্ষাগুলি সম্পাদন করি, কিন্তু আপনি একই পরীক্ষা চালানোর জন্য 64 G মেমরির সাথে একটি ছোট উদাহরণ ব্যবহার করতে পারেন। নিম্নলিখিত প্লট বিভিন্ন মানের জন্য ছোট ব্যাচের ভবিষ্যদ্বাণী বিলম্বের গড় এবং 95% আত্মবিশ্বাসের ব্যবধান দেখায় k.

ইন্ডাকটিভ ছোট-ব্যাচের জন্য টাইমিং ফলাফল

লেটেন্সিতে রিয়েল-টাইম ইনডাকটিভ ইনফারেন্স অ্যালগরিদমের সমস্ত পাঁচটি ধাপ অন্তর্ভুক্ত থাকে। আমরা যে দেখতে যখন k=2, 1,030টি লেনদেনের পূর্বাভাস দিতে গড়ে 5.4 সেকেন্ড সময় লাগে, যার ফলে প্রতি সেকেন্ডে 190টি লেনদেনের থ্রুপুট হয়। এটি নিশ্চিত করে যে RGCN মডেল বাস্তবায়ন রিয়েল-টাইম জালিয়াতি সনাক্তকরণের জন্য উপযুক্ত। আমরা আরো উল্লেখ্য যে আগের পোস্ট তাদের বাস্তবায়নের জন্য হার্ড লেটেন্সি মান প্রদান করেনি।

উপসংহার

এই পোস্টের সাথে প্রকাশিত RGCN মডেলটি রিয়েল-টাইম ইন্ডাকটিভ ইনফারেন্সের জন্য অ্যালগরিদম প্রয়োগ করে এবং এর জন্য বাহ্যিক গ্রাফ স্টোরেজ বা অর্কেস্ট্রেশনের প্রয়োজন হয় না। প্যারামিটার k অ্যালগরিদমের ধাপ 3-এ অনুমানের জন্য সাবগ্রাফ বের করার জন্য সঞ্চালিত হপগুলির সংখ্যা নির্দিষ্ট করে এবং এর ফলে মডেলের নির্ভুলতা এবং ভবিষ্যদ্বাণীর লেটেন্সির মধ্যে ট্রেড-অফ হয়। আমরা ব্যবহার করি IEEE-CIS জালিয়াতি ডেটাসেট আমাদের পরীক্ষায়, এবং পরীক্ষামূলকভাবে যাচাই করা হয়েছে যে প্যারামিটারের সর্বোত্তম মান k এই ডেটাসেটের জন্য 2, 0.876 এর একটি AUC স্কোর এবং প্রতি 6 লেনদেনে 1,000 সেকেন্ডের কম পূর্বাভাস লেটেন্সি অর্জন করে।

এই পোস্টটি রিয়েল-টাইম জালিয়াতি সনাক্তকরণের জন্য একটি RGCN মডেল প্রশিক্ষণ এবং মূল্যায়নের জন্য একটি ধাপে ধাপে প্রক্রিয়া প্রদান করেছে। অন্তর্ভুক্ত মডেল ক্লাস সমগ্র মডেল জীবনচক্রের জন্য পদ্ধতি প্রয়োগ করে, যার মধ্যে সিরিয়ালাইজেশন এবং ডিসিরিয়ালাইজেশন পদ্ধতি রয়েছে। এটি মডেলটিকে রিয়েল-টাইম জালিয়াতি সনাক্তকরণের জন্য ব্যবহার করতে সক্ষম করে৷ আপনি মডেলটিকে PyTorch SageMaker এস্টিমেটর হিসাবে প্রশিক্ষণ দিতে পারেন এবং তারপরে নিম্নলিখিতগুলি ব্যবহার করে এটিকে একটি SageMaker এন্ডপয়েন্টে স্থাপন করতে পারেন নোটবই একটি টেমপ্লেট হিসাবে। এন্ডপয়েন্ট রিয়েল টাইমে কাঁচা লেনদেনের ছোট ব্যাচের জালিয়াতির পূর্বাভাস দিতে সক্ষম। আপনিও ব্যবহার করতে পারেন আমাজন সেজমেকার ইনফারেন্স সুপারিশকারী আপনার কাজের চাপের উপর ভিত্তি করে ইনফরেন্স এন্ডপয়েন্টের জন্য সেরা উদাহরণের ধরন এবং কনফিগারেশন নির্বাচন করতে।

এই বিষয় এবং বাস্তবায়ন সম্পর্কে আরও তথ্যের জন্য, আমরা আপনাকে আমাদের স্ক্রিপ্টগুলি অন্বেষণ এবং পরীক্ষা করতে উত্সাহিত করি৷ আপনি থেকে নোটবুক এবং সম্পর্কিত মডেল ক্লাস কোড অ্যাক্সেস করতে পারেন AWS উদাহরণ GitHub রেপো.

লেখক সম্পর্কে

দিমিত্রি বেসপালভ তিনি আমাজন মেশিন লার্নিং সলিউশন ল্যাবের একজন সিনিয়র ফলিত বিজ্ঞানী, যেখানে তিনি বিভিন্ন শিল্পের AWS গ্রাহকদের তাদের AI এবং ক্লাউড গ্রহণকে ত্বরান্বিত করতে সহায়তা করেন।

রায়ান ব্র্যান্ড অ্যামাজন মেশিন লার্নিং সলিউশন ল্যাবের একজন ফলিত বিজ্ঞানী। স্বাস্থ্যসেবা এবং জীবন বিজ্ঞানের সমস্যাগুলিতে মেশিন লার্নিং প্রয়োগ করার ক্ষেত্রে তার নির্দিষ্ট অভিজ্ঞতা রয়েছে। তার অবসর সময়ে, তিনি ইতিহাস এবং কল্পবিজ্ঞান পড়তে উপভোগ করেন।

ইয়ানজুন কুই অ্যামাজন মেশিন লার্নিং সলিউশন ল্যাবের একজন সিনিয়র অ্যাপ্লাইড সায়েন্স ম্যানেজার। তিনি AWS গ্রাহকদের তাদের AI এবং ক্লাউড গ্রহণের গতি বাড়াতে সাহায্য করার জন্য মেশিন লার্নিং উদ্ভাবন এবং প্রয়োগ করেন।

এসইও চালিত বিষয়বস্তু এবং পিআর বিতরণ। আজই পরিবর্ধিত পান।
প্লেটোব্লকচেন। Web3 মেটাভার্স ইন্টেলিজেন্স। জ্ঞান প্রসারিত. এখানে প্রবেশ করুন.
উত্স: https://aws.amazon.com/blogs/machine-learning/build-a-gnn-based-real-time-fraud-detection-solution-using-the-deep-graph-library-without-using-external-graph-storage/

সময় স্ট্যাম্প: ফেব্রুয়ারী 28, 2023

সময় স্ট্যাম্প: জানুয়ারী 9, 2023

প্লেটো দ্বারা প্রকাশিত

উদ্ভাবন দিবসে 20 বছরের বেশি AI/ML উদযাপন করুন

Amazon SageMaker-এ সিরিয়াল ইনফারেন্সের জন্য ডিজাইন প্যাটার্ন

টকডেস্ক সিএক্স ক্লাউড যোগাযোগ কেন্দ্রে অ্যামাজন লেক্সের সাথে শক্তিশালী স্ব-পরিষেবা অভিজ্ঞতা তৈরি করুন

Amazon Lex এবং Uneeq এর ডিজিটাল মানব প্ল্যাটফর্মকে একীভূত করুন

আমাদের সম্পর্কে

উল্লম্ব অনুসন্ধান এবং আই

প্ল্যাটফর্ম

যোগাযোগ রেখো

হিসাব