From Text To Dream Job: Building An NLP-based Job Recommender At Talent.com With Amazon SageMaker

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

فالونگ: 0

یہ پوسٹ اناتولی خومینکو، مشین لرننگ انجینئر، اور Talent.com کے چیف ٹیکنالوجی آفیسر عبدنور بیزوہ کے مشترکہ مصنف ہیں۔

2011 میں قائم ٹیلنٹ ڈاٹ کام۔ دنیا کے سب سے بڑے روزگار کے ذرائع میں سے ایک ہے۔ کمپنی اپنے کلائنٹس کی طرف سے ادا شدہ ملازمت کی فہرستوں کو عوامی ملازمت کی فہرستوں کے ساتھ ایک واحد تلاش کے قابل پلیٹ فارم میں یکجا کرتی ہے۔ 30 سے زیادہ ممالک میں 75 ملین سے زیادہ ملازمتوں کی فہرست کے ساتھ، Talent.com بہت سی زبانوں، صنعتوں اور تقسیم کے چینلز میں ملازمتیں فراہم کرتا ہے۔ نتیجہ ایک ایسا پلیٹ فارم ہے جو لاکھوں ملازمت کے متلاشیوں کو دستیاب ملازمتوں سے میل کھاتا ہے۔

Talent.com کا مشن ویب پر دستیاب تمام ملازمتوں کو مرکزی بنانا ہے تاکہ ملازمت کے متلاشیوں کو بہترین تلاش کا تجربہ فراہم کرتے ہوئے ان کی بہترین میچ تلاش کرنے میں مدد کی جا سکے۔ اس کا فوکس مطابقت پر ہے، کیونکہ تجویز کردہ ملازمتوں کی ترتیب انتہائی اہم ہے تاکہ وہ ملازمتیں جو صارفین کے مفادات کے لیے موزوں ہوں۔ Talent.com کے مماثل الگورتھم کی کارکردگی کاروبار کی کامیابی اور ان کے صارفین کے تجربے میں کلیدی معاون ہے۔ فراہم کردہ معلومات کی محدود مقدار کی بنیاد پر، عام طور پر چند کلیدی الفاظ اور مقام پر مشتمل یہ پیشین گوئی کرنا مشکل ہے کہ کون سی ملازمتیں ملازمت کے متلاشی کے لیے موزوں ہیں۔

اس مشن کو دیکھتے ہوئے، Talent.com اور AWS نے جدید ترین نیچرل لینگویج پروسیسنگ (NLP) اور ڈیپ لرننگ ماڈل ٹریننگ تکنیک کا استعمال کرتے ہوئے ملازمت کی سفارش کا انجن بنانے کے لیے افواج میں شمولیت اختیار کی۔ ایمیزون سیج میکر ملازمت کے متلاشیوں کے لیے ایک بے مثال تجربہ فراہم کرنے کے لیے۔ یہ پوسٹ ملازمت کی سفارش کے نظام کو ڈیزائن کرنے کے لیے ہمارے مشترکہ نقطہ نظر کو ظاہر کرتی ہے، بشمول فیچر انجینئرنگ، ڈیپ لرننگ ماڈل آرکیٹیکچر ڈیزائن، ہائپر پیرامیٹر آپٹیمائزیشن، اور ماڈل کی تشخیص جو کہ ملازمت کے متلاشیوں اور آجروں دونوں کے لیے ہمارے حل کی وشوسنییتا اور تاثیر کو یقینی بناتی ہے۔ یہ نظام AWS اور Talent.com کے اشتراک سے وقف شدہ اپلائیڈ مشین لرننگ (ML) سائنسدانوں، ML انجینئرز، اور مضامین کے ماہرین کی ایک ٹیم نے تیار کیا ہے۔

سفارشی نظام نے گزشتہ XGBoost پر مبنی حل کے مقابلے آن لائن A/B ٹیسٹنگ میں کلک تھرو ریٹ (CTR) میں 8.6 فیصد اضافہ کیا ہے، جس سے Talent.com کے لاکھوں صارفین کو بہتر ملازمتوں سے منسلک کرنے میں مدد ملی ہے۔

حل کا جائزہ

نظام کا ایک جائزہ مندرجہ ذیل تصویر میں دکھایا گیا ہے۔ سسٹم صارف کی تلاش کے استفسار کو ان پٹ کے طور پر لیتا ہے اور مناسبیت کے مطابق ملازمتوں کی درجہ بندی کی فہرست کو آؤٹ پٹ کرتا ہے۔ ملازمت کی مطابقت کو کلک کے امکان سے ماپا جاتا ہے (مزید معلومات کے لیے نوکری کے متلاشی کا کلک کرنے کا امکان)۔

From text to dream job: Building an NLP-based job recommender at Talent.com with Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

نظام میں چار اہم اجزاء شامل ہیں:

ماڈل فن تعمیر - اس نوکری کی سفارش کے انجن کا بنیادی حصہ ایک گہری سیکھنے پر مبنی ٹرپل ٹاور پوائنٹ وائز ماڈل ہے، جس میں ایک استفسار انکوڈر شامل ہے جو صارف کی تلاش کے سوالات کو انکوڈ کرتا ہے، ایک دستاویز کا انکوڈر جو ملازمت کی تفصیل کو انکوڈ کرتا ہے، اور ایک تعامل انکوڈر جو صارف کی سابقہ ملازمت پر کارروائی کرتا ہے۔ تعامل کی خصوصیات تینوں ٹاورز کے آؤٹ پٹس کو یکجا کیا جاتا ہے اور کام کے کلک کے امکانات کی پیشین گوئی کرنے کے لیے درجہ بندی کے سر سے گزر جاتا ہے۔ اس ماڈل کو تلاش کے سوالات، جاب کی تفصیلات اور Talent.com کے تاریخی صارف کے تعامل کے ڈیٹا پر تربیت دے کر، یہ نظام ملازمت کے متلاشیوں کو ذاتی نوعیت کی اور انتہائی متعلقہ ملازمت کی سفارشات فراہم کرتا ہے۔
فیچر انجینئرنگ - ہم ان پٹ ڈیٹا سے قیمتی معلومات نکالنے اور اسے ماڈل کے متعلقہ ٹاورز میں فیڈ کرنے کے لیے فیچر انجینئرنگ کے دو سیٹ انجام دیتے ہیں۔ دو سیٹ معیاری فیچر انجینئرنگ اور فائن ٹیونڈ Sentence-BERT (SBERT) ایمبیڈنگز ہیں۔ ہم معیاری انجینئرڈ فیچرز کو انٹریکشن انکوڈر میں ان پٹ کے طور پر استعمال کرتے ہیں اور SBERT سے اخذ کردہ ایمبیڈنگ کو استفسار انکوڈر اور دستاویز انکوڈر میں فیڈ کرتے ہیں۔
ماڈل کی اصلاح اور ٹیوننگ - ہم سیج میکر کے ساتھ سسٹم کو تربیت دینے، جانچنے اور اس کی تعیناتی کے لیے جدید ترین تربیتی طریقوں کا استعمال کرتے ہیں۔ اس میں SageMaker Distributed Data Parallel (DDP) ٹریننگ، SageMaker Automatic Model Tuning (AMT)، سیکھنے کی شرح کا شیڈولنگ، اور ماڈل کی کارکردگی اور ٹریننگ کی رفتار کو بہتر بنانے کے لیے جلد روکنا شامل ہے۔ ڈی ڈی پی ٹریننگ فریم ورک کے استعمال سے ہماری ماڈل ٹریننگ کو تقریباً آٹھ گنا تیز کرنے میں مدد ملی۔
ماڈل کی تشخیص - ہم آف لائن اور آن لائن دونوں تشخیص کرتے ہیں۔ ہم ماڈل کی کارکردگی کا اندازہ Area Under the Curve (AUC) اور K (mAP@K) پر اوسط درستگی کے ساتھ آف لائن تشخیص میں کرتے ہیں۔ آن لائن A/B ٹیسٹنگ کے دوران، ہم CTR میں بہتری کا جائزہ لیتے ہیں۔

مندرجہ ذیل حصوں میں، ہم ان چار اجزاء کی تفصیلات پیش کرتے ہیں.

ڈیپ لرننگ ماڈل آرکیٹیکچر ڈیزائن

ہم ٹرپل ٹاور ڈیپ پوائنٹ وائز (TTDP) ماڈل کو ٹرپل ٹاور ڈیپ لرننگ آرکیٹیکچر اور پوائنٹ وائز پیئر ماڈلنگ اپروچ کا استعمال کرتے ہوئے ڈیزائن کرتے ہیں۔ ٹرپل ٹاور آرکیٹیکچر تین متوازی گہرے نیورل نیٹ ورکس فراہم کرتا ہے، جس میں ہر ٹاور آزادانہ طور پر خصوصیات کے ایک سیٹ پر کارروائی کرتا ہے۔ یہ ڈیزائن پیٹرن ماڈل کو معلومات کے مختلف ذرائع سے الگ الگ نمائندگی سیکھنے کی اجازت دیتا ہے۔ تینوں ٹاورز سے نمائندگی حاصل کرنے کے بعد، انہیں جوڑ دیا جاتا ہے اور کلک کے امکان (ایک پوائنٹ وائز ماڈلنگ سیٹ اپ) پر حتمی پیشین گوئی (0-1) کرنے کے لیے درجہ بندی کے سر سے گزر جاتا ہے۔

تین ٹاورز کا نام ان معلومات کی بنیاد پر رکھا گیا ہے جس پر وہ کارروائی کرتے ہیں: استفسار کا انکوڈر صارف کی تلاش کے استفسار پر کارروائی کرتا ہے، دستاویز کا انکوڈر امیدوار کی ملازمت کے دستاویزی مواد پر کارروائی کرتا ہے جس میں ملازمت کا عنوان اور کمپنی کا نام شامل ہوتا ہے، اور تعامل انکوڈر صارف کے ماضی کے تعاملات سے اخذ کردہ متعلقہ خصوصیات کا استعمال کرتا ہے۔ اور تاریخ (اگلے حصے میں مزید بات چیت)۔

ان ٹاورز میں سے ہر ایک یہ سیکھنے میں اہم کردار ادا کرتا ہے کہ نوکریوں کی سفارش کیسے کی جائے:

استفسار انکوڈر - استفسار کا انکوڈر صارف کے جاب کی تلاش کے استفسار سے اخذ کردہ ایس بی ای آر ٹی ایمبیڈنگز میں لیتا ہے۔ ہم ایک SBERT ماڈل کے ذریعے سرایت کو بڑھاتے ہیں جسے ہم نے ٹھیک بنایا ہے۔ یہ انکوڈر صارف کے جاب کی تلاش کے ارادے پر کارروائی کرتا ہے اور سمجھتا ہے، بشمول ہمارے ڈومین کے لیے مخصوص سرایتوں کے ذریعے حاصل کردہ تفصیلات اور باریکیاں۔
دستاویز انکوڈر - دستاویز کا انکوڈر ہر کام کی فہرست کی معلومات پر کارروائی کرتا ہے۔ خاص طور پر، یہ ملازمت کے عنوان اور کمپنی سے مربوط متن کی SBERT ایمبیڈنگ لیتا ہے۔ بصیرت یہ ہے کہ صارفین امیدواروں کی ملازمتوں میں زیادہ دلچسپی لیں گے جو تلاش کے استفسار سے زیادہ متعلقہ ہیں۔ ملازمتوں اور تلاش کے سوالات کو ایک ہی ویکٹر اسپیس (ایس بی ای آر ٹی کے ذریعہ بیان کردہ) میں نقشہ بنا کر، ماڈل ممکنہ ملازمتوں کے امکان کی پیش گوئی کرنا سیکھ سکتا ہے جن پر نوکری کا متلاشی کلک کرے گا۔
تعامل انکوڈر - تعامل انکوڈر ملازمت کی فہرستوں کے ساتھ صارف کے ماضی کے تعاملات سے نمٹتا ہے۔ خصوصیات ایک معیاری فیچر انجینئرنگ مرحلے کے ذریعے تیار کی جاتی ہیں، جس میں ملازمت کے کرداروں اور کمپنیوں کے لیے مقبولیت کے میٹرکس کا حساب لگانا، سیاق و سباق کے مماثلت کے اسکور قائم کرنا، اور صارف کی سابقہ مصروفیات سے تعامل کے پیرامیٹرز کو نکالنا شامل ہے۔ یہ جاب ٹائٹل اور تلاش کے سوالات میں شناخت شدہ نامی اداروں کو پہلے سے تربیت یافتہ نامزد ہستی کی شناخت (NER) ماڈل کے ساتھ بھی پروسیس کرتا ہے۔

ہر ٹاور متوازی طور پر ایک آزاد پیداوار پیدا کرتا ہے، جن میں سے سبھی کو ایک ساتھ جوڑ دیا جاتا ہے۔ اس مشترکہ فیچر ویکٹر کو پھر صارف کے استفسار کے لیے نوکری کی فہرست کے کلک کے امکان کی پیشین گوئی کرنے کے لیے پاس کیا جاتا ہے۔ ٹرپل ٹاور آرکیٹیکچر مختلف ان پٹس یا فیچرز کے درمیان پیچیدہ رشتوں کو حاصل کرنے میں لچک فراہم کرتا ہے، جس سے ماڈل کو ہر ٹاور کی طاقت سے فائدہ اٹھانے کی اجازت ملتی ہے جبکہ دیے گئے کام کے لیے مزید تاثراتی نمائندگی سیکھتی ہے۔

امیدواروں کی ملازمتوں کی پیشن گوئی کلک کے امکانات کو اعلی سے کم تک درجہ دیا جاتا ہے، ذاتی ملازمت کی سفارشات تیار کرتے ہیں۔ اس عمل کے ذریعے، ہم اس بات کو یقینی بناتے ہیں کہ معلومات کا ہر ٹکڑا—خواہ وہ صارف کی تلاش کا ارادہ ہو، ملازمت کی فہرست کی تفصیلات، یا ماضی کے تعاملات— کو اس کے لیے مخصوص ٹاور کے ذریعے مکمل طور پر پکڑ لیا گیا ہے۔ ان کے درمیان پیچیدہ تعلقات بھی ٹاور آؤٹ پٹس کے امتزاج کے ذریعے پکڑے گئے ہیں۔

فیچر انجینئرنگ

ہم خام ڈیٹا سے قیمتی معلومات نکالنے اور اسے ماڈل میں متعلقہ ٹاورز میں فیڈ کرنے کے لیے فیچر انجینئرنگ کے عمل کے دو سیٹ انجام دیتے ہیں: معیاری فیچر انجینئرنگ اور فائن ٹیونڈ SBERT ایمبیڈنگس۔

معیاری فیچر انجینئرنگ

ہمارے ڈیٹا کی تیاری کا عمل معیاری فیچر انجینئرنگ سے شروع ہوتا ہے۔ مجموعی طور پر، ہم چار قسم کی خصوصیات کی وضاحت کرتے ہیں:

مقبولیت - ہم انفرادی ملازمت کی سطح، پیشہ کی سطح، اور کمپنی کی سطح پر مقبولیت کے اسکور کا حساب لگاتے ہیں۔ یہ ایک میٹرک فراہم کرتا ہے کہ کوئی خاص ملازمت یا کمپنی کتنی پرکشش ہوسکتی ہے۔
متنی مماثلت - مختلف متنی عناصر کے درمیان سیاق و سباق کے تعلق کو سمجھنے کے لیے، ہم مماثلت کے اسکور کی گنتی کرتے ہیں، بشمول تلاش کے استفسار اور جاب کے عنوان کے درمیان سٹرنگ مماثلت۔ اس سے ہمیں ملازمت کے متلاشی کی تلاش یا درخواست کی سرگزشت سے ملازمت کے آغاز کی مطابقت کا اندازہ لگانے میں مدد ملتی ہے۔
انٹریکشن - اس کے علاوہ، ہم ملازمت کی فہرستوں کے ساتھ سابقہ صارف کی مصروفیات سے تعامل کی خصوصیات نکالتے ہیں۔ اس کی ایک اہم مثال ماضی میں کلک کیے گئے جاب ٹائٹلز اور امیدوار جاب ٹائٹلز کے درمیان سرایت کرنے والی مماثلت ہے۔ اس اقدام سے ہمیں پچھلی ملازمتوں کے درمیان مماثلت کو سمجھنے میں مدد ملتی ہے جس میں صارف نے دلچسپی ظاہر کی ہے بمقابلہ آنے والے ملازمت کے مواقع۔ یہ ہمارے کام کی سفارش کے انجن کی درستگی کو بڑھاتا ہے۔
پروفائل - آخر میں، ہم صارف کے پروفائل سے صارف کی وضاحت کردہ ملازمت کی دلچسپی کی معلومات نکالتے ہیں اور اس کا تقابل نئے جاب امیدواروں سے کرتے ہیں۔ اس سے ہمیں یہ سمجھنے میں مدد ملتی ہے کہ آیا نوکری کا امیدوار صارف کی دلچسپی سے میل کھاتا ہے۔

ہمارے ڈیٹا کی تیاری میں ایک اہم قدم پہلے سے تربیت یافتہ NER ماڈل کا اطلاق ہے۔ ایک NER ماڈل کو لاگو کرنے سے، ہم جاب ٹائٹلز اور تلاش کے سوالات میں نامزد اداروں کی شناخت اور لیبل لگا سکتے ہیں۔ نتیجتاً، یہ ہمیں ان شناخت شدہ اداروں کے درمیان مماثلت کے اسکورز کی گنتی کرنے کی اجازت دیتا ہے، جس سے وابستگی کا زیادہ توجہ مرکوز اور سیاق و سباق سے آگاہی کا اندازہ ہوتا ہے۔ یہ طریقہ کار ہمارے ڈیٹا میں شور کو کم کرتا ہے اور ہمیں ملازمتوں کا موازنہ کرنے کا ایک زیادہ اہم، سیاق و سباق کے لحاظ سے حساس طریقہ فراہم کرتا ہے۔

فائن ٹیونڈ SBERT ایمبیڈنگز

اپنے کام کی سفارش کے نظام کی مطابقت اور درستگی کو بڑھانے کے لیے، ہم SBERT کی طاقت کا استعمال کرتے ہیں، ایک طاقتور ٹرانسفارمر پر مبنی ماڈل، جو کہ متن سے معنوی معانی اور سیاق و سباق کو حاصل کرنے میں اپنی مہارت کے لیے جانا جاتا ہے۔ تاہم، SBERT جیسی عمومی سرایتیں، اگرچہ مؤثر ہیں، لیکن ہمارے جیسے مخصوص ڈومین میں شامل منفرد باریکیوں اور اصطلاحات کو مکمل طور پر گرفت میں نہیں لے سکتی ہیں، جو روزگار اور ملازمت کی تلاش کے ارد گرد مرکوز ہیں۔ اس پر قابو پانے کے لیے، ہم اپنے ڈومین کے لیے مخصوص ڈیٹا کا استعمال کرتے ہوئے SBERT ایمبیڈنگز کو ٹھیک بناتے ہیں۔ یہ ٹھیک ٹیوننگ کا عمل ماڈل کو بہتر بناتا ہے تاکہ صنعت کی مخصوص زبان، جرگون اور سیاق و سباق کو بہتر طور پر سمجھنے اور اس پر کارروائی کی جا سکے، جس سے ایمبیڈنگز ہمارے مخصوص ڈومین کی مزید عکاسی کرتی ہیں۔ نتیجے کے طور پر، بہتر ایمبیڈنگز ہمارے دائرے میں سیمنٹک اور سیاق و سباق دونوں معلومات کو حاصل کرنے میں بہتر کارکردگی پیش کرتے ہیں، جو ہمارے صارفین کے لیے زیادہ درست اور بامعنی ملازمت کی سفارشات کا باعث بنتے ہیں۔

مندرجہ ذیل اعداد و شمار SBERT فائن ٹیوننگ کے مرحلے کو واضح کرتا ہے۔

From text to dream job: Building an NLP-based job recommender at Talent.com with Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

ہم استعمال کرتے ہوئے SBERT ایمبیڈنگ کو ٹھیک کرتے ہیں۔ TripletLoss کوزائن فاصلاتی میٹرک کے ساتھ جو ٹیکسٹ ایمبیڈنگ سیکھتا ہے جہاں اینکر اور مثبت ٹیکسٹ میں اینکر اور منفی ٹیکسٹ کے مقابلے زیادہ کوزائن مماثلت ہوتی ہے۔ ہم صارفین کی تلاش کے سوالات کو بطور اینکر متن استعمال کرتے ہیں۔ ہم ملازمت کے عنوانات اور آجر کے ناموں کو مثبت اور منفی متن کے ان پٹ کے طور پر یکجا کرتے ہیں۔ مثبت تحریروں کا نمونہ جاب پوسٹنگز سے لیا جاتا ہے جن پر متعلقہ صارف نے کلک کیا تھا، جب کہ منفی تحریروں کا نمونہ جاب پوسٹنگ سے لیا جاتا ہے جن پر صارف نے کلک نہیں کیا۔ فائن ٹیوننگ کے طریقہ کار کے نمونے پر عمل درآمد درج ذیل ہے:

import math
from datetime import datetime from torch.utils.data import DataLoader
from sentence_transformers import (SentenceTransformer, SentencesDataset, LoggingHandler, losses)
from sentence_transformers.readers import InputExample model_name = 'all-mpnet-base-v2'
train_batch_size = 16
num_epochs = 1
model_save_path = (f'output/{model_name}_'+ datetime.now().strftime("%Y-%m-%d_%H-%M-%S")) ### load pre-trained SBERT model
model = SentenceTransformer(model_name, device="cuda") ### construct training dataset of triplet texts,
### stored in three lists (achors, positives, negatives)
train_examples =[]
for anchor, positive, negative in zip(achors, positives, negatives): train_examples.append(InputExample(texts=(anchor, positive, negative))) train_dataset = SentencesDataset(train_examples, model)
train_dataloader = DataLoader(train_dataset, shuffle=True, batch_size=train_batch_size) ### use TripletLoss with cosine distance metric and margin=0.5
distance_metric=losses.TripletDistanceMetric.COSINE
train_loss = losses.TripletLoss(model=model, distance_metric=distance_metric, triplet_margin=0.5) ### 10% of train data for warm-up
warmup_steps = math.ceil(len(train_dataloader) * num_epochs * 0.1) # Train the model
model.fit(train_objectives=[(train_dataloader, train_loss)], epochs=num_epochs, warmup_steps=warmup_steps, output_path=model_save_path)

SageMaker تقسیم شدہ ڈیٹا متوازی کے ساتھ ماڈل ٹریننگ

ہم SageMaker Distributed Data Parallel (SMDDP) استعمال کرتے ہیں، جو SageMaker ML پلیٹ فارم کی ایک خصوصیت ہے جو PyTorch DDP کے اوپر بنایا گیا ہے۔ یہ SageMaker پلیٹ فارم پر PyTorch DDP تربیتی ملازمتوں کو چلانے کے لیے ایک بہترین ماحول فراہم کرتا ہے۔ اسے ڈیپ لرننگ ماڈل ٹریننگ کو نمایاں طور پر تیز کرنے کے لیے ڈیزائن کیا گیا ہے۔ یہ ایک بڑے ڈیٹاسیٹ کو چھوٹے حصوں میں تقسیم کرکے اور متعدد GPUs میں تقسیم کرکے اسے پورا کرتا ہے۔ ماڈل کو ہر GPU پر نقل کیا جاتا ہے۔ ہر GPU اپنے تفویض کردہ ڈیٹا پر آزادانہ طور پر کارروائی کرتا ہے، اور نتائج کو تمام GPUs میں جمع اور ہم آہنگ کیا جاتا ہے۔ ڈی ڈی پی ماڈل کی نقلوں کو مطابقت پذیر رکھنے کے لیے گریڈینٹ کمیونیکیشن کا خیال رکھتا ہے اور ٹریننگ کو تیز کرنے کے لیے انھیں گریڈینٹ کمپیوٹیشن کے ساتھ اوور لیپ کرتا ہے۔ SMDDP GPUs کے درمیان مواصلات کو کم سے کم کرنے، مطابقت پذیری کے وقت کو کم کرنے اور مجموعی تربیت کی رفتار کو بہتر بنانے کے لیے ایک بہترین AllReduce الگورتھم کا استعمال کرتا ہے۔ الگورتھم نیٹ ورک کے مختلف حالات کے مطابق ڈھالتا ہے، جو اسے آن پریمیسس اور کلاؤڈ بیسڈ ماحول دونوں کے لیے انتہائی موثر بناتا ہے۔ SMDDP فن تعمیر میں (جیسا کہ مندرجہ ذیل تصویر میں دکھایا گیا ہے)، تقسیم شدہ تربیت کو بھی کئی نوڈس کے کلسٹر کا استعمال کرتے ہوئے چھوٹا کیا جاتا ہے۔ اس کا مطلب ایک کمپیوٹنگ مثال میں صرف ایک سے زیادہ GPUs نہیں ہے، بلکہ متعدد GPUs کے ساتھ بہت سی مثالیں، جو تربیت کو مزید تیز کرتی ہیں۔

From text to dream job: Building an NLP-based job recommender at Talent.com with Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

اس فن تعمیر کے بارے میں مزید معلومات کے لیے دیکھیں سیج میکر کی تقسیم شدہ ڈیٹا متوازی لائبریری کا تعارف.

SMDDP کے ساتھ، ہم اپنے TTDP ماڈل کے لیے تربیت کے وقت کو کافی حد تک کم کرنے میں کامیاب رہے ہیں، جس سے یہ آٹھ گنا تیز ہے۔ تیز تر تربیتی اوقات کا مطلب ہے کہ ہم اپنے ماڈلز کو زیادہ تیزی سے دہرانے اور بہتر کر سکتے ہیں، جس سے ہمارے صارفین کو کم وقت میں ملازمت کی بہتر تجاویز ملیں گی۔ کارکردگی کا یہ فائدہ تیزی سے ترقی پذیر جاب مارکیٹ میں ہمارے جاب تجویز انجن کی مسابقت کو برقرار رکھنے میں اہم کردار ادا کرتا ہے۔

آپ اپنی تربیتی اسکرپٹ کو SMDDP کے ساتھ صرف تین لائنوں کے کوڈ کے ساتھ ڈھال سکتے ہیں، جیسا کہ درج ذیل کوڈ بلاک میں دکھایا گیا ہے۔ ایک مثال کے طور پر PyTorch کا استعمال کرتے ہوئے، آپ کو صرف ایک چیز کی ضرورت ہے SMDDP لائبریری کے PyTorch کلائنٹ کو درآمد کرنا (smdistributed.dataparallel.torch.torch_smddp)۔ کلائنٹ رجسٹر کرتا ہے۔ smddp PyTorch کے پسدید کے طور پر۔

import smdistributed.dataparallel.torch.torch_smddp
import torch.distributed as dist dist.init_process_group(backend='smddp')

جب آپ کے پاس ایک کام کرنے والا PyTorch اسکرپٹ ہے جو تقسیم شدہ ڈیٹا متوازی لائبریری کو استعمال کرنے کے لیے ڈھال لیا گیا ہے، تو آپ SageMaker Python SDK کا استعمال کرتے ہوئے ایک تقسیم شدہ تربیتی کام شروع کریں۔.

ماڈل کی کارکردگی کا اندازہ

سفارشی نظام کی کارکردگی کا جائزہ لیتے وقت، ایسے میٹرکس کا انتخاب کرنا بہت ضروری ہے جو کاروباری اہداف کے ساتھ ہم آہنگ ہوں اور ماڈل کی تاثیر کی واضح سمجھ فراہم کریں۔ ہمارے معاملے میں، ہم اپنے TTDP ماڈل کی جاب کلک کی پیشن گوئی کی کارکردگی کا جائزہ لینے کے لیے AUC کا استعمال کرتے ہیں اور حتمی درجہ بندی کی جابز کی فہرست کے معیار کا جائزہ لینے کے لیے mAP@K کا استعمال کرتے ہیں۔

AUC سے مراد رسیور آپریٹنگ خصوصیت (ROC) وکر کے نیچے کا علاقہ ہے۔ یہ اس امکان کی نمائندگی کرتا ہے کہ تصادفی طور پر منتخب کردہ مثبت مثال کو تصادفی طور پر منتخب کردہ منفی مثال سے زیادہ درجہ دیا جائے گا۔ یہ 0-1 تک ہے، جہاں 1 ایک مثالی درجہ بندی کی نشاندہی کرتا ہے اور 0.5 ایک بے ترتیب اندازے کی نمائندگی کرتا ہے۔ mAP@K ایک میٹرک ہے جو عام طور پر معلومات کی بازیافت کے نظام کے معیار کو جانچنے کے لیے استعمال ہوتا ہے، جیسا کہ ہمارا جاب تجویز کنندہ انجن۔ یہ دیے گئے استفسار یا صارف کے لیے ٹاپ K متعلقہ اشیاء کو بازیافت کرنے کی اوسط درستگی کی پیمائش کرتا ہے۔ اس کی رینج 0–1 ہے، جس میں 1 بہترین درجہ بندی کی نشاندہی کرتا ہے اور 0 دی گئی K قدر پر سب سے کم ممکنہ درستگی کی نشاندہی کرتا ہے۔ ہم AUC، mAP@1، اور mAP@3 کا جائزہ لیتے ہیں۔ اجتماعی طور پر، یہ میٹرکس ہمیں ماڈل کی مثبت اور منفی کلاسز (AUC) کے درمیان فرق کرنے کی صلاحیت اور سب سے زیادہ متعلقہ اشیاء کی درجہ بندی کرنے میں اس کی کامیابی کا اندازہ لگانے کی اجازت دیتے ہیں (mAP@K)۔

ہماری آف لائن تشخیص کی بنیاد پر، TTDP ماڈل نے بیس لائن ماڈل — موجودہ XGBoost پر مبنی پروڈکشن ماڈل — کو AUC کے لیے 16.65%، mAP@20 کے لیے 1%، اور mAP@11.82 کے لیے 3% سے بہتر کارکردگی کا مظاہرہ کیا۔

From text to dream job: Building an NLP-based job recommender at Talent.com with Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

مزید برآں، ہم نے مجوزہ نظام کا جائزہ لینے کے لیے ایک آن لائن A/B ٹیسٹ ڈیزائن کیا اور 6 ہفتوں تک امریکی ای میل آبادی کے فیصد پر ٹیسٹ چلایا۔ مجموعی طور پر، تقریباً 22 ملین ای میلز نئے سسٹم کے ذریعہ تجویز کردہ کام کا استعمال کرتے ہوئے بھیجی گئیں۔ پچھلے پروڈکشن ماڈل کے مقابلے کلکس میں نتیجے میں اضافہ 8.6% تھا۔ Talent.com نئے نظام کو اپنی مکمل آبادی اور چینلز تک پہنچانے کے لیے بتدریج فیصد بڑھا رہا ہے۔

نتیجہ

ملازمت کی سفارش کا نظام بنانا ایک پیچیدہ کوشش ہے۔ ہر ملازمت کے متلاشی کے پاس منفرد ضروریات، ترجیحات اور پیشہ ورانہ تجربات ہوتے ہیں جن کا اندازہ مختصر تلاش کے استفسار سے نہیں لگایا جا سکتا۔ اس پوسٹ میں، Talent.com نے AWS کے ساتھ مل کر ایک اینڈ ٹو اینڈ ڈیپ لرننگ پر مبنی جاب تجویز کنندہ حل تیار کیا ہے جو صارفین کو تجویز کرنے کے لیے ملازمتوں کی فہرستوں کی درجہ بندی کرتا ہے۔ Talent.com ٹیم نے اس مسئلے کو حل کرنے کے پورے عمل کے دوران AWS ٹیم کے ساتھ تعاون کرنے میں واقعی لطف اٹھایا۔ یہ Talent.com کے تبدیلی کے سفر میں ایک اہم سنگ میل کی نشاندہی کرتا ہے، کیونکہ ٹیم اپنے کاروبار کو بااختیار بنانے کے لیے گہری سیکھنے کی طاقت سے فائدہ اٹھاتی ہے۔

اس پروجیکٹ کو ایس بی ای آر ٹی کا استعمال کرتے ہوئے ٹیکسٹ ایمبیڈنگ بنانے کے لیے ٹھیک بنایا گیا تھا۔ لکھنے کے وقت، AWS متعارف کرایا ایمیزون ٹائٹن ایمبیڈنگز ان کے فاؤنڈیشن ماڈلز (FMs) کے ذریعے پیش کیے گئے ہیں۔ ایمیزون بیڈرکجو کہ ایک مکمل طور پر منظم سروس ہے جو معروف AI کمپنیوں سے اعلیٰ کارکردگی کا مظاہرہ کرنے والے بنیادی ماڈلز کا انتخاب فراہم کرتی ہے۔ ہم قارئین کی حوصلہ افزائی کرتے ہیں کہ وہ اس بلاگ پوسٹ میں پیش کی گئی مشین لرننگ کی تکنیکوں کو دریافت کریں اور AWS کی طرف سے فراہم کردہ صلاحیتوں کا فائدہ اٹھائیں، جیسے SMDDP، جبکہ AWS Bedrock کے بنیادی ماڈلز کو استعمال کرتے ہوئے اپنی تلاش کی خصوصیات تخلیق کریں۔

حوالہ جات

مصنفین کے بارے میں

یی ژیانگ ایمیزون مشین لرننگ سلوشنز لیب میں ایک اپلائیڈ سائنٹسٹ II ہے، جہاں وہ مختلف صنعتوں کے AWS صارفین کو ان کے AI اور کلاؤڈ کو اپنانے میں تیزی لانے میں مدد کرتی ہے۔

From text to dream job: Building an NLP-based job recommender at Talent.com with Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai. ٹونگ وانگ ایمیزون مشین لرننگ سلوشنز لیب میں ایک سینئر اپلائیڈ سائنٹسٹ ہے، جہاں وہ مختلف صنعتوں کے AWS صارفین کو ان کے AI اور کلاؤڈ کو اپنانے میں تیزی لانے میں مدد کرتا ہے۔

دمتری بیسپالوف ایمیزون مشین لرننگ سلوشنز لیب میں ایک سینئر اپلائیڈ سائنٹسٹ ہے، جہاں وہ مختلف صنعتوں کے AWS صارفین کو ان کے AI اور کلاؤڈ کو اپنانے میں تیزی لانے میں مدد کرتا ہے۔

From text to dream job: Building an NLP-based job recommender at Talent.com with Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai. اناتولی خمینکو Talent.com میں ایک سینئر مشین لرننگ انجینئر ہے جس میں قدرتی لینگویج پروسیسنگ کا جذبہ ہے جو اچھے لوگوں کو اچھی ملازمتوں سے ملاتا ہے۔

From text to dream job: Building an NLP-based job recommender at Talent.com with Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai. عبدنور بیزوہ ایک ایگزیکٹو ہے جس کا 25 سال سے زیادہ کا تجربہ ہے اور ٹیکنالوجی کے حل فراہم کرتا ہے جو لاکھوں صارفین تک پہنچتا ہے۔ عبدنور چیف ٹیکنالوجی آفیسر (CTO) کے عہدے پر فائز تھے۔ ٹیلنٹ ڈاٹ کام۔ جب AWS ٹیم نے اس مخصوص حل کو ڈیزائن کیا اور اس پر عملدرآمد کیا۔ ٹیلنٹ ڈاٹ کام۔.

یانجون کیو ایمیزون مشین لرننگ سلوشن لیب میں ایک سینئر اپلائیڈ سائنس مینیجر ہے۔ وہ AWS صارفین کو اپنے AI اور کلاؤڈ کو اپنانے میں تیزی لانے میں مدد کرنے کے لیے مشین لرننگ کو اختراعات اور لاگو کرتی ہے۔