ایمیزون انجینئرنگ کے لیے ایمیزون سیج میکر پر انسانی اور اے آئی فیڈ بیک کے ساتھ ایل ایل ایم کی کارکردگی کو بہتر بنائیں۔ ایمیزون ویب سروسز

ایمیزون انجینئرنگ کے لیے ایمیزون سیج میکر پر انسانی اور اے آئی فیڈ بیک کے ساتھ ایل ایل ایم کی کارکردگی کو بہتر بنائیں۔ ایمیزون ویب سروسز

Amazon EU ڈیزائن اینڈ کنسٹرکشن (Amazon D&C) ٹیم ایمیزون گوداموں کو ڈیزائن اور تعمیر کرنے والی انجینئرنگ ٹیم ہے۔ ٹیم دستاویزات کی ایک بڑی مقدار کو نیویگیٹ کرتی ہے اور اس بات کو یقینی بنانے کے لیے صحیح معلومات کا پتہ لگاتی ہے کہ گودام کا ڈیزائن اعلیٰ ترین معیارات پر پورا اترتا ہے۔ پوسٹ میں ایمیزون سیج میکر پر ایمیزون یورپی یونین کے ڈیزائن اور تعمیر میں مدد کرنے کے لیے ایک تخلیقی AI سے چلنے والا حل، ہم نے ایک سوال کا جواب دینے والے بوٹ حل کا استعمال کرتے ہوئے پیش کیا۔ بازیافت اگمینٹڈ جنریشن (RAG) پائپ لائن ٹھیک ٹیون کے ساتھ بڑی زبان کا ماڈل (LLM) Amazon D&C کے لیے غیر منظم دستاویزات کی ایک بڑی مقدار سے درست معلومات کو مؤثر طریقے سے بازیافت کرنے اور اپنے تعمیراتی منصوبوں میں بروقت اور اعلیٰ معیار کی خدمات فراہم کرنے کے لیے۔ Amazon D&C ٹیم نے Amazon انجینئرز کے لیے ایک پائلٹ میں حل کو نافذ کیا اور صارف کی رائے اکٹھی کی۔

اس پوسٹ میں، ہم شیئر کرتے ہیں کہ ہم نے فیڈ بیک ڈیٹا کا تجزیہ کیسے کیا اور RAG کی فراہم کردہ درستگی اور فریب کاری کی حدود کی نشاندہی کی، اور ماڈل کو تربیت دینے کے لیے انسانی تشخیص کے اسکور کا استعمال کیا۔ قابو پانے کی تعلیم. بہتر سیکھنے کے لیے تربیتی نمونوں کو بڑھانے کے لیے، ہم نے فیڈ بیک سکور بنانے کے لیے ایک اور LLM بھی استعمال کیا۔ اس طریقہ نے RAG کی حد کو دور کیا اور بوٹ رسپانس کے معیار کو مزید بہتر کیا۔ ہم LLM کارکردگی میں بہتری کو ظاہر کرنے کے لیے کمک سیکھنے کے عمل اور بینچ مارکنگ کے نتائج پیش کرتے ہیں۔ حل استعمال کرتا ہے۔ ایمیزون سیج میکر جمپ اسٹارٹ ماڈل کی تعیناتی، فائن ٹیوننگ، اور کمک سیکھنے کے لیے بنیادی خدمت کے طور پر۔

پائلٹ پروجیکٹ میں Amazon انجینئرز سے فیڈ بیک جمع کریں۔

میں بیان کردہ حل تیار کرنے کے بعد ایمیزون سیج میکر پر ایمیزون یورپی یونین کے ڈیزائن اور تعمیر میں مدد کرنے کے لیے ایک تخلیقی AI سے چلنے والا حل، Amazon D&C ٹیم نے حل کو تعینات کیا اور Amazon انجینئرز کے ساتھ ایک پائلٹ پروجیکٹ چلایا۔ انجینئرز نے ایک ویب ایپلیکیشن کے ذریعے پائلٹ سسٹم تک رسائی حاصل کی۔ اسٹریم لائٹ، RAG پائپ لائن سے منسلک ہے۔ پائپ لائن میں، ہم نے استعمال کیا ایمیزون اوپن سرچ سروس ویکٹر ڈیٹا بیس کے لیے، اور Amazon SageMaker پر ایک عمدہ Mistral-7B-Instruct ماڈل تعینات کیا۔

پائلٹ کے اہم مقاصد میں سے ایک Amazon انجینئرز سے فیڈ بیک اکٹھا کرنا اور LLM فریب نظر کو مزید کم کرنے کے لیے فیڈ بیک کا استعمال کرنا ہے۔ اس مقصد کو حاصل کرنے کے لیے، ہم نے UI میں فیڈ بیک کلیکشن ماڈیول تیار کیا، جیسا کہ مندرجہ ذیل تصویر میں دکھایا گیا ہے، اور ویب سیشن کی معلومات اور صارف کے تاثرات کو اس میں محفوظ کیا۔ ایمیزون ڈائنومو ڈی بی. تاثرات جمع کرنے والے UI کے ذریعے، Amazon انجینئرز اطمینان کی پانچ سطحوں میں سے انتخاب کر سکتے ہیں: 1–5 کے فیڈ بیک سکور کے مطابق، سختی سے متفق، متفق، غیر جانبدار، متفق، اور پختہ طور پر متفق۔ وہ اس سوال کا بہتر جواب بھی دے سکتے ہیں یا اس پر تبصرہ کر سکتے ہیں کہ ایل ایل ایم کا جواب تسلی بخش کیوں نہیں ہے۔

انسانی تاثرات UI

پائلٹ کے دوران، صارفین نے 118 فیڈ بیک جوابات فراہم کیے۔ مندرجہ ذیل چارٹ منفی سے مثبت کی تقسیم کو ظاہر کرتا ہے۔ ہم نے مشاہدہ کیا کہ منفی آراء کے ذریعہ نشان زد غلط جوابات (اختلاف اور سختی سے متفق نہیں) کل فیڈ بیک میں 45% ہیں (53 میں سے 118)۔ کچھ غلطیاں (تقریباً 10% منفی تاثرات اور 7.5% مجموعی ردعمل) کو صارف کی تعلیم اور فوری انجینئرنگ کے ذریعے دور کیا جا سکتا ہے۔ مزید برآں، ہم اگلے حصے میں بیان کردہ LLM فائن ٹیوننگ اور کمک سیکھنے کے حل کے ساتھ اس مسئلے کو حل کر سکتے ہیں۔

پائلٹ سے صارف کی رائے

کچھ صارفین نے صرف ایک نوٹ چھوڑا، جیسے "زبردست!" سختی سے متفق جوابات کے لیے، یا "سوال کا جواب نہیں دیتا"، سختی سے متفق جوابات کے لیے۔ دوسرے صارفین نے اسکور فراہم کیے اور وضاحت کی کہ وہ اپنے نوٹوں میں LLM جوابات کا جواز کیسے پیش کرتے ہیں۔ درج ذیل مثال میں، صارف نے خاص طور پر LLM فریب کو درست کرنے کے لیے مناسب دستاویز اور مواد فراہم کیا۔

س ہمارے پاس کار پارکنگ کی کتنی جگہیں ہیں؟
بوٹ جواب

دیے گئے سیاق و سباق کی بنیاد پر، ہمارے پاس کار پارکنگ کی جگہوں کی تعداد کا تعین کرنے کے لیے کافی معلومات نہیں ہیں۔ سیاق و سباق پارکنگ کی جگہوں کے کم از کم سائز اور بیرونی روشنی کی سطح کے تقاضوں پر بحث کرتا ہے، لیکن یہ پارکنگ کی جگہوں کی مخصوص تعداد فراہم نہیں کرتا ہے۔

**آپ درج ذیل وسائل میں مزید وضاحتوں کا حوالہ دے سکتے ہیں:**

* ARS GEN 10.0/05.01.02۔ ڈیزائن کے معیار اور ضمیمہ/کارکردگی کا پیکیج AR ترتیب دینے والا ڈیزائن کا معیار v20.1.1.pdf - صفحہ: 10

* ARS GEN 10.0/05.01.02۔ ڈیزائن کے معیار اور ضمیمہ/کارکردگی کا پیکیج AR ترتیب دینے والا ڈیزائن کا معیار v20.1.1.pdf - صفحہ: 79

صارف کا سکور بہت زیادہ اختلاف
صارف کے نوٹس یہ ڈیزائن کے معیار سیکشن 21 01 13 کے صفحہ 10 پر بیان کیا گیا ہے۔

زیر نگرانی فائن ٹیوننگ اور کمک سیکھنے کے ساتھ بوٹ کے ردعمل کو بہتر بنائیں

حل ٹھیک ٹیوننگ کے تین مراحل پر مشتمل ہے:

  1. لیبل شدہ ڈیٹا کا استعمال کرتے ہوئے زیر نگرانی فائن ٹیوننگ انجام دیں۔ میں یہ طریقہ بیان کیا گیا ہے۔ ایمیزون سیج میکر پر ایمیزون یورپی یونین کے ڈیزائن اور تعمیر میں مدد کرنے کے لیے ایک تخلیقی AI سے چلنے والا حل.
  2. مزید LLM ٹیوننگ کے لیے سوال جواب کے جوڑوں پر لیبل لگانے کے لیے صارف کے تاثرات جمع کریں۔
  3. جب تربیتی ڈیٹا تیار ہو جائے تو اس کا استعمال کرتے ہوئے ماڈل کو مزید ٹیون کریں۔ انسانی آراء سے کمک سیکھنا (RLHF)۔

RLHF بڑے پیمانے پر تخلیقی مصنوعی ذہانت (AI) اور LLM ایپلی کیشنز میں استعمال ہوتا ہے۔ یہ انعامات کے فنکشن میں انسانی تاثرات کو شامل کرتا ہے اور انعامات کو زیادہ سے زیادہ حاصل کرنے کے لیے ماڈل کو کمک سیکھنے والے الگورتھم کے ساتھ تربیت دیتا ہے، جس سے ماڈل انسانی اہداف کے ساتھ کاموں کو مزید ہم آہنگ کرتا ہے۔ مندرجہ ذیل خاکہ قدموں کی پائپ لائن کو دکھاتا ہے۔

ٹھیک ٹیوننگ ورک فلو

ہم نے SageMaker JumpStart پر Mistral-7B ماڈل کے ساتھ Amazon D&C دستاویزات کا استعمال کرتے ہوئے طریقہ کار کا تجربہ کیا۔

فائن ٹیوننگ کی نگرانی کی۔

پچھلی پوسٹ میں، ہم نے دکھایا تھا کہ کس طرح ٹھیک ٹیونڈ Falcon-7B ماڈل RAG پائپ لائن سے بہتر کارکردگی کا مظاہرہ کرتا ہے اور QA بوٹ جواب کے معیار اور درستگی کو بہتر بناتا ہے۔ اس پوسٹ کے لیے، ہم نے Mistral-7B ماڈل پر فائن ٹیوننگ کی نگرانی کی۔ زیر نگرانی فائن ٹیوننگ نے PEFT/LoRA تکنیک (LoRA_r = 512، LoRA_alpha = 1024) کو 436,207,616 پیرامیٹرز (کل 5.68 پیرامیٹرز کا 7,677,964,288%) پر استعمال کیا۔ تربیت ایک p3.8x نوڈ پر منعقد کی گئی تھی جس میں 137 نمونے مصنوعی طور پر LLM کے ذریعے تیار کیے گئے تھے اور انسانوں کے ذریعے توثیق کیے گئے تھے۔ یہ عمل 20 دوروں کے بعد اچھی طرح سے مل جاتا ہے، جیسا کہ درج ذیل تصویر میں دکھایا گیا ہے۔

SFT تربیتی عمل

فائن ٹیونڈ ماڈل کی توثیق 274 نمونوں کے ذریعے کی گئی تھی، اور قیاس کے نتائج کا موازنہ سیمنٹک مماثلت کے اسکور کے حوالہ سے جوابات سے کیا گیا تھا۔ اسکور 0.8100 ہے، جو روایتی RAG کے 0.6419 کے اسکور سے زیادہ ہے۔

کمک سیکھنے کے لیے انسانی اور AI فیڈ بیک جمع کریں۔

RLHF کے لیے، موضوع کے ماہرین (SMEs) کے لیبل والے اعلیٰ معیار کے تربیتی نمونوں کی کافی مقدار ضروری ہے۔ تاہم، خراب معیار کے انسانی لیبل ممکنہ طور پر RLHF ٹریننگ کے بعد اصل ماڈل سے بدتر ماڈل کی کارکردگی کا سبب بنیں گے۔ SMEs کا وقت ہے۔ کسی بھی تنظیم میں قلیل وسائل; سیکڑوں یا ہزاروں LLM جوابات کا جائزہ لینے اور فیڈ بیک فراہم کرنے کے لیے SMEs سے ایک اہم وقت کی سرمایہ کاری کی ضرورت ہوتی ہے جس کی سرمایہ کاری پر واضح منافع نہیں ہو سکتا۔

اس چیلنج سے نمٹنے کے لیے، ہم نے اپنایا AI فیڈ بیک سے کمک سیکھنا (RLAIF) طریقہ۔ RLAIF ایک AI اسسٹنٹ (ایک اور LLM) کو انسانوں کی بجائے تشخیص کے اسکور فراہم کرنے کے لیے ملازم کرتا ہے۔ اس ہائبرڈ لرننگ اپروچ میں، لرننگ ایجنٹ اعمال کو نہ صرف انسان کے ساتھ تعامل کی بنیاد پر بلکہ دوسرے AI ماڈل کی طرف سے فراہم کردہ تاثرات سے بھی بہتر کرتا ہے۔ کمک سیکھنے کے لیے کافی تربیتی ڈیٹا فراہم کرنا بہت زیادہ قابل توسیع ہے، اور بہت کم موضوعی ہے کیونکہ تربیت SMEs کے ایک چھوٹے سے گروپ کی مخصوص ترجیحات پر منحصر نہیں ہے۔ SMEs اب بھی شامل ہو سکتے ہیں، لیکن صرف اس عمل کی نگرانی اور AI فیڈ بیک کے معیار کی جانچ کرنے کے لیے۔ اس سے SMEs کے کام کا بوجھ بہت کم ہو جاتا ہے، کیونکہ AI سے تیار کردہ سکور اور لیبل SMEs کے لیے تجزیہ، فلٹر اور ترتیب دینے میں بہت کم پیچیدہ ہوتے ہیں۔

استعمال کے اس معاملے میں، ہم انتھروپک کلاڈ 2 ماڈل کو درج ذیل پرامپٹ فراہم کرتے ہیں تاکہ تشخیص کے اسکور کو کمک سیکھنے کے مرحلے کے تربیتی نمونوں کے طور پر بنایا جا سکے۔

"""

Human:

I am going to provide you with a question, a reference answer, and an machine generated answer to the question.

question: {question}

reference answer: {reference_answer}

machine_answer: {machine_answer}

Please analyze the question, the reference answer, and the machine generated answer to determine if the machine generated answer semantically matches the reference answer.

First think through your answer inside of <thinking> tags, then assign a score between 0.0 and 5.0 based on how well the machine answer matches the reference answer. Score 5.0 means a completely match, score 0.0 means a completely mismatch. Answer the score inside of <scoring> tags.

Also provide the reason to give this score inside of <reason> tags.

Assistant: <thinking>

"""

Claude 2 ماڈل ایک تشخیصی سکور اور اسکور کیوں دیا گیا ہے اس پر تبصرہ کرتا ہے، جیسا کہ درج ذیل مثال میں دکھایا گیا ہے۔

س اس تناظر میں 'فٹ آؤٹ ورکس' سے کیا مراد ہے؟
حوالہ جواب Fit Out Works سے مراد وہ کام ہیں جو تعمیراتی معاہدے کے تحت Amazon کے ذریعے یا اس کی جانب سے ڈویلپر کے ذریعے ایک تصوراتی ڈیولپر شیل اور کور بیس بلڈ پوزیشن سے پہلی وصولی کی تاریخ تک کیے گئے ہیں۔ ان کاموں میں ایمیزون کے مطلوبہ فٹ آؤٹ، بڑے باکس کی تنصیبات، اور کسٹم شامل ہیں۔
QA بوٹ جواب Fit Out Works سے مراد وہ کام ہیں جو تعمیراتی معاہدے کے تحت Amazon کے ذریعے یا اس کی جانب سے ڈویلپر کے ذریعے ایک تصوراتی ڈیولپر شیل اور کور بیس بلڈ پوزیشن سے پہلی وصولی کی تاریخ تک کیے گئے ہیں۔
AI سکور 4.5
AI تبصرہ مشین کا جواب معیاری جواب سے کلیدی معلومات فراہم کرتا ہے - کہ Fit Out Works سے مراد وہ کام ہیں جو تعمیراتی معاہدے کے تحت ایمیزون کے ذریعے یا اس کی طرف سے ڈیولپر کے ذریعے ایک تصوراتی ڈیولپر شیل اور کور بیس-بلڈ پوزیشن سے پہلی وصولی کی تاریخ تک۔ . Amazon کے مطلوبہ Fit-Outs، Big-box کی تنصیبات، اور تخصیصات کو شامل کرنے کے بارے میں اضافی تفصیلات متعلقہ ہیں اور مزید سیاق و سباق فراہم کرنے میں مدد کرتی ہیں، اس لیے میں نے مشین کے جواب کو 4.5 میں سے 5 اسکور کیا ہے۔ یہ معیاری جواب کے جوہر کو پکڑتا ہے اور کچھ فراہم کرتا ہے۔ مفید اضافی تفصیلات۔

توثیق کے 274 سوالات میں سے، زیر نگرانی فائن ٹیونڈ ماڈل نے 159 جوابات بنائے جن کے AI اسکور 4 سے زیادہ ہیں۔ ہم نے 60 سے کم اسکور کے ساتھ 3 جوابات کا مشاہدہ کیا۔ مجموعی ردعمل کے معیار کو بہتر بنانے کے لیے جگہ موجود ہے۔

آر ایل ایچ ایف سے پہلے فیڈ بیک اسکور

Amazon Engineering SMEs نے اس AI فیڈ بیک کی توثیق کی اور AI سکور استعمال کرنے کے فوائد کو تسلیم کیا۔ AI فیڈ بیک کے بغیر، SMEs کو ہر LLM جواب کا جائزہ لینے اور تجزیہ کرنے کے لیے کچھ وقت درکار ہوتا ہے تاکہ کٹ آف جوابات اور فریب نظروں کی نشاندہی کی جا سکے، اور یہ فیصلہ کیا جا سکے کہ آیا LLM درست مواد اور کلیدی تصورات واپس کر رہا ہے۔ AI فیڈ بیک خود بخود AI اسکور فراہم کرتا ہے اور SMEs کو اسکورز کی توثیق کرنے اور جوابات میں رجحانات کی نشاندہی کرنے کے لیے فلٹرنگ، چھانٹی اور گروپ بندی کا استعمال کرنے کے قابل بناتا ہے۔ اس سے SME کے جائزے کا اوسط وقت 80% کم ہو جاتا ہے۔

انسانی اور AI فیڈ بیک سے کمک سیکھنا

جب تربیتی نمونے تیار ہوتے ہیں، تو ہم استعمال کرتے ہیں۔ پراکسیمل پالیسی آپٹیمائزیشن (PPO) الگورتھم کمک سیکھنے کو انجام دینے کے لئے. پی پی او پالیسی گریڈینٹ طریقہ استعمال کرتا ہے، جو سیکھنے کے عمل میں پالیسی کو اپ ڈیٹ کرنے کے لیے چھوٹے اقدامات کرتا ہے، تاکہ سیکھنے والے ایجنٹ قابل اعتماد طریقے سے بہترین پالیسی نیٹ ورک تک پہنچ سکیں۔ یہ تربیتی عمل کو مزید مستحکم بناتا ہے اور انحراف کے امکان کو کم کرتا ہے۔

تربیت کے دوران، سب سے پہلے ہم انعامی ماڈل بنانے کے لیے انسانی- اور AI کے لیبل والے ڈیٹا کا استعمال کرتے ہیں، جو سیکھنے کے عمل میں وزن کی تازہ کاری کی رہنمائی کے لیے استعمال کیا جائے گا۔ اس استعمال کے معاملے کے لیے، ہم ایک distilroberta-base reward ماڈل منتخب کرتے ہیں اور اسے درج ذیل فارمیٹ میں نمونوں کے ذریعے تربیت دیتے ہیں:

[Instruction, Chosen_response, Rejected_response]

ذیل میں تربیتی ریکارڈ کی ایک مثال ہے۔

ہدایات سیاق و سباق کے مطابق، جامع اور قابل رسائی ڈیزائن کے لیے کیا مخصوص ہے؟
منتخب_جواب BREEAM کریڈٹ HEA06 - جامع اور قابل رسائی ڈیزائن - عمارت کو مقصد کے لیے موزوں، مناسب اور تمام ممکنہ صارفین کے لیے قابل رسائی ہونے کے لیے ڈیزائن کیا گیا ہے۔ رسائی کی حکمت عملی BREEAM چیک لسٹ A3 کے مطابق تیار کی گئی ہے۔
Rejected_response سیاق و سباق بتاتا ہے۔

انعامی ماڈل کو سیکھنے کی شرح 1e-5 کے ساتھ تربیت دی جاتی ہے۔ جیسا کہ مندرجہ ذیل چارٹ میں دکھایا گیا ہے، تربیت 10 دوروں کے بعد اچھی طرح سے بدل جاتی ہے۔

RLHF تربیتی عمل

پھر ریوارڈ ماڈل کو کمک سیکھنے کے لیے استعمال کیا جاتا ہے۔ اس استعمال کے معاملے کے لیے، ہم سیکھنے کو تیز کرنے کے لیے PEFT/LoRA استعمال کرتے ہیں۔ LoRA_r 32 ہے اور LoRA_alpha 64 ہے۔ PPO پر مبنی لرننگ تین ادوار میں 1.41e-5 کی شرح پر ہے۔ کمک کی تربیت انتہائی غیر مستحکم اور لیبل ڈیٹا اور فیڈ بیک ڈیٹا کے لیے بہت حساس ہے۔ ہم reward_mean میٹرک کا استعمال کرتے ہیں، سیکھنے کے عمل کا مشاہدہ کرنے کے لیے، خاص طور پر انعام کے ماڈل کی نگرانی کرکے ماحول سے حاصل کردہ اوسط انعام۔

RLAIF کے بعد، ہم مثبت سکور (3 سے اوپر) والے بوٹ ردعمل کی تعداد 78.1% سے بڑھ کر 85.5% تک دیکھ سکتے ہیں، اور منفی اسکور والے (3 سے نیچے) 21.9% سے 14.5% تک کم ہوتے ہیں۔ مجموعی طور پر، اوسط AI فیڈ بیک سکور 8 سے 3.9 تک 4.2% تک بڑھ جاتا ہے۔

RLAIF کی طرف سے بہتری

آپ درج ذیل مثال میں بہتری دیکھ سکتے ہیں۔

س فرش کے علاقوں کو ٹائل کرنے کے لئے، کس سکریڈ کی ضرورت ہے؟
حوالہ کنکریٹ اسکریڈ فرش صرف فرش ٹائل والے علاقوں میں لاگو ہوتا ہے۔ فرش ٹائلیں کہاں لاگو ہوتی ہیں یہ دیکھنے کے لیے ڈرائنگ سیریز A-32 سے رجوع کریں۔
RLAIF سے پہلے بوٹ جواب کنکریٹ اسکریڈ فرش صرف میں لاگو ہوتا ہے۔
RLAIF سے پہلے AI سکور 3
RLAIF کے بعد بوٹ جواب کنکریٹ اسکریڈ فرش صرف ان جگہوں پر لاگو ہوتا ہے جہاں ٹائل لگائے گئے ہوں۔ یہ دیکھنے کے لیے ڈرائنگ سیریز A-32 سے رجوع کریں کہ ٹائل کا فرش کہاں لاگو ہوتا ہے۔
RLAIF کے بعد AI سکور 4.5

نتیجہ

یہ پوسٹ ایمیزون EU ڈیزائن اور تعمیراتی ٹیم کے ساتھ ہمارے کام کا تسلسل ہے جیسا کہ میں زیر بحث آیا ایمیزون سیج میکر پر ایمیزون یورپی یونین کے ڈیزائن اور تعمیر میں مدد کرنے کے لیے ایک تخلیقی AI سے چلنے والا حل. اس پوسٹ میں، ہم نے دکھایا کہ کس طرح ہم نے Mistral-7B ماڈل کو کمک سیکھنے کے ساتھ بہتر بنانے کے لیے انسانی اور AI فیڈ بیک ڈیٹا تیار کیا۔ RLAIF کے بعد کے ماڈل نے Amazon انجینئرنگ کے سوال جواب دینے والے بوٹ کے لیے بہتر کارکردگی فراہم کی، AI فیڈ بیک سکور کو 8% بہتر کیا۔ Amazon D&C ٹیم کے پائلٹ پروجیکٹ میں، RLAIF کے استعمال سے SMEs کے لیے توثیق کے کام کا بوجھ ایک اندازے کے مطابق 80% کم ہو گیا۔ اگلے قدم کے طور پر، ہم Amazon انجینئرنگ کے ڈیٹا انفراسٹرکچر سے منسلک ہو کر اس حل کو بڑھا دیں گے، اور ایک فریم ورک ڈیزائن کریں گے تاکہ ایک انسان کے ساتھ سیکھنے کے مسلسل عمل کو خودکار بنایا جا سکے۔ ہم پرامپٹ ٹیمپلیٹ کو ٹیون کر کے AI فیڈ بیک کے معیار کو مزید بہتر بنائیں گے۔

اس عمل کے ذریعے، ہم نے سیکھا کہ RLHF اور RLAIF کے ذریعے سوالوں کے جواب دینے والے کاموں کے معیار اور کارکردگی کو مزید کیسے بہتر بنایا جائے۔

  • LLM سے درست اور ذمہ دارانہ نتائج فراہم کرنے کے لیے انسانی توثیق اور اضافہ ضروری ہے۔ ماڈل کے ردعمل کو مزید بہتر بنانے کے لیے RLHF میں انسانی تاثرات کا استعمال کیا جا سکتا ہے۔
  • RLAIF تشخیص اور سیکھنے کے چکر کو خودکار کرتا ہے۔ AI سے تیار کردہ فیڈ بیک کم ساپیکش ہوتا ہے کیونکہ یہ SMEs کے چھوٹے تالاب کی کسی خاص ترجیح پر منحصر نہیں ہوتا ہے۔
  • RLAIF SMEs سے درکار کوششوں کو کم سے کم کرتے ہوئے مسلسل کمک سیکھنے کے ذریعے بوٹ کے معیار کو بہتر بنانے کے لیے زیادہ قابل توسیع ہے۔ یہ خاص طور پر بڑی تنظیموں کے اندر ڈومین کے لیے مخصوص جنریٹو AI حل تیار کرنے کے لیے مفید ہے۔
  • یہ عمل مستقل بنیادوں پر کیا جانا چاہیے، خاص طور پر جب نیا ڈومین ڈیٹا دستیاب ہو جو حل کے ذریعے احاطہ کرے۔

اس استعمال کے معاملے میں، ہم نے SageMaker JumpStart کا استعمال ایک سے زیادہ LLMs کی جانچ کرنے اور متعدد LLM ٹریننگ کے طریقوں کے ساتھ تجربہ کرنے کے لیے کیا۔ یہ زیادہ سے زیادہ کارکردگی اور معیار کے ساتھ AI فیڈ بیک اور سیکھنے کے چکر کو نمایاں طور پر تیز کرتا ہے۔ آپ کے اپنے پروجیکٹ کے لیے، آپ اپنے صارفین کے تاثرات اکٹھا کرنے کے لیے ہیومن ان دی لوپ اپروچ متعارف کروا سکتے ہیں، یا کسی اور LLM کا استعمال کرتے ہوئے AI فیڈ بیک تیار کر سکتے ہیں۔ پھر آپ RLHF اور RLAIF کا استعمال کرتے ہوئے اپنے ماڈلز کو ٹھیک کرنے کے لیے اس پوسٹ میں بیان کردہ تین قدمی عمل کی پیروی کر سکتے ہیں۔ ہم عمل کو تیز کرنے کے لیے SageMaker JumpStart کا استعمال کرتے ہوئے طریقوں کے ساتھ تجربہ کرنے کی تجویز کرتے ہیں۔


مصنف کے بارے میں

یونفییونفی بائی AWS میں ایک سینئر سولیوشن آرکیٹیکٹ ہے۔ AI/ML، ڈیٹا سائنس اور تجزیات میں پس منظر کے ساتھ، Yunfei صارفین کو کاروباری نتائج فراہم کرنے کے لیے AWS سروسز کو اپنانے میں مدد کرتا ہے۔ وہ AI/ML اور ڈیٹا اینالیٹکس سلوشنز ڈیزائن کرتا ہے جو پیچیدہ تکنیکی چیلنجوں پر قابو پاتے ہیں اور اسٹریٹجک مقاصد کو آگے بڑھاتے ہیں۔ Yunfei نے الیکٹرانک اور الیکٹریکل انجینئرنگ میں پی ایچ ڈی کی ہے۔ کام سے باہر، یونفی کو پڑھنے اور موسیقی کا شوق ہے۔

ایلاد_تصویرایلاد ڈویک ایمیزون میں کنسٹرکشن ٹیکنالوجی مینیجر ہے۔ تعمیراتی اور پراجیکٹ مینجمنٹ میں پس منظر کے ساتھ، ایلاد ٹیموں کو تعمیراتی منصوبوں کی فراہمی کے لیے نئی ٹیکنالوجیز اور ڈیٹا پر مبنی عمل کو اپنانے میں مدد کرتا ہے۔ وہ ضروریات اور حل کی نشاندہی کرتا ہے، اور مخصوص صفات کی ترقی میں سہولت فراہم کرتا ہے۔ ایلاد نے سٹرکچرل انجینئرنگ میں ایم بی اے اور بی ایس سی کیا ہے۔ کام سے باہر، ایلاد کو یوگا، لکڑی کا کام کرنا، اور اپنے خاندان کے ساتھ سفر کرنا پسند ہے۔

لوکا_فوٹولوکا سیرابون ایمیزون میں بزنس انٹیلی جنس انجینئر ہے۔ ڈیٹا سائنس اور تجزیات میں اپنے پس منظر سے ڈرائنگ کرتے ہوئے، لوکا کرافٹس نے اپنے صارفین کی منفرد ضروریات کو پورا کرنے کے لیے تکنیکی حل تیار کیے، جو انھیں زیادہ پائیدار اور قابل توسیع عمل کی طرف لے گئے۔ ڈیٹا سائنس میں MSc کے ساتھ لیس، لوکا کو DIY پروجیکٹس میں مشغول ہونے، باغبانی کرنے اور فراغت کے لمحات میں پکوان کی لذتوں کے ساتھ تجربہ کرنے کا لطف آتا ہے۔

ٹائم اسٹیمپ:

سے زیادہ AWS مشین لرننگ