Amazon EU ڈیزائن اینڈ کنسٹرکشن (Amazon D&C) ٹیم ایمیزون گوداموں کو ڈیزائن اور تعمیر کرنے والی انجینئرنگ ٹیم ہے۔ ٹیم دستاویزات کی ایک بڑی مقدار کو نیویگیٹ کرتی ہے اور اس بات کو یقینی بنانے کے لیے صحیح معلومات کا پتہ لگاتی ہے کہ گودام کا ڈیزائن اعلیٰ ترین معیارات پر پورا اترتا ہے۔ پوسٹ میں ایمیزون سیج میکر پر ایمیزون یورپی یونین کے ڈیزائن اور تعمیر میں مدد کرنے کے لیے ایک تخلیقی AI سے چلنے والا حل، ہم نے ایک سوال کا جواب دینے والے بوٹ حل کا استعمال کرتے ہوئے پیش کیا۔ بازیافت اگمینٹڈ جنریشن (RAG) پائپ لائن ٹھیک ٹیون کے ساتھ بڑی زبان کا ماڈل (LLM) Amazon D&C کے لیے غیر منظم دستاویزات کی ایک بڑی مقدار سے درست معلومات کو مؤثر طریقے سے بازیافت کرنے اور اپنے تعمیراتی منصوبوں میں بروقت اور اعلیٰ معیار کی خدمات فراہم کرنے کے لیے۔ Amazon D&C ٹیم نے Amazon انجینئرز کے لیے ایک پائلٹ میں حل کو نافذ کیا اور صارف کی رائے اکٹھی کی۔
اس پوسٹ میں، ہم شیئر کرتے ہیں کہ ہم نے فیڈ بیک ڈیٹا کا تجزیہ کیسے کیا اور RAG کی فراہم کردہ درستگی اور فریب کاری کی حدود کی نشاندہی کی، اور ماڈل کو تربیت دینے کے لیے انسانی تشخیص کے اسکور کا استعمال کیا۔ قابو پانے کی تعلیم. بہتر سیکھنے کے لیے تربیتی نمونوں کو بڑھانے کے لیے، ہم نے فیڈ بیک سکور بنانے کے لیے ایک اور LLM بھی استعمال کیا۔ اس طریقہ نے RAG کی حد کو دور کیا اور بوٹ رسپانس کے معیار کو مزید بہتر کیا۔ ہم LLM کارکردگی میں بہتری کو ظاہر کرنے کے لیے کمک سیکھنے کے عمل اور بینچ مارکنگ کے نتائج پیش کرتے ہیں۔ حل استعمال کرتا ہے۔ ایمیزون سیج میکر جمپ اسٹارٹ ماڈل کی تعیناتی، فائن ٹیوننگ، اور کمک سیکھنے کے لیے بنیادی خدمت کے طور پر۔
پائلٹ پروجیکٹ میں Amazon انجینئرز سے فیڈ بیک جمع کریں۔
میں بیان کردہ حل تیار کرنے کے بعد ایمیزون سیج میکر پر ایمیزون یورپی یونین کے ڈیزائن اور تعمیر میں مدد کرنے کے لیے ایک تخلیقی AI سے چلنے والا حل، Amazon D&C ٹیم نے حل کو تعینات کیا اور Amazon انجینئرز کے ساتھ ایک پائلٹ پروجیکٹ چلایا۔ انجینئرز نے ایک ویب ایپلیکیشن کے ذریعے پائلٹ سسٹم تک رسائی حاصل کی۔ اسٹریم لائٹ، RAG پائپ لائن سے منسلک ہے۔ پائپ لائن میں، ہم نے استعمال کیا ایمیزون اوپن سرچ سروس ویکٹر ڈیٹا بیس کے لیے، اور Amazon SageMaker پر ایک عمدہ Mistral-7B-Instruct ماڈل تعینات کیا۔
پائلٹ کے اہم مقاصد میں سے ایک Amazon انجینئرز سے فیڈ بیک اکٹھا کرنا اور LLM فریب نظر کو مزید کم کرنے کے لیے فیڈ بیک کا استعمال کرنا ہے۔ اس مقصد کو حاصل کرنے کے لیے، ہم نے UI میں فیڈ بیک کلیکشن ماڈیول تیار کیا، جیسا کہ مندرجہ ذیل تصویر میں دکھایا گیا ہے، اور ویب سیشن کی معلومات اور صارف کے تاثرات کو اس میں محفوظ کیا۔ ایمیزون ڈائنومو ڈی بی. تاثرات جمع کرنے والے UI کے ذریعے، Amazon انجینئرز اطمینان کی پانچ سطحوں میں سے انتخاب کر سکتے ہیں: 1–5 کے فیڈ بیک سکور کے مطابق، سختی سے متفق، متفق، غیر جانبدار، متفق، اور پختہ طور پر متفق۔ وہ اس سوال کا بہتر جواب بھی دے سکتے ہیں یا اس پر تبصرہ کر سکتے ہیں کہ ایل ایل ایم کا جواب تسلی بخش کیوں نہیں ہے۔
پائلٹ کے دوران، صارفین نے 118 فیڈ بیک جوابات فراہم کیے۔ مندرجہ ذیل چارٹ منفی سے مثبت کی تقسیم کو ظاہر کرتا ہے۔ ہم نے مشاہدہ کیا کہ منفی آراء کے ذریعہ نشان زد غلط جوابات (اختلاف اور سختی سے متفق نہیں) کل فیڈ بیک میں 45% ہیں (53 میں سے 118)۔ کچھ غلطیاں (تقریباً 10% منفی تاثرات اور 7.5% مجموعی ردعمل) کو صارف کی تعلیم اور فوری انجینئرنگ کے ذریعے دور کیا جا سکتا ہے۔ مزید برآں، ہم اگلے حصے میں بیان کردہ LLM فائن ٹیوننگ اور کمک سیکھنے کے حل کے ساتھ اس مسئلے کو حل کر سکتے ہیں۔
کچھ صارفین نے صرف ایک نوٹ چھوڑا، جیسے "زبردست!" سختی سے متفق جوابات کے لیے، یا "سوال کا جواب نہیں دیتا"، سختی سے متفق جوابات کے لیے۔ دوسرے صارفین نے اسکور فراہم کیے اور وضاحت کی کہ وہ اپنے نوٹوں میں LLM جوابات کا جواز کیسے پیش کرتے ہیں۔ درج ذیل مثال میں، صارف نے خاص طور پر LLM فریب کو درست کرنے کے لیے مناسب دستاویز اور مواد فراہم کیا۔
س | ہمارے پاس کار پارکنگ کی کتنی جگہیں ہیں؟ |
بوٹ جواب |
دیے گئے سیاق و سباق کی بنیاد پر، ہمارے پاس کار پارکنگ کی جگہوں کی تعداد کا تعین کرنے کے لیے کافی معلومات نہیں ہیں۔ سیاق و سباق پارکنگ کی جگہوں کے کم از کم سائز اور بیرونی روشنی کی سطح کے تقاضوں پر بحث کرتا ہے، لیکن یہ پارکنگ کی جگہوں کی مخصوص تعداد فراہم نہیں کرتا ہے۔ **آپ درج ذیل وسائل میں مزید وضاحتوں کا حوالہ دے سکتے ہیں:** * ARS GEN 10.0/05.01.02۔ ڈیزائن کے معیار اور ضمیمہ/کارکردگی کا پیکیج AR ترتیب دینے والا ڈیزائن کا معیار v20.1.1.pdf - صفحہ: 10 * ARS GEN 10.0/05.01.02۔ ڈیزائن کے معیار اور ضمیمہ/کارکردگی کا پیکیج AR ترتیب دینے والا ڈیزائن کا معیار v20.1.1.pdf - صفحہ: 79 |
صارف کا سکور | بہت زیادہ اختلاف |
صارف کے نوٹس | یہ ڈیزائن کے معیار سیکشن 21 01 13 کے صفحہ 10 پر بیان کیا گیا ہے۔ |
زیر نگرانی فائن ٹیوننگ اور کمک سیکھنے کے ساتھ بوٹ کے ردعمل کو بہتر بنائیں
حل ٹھیک ٹیوننگ کے تین مراحل پر مشتمل ہے:
- لیبل شدہ ڈیٹا کا استعمال کرتے ہوئے زیر نگرانی فائن ٹیوننگ انجام دیں۔ میں یہ طریقہ بیان کیا گیا ہے۔ ایمیزون سیج میکر پر ایمیزون یورپی یونین کے ڈیزائن اور تعمیر میں مدد کرنے کے لیے ایک تخلیقی AI سے چلنے والا حل.
- مزید LLM ٹیوننگ کے لیے سوال جواب کے جوڑوں پر لیبل لگانے کے لیے صارف کے تاثرات جمع کریں۔
- جب تربیتی ڈیٹا تیار ہو جائے تو اس کا استعمال کرتے ہوئے ماڈل کو مزید ٹیون کریں۔ انسانی آراء سے کمک سیکھنا (RLHF)۔
RLHF بڑے پیمانے پر تخلیقی مصنوعی ذہانت (AI) اور LLM ایپلی کیشنز میں استعمال ہوتا ہے۔ یہ انعامات کے فنکشن میں انسانی تاثرات کو شامل کرتا ہے اور انعامات کو زیادہ سے زیادہ حاصل کرنے کے لیے ماڈل کو کمک سیکھنے والے الگورتھم کے ساتھ تربیت دیتا ہے، جس سے ماڈل انسانی اہداف کے ساتھ کاموں کو مزید ہم آہنگ کرتا ہے۔ مندرجہ ذیل خاکہ قدموں کی پائپ لائن کو دکھاتا ہے۔
ہم نے SageMaker JumpStart پر Mistral-7B ماڈل کے ساتھ Amazon D&C دستاویزات کا استعمال کرتے ہوئے طریقہ کار کا تجربہ کیا۔
فائن ٹیوننگ کی نگرانی کی۔
پچھلی پوسٹ میں، ہم نے دکھایا تھا کہ کس طرح ٹھیک ٹیونڈ Falcon-7B ماڈل RAG پائپ لائن سے بہتر کارکردگی کا مظاہرہ کرتا ہے اور QA بوٹ جواب کے معیار اور درستگی کو بہتر بناتا ہے۔ اس پوسٹ کے لیے، ہم نے Mistral-7B ماڈل پر فائن ٹیوننگ کی نگرانی کی۔ زیر نگرانی فائن ٹیوننگ نے PEFT/LoRA تکنیک (LoRA_r = 512، LoRA_alpha = 1024) کو 436,207,616 پیرامیٹرز (کل 5.68 پیرامیٹرز کا 7,677,964,288%) پر استعمال کیا۔ تربیت ایک p3.8x نوڈ پر منعقد کی گئی تھی جس میں 137 نمونے مصنوعی طور پر LLM کے ذریعے تیار کیے گئے تھے اور انسانوں کے ذریعے توثیق کیے گئے تھے۔ یہ عمل 20 دوروں کے بعد اچھی طرح سے مل جاتا ہے، جیسا کہ درج ذیل تصویر میں دکھایا گیا ہے۔
فائن ٹیونڈ ماڈل کی توثیق 274 نمونوں کے ذریعے کی گئی تھی، اور قیاس کے نتائج کا موازنہ سیمنٹک مماثلت کے اسکور کے حوالہ سے جوابات سے کیا گیا تھا۔ اسکور 0.8100 ہے، جو روایتی RAG کے 0.6419 کے اسکور سے زیادہ ہے۔
کمک سیکھنے کے لیے انسانی اور AI فیڈ بیک جمع کریں۔
RLHF کے لیے، موضوع کے ماہرین (SMEs) کے لیبل والے اعلیٰ معیار کے تربیتی نمونوں کی کافی مقدار ضروری ہے۔ تاہم، خراب معیار کے انسانی لیبل ممکنہ طور پر RLHF ٹریننگ کے بعد اصل ماڈل سے بدتر ماڈل کی کارکردگی کا سبب بنیں گے۔ SMEs کا وقت ہے۔ کسی بھی تنظیم میں قلیل وسائل; سیکڑوں یا ہزاروں LLM جوابات کا جائزہ لینے اور فیڈ بیک فراہم کرنے کے لیے SMEs سے ایک اہم وقت کی سرمایہ کاری کی ضرورت ہوتی ہے جس کی سرمایہ کاری پر واضح منافع نہیں ہو سکتا۔
اس چیلنج سے نمٹنے کے لیے، ہم نے اپنایا AI فیڈ بیک سے کمک سیکھنا (RLAIF) طریقہ۔ RLAIF ایک AI اسسٹنٹ (ایک اور LLM) کو انسانوں کی بجائے تشخیص کے اسکور فراہم کرنے کے لیے ملازم کرتا ہے۔ اس ہائبرڈ لرننگ اپروچ میں، لرننگ ایجنٹ اعمال کو نہ صرف انسان کے ساتھ تعامل کی بنیاد پر بلکہ دوسرے AI ماڈل کی طرف سے فراہم کردہ تاثرات سے بھی بہتر کرتا ہے۔ کمک سیکھنے کے لیے کافی تربیتی ڈیٹا فراہم کرنا بہت زیادہ قابل توسیع ہے، اور بہت کم موضوعی ہے کیونکہ تربیت SMEs کے ایک چھوٹے سے گروپ کی مخصوص ترجیحات پر منحصر نہیں ہے۔ SMEs اب بھی شامل ہو سکتے ہیں، لیکن صرف اس عمل کی نگرانی اور AI فیڈ بیک کے معیار کی جانچ کرنے کے لیے۔ اس سے SMEs کے کام کا بوجھ بہت کم ہو جاتا ہے، کیونکہ AI سے تیار کردہ سکور اور لیبل SMEs کے لیے تجزیہ، فلٹر اور ترتیب دینے میں بہت کم پیچیدہ ہوتے ہیں۔
استعمال کے اس معاملے میں، ہم انتھروپک کلاڈ 2 ماڈل کو درج ذیل پرامپٹ فراہم کرتے ہیں تاکہ تشخیص کے اسکور کو کمک سیکھنے کے مرحلے کے تربیتی نمونوں کے طور پر بنایا جا سکے۔
Claude 2 ماڈل ایک تشخیصی سکور اور اسکور کیوں دیا گیا ہے اس پر تبصرہ کرتا ہے، جیسا کہ درج ذیل مثال میں دکھایا گیا ہے۔
س | اس تناظر میں 'فٹ آؤٹ ورکس' سے کیا مراد ہے؟ |
حوالہ جواب | Fit Out Works سے مراد وہ کام ہیں جو تعمیراتی معاہدے کے تحت Amazon کے ذریعے یا اس کی جانب سے ڈویلپر کے ذریعے ایک تصوراتی ڈیولپر شیل اور کور بیس بلڈ پوزیشن سے پہلی وصولی کی تاریخ تک کیے گئے ہیں۔ ان کاموں میں ایمیزون کے مطلوبہ فٹ آؤٹ، بڑے باکس کی تنصیبات، اور کسٹم شامل ہیں۔ |
QA بوٹ جواب | Fit Out Works سے مراد وہ کام ہیں جو تعمیراتی معاہدے کے تحت Amazon کے ذریعے یا اس کی جانب سے ڈویلپر کے ذریعے ایک تصوراتی ڈیولپر شیل اور کور بیس بلڈ پوزیشن سے پہلی وصولی کی تاریخ تک کیے گئے ہیں۔ |
AI سکور | 4.5 |
AI تبصرہ | مشین کا جواب معیاری جواب سے کلیدی معلومات فراہم کرتا ہے - کہ Fit Out Works سے مراد وہ کام ہیں جو تعمیراتی معاہدے کے تحت ایمیزون کے ذریعے یا اس کی طرف سے ڈیولپر کے ذریعے ایک تصوراتی ڈیولپر شیل اور کور بیس-بلڈ پوزیشن سے پہلی وصولی کی تاریخ تک۔ . Amazon کے مطلوبہ Fit-Outs، Big-box کی تنصیبات، اور تخصیصات کو شامل کرنے کے بارے میں اضافی تفصیلات متعلقہ ہیں اور مزید سیاق و سباق فراہم کرنے میں مدد کرتی ہیں، اس لیے میں نے مشین کے جواب کو 4.5 میں سے 5 اسکور کیا ہے۔ یہ معیاری جواب کے جوہر کو پکڑتا ہے اور کچھ فراہم کرتا ہے۔ مفید اضافی تفصیلات۔ |
توثیق کے 274 سوالات میں سے، زیر نگرانی فائن ٹیونڈ ماڈل نے 159 جوابات بنائے جن کے AI اسکور 4 سے زیادہ ہیں۔ ہم نے 60 سے کم اسکور کے ساتھ 3 جوابات کا مشاہدہ کیا۔ مجموعی ردعمل کے معیار کو بہتر بنانے کے لیے جگہ موجود ہے۔
Amazon Engineering SMEs نے اس AI فیڈ بیک کی توثیق کی اور AI سکور استعمال کرنے کے فوائد کو تسلیم کیا۔ AI فیڈ بیک کے بغیر، SMEs کو ہر LLM جواب کا جائزہ لینے اور تجزیہ کرنے کے لیے کچھ وقت درکار ہوتا ہے تاکہ کٹ آف جوابات اور فریب نظروں کی نشاندہی کی جا سکے، اور یہ فیصلہ کیا جا سکے کہ آیا LLM درست مواد اور کلیدی تصورات واپس کر رہا ہے۔ AI فیڈ بیک خود بخود AI اسکور فراہم کرتا ہے اور SMEs کو اسکورز کی توثیق کرنے اور جوابات میں رجحانات کی نشاندہی کرنے کے لیے فلٹرنگ، چھانٹی اور گروپ بندی کا استعمال کرنے کے قابل بناتا ہے۔ اس سے SME کے جائزے کا اوسط وقت 80% کم ہو جاتا ہے۔
انسانی اور AI فیڈ بیک سے کمک سیکھنا
جب تربیتی نمونے تیار ہوتے ہیں، تو ہم استعمال کرتے ہیں۔ پراکسیمل پالیسی آپٹیمائزیشن (PPO) الگورتھم کمک سیکھنے کو انجام دینے کے لئے. پی پی او پالیسی گریڈینٹ طریقہ استعمال کرتا ہے، جو سیکھنے کے عمل میں پالیسی کو اپ ڈیٹ کرنے کے لیے چھوٹے اقدامات کرتا ہے، تاکہ سیکھنے والے ایجنٹ قابل اعتماد طریقے سے بہترین پالیسی نیٹ ورک تک پہنچ سکیں۔ یہ تربیتی عمل کو مزید مستحکم بناتا ہے اور انحراف کے امکان کو کم کرتا ہے۔
تربیت کے دوران، سب سے پہلے ہم انعامی ماڈل بنانے کے لیے انسانی- اور AI کے لیبل والے ڈیٹا کا استعمال کرتے ہیں، جو سیکھنے کے عمل میں وزن کی تازہ کاری کی رہنمائی کے لیے استعمال کیا جائے گا۔ اس استعمال کے معاملے کے لیے، ہم ایک distilroberta-base reward ماڈل منتخب کرتے ہیں اور اسے درج ذیل فارمیٹ میں نمونوں کے ذریعے تربیت دیتے ہیں:
[Instruction, Chosen_response, Rejected_response]
ذیل میں تربیتی ریکارڈ کی ایک مثال ہے۔
ہدایات | سیاق و سباق کے مطابق، جامع اور قابل رسائی ڈیزائن کے لیے کیا مخصوص ہے؟ |
منتخب_جواب | BREEAM کریڈٹ HEA06 - جامع اور قابل رسائی ڈیزائن - عمارت کو مقصد کے لیے موزوں، مناسب اور تمام ممکنہ صارفین کے لیے قابل رسائی ہونے کے لیے ڈیزائن کیا گیا ہے۔ رسائی کی حکمت عملی BREEAM چیک لسٹ A3 کے مطابق تیار کی گئی ہے۔ |
Rejected_response | سیاق و سباق بتاتا ہے۔ |
انعامی ماڈل کو سیکھنے کی شرح 1e-5 کے ساتھ تربیت دی جاتی ہے۔ جیسا کہ مندرجہ ذیل چارٹ میں دکھایا گیا ہے، تربیت 10 دوروں کے بعد اچھی طرح سے بدل جاتی ہے۔
پھر ریوارڈ ماڈل کو کمک سیکھنے کے لیے استعمال کیا جاتا ہے۔ اس استعمال کے معاملے کے لیے، ہم سیکھنے کو تیز کرنے کے لیے PEFT/LoRA استعمال کرتے ہیں۔ LoRA_r 32 ہے اور LoRA_alpha 64 ہے۔ PPO پر مبنی لرننگ تین ادوار میں 1.41e-5 کی شرح پر ہے۔ کمک کی تربیت انتہائی غیر مستحکم اور لیبل ڈیٹا اور فیڈ بیک ڈیٹا کے لیے بہت حساس ہے۔ ہم reward_mean میٹرک کا استعمال کرتے ہیں، سیکھنے کے عمل کا مشاہدہ کرنے کے لیے، خاص طور پر انعام کے ماڈل کی نگرانی کرکے ماحول سے حاصل کردہ اوسط انعام۔
RLAIF کے بعد، ہم مثبت سکور (3 سے اوپر) والے بوٹ ردعمل کی تعداد 78.1% سے بڑھ کر 85.5% تک دیکھ سکتے ہیں، اور منفی اسکور والے (3 سے نیچے) 21.9% سے 14.5% تک کم ہوتے ہیں۔ مجموعی طور پر، اوسط AI فیڈ بیک سکور 8 سے 3.9 تک 4.2% تک بڑھ جاتا ہے۔
آپ درج ذیل مثال میں بہتری دیکھ سکتے ہیں۔
س | فرش کے علاقوں کو ٹائل کرنے کے لئے، کس سکریڈ کی ضرورت ہے؟ |
حوالہ | کنکریٹ اسکریڈ فرش صرف فرش ٹائل والے علاقوں میں لاگو ہوتا ہے۔ فرش ٹائلیں کہاں لاگو ہوتی ہیں یہ دیکھنے کے لیے ڈرائنگ سیریز A-32 سے رجوع کریں۔ |
RLAIF سے پہلے بوٹ جواب | کنکریٹ اسکریڈ فرش صرف میں لاگو ہوتا ہے۔ |
RLAIF سے پہلے AI سکور | 3 |
RLAIF کے بعد بوٹ جواب | کنکریٹ اسکریڈ فرش صرف ان جگہوں پر لاگو ہوتا ہے جہاں ٹائل لگائے گئے ہوں۔ یہ دیکھنے کے لیے ڈرائنگ سیریز A-32 سے رجوع کریں کہ ٹائل کا فرش کہاں لاگو ہوتا ہے۔ |
RLAIF کے بعد AI سکور | 4.5 |
نتیجہ
یہ پوسٹ ایمیزون EU ڈیزائن اور تعمیراتی ٹیم کے ساتھ ہمارے کام کا تسلسل ہے جیسا کہ میں زیر بحث آیا ایمیزون سیج میکر پر ایمیزون یورپی یونین کے ڈیزائن اور تعمیر میں مدد کرنے کے لیے ایک تخلیقی AI سے چلنے والا حل. اس پوسٹ میں، ہم نے دکھایا کہ کس طرح ہم نے Mistral-7B ماڈل کو کمک سیکھنے کے ساتھ بہتر بنانے کے لیے انسانی اور AI فیڈ بیک ڈیٹا تیار کیا۔ RLAIF کے بعد کے ماڈل نے Amazon انجینئرنگ کے سوال جواب دینے والے بوٹ کے لیے بہتر کارکردگی فراہم کی، AI فیڈ بیک سکور کو 8% بہتر کیا۔ Amazon D&C ٹیم کے پائلٹ پروجیکٹ میں، RLAIF کے استعمال سے SMEs کے لیے توثیق کے کام کا بوجھ ایک اندازے کے مطابق 80% کم ہو گیا۔ اگلے قدم کے طور پر، ہم Amazon انجینئرنگ کے ڈیٹا انفراسٹرکچر سے منسلک ہو کر اس حل کو بڑھا دیں گے، اور ایک فریم ورک ڈیزائن کریں گے تاکہ ایک انسان کے ساتھ سیکھنے کے مسلسل عمل کو خودکار بنایا جا سکے۔ ہم پرامپٹ ٹیمپلیٹ کو ٹیون کر کے AI فیڈ بیک کے معیار کو مزید بہتر بنائیں گے۔
اس عمل کے ذریعے، ہم نے سیکھا کہ RLHF اور RLAIF کے ذریعے سوالوں کے جواب دینے والے کاموں کے معیار اور کارکردگی کو مزید کیسے بہتر بنایا جائے۔
- LLM سے درست اور ذمہ دارانہ نتائج فراہم کرنے کے لیے انسانی توثیق اور اضافہ ضروری ہے۔ ماڈل کے ردعمل کو مزید بہتر بنانے کے لیے RLHF میں انسانی تاثرات کا استعمال کیا جا سکتا ہے۔
- RLAIF تشخیص اور سیکھنے کے چکر کو خودکار کرتا ہے۔ AI سے تیار کردہ فیڈ بیک کم ساپیکش ہوتا ہے کیونکہ یہ SMEs کے چھوٹے تالاب کی کسی خاص ترجیح پر منحصر نہیں ہوتا ہے۔
- RLAIF SMEs سے درکار کوششوں کو کم سے کم کرتے ہوئے مسلسل کمک سیکھنے کے ذریعے بوٹ کے معیار کو بہتر بنانے کے لیے زیادہ قابل توسیع ہے۔ یہ خاص طور پر بڑی تنظیموں کے اندر ڈومین کے لیے مخصوص جنریٹو AI حل تیار کرنے کے لیے مفید ہے۔
- یہ عمل مستقل بنیادوں پر کیا جانا چاہیے، خاص طور پر جب نیا ڈومین ڈیٹا دستیاب ہو جو حل کے ذریعے احاطہ کرے۔
اس استعمال کے معاملے میں، ہم نے SageMaker JumpStart کا استعمال ایک سے زیادہ LLMs کی جانچ کرنے اور متعدد LLM ٹریننگ کے طریقوں کے ساتھ تجربہ کرنے کے لیے کیا۔ یہ زیادہ سے زیادہ کارکردگی اور معیار کے ساتھ AI فیڈ بیک اور سیکھنے کے چکر کو نمایاں طور پر تیز کرتا ہے۔ آپ کے اپنے پروجیکٹ کے لیے، آپ اپنے صارفین کے تاثرات اکٹھا کرنے کے لیے ہیومن ان دی لوپ اپروچ متعارف کروا سکتے ہیں، یا کسی اور LLM کا استعمال کرتے ہوئے AI فیڈ بیک تیار کر سکتے ہیں۔ پھر آپ RLHF اور RLAIF کا استعمال کرتے ہوئے اپنے ماڈلز کو ٹھیک کرنے کے لیے اس پوسٹ میں بیان کردہ تین قدمی عمل کی پیروی کر سکتے ہیں۔ ہم عمل کو تیز کرنے کے لیے SageMaker JumpStart کا استعمال کرتے ہوئے طریقوں کے ساتھ تجربہ کرنے کی تجویز کرتے ہیں۔
مصنف کے بارے میں
یونفی بائی AWS میں ایک سینئر سولیوشن آرکیٹیکٹ ہے۔ AI/ML، ڈیٹا سائنس اور تجزیات میں پس منظر کے ساتھ، Yunfei صارفین کو کاروباری نتائج فراہم کرنے کے لیے AWS سروسز کو اپنانے میں مدد کرتا ہے۔ وہ AI/ML اور ڈیٹا اینالیٹکس سلوشنز ڈیزائن کرتا ہے جو پیچیدہ تکنیکی چیلنجوں پر قابو پاتے ہیں اور اسٹریٹجک مقاصد کو آگے بڑھاتے ہیں۔ Yunfei نے الیکٹرانک اور الیکٹریکل انجینئرنگ میں پی ایچ ڈی کی ہے۔ کام سے باہر، یونفی کو پڑھنے اور موسیقی کا شوق ہے۔
ایلاد ڈویک ایمیزون میں کنسٹرکشن ٹیکنالوجی مینیجر ہے۔ تعمیراتی اور پراجیکٹ مینجمنٹ میں پس منظر کے ساتھ، ایلاد ٹیموں کو تعمیراتی منصوبوں کی فراہمی کے لیے نئی ٹیکنالوجیز اور ڈیٹا پر مبنی عمل کو اپنانے میں مدد کرتا ہے۔ وہ ضروریات اور حل کی نشاندہی کرتا ہے، اور مخصوص صفات کی ترقی میں سہولت فراہم کرتا ہے۔ ایلاد نے سٹرکچرل انجینئرنگ میں ایم بی اے اور بی ایس سی کیا ہے۔ کام سے باہر، ایلاد کو یوگا، لکڑی کا کام کرنا، اور اپنے خاندان کے ساتھ سفر کرنا پسند ہے۔
لوکا سیرابون ایمیزون میں بزنس انٹیلی جنس انجینئر ہے۔ ڈیٹا سائنس اور تجزیات میں اپنے پس منظر سے ڈرائنگ کرتے ہوئے، لوکا کرافٹس نے اپنے صارفین کی منفرد ضروریات کو پورا کرنے کے لیے تکنیکی حل تیار کیے، جو انھیں زیادہ پائیدار اور قابل توسیع عمل کی طرف لے گئے۔ ڈیٹا سائنس میں MSc کے ساتھ لیس، لوکا کو DIY پروجیکٹس میں مشغول ہونے، باغبانی کرنے اور فراغت کے لمحات میں پکوان کی لذتوں کے ساتھ تجربہ کرنے کا لطف آتا ہے۔
- SEO سے چلنے والا مواد اور PR کی تقسیم۔ آج ہی بڑھا دیں۔
- پلیٹو ڈیٹا ڈاٹ نیٹ ورک ورٹیکل جنریٹو اے آئی۔ اپنے آپ کو بااختیار بنائیں۔ یہاں تک رسائی حاصل کریں۔
- پلیٹوآئ اسٹریم۔ ویب 3 انٹیلی جنس۔ علم میں اضافہ۔ یہاں تک رسائی حاصل کریں۔
- پلیٹو ای ایس جی۔ کاربن، کلین ٹیک، توانائی ، ماحولیات، شمسی، ویسٹ مینجمنٹ یہاں تک رسائی حاصل کریں۔
- پلیٹو ہیلتھ۔ بائیوٹیک اینڈ کلینیکل ٹرائلز انٹیلی جنس۔ یہاں تک رسائی حاصل کریں۔
- ماخذ: https://aws.amazon.com/blogs/machine-learning/improve-llm-performance-with-human-and-ai-feedback-on-amazon-sagemaker-for-amazon-engineering/
- : ہے
- : ہے
- : نہیں
- :کہاں
- $UP
- 01
- 1
- 10
- 100
- 118
- 13
- 14
- 16
- 17
- 20
- 32
- 60
- 7
- 8
- 9
- a
- ہمارے بارے میں
- اوپر
- رفتار کو تیز تر
- تیز رفتار
- تک رسائی حاصل
- رسائی
- قابل رسائی
- درستگی
- درست
- حاصل
- کا اعتراف
- اعمال
- ایڈیشنل
- اس کے علاوہ
- پتہ
- خطاب کیا
- مناسب
- اپنانے
- اپنایا
- کے بعد
- ایجنٹ
- ایجنٹ
- AI
- اے آئی اسسٹنٹ
- AI سے چلنے والا
- AI / ML
- یلگورتم
- منسلک
- تمام
- بھی
- am
- ایمیزون
- ایمیزون سیج میکر
- ایمیزون ویب سروسز
- کے درمیان
- رقم
- an
- تجزیاتی
- تجزیے
- تجزیہ کیا
- اور
- ایک اور
- جواب
- جواب
- جواب
- بشری
- کوئی بھی
- قابل اطلاق
- درخواست
- ایپلی کیشنز
- نقطہ نظر
- نقطہ نظر
- مناسب
- AR
- کیا
- علاقوں
- مسلح
- مصنوعی
- مصنوعی ذہانت
- مصنوعی انٹیلی جنس (AI)
- AS
- اسسٹنٹ
- At
- اوصاف
- اضافہ
- خود کار طریقے سے
- خودکار
- خود کار طریقے سے
- دستیاب
- اوسط
- AWS
- پس منظر
- کی بنیاد پر
- بنیاد
- BE
- کیونکہ
- اس سے پہلے
- کی طرف سے
- کیا جا رہا ہے
- نیچے
- بینچ مارکنگ
- فوائد
- bespoke
- بہتر
- کے درمیان
- بوٹ
- بی ایس ایس
- تعمیر
- عمارت
- کاروبار
- کاروبار کی ذہانت
- لیکن
- by
- کر سکتے ہیں
- قبضہ
- کار کے
- کیا ہوا
- کیس
- کیونکہ
- چیلنج
- چیلنجوں
- چارٹ
- چیک کریں
- واضح
- جمع
- مجموعہ
- تبصرہ
- مقابلے میں
- مکمل طور پر
- پیچیدہ
- پیچیدہ
- تصورات
- منعقد
- منسلک
- مربوط
- مشتمل
- تعمیر
- تعمیر
- مواد
- مندرجات
- سیاق و سباق
- جاری
- جاری رہی
- مسلسل
- کنٹریکٹ
- کور
- درست
- اسی کے مطابق
- احاطہ کرتا ہے
- کریڈٹ
- معیار
- گاہکوں
- سائیکل
- اعداد و شمار
- ڈیٹا تجزیات
- ڈیٹا انفراسٹرکچر
- ڈیٹا سائنس
- ڈیٹا بیس
- تاریخ
- کمی
- کی وضاحت
- نجات
- مظاہرہ
- demonstrated,en
- انحصار
- انحصار
- تعینات
- تعیناتی
- بیان کیا
- ڈیزائن
- ڈیزائن
- ڈیزائننگ
- ڈیزائن
- تفصیلات
- اس بات کا تعین
- ترقی یافتہ
- ڈیولپر
- ترقی
- ترقی
- آریھ
- بات چیت
- بحث
- تقسیم
- دریافت
- ڈی آئی
- do
- دستاویز
- دستاویزات
- کرتا
- نہیں کرتا
- ڈومین
- کیا
- نہیں
- ڈرائنگ
- ڈرائیو
- ڈرائیونگ
- ہر ایک
- تعلیم
- کارکردگی
- مؤثر طریقے سے
- کوششوں
- الیکٹرانک
- ملازمت کرتا ہے
- کے قابل بناتا ہے
- مشغول
- انجینئر
- انجنیئرنگ
- انجینئرز
- کافی
- ماحولیات
- زمانے
- نقائص
- خاص طور پر
- جوہر
- ضروری
- اندازے کے مطابق
- EU
- تشخیص
- جانچ پڑتال
- مثال کے طور پر
- تجربہ
- استعمال
- ماہرین
- وضاحت کی
- وضاحت
- بیرونی
- اضافی
- سہولت
- خاندان
- آراء
- اعداد و شمار
- فلٹر
- فلٹرنگ
- آخر
- پہلا
- فٹ
- پانچ
- فلور
- پر عمل کریں
- کے بعد
- کے لئے
- فارمیٹ
- فریم ورک
- سے
- تقریب
- مزید
- جنرل
- پیدا
- پیدا
- پیدا ہوتا ہے
- پیداواری
- پیداواری AI۔
- دے دو
- دی
- اہداف
- جا
- زیادہ سے زیادہ
- گروپ
- رہنمائی
- ہے
- he
- مدد
- مدد کرتا ہے
- اعلی معیار کی
- اعلی
- سب سے زیادہ
- انتہائی
- ان
- کس طرح
- کیسے
- تاہم
- HTTPS
- انسانی
- انسان
- سینکڑوں
- ہائبرڈ
- i
- کی نشاندہی
- شناخت
- شناخت
- if
- عملدرآمد
- کو بہتر بنانے کے
- بہتر
- بہتری
- بہتر ہے
- in
- شامل
- سمیت
- شامل
- شامل
- غلط
- اضافہ
- اضافہ
- معلومات
- انفراسٹرکچر
- کے اندر
- انٹیلی جنس
- بات چیت
- متعارف کرانے
- سرمایہ کاری
- ملوث
- مسئلہ
- IT
- JPEG
- فوٹو
- جج
- کلیدی
- اہم مقاصد
- لیبل
- لیبل
- زبان
- بڑے
- سیکھا ہے
- سیکھنے
- چھوڑ دیا
- کم
- سطح
- لائٹنینگ کا
- امکان
- حد کے
- حدود
- لائن
- لسٹ
- ایل ایل ایم
- کم
- مشین
- بنا
- بناتا ہے
- انتظام
- مینیجر
- بہت سے
- نشان لگا دیا گیا
- میچ
- میچ
- معاملہ
- زیادہ سے زیادہ
- مئی..
- کا مطلب ہے کہ
- مراد
- سے ملو
- ملتا ہے
- طریقہ
- طریقہ کار
- طریقوں
- میٹرک۔
- کم سے کم
- کم سے کم
- ماڈل
- ماڈل
- ماڈیول
- لمحات
- نگرانی
- زیادہ
- بہت
- ایک سے زیادہ
- موسیقی
- نیویگیٹ کرتا ہے
- ضرورت ہے
- ضرورت
- ضروریات
- منفی
- نیٹ ورک
- غیر جانبدار
- نئی
- نئی ٹیکنالوجی
- اگلے
- نوڈ
- براہ مہربانی نوٹ کریں
- نوٹس
- تصوراتی
- تعداد
- مقاصد
- مشاہدہ
- حاصل کی
- of
- on
- صرف
- زیادہ سے زیادہ
- اصلاح کے
- or
- تنظیمیں
- اصل
- دیگر
- ہمارے
- باہر
- Outperforms
- نتائج
- باہر
- مجموعی طور پر
- پر قابو پانے
- خود
- پیکج
- صفحہ
- جوڑے
- پیرامیٹرز
- پارکنگ
- خاص طور پر
- انجام دیں
- کارکردگی
- کارکردگی
- پی ایچ ڈی
- پائلٹ
- پائلٹ پروجیکٹ
- پائپ لائن
- پلاٹا
- افلاطون ڈیٹا انٹیلی جنس
- پلیٹو ڈیٹا
- مہربانی کرکے
- پالیسی
- پول
- پوزیشن
- مثبت
- امکان
- پوسٹ
- ممکنہ
- ترجیحات
- حال (-)
- پیش
- پچھلا
- عمل
- عمل
- منصوبے
- پراجیکٹ مینیجمنٹ کی
- منصوبوں
- فراہم
- فراہم
- فراہم کرتا ہے
- فراہم کرنے
- مقصد
- سوال و جواب
- معیار
- سوال
- سوالات
- چیتھڑا
- شرح
- بلکہ
- تک پہنچنے
- پڑھنا
- تیار
- وجہ
- وصول
- سفارش
- ریکارڈ
- کو کم
- کم
- کم
- کا حوالہ دیتے ہیں
- حوالہ
- مراد
- باقاعدہ
- متعلقہ
- ضرورت
- ضروریات
- کی ضرورت ہے
- وسائل
- وسائل
- جواب
- جوابات
- ذمہ دار
- نتائج کی نمائش
- واپسی
- واپس لوٹنے
- کا جائزہ لینے کے
- جائزہ لیں
- انعام
- انعامات
- ٹھیک ہے
- rlhf
- sagemaker
- کی اطمینان
- توسیع پذیر
- پیمانے
- کبھی
- سائنس
- سکور
- رنز بنائے
- اسکور
- سیکشن
- دیکھنا
- منتخب
- معنوی
- سینئر
- حساس
- سیریز
- سروس
- سروسز
- اجلاس
- سیکنڈ اور
- شیل
- ہونا چاہئے
- سے ظاہر ہوا
- دکھایا گیا
- شوز
- اہم
- نمایاں طور پر
- صرف
- سائز
- چھوٹے
- ایس ایم ایز
- So
- حل
- حل
- کچھ
- خلا
- خالی جگہیں
- مخصوص
- خاص طور پر
- مخصوص
- تیزی
- مستحکم
- معیار
- معیار
- امریکہ
- مرحلہ
- مراحل
- ابھی تک
- ذخیرہ
- حکمت عملی
- حکمت عملی
- سختی
- ساختی
- موضوع
- مضامین
- اس طرح
- کافی
- اس بات کا یقین
- پائیدار
- مصنوعی طور پر
- کے نظام
- موزوں
- لیتا ہے
- کاموں
- ٹیم
- ٹیموں
- ٹیکنیکل
- تکنیک
- ٹیکنالوجی
- ٹیکنالوجی
- سانچے
- ٹیسٹ
- تجربہ
- سے
- کہ
- ۔
- ان
- ان
- تو
- وہاں.
- یہ
- وہ
- لگتا ہے کہ
- اس
- ان
- ہزاروں
- تین
- تین قدم
- کے ذریعے
- بھر میں
- وقت
- بروقت
- کرنے کے لئے
- کل
- کی طرف
- روایتی
- ٹرین
- تربیت یافتہ
- ٹریننگ
- ٹرینوں
- سفر
- زبردست
- رجحانات
- دھن
- ٹیوننگ
- ui
- کے تحت
- منفرد
- اپ ڈیٹ کریں
- استعمال کی شرائط
- استعمال کیس
- استعمال کیا جاتا ہے
- مفید
- رکن کا
- صارفین
- استعمال
- کا استعمال کرتے ہوئے
- تصدیق کریں۔
- توثیقی
- توثیق
- بہت
- کی طرف سے
- واٹیٹائل
- حجم
- تھا
- we
- ویب
- ویب ایپلی کیشن
- ویب خدمات
- اچھا ہے
- تھے
- کیا
- کیا ہے
- جب
- چاہے
- جس
- جبکہ
- کیوں
- بڑے پیمانے پر
- وکیپیڈیا
- گے
- ساتھ
- کے اندر
- بغیر
- کام
- کام کا بہاؤ
- کام کرتا ہے
- بدتر
- گا
- یوگا
- تم
- اور
- زیفیرنیٹ