انسانوں کی نقل کرنے کے لیے الگورتھم سکھانے کے لیے عام طور پر سینکڑوں یا ہزاروں مثالوں کی ضرورت ہوتی ہے۔ لیکن گوگل ڈیپ مائنڈ کا ایک نیا AI پرواز پر انسانی مظاہرین سے نئی مہارتیں اٹھا سکتا ہے۔
انسانیت کی سب سے بڑی چالوں میں سے ایک ہماری ایک دوسرے سے تیزی سے اور مؤثر طریقے سے علم حاصل کرنے کی صلاحیت ہے۔ اس قسم کی سماجی تعلیم، جسے اکثر کلچرل ٹرانسمیشن کہا جاتا ہے، وہ ہے جو ہمیں اپنے ساتھی کو یہ دکھانے کی اجازت دیتی ہے کہ نیا ٹول کیسے استعمال کیا جائے یا اپنے بچوں کو نرسری کی نظمیں سکھائی جائیں۔
یہ کوئی تعجب کی بات نہیں ہے کہ محققین نے مشینوں میں اس عمل کو نقل کرنے کی کوشش کی ہے۔ مشابہت سیکھنا، جس میں AI کسی انسان کو ایک کام مکمل کرتے ہوئے دیکھتا ہے اور پھر ان کے رویے کی نقل کرنے کی کوشش کرتا ہے، روبوٹس کی تربیت کے لیے طویل عرصے سے ایک مقبول طریقہ رہا ہے۔ لیکن یہاں تک کہ آج کے جدید ترین ڈیپ لرننگ الگورتھم کو عام طور پر بہت سی مثالیں دیکھنے کی ضرورت ہوتی ہے اس سے پہلے کہ وہ اپنے ٹرینرز کو کامیابی سے کاپی کر سکیں۔
جب انسان تقلید کے ذریعے سیکھتے ہیں، تو وہ اکثر مٹھی بھر مظاہروں کے بعد نئے کام اٹھا سکتے ہیں۔ اب، گوگل ڈیپ مائنڈ کے محققین نے ایسے ایجنٹوں کے ساتھ AI میں تیز رفتار سماجی سیکھنے کی طرف ایک قدم اٹھایا ہے جو حقیقی وقت میں انسانوں سے ایک ورچوئل دنیا کو نیویگیٹ کرنا سیکھتے ہیں۔
"ہمارے ایجنٹ پہلے سے جمع کیے گئے انسانی ڈیٹا کا استعمال کیے بغیر ناول کے سیاق و سباق میں انسان کی حقیقی وقت میں تقلید کرنے میں کامیاب ہوتے ہیں،" محققین لکھتے ہیں۔ کاغذ میں فطرت، قدرت مواصلات. "ہم ثقافتی ترسیل پیدا کرنے کے لیے کافی اجزاء کے ایک حیرت انگیز طور پر سادہ سیٹ کی نشاندہی کرتے ہیں۔
محققین نے اپنے ایجنٹوں کو خاص طور پر ڈیزائن کردہ سمیلیٹر میں تربیت دی جسے GoalCycle3D کہتے ہیں۔ سمیلیٹر مختلف ماحول کی تقریباً لامتناہی تعداد پیدا کرنے کے لیے ایک الگورتھم کا استعمال کرتا ہے جس کی بنیاد اصولوں کی بنیاد پر کہ تخروپن کو کیسے کام کرنا چاہیے اور اس کے کن پہلوؤں کو مختلف ہونا چاہیے۔
ہر ماحول میں، چھوٹے بلاب کی طرح اے اے ایجنٹ ایک مخصوص ترتیب میں رنگین دائروں کی ایک سیریز سے گزرنے کے لیے ناہموار خطوں اور مختلف رکاوٹوں کو نیویگیٹ کرنا چاہیے۔ خطوں کا گہرا پن، رکاوٹوں کی کثافت، اور دائروں کی ترتیب ماحول کے درمیان مختلف ہوتی ہے۔
ایجنٹوں کو استعمال کرتے ہوئے تشریف لے جانے کی تربیت دی جاتی ہے۔ قابو پانے کی تعلیم. وہ صحیح ترتیب میں دائروں سے گزرنے پر انعام حاصل کرتے ہیں اور اس سگنل کو کئی آزمائشوں میں اپنی کارکردگی کو بہتر بنانے کے لیے استعمال کرتے ہیں۔ لیکن اس کے علاوہ، ماحولیات میں ایک ماہر ایجنٹ بھی ہوتا ہے—جو یا تو سخت کوڈڈ ہوتا ہے یا انسان کے زیر کنٹرول ہوتا ہے—جو کورس کے ذریعے صحیح راستہ جانتا ہے۔
بہت سے ٹریننگ کے دوران، AI ایجنٹ نہ صرف بنیادی باتیں سیکھتے ہیں کہ ماحول کیسے کام کرتا ہے، بلکہ یہ بھی کہ ہر مسئلے کو حل کرنے کا تیز ترین طریقہ ماہر کی نقل کرنا ہے۔ اس بات کو یقینی بنانے کے لیے کہ ایجنٹ کورسز کو حفظ کرنے کے بجائے نقل کرنا سیکھ رہے ہیں، ٹیم نے انہیں ماحول کے ایک سیٹ پر تربیت دی اور پھر دوسرے پر ان کا تجربہ کیا۔ اہم بات یہ ہے کہ تربیت کے بعد، ٹیم نے دکھایا کہ ان کے ایجنٹ ایک ماہر کی نقل کر سکتے ہیں اور ماہر کے بغیر بھی اس راستے پر چلتے رہ سکتے ہیں۔
اس کے لیے معیاری کمک سیکھنے کے طریقوں کے لیے چند موافقت کی ضرورت تھی۔
محققین نے الگورتھم کو دوسرے ایجنٹ کے مقام کی پیشن گوئی کر کے ماہر پر فوکس کیا۔ انہوں نے اسے میموری ماڈیول بھی دیا۔ تربیت کے دوران، ماہر ماحول کے اندر اور باہر نکل جائے گا، جس سے ایجنٹ کو اس کے اعمال اس وقت یاد کرنے پر مجبور کر دیا جائے گا جب وہ موجود نہیں تھا۔ AI نے ماحول کے ایک وسیع سیٹ پر بھی تربیت حاصل کی، جس نے اس بات کو یقینی بنایا کہ اس نے ممکنہ کاموں کی ایک وسیع رینج دیکھی۔
اگرچہ زیادہ عملی ڈومینز میں نقطہ نظر کا ترجمہ کرنا مشکل ہوسکتا ہے۔ ایک اہم حد یہ ہے کہ جب محققین نے تجربہ کیا کہ آیا AI انسانی مظاہروں سے سیکھ سکتا ہے، تو ماہر ایجنٹ کو تمام تربیتی دوڑ کے دوران ایک شخص کے ذریعے کنٹرول کیا گیا۔ اس سے یہ جاننا مشکل ہو جاتا ہے کہ آیا ایجنٹ مختلف لوگوں سے سیکھ سکتے ہیں۔
زیادہ زور سے، تربیتی ماحول کو تصادفی طور پر تبدیل کرنے کی صلاحیت کو حقیقی دنیا میں دوبارہ بنانا مشکل ہوگا۔ اور بنیادی کام آسان تھا، جس میں موٹر کے ٹھیک کنٹرول کی ضرورت نہیں تھی اور یہ انتہائی کنٹرول شدہ ورچوئل ماحول میں ہوتا تھا۔
پھر بھی، AI میں سماجی سیکھنے کی پیش رفت خوش آئند ہے۔ اگر ہم ذہین مشینوں والی دنیا میں رہنا چاہتے ہیں تو ان کے ساتھ اپنے تجربے اور مہارت کو بانٹنے کے لیے موثر اور بدیہی طریقے تلاش کرنا بہت ضروری ہوگا۔
تصویری کریڈٹ: جولیانا اور ماریانا اموریم / Unsplash سے
- SEO سے چلنے والا مواد اور PR کی تقسیم۔ آج ہی بڑھا دیں۔
- پلیٹو ڈیٹا ڈاٹ نیٹ ورک ورٹیکل جنریٹو اے آئی۔ اپنے آپ کو بااختیار بنائیں۔ یہاں تک رسائی حاصل کریں۔
- پلیٹوآئ اسٹریم۔ ویب 3 انٹیلی جنس۔ علم میں اضافہ۔ یہاں تک رسائی حاصل کریں۔
- پلیٹو ای ایس جی۔ کاربن، کلین ٹیک، توانائی ، ماحولیات، شمسی، ویسٹ مینجمنٹ یہاں تک رسائی حاصل کریں۔
- پلیٹو ہیلتھ۔ بائیوٹیک اینڈ کلینیکل ٹرائلز انٹیلی جنس۔ یہاں تک رسائی حاصل کریں۔
- ماخذ: https://singularityhub.com/2023/12/01/this-deepmind-ai-rapidly-learns-new-skills-just-by-watching-humans/
- : ہے
- : ہے
- : نہیں
- $UP
- a
- کی صلاحیت
- ہمارے بارے میں
- حاصل
- اعمال
- اس کے علاوہ
- اعلی درجے کی
- کے بعد
- ایجنٹ
- ایجنٹ
- AI
- یلگورتم
- یلگوردمز
- تمام
- کی اجازت دیتا ہے
- تقریبا
- پہلے ہی
- بھی
- an
- اور
- ایک اور
- کوئی بھی
- نقطہ نظر
- نقطہ نظر
- کیا
- AS
- پہلوؤں
- At
- کی بنیاد پر
- BE
- رہا
- اس سے پہلے
- رویے
- کے درمیان
- وسیع
- لیکن
- by
- کہا جاتا ہے
- کر سکتے ہیں
- بچوں
- ساتھی
- مکمل
- ترتیب
- سیاق و سباق
- جاری
- کنٹرول
- کنٹرول
- درست
- سکتا ہے
- کورس
- کورسز
- کریڈٹ
- اہم
- اہم
- ثقافتی
- اعداد و شمار
- گہری
- گہری سیکھنے
- Deepmind
- ڈیزائن
- مختلف
- مشکل
- ڈومینز
- چھوڑ
- کے دوران
- e
- ہر ایک
- کما
- ہنر
- مؤثر طریقے سے
- یا تو
- لامتناہی
- کو یقینی بنانے کے
- اس بات کا یقین
- ماحولیات
- ماحول
- بھی
- مثال کے طور پر
- تجربہ
- ماہر
- مہارت
- نمایاں کریں
- چند
- تلاش
- آخر
- توجہ مرکوز
- پر عمل کریں
- کے لئے
- مجبور
- سے
- بنیادی
- دی
- پیدا
- پیدا کرنے والے
- گوگل
- سب سے بڑا
- مٹھی بھر
- ہارڈ
- ہے
- ہونے
- انتہائی
- کس طرح
- کیسے
- HTTPS
- انسانی
- انسان
- سینکڑوں
- شناخت
- if
- کو بہتر بنانے کے
- in
- انٹیلجنٹ
- بدیہی
- IT
- میں
- صرف
- کلیدی
- بچے
- جان
- علم
- جانتا ہے
- جانیں
- سیکھنے
- سیکھتا ہے
- حد کے
- رہتے ہیں
- محل وقوع
- لانگ
- اب
- مشینیں
- بنا
- بناتا ہے
- بہت سے
- یاد داشت
- شاید
- ماڈیول
- زیادہ
- سب سے زیادہ
- موٹر
- ضروری
- فطرت، قدرت
- تشریف لے جائیں
- ضرورت ہے
- نئی
- نہیں
- ناول
- اب
- تعداد
- راہ میں حائل رکاوٹیں
- واقع ہو رہا ہے
- of
- اکثر
- on
- ایک
- صرف
- کام
- or
- حکم
- دیگر
- ہمارے
- باہر
- پر
- منظور
- پاسنگ
- لوگ
- کارکردگی
- انسان
- لینے
- پلاٹا
- افلاطون ڈیٹا انٹیلی جنس
- پلیٹو ڈیٹا
- مقبول
- ممکن
- عملی
- پیشن گوئی
- حال (-)
- مسئلہ
- عمل
- پیش رفت
- تیز ترین
- رینج
- تیزی سے
- میں تیزی سے
- بلکہ
- اصلی
- حقیقی دنیا
- اصل وقت
- کہا جاتا ہے
- ضرورت
- کی ضرورت ہے
- محققین
- انعام
- روبوٹس
- روٹ
- قوانین
- چلتا ہے
- دیکھا
- دیکھنا
- سیریز
- مقرر
- سیکنڈ اور
- ہونا چاہئے
- دکھائیں
- سے ظاہر ہوا
- اشارہ
- سادہ
- تخروپن
- سمیلیٹر
- مہارت
- چھوٹے
- سماجی
- حل
- خاص طور پر
- مخصوص
- معیار
- مرحلہ
- کامیاب ہوں
- کامیابی کے ساتھ
- کافی
- حیرت
- لیا
- ٹاسک
- کاموں
- ٹیم
- خطوں
- تجربہ
- سے
- کہ
- ۔
- ان
- ان
- تو
- وہ
- اس
- اگرچہ؟
- ہزاروں
- کے ذریعے
- وقت
- کرنے کے لئے
- آج کا
- کے آلے
- کی طرف
- تربیت یافتہ
- ٹریننگ
- ترجمہ کریں
- ٹرائلز
- کوشش کی
- مواقع
- عام طور پر
- بنیادی
- us
- استعمال کی شرائط
- استعمال
- کا استعمال کرتے ہوئے
- مختلف اقسام کے
- مختلف
- مجازی
- مجازی دنیا
- تھا
- گھڑیاں
- دیکھ
- راستہ..
- طریقوں
- آپ کا استقبال ہے
- تھے
- کیا
- جب
- چاہے
- جس
- وسیع
- وسیع رینج
- گے
- ساتھ
- بغیر
- دنیا
- گا
- لکھنا
- زیفیرنیٹ