ایک AI نے صرف ایک چھوٹا بچہ کی آنکھوں اور کانوں کے ذریعے زبان سیکھی۔

ایک AI نے صرف ایک چھوٹا بچہ کی آنکھوں اور کانوں کے ذریعے زبان سیکھی۔

An AI Just Learned Language Through the Eyes and Ears of a Toddler PlatoBlockchain Data Intelligence. Vertical Search. Ai.

سام چھ ماہ کا تھا جب اس نے پہلی بار اپنے ماتھے پر ہلکا پھلکا کیمرہ باندھا۔

اگلے ڈیڑھ سال کے لیے، کیمرے نے اس کی زندگی کے ٹکڑوں کو قید کر لیا۔ وہ خاندان کے پالتو جانوروں کے گرد رینگتا رہا، اپنے والدین کو کھانا پکاتے ہوئے دیکھتا تھا، اور دادی کے ساتھ سامنے کے پورچ پر روتا تھا۔ ہر وقت، کیمرے نے سب کچھ ریکارڈ کیا جو اس نے سنا.

ایک پیارا چھوٹا بچہ ہوم ویڈیو کی طرح لگتا ہے دراصل ایک جرات مندانہ تصور ہے: کیا AI کسی بچے کی طرح زبان سیکھ سکتا ہے؟ نتائج یہ بھی ظاہر کر سکتے ہیں کہ کس طرح بچے چھوٹی عمر میں زبان اور تصورات کو تیزی سے حاصل کر لیتے ہیں۔

ایک نئی تحقیق in سائنس بیان کرتا ہے کہ کس طرح محققین نے سام کی ریکارڈنگز کو زبان کو سمجھنے کے لیے AI کو تربیت دینے کے لیے استعمال کیا۔ ایک سال کے دوران ایک بچے کی زندگی کے تجربے کے صرف ایک چھوٹے سے حصے کے ساتھ، AI بنیادی تصورات کو سمجھنے کے قابل تھا—مثال کے طور پر، ایک گیند، ایک تتلی، یا ایک بالٹی۔

AI، جسے چائلڈز ویو فار کنٹراسٹیو لرننگ (CVCL) کہا جاتا ہے، موٹے طور پر اس کی نقل کرتا ہے کہ ہم کس طرح چھوٹے بچوں کے طور پر آڈیو کو ملا کر سیکھتے ہیں۔ یہ اس سے بہت مختلف طریقہ ہے جو کہ بڑے زبان کے ماڈلز جیسے کہ استعمال کرتے ہیں۔ چیٹ جی پی ٹی یا بارڈ کے پیچھے. مضامین، شاعری، یا یہاں تک کہ پوڈ کاسٹ اسکرپٹ تیار کرنے کی ان ماڈلز کی غیرمعمولی صلاحیت نے دنیا کو خوش کر دیا ہے۔ لیکن انہیں ان مہارتوں کو فروغ دینے کے لیے خبروں کے مضامین، اسکرین پلے اور کتابوں کی وسیع اقسام سے کھربوں الفاظ ہضم کرنے کی ضرورت ہے۔

بچے، اس کے برعکس، بہت کم ان پٹ کے ساتھ سیکھتے ہیں اور جیسے جیسے وہ بڑھتے ہیں ان کی تعلیم کو تیزی سے عام کرتے ہیں۔ سائنسدانوں نے طویل عرصے سے سوچا ہے کہ کیا AI ان صلاحیتوں کو صرف روزمرہ کے تجربات سے حاصل کر سکتا ہے۔

NYU کے سینٹر فار ڈیٹا سائنس میں مطالعہ کے مصنف ڈاکٹر وائی کین وونگ، "ہم پہلی بار یہ ظاہر کرتے ہیں کہ ایک ہی بچے کے اس ترقیاتی طور پر حقیقت پسندانہ ان پٹ پر تربیت یافتہ نیورل نیٹ ورک الفاظ کو اپنے بصری ہم منصبوں سے جوڑنا سیکھ سکتا ہے۔" ایک پریس ریلیز میں کہا تحقیق کے بارے میں

بچوں کا کھیل

بچے روزمرہ کے تجربے سے الفاظ اور ان کے معنی آسانی سے نکال لیتے ہیں۔

صرف چھ ماہ کی عمر میں، وہ جو کچھ دیکھ رہے ہیں اس سے الفاظ جوڑنا شروع کر دیتے ہیں- مثال کے طور پر، ایک گول اچھال والی چیز ایک "گیند" ہے۔ دو سال کی عمر میں، وہ تقریباً 300 الفاظ اور ان کے تصورات کو جانتے ہیں۔

سائنسدانوں نے طویل بحث کی ہے کہ یہ کیسے ہوتا ہے. ایک نظریہ کہتا ہے کہ بچے جو کچھ وہ دیکھ رہے ہیں اس سے جو وہ سن رہے ہیں اس کا مقابلہ کرنا سیکھتے ہیں۔ ایک اور تجویز کرتا ہے کہ زبان سیکھنے کے لیے دنیا کے وسیع تر تجربے کی ضرورت ہوتی ہے، جیسے کہ سماجی تعامل اور استدلال کی صلاحیت۔

چھوٹے بچوں میں روایتی علمی ٹیسٹوں کے علاوہ ان خیالات کو چھیڑنا مشکل ہے۔ لیکن ہم بچے کی آنکھوں اور کانوں کے ذریعے AI کو تربیت دے کر جواب حاصل کر سکتے ہیں۔

M3GAN؟

نئے مطالعہ نے ایک امیر ویڈیو وسائل کو ٹیپ کیا جسے کہا جاتا ہے SAYCam، جس میں 6 سے 32 ماہ کے درمیان تین بچوں سے جمع کیا گیا ڈیٹا شامل ہے جو ان کے ماتھے پر پٹے ہوئے GoPro جیسے کیمرے استعمال کرتے ہیں۔

ہر ہفتے دو بار، کیمروں نے تقریباً ایک گھنٹے کی فوٹیج اور آڈیو ریکارڈ کی جب وہ دیکھ رہے تھے، رینگ رہے تھے اور چل رہے تھے۔ تمام قابل سماعت مکالمے کو "کلامات" میں نقل کیا گیا تھا - بولنے والے یا گفتگو میں تبدیلی سے پہلے بولے گئے الفاظ یا جملے۔ نتیجہ بچوں اور چھوٹے بچوں کے نقطہ نظر سے ملٹی میڈیا ڈیٹا کا خزانہ ہے۔

نئے نظام کے لیے، ٹیم نے "جج" کے ساتھ دو عصبی نیٹ ورکس کو مربوط کرنے کے لیے ڈیزائن کیا۔ ایک نے پہلے فرد کے بصریوں کا ترجمہ کیا کہ کس کا اور کیا منظر ہے — کیا یہ ماں کھانا بنا رہی ہے؟ آڈیو ریکارڈنگ سے دوسرے سمجھے گئے الفاظ اور معنی۔

اس کے بعد دونوں نظاموں کو وقت کے ساتھ جوڑ دیا گیا تھا لہذا AI نے صحیح بصری کو الفاظ کے ساتھ جوڑنا سیکھا۔ مثال کے طور پر، AI نے بچے کی تصویر کو الفاظ "دیکھو، وہاں ایک بچہ ہے" یا یوگا گیند کی تصویر کو "واہ، یہ ایک بڑی گیند ہے" سے ملانا سیکھا۔ تربیت کے ساتھ، اس نے آہستہ آہستہ یوگا بال کے تصور کو بچے سے الگ کرنا سیکھا۔

وونگ نے کہا کہ "یہ ماڈل کو ایک اشارہ فراہم کرتا ہے کہ کن الفاظ کو کن چیزوں کے ساتھ منسلک کیا جانا چاہئے۔"

اس کے بعد ٹیم نے AI کو سام کی زندگی کے تقریباً ڈیڑھ سال کی ویڈیوز پر تربیت دی۔ ایک ساتھ، یہ 600,000 سے زیادہ ویڈیو فریموں کے برابر ہے، جو 37,500 نقل شدہ الفاظ کے ساتھ جوڑا ہے۔ اگرچہ تعداد بڑی لگتی ہے، لیکن وہ سیم کی روزانہ جاگنے والی زندگی اور مونگ پھلی کے اعداد و شمار کی مقدار کے مقابلے میں تقریباً صرف ایک فیصد ہیں جو بڑے زبان کے ماڈلز کو تربیت دینے کے لیے استعمال ہوتے ہیں۔

بیبی اے آئی آن دی رائز

سسٹم کو جانچنے کے لیے، ٹیم نے بچوں کی زبان کی صلاحیتوں کی پیمائش کے لیے استعمال ہونے والے ایک عام علمی ٹیسٹ کو اپنایا۔ انہوں نے AI کو چار نئی تصاویر دکھائیں — ایک بلی، ایک پالنا، ایک گیند، اور ایک لان — اور پوچھا کہ کون سی گیند ہے۔

مجموعی طور پر، AI نے تقریباً 62 فیصد وقت درست تصویر چنی۔ کارکردگی تقریباً ایک جدید ترین الگورتھم سے مماثل ہے جو ویب سے 400 ملین امیج اور ٹیکسٹ پیئرز پر تربیت یافتہ ہے—اس تحقیق میں AI کو تربیت دینے کے لیے استعمال ہونے والے ڈیٹا سے زیادہ مقدار کے آرڈرز۔ انہوں نے پایا کہ ویڈیو امیجز کو آڈیو کے ساتھ جوڑنا بہت ضروری ہے۔ جب ٹیم نے ویڈیو فریموں اور ان سے وابستہ الفاظ کو تبدیل کیا تو ماڈل مکمل طور پر ٹوٹ گیا۔

اے آئی باکس کے باہر "سوچ" بھی سکتا ہے اور نئے حالات کو عام کر سکتا ہے۔

ایک اور ٹیسٹ میں، اسے تصویر کی کتاب کے بارے میں سام کے نقطہ نظر پر تربیت دی گئی تھی کیونکہ اس کے والدین نے کہا تھا، "یہ ایک بطخ اور تتلی ہے۔" بعد میں، اس نے ایک کھلونا تتلی پکڑ کر پوچھا، "کیا تم تتلی کر سکتے ہو؟" جب کئی رنگوں والی تتلی کی تصاویر کے ساتھ چیلنج کیا گیا — جنہیں AI نے پہلے کبھی نہیں دیکھا تھا — اس نے 80 فیصد سے زیادہ درستگی کے ساتھ "تتلی" کے لیے چار میں سے تین مثالوں کا پتہ لگایا۔

تمام لفظی تصورات ایک جیسے نہیں ہیں۔ مثال کے طور پر، "چمچ" ایک جدوجہد تھی۔ لیکن یہ ایک سخت کی طرح اس کی نشاندہی کرنے کے قابل ہے۔ reCAPTCHA کے، تربیت کی تصاویر کو سمجھنا مشکل تھا یہاں تک کہ انسان کے لیے۔

بڑھتی ہوئی درد

۔ AI ملٹی موڈل مشین لرننگ میں حالیہ پیشرفت پر مبنی ہے۔، جو مشینی دماغ کو تربیت دینے کے لیے متن، تصاویر، آڈیو یا ویڈیو کو یکجا کرتا ہے۔

صرف ایک بچے کے تجربے سے ان پٹ کے ساتھ، الگورتھم اس قابل تھا کہ الفاظ کس طرح ایک دوسرے سے تعلق رکھتے ہیں اور الفاظ کو تصاویر اور تصورات سے جوڑتے ہیں۔ یہ تجویز کرتا ہے کہ چھوٹے بچوں کے لیے الفاظ سننا اور ان کو جو کچھ وہ دیکھ رہے ہیں اس سے ملانا ان کے الفاظ کو بنانے میں مدد کرتا ہے۔

اس کا مطلب یہ نہیں ہے کہ دماغ کے دوسرے عمل، جیسے سماجی اشارے اور استدلال کام میں نہیں آتے۔ ان اجزاء کو الگورتھم میں شامل کرنے سے ممکنہ طور پر اس میں بہتری آسکتی ہے، مصنفین نے لکھا۔

ٹیم تجربہ جاری رکھنے کا ارادہ رکھتی ہے۔ ابھی کے لیے، "بچہ" AI صرف اسٹیل امیج فریموں سے سیکھتا ہے اور اس میں ایک ذخیرہ الفاظ زیادہ تر اسموں پر مشتمل ہوتا ہے۔ ویڈیو کے حصوں کو تربیت میں ضم کرنے سے AI کو فعل سیکھنے میں مدد مل سکتی ہے کیونکہ ویڈیو میں حرکت شامل ہوتی ہے۔

تقریر کے اعداد و شمار میں intonation شامل کرنے میں بھی مدد مل سکتی ہے۔ بچے ابتدائی طور پر سیکھتے ہیں کہ ایک ماں کے "ہمم" کے لہجے کے لحاظ سے بہت مختلف معنی ہوسکتے ہیں۔

لیکن مجموعی طور پر، AI اور زندگی کے تجربات کو یکجا کرنا مشین اور انسانی دماغ دونوں کا مطالعہ کرنے کا ایک طاقتور نیا طریقہ ہے۔ اس سے ہمیں نئے AI ماڈل تیار کرنے میں مدد مل سکتی ہے جو بچوں کی طرح سیکھتے ہیں، اور ممکنہ طور پر ہماری سمجھ کو نئی شکل دیتے ہیں کہ ہمارے دماغ کس طرح زبان اور تصورات سیکھتے ہیں۔

تصویری کریڈٹ: وائی کین وونگ

ٹائم اسٹیمپ:

سے زیادہ یکسانیت مرکز