একটি এআই সবেমাত্র একটি শিশুর চোখ এবং কানের মাধ্যমে ভাষা শিখেছে৷

একটি এআই সবেমাত্র একটি শিশুর চোখ এবং কানের মাধ্যমে ভাষা শিখেছে৷

একটি এআই সবেমাত্র একটি শিশুর চোখ এবং কানের মাধ্যমে ভাষা শিখেছে PlatoBlockchain ডেটা বুদ্ধিমত্তা। উল্লম্ব অনুসন্ধান. আ.

স্যাম ছয় মাস বয়সে প্রথম তার কপালে একটি লাইটওয়েট ক্যামেরা বাঁধেন।

আগামী দেড় বছরের জন্য, ক্যামেরা তার জীবনের স্নিপেট বন্দী. তিনি পরিবারের পোষা প্রাণীদের চারপাশে হামাগুড়ি দিয়েছিলেন, তার বাবা-মাকে রান্না করতে দেখেছিলেন এবং ঠাকুরমার সাথে সামনের বারান্দায় কাঁদতেন। সব সময়, ক্যামেরা তার শোনা সব রেকর্ড.

কিউট টডলার হোম ভিডিওর মতো শোনাচ্ছে আসলে একটি সাহসী ধারণা: এআই কি শিশুর মতো ভাষা শিখতে পারে? ফলাফলগুলিও প্রকাশ করতে পারে কিভাবে শিশুরা অল্প বয়সে দ্রুত ভাষা এবং ধারণাগুলি অর্জন করে।

একটি নতুন গবেষণা in বিজ্ঞান বর্ণনা করে যে কীভাবে গবেষকরা ভাষা বোঝার জন্য একটি এআই প্রশিক্ষণের জন্য স্যামের রেকর্ডিং ব্যবহার করেছিলেন। এক বছরেরও বেশি সময় ধরে একটি শিশুর জীবনের অভিজ্ঞতার সামান্য অংশ দিয়ে, এআই মৌলিক ধারণাগুলি ধরতে সক্ষম হয়েছিল—উদাহরণস্বরূপ, একটি বল, একটি প্রজাপতি বা একটি বালতি।

চাইল্ডস ভিউ ফর কন্ট্রাস্টিভ লার্নিং (সিভিসিএল) নামে পরিচিত এআই, মোটামুটিভাবে নকল করে যে কীভাবে আমরা অডিওর সাথে দৃষ্টির মিল রেখে ছোটদের মতো শিখি। বৃহৎ ভাষার মডেলের মত যে পদ্ধতি গ্রহণ করা হয় তার থেকে এটি একটি ভিন্ন পদ্ধতি ChatGPT বা Bard এর পিছনে. প্রবন্ধ, কবিতা, এমনকি পডকাস্ট স্ক্রিপ্টগুলি তৈরি করার এই মডেলদের অদ্ভুত ক্ষমতা বিশ্বকে রোমাঞ্চিত করেছে। কিন্তু এই দক্ষতাগুলি বিকাশের জন্য তাদের বিভিন্ন ধরণের সংবাদ নিবন্ধ, চিত্রনাট্য এবং বই থেকে ট্রিলিয়ন শব্দ হজম করতে হবে।

বিপরীতে, বাচ্চারা অনেক কম ইনপুট সহ শেখে এবং তারা বড় হওয়ার সাথে সাথে তাদের শেখার দ্রুত সাধারণীকরণ করে। বিজ্ঞানীরা দীর্ঘকাল ধরে ভাবছেন যে AI একা দৈনন্দিন অভিজ্ঞতা দিয়ে এই ক্ষমতাগুলি ক্যাপচার করতে পারে কিনা।

"আমরা প্রথমবারের মতো দেখাই যে, একটি একক শিশুর কাছ থেকে এই বিকাশগতভাবে বাস্তবসম্মত ইনপুটে প্রশিক্ষিত একটি নিউরাল নেটওয়ার্ক তাদের ভিজ্যুয়াল সমকক্ষের সাথে শব্দ লিঙ্ক করতে শিখতে পারে," এনওয়াইইউ'স সেন্টার ফর ডেটা সায়েন্স-এর গবেষণা লেখক ডঃ ওয়াই কিন ভং একটি প্রেস রিলিজ বলেন গবেষণা সম্পর্কে।

অতি সহজ কাজ

শিশুরা সহজেই দৈনন্দিন অভিজ্ঞতা থেকে শব্দ এবং তাদের অর্থগুলিকে ভিজিয়ে রাখে।

মাত্র ছয় মাস বয়সে, তারা যা দেখছে তার সাথে শব্দ সংযোগ করতে শুরু করে—উদাহরণস্বরূপ, একটি গোল বাউন্সি জিনিস হল "বল"। দুই বছর বয়সে, তারা প্রায় 300 শব্দ এবং তাদের ধারণাগুলি জানে।

কীভাবে এটি ঘটে তা নিয়ে বিজ্ঞানীরা দীর্ঘ বিতর্ক করেছেন। একটি তত্ত্ব বলে যে শিশুরা যা দেখছে তার সাথে তারা যা শুনছে তা মেলাতে শেখে। অন্য একটি পরামর্শ দেয় যে ভাষা শেখার জন্য বিশ্বের বিস্তৃত অভিজ্ঞতার প্রয়োজন, যেমন সামাজিক মিথস্ক্রিয়া এবং যুক্তি করার ক্ষমতা।

বাচ্চাদের মধ্যে ঐতিহ্যগত জ্ঞানীয় পরীক্ষার সাথে এই ধারণাগুলি আলাদা করা কঠিন। কিন্তু আমরা একটি শিশুর চোখ এবং কানের মাধ্যমে একটি AI প্রশিক্ষণের মাধ্যমে একটি উত্তর পেতে পারি।

M3GAN?

নতুন গবেষণায় একটি সমৃদ্ধ ভিডিও রিসোর্স ট্যাপ করা হয়েছে SAYCam, যার মধ্যে রয়েছে 6 থেকে 32 মাস বয়সী তিনটি বাচ্চার কাছ থেকে সংগ্রহ করা ডেটা তাদের কপালে বাঁধা GoPro-এর মতো ক্যামেরা ব্যবহার করে।

প্রতি সপ্তাহে দুবার, ক্যামেরাগুলি প্রায় এক ঘন্টার ফুটেজ এবং অডিও রেকর্ড করে যখন তারা লালন-পালন করত, হামাগুড়ি দিত এবং প্লে করত। সমস্ত শ্রবণযোগ্য কথোপকথন "উচ্চারণ"-এ প্রতিলিপি করা হয়েছিল - বক্তা বা কথোপকথনের পরিবর্তনের আগে উচ্চারিত শব্দ বা বাক্য। ফলাফল হল শিশু এবং ছোট বাচ্চাদের দৃষ্টিকোণ থেকে মাল্টিমিডিয়া ডেটার একটি সম্পদ।

নতুন সিস্টেমের জন্য, দলটি তাদের সমন্বয় করার জন্য একটি "বিচারক" সহ দুটি নিউরাল নেটওয়ার্ক ডিজাইন করেছে। একজন প্রথম-ব্যক্তির ভিজ্যুয়াল অনুবাদ করেছেন কার এবং কিসের দৃশ্যে—এটা কি মা রান্না করছেন? অডিও রেকর্ডিং থেকে অন্যান্য পাঠোদ্ধার করা শব্দ এবং অর্থ।

দুটি সিস্টেম তখন সময়ের সাথে সম্পর্কযুক্ত ছিল তাই এআই শব্দের সাথে সঠিক ভিজ্যুয়াল যুক্ত করতে শিখেছে। উদাহরণ স্বরূপ, AI একটি শিশুর ছবিকে "দেখুন, একটি শিশু আছে" বা একটি যোগ বলের একটি চিত্রকে "বাহ, এটি একটি বড় বল" শব্দের সাথে মেলাতে শিখেছে। প্রশিক্ষণের মাধ্যমে, এটি ধীরে ধীরে একটি শিশুর থেকে যোগ বল ধারণাটিকে আলাদা করতে শিখেছে।

"এটি মডেলটিকে একটি সূত্র প্রদান করে যে কোন শব্দগুলি কোন বস্তুর সাথে যুক্ত করা উচিত," ভং বলেছেন।

দলটি তখন স্যামের জীবনের প্রায় দেড় বছরের ভিডিওতে AI-কে প্রশিক্ষণ দেয়। একত্রে, এটি 600,000 এর বেশি ভিডিও ফ্রেমের পরিমাণ, 37,500টি প্রতিলিপিকৃত উচ্চারণের সাথে যুক্ত। যদিও সংখ্যাগুলি বড় শোনাচ্ছে, সেগুলি স্যাম-এর দৈনিক জাগ্রত জীবন এবং চিনাবাদামের মাত্র এক শতাংশ বৃহৎ ভাষার মডেল প্রশিক্ষণের জন্য ব্যবহৃত ডেটার তুলনায়।

বেবি এআই অন দ্য রাইজ

সিস্টেমটি পরীক্ষা করার জন্য, দলটি শিশুদের ভাষার ক্ষমতা পরিমাপের জন্য ব্যবহৃত একটি সাধারণ জ্ঞানীয় পরীক্ষাকে অভিযোজিত করেছে। তারা AI-কে চারটি নতুন ছবি দেখিয়েছে—একটি বিড়াল, একটি খাঁচা, একটি বল এবং একটি লন—এবং জিজ্ঞেস করল কোনটি বল।

সামগ্রিকভাবে, AI প্রায় 62 শতাংশ সময় সঠিক চিত্রটি বেছে নিয়েছে। পারফরম্যান্সটি প্রায় একটি অত্যাধুনিক অ্যালগরিদমের সাথে মিলেছে যা ওয়েব থেকে 400 মিলিয়ন ইমেজ এবং টেক্সট জোড়ার উপর প্রশিক্ষিত হয়েছে - গবেষণায় AI-কে প্রশিক্ষণ দেওয়ার জন্য ব্যবহৃত ডেটার চেয়ে বেশি মাত্রার অর্ডার। তারা দেখেছে যে ভিডিও চিত্রগুলিকে অডিওর সাথে লিঙ্ক করা অত্যন্ত গুরুত্বপূর্ণ। যখন দলটি ভিডিও ফ্রেম এবং তাদের সংশ্লিষ্ট উচ্চারণগুলি এলোমেলো করে দেয়, তখন মডেলটি সম্পূর্ণভাবে ভেঙে যায়।

এআই বাক্সের বাইরেও "চিন্তা" করতে পারে এবং নতুন পরিস্থিতিতে সাধারণীকরণ করতে পারে।

অন্য একটি পরীক্ষায়, এটি একটি ছবির বই সম্পর্কে স্যাম এর দৃষ্টিকোণ সম্পর্কে প্রশিক্ষিত হয়েছিল কারণ তার পিতামাতা বলেছিলেন, "এটি একটি হাঁস এবং একটি প্রজাপতি।" পরে, তিনি একটি খেলনা প্রজাপতিকে ধরে জিজ্ঞাসা করলেন, "তুমি কি প্রজাপতি করতে পার?" যখন বহু রঙের প্রজাপতির ছবি দিয়ে চ্যালেঞ্জ করা হয়—যা AI আগে কখনও দেখেনি—এটি 80 শতাংশের উপরে নির্ভুলতার সাথে “প্রজাপতি”-এর জন্য চারটির মধ্যে তিনটি উদাহরণ শনাক্ত করেছে।

সমস্ত শব্দ ধারণা একই স্কোর করে না। উদাহরণস্বরূপ, "চামচ" একটি সংগ্রাম ছিল। কিন্তু এটি একটি কঠিন মত, যে আউট ইঙ্গিত মূল্য পুনঃক্যাপচা, প্রশিক্ষণ ইমেজ এমনকি একটি মানুষের জন্য পাঠোদ্ধার করা কঠিন ছিল.

ক্রমবর্ধমান ব্যথা

সার্জারির AI মাল্টিমডাল মেশিন লার্নিংয়ে সাম্প্রতিক অগ্রগতির উপর ভিত্তি করে তৈরি করে, যা একটি মেশিনের মস্তিষ্ককে প্রশিক্ষণ দিতে পাঠ্য, ছবি, অডিও বা ভিডিওকে একত্রিত করে।

শুধুমাত্র একটি শিশুর অভিজ্ঞতা থেকে ইনপুট দিয়ে, অ্যালগরিদম কীভাবে শব্দ একে অপরের সাথে সম্পর্কযুক্ত এবং শব্দগুলিকে চিত্র এবং ধারণার সাথে লিঙ্ক করতে সক্ষম হয়েছিল। এটি পরামর্শ দেয় যে ছোট বাচ্চাদের জন্য শব্দ শোনা এবং তারা যা দেখছে তার সাথে মেলানো তাদের শব্দভাণ্ডার তৈরি করতে সহায়তা করে।

এটি বলার অপেক্ষা রাখে না যে অন্যান্য মস্তিষ্কের প্রক্রিয়াগুলি, যেমন সামাজিক সংকেত এবং যুক্তি কার্যকর হয় না। অ্যালগরিদমে এই উপাদানগুলি যুক্ত করা সম্ভাব্যভাবে এটিকে উন্নত করতে পারে, লেখকরা লিখেছেন।

দলটি পরীক্ষা চালিয়ে যাওয়ার পরিকল্পনা করেছে। আপাতত, "শিশু" AI শুধুমাত্র স্থির চিত্রের ফ্রেমগুলি থেকে শেখে এবং একটি শব্দভাণ্ডার রয়েছে যা বেশিরভাগ বিশেষ্য দ্বারা গঠিত৷ প্রশিক্ষণে ভিডিও বিভাগগুলিকে একীভূত করা AI-কে ক্রিয়াপদ শিখতে সাহায্য করতে পারে কারণ ভিডিওতে নড়াচড়া অন্তর্ভুক্ত থাকে।

বক্তৃতা ডেটাতে স্বর যোগ করাও সাহায্য করতে পারে। শিশুরা খুব তাড়াতাড়ি শিখে যে একজন মায়ের "হুম" স্বরের উপর নির্ভর করে ব্যাপকভাবে ভিন্ন অর্থ হতে পারে।

কিন্তু সামগ্রিকভাবে, এআই এবং জীবনের অভিজ্ঞতা একত্রিত করা মেশিন এবং মানব মস্তিষ্ক উভয় অধ্যয়নের জন্য একটি শক্তিশালী নতুন পদ্ধতি। এটি আমাদের নতুন এআই মডেল তৈরি করতে সাহায্য করতে পারে যা শিশুদের মতো শিখতে পারে এবং আমাদের মস্তিষ্ক কীভাবে ভাষা এবং ধারণাগুলি শেখে সে সম্পর্কে আমাদের বোঝার পুনর্নির্মাণ করতে পারে।

ইমেজ ক্রেডিট: ওয়াই কিন ভং

সময় স্ট্যাম্প:

থেকে আরো এককতা হাব