Google রোবটকে মানুষের সেবা করতে শেখায় – বড় ভাষা মডেলের সাথে মূল PlatoBlockchain ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.

Google রোবটকে মানুষের সেবা করতে শেখায় – বড় ভাষা মডেলের সাথে মূল চাবিকাঠি

ভিডিও ওয়েব জায়ান্টের সর্বশেষ গবেষণা অনুসারে, Google-এর বৃহত্তম এআই ভাষার মডেলটি রোবটগুলিকে মানব আদেশগুলি বোঝা এবং ব্যাখ্যা করার ক্ষেত্রে আরও নমনীয় হতে সহায়তা করছে।

মেশিনগুলি সাধারণত খুব নির্দিষ্ট চাহিদাগুলির জন্য সর্বোত্তম সাড়া দেয় - খোলামেলা অনুরোধগুলি কখনও কখনও সেগুলিকে ফেলে দিতে পারে এবং এমন ফলাফলের দিকে নিয়ে যেতে পারে যা ব্যবহারকারীদের মনে ছিল না৷ লোকেরা রোবটগুলির সাথে একটি কঠোর উপায়ে যোগাযোগ করতে শিখে, যেমন পছন্দসই প্রতিক্রিয়া পেতে একটি নির্দিষ্ট পদ্ধতিতে প্রশ্ন জিজ্ঞাসা করা।

Google এর সর্বশেষ সিস্টেম, ডাব PaLM-SayCan, তবে, আরও স্মার্ট হওয়ার প্রতিশ্রুতি দেয়। এভরিডে রোবটস-এর ফিজিক্যাল ডিভাইস - একটি স্টার্টআপ যা Google X থেকে তৈরি হয়েছে - এর মাথায় চোখের জন্য ক্যামেরা রয়েছে এবং একটি বাহু যার লম্বা সোজা দেহের পিছনে একটি পিন্সার রয়েছে, যা চাকার একটি সেটের উপরে বসে।  

আপনি নীচের ভিডিওতে কর্মরত রোবট দেখতে পারেন:

ইউটিউব ভিডিও

রোবটকে জিজ্ঞাসা করা, "আমি এইমাত্র কাজ করেছি, আপনি কি আমাকে একটি স্বাস্থ্যকর খাবার দিতে পারেন?" একটি আপেল আনার মধ্যে এটি ধাক্কা দেবে. "PaLM-SayCan [হল] ভাষা মডেল থেকে জ্ঞান লাভ করার জন্য একটি ব্যাখ্যাযোগ্য এবং সাধারণ পদ্ধতি যা একটি রোবটকে শারীরিকভাবে ভিত্তিক কাজগুলি সম্পাদন করার জন্য উচ্চ-স্তরের পাঠ্য নির্দেশাবলী অনুসরণ করতে সক্ষম করে," গুগলের ব্রেন টিমের গবেষণা বিজ্ঞানীরা ব্যাখ্যা.

গুগল তার সবচেয়ে বড় ভাষা মডেল চালু করেছে পাএলএম এই বছরের এপ্রিলে। PaLM কে ইন্টারনেট থেকে স্ক্র্যাপ করা ডেটার উপর প্রশিক্ষিত করা হয়েছিল, কিন্তু ওপেন-এন্ডেড টেক্সট রেসপন্স দেওয়ার পরিবর্তে সিস্টেমটি রোবটকে অনুসরণ করার জন্য নির্দেশাবলীর একটি তালিকা তৈরি করতে অভিযোজিত হয়েছিল।

"আমি আমার কোককে টেবিলে ছিটিয়ে দিয়েছি, আপনি কীভাবে এটি ফেলে দেবেন এবং পরিষ্কার করতে সাহায্য করার জন্য আমাকে কিছু আনবেন?" বলে PaLM কে প্রশ্নটি বোঝার জন্য অনুরোধ করে এবং কাজটি সম্পূর্ণ করতে রোবট অনুসরণ করতে পারে এমন পদক্ষেপগুলির একটি তালিকা তৈরি করে, যেমন কাজটি সম্পূর্ণ করার জন্য ক্যানটি তুলতে, একটি বিনে ফেলে, এবং একটি স্পঞ্জ পেতে।

PaLM-এর মতো বৃহৎ ভাষার মডেল (LLMs), যাইহোক, তারা যা বলে তার অর্থ বোঝে না। এই কারণে, গবেষকরা চাক্ষুষ উপস্থাপনা এবং ক্রিয়াগুলিতে বিমূর্ত ভাষাকে ভিত্তি করার জন্য শক্তিবৃদ্ধি শেখার ব্যবহার করে একটি পৃথক মডেল প্রশিক্ষিত করেছেন। এইভাবে রোবট "কোক" শব্দটিকে একটি ফিজি পানীয়ের ক্যানের চিত্রের সাথে যুক্ত করতে শিখেছে।

PaLM-SayCan তথাকথিত "অ্যাফোরডেন্স ফাংশন"ও শিখে - একটি পদ্ধতি যা তার পরিবেশে প্রদত্ত বস্তুগুলিকে একটি নির্দিষ্ট ক্রিয়া সম্পন্ন করার সম্ভাবনাকে স্থান দেয়। রোবট একটি ভ্যাকুয়াম ক্লিনার থেকে একটি স্পঞ্জ বাছাই করার সম্ভাবনা বেশি, উদাহরণস্বরূপ, যদি এটি একটি স্পঞ্জ শনাক্ত করে কিন্তু তার কাছাকাছি কোন ভ্যাকুয়াম না থাকে। 

"আমাদের পদ্ধতি, SayCan, শারীরিকভাবে ভিত্তিক কাজগুলিতে LLM-এর মধ্যে জ্ঞান আহরণ করে এবং ব্যবহার করে," দলটি ব্যাখ্যা করেছে গবেষণা পত্র. “এলএলএম (বলুন) একটি উচ্চ-স্তরের লক্ষ্যের জন্য দরকারী ক্রিয়াগুলি নির্ধারণের জন্য একটি টাস্ক-গ্রাউন্ডিং প্রদান করে এবং শেখা সামর্থ্য ফাংশনগুলি (ক্যান) পরিকল্পনার উপর কী কার্যকর করা সম্ভব তা নির্ধারণ করার জন্য একটি বিশ্ব-গ্রাউন্ডিং প্রদান করে। আমরা ভাষা কন্ডিশন্ড ভ্যালু ফাংশন শেখার উপায় হিসেবে রিইনফোর্সমেন্ট লার্নিং (RL) ব্যবহার করি যা বিশ্বে যা সম্ভব তার সামর্থ্য প্রদান করে।"

রোবটটিকে কাজ বন্ধ করা থেকে বিরত রাখতে, এটি শুধুমাত্র 101টি ভিন্ন নির্দেশাবলী থেকে ক্রিয়া নির্বাচন করতে প্রশিক্ষিত হয়। Google এটিকে রান্নাঘরের সাথে খাপ খাইয়ে নিতে প্রশিক্ষণ দিয়েছে – PaLM-SayCan স্ন্যাকস, পানীয় পেতে পারে এবং সাধারণ পরিষ্কারের কাজগুলি সম্পাদন করতে পারে। গবেষকরা বিশ্বাস করেন যে বিমূর্ত নির্দেশাবলী দেওয়া নিরাপদে আরও জটিল কাজ সম্পাদন করার জন্য রোবট পাওয়ার প্রথম ধাপ হল এলএলএম।

"অনেক বাস্তব-বিশ্বের রোবোটিক কাজগুলিতে আমাদের পরীক্ষাগুলি উচ্চ সাফল্যের হারে দীর্ঘ-দিগন্ত, বিমূর্ত, প্রাকৃতিক ভাষার নির্দেশাবলী পরিকল্পনা এবং সম্পূর্ণ করার ক্ষমতা প্রদর্শন করে৷ আমরা বিশ্বাস করি যে PaLM-SayCan এর ব্যাখ্যাযোগ্যতা রোবটের সাথে নিরাপদ বাস্তব-বিশ্ব ব্যবহারকারীর মিথস্ক্রিয়া করার অনুমতি দেয়,” তারা উপসংহারে এসেছে। ®

সময় স্ট্যাম্প:

থেকে আরো নিবন্ধনকর্মী