OpenAI এর নতুন AI 70,000 ঘন্টা YouTube PlatoBlockchain ডেটা ইন্টেলিজেন্স দেখে Minecraft খেলতে শিখেছে। উল্লম্ব অনুসন্ধান. আ.

OpenAI এর নতুন AI 70,000 ঘন্টা YouTube দেখে Minecraft খেলতে শিখেছে

মাইনক্রাফ্ট ওপেনই মেশিন-লার্নিং অ্যালগরিদম ইউটিউবে গেম খেলে

2020 সালে, OpenAI এর মেশিন লার্নিং অ্যালগরিদম GPT-3 মানুষকে উড়িয়ে দিয়েছিল যখন, ইন্টারনেট থেকে স্ক্র্যাপ করা কোটি কোটি শব্দ গ্রহণ করার পরে, এটি শুরু হয়েছিল ভালভাবে তৈরি বাক্য থুতু ফেলা. এই বছর, DALL-E 2, টেক্সট এবং ইমেজগুলিতে প্রশিক্ষণপ্রাপ্ত GPT-3-এর চাচাতো ভাই, অনলাইনে একই রকম আলোড়ন সৃষ্টি করেছিল যখন এটি বেত্রাঘাত শুরু করেছিল ঘোড়ায় চড়ে মহাকাশচারীদের পরাবাস্তব ছবি এবং, সম্প্রতি, অদ্ভুত কারুকাজ, এমন লোকেদের ফটোরিয়ালিস্টিক মুখ যার অস্তিত্ব নেই.

এখন, সংস্থাটি বলেছে যে তার সর্বশেষ এআই 70,000 ঘন্টার ভিডিও দেখার পরে মাইনক্রাফ্ট খেলতে শিখেছে যেখানে লোকেরা ইউটিউবে গেম খেলছে।

স্কুল অফ মাইনস 

অনেক আগের মাইনক্রাফ্ট অ্যালগরিদমের তুলনায় যা গেমের অনেক সহজ "স্যান্ডবক্স" সংস্করণে কাজ করে, নতুন এআই সাধারণ কীবোর্ড-এবং-মাউস কমান্ড ব্যবহার করে মানুষের মতো একই পরিবেশে খেলে।

একটি ইন ব্লগ পোস্ট এবং উদ্ভাবনের কাজের বিশদ বিবরণ দিয়ে, OpenAI টিম বলে যে, বাক্সের বাইরে, অ্যালগরিদম মৌলিক দক্ষতা শিখেছে, যেমন গাছ কাটা, তক্তা তৈরি করা এবং কারুকাজ করা টেবিল তৈরি করা। তারা এটি সাঁতার, শিকার, রান্না এবং "স্তম্ভ লাফানো"ও দেখেছিল।

"আমাদের সর্বোত্তম জ্ঞান অনুসারে, এমন কোনও প্রকাশিত কাজ নেই যা সম্পূর্ণ, অপরিবর্তিত মানব অ্যাকশন স্পেসে কাজ করে, যার মধ্যে ড্র্যাগ-এন্ড-ড্রপ ইনভেন্টরি ম্যানেজমেন্ট এবং আইটেম ক্রাফটিং অন্তর্ভুক্ত রয়েছে," লেখকরা তাদের কাগজে লিখেছেন৷

ফাইন-টিউনিং-এর মাধ্যমে—অর্থাৎ, মডেলটিকে আরও বেশি ফোকাসড ডেটা সেটের উপর প্রশিক্ষণ দেওয়া—তারা অ্যালগরিদমকে আরও নির্ভরযোগ্যভাবে এই সমস্ত কাজগুলি সম্পাদন করতে দেখেছে, কিন্তু কাঠের এবং পাথরের সরঞ্জামগুলি তৈরি করে এবং মৌলিক আশ্রয়কেন্দ্র তৈরি করে, অন্বেষণ করে এর প্রযুক্তিগত দক্ষতাকে এগিয়ে নিতে শুরু করেছে। গ্রাম, এবং বুক আক্রমণ.

শক্তিবৃদ্ধি শিক্ষার সাথে আরও সূক্ষ্ম সুর করার পরে, এটি একটি হীরা পিকক্স তৈরি করতে শিখেছে - এমন একটি দক্ষতা যা সম্পন্ন করতে মানব খেলোয়াড়দের প্রায় 20 মিনিট এবং 24,000 ক্রিয়াকলাপ লাগে।

এটি একটি উল্লেখযোগ্য ফলাফল। AI দীর্ঘকাল ধরে Minecraft এর প্রশস্ত-ওপেন গেমপ্লে নিয়ে লড়াই করেছে। দাবা এবং গো-এর মতো গেম, যেগুলি AI ইতিমধ্যেই আয়ত্ত করেছে, এর স্পষ্ট উদ্দেশ্য রয়েছে এবং সেই লক্ষ্যগুলির দিকে অগ্রগতি পরিমাপ করা যেতে পারে। গো জয় করতে, গবেষকরা ব্যবহার করেছিলেন শক্তিবৃদ্ধি শেখার, যেখানে একটি অ্যালগরিদমকে একটি লক্ষ্য দেওয়া হয় এবং সেই লক্ষ্যের দিকে অগ্রগতির জন্য পুরস্কৃত করা হয়। অন্যদিকে, মাইনক্রাফ্টের যে কোনো সংখ্যক সম্ভাব্য উদ্দেশ্য রয়েছে, অগ্রগতি কম রৈখিক, এবং গভীর শক্তিবৃদ্ধি শেখার অ্যালগরিদমগুলি সাধারণত তাদের চাকা ঘুরতে থাকে।

AI ডেভেলপারদের জন্য 2019 MineRL Minecraft প্রতিযোগিতায়, উদাহরণস্বরূপ, 660টি জমা দেওয়া কোনোটিই অর্জন করতে পারেনি হীরা খনির প্রতিযোগিতার অপেক্ষাকৃত সহজ লক্ষ্য.

এটি লক্ষণীয় যে সৃজনশীলতাকে পুরস্কৃত করতে এবং দেখাতে যে কোনও সমস্যায় কম্পিউটিং শক্তি নিক্ষেপ করা সর্বদা উত্তর নয়, MineRL সংগঠকরা অংশগ্রহণকারীদের উপর কঠোর সীমাবদ্ধতা রেখেছেন: তাদের একটি NVIDIA GPU এবং 1,000 ঘন্টা রেকর্ড করা গেমপ্লে অনুমতি দেওয়া হয়েছিল। যদিও প্রতিযোগীরা প্রশংসনীয়ভাবে পারফর্ম করেছে, ওপেনএআই ফলাফল, আরও ডেটা এবং 720 NVIDIA GPU-এর সাথে অর্জিত, মনে হচ্ছে কম্পিউটিং শক্তির এখনও এর সুবিধা রয়েছে।

এআই চতুর হয়ে ওঠে

মাইনক্রাফ্টের জন্য এর ভিডিও প্রি-ট্রেনিং (ভিপিটি) অ্যালগরিদম সহ, OpenAI সেই পদ্ধতিতে ফিরে এসেছে যা এটি GPT-3 এবং DALL-E-এর সাথে ব্যবহার করা হয়েছে: মানব-সৃষ্ট সামগ্রীর একটি বিশাল ডেটা সেটে একটি অ্যালগরিদমকে প্রাক-প্রশিক্ষণ দেওয়া। কিন্তু অ্যালগরিদমের সাফল্য শুধুমাত্র কম্পিউটিং শক্তি বা ডেটা দ্বারা সক্ষম করা হয়নি। এত ভিডিওতে একটি মাইনক্রাফ্ট এআই প্রশিক্ষণ আগে ব্যবহারিক ছিল না।

কাঁচা ভিডিও ফুটেজ আচরণগত AI-এর জন্য ততটা উপযোগী নয় যতটা GPT-3 এবং DALL-E-এর মতো বিষয়বস্তু জেনারেটরের জন্য। এটা দেখায় মানুষ কি করছে, কিন্তু এটা ব্যাখ্যা করে না কিভাবে তারা এটা করছে। অ্যালগরিদমকে অ্যাকশনের সাথে ভিডিও লিঙ্ক করার জন্য, এটির লেবেল প্রয়োজন। প্লেয়ারের বস্তুর সংগ্রহ দেখানো একটি ভিডিও ফ্রেম, উদাহরণস্বরূপ, কমান্ড কী "E" এর পাশে "ইনভেন্টরি" লেবেল করা প্রয়োজন যা ইনভেন্টরি খুলতে ব্যবহৃত হয়।

70,000 ঘন্টার ভিডিওতে প্রতিটি ফ্রেমে লেবেল করা হবে… পাগলামি। সুতরাং, দলটি আপওয়ার্ক ঠিকাদারদের মৌলিক মাইনক্রাফ্ট দক্ষতা রেকর্ড এবং লেবেল করার জন্য অর্থ প্রদান করে। তারা এই ভিডিওটির 2,000 ঘন্টা ব্যবহার করেছে একটি দ্বিতীয় অ্যালগরিদম শেখানোর জন্য কিভাবে Minecraft ভিডিও লেবেল করতে হয় এবং যে অ্যালগরিদম, IDM, YouTube ফুটেজের সমস্ত 70,000 ঘন্টা টীকা করেছে৷ (দলটি বলেছে যে কীবোর্ড এবং মাউস কমান্ড লেবেল করার সময় IDM 90 শতাংশের বেশি সঠিক ছিল।)

অনলাইনে আচরণগত ডেটা সেট আনলক করার জন্য একটি ডেটা-লেবেলিং অ্যালগরিদমকে প্রশিক্ষণ দেওয়া মানুষের এই পদ্ধতি AI-কে অন্যান্য দক্ষতাও শিখতে সাহায্য করতে পারে। "ভিপিটি এজেন্টদের অনুমতি দেওয়ার পথ প্রশস্ত করে৷ অভিনয় করতে শিখুন ইন্টারনেটে বিপুল সংখ্যক ভিডিও দেখার মাধ্যমে,” গবেষক লিখেছেন। মাইনক্রাফ্টের বাইরে, ওপেনএআই মনে করে যে ভিপিটি নতুন বাস্তব-বিশ্বের অ্যাপ্লিকেশন আনতে পারে, যেমন অ্যালগরিদমগুলি একটি প্রম্পটে কম্পিউটার পরিচালনা করে (কল্পনা করুন, উদাহরণস্বরূপ, আপনার ল্যাপটপকে একটি নথি খুঁজে পেতে এবং এটি আপনার বসকে ইমেল করতে বলুন)।

হীরা চিরকালের জন্য নয়

MineRL প্রতিযোগিতার সংগঠকদের ক্ষোভের জন্য সম্ভবত, ফলাফলগুলি দেখায় যে কম্পিউটিং শক্তি এবং সংস্থানগুলি এখনও সবচেয়ে উন্নত AI এর উপর সুই চালায়।

কম্পিউটিং খরচ মনে করবেন না, OpenAI বলেছে যে আপওয়ার্ক ঠিকাদারদের একাই $160,000 খরচ হয়েছে। যদিও ন্যায্যভাবে, পুরো ডেটা সেটটিকে ম্যানুয়ালি লেবেল করা লক্ষ লক্ষের মধ্যে চলে যেত এবং সম্পূর্ণ হতে যথেষ্ট সময় লাগবে। এবং যখন কম্পিউটিং শক্তি উপেক্ষিত ছিল না, মডেলটি আসলে বেশ ছোট ছিল। VPT-এর কয়েক মিলিয়ন প্যারামিটার হল GPT-3-এর শত শত বিলিয়নের চেয়ে কম মাত্রার অর্ডার।

তবুও, কম ডেটা এবং কম্পিউটিং ব্যবহার করে এমন চতুর নতুন পন্থা খুঁজে বের করার ড্রাইভ বৈধ। একটি বাচ্চা এক বা দুটি ভিডিও দেখে Minecraft বেসিক শিখতে পারে। আজকের এআই এমনকি সাধারণ দক্ষতা শেখার জন্য আরও অনেক বেশি প্রয়োজন। মেকিং এআই আরও দক্ষ একটি বড়, যোগ্য চ্যালেঞ্জ।

যাই হোক না কেন, ওপেনএআই এই সময় ভাগ করে নেওয়ার মেজাজে রয়েছে। গবেষকরা বলছেন যে VPT ঝুঁকিমুক্ত নয়—তারা GPT-3 এবং DALL-E-এর মতো অ্যালগরিদমের অ্যাক্সেসকে আংশিকভাবে অপব্যবহার সীমিত করার জন্য কঠোরভাবে নিয়ন্ত্রণ করেছে—কিন্তু আপাতত ঝুঁকি কম। তারা ডেটা, পরিবেশ এবং অ্যালগরিদম ওপেন সোর্স করেছে এবং MineRL এর সাথে অংশীদারিত্ব করছে। এই বছরের প্রতিযোগীরা Minecraft AI-তে সর্বশেষ ব্যবহার, পরিবর্তন এবং সূক্ষ্ম-টিউন করতে বিনামূল্যে।

সম্ভাবনা ভাল যে তারা এই সময় খনির হিরেগুলিকে ভাল করে তুলবে।

চিত্র ক্রেডিট: সাইমন লি / Unsplash 

সময় স্ট্যাম্প:

থেকে আরো এককতা হাব