শিক্ষক হিসাবে GPT-4 এর সাথে ক্ষুদ্র ভাষার মডেলগুলি উন্নতি লাভ করে | কোয়ান্টা ম্যাগাজিন

শিক্ষক হিসাবে GPT-4 এর সাথে ক্ষুদ্র ভাষার মডেলগুলি উন্নতি লাভ করে | কোয়ান্টা ম্যাগাজিন

শিক্ষক হিসাবে GPT-4 এর সাথে ক্ষুদ্র ভাষার মডেলগুলি উন্নতি লাভ করে | কোয়ান্টা ম্যাগাজিন প্লেটোব্লকচেইন ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.

ভূমিকা

ইংরেজি শেখা কোনো সহজ কাজ নয়, কারণ অগণিত শিক্ষার্থী ভালোভাবে জানে। কিন্তু যখন ছাত্র একজন কম্পিউটার হয়, তখন একটি পদ্ধতি আশ্চর্যজনকভাবে ভালো কাজ করে: ইন্টারনেট থেকে কেবলমাত্র নিউরাল নেটওয়ার্ক নামে একটি বিশাল গাণিতিক মডেলে পাঠ্যের পাহাড়গুলিকে ফিড করুন৷ ওপেনএআই-এর চ্যাটজিপিটি-এর মতো জেনারেটিভ ল্যাঙ্গুয়েজ মডেলগুলির পিছনে এটিই অপারেটিং নীতি, যার বিস্তৃত বিষয়ে সুসঙ্গতভাবে (যদি সর্বদা সত্য না হয়) কথা বলার ক্ষমতা গত এক বছরে গবেষক এবং জনসাধারণকে অবাক করেছে।

কিন্তু পদ্ধতির তার অসুবিধা আছে। একটি জিনিসের জন্য, বিশাল পাঠ্য সংরক্ষণাগারগুলিকে অত্যাধুনিক ভাষার মডেলগুলিতে স্থানান্তর করার জন্য প্রয়োজনীয় "প্রশিক্ষণ" পদ্ধতিটি ব্যয়বহুল এবং সময়-নিবিড়। অন্যের জন্য, এমনকি যারা বড় ভাষা মডেল প্রশিক্ষণ দেয় তাদের ভিতরের কাজগুলি বুঝতে অসুবিধা হয়; যে, ঘুরে, তারা ব্যর্থ হতে পারে অনেক উপায় ভবিষ্যদ্বাণী করা কঠিন করে তোলে।

এই অসুবিধাগুলির মুখোমুখি হয়ে, কিছু গবেষক প্রশিক্ষণ বেছে নিয়েছেন ছোট মডেল ছোট ডেটা সেটে এবং তারপর তাদের আচরণ অধ্যয়ন করুন। “এটা সিকোয়েন্সিং এর মত ড্রসোফিলা জিনোম বনাম মানব জিনোম সিকোয়েন্সিং,” বলেন এলি পাভলিক, ব্রাউন ইউনিভার্সিটির ভাষা মডেল গবেষক।

এখন, ক কাগজ সম্প্রতি বৈজ্ঞানিক প্রিপ্রিন্ট সার্ভার arxiv.org-এ পোস্ট করা হয়েছে, মাইক্রোসফটের একজোড়া গবেষক ক্ষুদ্র ভাষার মডেলের প্রশিক্ষণের জন্য একটি নতুন পদ্ধতি চালু করেছেন: শিশুদের গল্পের কঠোর ডায়েটে তাদের বাড়ান।

মেশিন লার্নিং গবেষকরা এই পাঠ গ্রহণ করেছেন। GPT-3.5, একটি বৃহৎ ভাষা মডেল যা ChatGPT ইন্টারফেসকে ক্ষমতা দেয়, এর প্রায় 200 বিলিয়ন প্যারামিটার রয়েছে এবং এটি শত শত কোটি শব্দ সমন্বিত ডেটা সেটের উপর প্রশিক্ষিত ছিল। (ওপেনএআই তার উত্তরাধিকারী, GPT-4 এর জন্য সংশ্লিষ্ট পরিসংখ্যান প্রকাশ করেনি।) এই ধরনের বড় মডেলের প্রশিক্ষণের জন্য সাধারণত কমপক্ষে 1,000 বিশেষায়িত প্রসেসরের প্রয়োজন হয় যাকে বলা হয় GPUs নামক এক সময়ে সপ্তাহের জন্য সমান্তরালে চলছে। শুধুমাত্র কয়েকটি সংস্থাই প্রয়োজনীয় সংস্থানগুলি সংগ্রহ করতে পারে, প্রশিক্ষণ দেওয়া এবং বিভিন্ন মডেলের তুলনা করা যাক।

দুই গবেষক দেখিয়েছেন যে ভাষার মডেলগুলি আজকের অত্যাধুনিক সিস্টেমের চেয়ে হাজার গুণ ছোট এইভাবে প্রশিক্ষিত হলে দ্রুত সামঞ্জস্যপূর্ণ এবং ব্যাকরণগত গল্প বলতে শিখেছে। তাদের ফলাফলগুলি নতুন গবেষণার দিক নির্দেশ করে যা বৃহত্তর মডেলদের প্রশিক্ষণ এবং তাদের আচরণ বোঝার জন্য সহায়ক হতে পারে।

"আমি এই কাগজ খুব তথ্যপূর্ণ খুঁজে পেয়েছি," বলেন চন্দ্র ভাগবতুলা, সিয়াটেলের অ্যালেন ইনস্টিটিউট ফর কৃত্রিম বুদ্ধিমত্তার ভাষা মডেল গবেষক। "ধারণাটি নিজেই অত্যন্ত আকর্ষণীয়।"

এককালে

ভাষার মডেলের কেন্দ্রস্থলে অবস্থিত নিউরাল নেটওয়ার্কগুলি হল গাণিতিক কাঠামো যা মানুষের মস্তিষ্ক দ্বারা অনুপ্রাণিত হয়। প্রতিটিতে স্তরে সাজানো অনেক কৃত্রিম নিউরন রয়েছে, যার সংলগ্ন স্তরের নিউরনের মধ্যে সংযোগ রয়েছে। নিউরাল নেটওয়ার্কের আচরণ এই সংযোগগুলির শক্তি দ্বারা নিয়ন্ত্রিত হয়, যাকে পরামিতি বলা হয়। একটি ভাষা মডেলে, পরামিতিগুলি নিয়ন্ত্রণ করে যে মডেলটি পরবর্তীতে কোন শব্দগুলি থুতু ফেলতে পারে, একটি প্রাথমিক প্রম্পট দেওয়া হয় এবং এটি ইতিমধ্যেই তৈরি করা শব্দগুলি।

একটি মডেল শুধুমাত্র প্রশিক্ষণের সময় সত্যিকারের জীবনে আসে, যখন এটি বারবার তার প্রশিক্ষণ ডেটা সেটের পাঠ্যের সাথে তার নিজস্ব আউটপুট তুলনা করে এবং সাদৃশ্য বাড়ানোর জন্য তার পরামিতিগুলিকে সামঞ্জস্য করে। এলোমেলো পরামিতি সহ একটি অপ্রশিক্ষিত নেটওয়ার্ক কোডের কয়েকটি লাইন থেকে একত্রিত করা তুচ্ছভাবে সহজ, তবে এটি কেবল অবাস্তবতা তৈরি করবে। প্রশিক্ষণের পরে, এটি প্রায়শই অপরিচিত পাঠ্য চালিয়ে যেতে পারে। বড় মডেলগুলি প্রায়শই আরও সূক্ষ্ম টিউনিংয়ের মধ্য দিয়ে যায় যা তাদের প্রশ্নের উত্তর দিতে এবং নির্দেশাবলী অনুসরণ করতে শেখায়, তবে প্রশিক্ষণের বেশিরভাগই শব্দ ভবিষ্যদ্বাণীতে দক্ষতা অর্জন করে।

শব্দ ভবিষ্যদ্বাণীতে সাফল্যের জন্য অনেকগুলি বিভিন্ন দক্ষতা আয়ত্ত করার জন্য একটি ভাষা মডেল প্রয়োজন। উদাহরণস্বরূপ, ইংরেজি ব্যাকরণের নিয়মগুলি নির্দেশ করে যে "going" শব্দের পরের শব্দটি পাঠ্যের বিষয় নির্বিশেষে "to" হতে পারে। উপরন্তু, একটি সিস্টেম "ফ্রান্সের রাজধানী হল" এবং একটি প্যাসেজ সম্পন্ন করার জন্য বাস্তব জ্ঞানের প্রয়োজন শব্দ "না" যুক্তির প্রাথমিক উপলব্ধি প্রয়োজন।

"কাঁচা ভাষা খুব জটিল," বলেন টিমোথি নগুয়েন, ডিপমাইন্ডের একজন মেশিন লার্নিং গবেষক। "আকর্ষণীয় ভাষাগত ক্ষমতার উদ্ভবের জন্য, লোকেরা 'আরও ডেটা আরও ভাল'-এর আশ্রয় নিয়েছে।"

ভূমিকা

রনেন এলডান, একজন গণিতবিদ যিনি 2022 সালে মাইক্রোসফ্ট রিসার্চে যোগদান করেছিলেন জেনারেটিভ ল্যাঙ্গুয়েজ মডেল অধ্যয়ন করতে, তিনি তাদের ক্ষমতাগুলি অন্বেষণ করার জন্য একটি সস্তা এবং দ্রুত উপায় বিকাশ করতে চেয়েছিলেন। এটি করার প্রাকৃতিক উপায় ছিল একটি ছোট ডেটা সেট ব্যবহার করে, এবং এর অর্থ হল তাকে একটি নির্দিষ্ট কাজে বিশেষীকরণের জন্য মডেলদের প্রশিক্ষণ দিতে হবে, যাতে তারা নিজেদেরকে খুব পাতলা না করে। প্রাথমিকভাবে, তিনি একটি নির্দিষ্ট শ্রেণীর গণিতের সমস্যা সমাধানের জন্য মডেলদের প্রশিক্ষণ দিতে চেয়েছিলেন, কিন্তু একদিন বিকেলে, তার 5 বছর বয়সী মেয়ের সাথে সময় কাটানোর পরে, তিনি বুঝতে পেরেছিলেন যে শিশুদের গল্পগুলি উপযুক্ত।

"আমি তার একটি গল্প পড়ার পরে এটি আক্ষরিক অর্থেই আমার কাছে এসেছিল," তিনি বলেছিলেন।

সুসংগত শিশুদের গল্প তৈরি করার জন্য, একটি ভাষার মডেলকে বিশ্বের তথ্যগুলি শিখতে হবে, চরিত্র এবং ঘটনাগুলির উপর নজর রাখতে হবে এবং ব্যাকরণের নিয়মগুলি পর্যবেক্ষণ করতে হবে - বড় মডেলগুলির মুখোমুখি হওয়া চ্যালেঞ্জগুলির সহজ সংস্করণ৷ কিন্তু বিশাল ডেটা সেটে প্রশিক্ষিত বড় মডেলগুলি সত্যই গুরুত্বপূর্ণ নিয়মগুলির সাথে অগণিত অপ্রাসঙ্গিক বিবরণ শিখে। এলডান আশা করেছিলেন যে শিশুদের গল্পের সংক্ষিপ্ততা এবং সীমিত শব্দভান্ডার ছোট মডেলের জন্য শেখাকে আরও পরিচালনাযোগ্য করে তুলতে পারে - সেগুলিকে প্রশিক্ষণ দেওয়া সহজ এবং বোঝা সহজ করে তোলে।

ভাষার মডেলের জগতে, যদিও, "ছোট" আপেক্ষিক: GPT-3.5 প্রশিক্ষণের জন্য ব্যবহৃত ডেটার চেয়ে হাজার গুণ ছোট একটি ডেটা সেটে এখনও লক্ষ লক্ষ গল্প থাকতে হবে। "আমি জানি না আপনি কত টাকা খরচ করতে চান, কিন্তু আমি অনুমান করছি যে আপনি [কয়েক মিলিয়ন] ছোট গল্প লেখার জন্য পেশাদারদের নিয়োগ করতে যাচ্ছেন না," নগুয়েন বলেছিলেন।

এই ধরনের উদাসীন পাঠকদের সন্তুষ্ট করতে একজন অসাধারণ লেখকের প্রয়োজন হবে, কিন্তু এলডানের মনে কিছু প্রার্থী ছিল। বড় ভাষার চেয়ে ছোট ভাষার মডেলের শ্রোতাদের জন্য কার লেখা ভাল?

খেলনা গল্প

এলডান অবিলম্বে বৃহৎ ভাষার মডেল দ্বারা তৈরি সিন্থেটিক শিশুদের গল্পের একটি লাইব্রেরি তৈরি করার জন্য যাত্রা শুরু করেন। কিন্তু তিনি শীঘ্রই আবিষ্কার করেছিলেন যে এমনকি অত্যাধুনিক মডেলগুলি স্বাভাবিকভাবেই খুব সৃজনশীল নয়। আপনি যদি GPT-4 কে 4 বছর বয়সীদের জন্য উপযুক্ত গল্প লিখতে বলেন, Eldan বলেন, "গল্পের প্রায় এক-পঞ্চমাংশ শিশুরা পার্কে স্লাইডের ভয়ে ভয় পায়।" যতদূর ইন্টারনেট উদ্বিগ্ন, এটি দৃশ্যত প্রাক-বিদ্যালয়ের গল্প।

সমাধানটি ছিল প্রম্পটে কিছুটা এলোমেলোতা যুক্ত করা। প্রথমত, এলডান 4টি বিশেষ্য, ক্রিয়াপদ এবং বিশেষণগুলির একটি তালিকা তৈরি করতে GPT-1,500 ব্যবহার করেছিলেন যা একজন 4 বছর বয়সী ব্যক্তি জানতে পারে - যথেষ্ট সংক্ষিপ্ত যাতে তিনি সহজেই এটি নিজেই পরীক্ষা করতে পারেন। তারপরে তিনি একটি সাধারণ কম্পিউটার প্রোগ্রাম লিখেছিলেন যা বারবার GPT-3.5 বা GPT-4 কে একটি বয়স-উপযুক্ত গল্প তৈরি করতে অনুরোধ করবে যাতে তালিকা থেকে তিনটি এলোমেলো শব্দ অন্তর্ভুক্ত ছিল, সাথে একটি সুখী সমাপ্তি বা প্লট টুইস্টের মতো অতিরিক্ত এলোমেলোভাবে নির্বাচিত বিশদ সহ। ফলস্বরূপ গল্পগুলি, করুণার সাথে, ভীতিকর স্লাইডগুলিতে কম ফোকাস করা হয়েছিল।

এল্ডানের এখন চাহিদা অনুযায়ী প্রশিক্ষণের ডেটা মন্থন করার একটি পদ্ধতি ছিল, কিন্তু একটি কার্যকরী মডেলকে প্রশিক্ষণের জন্য তার কতগুলি গল্পের প্রয়োজন হবে বা সেই মডেলটি কত বড় হতে হবে তার কোন ধারণা ছিল না। তখনই তিনি জুটি বাঁধেন ইউয়ানঝি লি, মাইক্রোসফ্ট এবং কার্নেগি মেলন ইউনিভার্সিটির একজন মেশিন লার্নিং গবেষক, বিভিন্ন সম্ভাবনার চেষ্টা করার জন্য, এই সত্যটির সুযোগ নিয়ে যে ছোট মডেলগুলি খুব দ্রুত প্রশিক্ষিত হতে পারে। ধাপ 1 তাদের মডেল মূল্যায়ন কিভাবে সিদ্ধান্ত ছিল.

ভূমিকা

ভাষা মডেল গবেষণায় - যেমন প্রতিটি শ্রেণীকক্ষে - গ্রেডিং একটি পূর্ণ বিষয়। সেখানে নিখুঁত রুব্রিক নেই যা গবেষকরা যা জানতে চান তার সমস্ত কিছুকে ধারণ করে, এবং কিছু কাজে পারদর্শী মডেলগুলি প্রায়শই অন্যদের কাছে দর্শনীয়ভাবে ব্যর্থ হয়। সময়ের সাথে সাথে, গবেষকরা দ্ব্যর্থহীন উত্তর সহ প্রশ্নের উপর ভিত্তি করে বিভিন্ন স্ট্যান্ডার্ড বেঞ্চমার্ক তৈরি করেছেন, যদি আপনি নির্দিষ্ট দক্ষতা মূল্যায়ন করার চেষ্টা করেন তবে এটি একটি ভাল পদ্ধতি। কিন্তু এলডান এবং লি আরও কিছু কিছুতে আগ্রহী ছিলেন: আপনি ভাষাকে যতটা সম্ভব সহজ করে তুললে ভাষার মডেলগুলি আসলে কতটা বড় হওয়া দরকার?

"মডেল ইংরেজিতে কথা বলে কিনা তা সরাসরি পরীক্ষা করার জন্য, আমি মনে করি আপনি যা করতে পারেন তা হল মডেলটিকে ওপেন-এন্ডেড উপায়ে ইংরেজি তৈরি করতে দিন," এলডান বলেছিলেন।

এই ধরনের গুণগত প্রশ্নে একটি মডেলের কর্মক্ষমতা পরিমাপ করার জন্য শুধুমাত্র দুটি উপায় আছে: মানব গ্রেডারের উপর নির্ভর করুন, অথবা আবার GPT-4-এ ফিরে যান। দুই গবেষক পরবর্তী পথটি বেছে নিয়েছিলেন, কার্যকরভাবে বড় মডেলকে পাঠ্যপুস্তক লিখতে এবং প্রবন্ধগুলি গ্রেড করতে দেয়।

ভগবতুলা বলেছিলেন যে তিনি দেখতে পছন্দ করবেন কিভাবে GPT-4-এর মূল্যায়ন মানব পর্যালোচকদের তুলনায় — GPT-4 মডেলগুলির প্রতি পক্ষপাতদুষ্ট হতে পারে যেগুলি এটি প্রশিক্ষণে সাহায্য করেছিল, এবং ভাষা মডেলগুলির অস্বচ্ছতা এই ধরনের পক্ষপাতগুলি পরিমাপ করা কঠিন করে তোলে। কিন্তু তিনি মনে করেন না যে এই ধরনের সূক্ষ্মতা কৃত্রিম গল্পের অনুরূপ সেটগুলিতে প্রশিক্ষিত বিভিন্ন মডেলের মধ্যে তুলনাকে প্রভাবিত করবে - এলডান এবং লি-এর কাজের মূল ফোকাস।

এলডান এবং লি প্রশিক্ষণের পরে তাদের প্রতিটি ছোট মডেলের মূল্যায়নের জন্য একটি দ্বি-পদক্ষেপ পদ্ধতি ব্যবহার করেছিলেন। প্রথমত, তারা প্রশিক্ষণের ডেটা সেটের থেকে আলাদা একটি গল্পের প্রথমার্ধের সাথে ছোট মডেলটিকে অনুরোধ করেছিল যাতে এটি একটি নতুন সমাপ্তি তৈরি করে, 50টি ভিন্ন পরীক্ষার গল্পের সাথে এই প্রক্রিয়াটি পুনরাবৃত্তি করে। দ্বিতীয়ত, তারা GPT-4-কে নির্দেশ দিয়েছে ছোট মডেলের প্রতিটি প্রান্তকে তিনটি বিভাগের উপর ভিত্তি করে গ্রেড করার জন্য — সৃজনশীলতা, ব্যাকরণ এবং গল্পের শুরুর সাথে সামঞ্জস্য। তারপরে তারা প্রতিটি বিভাগে স্কোর গড় করে, মডেল প্রতি তিনটি চূড়ান্ত গ্রেড দিয়ে শেষ করে।

এই পদ্ধতিটি হাতে নিয়ে, এলডান এবং লি অবশেষে বিভিন্ন মডেলের তুলনা করতে এবং তারকা ছাত্রদের খুঁজে বের করতে প্রস্তুত ছিলেন।

পরীক্ষার ফলাফল

কিছু প্রাথমিক অনুসন্ধানের পর, দুই গবেষক মোটামুটি 2 মিলিয়ন গল্প সম্বলিত একটি প্রশিক্ষণ ডেটা সেটে বসতি স্থাপন করেন। তারপরে তারা এই ডেটা সেটটি ব্যবহার করে, যার নাম TinyStories বলা হয়, বিভিন্ন সংখ্যক স্তর সহ 1 মিলিয়ন থেকে 30 মিলিয়ন প্যারামিটারের আকারের মডেলগুলিকে প্রশিক্ষণ দিতে। এটি ছিল দ্রুত কাজ: মাত্র চারটি জিপিইউ ব্যবহার করে, এই মডেলগুলির মধ্যে সবচেয়ে বড়টি প্রশিক্ষণ নিতে এক দিনের বেশি সময় নেয়নি।

সবচেয়ে ছোট মডেল সংগ্রাম. উদাহরণ স্বরূপ, একটি পরীক্ষার গল্প শুরু হয় একজন গড়পড়তা লোকটি একটি মেয়েকে বলে যে সে তার বিড়ালকে নিয়ে যাবে। একটি মিলিয়ন-প্যারামিটার মডেল মেয়েটি বারবার লোকটিকে বলে সে বন্ধু হতে চায় বলে একটি লুপে আটকে গেছে৷ কিন্তু বড়গুলো — এখনও GPT-3.5-এর থেকে হাজার গুণ ছোট — আশ্চর্যজনকভাবে ভালো পারফর্ম করেছে। 28-মিলিয়ন-প্যারামিটার সংস্করণটি একটি সুসংগত গল্প বলেছিল, যদিও সমাপ্তিটি গুরুতর ছিল: “কেটি কাঁদতে শুরু করেছিল, কিন্তু লোকটি পাত্তা দেয়নি। তিনি বিড়ালটিকে নিয়ে যান এবং কেটি তার বিড়ালটিকে আর কখনও দেখেননি। শেষ।"

তাদের নিজস্ব মডেল পরীক্ষা করার পাশাপাশি, Eldan এবং Li একই চ্যালেঞ্জ পেশ করেছে OpenAI-এর GPT-2-এর কাছে, একটি 1.5-বিলিয়ন-প্যারামিটার মডেল যা 2019 সালে প্রকাশিত হয়েছিল৷ এটি আরও খারাপ হয়েছিল — গল্পের আকস্মিকভাবে শেষ হওয়ার আগে, লোকটি মেয়েটিকে নিয়ে যাওয়ার হুমকি দেয় আদালত, কারাগার, হাসপাতাল, মর্গ এবং অবশেষে শ্মশানে।

ভূমিকা

নগুয়েন বলেছিলেন যে এটি উত্তেজনাপূর্ণ যে এই জাতীয় ছোট মডেলগুলি এত সাবলীল ছিল, তবে সম্ভবত অবাক হওয়ার মতো কিছু নয় যে GPT-2 টাস্কের সাথে লড়াই করেছিল: এটি একটি বড় মডেল তবে শিল্পের অবস্থা থেকে অনেক দূরে, এবং এটি একটি খুব আলাদা ডেটা সেটে প্রশিক্ষিত হয়েছিল। "একটি ছোট বাচ্চাকে শুধুমাত্র ছোট বাচ্চাদের কাজের প্রশিক্ষণ, যেমন কিছু খেলনা দিয়ে খেলা, আপনার বা আমার চেয়ে ভাল করতে পারে," তিনি উল্লেখ করেছেন। "আমরা এই সাধারণ জিনিসটিতে বিশেষীকরণ করিনি।"

বিভিন্ন TinyStories মডেলের মধ্যে তুলনা একই বিভ্রান্তিকর কারণগুলির দ্বারা ভোগে না। এলডান এবং লি ইঙ্গিত দিয়েছিলেন যে কম স্তরের নেটওয়ার্ক কিন্তু প্রতি স্তরে বেশি নিউরন এমন প্রশ্নের উত্তর দিতে ভাল ছিল যার জন্য বাস্তব জ্ঞানের প্রয়োজন হয়; বিপরীতভাবে, আরও স্তরযুক্ত নেটওয়ার্ক এবং প্রতি স্তরে কম নিউরনগুলি গল্পের আগের থেকে অক্ষর এবং প্লট পয়েন্টগুলির ট্র্যাক রাখতে ভাল ছিল। ভাগবতুলা এই ফলাফলটিকে বিশেষভাবে কৌতুহলজনক বলে মনে করেছিলেন। যদি এটি বৃহত্তর মডেলগুলিতে প্রতিলিপি করা যায়, তিনি বলেছিলেন, "এটি একটি দুর্দান্ত ফলাফল হবে যা এই কাজ থেকে বেরিয়ে আসতে পারে।"

এলডান এবং লি আরও অধ্যয়ন করেছেন যে কীভাবে তাদের ছোট মডেলের ক্ষমতা প্রশিক্ষণের সময়কালের উপর নির্ভর করে। প্রতিটি ক্ষেত্রে, মডেলগুলি প্রথমে ব্যাকরণে এবং পরে ধারাবাহিকতা আয়ত্ত করে। এলডানের কাছে, এই প্যাটার্নটি ব্যাখ্যা করে যে কীভাবে পুরষ্কার কাঠামোর পার্থক্যগুলি নিউরাল নেটওয়ার্ক এবং শিশুদের মধ্যে ভাষা অধিগ্রহণের ধরণগুলিতে পার্থক্যের দিকে পরিচালিত করে। ভাষার মডেলের জন্য, যারা শব্দের ভবিষ্যদ্বাণী করে শেখে, "'আমি থাকতে চাই' শব্দের উদ্দীপনা 'আইসক্রিম' শব্দের মতোই বড়," তিনি বলেছিলেন। অন্যদিকে, বাচ্চারা "আমি কিছু আইসক্রিম খেতে চাই" নাকি শুধু 'আইসক্রিম, আইসক্রিম, আইসক্রিম' বলে তা নিয়ে চিন্তা করবেন না৷

গুণমান বনাম পরিমাণ

এলডান এবং লি আশা করেন যে গবেষণাটি অন্যান্য গবেষকদের বিভিন্ন মডেলের প্রশিক্ষণ দিতে অনুপ্রাণিত করবে TinyStories ডেটা সেট এবং তাদের ক্ষমতা তুলনা. কিন্তু ছোট মডেলের কোন বৈশিষ্ট্যগুলি বড় মডেলগুলিতে প্রদর্শিত হবে তা অনুমান করা প্রায়শই কঠিন।

"হয়তো দৃষ্টির মাউস মডেলগুলি মানুষের দৃষ্টিভঙ্গির সত্যিই ভাল প্রক্সি, কিন্তু বিষণ্নতার মাউস মডেলগুলি কি মানুষের বিষণ্নতার ভাল মডেল?" পাভলিক বললেন। "প্রতিটি ক্ষেত্রে এটি একটু ভিন্ন।"

TinyStories মডেলগুলির সাফল্যও একটি বিস্তৃত পাঠের পরামর্শ দেয়৷ প্রশিক্ষণ ডেটা সেট কম্পাইল করার আদর্শ পদ্ধতির মধ্যে রয়েছে ইন্টারনেট জুড়ে পাঠ্যকে ভ্যাকুয়াম করা এবং তারপর আবর্জনা ফিল্টার করা। বড় মডেলের দ্বারা উত্পন্ন সিন্থেটিক পাঠ্য উচ্চ-মানের ডেটা সেটগুলিকে একত্রিত করার একটি বিকল্প উপায় অফার করতে পারে যা এত বড় হতে হবে না।

"আমাদের কাছে আরও বেশি প্রমাণ রয়েছে যে এটি খুব কার্যকর, শুধুমাত্র টিনিস্টোরিজ-আকারের মডেলগুলিতে নয়, বড় মডেলগুলিতেও," এলডান বলেছিলেন। সেই প্রমাণ এলডান, লি এবং অন্যান্য মাইক্রোসফ্ট গবেষকদের বিলিয়ন-প্যারামিটার মডেল সম্পর্কে এক জোড়া ফলো-আপ পেপার থেকে এসেছে। মধ্যে প্রথম কাগজ, তারা ইন্টারনেট থেকে সাবধানে কিউরেট করা কোড সহ GPT-3.5 দ্বারা জেনারেট করা কোডের স্নিপেট ব্যবহার করে প্রোগ্রামিং ভাষা পাইথন শেখার জন্য একটি মডেলকে প্রশিক্ষণ দেয়। মধ্যে দ্বিতীয়, তারা কৃত্রিম "পাঠ্যপুস্তক" সহ প্রশিক্ষণের ডেটা সেটকে বাড়িয়েছে, যা একটি সাধারণ-উদ্দেশ্য ভাষার মডেলকে প্রশিক্ষণের জন্য বিস্তৃত বিষয় কভার করে। তাদের পরীক্ষায়, উভয় মডেলই বৃহত্তর ডেটা সেটগুলিতে প্রশিক্ষিত বৃহত্তর মডেলগুলির সাথে অনুকূলভাবে তুলনা করেছে। কিন্তু ভাষার মডেলের মূল্যায়ন করা সবসময়ই কঠিন, এবং সিন্থেটিক প্রশিক্ষণ ডেটা পদ্ধতি এখনও তার শৈশবকালে রয়েছে — আরও স্বাধীন পরীক্ষা প্রয়োজন।

যেমন অত্যাধুনিক ভাষার মডেলগুলি আরও বড় হয়ে উঠছে, তাদের ছোট কাজিনদের কাছ থেকে আশ্চর্যজনক অনুসন্ধানগুলি মনে করিয়ে দেয় যে আমরা এখনও সহজতম মডেলগুলি সম্পর্কে অনেক কিছুই বুঝতে পারি না। টিনিস্টোরিজ দ্বারা অগ্রগামী পদ্ধতির অন্বেষণে নুগুয়েন আরও অনেক কাগজপত্র দেখতে পাবেন।

"প্রশ্ন হল: কোথায় এবং কেন আকার গুরুত্বপূর্ণ?" সে বলেছিল. "এর একটি বিজ্ঞান থাকা উচিত, এবং এই কাগজটি আশা করি একটি সমৃদ্ধ গল্পের সূচনা।"

সময় স্ট্যাম্প:

থেকে আরো কোয়ান্টাম্যাগাজিন