শিক্ষক হিসাবে GPT-4 এর সাথে ক্ষুদ্র ভাষার মডেলগুলি উন্নতি লাভ করে

প্লেটো দ্বারা প্রকাশিত

অনুসরণকারী: 0

শিক্ষক হিসাবে GPT-4 এর সাথে ক্ষুদ্র ভাষার মডেলগুলি উন্নতি লাভ করে | কোয়ান্টা ম্যাগাজিন প্লেটোব্লকচেইন ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.

ইংরেজি শেখা কোনো সহজ কাজ নয়, কারণ অগণিত শিক্ষার্থী ভালোভাবে জানে। কিন্তু যখন ছাত্র একজন কম্পিউটার হয়, তখন একটি পদ্ধতি আশ্চর্যজনকভাবে ভালো কাজ করে: ইন্টারনেট থেকে কেবলমাত্র নিউরাল নেটওয়ার্ক নামে একটি বিশাল গাণিতিক মডেলে পাঠ্যের পাহাড়গুলিকে ফিড করুন৷ ওপেনএআই-এর চ্যাটজিপিটি-এর মতো জেনারেটিভ ল্যাঙ্গুয়েজ মডেলগুলির পিছনে এটিই অপারেটিং নীতি, যার বিস্তৃত বিষয়ে সুসঙ্গতভাবে (যদি সর্বদা সত্য না হয়) কথা বলার ক্ষমতা গত এক বছরে গবেষক এবং জনসাধারণকে অবাক করেছে।

কিন্তু পদ্ধতির তার অসুবিধা আছে। একটি জিনিসের জন্য, বিশাল পাঠ্য সংরক্ষণাগারগুলিকে অত্যাধুনিক ভাষার মডেলগুলিতে স্থানান্তর করার জন্য প্রয়োজনীয় "প্রশিক্ষণ" পদ্ধতিটি ব্যয়বহুল এবং সময়-নিবিড়। অন্যের জন্য, এমনকি যারা বড় ভাষা মডেল প্রশিক্ষণ দেয় তাদের ভিতরের কাজগুলি বুঝতে অসুবিধা হয়; যে, ঘুরে, তারা ব্যর্থ হতে পারে অনেক উপায় ভবিষ্যদ্বাণী করা কঠিন করে তোলে।

এই অসুবিধাগুলির মুখোমুখি হয়ে, কিছু গবেষক প্রশিক্ষণ বেছে নিয়েছেন ছোট মডেল ছোট ডেটা সেটে এবং তারপর তাদের আচরণ অধ্যয়ন করুন। “এটা সিকোয়েন্সিং এর মত ড্রসোফিলা জিনোম বনাম মানব জিনোম সিকোয়েন্সিং,” বলেন এলি পাভলিক, ব্রাউন ইউনিভার্সিটির ভাষা মডেল গবেষক।

এখন, ক কাগজ সম্প্রতি বৈজ্ঞানিক প্রিপ্রিন্ট সার্ভার arxiv.org-এ পোস্ট করা হয়েছে, মাইক্রোসফটের একজোড়া গবেষক ক্ষুদ্র ভাষার মডেলের প্রশিক্ষণের জন্য একটি নতুন পদ্ধতি চালু করেছেন: শিশুদের গল্পের কঠোর ডায়েটে তাদের বাড়ান।

মেশিন লার্নিং গবেষকরা এই পাঠ গ্রহণ করেছেন। GPT-3.5, একটি বৃহৎ ভাষা মডেল যা ChatGPT ইন্টারফেসকে ক্ষমতা দেয়, এর প্রায় 200 বিলিয়ন প্যারামিটার রয়েছে এবং এটি শত শত কোটি শব্দ সমন্বিত ডেটা সেটের উপর প্রশিক্ষিত ছিল। (ওপেনএআই তার উত্তরাধিকারী, GPT-4 এর জন্য সংশ্লিষ্ট পরিসংখ্যান প্রকাশ করেনি।) এই ধরনের বড় মডেলের প্রশিক্ষণের জন্য সাধারণত কমপক্ষে 1,000 বিশেষায়িত প্রসেসরের প্রয়োজন হয় যাকে বলা হয় GPUs নামক এক সময়ে সপ্তাহের জন্য সমান্তরালে চলছে। শুধুমাত্র কয়েকটি সংস্থাই প্রয়োজনীয় সংস্থানগুলি সংগ্রহ করতে পারে, প্রশিক্ষণ দেওয়া এবং বিভিন্ন মডেলের তুলনা করা যাক।

দুই গবেষক দেখিয়েছেন যে ভাষার মডেলগুলি আজকের অত্যাধুনিক সিস্টেমের চেয়ে হাজার গুণ ছোট এইভাবে প্রশিক্ষিত হলে দ্রুত সামঞ্জস্যপূর্ণ এবং ব্যাকরণগত গল্প বলতে শিখেছে। তাদের ফলাফলগুলি নতুন গবেষণার দিক নির্দেশ করে যা বৃহত্তর মডেলদের প্রশিক্ষণ এবং তাদের আচরণ বোঝার জন্য সহায়ক হতে পারে।

"আমি এই কাগজ খুব তথ্যপূর্ণ খুঁজে পেয়েছি," বলেন চন্দ্র ভাগবতুলা, সিয়াটেলের অ্যালেন ইনস্টিটিউট ফর কৃত্রিম বুদ্ধিমত্তার ভাষা মডেল গবেষক। "ধারণাটি নিজেই অত্যন্ত আকর্ষণীয়।"

এককালে

ভাষার মডেলের কেন্দ্রস্থলে অবস্থিত নিউরাল নেটওয়ার্কগুলি হল গাণিতিক কাঠামো যা মানুষের মস্তিষ্ক দ্বারা অনুপ্রাণিত হয়। প্রতিটিতে স্তরে সাজানো অনেক কৃত্রিম নিউরন রয়েছে, যার সংলগ্ন স্তরের নিউরনের মধ্যে সংযোগ রয়েছে। নিউরাল নেটওয়ার্কের আচরণ এই সংযোগগুলির শক্তি দ্বারা নিয়ন্ত্রিত হয়, যাকে পরামিতি বলা হয়। একটি ভাষা মডেলে, পরামিতিগুলি নিয়ন্ত্রণ করে যে মডেলটি পরবর্তীতে কোন শব্দগুলি থুতু ফেলতে পারে, একটি প্রাথমিক প্রম্পট দেওয়া হয় এবং এটি ইতিমধ্যেই তৈরি করা শব্দগুলি।

একটি মডেল শুধুমাত্র প্রশিক্ষণের সময় সত্যিকারের জীবনে আসে, যখন এটি বারবার তার প্রশিক্ষণ ডেটা সেটের পাঠ্যের সাথে তার নিজস্ব আউটপুট তুলনা করে এবং সাদৃশ্য বাড়ানোর জন্য তার পরামিতিগুলিকে সামঞ্জস্য করে। এলোমেলো পরামিতি সহ একটি অপ্রশিক্ষিত নেটওয়ার্ক কোডের কয়েকটি লাইন থেকে একত্রিত করা তুচ্ছভাবে সহজ, তবে এটি কেবল অবাস্তবতা তৈরি করবে। প্রশিক্ষণের পরে, এটি প্রায়শই অপরিচিত পাঠ্য চালিয়ে যেতে পারে। বড় মডেলগুলি প্রায়শই আরও সূক্ষ্ম টিউনিংয়ের মধ্য দিয়ে যায় যা তাদের প্রশ্নের উত্তর দিতে এবং নির্দেশাবলী অনুসরণ করতে শেখায়, তবে প্রশিক্ষণের বেশিরভাগই শব্দ ভবিষ্যদ্বাণীতে দক্ষতা অর্জন করে।

শব্দ ভবিষ্যদ্বাণীতে সাফল্যের জন্য অনেকগুলি বিভিন্ন দক্ষতা আয়ত্ত করার জন্য একটি ভাষা মডেল প্রয়োজন। উদাহরণস্বরূপ, ইংরেজি ব্যাকরণের নিয়মগুলি নির্দেশ করে যে "going" শব্দের পরের শব্দটি পাঠ্যের বিষয় নির্বিশেষে "to" হতে পারে। উপরন্তু, একটি সিস্টেম "ফ্রান্সের রাজধানী হল" এবং একটি প্যাসেজ সম্পন্ন করার জন্য বাস্তব জ্ঞানের প্রয়োজন শব্দ "না" যুক্তির প্রাথমিক উপলব্ধি প্রয়োজন।

"কাঁচা ভাষা খুব জটিল," বলেন টিমোথি নগুয়েন, ডিপমাইন্ডের একজন মেশিন লার্নিং গবেষক। "আকর্ষণীয় ভাষাগত ক্ষমতার উদ্ভবের জন্য, লোকেরা 'আরও ডেটা আরও ভাল'-এর আশ্রয় নিয়েছে।"

রনেন এলডান, একজন গণিতবিদ যিনি 2022 সালে মাইক্রোসফ্ট রিসার্চে যোগদান করেছিলেন জেনারেটিভ ল্যাঙ্গুয়েজ মডেল অধ্যয়ন করতে, তিনি তাদের ক্ষমতাগুলি অন্বেষণ করার জন্য একটি সস্তা এবং দ্রুত উপায় বিকাশ করতে চেয়েছিলেন। এটি করার প্রাকৃতিক উপায় ছিল একটি ছোট ডেটা সেট ব্যবহার করে, এবং এর অর্থ হল তাকে একটি নির্দিষ্ট কাজে বিশেষীকরণের জন্য মডেলদের প্রশিক্ষণ দিতে হবে, যাতে তারা নিজেদেরকে খুব পাতলা না করে। প্রাথমিকভাবে, তিনি একটি নির্দিষ্ট শ্রেণীর গণিতের সমস্যা সমাধানের জন্য মডেলদের প্রশিক্ষণ দিতে চেয়েছিলেন, কিন্তু একদিন বিকেলে, তার 5 বছর বয়সী মেয়ের সাথে সময় কাটানোর পরে, তিনি বুঝতে পেরেছিলেন যে শিশুদের গল্পগুলি উপযুক্ত।

"আমি তার একটি গল্প পড়ার পরে এটি আক্ষরিক অর্থেই আমার কাছে এসেছিল," তিনি বলেছিলেন।

সুসংগত শিশুদের গল্প তৈরি করার জন্য, একটি ভাষার মডেলকে বিশ্বের তথ্যগুলি শিখতে হবে, চরিত্র এবং ঘটনাগুলির উপর নজর রাখতে হবে এবং ব্যাকরণের নিয়মগুলি পর্যবেক্ষণ করতে হবে - বড় মডেলগুলির মুখোমুখি হওয়া চ্যালেঞ্জগুলির সহজ সংস্করণ৷ কিন্তু বিশাল ডেটা সেটে প্রশিক্ষিত বড় মডেলগুলি সত্যই গুরুত্বপূর্ণ নিয়মগুলির সাথে অগণিত অপ্রাসঙ্গিক বিবরণ শিখে। এলডান আশা করেছিলেন যে শিশুদের গল্পের সংক্ষিপ্ততা এবং সীমিত শব্দভান্ডার ছোট মডেলের জন্য শেখাকে আরও পরিচালনাযোগ্য করে তুলতে পারে - সেগুলিকে প্রশিক্ষণ দেওয়া সহজ এবং বোঝা সহজ করে তোলে।

ভাষার মডেলের জগতে, যদিও, "ছোট" আপেক্ষিক: GPT-3.5 প্রশিক্ষণের জন্য ব্যবহৃত ডেটার চেয়ে হাজার গুণ ছোট একটি ডেটা সেটে এখনও লক্ষ লক্ষ গল্প থাকতে হবে। "আমি জানি না আপনি কত টাকা খরচ করতে চান, কিন্তু আমি অনুমান করছি যে আপনি [কয়েক মিলিয়ন] ছোট গল্প লেখার জন্য পেশাদারদের নিয়োগ করতে যাচ্ছেন না," নগুয়েন বলেছিলেন।

এই ধরনের উদাসীন পাঠকদের সন্তুষ্ট করতে একজন অসাধারণ লেখকের প্রয়োজন হবে, কিন্তু এলডানের মনে কিছু প্রার্থী ছিল। বড় ভাষার চেয়ে ছোট ভাষার মডেলের শ্রোতাদের জন্য কার লেখা ভাল?

খেলনা গল্প

এলডান অবিলম্বে বৃহৎ ভাষার মডেল দ্বারা তৈরি সিন্থেটিক শিশুদের গল্পের একটি লাইব্রেরি তৈরি করার জন্য যাত্রা শুরু করেন। কিন্তু তিনি শীঘ্রই আবিষ্কার করেছিলেন যে এমনকি অত্যাধুনিক মডেলগুলি স্বাভাবিকভাবেই খুব সৃজনশীল নয়। আপনি যদি GPT-4 কে 4 বছর বয়সীদের জন্য উপযুক্ত গল্প লিখতে বলেন, Eldan বলেন, "গল্পের প্রায় এক-পঞ্চমাংশ শিশুরা পার্কে স্লাইডের ভয়ে ভয় পায়।" যতদূর ইন্টারনেট উদ্বিগ্ন, এটি দৃশ্যত প্রাক-বিদ্যালয়ের গল্প।

সমাধানটি ছিল প্রম্পটে কিছুটা এলোমেলোতা যুক্ত করা। প্রথমত, এলডান 4টি বিশেষ্য, ক্রিয়াপদ এবং বিশেষণগুলির একটি তালিকা তৈরি করতে GPT-1,500 ব্যবহার করেছিলেন যা একজন 4 বছর বয়সী ব্যক্তি জানতে পারে - যথেষ্ট সংক্ষিপ্ত যাতে তিনি সহজেই এটি নিজেই পরীক্ষা করতে পারেন। তারপরে তিনি একটি সাধারণ কম্পিউটার প্রোগ্রাম লিখেছিলেন যা বারবার GPT-3.5 বা GPT-4 কে একটি বয়স-উপযুক্ত গল্প তৈরি করতে অনুরোধ করবে যাতে তালিকা থেকে তিনটি এলোমেলো শব্দ অন্তর্ভুক্ত ছিল, সাথে একটি সুখী সমাপ্তি বা প্লট টুইস্টের মতো অতিরিক্ত এলোমেলোভাবে নির্বাচিত বিশদ সহ। ফলস্বরূপ গল্পগুলি, করুণার সাথে, ভীতিকর স্লাইডগুলিতে কম ফোকাস করা হয়েছিল।

এল্ডানের এখন চাহিদা অনুযায়ী প্রশিক্ষণের ডেটা মন্থন করার একটি পদ্ধতি ছিল, কিন্তু একটি কার্যকরী মডেলকে প্রশিক্ষণের জন্য তার কতগুলি গল্পের প্রয়োজন হবে বা সেই মডেলটি কত বড় হতে হবে তার কোন ধারণা ছিল না। তখনই তিনি জুটি বাঁধেন ইউয়ানঝি লি, মাইক্রোসফ্ট এবং কার্নেগি মেলন ইউনিভার্সিটির একজন মেশিন লার্নিং গবেষক, বিভিন্ন সম্ভাবনার চেষ্টা করার জন্য, এই সত্যটির সুযোগ নিয়ে যে ছোট মডেলগুলি খুব দ্রুত প্রশিক্ষিত হতে পারে। ধাপ 1 তাদের মডেল মূল্যায়ন কিভাবে সিদ্ধান্ত ছিল.

ভাষা মডেল গবেষণায় - যেমন প্রতিটি শ্রেণীকক্ষে - গ্রেডিং একটি পূর্ণ বিষয়। সেখানে নিখুঁত রুব্রিক নেই যা গবেষকরা যা জানতে চান তার সমস্ত কিছুকে ধারণ করে, এবং কিছু কাজে পারদর্শী মডেলগুলি প্রায়শই অন্যদের কাছে দর্শনীয়ভাবে ব্যর্থ হয়। সময়ের সাথে সাথে, গবেষকরা দ্ব্যর্থহীন উত্তর সহ প্রশ্নের উপর ভিত্তি করে বিভিন্ন স্ট্যান্ডার্ড বেঞ্চমার্ক তৈরি করেছেন, যদি আপনি নির্দিষ্ট দক্ষতা মূল্যায়ন করার চেষ্টা করেন তবে এটি একটি ভাল পদ্ধতি। কিন্তু এলডান এবং লি আরও কিছু কিছুতে আগ্রহী ছিলেন: আপনি ভাষাকে যতটা সম্ভব সহজ করে তুললে ভাষার মডেলগুলি আসলে কতটা বড় হওয়া দরকার?

"মডেল ইংরেজিতে কথা বলে কিনা তা সরাসরি পরীক্ষা করার জন্য, আমি মনে করি আপনি যা করতে পারেন তা হল মডেলটিকে ওপেন-এন্ডেড উপায়ে ইংরেজি তৈরি করতে দিন," এলডান বলেছিলেন।

এই ধরনের গুণগত প্রশ্নে একটি মডেলের কর্মক্ষমতা পরিমাপ করার জন্য শুধুমাত্র দুটি উপায় আছে: মানব গ্রেডারের উপর নির্ভর করুন, অথবা আবার GPT-4-এ ফিরে যান। দুই গবেষক পরবর্তী পথটি বেছে নিয়েছিলেন, কার্যকরভাবে বড় মডেলকে পাঠ্যপুস্তক লিখতে এবং প্রবন্ধগুলি গ্রেড করতে দেয়।

ভগবতুলা বলেছিলেন যে তিনি দেখতে পছন্দ করবেন কিভাবে GPT-4-এর মূল্যায়ন মানব পর্যালোচকদের তুলনায় — GPT-4 মডেলগুলির প্রতি পক্ষপাতদুষ্ট হতে পারে যেগুলি এটি প্রশিক্ষণে সাহায্য করেছিল, এবং ভাষা মডেলগুলির অস্বচ্ছতা এই ধরনের পক্ষপাতগুলি পরিমাপ করা কঠিন করে তোলে। কিন্তু তিনি মনে করেন না যে এই ধরনের সূক্ষ্মতা কৃত্রিম গল্পের অনুরূপ সেটগুলিতে প্রশিক্ষিত বিভিন্ন মডেলের মধ্যে তুলনাকে প্রভাবিত করবে - এলডান এবং লি-এর কাজের মূল ফোকাস।

এলডান এবং লি প্রশিক্ষণের পরে তাদের প্রতিটি ছোট মডেলের মূল্যায়নের জন্য একটি দ্বি-পদক্ষেপ পদ্ধতি ব্যবহার করেছিলেন। প্রথমত, তারা প্রশিক্ষণের ডেটা সেটের থেকে আলাদা একটি গল্পের প্রথমার্ধের সাথে ছোট মডেলটিকে অনুরোধ করেছিল যাতে এটি একটি নতুন সমাপ্তি তৈরি করে, 50টি ভিন্ন পরীক্ষার গল্পের সাথে এই প্রক্রিয়াটি পুনরাবৃত্তি করে। দ্বিতীয়ত, তারা GPT-4-কে নির্দেশ দিয়েছে ছোট মডেলের প্রতিটি প্রান্তকে তিনটি বিভাগের উপর ভিত্তি করে গ্রেড করার জন্য — সৃজনশীলতা, ব্যাকরণ এবং গল্পের শুরুর সাথে সামঞ্জস্য। তারপরে তারা প্রতিটি বিভাগে স্কোর গড় করে, মডেল প্রতি তিনটি চূড়ান্ত গ্রেড দিয়ে শেষ করে।

এই পদ্ধতিটি হাতে নিয়ে, এলডান এবং লি অবশেষে বিভিন্ন মডেলের তুলনা করতে এবং তারকা ছাত্রদের খুঁজে বের করতে প্রস্তুত ছিলেন।

পরীক্ষার ফলাফল

কিছু প্রাথমিক অনুসন্ধানের পর, দুই গবেষক মোটামুটি 2 মিলিয়ন গল্প সম্বলিত একটি প্রশিক্ষণ ডেটা সেটে বসতি স্থাপন করেন। তারপরে তারা এই ডেটা সেটটি ব্যবহার করে, যার নাম TinyStories বলা হয়, বিভিন্ন সংখ্যক স্তর সহ 1 মিলিয়ন থেকে 30 মিলিয়ন প্যারামিটারের আকারের মডেলগুলিকে প্রশিক্ষণ দিতে। এটি ছিল দ্রুত কাজ: মাত্র চারটি জিপিইউ ব্যবহার করে, এই মডেলগুলির মধ্যে সবচেয়ে বড়টি প্রশিক্ষণ নিতে এক দিনের বেশি সময় নেয়নি।

সবচেয়ে ছোট মডেল সংগ্রাম. উদাহরণ স্বরূপ, একটি পরীক্ষার গল্প শুরু হয় একজন গড়পড়তা লোকটি একটি মেয়েকে বলে যে সে তার বিড়ালকে নিয়ে যাবে। একটি মিলিয়ন-প্যারামিটার মডেল মেয়েটি বারবার লোকটিকে বলে সে বন্ধু হতে চায় বলে একটি লুপে আটকে গেছে৷ কিন্তু বড়গুলো — এখনও GPT-3.5-এর থেকে হাজার গুণ ছোট — আশ্চর্যজনকভাবে ভালো পারফর্ম করেছে। 28-মিলিয়ন-প্যারামিটার সংস্করণটি একটি সুসংগত গল্প বলেছিল, যদিও সমাপ্তিটি গুরুতর ছিল: “কেটি কাঁদতে শুরু করেছিল, কিন্তু লোকটি পাত্তা দেয়নি। তিনি বিড়ালটিকে নিয়ে যান এবং কেটি তার বিড়ালটিকে আর কখনও দেখেননি। শেষ।"

তাদের নিজস্ব মডেল পরীক্ষা করার পাশাপাশি, Eldan এবং Li একই চ্যালেঞ্জ পেশ করেছে OpenAI-এর GPT-2-এর কাছে, একটি 1.5-বিলিয়ন-প্যারামিটার মডেল যা 2019 সালে প্রকাশিত হয়েছিল৷ এটি আরও খারাপ হয়েছিল — গল্পের আকস্মিকভাবে শেষ হওয়ার আগে, লোকটি মেয়েটিকে নিয়ে যাওয়ার হুমকি দেয় আদালত, কারাগার, হাসপাতাল, মর্গ এবং অবশেষে শ্মশানে।

নগুয়েন বলেছিলেন যে এটি উত্তেজনাপূর্ণ যে এই জাতীয় ছোট মডেলগুলি এত সাবলীল ছিল, তবে সম্ভবত অবাক হওয়ার মতো কিছু নয় যে GPT-2 টাস্কের সাথে লড়াই করেছিল: এটি একটি বড় মডেল তবে শিল্পের অবস্থা থেকে অনেক দূরে, এবং এটি একটি খুব আলাদা ডেটা সেটে প্রশিক্ষিত হয়েছিল। "একটি ছোট বাচ্চাকে শুধুমাত্র ছোট বাচ্চাদের কাজের প্রশিক্ষণ, যেমন কিছু খেলনা দিয়ে খেলা, আপনার বা আমার চেয়ে ভাল করতে পারে," তিনি উল্লেখ করেছেন। "আমরা এই সাধারণ জিনিসটিতে বিশেষীকরণ করিনি।"

বিভিন্ন TinyStories মডেলের মধ্যে তুলনা একই বিভ্রান্তিকর কারণগুলির দ্বারা ভোগে না। এলডান এবং লি ইঙ্গিত দিয়েছিলেন যে কম স্তরের নেটওয়ার্ক কিন্তু প্রতি স্তরে বেশি নিউরন এমন প্রশ্নের উত্তর দিতে ভাল ছিল যার জন্য বাস্তব জ্ঞানের প্রয়োজন হয়; বিপরীতভাবে, আরও স্তরযুক্ত নেটওয়ার্ক এবং প্রতি স্তরে কম নিউরনগুলি গল্পের আগের থেকে অক্ষর এবং প্লট পয়েন্টগুলির ট্র্যাক রাখতে ভাল ছিল। ভাগবতুলা এই ফলাফলটিকে বিশেষভাবে কৌতুহলজনক বলে মনে করেছিলেন। যদি এটি বৃহত্তর মডেলগুলিতে প্রতিলিপি করা যায়, তিনি বলেছিলেন, "এটি একটি দুর্দান্ত ফলাফল হবে যা এই কাজ থেকে বেরিয়ে আসতে পারে।"

এলডান এবং লি আরও অধ্যয়ন করেছেন যে কীভাবে তাদের ছোট মডেলের ক্ষমতা প্রশিক্ষণের সময়কালের উপর নির্ভর করে। প্রতিটি ক্ষেত্রে, মডেলগুলি প্রথমে ব্যাকরণে এবং পরে ধারাবাহিকতা আয়ত্ত করে। এলডানের কাছে, এই প্যাটার্নটি ব্যাখ্যা করে যে কীভাবে পুরষ্কার কাঠামোর পার্থক্যগুলি নিউরাল নেটওয়ার্ক এবং শিশুদের মধ্যে ভাষা অধিগ্রহণের ধরণগুলিতে পার্থক্যের দিকে পরিচালিত করে। ভাষার মডেলের জন্য, যারা শব্দের ভবিষ্যদ্বাণী করে শেখে, "'আমি থাকতে চাই' শব্দের উদ্দীপনা 'আইসক্রিম' শব্দের মতোই বড়," তিনি বলেছিলেন। অন্যদিকে, বাচ্চারা "আমি কিছু আইসক্রিম খেতে চাই" নাকি শুধু 'আইসক্রিম, আইসক্রিম, আইসক্রিম' বলে তা নিয়ে চিন্তা করবেন না৷

গুণমান বনাম পরিমাণ

এলডান এবং লি আশা করেন যে গবেষণাটি অন্যান্য গবেষকদের বিভিন্ন মডেলের প্রশিক্ষণ দিতে অনুপ্রাণিত করবে TinyStories ডেটা সেট এবং তাদের ক্ষমতা তুলনা. কিন্তু ছোট মডেলের কোন বৈশিষ্ট্যগুলি বড় মডেলগুলিতে প্রদর্শিত হবে তা অনুমান করা প্রায়শই কঠিন।

"হয়তো দৃষ্টির মাউস মডেলগুলি মানুষের দৃষ্টিভঙ্গির সত্যিই ভাল প্রক্সি, কিন্তু বিষণ্নতার মাউস মডেলগুলি কি মানুষের বিষণ্নতার ভাল মডেল?" পাভলিক বললেন। "প্রতিটি ক্ষেত্রে এটি একটু ভিন্ন।"

TinyStories মডেলগুলির সাফল্যও একটি বিস্তৃত পাঠের পরামর্শ দেয়৷ প্রশিক্ষণ ডেটা সেট কম্পাইল করার আদর্শ পদ্ধতির মধ্যে রয়েছে ইন্টারনেট জুড়ে পাঠ্যকে ভ্যাকুয়াম করা এবং তারপর আবর্জনা ফিল্টার করা। বড় মডেলের দ্বারা উত্পন্ন সিন্থেটিক পাঠ্য উচ্চ-মানের ডেটা সেটগুলিকে একত্রিত করার একটি বিকল্প উপায় অফার করতে পারে যা এত বড় হতে হবে না।

"আমাদের কাছে আরও বেশি প্রমাণ রয়েছে যে এটি খুব কার্যকর, শুধুমাত্র টিনিস্টোরিজ-আকারের মডেলগুলিতে নয়, বড় মডেলগুলিতেও," এলডান বলেছিলেন। সেই প্রমাণ এলডান, লি এবং অন্যান্য মাইক্রোসফ্ট গবেষকদের বিলিয়ন-প্যারামিটার মডেল সম্পর্কে এক জোড়া ফলো-আপ পেপার থেকে এসেছে। মধ্যে প্রথম কাগজ, তারা ইন্টারনেট থেকে সাবধানে কিউরেট করা কোড সহ GPT-3.5 দ্বারা জেনারেট করা কোডের স্নিপেট ব্যবহার করে প্রোগ্রামিং ভাষা পাইথন শেখার জন্য একটি মডেলকে প্রশিক্ষণ দেয়। মধ্যে দ্বিতীয়, তারা কৃত্রিম "পাঠ্যপুস্তক" সহ প্রশিক্ষণের ডেটা সেটকে বাড়িয়েছে, যা একটি সাধারণ-উদ্দেশ্য ভাষার মডেলকে প্রশিক্ষণের জন্য বিস্তৃত বিষয় কভার করে। তাদের পরীক্ষায়, উভয় মডেলই বৃহত্তর ডেটা সেটগুলিতে প্রশিক্ষিত বৃহত্তর মডেলগুলির সাথে অনুকূলভাবে তুলনা করেছে। কিন্তু ভাষার মডেলের মূল্যায়ন করা সবসময়ই কঠিন, এবং সিন্থেটিক প্রশিক্ষণ ডেটা পদ্ধতি এখনও তার শৈশবকালে রয়েছে — আরও স্বাধীন পরীক্ষা প্রয়োজন।

যেমন অত্যাধুনিক ভাষার মডেলগুলি আরও বড় হয়ে উঠছে, তাদের ছোট কাজিনদের কাছ থেকে আশ্চর্যজনক অনুসন্ধানগুলি মনে করিয়ে দেয় যে আমরা এখনও সহজতম মডেলগুলি সম্পর্কে অনেক কিছুই বুঝতে পারি না। টিনিস্টোরিজ দ্বারা অগ্রগামী পদ্ধতির অন্বেষণে নুগুয়েন আরও অনেক কাগজপত্র দেখতে পাবেন।

"প্রশ্ন হল: কোথায় এবং কেন আকার গুরুত্বপূর্ণ?" সে বলেছিল. "এর একটি বিজ্ঞান থাকা উচিত, এবং এই কাগজটি আশা করি একটি সমৃদ্ধ গল্পের সূচনা।"

এসইও চালিত বিষয়বস্তু এবং পিআর বিতরণ। আজই পরিবর্ধিত পান।
PlatoData.Network উল্লম্ব জেনারেটিভ Ai. নিজেকে ক্ষমতায়িত করুন। এখানে প্রবেশ করুন.
প্লেটোএআইস্ট্রিম। Web3 ইন্টেলিজেন্স। জ্ঞান প্রসারিত. এখানে প্রবেশ করুন.
প্লেটোইএসজি। কার্বন, ক্লিনটেক, শক্তি, পরিবেশ সৌর, বর্জ্য ব্যবস্থাপনা. এখানে প্রবেশ করুন.
প্লেটো হেলথ। বায়োটেক এবং ক্লিনিক্যাল ট্রায়াল ইন্টেলিজেন্স। এখানে প্রবেশ করুন.
উত্স: https://www.quantamagazine.org/tiny-language-models-thrive-with-gpt-4-as-a-teacher-20231005/

সময় স্ট্যাম্প: অক্টোবর 5, 2023

সময় স্ট্যাম্প: 12 পারে, 2023

শিক্ষক হিসাবে GPT-4 এর সাথে ক্ষুদ্র ভাষার মডেলগুলি উন্নতি লাভ করে | কোয়ান্টা ম্যাগাজিন

প্লেটো দ্বারা প্রকাশিত

এককালে

খেলনা গল্প

পরীক্ষার ফলাফল

গুণমান বনাম পরিমাণ

থেকে আরো কোয়ান্টাম্যাগাজিন

সৃজনশীলতা, শিল্প, যুক্তিবিদ্যা এবং ভাষার উপর একজন গণিতবিদ | কোয়ান্টা ম্যাগাজিন

'এনট্রপি ব্যাগেলস' এবং অন্যান্য জটিল কাঠামো সরল নিয়ম থেকে উদ্ভূত হয় | কোয়ান্টা ম্যাগাজিন

আমাদের সেলুলার ঘড়িতে, সে আজীবন আবিষ্কার খুঁজে পেয়েছে | কোয়ান্টা ম্যাগাজিন

জিনোম রক্ষা করতে, এই কোষগুলি তাদের নিজস্ব ডিএনএ ধ্বংস করে | কোয়ান্টা ম্যাগাজিন

কোয়ান্টাম ফিল্ড থিওরি গাণিতিক ধাঁধা খুলুন

কিভাবে (প্রায়) কোন কিছুই সৃষ্টিতত্ত্বের সবচেয়ে বড় প্রশ্নগুলি সমাধান করতে পারে না | কোয়ান্টা ম্যাগাজিন

উদ্ভিদ তাদের কোষের মধ্যে ফাঁক ব্যবহার করে আলো খুঁজে পায় | কোয়ান্টা ম্যাগাজিন

কেন গণিতবিদরা নট অধ্যয়ন করেন

আমাদের সম্পর্কে

উল্লম্ব অনুসন্ধান এবং আই

প্ল্যাটফর্ম

যোগাযোগ রেখো

হিসাব

ভূমিকা

এককালে

ভূমিকা

খেলনা গল্প

ভূমিকা

পরীক্ষার ফলাফল

ভূমিকা

গুণমান বনাম পরিমাণ

থেকে আরো কোয়ান্টাম্যাগাজিন

আমাদের সম্পর্কে

উল্লম্ব অনুসন্ধান এবং আই

প্ল্যাটফর্ম

যোগাযোগ রেখো

হিসাব