ভূমিকা
ইংরেজি শেখা কোনো সহজ কাজ নয়, কারণ অগণিত শিক্ষার্থী ভালোভাবে জানে। কিন্তু যখন ছাত্র একজন কম্পিউটার হয়, তখন একটি পদ্ধতি আশ্চর্যজনকভাবে ভালো কাজ করে: ইন্টারনেট থেকে কেবলমাত্র নিউরাল নেটওয়ার্ক নামে একটি বিশাল গাণিতিক মডেলে পাঠ্যের পাহাড়গুলিকে ফিড করুন৷ ওপেনএআই-এর চ্যাটজিপিটি-এর মতো জেনারেটিভ ল্যাঙ্গুয়েজ মডেলগুলির পিছনে এটিই অপারেটিং নীতি, যার বিস্তৃত বিষয়ে সুসঙ্গতভাবে (যদি সর্বদা সত্য না হয়) কথা বলার ক্ষমতা গত এক বছরে গবেষক এবং জনসাধারণকে অবাক করেছে।
কিন্তু পদ্ধতির তার অসুবিধা আছে। একটি জিনিসের জন্য, বিশাল পাঠ্য সংরক্ষণাগারগুলিকে অত্যাধুনিক ভাষার মডেলগুলিতে স্থানান্তর করার জন্য প্রয়োজনীয় "প্রশিক্ষণ" পদ্ধতিটি ব্যয়বহুল এবং সময়-নিবিড়। অন্যের জন্য, এমনকি যারা বড় ভাষা মডেল প্রশিক্ষণ দেয় তাদের ভিতরের কাজগুলি বুঝতে অসুবিধা হয়; যে, ঘুরে, তারা ব্যর্থ হতে পারে অনেক উপায় ভবিষ্যদ্বাণী করা কঠিন করে তোলে।
এই অসুবিধাগুলির মুখোমুখি হয়ে, কিছু গবেষক প্রশিক্ষণ বেছে নিয়েছেন ছোট মডেল ছোট ডেটা সেটে এবং তারপর তাদের আচরণ অধ্যয়ন করুন। “এটা সিকোয়েন্সিং এর মত ড্রসোফিলা জিনোম বনাম মানব জিনোম সিকোয়েন্সিং,” বলেন এলি পাভলিক, ব্রাউন ইউনিভার্সিটির ভাষা মডেল গবেষক।
এখন, ক কাগজ সম্প্রতি বৈজ্ঞানিক প্রিপ্রিন্ট সার্ভার arxiv.org-এ পোস্ট করা হয়েছে, মাইক্রোসফটের একজোড়া গবেষক ক্ষুদ্র ভাষার মডেলের প্রশিক্ষণের জন্য একটি নতুন পদ্ধতি চালু করেছেন: শিশুদের গল্পের কঠোর ডায়েটে তাদের বাড়ান।
মেশিন লার্নিং গবেষকরা এই পাঠ গ্রহণ করেছেন। GPT-3.5, একটি বৃহৎ ভাষা মডেল যা ChatGPT ইন্টারফেসকে ক্ষমতা দেয়, এর প্রায় 200 বিলিয়ন প্যারামিটার রয়েছে এবং এটি শত শত কোটি শব্দ সমন্বিত ডেটা সেটের উপর প্রশিক্ষিত ছিল। (ওপেনএআই তার উত্তরাধিকারী, GPT-4 এর জন্য সংশ্লিষ্ট পরিসংখ্যান প্রকাশ করেনি।) এই ধরনের বড় মডেলের প্রশিক্ষণের জন্য সাধারণত কমপক্ষে 1,000 বিশেষায়িত প্রসেসরের প্রয়োজন হয় যাকে বলা হয় GPUs নামক এক সময়ে সপ্তাহের জন্য সমান্তরালে চলছে। শুধুমাত্র কয়েকটি সংস্থাই প্রয়োজনীয় সংস্থানগুলি সংগ্রহ করতে পারে, প্রশিক্ষণ দেওয়া এবং বিভিন্ন মডেলের তুলনা করা যাক।
দুই গবেষক দেখিয়েছেন যে ভাষার মডেলগুলি আজকের অত্যাধুনিক সিস্টেমের চেয়ে হাজার গুণ ছোট এইভাবে প্রশিক্ষিত হলে দ্রুত সামঞ্জস্যপূর্ণ এবং ব্যাকরণগত গল্প বলতে শিখেছে। তাদের ফলাফলগুলি নতুন গবেষণার দিক নির্দেশ করে যা বৃহত্তর মডেলদের প্রশিক্ষণ এবং তাদের আচরণ বোঝার জন্য সহায়ক হতে পারে।
"আমি এই কাগজ খুব তথ্যপূর্ণ খুঁজে পেয়েছি," বলেন চন্দ্র ভাগবতুলা, সিয়াটেলের অ্যালেন ইনস্টিটিউট ফর কৃত্রিম বুদ্ধিমত্তার ভাষা মডেল গবেষক। "ধারণাটি নিজেই অত্যন্ত আকর্ষণীয়।"
এককালে
ভাষার মডেলের কেন্দ্রস্থলে অবস্থিত নিউরাল নেটওয়ার্কগুলি হল গাণিতিক কাঠামো যা মানুষের মস্তিষ্ক দ্বারা অনুপ্রাণিত হয়। প্রতিটিতে স্তরে সাজানো অনেক কৃত্রিম নিউরন রয়েছে, যার সংলগ্ন স্তরের নিউরনের মধ্যে সংযোগ রয়েছে। নিউরাল নেটওয়ার্কের আচরণ এই সংযোগগুলির শক্তি দ্বারা নিয়ন্ত্রিত হয়, যাকে পরামিতি বলা হয়। একটি ভাষা মডেলে, পরামিতিগুলি নিয়ন্ত্রণ করে যে মডেলটি পরবর্তীতে কোন শব্দগুলি থুতু ফেলতে পারে, একটি প্রাথমিক প্রম্পট দেওয়া হয় এবং এটি ইতিমধ্যেই তৈরি করা শব্দগুলি।
একটি মডেল শুধুমাত্র প্রশিক্ষণের সময় সত্যিকারের জীবনে আসে, যখন এটি বারবার তার প্রশিক্ষণ ডেটা সেটের পাঠ্যের সাথে তার নিজস্ব আউটপুট তুলনা করে এবং সাদৃশ্য বাড়ানোর জন্য তার পরামিতিগুলিকে সামঞ্জস্য করে। এলোমেলো পরামিতি সহ একটি অপ্রশিক্ষিত নেটওয়ার্ক কোডের কয়েকটি লাইন থেকে একত্রিত করা তুচ্ছভাবে সহজ, তবে এটি কেবল অবাস্তবতা তৈরি করবে। প্রশিক্ষণের পরে, এটি প্রায়শই অপরিচিত পাঠ্য চালিয়ে যেতে পারে। বড় মডেলগুলি প্রায়শই আরও সূক্ষ্ম টিউনিংয়ের মধ্য দিয়ে যায় যা তাদের প্রশ্নের উত্তর দিতে এবং নির্দেশাবলী অনুসরণ করতে শেখায়, তবে প্রশিক্ষণের বেশিরভাগই শব্দ ভবিষ্যদ্বাণীতে দক্ষতা অর্জন করে।
শব্দ ভবিষ্যদ্বাণীতে সাফল্যের জন্য অনেকগুলি বিভিন্ন দক্ষতা আয়ত্ত করার জন্য একটি ভাষা মডেল প্রয়োজন। উদাহরণস্বরূপ, ইংরেজি ব্যাকরণের নিয়মগুলি নির্দেশ করে যে "going" শব্দের পরের শব্দটি পাঠ্যের বিষয় নির্বিশেষে "to" হতে পারে। উপরন্তু, একটি সিস্টেম "ফ্রান্সের রাজধানী হল" এবং একটি প্যাসেজ সম্পন্ন করার জন্য বাস্তব জ্ঞানের প্রয়োজন শব্দ "না" যুক্তির প্রাথমিক উপলব্ধি প্রয়োজন।
"কাঁচা ভাষা খুব জটিল," বলেন টিমোথি নগুয়েন, ডিপমাইন্ডের একজন মেশিন লার্নিং গবেষক। "আকর্ষণীয় ভাষাগত ক্ষমতার উদ্ভবের জন্য, লোকেরা 'আরও ডেটা আরও ভাল'-এর আশ্রয় নিয়েছে।"
ভূমিকা
রনেন এলডান, একজন গণিতবিদ যিনি 2022 সালে মাইক্রোসফ্ট রিসার্চে যোগদান করেছিলেন জেনারেটিভ ল্যাঙ্গুয়েজ মডেল অধ্যয়ন করতে, তিনি তাদের ক্ষমতাগুলি অন্বেষণ করার জন্য একটি সস্তা এবং দ্রুত উপায় বিকাশ করতে চেয়েছিলেন। এটি করার প্রাকৃতিক উপায় ছিল একটি ছোট ডেটা সেট ব্যবহার করে, এবং এর অর্থ হল তাকে একটি নির্দিষ্ট কাজে বিশেষীকরণের জন্য মডেলদের প্রশিক্ষণ দিতে হবে, যাতে তারা নিজেদেরকে খুব পাতলা না করে। প্রাথমিকভাবে, তিনি একটি নির্দিষ্ট শ্রেণীর গণিতের সমস্যা সমাধানের জন্য মডেলদের প্রশিক্ষণ দিতে চেয়েছিলেন, কিন্তু একদিন বিকেলে, তার 5 বছর বয়সী মেয়ের সাথে সময় কাটানোর পরে, তিনি বুঝতে পেরেছিলেন যে শিশুদের গল্পগুলি উপযুক্ত।
"আমি তার একটি গল্প পড়ার পরে এটি আক্ষরিক অর্থেই আমার কাছে এসেছিল," তিনি বলেছিলেন।
সুসংগত শিশুদের গল্প তৈরি করার জন্য, একটি ভাষার মডেলকে বিশ্বের তথ্যগুলি শিখতে হবে, চরিত্র এবং ঘটনাগুলির উপর নজর রাখতে হবে এবং ব্যাকরণের নিয়মগুলি পর্যবেক্ষণ করতে হবে - বড় মডেলগুলির মুখোমুখি হওয়া চ্যালেঞ্জগুলির সহজ সংস্করণ৷ কিন্তু বিশাল ডেটা সেটে প্রশিক্ষিত বড় মডেলগুলি সত্যই গুরুত্বপূর্ণ নিয়মগুলির সাথে অগণিত অপ্রাসঙ্গিক বিবরণ শিখে। এলডান আশা করেছিলেন যে শিশুদের গল্পের সংক্ষিপ্ততা এবং সীমিত শব্দভান্ডার ছোট মডেলের জন্য শেখাকে আরও পরিচালনাযোগ্য করে তুলতে পারে - সেগুলিকে প্রশিক্ষণ দেওয়া সহজ এবং বোঝা সহজ করে তোলে।
ভাষার মডেলের জগতে, যদিও, "ছোট" আপেক্ষিক: GPT-3.5 প্রশিক্ষণের জন্য ব্যবহৃত ডেটার চেয়ে হাজার গুণ ছোট একটি ডেটা সেটে এখনও লক্ষ লক্ষ গল্প থাকতে হবে। "আমি জানি না আপনি কত টাকা খরচ করতে চান, কিন্তু আমি অনুমান করছি যে আপনি [কয়েক মিলিয়ন] ছোট গল্প লেখার জন্য পেশাদারদের নিয়োগ করতে যাচ্ছেন না," নগুয়েন বলেছিলেন।
এই ধরনের উদাসীন পাঠকদের সন্তুষ্ট করতে একজন অসাধারণ লেখকের প্রয়োজন হবে, কিন্তু এলডানের মনে কিছু প্রার্থী ছিল। বড় ভাষার চেয়ে ছোট ভাষার মডেলের শ্রোতাদের জন্য কার লেখা ভাল?
খেলনা গল্প
এলডান অবিলম্বে বৃহৎ ভাষার মডেল দ্বারা তৈরি সিন্থেটিক শিশুদের গল্পের একটি লাইব্রেরি তৈরি করার জন্য যাত্রা শুরু করেন। কিন্তু তিনি শীঘ্রই আবিষ্কার করেছিলেন যে এমনকি অত্যাধুনিক মডেলগুলি স্বাভাবিকভাবেই খুব সৃজনশীল নয়। আপনি যদি GPT-4 কে 4 বছর বয়সীদের জন্য উপযুক্ত গল্প লিখতে বলেন, Eldan বলেন, "গল্পের প্রায় এক-পঞ্চমাংশ শিশুরা পার্কে স্লাইডের ভয়ে ভয় পায়।" যতদূর ইন্টারনেট উদ্বিগ্ন, এটি দৃশ্যত প্রাক-বিদ্যালয়ের গল্প।
সমাধানটি ছিল প্রম্পটে কিছুটা এলোমেলোতা যুক্ত করা। প্রথমত, এলডান 4টি বিশেষ্য, ক্রিয়াপদ এবং বিশেষণগুলির একটি তালিকা তৈরি করতে GPT-1,500 ব্যবহার করেছিলেন যা একজন 4 বছর বয়সী ব্যক্তি জানতে পারে - যথেষ্ট সংক্ষিপ্ত যাতে তিনি সহজেই এটি নিজেই পরীক্ষা করতে পারেন। তারপরে তিনি একটি সাধারণ কম্পিউটার প্রোগ্রাম লিখেছিলেন যা বারবার GPT-3.5 বা GPT-4 কে একটি বয়স-উপযুক্ত গল্প তৈরি করতে অনুরোধ করবে যাতে তালিকা থেকে তিনটি এলোমেলো শব্দ অন্তর্ভুক্ত ছিল, সাথে একটি সুখী সমাপ্তি বা প্লট টুইস্টের মতো অতিরিক্ত এলোমেলোভাবে নির্বাচিত বিশদ সহ। ফলস্বরূপ গল্পগুলি, করুণার সাথে, ভীতিকর স্লাইডগুলিতে কম ফোকাস করা হয়েছিল।
এল্ডানের এখন চাহিদা অনুযায়ী প্রশিক্ষণের ডেটা মন্থন করার একটি পদ্ধতি ছিল, কিন্তু একটি কার্যকরী মডেলকে প্রশিক্ষণের জন্য তার কতগুলি গল্পের প্রয়োজন হবে বা সেই মডেলটি কত বড় হতে হবে তার কোন ধারণা ছিল না। তখনই তিনি জুটি বাঁধেন ইউয়ানঝি লি, মাইক্রোসফ্ট এবং কার্নেগি মেলন ইউনিভার্সিটির একজন মেশিন লার্নিং গবেষক, বিভিন্ন সম্ভাবনার চেষ্টা করার জন্য, এই সত্যটির সুযোগ নিয়ে যে ছোট মডেলগুলি খুব দ্রুত প্রশিক্ষিত হতে পারে। ধাপ 1 তাদের মডেল মূল্যায়ন কিভাবে সিদ্ধান্ত ছিল.
ভূমিকা
ভাষা মডেল গবেষণায় - যেমন প্রতিটি শ্রেণীকক্ষে - গ্রেডিং একটি পূর্ণ বিষয়। সেখানে নিখুঁত রুব্রিক নেই যা গবেষকরা যা জানতে চান তার সমস্ত কিছুকে ধারণ করে, এবং কিছু কাজে পারদর্শী মডেলগুলি প্রায়শই অন্যদের কাছে দর্শনীয়ভাবে ব্যর্থ হয়। সময়ের সাথে সাথে, গবেষকরা দ্ব্যর্থহীন উত্তর সহ প্রশ্নের উপর ভিত্তি করে বিভিন্ন স্ট্যান্ডার্ড বেঞ্চমার্ক তৈরি করেছেন, যদি আপনি নির্দিষ্ট দক্ষতা মূল্যায়ন করার চেষ্টা করেন তবে এটি একটি ভাল পদ্ধতি। কিন্তু এলডান এবং লি আরও কিছু কিছুতে আগ্রহী ছিলেন: আপনি ভাষাকে যতটা সম্ভব সহজ করে তুললে ভাষার মডেলগুলি আসলে কতটা বড় হওয়া দরকার?
"মডেল ইংরেজিতে কথা বলে কিনা তা সরাসরি পরীক্ষা করার জন্য, আমি মনে করি আপনি যা করতে পারেন তা হল মডেলটিকে ওপেন-এন্ডেড উপায়ে ইংরেজি তৈরি করতে দিন," এলডান বলেছিলেন।
এই ধরনের গুণগত প্রশ্নে একটি মডেলের কর্মক্ষমতা পরিমাপ করার জন্য শুধুমাত্র দুটি উপায় আছে: মানব গ্রেডারের উপর নির্ভর করুন, অথবা আবার GPT-4-এ ফিরে যান। দুই গবেষক পরবর্তী পথটি বেছে নিয়েছিলেন, কার্যকরভাবে বড় মডেলকে পাঠ্যপুস্তক লিখতে এবং প্রবন্ধগুলি গ্রেড করতে দেয়।
ভগবতুলা বলেছিলেন যে তিনি দেখতে পছন্দ করবেন কিভাবে GPT-4-এর মূল্যায়ন মানব পর্যালোচকদের তুলনায় — GPT-4 মডেলগুলির প্রতি পক্ষপাতদুষ্ট হতে পারে যেগুলি এটি প্রশিক্ষণে সাহায্য করেছিল, এবং ভাষা মডেলগুলির অস্বচ্ছতা এই ধরনের পক্ষপাতগুলি পরিমাপ করা কঠিন করে তোলে। কিন্তু তিনি মনে করেন না যে এই ধরনের সূক্ষ্মতা কৃত্রিম গল্পের অনুরূপ সেটগুলিতে প্রশিক্ষিত বিভিন্ন মডেলের মধ্যে তুলনাকে প্রভাবিত করবে - এলডান এবং লি-এর কাজের মূল ফোকাস।
এলডান এবং লি প্রশিক্ষণের পরে তাদের প্রতিটি ছোট মডেলের মূল্যায়নের জন্য একটি দ্বি-পদক্ষেপ পদ্ধতি ব্যবহার করেছিলেন। প্রথমত, তারা প্রশিক্ষণের ডেটা সেটের থেকে আলাদা একটি গল্পের প্রথমার্ধের সাথে ছোট মডেলটিকে অনুরোধ করেছিল যাতে এটি একটি নতুন সমাপ্তি তৈরি করে, 50টি ভিন্ন পরীক্ষার গল্পের সাথে এই প্রক্রিয়াটি পুনরাবৃত্তি করে। দ্বিতীয়ত, তারা GPT-4-কে নির্দেশ দিয়েছে ছোট মডেলের প্রতিটি প্রান্তকে তিনটি বিভাগের উপর ভিত্তি করে গ্রেড করার জন্য — সৃজনশীলতা, ব্যাকরণ এবং গল্পের শুরুর সাথে সামঞ্জস্য। তারপরে তারা প্রতিটি বিভাগে স্কোর গড় করে, মডেল প্রতি তিনটি চূড়ান্ত গ্রেড দিয়ে শেষ করে।
এই পদ্ধতিটি হাতে নিয়ে, এলডান এবং লি অবশেষে বিভিন্ন মডেলের তুলনা করতে এবং তারকা ছাত্রদের খুঁজে বের করতে প্রস্তুত ছিলেন।
পরীক্ষার ফলাফল
কিছু প্রাথমিক অনুসন্ধানের পর, দুই গবেষক মোটামুটি 2 মিলিয়ন গল্প সম্বলিত একটি প্রশিক্ষণ ডেটা সেটে বসতি স্থাপন করেন। তারপরে তারা এই ডেটা সেটটি ব্যবহার করে, যার নাম TinyStories বলা হয়, বিভিন্ন সংখ্যক স্তর সহ 1 মিলিয়ন থেকে 30 মিলিয়ন প্যারামিটারের আকারের মডেলগুলিকে প্রশিক্ষণ দিতে। এটি ছিল দ্রুত কাজ: মাত্র চারটি জিপিইউ ব্যবহার করে, এই মডেলগুলির মধ্যে সবচেয়ে বড়টি প্রশিক্ষণ নিতে এক দিনের বেশি সময় নেয়নি।
সবচেয়ে ছোট মডেল সংগ্রাম. উদাহরণ স্বরূপ, একটি পরীক্ষার গল্প শুরু হয় একজন গড়পড়তা লোকটি একটি মেয়েকে বলে যে সে তার বিড়ালকে নিয়ে যাবে। একটি মিলিয়ন-প্যারামিটার মডেল মেয়েটি বারবার লোকটিকে বলে সে বন্ধু হতে চায় বলে একটি লুপে আটকে গেছে৷ কিন্তু বড়গুলো — এখনও GPT-3.5-এর থেকে হাজার গুণ ছোট — আশ্চর্যজনকভাবে ভালো পারফর্ম করেছে। 28-মিলিয়ন-প্যারামিটার সংস্করণটি একটি সুসংগত গল্প বলেছিল, যদিও সমাপ্তিটি গুরুতর ছিল: “কেটি কাঁদতে শুরু করেছিল, কিন্তু লোকটি পাত্তা দেয়নি। তিনি বিড়ালটিকে নিয়ে যান এবং কেটি তার বিড়ালটিকে আর কখনও দেখেননি। শেষ।"
তাদের নিজস্ব মডেল পরীক্ষা করার পাশাপাশি, Eldan এবং Li একই চ্যালেঞ্জ পেশ করেছে OpenAI-এর GPT-2-এর কাছে, একটি 1.5-বিলিয়ন-প্যারামিটার মডেল যা 2019 সালে প্রকাশিত হয়েছিল৷ এটি আরও খারাপ হয়েছিল — গল্পের আকস্মিকভাবে শেষ হওয়ার আগে, লোকটি মেয়েটিকে নিয়ে যাওয়ার হুমকি দেয় আদালত, কারাগার, হাসপাতাল, মর্গ এবং অবশেষে শ্মশানে।
ভূমিকা
নগুয়েন বলেছিলেন যে এটি উত্তেজনাপূর্ণ যে এই জাতীয় ছোট মডেলগুলি এত সাবলীল ছিল, তবে সম্ভবত অবাক হওয়ার মতো কিছু নয় যে GPT-2 টাস্কের সাথে লড়াই করেছিল: এটি একটি বড় মডেল তবে শিল্পের অবস্থা থেকে অনেক দূরে, এবং এটি একটি খুব আলাদা ডেটা সেটে প্রশিক্ষিত হয়েছিল। "একটি ছোট বাচ্চাকে শুধুমাত্র ছোট বাচ্চাদের কাজের প্রশিক্ষণ, যেমন কিছু খেলনা দিয়ে খেলা, আপনার বা আমার চেয়ে ভাল করতে পারে," তিনি উল্লেখ করেছেন। "আমরা এই সাধারণ জিনিসটিতে বিশেষীকরণ করিনি।"
বিভিন্ন TinyStories মডেলের মধ্যে তুলনা একই বিভ্রান্তিকর কারণগুলির দ্বারা ভোগে না। এলডান এবং লি ইঙ্গিত দিয়েছিলেন যে কম স্তরের নেটওয়ার্ক কিন্তু প্রতি স্তরে বেশি নিউরন এমন প্রশ্নের উত্তর দিতে ভাল ছিল যার জন্য বাস্তব জ্ঞানের প্রয়োজন হয়; বিপরীতভাবে, আরও স্তরযুক্ত নেটওয়ার্ক এবং প্রতি স্তরে কম নিউরনগুলি গল্পের আগের থেকে অক্ষর এবং প্লট পয়েন্টগুলির ট্র্যাক রাখতে ভাল ছিল। ভাগবতুলা এই ফলাফলটিকে বিশেষভাবে কৌতুহলজনক বলে মনে করেছিলেন। যদি এটি বৃহত্তর মডেলগুলিতে প্রতিলিপি করা যায়, তিনি বলেছিলেন, "এটি একটি দুর্দান্ত ফলাফল হবে যা এই কাজ থেকে বেরিয়ে আসতে পারে।"
এলডান এবং লি আরও অধ্যয়ন করেছেন যে কীভাবে তাদের ছোট মডেলের ক্ষমতা প্রশিক্ষণের সময়কালের উপর নির্ভর করে। প্রতিটি ক্ষেত্রে, মডেলগুলি প্রথমে ব্যাকরণে এবং পরে ধারাবাহিকতা আয়ত্ত করে। এলডানের কাছে, এই প্যাটার্নটি ব্যাখ্যা করে যে কীভাবে পুরষ্কার কাঠামোর পার্থক্যগুলি নিউরাল নেটওয়ার্ক এবং শিশুদের মধ্যে ভাষা অধিগ্রহণের ধরণগুলিতে পার্থক্যের দিকে পরিচালিত করে। ভাষার মডেলের জন্য, যারা শব্দের ভবিষ্যদ্বাণী করে শেখে, "'আমি থাকতে চাই' শব্দের উদ্দীপনা 'আইসক্রিম' শব্দের মতোই বড়," তিনি বলেছিলেন। অন্যদিকে, বাচ্চারা "আমি কিছু আইসক্রিম খেতে চাই" নাকি শুধু 'আইসক্রিম, আইসক্রিম, আইসক্রিম' বলে তা নিয়ে চিন্তা করবেন না৷
গুণমান বনাম পরিমাণ
এলডান এবং লি আশা করেন যে গবেষণাটি অন্যান্য গবেষকদের বিভিন্ন মডেলের প্রশিক্ষণ দিতে অনুপ্রাণিত করবে TinyStories ডেটা সেট এবং তাদের ক্ষমতা তুলনা. কিন্তু ছোট মডেলের কোন বৈশিষ্ট্যগুলি বড় মডেলগুলিতে প্রদর্শিত হবে তা অনুমান করা প্রায়শই কঠিন।
"হয়তো দৃষ্টির মাউস মডেলগুলি মানুষের দৃষ্টিভঙ্গির সত্যিই ভাল প্রক্সি, কিন্তু বিষণ্নতার মাউস মডেলগুলি কি মানুষের বিষণ্নতার ভাল মডেল?" পাভলিক বললেন। "প্রতিটি ক্ষেত্রে এটি একটু ভিন্ন।"
TinyStories মডেলগুলির সাফল্যও একটি বিস্তৃত পাঠের পরামর্শ দেয়৷ প্রশিক্ষণ ডেটা সেট কম্পাইল করার আদর্শ পদ্ধতির মধ্যে রয়েছে ইন্টারনেট জুড়ে পাঠ্যকে ভ্যাকুয়াম করা এবং তারপর আবর্জনা ফিল্টার করা। বড় মডেলের দ্বারা উত্পন্ন সিন্থেটিক পাঠ্য উচ্চ-মানের ডেটা সেটগুলিকে একত্রিত করার একটি বিকল্প উপায় অফার করতে পারে যা এত বড় হতে হবে না।
"আমাদের কাছে আরও বেশি প্রমাণ রয়েছে যে এটি খুব কার্যকর, শুধুমাত্র টিনিস্টোরিজ-আকারের মডেলগুলিতে নয়, বড় মডেলগুলিতেও," এলডান বলেছিলেন। সেই প্রমাণ এলডান, লি এবং অন্যান্য মাইক্রোসফ্ট গবেষকদের বিলিয়ন-প্যারামিটার মডেল সম্পর্কে এক জোড়া ফলো-আপ পেপার থেকে এসেছে। মধ্যে প্রথম কাগজ, তারা ইন্টারনেট থেকে সাবধানে কিউরেট করা কোড সহ GPT-3.5 দ্বারা জেনারেট করা কোডের স্নিপেট ব্যবহার করে প্রোগ্রামিং ভাষা পাইথন শেখার জন্য একটি মডেলকে প্রশিক্ষণ দেয়। মধ্যে দ্বিতীয়, তারা কৃত্রিম "পাঠ্যপুস্তক" সহ প্রশিক্ষণের ডেটা সেটকে বাড়িয়েছে, যা একটি সাধারণ-উদ্দেশ্য ভাষার মডেলকে প্রশিক্ষণের জন্য বিস্তৃত বিষয় কভার করে। তাদের পরীক্ষায়, উভয় মডেলই বৃহত্তর ডেটা সেটগুলিতে প্রশিক্ষিত বৃহত্তর মডেলগুলির সাথে অনুকূলভাবে তুলনা করেছে। কিন্তু ভাষার মডেলের মূল্যায়ন করা সবসময়ই কঠিন, এবং সিন্থেটিক প্রশিক্ষণ ডেটা পদ্ধতি এখনও তার শৈশবকালে রয়েছে — আরও স্বাধীন পরীক্ষা প্রয়োজন।
যেমন অত্যাধুনিক ভাষার মডেলগুলি আরও বড় হয়ে উঠছে, তাদের ছোট কাজিনদের কাছ থেকে আশ্চর্যজনক অনুসন্ধানগুলি মনে করিয়ে দেয় যে আমরা এখনও সহজতম মডেলগুলি সম্পর্কে অনেক কিছুই বুঝতে পারি না। টিনিস্টোরিজ দ্বারা অগ্রগামী পদ্ধতির অন্বেষণে নুগুয়েন আরও অনেক কাগজপত্র দেখতে পাবেন।
"প্রশ্ন হল: কোথায় এবং কেন আকার গুরুত্বপূর্ণ?" সে বলেছিল. "এর একটি বিজ্ঞান থাকা উচিত, এবং এই কাগজটি আশা করি একটি সমৃদ্ধ গল্পের সূচনা।"
- এসইও চালিত বিষয়বস্তু এবং পিআর বিতরণ। আজই পরিবর্ধিত পান।
- PlatoData.Network উল্লম্ব জেনারেটিভ Ai. নিজেকে ক্ষমতায়িত করুন। এখানে প্রবেশ করুন.
- প্লেটোএআইস্ট্রিম। Web3 ইন্টেলিজেন্স। জ্ঞান প্রসারিত. এখানে প্রবেশ করুন.
- প্লেটোইএসজি। কার্বন, ক্লিনটেক, শক্তি, পরিবেশ সৌর, বর্জ্য ব্যবস্থাপনা. এখানে প্রবেশ করুন.
- প্লেটো হেলথ। বায়োটেক এবং ক্লিনিক্যাল ট্রায়াল ইন্টেলিজেন্স। এখানে প্রবেশ করুন.
- উত্স: https://www.quantamagazine.org/tiny-language-models-thrive-with-gpt-4-as-a-teacher-20231005/
- : আছে
- : হয়
- :না
- :কোথায়
- [পৃ
- $ ইউপি
- 000
- 1
- 200
- 200 বিলিয়ন
- 2019
- 2022
- 30
- 50
- 500
- a
- ক্ষমতার
- ক্ষমতা
- সম্পর্কে
- অর্জন
- দিয়ে
- যোগ
- যোগ
- অতিরিক্ত
- সংলগ্ন
- সুবিধা
- প্রভাবিত
- পর
- আবার
- অ্যালেন
- একা
- বরাবর
- ইতিমধ্যে
- এছাড়াও
- বিকল্প
- সর্বদা
- an
- এবং
- অ্যান্ড্রু
- অন্য
- উত্তর
- উত্তর
- প্রদর্শিত
- অভিগমন
- যথাযথ
- নথিপত্র
- রয়েছি
- উঠা
- আয়োজিত
- শিল্প
- কৃত্রিম
- কৃত্রিম বুদ্ধিমত্তা
- AS
- At
- পাঠকবর্গ
- উদ্দীপিত
- লেখক
- দূরে
- ভিত্তি
- BE
- আগে
- শুরু
- আচরণ
- পিছনে
- হচ্ছে
- benchmarks
- উত্তম
- মধ্যে
- পক্ষপাতদুষ্ট
- গোঁড়ামির
- বিশাল
- বিলিয়ন
- কোটি কোটি
- বিট
- উভয়
- মস্তিষ্ক
- বৃহত্তর
- বাদামী
- কিন্তু
- by
- নামক
- মাংস
- CAN
- প্রার্থী
- ক্ষমতা
- রাজধানী
- যত্ন
- সাবধানে
- কার্নেগী মেলন
- কেস
- ক্যাট
- বিভাগ
- বিভাগ
- কিছু
- চ্যালেঞ্জ
- চ্যালেঞ্জ
- বৈশিষ্ট্য
- অক্ষর
- চ্যাটজিপিটি
- সস্তা
- চেক
- শিশু
- বেছে
- মনোনীত
- শ্রেণী
- কোড
- সমন্বিত
- আসে
- কোম্পানি
- তুলনা করা
- তুলনা
- তুলনা
- সম্পূর্ণ
- পরিপূরক
- জটিল
- অংশীভূত
- কম্পিউটার
- ধারণা
- উদ্বিগ্ন
- সংযোগ
- সঙ্গত
- ধারণ করা
- ধারণ
- অবিরত
- নিয়ন্ত্রণ
- বিপরীতভাবে
- শীতল
- অনুরূপ
- ব্যয়বহুল
- পারা
- দম্পতি
- আদালত
- আচ্ছাদন
- সৃষ্টি
- সৃজনী
- সৃজনশীলতা
- প্লেলিস্টে যোগ করা
- উপাত্ত
- তথ্য সেট
- ডেটা সেট
- দিন
- সিদ্ধান্ত নিচ্ছে
- DeepMind
- চাহিদা
- বিষণ্নতা
- বিস্তারিত
- বিস্তারিত
- বিকাশ
- উন্নত
- সাধারণ খাদ্য
- পার্থক্য
- বিভিন্ন
- অসুবিধা
- সরাসরি
- আবিষ্কৃত
- স্বতন্ত্র
- do
- না
- না
- Dont
- অপূর্ণতা
- ডাব
- স্থিতিকাল
- সময়
- প্রতি
- পূর্বে
- সহজ
- সহজে
- সহজ
- কার্যকর
- কার্যকরীভাবে
- আশ্লিষ্ট
- encapsulates
- শেষ
- শেষ
- ইংরেজি
- যথেষ্ট
- বিশেষত
- মূল্যায়ন
- মূল্যায়নের
- মূল্যায়ন
- এমন কি
- ঘটনাবলী
- কখনো
- প্রতি
- সব
- প্রমান
- উদাহরণ
- সীমা অতিক্রম করা
- উত্তেজনাপূর্ণ
- আশা
- অন্বেষণ
- অন্বেষণ করুণ
- এক্সপ্লোরিং
- স্মার্ট
- সম্মুখ
- সত্য
- কারণের
- তথ্য
- ব্যর্থ
- এ পর্যন্ত
- দ্রুত
- কয়েক
- কম
- পরিসংখ্যান
- ফিল্টারিং
- চূড়ান্ত
- পরিশেষে
- আবিষ্কার
- তথ্যও
- প্রথম
- ফিট
- কেন্দ্রবিন্দু
- দৃষ্টি নিবদ্ধ করা
- অনুসরণ করা
- জন্য
- পাওয়া
- চার
- ফ্রান্স
- বন্ধুদের
- থেকে
- কার্মিক
- অধিকতর
- সাধারন ক্ষেত্রে
- উত্পাদন করা
- উত্পন্ন
- সৃজক
- দৈত্য
- মেয়ে
- প্রদত্ত
- চালু
- ভাল
- পেয়েছিলাম
- পরিচালিত
- জিপিইউ
- শ্রেণী
- ব্যাকরণ
- ধরা
- ভয়ানক
- হত্তয়া
- ছিল
- অর্ধেক
- হাত
- খুশি
- কঠিন
- আছে
- he
- হৃদয়
- সাহায্য
- সহায়ক
- তার
- উচ্চ গুনসম্পন্ন
- নির্দেশ
- ভাড়া
- তার
- আশা
- আশা রাখি,
- হাসপাতাল
- কিভাবে
- কিভাবে
- HTTPS দ্বারা
- মানবীয়
- শত শত
- i
- বরফ
- আইসক্রিম
- ধারণা
- if
- প্রকাশ
- অবিলম্বে
- in
- উদ্দীপক
- অন্তর্ভুক্ত
- বৃদ্ধি
- স্বাধীন
- তথ্যপূর্ণ
- প্রারম্ভিক
- প্রাথমিকভাবে
- অনুপ্রাণিত
- প্রতিষ্ঠান
- নির্দেশাবলী
- বুদ্ধিমত্তা
- আগ্রহী
- মজাদার
- ইন্টারফেস
- Internet
- মধ্যে
- কুচুটে
- উপস্থাপিত
- IT
- এর
- নিজেই
- জেল
- যোগদান
- মাত্র
- রাখা
- পালন
- জানা
- জ্ঞান
- ভাষা
- বড়
- বৃহত্তর
- বৃহত্তম
- পরে
- স্তর
- স্তর
- নেতৃত্ব
- শিখতে
- জ্ঞানী
- শিক্ষা
- অন্তত
- কম
- পাঠ
- দিন
- লেট
- Li
- লাইব্রেরি
- জীবন
- মত
- সম্ভবত
- সীমিত
- লাইন
- তালিকা
- সামান্য
- যুক্তিবিদ্যা
- মেশিন
- মেশিন লার্নিং
- পত্রিকা
- প্রধান
- করা
- তৈরি করে
- মেকিং
- এক
- পরিচালনাযোগ্য
- অনেক
- বৃহদায়তন
- মালিক
- নিয়ন্ত্রণ
- গণিত
- গাণিতিক
- ব্যাপার
- মে..
- me
- অভিপ্রেত
- মাপ
- মেলন
- পদ্ধতি
- মাইক্রোসফট
- হতে পারে
- মিলিয়ন
- লক্ষ লক্ষ
- মন
- মডেল
- মডেল
- টাকা
- অধিক
- অনেক
- প্রাকৃতিক
- প্রায়
- প্রয়োজনীয়
- প্রয়োজন
- চাহিদা
- নেটওয়ার্ক
- নেটওয়ার্ক
- নার্ভীয়
- স্নায়বিক নেটওয়ার্ক
- নিউরাল নেটওয়ার্ক
- নিউরোন
- না
- নতুন
- পরবর্তী
- গুয়েন
- না।
- সুপরিচিত
- বিশেষ্য
- এখন
- সংখ্যার
- মান্য করা
- of
- অর্পণ
- প্রায়ই
- on
- একদা
- ONE
- ওগুলো
- কেবল
- অস্বচ্ছতা
- OpenAI
- অপারেটিং
- or
- ক্রম
- অন্যান্য
- অন্যরা
- বাইরে
- আউটপুট
- শেষ
- নিজের
- যুগল
- কাগজ
- কাগজপত্র
- সমান্তরাল
- পরামিতি
- পার্ক
- উত্তরণ
- গত
- প্যাটার্ন
- নিদর্শন
- সম্প্রদায়
- প্রতি
- নির্ভুল
- কর্মক্ষমতা
- সম্পাদিত
- সম্ভবত
- কাল
- প্রবর্তিত
- Plato
- প্লেটো ডেটা ইন্টেলিজেন্স
- প্লেটোডাটা
- কেলি
- পয়েন্ট
- সম্ভাবনার
- সম্ভব
- পোস্ট
- ক্ষমতা
- ভবিষ্যদ্বাণী করা
- পূর্বাভাসের
- ভবিষ্যদ্বাণী
- প্রারম্ভিক
- উপস্থাপন
- নীতি
- সমস্যা
- কার্যপ্রণালী
- প্রক্রিয়া
- প্রসেসর
- উৎপাদন করা
- পেশাদার
- কার্যক্রম
- প্রোগ্রামিং
- প্রকাশ্য
- পাইথন
- গুণগত
- কোয়ান্টাম্যাগাজিন
- প্রশ্ন
- প্রশ্ন
- দ্রুত
- দ্রুত
- পঞ্চম
- বৃদ্ধি
- এলোমেলো
- যদৃচ্ছতা
- পরিসর
- রেঞ্জিং
- দ্রুত
- পড়া
- পাঠকদের
- প্রস্তুত
- প্রতীত
- সত্যিই
- সম্প্রতি
- তথাপি
- উপর
- মুক্ত
- নির্ভর করা
- পুনঃপুনঃ
- প্রতিলিপি
- প্রয়োজনীয়
- প্রয়োজন
- প্রয়োজনীয়
- গবেষণা
- গবেষক
- গবেষকরা
- Resources
- ফল
- ফলে এবং
- ফলাফল
- পুরষ্কার
- ধনী
- মোটামুটিভাবে
- রুট
- নিয়ম
- দৌড়
- বলেছেন
- একই
- করাত
- বলা
- কাঁচুমাচু
- বিজ্ঞান
- বৈজ্ঞানিক
- সিয়াটেল
- দ্বিতীয়
- দেখ
- সিকোয়েন্সিং
- সার্ভার
- সেট
- সেট
- স্থায়ী
- সে
- সংক্ষিপ্ত
- উচিত
- দেখিয়েছেন
- অনুরূপ
- সহজ
- সহজ
- সহজতর করা
- কেবল
- আয়তন
- দক্ষতা
- স্লাইডগুলি
- ছোট
- ক্ষুদ্রতর
- So
- সমাধান
- সমাধান
- কিছু
- কিছু
- শীঘ্রই
- স্পিক্স
- বিশেষজ্ঞ
- বিশেষজ্ঞ
- নির্দিষ্ট
- ব্যয় করা
- খরচ
- বিস্তার
- মান
- তারকা
- শুরু
- রাষ্ট্র
- রাষ্ট্র-এর-শিল্প
- ডাঁটা
- ধাপ
- এখনো
- খবর
- গল্প
- শক্তি
- যথাযথ
- কাঠামো
- ছাত্র
- শিক্ষার্থীরা
- চর্চিত
- অধ্যয়ন
- বিষয়
- সাফল্য
- এমন
- সুপারিশ
- প্রস্তাব
- সুপার
- বিস্মিত
- বিস্ময়কর
- কৃত্রিম
- পদ্ধতি
- সিস্টেম
- গ্রহণ করা
- গ্রহণ
- কার্য
- কাজ
- টিমড
- বলা
- বলছে
- পরীক্ষা
- পরীক্ষামূলক
- পরীক্ষা
- পাঠ
- চেয়ে
- যে
- সার্জারির
- রাষ্ট্র
- বিশ্ব
- তাদের
- তাহাদিগকে
- নিজেদের
- তারপর
- এইগুলো
- তারা
- জিনিস
- মনে
- এই
- সেগুলো
- যদিও?
- হাজার
- হাজার হাজার
- হুমকির সম্মুখীন
- তিন
- উন্নতিলাভ করা
- সময়
- বার
- থেকে
- আজকের
- বলা
- অত্যধিক
- গ্রহণ
- বিষয়
- টপিক
- দিকে
- পথ
- রেলগাড়ি
- প্রশিক্ষিত
- প্রশিক্ষণ
- ট্রান্সমিট
- প্রকৃতপক্ষে
- চেষ্টা
- চেষ্টা
- চালু
- সুতা
- দুই
- সাধারণত
- ভুগা
- বোঝা
- বোধশক্তি
- অপরিচিত
- বিশ্ববিদ্যালয়
- উপরে
- ব্যবহৃত
- ব্যবহার
- বিভিন্ন
- অসমজ্ঞ্জস
- সুবিশাল
- সংস্করণ
- সংস্করণ
- বনাম
- খুব
- দৃষ্টি
- প্রয়োজন
- চেয়েছিলেন
- ছিল
- উপায়..
- উপায়
- we
- webp
- সপ্তাহ
- আমরা একটি
- ছিল
- কখন
- কিনা
- যে
- হু
- যাহার
- কেন
- ব্যাপক
- প্রশস্ত পরিসর
- ইচ্ছা
- সঙ্গে
- শব্দ
- শব্দ
- হয়া যাই ?
- ক্রিয়াকাণ্ড
- কাজ
- বিশ্ব
- খারাপ
- would
- লেখা
- লিখেছেন
- বছর
- আপনি
- zephyrnet