নতুন তত্ত্ব পরামর্শ দেয় চ্যাটবট টেক্সট বুঝতে পারে | কোয়ান্টা ম্যাগাজিন

নতুন তত্ত্ব পরামর্শ দেয় চ্যাটবট টেক্সট বুঝতে পারে | কোয়ান্টা ম্যাগাজিন

নতুন তত্ত্ব পরামর্শ দেয় চ্যাটবট টেক্সট বুঝতে পারে | কোয়ান্টা ম্যাগাজিন প্লেটোব্লকচেইন ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.

ভূমিকা

কৃত্রিম বুদ্ধিমত্তা আগের চেয়ে অনেক বেশি শক্তিশালী বলে মনে হচ্ছে, বার্ড এবং চ্যাটজিপিটি-এর মতো চ্যাটবটগুলি অস্বাভাবিকভাবে মানুষের মতো পাঠ্য তৈরি করতে সক্ষম। কিন্তু তাদের সমস্ত প্রতিভার জন্য, এই বটগুলি এখনও গবেষকদের অবাক করে দেয়: এই ধরনের মডেলগুলি করুন আসলে বুঝতে তারা কি বলছে? "স্পষ্টতই, কিছু লোক বিশ্বাস করে যে তারা করে," এআই অগ্রগামী বলেছেন জিওফ হিন্টন একটি সাম্প্রতিক কথোপকথন অ্যান্ড্রু এনজির সাথে, "এবং কিছু লোক বিশ্বাস করে যে তারা কেবল স্টোকাস্টিক তোতা।"

এই উদ্দীপক বাক্যাংশটি 2021 থেকে এসেছে কাগজ সহ-লেখক এমিলি বেন্ডার, ওয়াশিংটন বিশ্ববিদ্যালয়ের একজন কম্পিউটেশনাল ভাষাবিদ। এটি পরামর্শ দেয় যে বৃহৎ ভাষার মডেল (LLMs) - যা আধুনিক চ্যাটবটগুলির ভিত্তি তৈরি করে - শুধুমাত্র "অর্থের কোনো উল্লেখ ছাড়াই" তারা ইতিমধ্যে দেখেছে এমন তথ্য একত্রিত করে পাঠ্য তৈরি করে, যা একটি LLM কে "একটি স্টোকাস্টিক তোতাপাখি" করে তোলে।

এই মডেলগুলি আজকের অনেক বড় এবং সেরা চ্যাটবটগুলিকে শক্তিশালী করে, তাই হিন্টন যুক্তি দিয়েছিলেন যে তারা কী বোঝে তা নির্ধারণ করার সময় এসেছে৷ প্রশ্ন, তার কাছে, একাডেমিক চেয়ে বেশি। "যতদিন আমাদের মতভেদ আছে", তিনি এনজিকে বলেছিলেন, "আমরা বিপদ সম্পর্কে ঐকমত্যে আসতে সক্ষম হব না।"

নতুন গবেষণায় উত্তরের তথ্য থাকতে পারে। দ্বারা বিকশিত একটি তত্ত্ব সঞ্জীব অরোরা প্রিন্সটন বিশ্ববিদ্যালয়ের এবং অনিরুদ্ধ গয়াল, Google DeepMind-এর একজন গবেষণা বিজ্ঞানী, পরামর্শ দেন যে আজকের এলএলএমগুলির মধ্যে সবচেয়ে বড়গুলি স্টোকাস্টিক তোতা নয়৷ লেখকরা যুক্তি দেন যে এই মডেলগুলি যেমন বড় হয় এবং আরও ডেটাতে প্রশিক্ষিত হয়, তাই তারা পৃথক ভাষা-সম্পর্কিত দক্ষতার উন্নতি করে এবং এমনভাবে দক্ষতা একত্রিত করে নতুনদের বিকাশ করে যা বোঝার ইঙ্গিত দেয় — এমন সমন্বয় যা প্রশিক্ষণের ডেটাতে থাকার সম্ভাবনা ছিল না। .

এই তাত্ত্বিক পদ্ধতি, যেটি একটি গাণিতিকভাবে প্রমাণযোগ্য যুক্তি প্রদান করে যে কীভাবে এবং কেন একটি এলএলএম এতগুলি ক্ষমতা বিকাশ করতে পারে, হিন্টন এবং অন্যান্যদের মত বিশেষজ্ঞদের নিশ্চিত করেছে। এবং যখন অরোরা এবং তার দল এর কিছু ভবিষ্যদ্বাণী পরীক্ষা করেছিল, তখন তারা দেখতে পেয়েছিল যে এই মডেলগুলি প্রায় প্রত্যাশিত হিসাবে আচরণ করেছে। সমস্ত অ্যাকাউন্ট থেকে, তারা একটি শক্তিশালী কেস তৈরি করেছে যে বৃহত্তম এলএলএমগুলি তারা আগে যা দেখেছে তা কেবল তোতাপাখি করছে না।

"[তারা] প্রশিক্ষণের ডেটাতে যা দেখা গেছে তা অনুকরণ করতে পারে না," বলেন সেবাস্তিয়ান বুবেক, মাইক্রোসফ্ট রিসার্চের একজন গণিতবিদ এবং কম্পিউটার বিজ্ঞানী যিনি কাজের অংশ ছিলেন না। "এটি মৌলিক অন্তর্দৃষ্টি।"

আরও ডেটা, আরও শক্তি

উত্থান অপ্রত্যাশিত এবং বিভিন্ন ক্ষমতা এলএলএম-এ, এটা বলা ঠিক, অবাক হয়ে এসেছিল। এই ক্ষমতাগুলি সিস্টেমগুলি যেভাবে তৈরি এবং প্রশিক্ষিত হয় তার একটি সুস্পষ্ট ফলাফল নয়। একটি এলএলএম একটি বিশাল কৃত্রিম নিউরাল নেটওয়ার্ক, যা পৃথক কৃত্রিম নিউরনকে সংযুক্ত করে। এই সংযোগগুলি মডেলের পরামিতি হিসাবে পরিচিত, এবং তাদের সংখ্যা LLM এর আকার নির্দেশ করে। প্রশিক্ষণের মধ্যে LLM-কে শেষ শব্দটি অস্পষ্ট করে একটি বাক্য দেওয়া জড়িত, উদাহরণস্বরূপ, "জ্বালানি একটি বাহু এবং একটি ___"। এলএলএম তার সম্পূর্ণ শব্দভাণ্ডারে একটি সম্ভাব্যতা বন্টনের ভবিষ্যদ্বাণী করে, তাই যদি এটি এক হাজার শব্দ জানে, তাহলে এটি হাজার সম্ভাব্যতার পূর্বাভাস দেয়। এটি তারপর বাক্যটি সম্পূর্ণ করার জন্য সবচেয়ে সম্ভাব্য শব্দ বেছে নেয় - সম্ভবত, "লেগ।"

প্রাথমিকভাবে, এলএলএম খারাপভাবে শব্দ চয়ন করতে পারে। প্রশিক্ষণের অ্যালগরিদম তারপরে একটি ক্ষতি গণনা করে — দূরত্ব, কিছু উচ্চ-মাত্রিক গাণিতিক স্থানে, এলএলএম-এর উত্তর এবং আসল বাক্যটির প্রকৃত শব্দের মধ্যে — এবং এই ক্ষতিটি প্যারামিটারগুলিকে পরিবর্তন করতে ব্যবহার করে। এখন, একই বাক্যে, এলএলএম একটি ভাল সম্ভাব্যতা বন্টন গণনা করবে এবং এর ক্ষতি কিছুটা কম হবে। LLM-এর সামগ্রিক ক্ষতি গ্রহণযোগ্য স্তরে নেমে না যাওয়া পর্যন্ত অ্যালগরিদম প্রশিক্ষণ ডেটার (সম্ভবত কয়েক কোটি বাক্য) প্রতিটি বাক্যের জন্য এটি করে। প্রশিক্ষণের ডেটার অংশ নয় এমন বাক্যে এলএলএম পরীক্ষা করতে অনুরূপ প্রক্রিয়া ব্যবহার করা হয়।

একটি প্রশিক্ষিত এবং পরীক্ষিত এলএলএম, যখন একটি নতুন টেক্সট প্রম্পট উপস্থাপন করা হয়, তখন সম্ভবত পরবর্তী শব্দটি তৈরি করবে, প্রম্পটে এটি যুক্ত করবে, আরেকটি পরবর্তী শব্দ তৈরি করবে এবং এইভাবে চালিয়ে যাবে, একটি আপাতদৃষ্টিতে সুসংগত উত্তর তৈরি করবে। প্রশিক্ষণ প্রক্রিয়ার কোন কিছুই পরামর্শ দেয় না যে আরও পরামিতি এবং প্রশিক্ষণের ডেটা ব্যবহার করে তৈরি বড় LLM-গুলিকেও এমন কাজগুলিতে উন্নতি করা উচিত যেগুলির উত্তর দেওয়ার জন্য যুক্তির প্রয়োজন হয়৷

কিন্তু তারা করে। যথেষ্ট বড় LLM গুলি দক্ষতা প্রদর্শন করে — প্রাথমিক গণিত সমস্যাগুলি সমাধান করা থেকে শুরু করে অন্যদের মনের মধ্যে চলতে থাকা প্রশ্নের উত্তর দেওয়া — যেগুলি ছোট মডেলগুলিতে নেই, যদিও তারা সকলেই একই পদ্ধতিতে প্রশিক্ষিত।

"সে [ক্ষমতা] কোথা থেকে আবির্ভূত হয়েছে?" অরোরা অবাক। "এবং এটি কি পরবর্তী শব্দের ভবিষ্যদ্বাণী থেকে উদ্ভূত হতে পারে?"

পাঠ্যের সাথে দক্ষতা সংযুক্ত করা

অরোরা এই ধরনের প্রশ্নের বিশ্লেষণাত্মক উত্তর দিতে গয়ালের সাথে জুটি বেঁধেছেন। "আমরা একটি তাত্ত্বিক কাঠামো নিয়ে আসার চেষ্টা করছিলাম কিভাবে উত্থান ঘটে তা বোঝার জন্য," অরোরা বলেছিলেন।

দু'জন গাণিতিক বস্তুর দিকে ফিরে গেল যাকে এলোমেলো গ্রাফ বলা হয়। একটি গ্রাফ হল লাইন (বা প্রান্ত) দ্বারা সংযুক্ত বিন্দু (বা নোড) এর একটি সংগ্রহ এবং একটি র্যান্ডম গ্রাফে যেকোন দুটি নোডের মধ্যে একটি প্রান্তের উপস্থিতি এলোমেলোভাবে নির্দেশিত হয় - বলুন, একটি মুদ্রা উল্টানোর মাধ্যমে। মুদ্রাটি পক্ষপাতমূলক হতে পারে, যাতে এটি কিছু সম্ভাবনার সাথে মাথা তুলে আসে p. যদি মুদ্রাটি একটি নির্দিষ্ট জোড়া নোডের জন্য মাথার উপরে আসে, তবে সেই দুটি নোডের মধ্যে একটি প্রান্ত তৈরি হয়; অন্যথায় তারা সংযোগহীন থাকে। এর মান হিসাবে p পরিবর্তন, গ্রাফগুলি তাদের বৈশিষ্ট্যগুলিতে আকস্মিক রূপান্তর দেখাতে পারে. উদাহরণস্বরূপ, যখন p একটি নির্দিষ্ট থ্রেশহোল্ড অতিক্রম করে, বিচ্ছিন্ন নোডগুলি - যেগুলি অন্য কোনও নোডের সাথে সংযুক্ত নয় - হঠাৎ অদৃশ্য হয়ে যায়।

অরোরা এবং গয়াল বুঝতে পেরেছিলেন যে র্যান্ডম গ্রাফ, যা নির্দিষ্ট থ্রেশহোল্ড পূরণ করার পরে অপ্রত্যাশিত আচরণের জন্ম দেয়, এলএলএম-এর আচরণের মডেল করার একটি উপায় হতে পারে। নিউরাল নেটওয়ার্কগুলি বিশ্লেষণ করার জন্য প্রায় খুব জটিল হয়ে উঠেছে, কিন্তু গণিতবিদরা দীর্ঘকাল ধরে এলোমেলো গ্রাফগুলি অধ্যয়ন করছেন এবং সেগুলি বিশ্লেষণ করার জন্য বিভিন্ন সরঞ্জাম তৈরি করেছেন। হতে পারে র্যান্ডম গ্রাফ তত্ত্ব গবেষকদের বোঝার এবং বড় LLM-এর আপাতদৃষ্টিতে অপ্রত্যাশিত আচরণের ভবিষ্যদ্বাণী করার একটি উপায় দিতে পারে।

গবেষকরা "দ্বিপক্ষীয়" গ্রাফগুলিতে ফোকাস করার সিদ্ধান্ত নিয়েছে, যা দুটি ধরণের নোড রয়েছে। তাদের মডেলে, এক ধরণের নোড পাঠ্যের টুকরোগুলিকে প্রতিনিধিত্ব করে — স্বতন্ত্র শব্দ নয় বরং খণ্ডগুলি যা কয়েক পৃষ্ঠা দীর্ঘ একটি অনুচ্ছেদ হতে পারে। এই নোডগুলি একটি সরল রেখায় সাজানো হয়। তাদের নীচে, অন্য লাইনে, নোডের অন্য সেট। এগুলি পাঠ্যের একটি প্রদত্ত অংশ বোঝার জন্য প্রয়োজনীয় দক্ষতার প্রতিনিধিত্ব করে। প্রতিটি দক্ষতা প্রায় কিছু হতে পারে। সম্ভবত একটি নোড একটি LLM এর "কারণ" শব্দটি বোঝার ক্ষমতাকে প্রতিনিধিত্ব করে যা কার্যকারণ সম্পর্কে কিছু ধারণাকে অন্তর্ভুক্ত করে; অন্যটি দুটি সংখ্যাকে ভাগ করতে সক্ষম হওয়ার প্রতিনিধিত্ব করতে পারে; অন্য একটি বিড়ম্বনা সনাক্ত করার ক্ষমতা প্রতিনিধিত্ব করতে পারে. "আপনি যদি বুঝতে পারেন যে পাঠ্যের অংশটি বিদ্রূপাত্মক, তবে অনেক কিছুই উল্টে যায়," অরোরা বলেছিলেন। "এটি শব্দ ভবিষ্যদ্বাণী করার জন্য প্রাসঙ্গিক।"

স্পষ্ট করে বলতে গেলে, এলএলএমগুলি প্রশিক্ষিত বা দক্ষতার কথা মাথায় রেখে পরীক্ষা করা হয় না; তারা শুধুমাত্র পরবর্তী-শব্দ ভবিষ্যদ্বাণী উন্নত করার জন্য নির্মিত হয়. কিন্তু অরোরা এবং গয়াল একটি একক পাঠ্য বোঝার জন্য যে দক্ষতার প্রয়োজন হতে পারে তার দৃষ্টিকোণ থেকে এলএলএমগুলি বুঝতে চেয়েছিলেন। একটি স্কিল নোড এবং একটি টেক্সট নোডের মধ্যে বা একাধিক স্কিল নোড এবং একটি টেক্সট নোডের মধ্যে সংযোগের মানে হল LLM-এর সেই নোডের পাঠ্য বোঝার জন্য সেই দক্ষতাগুলির প্রয়োজন৷ এছাড়াও, একই দক্ষতা বা দক্ষতার সেট থেকে পাঠ্যের একাধিক টুকরা আঁকা হতে পারে; উদাহরণস্বরূপ, বিড়ম্বনা বোঝার ক্ষমতার প্রতিনিধিত্বকারী দক্ষতা নোডের একটি সেট অসংখ্য পাঠ্য নোডের সাথে সংযুক্ত হবে যেখানে বিড়ম্বনা ঘটে।

এখন চ্যালেঞ্জ ছিল এই দ্বিপক্ষীয় গ্রাফগুলিকে প্রকৃত এলএলএম-এর সাথে সংযুক্ত করা এবং গ্রাফগুলি শক্তিশালী ক্ষমতার উত্থান সম্পর্কে কিছু প্রকাশ করতে পারে কিনা তা দেখা। কিন্তু গবেষকরা প্রকৃত এলএলএম-এর প্রশিক্ষণ বা পরীক্ষার বিষয়ে কোনো তথ্যের ওপর নির্ভর করতে পারেননি — ওপেনএআই বা ডিপমাইন্ডের মতো কোম্পানিগুলি তাদের প্রশিক্ষণ বা পরীক্ষার ডেটা সর্বজনীন করে না। এছাড়াও, অরোরা এবং গয়াল ভবিষ্যদ্বাণী করতে চেয়েছিলেন যে এলএলএমগুলি আরও বড় হওয়ার সাথে সাথে কীভাবে আচরণ করবে, এবং আসন্ন চ্যাটবটগুলির জন্য এমন কোনও তথ্য উপলব্ধ নেই৷ তবে, একটি গুরুত্বপূর্ণ তথ্য ছিল যা গবেষকরা অ্যাক্সেস করতে পারেন।

2021 সাল থেকে, এলএলএম এবং অন্যান্য নিউরাল নেটওয়ার্কের কর্মক্ষমতা অধ্যয়নরত গবেষকরা একটি সর্বজনীন বৈশিষ্ট্যের উদ্ভব দেখেছেন। তারা লক্ষ্য করেছেন যে একটি মডেল বড় হওয়ার সাথে সাথে, আকারে বা প্রশিক্ষণের ডেটার পরিমাণে, পরীক্ষার ডেটার ক্ষতি (প্রশিক্ষণের পরে, নতুন পাঠ্যগুলিতে ভবিষ্যদ্বাণী করা এবং সঠিক উত্তরের মধ্যে পার্থক্য) খুব নির্দিষ্ট পদ্ধতিতে হ্রাস পায়। এই পর্যবেক্ষণগুলিকে নিউরাল স্কেলিং আইন বলে সমীকরণে সংকেত করা হয়েছে। তাই অরোরা এবং গয়াল তাদের তত্ত্বটি ডিজাইন করেছেন যে কোনও পৃথক এলএলএম, চ্যাটবট বা প্রশিক্ষণ এবং পরীক্ষার ডেটার সেটের ডেটার উপর নির্ভর করে না, তবে সর্বজনীন আইনের উপর এই সিস্টেমগুলি মেনে চলার প্রত্যাশিত: স্কেলিং আইন দ্বারা ভবিষ্যদ্বাণী করা ক্ষতি।

হতে পারে, তারা যুক্তি দিয়েছিল, উন্নত কর্মক্ষমতা - যেমন নিউরাল স্কেলিং আইন দ্বারা পরিমাপ করা হয়েছিল - উন্নত দক্ষতার সাথে সম্পর্কিত ছিল। এবং এই উন্নত দক্ষতাগুলি তাদের দ্বিপক্ষীয় গ্রাফে টেক্সট নোডের সাথে দক্ষতা নোডের সংযোগের মাধ্যমে সংজ্ঞায়িত করা যেতে পারে। নিউরাল স্কেলিং আইন এবং দ্বিপক্ষীয় গ্রাফের মধ্যে - এই লিঙ্কটি স্থাপন করা তাদের এগিয়ে যাওয়ার অনুমতি দেবে।

স্কেলিং আপ দক্ষতা

গবেষকরা অনুমান করে শুরু করেছিলেন যে একটি অনুমানমূলক দ্বিপক্ষীয় গ্রাফ রয়েছে যা পরীক্ষার ডেটাতে একটি এলএলএম-এর আচরণের সাথে মিলে যায়। পরীক্ষার ডেটাতে এলএলএম-এর ক্ষতির পরিবর্তন ব্যাখ্যা করার জন্য, তারা এলএলএম কীভাবে দক্ষতা অর্জন করে তা বর্ণনা করার জন্য গ্রাফটি ব্যবহার করার একটি উপায় কল্পনা করেছিল।

উদাহরণ স্বরূপ, দক্ষতা "বিড়ম্বনা বোঝে" ধরুন। এই ধারণাটি একটি স্কিল নোডের মাধ্যমে উপস্থাপন করা হয়, তাই গবেষকরা দেখেন যে এই স্কিল নোডটি কোন টেক্সট নোডের সাথে সংযোগ করে। যদি এই সংযুক্ত টেক্সট নোডগুলির প্রায় সমস্তই সফল হয় — যার অর্থ এই নোডগুলি দ্বারা প্রতিনিধিত্ব করা পাঠ্যের উপর LLM-এর ভবিষ্যদ্বাণীগুলি অত্যন্ত নির্ভুল — তাহলে LLM এই বিশেষ দক্ষতায় সক্ষম৷ কিন্তু যদি স্কিল নোডের সংযোগের একটি নির্দিষ্ট ভগ্নাংশের বেশি ব্যর্থ টেক্সট নোডে যায়, তাহলে এলএলএম এই দক্ষতায় ব্যর্থ হয়।

এই দ্বিপক্ষীয় গ্রাফ এবং এলএলএম-এর মধ্যে এই সংযোগটি অরোরা এবং গোয়ালকে প্রক্সি দ্বারা এলএলএম আচরণ বিশ্লেষণ করতে র্যান্ডম গ্রাফ তত্ত্বের সরঞ্জামগুলি ব্যবহার করার অনুমতি দেয়। এই গ্রাফগুলি অধ্যয়ন করা নোডগুলির মধ্যে নির্দিষ্ট সম্পর্ক প্রকাশ করে। বৃহৎ মডেলগুলি কীভাবে তাদের অপ্রত্যাশিত ক্ষমতা অর্জনের জন্য প্রয়োজনীয় দক্ষতা অর্জন করেছে তা ব্যাখ্যা করার জন্য এই সম্পর্কগুলি, পরিবর্তে, একটি যৌক্তিক এবং পরীক্ষাযোগ্য উপায়ে অনুবাদ করা হয়েছে।

অরোরা এবং গয়াল প্রথমে একটি মূল আচরণ ব্যাখ্যা করেছিলেন: কেন বড় এলএলএম ব্যক্তি দক্ষতার উপর তাদের ছোট প্রতিপক্ষের চেয়ে বেশি দক্ষ হয়। তারা নিউরাল স্কেলিং আইন দ্বারা ভবিষ্যদ্বাণী করা নিম্ন পরীক্ষার ক্ষতি দিয়ে শুরু করেছিল। একটি গ্রাফে, এই নিম্ন পরীক্ষার ক্ষতি ব্যর্থ পরীক্ষা নোডের ভগ্নাংশের পতন দ্বারা প্রতিনিধিত্ব করা হয়। তাই সামগ্রিকভাবে কম ব্যর্থ পরীক্ষা নোড আছে। এবং যদি কম ব্যর্থ পরীক্ষার নোড থাকে, তবে ব্যর্থ পরীক্ষা নোড এবং দক্ষতা নোডগুলির মধ্যে কম সংযোগ রয়েছে। তাই, সফল পরীক্ষার নোডের সাথে অনেক বেশি সংখ্যক দক্ষতার নোড সংযুক্ত থাকে, যা মডেলের দক্ষতায় ক্রমবর্ধমান দক্ষতার পরামর্শ দেয়। "ক্ষতির একটি খুব সামান্য হ্রাস মেশিন এই দক্ষতা অর্জনের দক্ষতার জন্ম দেয়," গয়াল বলেন।

এর পরে, এই জুটি একটি বৃহত্তর মডেলের অপ্রত্যাশিত ক্ষমতা ব্যাখ্যা করার একটি উপায় খুঁজে পেয়েছে। একটি LLM এর আকার বৃদ্ধির সাথে সাথে এর পরীক্ষার ক্ষতি হ্রাস পায়, দক্ষতার নোডগুলির এলোমেলো সংমিশ্রণগুলি পৃথক পাঠ্য নোডগুলির সাথে সংযোগ গড়ে তোলে। এটি পরামর্শ দেয় যে এলএলএম একই সময়ে একাধিক দক্ষতা ব্যবহার করে আরও ভাল হয়ে ওঠে এবং একাধিক দক্ষতা ব্যবহার করে পাঠ্য তৈরি করা শুরু করে - একত্রিত করা, বলুন, "কারণ" শব্দটি বোঝার সাথে বিদ্রুপ ব্যবহার করার ক্ষমতা - এমনকি যদি সেই সঠিক সংমিশ্রণগুলি প্রশিক্ষণের তথ্যের কোনো পাঠ্যাংশে দক্ষতা উপস্থিত ছিল না।

কল্পনা করুন, উদাহরণস্বরূপ, একটি এলএলএম যা ইতিমধ্যেই পাঠ্য তৈরি করতে একটি দক্ষতা ব্যবহার করতে পারে। আপনি যদি LLM-এর প্যারামিটারের সংখ্যা বা প্রশিক্ষণের ডেটাকে মাত্রার ক্রম অনুসারে স্কেল করেন, তাহলে এটি একইভাবে টেক্সট তৈরি করতে সক্ষম হবে যার জন্য দুটি দক্ষতা প্রয়োজন। মাত্রার আরেকটি ক্রম উপরে যান, এবং LLM এখন একই স্তরের দক্ষতার সাথে একই সময়ে চারটি দক্ষতার প্রয়োজন এমন কাজগুলি সম্পাদন করতে পারে। বৃহত্তর এলএলএম-এর দক্ষতা একত্রিত করার আরও অনেক উপায় রয়েছে, যা ক্ষমতার সম্মিলিত বিস্ফোরণের দিকে নিয়ে যায়।

এবং একটি এলএলএম স্কেল করা হলে, প্রশিক্ষণের ডেটাতে এই সমস্ত দক্ষতার সমন্বয়ের সম্মুখীন হওয়ার সম্ভাবনা ক্রমশ অসম্ভাব্য হয়ে ওঠে। এলোমেলো গ্রাফ তত্ত্বের নিয়ম অনুসারে, প্রতিটি সংমিশ্রণ সম্ভাব্য দক্ষতার এলোমেলো নমুনা থেকে উদ্ভূত হয়। সুতরাং, যদি গ্রাফে প্রায় 1,000টি অন্তর্নিহিত স্বতন্ত্র দক্ষতা নোড থাকে, এবং আপনি চারটি দক্ষতা একত্রিত করতে চান, তাহলে আনুমানিক 1,000 থেকে চতুর্থ শক্তি - অর্থাৎ, 1 ট্রিলিয়ন - তাদের একত্রিত করার সম্ভাব্য উপায় রয়েছে৷

অরোরা এবং গয়াল এটিকে প্রমাণ হিসাবে দেখেন যে বৃহত্তম এলএলএমগুলি কেবল তাদের প্রশিক্ষণের ডেটাতে দেখা দক্ষতার সংমিশ্রণের উপর নির্ভর করে না। বুবেক সম্মত হন। "যদি একজন এলএলএম সত্যিই সেই হাজার দক্ষতার মধ্যে চারটি একত্রিত করে সেই কাজগুলি সম্পাদন করতে সক্ষম হয়, তবে এটি অবশ্যই সাধারণীকরণ করছে," তিনি বলেছিলেন। এর অর্থ, এটি খুব সম্ভবত একটি স্টোকাস্টিক তোতা নয়।

সত্যিকারের সৃজনশীলতা?

কিন্তু অরোরা এবং গয়াল তত্ত্বের বাইরে যেতে চেয়েছিলেন এবং তাদের দাবি পরীক্ষা করতে চেয়েছিলেন যে এলএলএমগুলি আরও দক্ষতার সংমিশ্রণে আরও ভাল হয়, এবং এইভাবে তাদের আকার এবং প্রশিক্ষণের ডেটা বৃদ্ধির সাথে সাধারণীকরণে। একসাথে অন্যান্য সহকর্মীদের সাথে, তারা একটি পদ্ধতি পরিকল্পিত টেক্সট তৈরি করতে একাধিক দক্ষতা ব্যবহার করার জন্য একটি এলএলএম-এর ক্ষমতা মূল্যায়ন করতে "স্কিল-মিক্স" বলা হয়।

একটি এলএলএম পরীক্ষা করার জন্য, দলটি এলোমেলোভাবে নির্বাচিত বিষয়গুলিতে তিনটি বাক্য তৈরি করতে বলেছিল যা কিছু এলোমেলোভাবে নির্বাচিত দক্ষতা চিত্রিত করে। উদাহরণস্বরূপ, তারা জিপিটি-৪ (এলএলএম যা চ্যাটজিপিটির সবচেয়ে শক্তিশালী সংস্করণকে ক্ষমতা দেয়) দ্বৈত সম্পর্কে লিখতে বলে — মূলত তরোয়াল লড়াই। তদুপরি, তারা এটিকে চারটি ক্ষেত্রে দক্ষতা প্রদর্শন করতে বলেছিল: স্ব-পরিষেবা পক্ষপাত, রূপক, পরিসংখ্যানগত সিলোজিজম এবং সাধারণ-জ্ঞান পদার্থবিদ্যা. GPT-4 এর সাথে উত্তর দিয়েছে: “ইস্পাত [রূপক] সহ এই নৃত্যে আমার বিজয় মাটিতে [পদার্থবিদ্যা] বস্তুর পতনের মতোই নিশ্চিত। একজন বিখ্যাত দ্বৈতবাদী হিসাবে, আমি সহজাতভাবে চতুর, আমার খ্যাতির অন্যান্য [পরিসংখ্যানগত সিলোজিজম] মতোই। পরাজয়? শুধুমাত্র একটি অসম যুদ্ধক্ষেত্রের কারণেই সম্ভব, আমার অপ্রতুলতা [স্ব-সেভিং পক্ষপাত] নয়।" যখন এটির আউটপুট পরীক্ষা করতে বলা হয়, GPT-4 এটিকে তিনটি বাক্যে কমিয়ে দেয়।

ভূমিকা

"এটি হেমিংওয়ে বা শেক্সপিয়ার নয়," অরোরা বলেছিলেন, কিন্তু দলটি আত্মবিশ্বাসী যে এটি তাদের বক্তব্য প্রমাণ করে: মডেলটি এমন পাঠ্য তৈরি করতে পারে যা প্রশিক্ষণের ডেটাতে এটি সম্ভবত দেখা যায়নি, এমন দক্ষতা প্রদর্শন করে যা কিছু যুক্তি দেখায় বোঝা যাচ্ছে GPT-4 এমনকি দক্ষতা-মিশ্রিত পরীক্ষায় উত্তীর্ণ হচ্ছে যার জন্য প্রায় 10% থেকে 15% সময়ের জন্য ছয়টি দক্ষতার প্রয়োজন হয়, তিনি বলেন, প্রশিক্ষণের ডেটাতে থাকা পরিসংখ্যানগতভাবে অসম্ভব পাঠ্যের টুকরো তৈরি করে।

দলটি অন্যান্য LLM-এর সাথে তার নিজস্ব আউটপুট মূল্যায়ন করার জন্য GPT-4 পাওয়ার মাধ্যমে প্রক্রিয়াটিকে স্বয়ংক্রিয় করেছে। অরোরা বলেছিলেন যে মডেলটির নিজের মূল্যায়ন করা ন্যায্য কারণ এটির মেমরি নেই, তাই এটি মনে রাখে না যে এটিকে যে পাঠ্যটি মূল্যায়ন করতে বলা হচ্ছে সেটি তৈরি করতে বলা হয়েছিল। ইয়াসামান বাহরি, গুগল ডিপমাইন্ডের একজন গবেষক যিনি AI এর ভিত্তি নিয়ে কাজ করেন, স্বয়ংক্রিয় পদ্ধতিটিকে "খুব সহজ এবং মার্জিত" খুঁজে পান।

তত্ত্বের জন্য, এটি সত্য যে এটি কয়েকটি অনুমান করে, বুবেক বলেছিলেন, কিন্তু "এই অনুমানগুলি কোনও উপায়ে পাগল নয়।" পরীক্ষা-নিরীক্ষা করে তিনিও মুগ্ধ হন। "[টিম] তাত্ত্বিকভাবে যা প্রমাণ করে, এবং অভিজ্ঞতাগতভাবেও নিশ্চিত করে, তা হল যে কম্পোজিশনাল সাধারণীকরণ রয়েছে, যার অর্থ [এলএলএম] বিল্ডিং ব্লকগুলিকে একত্রে রাখতে সক্ষম যা কখনও একত্রিত করা হয়নি," তিনি বলেছিলেন। "এটি, আমার কাছে, সৃজনশীলতার সারাংশ।"

অরোরা যোগ করেছেন যে কাজটি এলএলএম যা লিখে তার সঠিকতা সম্পর্কে কিছু বলে না। "আসলে, এটি মৌলিকতার জন্য তর্ক করছে," তিনি বলেছিলেন। “এই জিনিসগুলি বিশ্বের প্রশিক্ষণ সংস্থায় কখনও বিদ্যমান ছিল না। এটা কেউ কখনো লেখেনি। এটাকে হ্যালুসিনেট করতে হবে।"

তা সত্ত্বেও, হিন্টন মনে করেন যে কাজটি এলএলএমগুলি স্টোকাস্টিক তোতাপাখি কিনা সেই প্রশ্নটিকে বিশ্রাম দেয়। "এটি সবচেয়ে কঠোর পদ্ধতি যা আমি দেখানোর জন্য দেখেছি যে GPT-4 একটি স্টোকাস্টিক তোতাপাখির চেয়ে অনেক বেশি," তিনি বলেছিলেন। "তারা দৃঢ়ভাবে প্রদর্শন করে যে GPT-4 এমন পাঠ্য তৈরি করতে পারে যা দক্ষতা এবং বিষয়গুলিকে এমনভাবে একত্রিত করে যা প্রায় নিশ্চিতভাবে প্রশিক্ষণের ডেটাতে ঘটেনি।" (আমরা নতুন কাজের প্রতি তার দৃষ্টিভঙ্গির জন্য বেন্ডারের কাছে পৌঁছেছি, তবে তিনি সময়ের অভাব উল্লেখ করে মন্তব্য করতে অস্বীকার করেছিলেন।)

এবং প্রকৃতপক্ষে, গণিতের ভবিষ্যদ্বাণী অনুসারে, GPT-4-এর কর্মক্ষমতা তার ছোট পূর্বসূরি, GPT-3.5-এর চেয়ে অনেক বেশি - যেটা অরোরাকে ভয় দেখিয়েছিল। "এটা সম্ভবত শুধু আমি না," তিনি বলেন. “অনেকেই এটিকে কিছুটা বিস্ময়কর মনে করেছিল যে GPT-4 জিপিটি-3.5 এর চেয়ে কতটা ভাল ছিল এবং এটি এক বছরের মধ্যে ঘটেছিল। এর মানে কি অন্য বছরে আমাদের সেই মাত্রার একই রকম পরিবর্তন হবে? আমি জানি না শুধুমাত্র OpenAI জানে।"

সময় স্ট্যাম্প:

থেকে আরো কোয়ান্টাম্যাগাজিন