কীভাবে চেইন-অফ-থট রিজনিং নিউরাল নেটওয়ার্কগুলিকে গণনা করতে সাহায্য করে

প্লেটো দ্বারা প্রকাশিত

অনুসরণকারী: 0

How Chain-of-Thought Reasoning Helps Neural Networks Compute | Quanta Magazine PlatoBlockchain Data Intelligence. Vertical Search. Ai.

আপনার গ্রেড স্কুল শিক্ষক সম্ভবত আপনাকে দেখাননি কিভাবে 20-সংখ্যার সংখ্যা যোগ করতে হয়। কিন্তু আপনি যদি জানেন কিভাবে ছোট সংখ্যা যোগ করতে হয়, আপনার যা দরকার তা হল কাগজ এবং পেন্সিল এবং একটু ধৈর্য। একটি জায়গা দিয়ে শুরু করুন এবং ধাপে ধাপে বাম দিকে কাজ করুন, এবং শীঘ্রই আপনি সহজে কুইন্টিলিয়ন স্তুপীকৃত হবেন।

এই ধরনের সমস্যা মানুষের জন্য সহজ, কিন্তু শুধুমাত্র যদি আমরা সঠিক উপায়ে তাদের কাছে যাই। "আমরা মানুষ কীভাবে এই সমস্যাগুলি সমাধান করি তা নয় 'এটির দিকে তাকান এবং তারপরে উত্তর লিখুন'," বলেছেন৷ এরান মালাচ, হার্ভার্ড বিশ্ববিদ্যালয়ের একজন মেশিন লার্নিং গবেষক। "আমরা আসলে ধাপগুলি দিয়ে হাঁটছি।"

এই অন্তর্দৃষ্টি ChatGPT-এর মতো চ্যাটবটগুলিকে শক্তিশালী করে এমন বড় ভাষার মডেলগুলি অধ্যয়নরত গবেষকদের অনুপ্রাণিত করেছে৷ যদিও এই সিস্টেমগুলি পাটিগণিতের কয়েকটি ধাপ জড়িত প্রশ্নগুলিকে উসকে দিতে পারে, তারা প্রায়শই দুটি বড় সংখ্যার যোগফল গণনা করার মতো অনেকগুলি ধাপ জড়িত সমস্যাগুলিকে ফ্লব করবে। কিন্তু 2022 সালে, গুগল গবেষকদের একটি দল দেখিয়েছেন যে ভাষা মডেলগুলিকে ধাপে ধাপে সমাধানগুলি তৈরি করতে বলা মডেলগুলিকে এমন সমস্যাগুলি সমাধান করতে সক্ষম করেছে যা আগে তাদের নাগালের বাইরে বলে মনে হয়েছিল৷ তাদের কৌশল, যাকে চেইন-অফ-থট প্রম্পটিং বলা হয়, শীঘ্রই ব্যাপক হয়ে ওঠে, এমনকি গবেষকরা এটি কী কাজ করে তা বোঝার জন্য সংগ্রাম করে।

এখন, বেশ কয়েকটি দল কম্পিউটেশনাল জটিলতা তত্ত্ব নামক তাত্ত্বিক কম্পিউটার বিজ্ঞানের একটি অত্যাশ্চর্য শাখা থেকে কৌশল ব্যবহার করে চেইন-অফ-থট যুক্তির শক্তি অন্বেষণ করেছে। এটি গবেষণার একটি লাইনের সর্বশেষ অধ্যায় যা ভাষা মডেলের অন্তর্নিহিত ক্ষমতা এবং সীমাবদ্ধতাগুলি অধ্যয়ন করতে জটিলতা তত্ত্ব ব্যবহার করে। এই প্রচেষ্টাগুলি স্পষ্ট করে যে আমাদের কোথায় মডেলগুলি ব্যর্থ হওয়ার আশা করা উচিত এবং তারা সেগুলি তৈরির জন্য নতুন পদ্ধতির দিকে নির্দেশ করতে পারে।

"তারা কিছু জাদু সরিয়ে দেয়," বলেন দিমিত্রিস পাপাইলিওপোলোস, উইসকনসিন, ম্যাডিসন বিশ্ববিদ্যালয়ের একজন মেশিন লার্নিং গবেষক। "সেটা একটা ভাল জিনিস."

ট্রান্সফরমার প্রশিক্ষণ

কৃত্রিম নিউরাল নেটওয়ার্ক নামে গাণিতিক কাঠামোর চারপাশে বড় ভাষার মডেল তৈরি করা হয়। এই নেটওয়ার্কগুলির মধ্যে থাকা অনেকগুলি "নিউরন" পৃথক শব্দের প্রতিনিধিত্বকারী সংখ্যার দীর্ঘ স্ট্রিংগুলিতে সহজ গাণিতিক ক্রিয়াকলাপ সম্পাদন করে, নেটওয়ার্কের মধ্য দিয়ে যাওয়া প্রতিটি শব্দকে অন্যটিতে স্থানান্তরিত করে। এই গাণিতিক আলকেমির বিশদ বিবরণ নেটওয়ার্কের প্যারামিটার নামক সংখ্যার আরেকটি সেটের উপর নির্ভর করে, যা নিউরনের মধ্যে সংযোগের শক্তি পরিমাপ করে।

সুসংগত আউটপুট তৈরি করার জন্য একটি ভাষা মডেলকে প্রশিক্ষণ দেওয়ার জন্য, গবেষকরা সাধারণত একটি নিউরাল নেটওয়ার্ক দিয়ে শুরু করেন যার সমস্ত প্যারামিটারের এলোমেলো মান থাকে এবং তারপরে এটি ইন্টারনেটের চারপাশ থেকে ডেটা রিম করে। প্রতিবার মডেলটি পাঠ্যের একটি নতুন ব্লক দেখে, এটি পালাক্রমে প্রতিটি শব্দের ভবিষ্যদ্বাণী করার চেষ্টা করে: এটি প্রথমটির উপর ভিত্তি করে দ্বিতীয়টি অনুমান করে, তৃতীয়টি প্রথম দুটির উপর ভিত্তি করে এবং আরও অনেক কিছু। এটি প্রতিটি ভবিষ্যদ্বাণীকে প্রকৃত পাঠ্যের সাথে তুলনা করে, তারপর পার্থক্য কমাতে এর পরামিতিগুলিকে টুইক করে। প্রতিটি টুইক শুধুমাত্র মডেলের ভবিষ্যদ্বাণীগুলিকে সামান্য পরিবর্তন করে, কিন্তু কোন না কোনভাবে তাদের সম্মিলিত প্রভাব একটি মডেলকে এমন ইনপুটগুলিতে সুসঙ্গতভাবে প্রতিক্রিয়া জানাতে সক্ষম করে যা এটি কখনও দেখেনি।

গবেষকরা 20 বছর ধরে ভাষা প্রক্রিয়া করার জন্য নিউরাল নেটওয়ার্ককে প্রশিক্ষণ দিচ্ছেন। কিন্তু কাজটি সত্যিই 2017 সালে শুরু হয়েছিল, যখন গুগলের গবেষকরা একটি প্রবর্তন করেছিলেন নতুন ধরনের নেটওয়ার্ক ট্রান্সফরমার বলা হয়।

"এটি সাত বছর আগে প্রস্তাব করা হয়েছিল, যা প্রাগৈতিহাসিক বলে মনে হয়," বলেন পাবলো বার্সেলো, চিলির পন্টিফিকাল ক্যাথলিক বিশ্ববিদ্যালয়ের একজন মেশিন লার্নিং গবেষক।

যা ট্রান্সফরমারগুলিকে এতটাই রূপান্তরকারী করে তুলেছে যে প্রশিক্ষণকে নিষেধমূলকভাবে ব্যয়বহুল না করেই — প্যারামিটারের সংখ্যা এবং প্রশিক্ষণের ডেটার পরিমাণ বাড়ানো — এগুলিকে বড় করা সহজ। ট্রান্সফরমারের আগে, নিউরাল নেটওয়ার্কে সর্বাধিক কয়েকশ মিলিয়ন প্যারামিটার ছিল; আজ, বৃহত্তম ট্রান্সফরমার-ভিত্তিক মডেলগুলি ট্রিলিয়নেরও বেশি। গত পাঁচ বছরে ভাষা-মডেলের পারফরম্যান্সের বেশিরভাগ উন্নতি কেবলমাত্র স্কেল আপ করার মাধ্যমে আসে।

ট্রান্সফরমাররা অ্যাটেনশন হেড নামক বিশেষ গাণিতিক কাঠামো ব্যবহার করে এটি সম্ভব করেছে, যা তাদের পাঠ্য পাঠের এক ধরণের পাখির দৃষ্টি দেয়। যখন একটি ট্রান্সফরমার পাঠ্যের একটি নতুন ব্লক পড়ে, তখন তার মনোযোগের প্রধানগুলি দ্রুত পুরো জিনিসটি স্ক্যান করে এবং শব্দগুলির মধ্যে প্রাসঙ্গিক সংযোগগুলি সনাক্ত করে - সম্ভবত লক্ষ্য করে যে চতুর্থ এবং অষ্টম শব্দগুলি 10 তম ভবিষ্যদ্বাণী করার জন্য সবচেয়ে কার্যকর হতে পারে৷ তারপর মনোযোগের মাথাগুলি ফিডফরওয়ার্ড নেটওয়ার্ক নামে পরিচিত নিউরনের একটি বিশাল ওয়েবের সাথে শব্দগুলি পাস করে, যা এটিকে শিখতে সাহায্য করে এমন ভবিষ্যদ্বাণী তৈরি করতে প্রয়োজনীয় ভারী সংখ্যা ক্রঞ্চিং করে।

বাস্তব ট্রান্সফরমারগুলিতে ফিডফরোয়ার্ড নেটওয়ার্কগুলির দ্বারা আলাদা করা মনোযোগের মাথার একাধিক স্তর থাকে এবং শুধুমাত্র শেষ স্তরের পরে পূর্বাভাস দেয়। কিন্তু প্রতিটি স্তরে, মনোযোগ প্রধানগুলি ইতিমধ্যে প্রতিটি শব্দের জন্য সবচেয়ে প্রাসঙ্গিক প্রসঙ্গ চিহ্নিত করেছে, তাই টেক্সটের প্রতিটি শব্দের জন্য গণনামূলকভাবে নিবিড় ফিডফরওয়ার্ড পদক্ষেপ একই সাথে ঘটতে পারে। এটি প্রশিক্ষণ প্রক্রিয়াকে গতিশীল করে, ক্রমবর্ধমান বড় ডেটার সেটগুলিতে ট্রান্সফরমারকে প্রশিক্ষণ দেওয়া সম্ভব করে তোলে। আরও গুরুত্বপূর্ণ, এটি গবেষকদের টেন্ডেমে কাজ করা অনেক প্রসেসর জুড়ে একটি বিশাল নিউরাল নেটওয়ার্ক প্রশিক্ষণের বিশাল গণনামূলক লোড ছড়িয়ে দেওয়ার অনুমতি দেয়।

বৃহৎ ডেটা সেট থেকে সর্বাধিক সুবিধা পেতে, "আপনাকে মডেলগুলিকে সত্যিই বড় করতে হবে," বলেছেন৷ ডেভিড চিয়াং, নটরডেম বিশ্ববিদ্যালয়ের একজন মেশিন লার্নিং গবেষক। "এটি সমান্তরাল না হলে তাদের প্রশিক্ষণ দেওয়া বাস্তবিক হবে না।"

যাইহোক, সমান্তরাল কাঠামো যা ট্রান্সফরমারগুলিকে প্রশিক্ষণ দেওয়া এত সহজ করে তোলে প্রশিক্ষণের পরে সাহায্য করে না — সেই সময়ে, ইতিমধ্যে বিদ্যমান শব্দগুলির ভবিষ্যদ্বাণী করার দরকার নেই। সাধারণ ক্রিয়াকলাপের সময়, ট্রান্সফরমারগুলি একবারে একটি শব্দ আউটপুট করে, পরবর্তী শব্দ তৈরি করার আগে প্রতিটি আউটপুটকে ইনপুটে ফিরে ট্যাক করে, কিন্তু তারা এখনও সমান্তরাল প্রক্রিয়াকরণের জন্য অপ্টিমাইজ করা একটি আর্কিটেকচারের সাথে আটকে থাকে।

যেহেতু ট্রান্সফরমার-ভিত্তিক মডেলগুলি বেড়েছে এবং নির্দিষ্ট কিছু কাজ তাদের সমস্যা দিতে থাকে, কিছু গবেষকরা ভাবতে শুরু করেন যে আরও সমান্তরাল মডেলগুলির দিকে ধাক্কা খরচে এসেছে কিনা। তাত্ত্বিকভাবে ট্রান্সফরমারের আচরণ বোঝার একটি উপায় ছিল?

ট্রান্সফরমারের জটিলতা

নিউরাল নেটওয়ার্কের তাত্ত্বিক অধ্যয়নগুলি অনেক সমস্যার সম্মুখীন হয়, বিশেষ করে যখন তারা প্রশিক্ষণের জন্য অ্যাকাউন্ট করার চেষ্টা করে। নিউরাল নেটওয়ার্কগুলি প্রশিক্ষণ প্রক্রিয়ার প্রতিটি ধাপে তাদের পরামিতিগুলিকে পরিবর্তন করার জন্য একটি সুপরিচিত পদ্ধতি ব্যবহার করে। কিন্তু কেন এই সহজ পদ্ধতিটি পরামিতিগুলির একটি ভাল সেটে একত্রিত হয় তা বোঝা কঠিন হতে পারে।

প্রশিক্ষণের সময় কী ঘটে তা বিবেচনা করার পরিবর্তে, কিছু গবেষক ট্রান্সফরমারগুলির অন্তর্নিহিত ক্ষমতাগুলি অধ্যয়ন করে কল্পনা করে যে তাদের পরামিতিগুলিকে যে কোনও নির্বিচারে মানগুলির সাথে সামঞ্জস্য করা সম্ভব। এটি একটি ট্রান্সফরমারকে একটি বিশেষ ধরনের প্রোগ্রামেবল কম্পিউটার হিসাবে বিবেচনা করার পরিমাণ।

"আপনার কাছে কিছু কম্পিউটিং ডিভাইস আছে, এবং আপনি জানতে চান, 'আচ্ছা, এটি কী করতে পারে? এটা কি ধরনের ফাংশন গণনা করতে পারে?'” চিয়াং বলল।

এগুলি গণনার আনুষ্ঠানিক অধ্যয়নের কেন্দ্রীয় প্রশ্ন। ক্ষেত্রটি 1936 সালের, যখন অ্যালান টুরিং প্রথম একটি কল্পনা করেছিলেন কল্পনাপ্রসূত ডিভাইস, যাকে এখন একটি টুরিং মেশিন বলা হয়, যা একটি অসীম টেপে প্রতীকগুলি পড়া এবং লেখার মাধ্যমে যে কোনও গণনা সম্পাদন করতে পারে। কম্পিউটেশনাল জটিলতা তত্ত্ববিদরা পরবর্তীতে টুরিং এর কাজকে প্রমাণ করে যে কম্পিউটেশনাল সমস্যাগুলি স্বাভাবিকভাবেই বিভিন্ন ক্ষেত্রে পড়ে। জটিলতা ক্লাস তাদের সমাধান করার জন্য প্রয়োজনীয় সংস্থান দ্বারা সংজ্ঞায়িত।

2019 সালে, বার্সেলো এবং অন্য দুই গবেষক প্রতিপন্ন যে একটি নির্দিষ্ট সংখ্যক পরামিতি সহ একটি ট্রান্সফরমারের একটি আদর্শ সংস্করণ টিউরিং মেশিনের মতোই শক্তিশালী হতে পারে। আপনি যদি একটি ট্রান্সফরমার সেট আপ করেন যাতে বারবার তার আউটপুটকে ইনপুট হিসাবে ফিড করা যায় এবং আপনি যে নির্দিষ্ট সমস্যার সমাধান করতে চান তার জন্য উপযুক্ত মানগুলিতে প্যারামিটার সেট করেন, এটি শেষ পর্যন্ত সঠিক উত্তরটি বের করে দেবে।

এই ফলাফলটি একটি সূচনা বিন্দু ছিল, কিন্তু এটি কিছু অবাস্তব অনুমানের উপর নির্ভর করে যা সম্ভবত ট্রান্সফরমারের শক্তিকে অতিরিক্ত মূল্যায়ন করবে। পরবর্তী বছরগুলিতে, গবেষকরা আরও বাস্তবসম্মত তাত্ত্বিক কাঠামো বিকাশের জন্য কাজ করেছেন।

এমন একটি প্রচেষ্টা 2021 সালে শুরু হয়েছিল, যখন উইলিয়াম মেরিল, এখন নিউ ইয়র্ক বিশ্ববিদ্যালয়ের একজন স্নাতক ছাত্র, সিয়াটেলের অ্যালেন ইনস্টিটিউট ফর কৃত্রিম বুদ্ধিমত্তায় দুই বছরের ফেলোশিপ ছেড়ে যাচ্ছিলেন৷ সেখানে থাকাকালীন, তিনি ট্রান্সফরমারের সমান্তরাল আর্কিটেকচারের জন্য দুর্বল ফিট বলে মনে হয় এমন কৌশল ব্যবহার করে অন্যান্য ধরণের নিউরাল নেটওয়ার্কগুলি বিশ্লেষণ করতেন। যাওয়ার কিছুক্ষণ আগে, তিনি এআই গবেষক অ্যালেন ইনস্টিটিউটের সাথে একটি কথোপকথন শুরু করেছিলেন আশিস সবরওয়াল, যিনি AI গবেষণায় যাওয়ার আগে জটিলতা তত্ত্ব অধ্যয়ন করেছিলেন। তারা সন্দেহ করতে শুরু করে যে জটিলতা তত্ত্ব তাদের ট্রান্সফরমারের সীমা বুঝতে সাহায্য করতে পারে।

“এটা মনে হচ্ছিল এটা একটা সাধারণ মডেল; কিছু সীমাবদ্ধতা থাকতেই হবে যেগুলো একজনকে মেরে ফেলতে পারে,” সবরওয়াল বলেছেন।

এই জুটি গণনাগত জটিলতা তত্ত্বের একটি শাখা ব্যবহার করে ট্রান্সফরমার বিশ্লেষণ করেছে, যাকে বলা হয় সার্কিট জটিলতা, যা প্রায়শই সমান্তরাল গণনা অধ্যয়ন করতে ব্যবহৃত হয় এবং ছিল সম্প্রতি প্রয়োগ করা হয়েছে ট্রান্সফরমারের সরলীকৃত সংস্করণে। পরের বছর ধরে, তারা পূর্ববর্তী কাজের বেশ কয়েকটি অবাস্তব অনুমানকে পরিমার্জন করেছে। ট্রান্সফরমারগুলির সমান্তরাল কাঠামো কীভাবে তাদের ক্ষমতাকে সীমাবদ্ধ করতে পারে তা অধ্যয়ন করার জন্য, জোড়াটি সেই ক্ষেত্রে বিবেচনা করে যেখানে ট্রান্সফরমারগুলি তাদের আউটপুটকে তাদের ইনপুটে ফিরিয়ে দেয় না — পরিবর্তে, তাদের প্রথম আউটপুটটি চূড়ান্ত উত্তর হতে হবে। তারা প্রতিপন্ন যে এই তাত্ত্বিক কাঠামোর ট্রান্সফরমারগুলি একটি নির্দিষ্ট জটিলতার শ্রেণির বাইরে থাকা কোনও গণনীয় সমস্যা সমাধান করতে পারেনি। এবং অনেক গণিতের সমস্যা, যার মধ্যে তুলনামূলকভাবে সহজ সমস্যা যেমন রৈখিক সমীকরণ সমাধান করা, এই শ্রেণীর বাইরে থাকে বলে মনে করা হয়।

মূলত, তারা দেখিয়েছিল যে সমান্তরালতা একটি খরচে এসেছিল - অন্তত যখন ট্রান্সফরমারদের এখনই একটি উত্তর বের করতে হবে। মেরিল বলেন, "ট্রান্সফরমারগুলি বেশ দুর্বল হয় যদি আপনি তাদের ব্যবহার করার পদ্ধতিতে আপনি একটি ইনপুট দেন এবং আপনি শুধুমাত্র একটি তাত্ক্ষণিক উত্তর আশা করেন," মেরিল বলেন।

চিন্তা পরীক্ষা

মেরিল এবং সাভারওয়ালের ফলাফল একটি স্বাভাবিক প্রশ্ন উত্থাপন করেছে — ট্রান্সফরমারগুলিকে তাদের আউটপুট পুনর্ব্যবহার করার অনুমতি দেওয়া হলে তারা কতটা শক্তিশালী হয়ে ওঠে? বার্সেলো এবং তার সহ-লেখকরা তাদের 2019 সালের আদর্শিক ট্রান্সফরমারের বিশ্লেষণে এই কেসটি অধ্যয়ন করেছিলেন, কিন্তু আরও বাস্তবসম্মত অনুমানের সাথে প্রশ্নটি উন্মুক্ত ছিল। এবং মধ্যবর্তী বছরগুলিতে, গবেষকরা চেইন-অফ-থট প্রম্পটিং আবিষ্কার করেছিলেন, প্রশ্নটিকে একটি নতুন প্রাসঙ্গিকতা দিয়েছে।

মেরিল এবং সাভারওয়াল জানতেন যে তাদের সম্পূর্ণরূপে গাণিতিক পদ্ধতি বাস্তব ভাষার মডেলগুলিতে চেইন-অফ-থট যুক্তির সমস্ত দিক ধরতে পারে না, যেখানে প্রম্পটে শব্দগুলি খুব গুরুত্বপূর্ণ হতে পারে. কিন্তু প্রম্পট যেভাবে শব্দগুচ্ছ করা হোক না কেন, যতক্ষণ না এটি একটি ভাষা মডেলকে ধাপে ধাপে সমাধানের জন্য আউটপুট করে, মডেলটি নীতিগতভাবে ট্রান্সফরমারের মধ্য দিয়ে পরবর্তী পাসে মধ্যবর্তী ধাপের ফলাফল পুনঃব্যবহার করতে পারে। এটি সমান্তরাল গণনার সীমা এড়াতে একটি উপায় প্রদান করতে পারে।

ইতিমধ্যে, পিকিং ইউনিভার্সিটির একটি দল অনুরূপ লাইন ধরে চিন্তা করছিল এবং তাদের প্রাথমিক ফলাফল ইতিবাচক ছিল। মে 2023 সালের একটি গবেষণাপত্রে, তারা কিছু গণিত সমস্যা চিহ্নিত করেছে যা মেরিল এবং সাভারওয়ালের কাঠামোর সাধারণ ট্রান্সফরমারদের জন্য অসম্ভব হওয়া উচিত এবং দেখিয়েছেন যে মধ্যবর্তী পদক্ষেপগুলি ট্রান্সফরমারগুলিকে এই সমস্যাগুলি সমাধান করতে সক্ষম করে।

অক্টোবরে, মেরিল এবং সাভারওয়াল তাদের পূর্ববর্তী কাজ অনুসরণ করেন a বিস্তারিত তাত্ত্বিক অধ্যয়ন চিন্তার শৃঙ্খলের গণনা শক্তির। তারা পরিমাপ করেছে যে কীভাবে অতিরিক্ত গণনা শক্তি একটি ট্রান্সফরমারকে একটি চূড়ান্ত উত্তর বের করার আগে ব্যবহার করার অনুমতি দেওয়া মধ্যবর্তী পদক্ষেপের সংখ্যার উপর নির্ভর করে। সাধারণভাবে, গবেষকরা আশা করেন যে কোনও সমস্যা সমাধানের জন্য উপযুক্ত সংখ্যক মধ্যবর্তী পদক্ষেপগুলি সমস্যার ইনপুটের আকারের উপর নির্ভর করে। উদাহরণস্বরূপ, দুটি 20-সংখ্যার সংখ্যা যোগ করার জন্য সবচেয়ে সহজ কৌশলটির জন্য দুটি 10-সংখ্যার সংখ্যা যোগ করার জন্য একই পদ্ধতির চেয়ে দ্বিগুণ মধ্যবর্তী সংযোজন পদক্ষেপ প্রয়োজন।

এই ধরনের উদাহরণগুলি সুপারিশ করে যে ট্রান্সফরমারগুলি শুধুমাত্র কয়েকটি মধ্যবর্তী পদক্ষেপ ব্যবহার করে খুব বেশি লাভ করবে না। প্রকৃতপক্ষে, মেরিল এবং সাভারওয়াল প্রমাণ করেছেন যে চিন্তার চেইনটি তখনই সাহায্য করতে শুরু করে যখন ইনপুটের আকারের অনুপাতে মধ্যবর্তী ধাপের সংখ্যা বৃদ্ধি পায় এবং অনেক সমস্যার জন্য মধ্যবর্তী পদক্ষেপের সংখ্যা এখনও অনেক বড় হওয়ার প্রয়োজন হয়।

ফলাফলের পুঙ্খানুপুঙ্খতা গবেষকদের মুগ্ধ করেছে। "তারা সত্যিই এটি পিন করেছে," বলেছেন ড্যানিয়েল হু, কলম্বিয়া বিশ্ববিদ্যালয়ের একজন মেশিন লার্নিং গবেষক।

মেরিল এবং সাভারওয়ালের সাম্প্রতিক কাজ ইঙ্গিত দেয় যে চিন্তার চেইন একটি প্যানেসিয়া নয় — নীতিগতভাবে, এটি ট্রান্সফরমারগুলিকে কঠিন সমস্যা সমাধানে সাহায্য করতে পারে, তবে শুধুমাত্র প্রচুর গণনামূলক প্রচেষ্টার খরচে।

"আমরা এক ধাপে ট্রান্সফরমারের সীমাবদ্ধতাগুলির কাছাকাছি পাওয়ার বিভিন্ন উপায়ে আগ্রহী," মেরিল বলেছেন। "চিন্তা চেইন এক উপায়, কিন্তু এই কাগজ দেখায় যে এটি সবচেয়ে অর্থনৈতিক উপায় নাও হতে পারে।"

বাস্তবে প্রত্যাবর্তন

তবুও, গবেষকরা সতর্ক করেন যে এই ধরণের তাত্ত্বিক বিশ্লেষণ শুধুমাত্র বাস্তব ভাষার মডেল সম্পর্কে এত কিছু প্রকাশ করতে পারে। ইতিবাচক ফলাফল - প্রমাণ যে ট্রান্সফরমারগুলি নীতিগতভাবে কিছু সমস্যার সমাধান করতে পারে - এটি বোঝায় না যে একটি ভাষা মডেল আসলে প্রশিক্ষণের সময় সেই সমাধানগুলি শিখবে।

এবং এমনকি ট্রান্সফরমারের সীমাবদ্ধতাগুলিকে সম্বোধন করে এমন ফলাফলগুলি সতর্কতার সাথে আসে: তারা নির্দেশ করে যে কোনও ট্রান্সফরমার সমস্ত ক্ষেত্রে নিখুঁতভাবে নির্দিষ্ট সমস্যার সমাধান করতে পারে না। অবশ্যই, যে একটি চমত্কার উচ্চ বার. "সমস্যাটির বিশেষ ক্ষেত্রে হতে পারে যে এটি ঠিকভাবে পরিচালনা করতে পারে," হু বলেছেন।

এই সতর্কতা সত্ত্বেও, নতুন কাজটি বিভিন্ন ধরণের নিউরাল নেটওয়ার্ক আর্কিটেকচার বিশ্লেষণ করার জন্য একটি টেমপ্লেট অফার করে যা অবশেষে ট্রান্সফরমার প্রতিস্থাপন করতে পারে। যদি একটি জটিলতা তত্ত্ব বিশ্লেষণ প্রস্তাব করে যে নির্দিষ্ট ধরণের নেটওয়ার্কগুলি অন্যদের তুলনায় বেশি শক্তিশালী, তবে এটি প্রমাণ হবে যে সেই নেটওয়ার্কগুলি বাস্তব জগতেও ভাল হতে পারে।

চিয়াং আরও জোর দিয়েছিলেন যে ট্রান্সফরমারগুলির সীমাবদ্ধতাগুলির উপর গবেষণাটি আরও মূল্যবান কারণ ভাষা মডেলগুলি বাস্তব-বিশ্বের অ্যাপ্লিকেশনগুলির একটি বিস্তৃত পরিসরে ক্রমবর্ধমানভাবে ব্যবহৃত হচ্ছে, যার ফলে তাদের ক্ষমতাগুলিকে অতিমূল্যায়ন করা সহজ হয়ে উঠেছে।

চিয়াং বলেন, "আসলে অনেক কিছু আছে যা তারা ভালো করে না, এবং আমাদের সীমাবদ্ধতাগুলি সম্পর্কে খুব, খুব সচেতন হতে হবে," চিয়াং বলেছিলেন। "তাই এই ধরনের কাজ সত্যিই গুরুত্বপূর্ণ।"

এসইও চালিত বিষয়বস্তু এবং পিআর বিতরণ। আজই পরিবর্ধিত পান।
PlatoData.Network উল্লম্ব জেনারেটিভ Ai. নিজেকে ক্ষমতায়িত করুন। এখানে প্রবেশ করুন.
প্লেটোএআইস্ট্রিম। Web3 ইন্টেলিজেন্স। জ্ঞান প্রসারিত. এখানে প্রবেশ করুন.
প্লেটোইএসজি। কার্বন, ক্লিনটেক, শক্তি, পরিবেশ সৌর, বর্জ্য ব্যবস্থাপনা. এখানে প্রবেশ করুন.
প্লেটো হেলথ। বায়োটেক এবং ক্লিনিক্যাল ট্রায়াল ইন্টেলিজেন্স। এখানে প্রবেশ করুন.
উত্স: https://www.quantamagazine.org/how-chain-of-thought-reasoning-helps-neural-networks-compute-20240321/

সময় স্ট্যাম্প: মার্চ 21, 2024

সময় স্ট্যাম্প: আগস্ট 17, 2023

কীভাবে চেইন-অফ-থট রিজনিং নিউরাল নেটওয়ার্কগুলিকে গণনা করতে সাহায্য করে | কোয়ান্টা ম্যাগাজিন

প্লেটো দ্বারা প্রকাশিত

ট্রান্সফরমার প্রশিক্ষণ

ট্রান্সফরমারের জটিলতা

চিন্তা পরীক্ষা

বাস্তবে প্রত্যাবর্তন

থেকে আরো কোয়ান্টাম্যাগাজিন

কোয়ান্টাম ফিল্ড তত্ত্ব কি এবং কেন এটি অসম্পূর্ণ?

প্রাচীন গ্রহাণুর ভিতরে, গামা রশ্মি জীবনের বিল্ডিং ব্লক তৈরি করেছে

আমরা যদি তাদের মৌলিক বিষয়গুলি শেখাই তবে মেশিনগুলি আরও ভাল শিখবে৷

প্রথম সূর্যোদয়ের জন্য পরীক্ষামূলক কসমোলজিস্ট শিকার | কোয়ান্টা ম্যাগাজিন

মহাজাগতিক সংখ্যার সংঘর্ষ আমাদের মহাবিশ্বের সেরা তত্ত্বকে চ্যালেঞ্জ করে | কোয়ান্টা ম্যাগাজিন

গণিতের 'গেম অফ লাইফ' দীর্ঘ-চাওয়া পুনরাবৃত্তি প্যাটার্নগুলি প্রকাশ করে | কোয়ান্টা ম্যাগাজিন

কম্পিউটার প্রুফ 'ব্লোস আপ' শতাব্দী-পুরাতন তরল সমীকরণ

আমাদের সম্পর্কে

উল্লম্ব অনুসন্ধান এবং আই

প্ল্যাটফর্ম

যোগাযোগ রেখো

হিসাব

ভূমিকা

ট্রান্সফরমার প্রশিক্ষণ

ট্রান্সফরমারের জটিলতা

চিন্তা পরীক্ষা

বাস্তবে প্রত্যাবর্তন

থেকে আরো কোয়ান্টাম্যাগাজিন

আমাদের সম্পর্কে

উল্লম্ব অনুসন্ধান এবং আই

প্ল্যাটফর্ম

যোগাযোগ রেখো

হিসাব