রিচ হিউম্যান ফিডব্যাক থেকে শিখে এলএলএম-এ মাল্টি-হপ রিজনিং উন্নত করুন

প্লেটো দ্বারা প্রকাশিত

অনুসরণকারী: 0

সাম্প্রতিক বড় ভাষা মডেল (LLMs) প্রাকৃতিক ভাষা বোঝার ক্ষেত্রে অসাধারণ অগ্রগতি সক্ষম করেছে। যাইহোক, তারা আত্মবিশ্বাসী কিন্তু অযৌক্তিক ব্যাখ্যা তৈরি করতে প্রবণ, যা ব্যবহারকারীদের সাথে বিশ্বাস স্থাপনে একটি উল্লেখযোগ্য বাধা সৃষ্টি করে। এই পোস্টে, আমরা দেখাই যে এই কাজগুলিতে পারফরম্যান্স উন্নত করার জন্য মাল্টি-হপ যুক্তির জন্য ভুল যুক্তি চেইনের উপর মানুষের প্রতিক্রিয়া কীভাবে অন্তর্ভুক্ত করা যায়। মানুষকে জিজ্ঞাসা করে স্ক্র্যাচ থেকে যুক্তির চেইনগুলি সংগ্রহ করার পরিবর্তে, আমরা LLM-এর প্রম্পটিং ক্ষমতা ব্যবহার করে মডেল-উত্পন্ন যুক্তি চেইনের সমৃদ্ধ মানব প্রতিক্রিয়া থেকে শিখি। আমরা স্ট্র্যাটেজিকিউএ এবং স্পোর্টস আন্ডারস্ট্যান্ডিং ডেটাসেটের জন্য মানুষের প্রতিক্রিয়ার এই ধরনের দুটি ডেটাসেট (সংশোধন, ব্যাখ্যা, ত্রুটির ধরন) আকারে সংগ্রহ করি এবং এই ধরনের প্রতিক্রিয়া থেকে শেখার জন্য বেশ কয়েকটি সাধারণ অ্যালগরিদম মূল্যায়ন করি। আমাদের প্রস্তাবিত পদ্ধতিগুলি বেস ফ্লান-টি 5 ব্যবহার করে চেইন-অফ-থট প্রম্পটিং প্রতিযোগিতামূলকভাবে কাজ করে এবং আমাদের নিজস্ব উত্তরের সঠিকতা বিচার করতে আরও ভাল।

সমাধান ওভারভিউ

বৃহৎ ভাষার মডেলের সূত্রপাতের সাথে, ক্ষেত্রটি বিভিন্ন প্রাকৃতিক ভাষা প্রক্রিয়াকরণ (NLP) বেঞ্চমার্কে অসাধারণ অগ্রগতি দেখেছে। তাদের মধ্যে, মাল্টি-হপ প্রশ্নের উত্তরের মতো যুক্তির প্রয়োজন হয় এমন কঠিন কাজের তুলনায় তুলনামূলকভাবে সহজ কাজগুলি যেমন সংক্ষিপ্ত প্রসঙ্গ বা বাস্তবভিত্তিক প্রশ্নের উত্তরের ক্ষেত্রে অগ্রগতি উল্লেখযোগ্য। এলএলএম ব্যবহার করে কিছু কাজের পারফরম্যান্স ছোট স্কেলে এলোমেলো অনুমানের মতো হতে পারে, তবে বড় স্কেলে উল্লেখযোগ্যভাবে উন্নতি করে। তা সত্ত্বেও, এলএলএম-এর প্রম্পটিং ক্ষমতাগুলি প্রশ্নের উত্তর দেওয়ার জন্য প্রয়োজনীয় কিছু প্রাসঙ্গিক তথ্য সরবরাহ করার ক্ষমতা রাখে।

যাইহোক, এই মডেলগুলি নির্ভরযোগ্যভাবে সঠিক যুক্তি চেইন বা ব্যাখ্যা তৈরি করতে পারে না। সেই আত্মবিশ্বাসী কিন্তু অযৌক্তিক ব্যাখ্যাগুলি আরও বেশি প্রচলিত যখন এলএলএমগুলিকে রিইনফোর্সমেন্ট লার্নিং ফ্রম হিউম্যান ফিডব্যাক (RLHF) ব্যবহার করে প্রশিক্ষণ দেওয়া হয়, যেখানে পুরস্কার হ্যাকিং হতে পারে।

এর দ্বারা অনুপ্রাণিত হয়ে, আমরা নিম্নলিখিত গবেষণা প্রশ্নটি সমাধান করার চেষ্টা করি: মডেল-উত্পন্ন যুক্তি চেইনের উপর মানুষের প্রতিক্রিয়া থেকে শিখে আমরা কি এলএলএম-এর যুক্তি উন্নত করতে পারি? নিম্নলিখিত চিত্রটি আমাদের পদ্ধতির একটি ওভারভিউ প্রদান করে: আমরা প্রথমে মডেলটিকে মাল্টি-হপ প্রশ্নগুলির জন্য যুক্তির চেইন তৈরি করার জন্য অনুরোধ করি, তারপরে রোগ নির্ণয়ের জন্য এই চেইনে বিভিন্ন মানুষের প্রতিক্রিয়া সংগ্রহ করি এবং সংগৃহীত ডেটা থেকে শেখার জন্য প্রশিক্ষণ অ্যালগরিদম প্রস্তাব করি।

সমৃদ্ধ মানুষের প্রতিক্রিয়া PlatoBlockchain ডেটা ইন্টেলিজেন্স থেকে শিখে LLM-এ মাল্টি-হপ যুক্তির উন্নতি করুন। উল্লম্ব অনুসন্ধান. আ.

আমরা BigBench থেকে দুটি মাল্টি-হপ রিজনিং ডেটাসেট, স্ট্র্যাটেজিকিউএ এবং স্পোর্টস আন্ডারস্ট্যান্ডিং-এর উপর মানুষের বিভিন্ন প্রতিক্রিয়া সংগ্রহ করি। প্রতিটি প্রশ্ন এবং মডেল-উত্পন্ন যুক্তি শৃঙ্খলের জন্য, আমরা সঠিক যুক্তি শৃঙ্খল সংগ্রহ করি, মডেল-উত্পন্ন যুক্তি শৃঙ্খলে ত্রুটির ধরন এবং প্রদত্ত যুক্তি শৃঙ্খলে কেন সেই ত্রুটিটি উপস্থাপন করা হয়েছে তার একটি বর্ণনা (প্রাকৃতিক ভাষায়)। চূড়ান্ত ডেটাসেটে স্ট্র্যাটেজিকিউএ থেকে 1,565টি নমুনার প্রতিক্রিয়া এবং ক্রীড়া বোঝার জন্য 796টি উদাহরণ রয়েছে।

সংগৃহীত প্রতিক্রিয়া থেকে শিখতে আমরা একাধিক প্রশিক্ষণ অ্যালগরিদম প্রস্তাব করি। প্রথমত, আমরা চেইন-অফ-থট প্রম্পটিং-এ স্ব-সংগতির একটি বৈকল্পিক প্রস্তাব করি যার একটি ওজনযুক্ত বৈকল্পিক বিবেচনা করে যা প্রতিক্রিয়া থেকে শেখা যায়। দ্বিতীয়ত, আমরা পুনরাবৃত্তিমূলক পরিমার্জন প্রস্তাব করি, যেখানে আমরা মডেল-উত্পন্ন যুক্তি শৃঙ্খলটি সঠিক না হওয়া পর্যন্ত পুনরাবৃত্তিমূলকভাবে পরিমার্জন করি। আমরা দুটি ডেটাসেটে পরীক্ষামূলকভাবে প্রদর্শন করি যে প্রস্তাবিত অ্যালগরিদম ব্যবহার করে একটি LLM, যথা Flan-T5 ফাইন-টিউনিং, ইন-কনটেক্সট লার্নিং বেসলাইনের সাথে তুলনামূলকভাবে কাজ করে। আরও গুরুত্বপূর্ণ, আমরা দেখাই যে বেস ফ্লান-টি 5 মডেলের তুলনায় এর নিজস্ব উত্তর সঠিক হলে সূক্ষ্ম-টিউনড মডেলটি বিচার করতে আরও ভাল।

তথ্য সংগ্রহ

এই বিভাগে, আমরা সংগৃহীত প্রতিক্রিয়ার বিশদ বিবরণ এবং ডেটা সংগ্রহের সময় অনুসৃত টীকা প্রোটোকল বর্ণনা করি। আমরা দুটি যুক্তি-ভিত্তিক ডেটাসেটের ভিত্তিতে মডেল প্রজন্মের জন্য প্রতিক্রিয়া সংগ্রহ করেছি: BigBench থেকে StrategyQA এবং স্পোর্টস আন্ডারস্ট্যান্ডিং। আমরা স্পোর্টস আন্ডারস্ট্যান্ডিং ডেটাসেটের উত্তর তৈরি করতে স্ট্র্যাটেজিকিউএ এবং ফ্ল্যান-টি5-এর উত্তর তৈরি করতে GPT-J ব্যবহার করেছি। প্রতিটি ক্ষেত্রে, মডেলটিকে প্রশ্ন, উত্তর এবং ব্যাখ্যা সম্বলিত কে-ইন-প্রেক্ষাপট উদাহরণ সহ প্রম্পট করা হয়েছিল, তারপরে পরীক্ষার প্রশ্ন করা হয়েছিল।

নিচের চিত্রটি আমরা যে ইন্টারফেসটি ব্যবহার করেছি তা দেখায়। টীকাকারদের প্রশ্ন, মডেল-উৎপন্ন উত্তর এবং ব্যাখ্যা ধাপে বিভক্ত করা হয়।

প্রতিটি প্রশ্নের জন্য, আমরা নিম্নলিখিত প্রতিক্রিয়া সংগ্রহ করেছি:

প্রশ্ন - টীকাকারীরা মূল প্রশ্নের উত্তর দেওয়ার জন্য প্রয়োজনীয় সহজ উপপ্রশ্নগুলিতে মূল প্রশ্নটিকে বিচ্যুত করে। এই টাস্কটি একটি পাইলটের পরে যোগ করা হয়েছিল যেখানে আমরা দেখেছি যে এই টাস্কটি যোগ করা টীকা প্রস্তুত করতে এবং বাকি কাজগুলির গুণমান উন্নত করতে সহায়তা করে৷
সংশোধন - টীকাকারদের মডেল-উত্পাদিত উত্তর এবং ব্যাখ্যা দিয়ে পূর্বে ভরা একটি ফ্রি-ফর্ম টেক্সট বক্স সরবরাহ করা হয় এবং সঠিক উত্তর এবং ব্যাখ্যা পেতে এটি সম্পাদনা করতে বলা হয়।
ত্রুটির ধরণ – মডেল জেনারেশনে (ফ্যাকচুয়াল এরর, মিসিং ফ্যাক্টস, অপ্রাসঙ্গিক ফ্যাক্টস এবং লজিক্যাল অসংগতি) পাওয়া সবচেয়ে সাধারণ ধরনের ত্রুটির মধ্যে, টীকাকারদের প্রদত্ত উত্তর এবং ব্যাখ্যার ক্ষেত্রে প্রযোজ্য এক বা একাধিক ত্রুটির ধরন বেছে নিতে বলা হয়েছিল।
ত্রুটি বর্ণনা - টীকাকারদের শুধুমাত্র ত্রুটিগুলিকে শ্রেণীবদ্ধ করার জন্য নয় বরং তাদের শ্রেণীকরণের জন্য একটি বিস্তৃত ন্যায্যতা দিতে নির্দেশ দেওয়া হয়েছিল, যেখানে ভুলটি ঘটেছে এবং প্রদত্ত উত্তর এবং ব্যাখ্যার ক্ষেত্রে এটি কীভাবে প্রযোজ্য তা চিহ্নিত করা সহ।

আমরা ব্যবহার করেছি আমাজন সেজমেকার গ্রাউন্ড ট্রুথ প্লাস আমাদের তথ্য সংগ্রহে। তথ্য সংগ্রহ একাধিক রাউন্ড জুড়ে সঞ্চালিত হয়েছে. আমরা প্রথমে যথাক্রমে 30টি উদাহরণ এবং 200টি উদাহরণের দুটি ছোট পাইলট পরিচালনা করেছি, তারপরে টীকা দলকে টীকাটির উপর বিস্তারিত প্রতিক্রিয়া দেওয়া হয়েছিল। তারপরে আমরা StrategyQA-এর জন্য দুটি ব্যাচের উপর এবং স্পোর্টস আন্ডারস্ট্যান্ডিং-এর জন্য এক ব্যাচের বেশি ডেটা সংগ্রহ পরিচালনা করেছি, জুড়ে পর্যায়ক্রমিক প্রতিক্রিয়া প্রদান করেছি—মোট 10 টি টীকাকার প্রায় 1 মাস ধরে টাস্কটিতে কাজ করেছে।

আমরা StrategyQA-এর জন্য মোট 1,565টি উদাহরণ এবং খেলাধুলা বোঝার জন্য 796টি উদাহরণের উপর মতামত সংগ্রহ করেছি। নিম্নলিখিত সারণীটি মডেল জেনারেশনে ত্রুটি-মুক্ত উদাহরণগুলির শতাংশ এবং একটি নির্দিষ্ট ত্রুটির ধরন ধারণ করে এমন উদাহরণগুলির অনুপাতকে চিত্রিত করে৷ এটি লক্ষণীয় যে কিছু উদাহরণে একাধিক ত্রুটির ধরন থাকতে পারে।

ত্রুটি প্রকার	কৌশল QA	খেলাধুলার বোঝাপড়া
না	17.6%	31.28%
বাস্তবগত ত্রুটি	27.6%	38.1%
মিসিং ফ্যাক্টস	50.4%	46.1%
অপ্রাসঙ্গিক তথ্য	14.6%	3.9%
যৌক্তিক অসঙ্গতি	11.2%	5.2%

অ্যালগরিদম শেখা

প্রতিটি প্রশ্নের জন্য q, এবং মডেল-উৎপন্ন উত্তর এবং ব্যাখ্যা m, আমরা নিম্নলিখিত প্রতিক্রিয়া সংগ্রহ করেছি: সঠিক উত্তর এবং ব্যাখ্যা c, এর মধ্যে উপস্থিত ত্রুটির ধরন m (দ্বারা প্রকাশ t), এবং ত্রুটি বিবরণ d, পূর্ববর্তী বিভাগে বর্ণিত হিসাবে।

আমরা নিম্নলিখিত পদ্ধতি ব্যবহার করেছি:

মাল্টিটাস্ক লার্নিং - উপলব্ধ বিভিন্ন প্রতিক্রিয়া থেকে শেখার জন্য একটি সহজ বেসলাইন হল তাদের প্রতিটিকে একটি পৃথক কাজ হিসাবে বিবেচনা করা। আরও দৃঢ়ভাবে, আমরা উদ্দেশ্যের সাথে Flan-T5 (টেক্সট টু টেক্সট) টিউন করি চরমে তোলা p(c|q) + p(t|q, m) + p(d|q, m). উদ্দেশ্যের প্রতিটি পদের জন্য, আমরা টাস্কের জন্য উপযুক্ত একটি পৃথক নির্দেশ ব্যবহার করি (উদাহরণস্বরূপ, "প্রদত্ত উত্তরে ত্রুটি ভবিষ্যদ্বাণী করুন")। আমরা শ্রেণীগত পরিবর্তনশীলকেও রূপান্তর করি t একটি স্বাভাবিক ভাষার বাক্যে। অনুমানের সময়, আমরা শব্দটির জন্য নির্দেশ ব্যবহার করি p(c|q) ("প্রদত্ত প্রশ্নের সঠিক উত্তরের ভবিষ্যদ্বাণী করুন") পরীক্ষার প্রশ্নের উত্তর তৈরি করতে।
ওজনযুক্ত স্ব-সংগতি - চেইন-অফ-থট প্রম্পটিং-এ স্ব-সংগতির সাফল্যের দ্বারা অনুপ্রাণিত হয়ে, আমরা এটির একটি ওজনযুক্ত বৈকল্পিক প্রস্তাব করি। মডেল থেকে প্রতিটি নমুনাযুক্ত ব্যাখ্যাকে সঠিক হিসাবে বিবেচনা করার পরিবর্তে এবং সমষ্টিগত ভোট বিবেচনা করার পরিবর্তে, আমরা প্রথমে ব্যাখ্যাটি সঠিক কিনা তা বিবেচনা করি এবং তারপরে সেই অনুযায়ী একত্রিত করি। আমরা মাল্টিটাস্ক শেখার মতো একই উদ্দেশ্য নিয়ে প্রথমে Flan-T5 টিউন করি। অনুমান করার সময়, একটি পরীক্ষার প্রশ্ন দেওয়া হয়েছে q, আমরা নির্দেশ সহ একাধিক সম্ভাব্য উত্তর নমুনা করি p(c|q)): a1, a2, .., an. প্রতিটি নমুনা উত্তরের জন্য ai, আমরা শব্দের জন্য নির্দেশ ব্যবহার করি p(t|q, m) ("প্রদত্ত উত্তরে ত্রুটি ভবিষ্যদ্বাণী করুন") এটিতে ত্রুটি রয়েছে কিনা তা সনাক্ত করতে ti = argmax p(t|q, a_i). প্রতিটি উত্তর ai এটি সঠিক হলে 1 এর ওজন নির্ধারণ করা হয়, অন্যথায় এটি 1 (টিউনযোগ্য হাইপারপ্যারামিটার) এর চেয়ে ছোট একটি ওজন নির্ধারণ করা হয়। সমস্ত উত্তরের উপর ওজনযুক্ত ভোট বিবেচনা করে চূড়ান্ত উত্তর পাওয়া যায় a1 থেকে an.
পুনরাবৃত্তিমূলক পরিমার্জন - পূর্ববর্তী প্রস্তাবিত পদ্ধতিতে, মডেল সরাসরি সঠিক উত্তর তৈরি করে c প্রশ্নে শর্তযুক্ত q. এখানে আমরা মডেল-উত্পন্ন উত্তর পরিমার্জন করার প্রস্তাব করি m একটি প্রদত্ত প্রশ্নের সঠিক উত্তর পেতে। আরও বিশেষভাবে, আমরা প্রথমে Flan-T5 (টেক্সট টু টেক্সট উইথ উদ্দেশ্য) এর সাথে ফাইন-টিউন করি p(t; c|q, m) সর্বাধিক করুন, কোথায় ; সংযোজন বোঝায় (ত্রুটির প্রকার t সঠিক উত্তর দ্বারা অনুসরণ c) এই উদ্দেশ্যটি দেখার একটি উপায় হল মডেলটিকে প্রথমে প্রদত্ত প্রজন্মের ত্রুটি সনাক্ত করতে প্রশিক্ষিত করা হয় m, এবং তারপর সঠিক উত্তর পেতে সেই ত্রুটিটি দূর করতে c. অনুমান করার সময়, আমরা মডেলটিকে পুনরাবৃত্তিমূলকভাবে ব্যবহার করতে পারি যতক্ষণ না এটি সঠিক উত্তর তৈরি করে - একটি পরীক্ষার প্রশ্ন দেওয়া হয় q, আমরা প্রথম প্রাথমিক মডেল প্রজন্ম প্রাপ্ত m (প্রাক-প্রশিক্ষিত Flan-T5 ব্যবহার করে)। তারপরে আমরা পুনরাবৃত্তিমূলকভাবে ত্রুটির ধরন তৈরি করি ti এবং সম্ভাব্য সঠিক উত্তর ci পর্যন্ত ti = কোন ত্রুটি নেই (অভ্যাসগতভাবে, আমরা একটি হাইপারপ্যারামিটারে সর্বাধিক সংখ্যক পুনরাবৃত্তি সেট করি), এই ক্ষেত্রে চূড়ান্ত সঠিক উত্তর হবে CI-1 (থেকে প্রাপ্ত p(ti ; ci | q, ci-1)).

ফলাফল

উভয় ডেটাসেটের জন্য, আমরা ইন-কনটেক্সট লার্নিং বেসলাইনের সাথে সমস্ত প্রস্তাবিত লার্নিং অ্যালগরিদম তুলনা করি। সমস্ত মডেল স্ট্র্যাটেজিকিউএ এবং স্পোর্টস আন্ডারস্ট্যান্ডিং-এর ডেভ সেটে মূল্যায়ন করা হয়। নিম্নলিখিত টেবিল ফলাফল দেখায়.

পদ্ধতি	কৌশল QA	খেলাধুলার বোঝাপড়া
Flan-T5 4-শট চেইন-অফ-থট ইন-কনটেক্সট লার্নিং	67.39±2.6%	58.5%
মাল্টিটাস্ক লার্নিং	66.22±0.7%	54.3±2.1%
ওজনযুক্ত স্ব সামঞ্জস্য	61.13±1.5%	51.3±1.9%
পুনরাবৃত্তিমূলক পরিমার্জন	61.85±3.3%	57.0±2.5%

যেমন পর্যবেক্ষণ করা হয়েছে, কিছু পদ্ধতি ইন-কনটেক্সট লার্নিং বেসলাইনের (স্ট্র্যাটেজিকিউএ-এর জন্য মাল্টিটাস্ক, এবং স্পোর্টস বোঝার জন্য পুনরাবৃত্তিমূলক পরিমার্জন) তুলনীয় কাজ করে, যা মডেল আউটপুটগুলিতে মানুষের কাছ থেকে চলমান প্রতিক্রিয়া সংগ্রহ করার এবং ভাষার মডেলগুলিকে উন্নত করার জন্য ব্যবহার করার সম্ভাবনা প্রদর্শন করে। এটি RLHF-এর মতো সাম্প্রতিক কাজ থেকে আলাদা, যেখানে প্রতিক্রিয়া সীমাবদ্ধ এবং সাধারণত বাইনারি।

নিম্নোক্ত সারণীতে দেখানো হয়েছে, আমরা অনুসন্ধান করি যে কীভাবে যুক্তির ভুলের বিষয়ে মানুষের প্রতিক্রিয়ার সাথে অভিযোজিত মডেলগুলি ক্রমাঙ্কন বা আত্মবিশ্বাসীভাবে ভুল ব্যাখ্যা সম্পর্কে সচেতনতা উন্নত করতে সাহায্য করতে পারে। মডেলটিকে ভবিষ্যদ্বাণী করার জন্য অনুরোধ করে এটি মূল্যায়ন করা হয় যে এর প্রজন্মে কোনো ত্রুটি রয়েছে কিনা।

পদ্ধতি	ত্রুটি সংশোধন	কৌশল QA
Flan-T5 4-শট চেইন-অফ-থট ইন-কনটেক্সট লার্নিং	না	30.17%
মাল্টিটাস্ক ফাইনটিউনড মডেল	হাঁ	73.98%

আরও বিস্তারিতভাবে, আমরা ভাষা মডেলটিকে তার নিজস্ব তৈরি করা উত্তর এবং যুক্তির চেইন (যার জন্য আমরা প্রতিক্রিয়া সংগ্রহ করেছি) সহ প্রম্পট করি এবং তারপর প্রজন্মের ত্রুটির পূর্বাভাস দেওয়ার জন্য এটিকে আবার অনুরোধ করি। আমরা কাজের জন্য উপযুক্ত নির্দেশনা ব্যবহার করি ("উত্তরে ত্রুটি চিহ্নিত করুন")। মডেলটি সঠিকভাবে স্কোর করা হয় যদি এটি প্রজন্মের মধ্যে "কোন ত্রুটি" বা "সঠিক" ভবিষ্যদ্বাণী করে যদি টীকাকাররা উদাহরণটিকে কোনো ত্রুটি নেই বলে লেবেল করে, অথবা যদি এটি প্রজন্মের কোনো ত্রুটির প্রকারের পূর্বাভাস দেয় ("ভুল" বা "সহ" ভুল") যখন টীকাকাররা এটিকে একটি ত্রুটি হিসাবে লেবেল করে। মনে রাখবেন যে আমরা মডেলের ত্রুটির ধরনটি সঠিকভাবে সনাক্ত করার ক্ষমতা মূল্যায়ন করি না, বরং একটি ত্রুটি উপস্থিত থাকলে। স্ট্র্যাটেজিকিউএ ডেভ সেট থেকে 173টি অতিরিক্ত উদাহরণের একটি সেটের উপর মূল্যায়ন করা হয় যা সংগ্রহ করা হয়েছিল, যা ফাইন-টিউনিংয়ের সময় দেখা যায় না। এর মধ্যে চারটি উদাহরণ ভাষা মডেলকে প্রম্পট করার জন্য সংরক্ষিত (পূর্ববর্তী সারণীতে প্রথম সারি)।

নোট করুন যে আমরা 0-শট বেসলাইন ফলাফল দেখাই না কারণ মডেলটি দরকারী প্রতিক্রিয়া তৈরি করতে অক্ষম৷ আমরা লক্ষ্য করি যে যুক্তি শৃঙ্খলে ত্রুটি সংশোধনের জন্য মানুষের প্রতিক্রিয়া ব্যবহার করা মডেলের ভবিষ্যদ্বাণীকে উন্নত করতে পারে যে এটি ভুল করে কিনা, যা ভুল ব্যাখ্যার সচেতনতা বা ক্রমাঙ্কনকে উন্নত করতে পারে।

উপসংহার

এই পোস্টে, আমরা দেখিয়েছি কিভাবে মানুষের ফিডব্যাক ডেটাসেটগুলিকে সূক্ষ্ম-দানাযুক্ত ত্রুটি সংশোধন সহ কিউরেট করা যায়, যা এলএলএম-এর যুক্তির ক্ষমতা উন্নত করার একটি বিকল্প উপায়। পরীক্ষামূলক ফলাফলগুলি প্রমাণ করে যে যুক্তি ত্রুটির বিষয়ে মানুষের প্রতিক্রিয়া চ্যালেঞ্জিং মাল্টি-হপ প্রশ্নগুলিতে কর্মক্ষমতা এবং ক্রমাঙ্কন উন্নত করতে পারে।

আপনি যদি আপনার বৃহৎ ভাষার মডেলগুলি উন্নত করার জন্য মানুষের প্রতিক্রিয়া খুঁজছেন, তাহলে যান অ্যামাজন সেজমেকার ডেটা লেবেলিং এবং গ্রাউন্ড ট্রুথ প্লাস কনসোল।

লেখক সম্পর্কে

এরান লি হিউম্যান-ইন-দ্য-লুপ পরিষেবা, AWS AI, Amazon-এর প্রয়োগকৃত বিজ্ঞান ব্যবস্থাপক৷ তার গবেষণার আগ্রহ হল 3D গভীর শিক্ষা, এবং দৃষ্টি এবং ভাষা উপস্থাপনা শেখা। পূর্বে তিনি আলেক্সা এআই-এর একজন সিনিয়র বিজ্ঞানী, স্কেল এআই-এর মেশিন লার্নিং প্রধান এবং Pony.ai-এর প্রধান বিজ্ঞানী ছিলেন। এর আগে, তিনি Uber ATG-এ উপলব্ধি টিম এবং Uber-এর মেশিন লার্নিং প্ল্যাটফর্ম টিমের সাথে ছিলেন স্বায়ত্তশাসিত ড্রাইভিং, মেশিন লার্নিং সিস্টেম এবং AI-এর কৌশলগত উদ্যোগের জন্য মেশিন লার্নিং নিয়ে কাজ করে। তিনি বেল ল্যাবসে তার কর্মজীবন শুরু করেন এবং কলম্বিয়া বিশ্ববিদ্যালয়ের সহযোগী অধ্যাপক ছিলেন। তিনি ICML'17 এবং ICCV'19-এ টিউটোরিয়াল সহ-শিক্ষা দিয়েছেন এবং NeurIPS, ICML, CVPR, ICCV-এ স্বায়ত্তশাসিত ড্রাইভিং, 3D দৃষ্টি এবং রোবোটিক্স, মেশিন লার্নিং সিস্টেম এবং প্রতিপক্ষের মেশিন লার্নিং এর জন্য মেশিন লার্নিং এর উপর বেশ কয়েকটি কর্মশালার সহ-সংগঠিত করেছেন। তিনি কর্নেল ইউনিভার্সিটিতে কম্পিউটার সায়েন্সে পিএইচডি করেছেন। তিনি একজন ACM ফেলো এবং IEEE ফেলো।

নীতীশ জোশী AWS AI, Amazon-এ একজন ফলিত বিজ্ঞান ইন্টার্ন ছিলেন। তিনি নিউ ইয়র্ক ইউনিভার্সিটির কোরান্ট ইনস্টিটিউট অফ ম্যাথমেটিকাল সায়েন্সেস-এর কম্পিউটার বিজ্ঞানের একজন পিএইচডি ছাত্র, অধ্যাপক হি হি এর পরামর্শে। তিনি মেশিন লার্নিং এবং ন্যাচারাল ল্যাঙ্গুয়েজ প্রসেসিং নিয়ে কাজ করেন এবং তিনি মেশিন লার্নিং ফর ল্যাঙ্গুয়েজ (ML2) গবেষণা গ্রুপের সাথে যুক্ত ছিলেন। তিনি বিস্তৃতভাবে শক্তিশালী ভাষা বোঝার বিষয়ে আগ্রহী ছিলেন: উভয় মডেল তৈরিতে যা বন্টন পরিবর্তনের জন্য শক্তিশালী (যেমন হিউম্যান-ইন-দ্য-লুপ ডেটা অগমেন্টেশনের মাধ্যমে) এবং মডেলগুলির দৃঢ়তা মূল্যায়ন/পরিমাপ করার আরও ভাল উপায় ডিজাইন করার ক্ষেত্রে। তিনি প্রাসঙ্গিক শিক্ষার সাম্প্রতিক উন্নয়ন এবং এটি কীভাবে কাজ করে তা বোঝার বিষয়েও কৌতূহলী ছিলেন।

কুমার চেল্লাপিল্লা তিনি আমাজন ওয়েব সার্ভিসেস-এর একজন জেনারেল ম্যানেজার এবং ডিরেক্টর এবং ML/AI পরিষেবা যেমন হিউম্যান-ইন-লুপ সিস্টেম, AI DevOps, Geospatial ML, এবং ADAS/স্বয়ংক্রিয় যানবাহন উন্নয়নে নেতৃত্ব দেন। AWS-এর আগে, কুমার Uber ATG এবং Lyft লেভেল 5-এ ইঞ্জিনিয়ারিং ডিরেক্টর ছিলেন এবং সেল্ফ-ড্রাইভিং ক্ষমতা যেমন উপলব্ধি এবং ম্যাপিং বিকাশের জন্য মেশিন লার্নিং ব্যবহার করে দলগুলির নেতৃত্ব দিয়েছিলেন। তিনি লিঙ্কডইন, টুইটার, বিং এবং মাইক্রোসফ্ট রিসার্চে অনুসন্ধান, সুপারিশ, এবং বিজ্ঞাপন পণ্যগুলি উন্নত করতে মেশিন লার্নিং কৌশল প্রয়োগ করার বিষয়েও কাজ করেছেন।

এসইও চালিত বিষয়বস্তু এবং পিআর বিতরণ। আজই পরিবর্ধিত পান।
প্লেটোএআইস্ট্রিম। Web3 ডেটা ইন্টেলিজেন্স। জ্ঞান প্রসারিত. এখানে প্রবেশ করুন.
অ্যাড্রিয়েন অ্যাশলির সাথে ভবিষ্যত মিন্টিং। এখানে প্রবেশ করুন.
উত্স: https://aws.amazon.com/blogs/machine-learning/improve-multi-hop-reasoning-in-llms-by-learning-from-rich-human-feedback/

সময় স্ট্যাম্প: এপ্রিল 27, 2023

থেকে আরো এডাব্লুএস মেশিন লার্নিং

BMC AMI zAdviser Enterprise এবং Amazon Bedrock এর সাথে DevOps পরিপক্কতা অর্জন করুন | আমাজন ওয়েব সার্ভিসেস

এডাব্লুএস মেশিন লার্নিং

উত্স নোড: 1773864

সময় স্ট্যাম্প: ডিসেম্বর 16, 2022

AWS নাইট্রো এনক্লেভস ব্যবহার করে গোপনীয় ডেটার উপর বড় ভাষা মডেল অনুমান | আমাজন ওয়েব সার্ভিসেস

উত্স ক্লাস্টার:

এডাব্লুএস মেশিন লার্নিং

উত্স নোড: 1955852

সময় স্ট্যাম্প: মার্চ 12, 2024

সমৃদ্ধ মানুষের প্রতিক্রিয়া থেকে শিখে এলএলএম-এ মাল্টি-হপ যুক্তির উন্নতি করুন

প্লেটো দ্বারা প্রকাশিত

সমাধান ওভারভিউ

তথ্য সংগ্রহ

অ্যালগরিদম শেখা

ফলাফল

উপসংহার

লেখক সম্পর্কে

থেকে আরো এডাব্লুএস মেশিন লার্নিং

BMC AMI zAdviser Enterprise এবং Amazon Bedrock এর সাথে DevOps পরিপক্কতা অর্জন করুন | আমাজন ওয়েব সার্ভিসেস

2022H2 Amazon Textract লঞ্চের সারাংশ

Amazon SageMaker-এ সিন্থেটিক ডেটা ব্যবহার করে জালিয়াতি লেনদেন বৃদ্ধি করুন

আমাদের সম্পর্কে

উল্লম্ব অনুসন্ধান এবং আই

প্ল্যাটফর্ম

যোগাযোগ রেখো

হিসাব