মানুষের প্রতিক্রিয়া সহ বইগুলির সংক্ষিপ্তসার

প্লেটো দ্বারা প্রকাশিত

অনুসরণকারী: 0

মানবিক প্রতিক্রিয়া সহ বইগুলির সংক্ষিপ্তসার

To নিরাপদে ভবিষ্যতে শক্তিশালী, সাধারণ-উদ্দেশ্য কৃত্রিম বুদ্ধিমত্তা স্থাপন, আমাদের নিশ্চিত করতে হবে যে মেশিন লার্নিং মডেলগুলি মানুষের উদ্দেশ্য অনুসারে কাজ করে। এই চ্যালেঞ্জ হিসাবে পরিচিত হয়ে উঠেছে প্রান্তিককরণ সমস্যা.

প্রান্তিককরণ সমস্যার একটি মাপযোগ্য সমাধানের জন্য এমন কাজগুলিতে কাজ করা দরকার যেখানে মডেল আউটপুটগুলি মানুষের জন্য মূল্যায়ন করা কঠিন বা সময়সাপেক্ষ। স্কেলযোগ্য প্রান্তিককরণ কৌশলগুলি পরীক্ষা করার জন্য, আমরা নিম্নলিখিত নমুনাগুলিতে দেখানো হিসাবে সমগ্র বইগুলির সংক্ষিপ্তসারের জন্য একটি মডেলকে প্রশিক্ষণ দিয়েছি।^[1] আমাদের মডেলটি প্রথমে একটি বইয়ের ছোট অংশের সংক্ষিপ্তসারের মাধ্যমে কাজ করে, তারপর সেই সারাংশগুলিকে একটি উচ্চ-স্তরের সারাংশে সংক্ষিপ্ত করে এবং আরও অনেক কিছু।

আরো নমুনা অন্বেষণ

আমাদের সেরা মডেলটি GPT-3 থেকে সূক্ষ্ম-টিউন করা হয়েছে এবং সমগ্র বইগুলির সংবেদনশীল সারাংশ তৈরি করে, কখনও কখনও এমনকি মানুষের-লিখিত সারাংশের গড় মানের সাথে মেলে: এটি মানুষের কাছ থেকে 6/7 রেটিং (গড় মানব-লিখিত সারাংশের অনুরূপ) অর্জন করে। যারা বইটি 5% সময় এবং 5/7 রেটিং 15% সময় পড়েছেন। আমাদের মডেল এছাড়াও অত্যাধুনিক ফলাফল অর্জন বুকসাম ডেটাসেট বইয়ের দৈর্ঘ্যের সারাংশের জন্য। একটি জিরো-শট প্রশ্ন-উত্তর মডেল আমাদের মডেলের সারাংশ ব্যবহার করতে পারে প্রতিযোগিতামূলক ফলাফল পেতে বর্ণনামূলক QA ডেটাসেট বইয়ের দৈর্ঘ্যের প্রশ্নের উত্তর দেওয়ার জন্য।^[2]

আমাদের পদ্ধতি: মানব প্রতিক্রিয়া এবং পুনরাবৃত্তিমূলক টাস্ক পচন থেকে শক্তিবৃদ্ধি শেখার সমন্বয়

পাঠ্যের একটি অংশ সংক্ষিপ্ত করার কাজটি বিবেচনা করুন। বড় পূর্বপ্রশিক্ষিত মডেলগুলি সংক্ষিপ্তকরণে খুব ভাল নয়. অতীতে আমরা একটি মডেলের সাথে প্রশিক্ষণ পেয়েছি মানুষের প্রতিক্রিয়া থেকে শক্তিবৃদ্ধি শিক্ষা সংক্ষিপ্ত পোস্ট এবং নিবন্ধে মানুষের পছন্দের সাথে মডেলের সারাংশ সারিবদ্ধ করতে সাহায্য করেছে। কিন্তু সম্পূর্ণ বইয়ের সারাংশ বিচার করার জন্য সরাসরি অনেক প্রচেষ্টা লাগে যেহেতু একজন মানুষের পুরো বই পড়তে হবে, যার জন্য অনেক ঘন্টা সময় লাগে।

এই সমস্যাটি মোকাবেলা করার জন্য, আমরা অতিরিক্ত ব্যবহার করি পুনরাবৃত্তিমূলক টাস্ক পচন: আমরা প্রক্রিয়াগতভাবে একটি কঠিন কাজকে সহজে বিভক্ত করি। এই ক্ষেত্রে আমরা পাঠ্যের একটি দীর্ঘ অংশকে সংক্ষিপ্ত করে কয়েকটি ছোট টুকরোকে সংক্ষিপ্ত করি। এন্ড-টু-এন্ড প্রশিক্ষণ পদ্ধতির তুলনায়, পুনরাবৃত্তিমূলক টাস্ক পচনের নিম্নলিখিত সুবিধা রয়েছে:

পচনশীলতা মানুষকে উত্স পাঠ্য পড়ার পরিবর্তে বইয়ের ছোট অংশের সারাংশ ব্যবহার করে মডেলের সারাংশগুলিকে আরও দ্রুত মূল্যায়ন করতে দেয়।
সারাংশ লেখার প্রক্রিয়াটি ট্রেস করা সহজ। উদাহরণস্বরূপ, আপনি মূল পাঠ্যের সারাংশ থেকে নির্দিষ্ট ঘটনাগুলি কোথায় ঘটছে তা খুঁজে বের করতে পারেন। নিজের জন্য দেখুন আমাদের সারাংশ এক্সপ্লোরার!
আমাদের পদ্ধতিটি আমরা যে ট্রান্সফরমার মডেলগুলি ব্যবহার করি তার প্রসঙ্গ দৈর্ঘ্যের দ্বারা সীমাহীন সীমাহীন দৈর্ঘ্যের বইগুলিকে সংক্ষিপ্ত করতে ব্যবহার করা যেতে পারে।

কেন আমরা এই কাজ করছি

Tতার কাজ আমাদের অংশ নিরন্তর গবেষণা উন্নত এআই সিস্টেমগুলিকে সারিবদ্ধ করার জন্য, যা মূল আমাদের লক্ষ্য. যেহেতু আমরা আমাদের মডেলগুলিকে ক্রমবর্ধমান জটিল কাজগুলি করার জন্য প্রশিক্ষণ দিই, মডেলগুলির আউটপুটগুলির অবগত মূল্যায়ন করা মানুষের জন্য ক্রমশ কঠিন হয়ে উঠবে৷ এটি মডেল আউটপুটগুলিতে সূক্ষ্ম সমস্যাগুলি সনাক্ত করা কঠিন করে তোলে যা এই মডেলগুলি স্থাপন করা হলে নেতিবাচক পরিণতি হতে পারে। তাই আমরা চাই আমাদের মডেলের মূল্যায়ন করার ক্ষমতা যাতে বাড়তে পারে।

এই সমস্যা আমাদের বর্তমান পন্থা হল অন্যান্য মডেলের সহায়তা ব্যবহার করে মেশিন লার্নিং মডেল আউটপুট মূল্যায়ন করার জন্য মানুষকে ক্ষমতায়ন করে. এই ক্ষেত্রে, বইয়ের সংক্ষিপ্তসারগুলি মূল্যায়ন করার জন্য আমরা আমাদের মডেল দ্বারা লিখিত পৃথক অধ্যায়ের সারাংশ দিয়ে মানুষকে ক্ষমতায়ন করি, যা উত্স পাঠ্য পড়ার তুলনায় এই সারাংশগুলি মূল্যায়ন করার সময় তাদের সময় বাঁচায়। বইয়ের সারসংক্ষেপে আমাদের অগ্রগতি হল স্কেলিং অ্যালাইনমেন্ট কৌশলের প্রথম বড় মাপের অভিজ্ঞতামূলক কাজ।

সামনের দিকে, আমরা কৃত্রিম সাধারণ বুদ্ধিমত্তা সারিবদ্ধ করার কৌশলগুলি খুঁজে বের করার লক্ষ্য নিয়ে মডেল আচরণের মূল্যায়নে মানুষকে সহায়তা করার আরও ভাল উপায় নিয়ে গবেষণা করছি।

আমরা সবসময় আমাদের সাথে যোগদানের জন্য আরও প্রতিভাবান ব্যক্তিদের খুঁজছি; তাই এই কাজ যদি আপনি আগ্রহী, দয়া করে আমাদের দলে যোগদানের জন্য আবেদন করুন!

সময় স্ট্যাম্প: সেপ্টেম্বর 23, 2021

সময় স্ট্যাম্প: জানুয়ারী 31, 2023

মানবিক প্রতিক্রিয়া সহ বইগুলির সংক্ষিপ্তসার

প্লেটো দ্বারা প্রকাশিত

আমাদের পদ্ধতি: মানব প্রতিক্রিয়া এবং পুনরাবৃত্তিমূলক টাস্ক পচন থেকে শক্তিবৃদ্ধি শেখার সমন্বয়

কেন আমরা এই কাজ করছি

থেকে আরো OpenAI

নির্দেশাবলী অনুসরণ করার জন্য ভাষার মডেলগুলি সারিবদ্ধ করা৷

DevDay এ ঘোষণা করা নতুন মডেল এবং ডেভেলপার পণ্য

এআই অনুদান কর্মসূচিতে গণতান্ত্রিক ইনপুট: শেখা পাঠ এবং বাস্তবায়ন পরিকল্পনা

ভুল তথ্য প্রচারের জন্য ভাষার মডেলের সম্ভাব্য অপব্যবহারের পূর্বাভাস এবং কীভাবে ঝুঁকি কমানো যায়

DALL·E: আউটপেইন্টিং প্রবর্তন

ভিডিও প্রি-ট্রেইনিংয়ের মাধ্যমে মাইনক্রাফ্ট খেলতে শেখা

সোরা: প্রথম ছাপ

AI-তে গণতান্ত্রিক ইনপুট

আমাদের সম্পর্কে

উল্লম্ব অনুসন্ধান এবং আই

প্ল্যাটফর্ম

যোগাযোগ রেখো

হিসাব