ভাষা মডেল ব্যবহার করে নথির স্বয়ংক্রিয় সংক্ষিপ্তসারের কৌশল | আমাজন ওয়েব সার্ভিসেস

ভাষা মডেল ব্যবহার করে নথির স্বয়ংক্রিয় সংক্ষিপ্তসারের কৌশল | আমাজন ওয়েব সার্ভিসেস

সংক্ষিপ্তকরণ হল বিশাল তথ্যকে একটি কম্প্যাক্ট এবং অর্থপূর্ণ আকারে ঘনীভূত করার কৌশল, এবং আমাদের তথ্য-সমৃদ্ধ যুগে দক্ষ যোগাযোগের ভিত্তি হিসেবে দাঁড়িয়ে আছে। ডেটাতে পূর্ণ বিশ্বে, দীর্ঘ টেক্সটকে সংক্ষিপ্ত সারসংক্ষেপে সংক্ষিপ্ত করা সময় বাঁচায় এবং জ্ঞাত সিদ্ধান্ত নিতে সাহায্য করে। সংক্ষিপ্তকরণ তথ্য সংক্ষিপ্তভাবে এবং সুসঙ্গতভাবে উপস্থাপন করে বিষয়বস্তুকে ঘনীভূত করে, সময় বাঁচায় এবং স্বচ্ছতা উন্নত করে। সারসংক্ষেপ সিদ্ধান্ত গ্রহণের জন্য এবং বৃহৎ পরিমাণের বিষয়বস্তু পরিচালনার জন্য অমূল্য।

সংক্ষিপ্তকরণ পদ্ধতিতে বিভিন্ন উদ্দেশ্যে পরিবেশনকারী অ্যাপ্লিকেশনের বিস্তৃত পরিসর রয়েছে, যেমন:

  • সংবাদ সমষ্টি - সংবাদ সমষ্টি মিডিয়া শিল্পের জন্য একটি নিউজলেটারে সংবাদ নিবন্ধগুলির সংক্ষিপ্তকরণ জড়িত
  • আইনি নথির সারসংক্ষেপ - আইনি নথির সারসংক্ষেপ আইনি পেশাদারদের দীর্ঘ নথি যেমন শর্তাবলী, এবং চুক্তি থেকে মূল আইনি তথ্য বের করতে সাহায্য করে
  • প্রতিষ্ঠানিক গবেষণা - সংক্ষিপ্তকরণ একাডেমিক কাগজপত্র থেকে গুরুত্বপূর্ণ তথ্য টীকা, সূচী, ঘনীভূত এবং সরল করে
  • ব্লগ এবং ওয়েবসাইটের জন্য কন্টেন্ট কিউরেশন – আপনি পাঠকদের জন্য আকর্ষক এবং মূল বিষয়বস্তুর সারাংশ তৈরি করতে পারেন, বিশেষ করে বিপণনে
  • আর্থিক প্রতিবেদন এবং বাজার বিশ্লেষণ - আপনি নিষ্কাশন করতে পারেন আর্থিক অন্তর্দৃষ্টি প্রতিবেদন থেকে এবং অর্থ শিল্পে বিনিয়োগকারীদের উপস্থাপনার জন্য নির্বাহী সারাংশ তৈরি করুন

ন্যাচারাল ল্যাঙ্গুয়েজ প্রসেসিং (এনএলপি), ভাষার মডেল এবং জেনারেটিভ এআই-এর অগ্রগতির সাথে, বিভিন্ন দৈর্ঘ্যের পাঠ্যের সংক্ষিপ্ত বিবরণ আরও অ্যাক্সেসযোগ্য হয়ে উঠেছে। টুলের মত ল্যাংচেইন, দ্বারা চালিত একটি বড় ভাষা মডেল (LLM) সঙ্গে মিলিত আমাজন বেডরক or আমাজন সেজমেকার জাম্পস্টার্ট, বাস্তবায়ন প্রক্রিয়া সহজতর.

এই পোস্টটি নিম্নলিখিত সংক্ষিপ্তকরণের কৌশলগুলি নিয়ে আলোচনা করে:

  • BERT এক্সট্র্যাক্টিভ সামারাইজার ব্যবহার করে নিষ্কাশনমূলক সংক্ষিপ্তকরণ
  • বিশেষ সংক্ষিপ্তকরণ মডেল এবং এলএলএম ব্যবহার করে বিমূর্ত সারাংশ
  • দুটি বহু-স্তরের সংক্ষিপ্তকরণ কৌশল:
    • এক্সট্র্যাক্টিভ-অ্যাবস্ট্রাক্টিভ সারসংক্ষেপ ব্যবহার করে এক্সট্র্যাক্টিভ-অ্যাবস্ট্রাকটিভ কন্টেন্ট সারসংক্ষেপ কৌশল (EACSS)
    • ম্যাপ রিডুস এবং ম্যাপ রির্যাঙ্ক ব্যবহার করে বিমূর্ত-বিমূর্ত সারাংশ

টেক্সট সামারাইজেশন টেকনিক

সম্পূর্ণ কোড নমুনা পাওয়া যায় গিটহুব রেপো। আপনি পারেন এই সমাধান চালু করুন in অ্যামাজন সেজমেকার স্টুডিও.

AWS কনসোল খুলতে এখানে ক্লিক করুন এবং অনুসরণ করুন।

সারসংক্ষেপের প্রকারভেদ

টেক্সট সংক্ষিপ্ত করার জন্য বেশ কয়েকটি কৌশল রয়েছে, যেগুলিকে বিস্তৃতভাবে দুটি প্রধান পদ্ধতিতে শ্রেণীবদ্ধ করা হয়েছে: নিষ্কাশনমূলক এবং বিমূর্ত সংক্ষিপ্তকরণ তদ্ব্যতীত, বহু-স্তরের সংক্ষিপ্তকরণ পদ্ধতিগুলি নিষ্কাশন এবং বিমূর্ত উভয় কৌশলকে একত্রিত করে একাধিক ধাপ অন্তর্ভুক্ত করে। LLM-এর সীমার চেয়ে দীর্ঘ টোকেন সহ পাঠ্যের সাথে ডিল করার সময় এই বহু-স্তরের পন্থাগুলি সুবিধাজনক, জটিল আখ্যানগুলির বোঝার সক্ষম করে৷

নিষ্কাশনমূলক সংক্ষিপ্তকরণ

নিষ্কাশনমূলক সংক্ষিপ্তকরণ হল NLP এবং পাঠ্য বিশ্লেষণে ব্যবহৃত একটি কৌশল যা মূল বাক্যগুলি বের করে একটি সারাংশ তৈরি করতে। বিমূর্ত সংক্ষিপ্তসারের মতো নতুন বাক্য বা বিষয়বস্তু তৈরি করার পরিবর্তে, নিষ্কাশনমূলক সংক্ষিপ্তকরণ একটি ঘনীভূত সংস্করণ তৈরি করতে মূল পাঠ্যের সবচেয়ে প্রাসঙ্গিক এবং তথ্যপূর্ণ অংশগুলি সনাক্তকরণ এবং বের করার উপর নির্ভর করে।

উৎস টেক্সট থেকে সরাসরি গুরুত্বপূর্ণ বাক্য টেনে মূল বিষয়বস্তু সংরক্ষণ এবং উচ্চ পঠনযোগ্যতা নিশ্চিত করার ক্ষেত্রে নিষ্কাশনমূলক সংক্ষিপ্তকরণের সীমাবদ্ধতা রয়েছে। এটিতে সৃজনশীলতার অভাব রয়েছে, অভিনব বাক্য তৈরি করতে অক্ষম, এবং গুরুত্বপূর্ণ তথ্যের সম্ভাব্য অনুপস্থিত সূক্ষ্ম বিবরণ উপেক্ষা করতে পারে। অধিকন্তু, এটি দীর্ঘ সারাংশ তৈরি করতে পারে, কখনও কখনও অত্যধিক এবং অবাঞ্ছিত তথ্য সহ পাঠকদের অভিভূত করে। অনেক নিষ্কাশন সারসংক্ষেপ কৌশল আছে, যেমন TextRank এবং লেক্সর্যাঙ্ক. এই পোস্টে, আমরা BERT এক্সট্র্যাক্টিভ সামারিজারের উপর ফোকাস করি।

BERT এক্সট্র্যাক্টিভ সামারিজার

সার্জারির BERT এক্সট্র্যাক্টিভ সামারিজার হল এক ধরনের এক্সট্রাক্টিভ সারমাইজেশন মডেল যা একটি টেক্সট থেকে সবচেয়ে গুরুত্বপূর্ণ বাক্য বের করতে BERT ভাষার মডেল ব্যবহার করে। বার্ট এটি একটি প্রাক-প্রশিক্ষিত ভাষার মডেল যা পাঠ্যের সংক্ষিপ্তকরণ সহ বিভিন্ন কাজের জন্য সূক্ষ্ম-টিউন করা যেতে পারে। এটি প্রথমে BERT ব্যবহার করে পাঠ্যের মধ্যে বাক্যগুলি এম্বেড করে কাজ করে। এটি প্রতিটি বাক্যের জন্য একটি ভেক্টর উপস্থাপনা তৈরি করে যা এর অর্থ এবং প্রসঙ্গ ক্যাপচার করে। মডেলটি তারপর ক্লাস্টারে বাক্যগুলিকে গ্রুপ করার জন্য একটি ক্লাস্টারিং অ্যালগরিদম ব্যবহার করে। প্রতিটি ক্লাস্টারের কেন্দ্রের সবচেয়ে কাছের বাক্যগুলিকে সারাংশ তৈরি করতে নির্বাচন করা হয়।

LLM-এর সাথে তুলনা করে, BERT এক্সট্র্যাক্টিভ সামারিজারের সুবিধা হল মডেলটিকে প্রশিক্ষণ দেওয়া এবং স্থাপন করা তুলনামূলকভাবে সহজ এবং এটি আরও ব্যাখ্যাযোগ্য। অসুবিধা হল সংক্ষিপ্তকরণ সৃজনশীল নয় এবং বাক্য তৈরি করে না। এটি শুধুমাত্র মূল পাঠ্য থেকে বাক্য নির্বাচন করে। এটি জটিল বা সংক্ষিপ্ত পাঠ্যগুলিকে সংক্ষিপ্ত করার ক্ষমতাকে সীমিত করে।

বিমূর্ত সারাংশ

বিমূর্ত সারসংক্ষেপ হল একটি কৌশল যা NLP এবং পাঠ্য বিশ্লেষণে একটি সারাংশ তৈরি করতে ব্যবহৃত হয় যা উৎস পাঠ্য থেকে বাক্য বা বাক্যাংশের নিষ্কাশনের বাইরে যায়। বিদ্যমান বিষয়বস্তু নির্বাচন এবং পুনর্বিন্যাস করার পরিবর্তে, বিমূর্ত সংক্ষিপ্তকরণ নতুন বাক্য বা বাক্যাংশ তৈরি করে যা মূল পাঠ্যের মূল অর্থ এবং মূল ধারণাগুলিকে আরও ঘনীভূত এবং সুসঙ্গত আকারে ক্যাপচার করে। এই পদ্ধতির জন্য মডেলটিকে পাঠ্যের বিষয়বস্তু বুঝতে এবং এটিকে এমনভাবে প্রকাশ করতে হবে যা উৎস উপাদানে উপস্থিত থাকে না।

বিশেষ সংক্ষিপ্তকরণ মডেল

এই প্রাক-প্রশিক্ষিত প্রাকৃতিক ভাষা মডেল, যেমন বার্ট এবং পক্ষিরাজ ঘোড়া, বিশেষভাবে টেক্সট সংক্ষিপ্তকরণ কাজের জন্য উপযোগী করা হয়. তারা এনকোডার-ডিকোডার আর্কিটেকচার নিযুক্ত করে এবং তাদের সমকক্ষের তুলনায় প্যারামিটারে ছোট। এই হ্রাস করা আকারটি সূক্ষ্ম-টিউনিং এবং ছোট উদাহরণগুলিতে স্থাপনের সহজতার জন্য অনুমতি দেয়। যাইহোক, এটা মনে রাখা গুরুত্বপূর্ণ যে এই সংক্ষিপ্তকরণ মডেলগুলি ছোট ইনপুট এবং আউটপুট টোকেন আকারের সাথেও আসে। তাদের আরও সাধারণ-উদ্দেশ্যের প্রতিপক্ষের বিপরীতে, এই মডেলগুলি একচেটিয়াভাবে সংক্ষিপ্তকরণ কাজের জন্য ডিজাইন করা হয়েছে। ফলস্বরূপ, এই মডেলগুলির জন্য প্রয়োজনীয় ইনপুট শুধুমাত্র পাঠ্য যা সংক্ষিপ্ত করা প্রয়োজন।

বড় ভাষার মডেল

A বড় ভাষা মডেল যেকোন মডেলকে বোঝায় যেটি ব্যাপক এবং বৈচিত্র্যময় ডেটাসেটের উপর প্রশিক্ষণ গ্রহণ করে, সাধারণত একটি বৃহৎ স্কেলে স্ব-তত্ত্বাবধানে শিক্ষার মাধ্যমে, এবং সুনির্দিষ্ট ডাউনস্ট্রিম কাজের একটি বিস্তৃত অ্যারের সাথে মানানসই করতে সক্ষম। এই মডেলগুলি প্যারামিটার আকারে বড় এবং কাজগুলিতে আরও ভাল সঞ্চালন করে। উল্লেখযোগ্যভাবে, তারা যথেষ্ট বড় ইনপুট টোকেন মাপ বৈশিষ্ট্য, কিছু যাচ্ছে 100,000 পর্যন্ত, যেমন নৃতাত্ত্বিক এর ক্লদ. এই মডেলগুলির একটি ব্যবহার করার জন্য, AWS সম্পূর্ণরূপে পরিচালিত পরিষেবা Amazon Bedrock অফার করে৷ আপনার যদি মডেল ডেভেলপমেন্ট লাইফসাইকেলের আরও নিয়ন্ত্রণের প্রয়োজন হয়, আপনি সেজমেকারের মাধ্যমে এলএলএম স্থাপন করতে পারেন।

তাদের বহুমুখী প্রকৃতির পরিপ্রেক্ষিতে, এই মডেলগুলির জন্য ইনপুট পাঠ্যের মাধ্যমে প্রদত্ত নির্দিষ্ট কাজের নির্দেশাবলী প্রয়োজন, একটি অনুশীলন হিসাবে উল্লেখ করা হয় প্রম্পট ইঞ্জিনিয়ারিং. এই সৃজনশীল প্রক্রিয়াটি মডেলের ধরন এবং ইনপুট পাঠ্যের উপর ভিত্তি করে বিভিন্ন ফলাফল দেয়। মডেলের কার্যকারিতা এবং প্রম্পটের গুণমান উভয়ের কার্যকারিতা মডেলের আউটপুটগুলির চূড়ান্ত গুণমানকে উল্লেখযোগ্যভাবে প্রভাবিত করে। ইঞ্জিনিয়ারিং যখন সারসংক্ষেপের জন্য অনুরোধ করে তখন নিচে কিছু টিপস দেওয়া হল:

  • সংক্ষিপ্ত করার জন্য পাঠ্য অন্তর্ভুক্ত করুন - সংক্ষিপ্ত করা প্রয়োজন যে পাঠ্য ইনপুট. এটি সারাংশের উৎস উপাদান হিসেবে কাজ করে।
  • কাজটি সংজ্ঞায়িত করুন - স্পষ্টভাবে বলুন যে উদ্দেশ্যটি পাঠ্য সংক্ষিপ্তকরণ। উদাহরণস্বরূপ, "নিম্নলিখিত পাঠ্যটি সংক্ষিপ্ত করুন: [ইনপুট পাঠ্য]।"
  • প্রসঙ্গ প্রদান করুন - প্রদত্ত পাঠ্যের জন্য একটি সংক্ষিপ্ত ভূমিকা বা প্রসঙ্গ অফার করুন যা সংক্ষিপ্ত করা দরকার। এটি মডেলটিকে বিষয়বস্তু এবং প্রসঙ্গ বুঝতে সাহায্য করে। উদাহরণস্বরূপ, "আপনাকে কৃত্রিম বুদ্ধিমত্তা এবং স্বাস্থ্যসেবায় এর ভূমিকা সম্পর্কে নিম্নলিখিত নিবন্ধটি দেওয়া হয়েছে: [ইনপুট পাঠ্য]।"
  • সারাংশের জন্য অনুরোধ করুন - প্রদত্ত পাঠ্যের একটি সারাংশ তৈরি করতে মডেলটিকে অনুরোধ করুন৷ সারাংশের পছন্দসই দৈর্ঘ্য বা বিন্যাস সম্পর্কে পরিষ্কার হন। উদাহরণস্বরূপ, "কৃত্রিম বুদ্ধিমত্তার উপর প্রদত্ত নিবন্ধের একটি সংক্ষিপ্ত সারাংশ তৈরি করুন এবং স্বাস্থ্যসেবায় এর ভূমিকা: [ইনপুট পাঠ্য]।"
  • সীমাবদ্ধতা বা দৈর্ঘ্য নির্দেশিকা সেট করুন – ঐচ্ছিকভাবে, একটি পছন্দসই শব্দ সংখ্যা, বাক্য গণনা, বা অক্ষর সীমা নির্দিষ্ট করে সারাংশের দৈর্ঘ্য নির্দেশ করুন। উদাহরণস্বরূপ, "দয়া করে একটি সারাংশ তৈরি করুন যা 50 শব্দের বেশি নয়: [ইনপুট পাঠ্য]।"

কার্যকরী প্রম্পট ইঞ্জিনিয়ারিং নিশ্চিত করার জন্য গুরুত্বপূর্ণ যে তৈরি করা সারাংশ সঠিক, প্রাসঙ্গিক এবং অভিপ্রেত সংক্ষিপ্তকরণ টাস্কের সাথে সারিবদ্ধ। পরীক্ষা এবং পুনরাবৃত্তির সাথে সর্বোত্তম সংক্ষিপ্ত ফলাফলের জন্য প্রম্পটটিকে পরিমার্জন করুন। আপনি প্রম্পটগুলির কার্যকারিতা প্রতিষ্ঠা করার পরে, আপনি ব্যবহার করে তাদের পুনরায় ব্যবহার করতে পারেন প্রম্পট টেমপ্লেট.

বহু-স্তরের সারসংক্ষেপ

সংক্ষিপ্ত পাঠ্যের জন্য নিষ্কাশনমূলক এবং বিমূর্ত সারাংশ উপযোগী। যাইহোক, যখন ইনপুট টেক্সট মডেলের সর্বোচ্চ টোকেন সীমা অতিক্রম করে, মাল্টি-লেভেল সারসংক্ষেপ প্রয়োজনীয় হয়ে যায়। বহু-স্তরের সংক্ষিপ্তকরণে বিভিন্ন সংক্ষিপ্তকরণ কৌশলের সমন্বয় জড়িত থাকে, যেমন নিষ্কাশনমূলক এবং বিমূর্ত পদ্ধতি, সারসংক্ষেপ প্রক্রিয়ার একাধিক স্তর প্রয়োগ করে কার্যকরভাবে দীর্ঘ পাঠ্যকে ঘনীভূত করতে। এই বিভাগে, আমরা দুটি বহু-স্তরের সংক্ষিপ্তকরণ কৌশল নিয়ে আলোচনা করি: নিষ্কাশন-বিমূর্ত সংক্ষিপ্তকরণ এবং বিমূর্ত-বিমূর্ত সংক্ষিপ্তকরণ।

নিষ্কাশন-বিমূর্ত সংক্ষিপ্তকরণ

এক্সট্রাক্টিভ-অ্যাবস্ট্রাক্টিভ সারমাইজেশন প্রথমে টেক্সটের একটি এক্সট্রাক্টিভ সারাংশ তৈরি করে কাজ করে। তারপর এটি একটি বিমূর্ত সংক্ষিপ্তকরণ সিস্টেম ব্যবহার করে এক্সট্রাক্টিভ সারাংশকে পরিমার্জন করে, এটিকে আরও সংক্ষিপ্ত এবং তথ্যপূর্ণ করে তোলে। এটি শুধুমাত্র নিষ্কাশন পদ্ধতির তুলনায় আরও তথ্যপূর্ণ সারাংশ প্রদান করে নির্ভুলতা বাড়ায়।

নিষ্কাশন-বিমূর্ত বিষয়বস্তু সংক্ষিপ্তকরণ কৌশল

EACSS কৌশল দুটি শক্তিশালী কৌশলের শক্তিকে একত্রিত করে: নিষ্কাশন পর্যায়ের জন্য BERT নিষ্কাশনমূলক সংক্ষিপ্তসার এবং বিমূর্ত পর্যায়ের জন্য LLM, যেমনটি নিম্নলিখিত চিত্রে চিত্রিত হয়েছে।

এক্সট্রাক্টিভ অ্যাবস্ট্রাক্টিভ টেক্সট সারসংক্ষেপ

EACSS গুরুত্বপূর্ণ তথ্য সংরক্ষণ, উন্নত পঠনযোগ্যতা এবং অভিযোজনযোগ্যতা সহ বিভিন্ন সুবিধা প্রদান করে। যাইহোক, EACSS বাস্তবায়ন গণনাগতভাবে ব্যয়বহুল এবং জটিল। সম্ভাব্য তথ্য হারানোর ঝুঁকি রয়েছে, এবং সংক্ষিপ্তকরণের গুণমান অন্তর্নিহিত মডেলগুলির কার্যকারিতার উপর ব্যাপকভাবে নির্ভর করে, সর্বোত্তম ফলাফল অর্জনের জন্য সাবধানী মডেল নির্বাচন এবং টিউনিং অপরিহার্য করে তোলে। বাস্তবায়নে নিম্নলিখিত পদক্ষেপগুলি অন্তর্ভুক্ত রয়েছে:

  1. প্রথম ধাপ হল বড় নথি, যেমন একটি বই, ছোট অংশে বিভক্ত করা খন্ডে. এই খণ্ডগুলিকে বাক্য, অনুচ্ছেদ বা এমনকি অধ্যায় হিসাবে সংজ্ঞায়িত করা হয়, সারাংশের জন্য কাঙ্ক্ষিত গ্রানুলারিটির উপর নির্ভর করে।
  2. নিষ্কাশন পর্যায়ের জন্য, আমরা BERT এক্সট্র্যাক্টিভ সামারিজার ব্যবহার করি। এই উপাদানটি প্রতিটি খণ্ডের মধ্যে বাক্যগুলিকে এমবেড করে কাজ করে এবং তারপর ক্লাস্টারের সেন্ট্রোয়েডের সবচেয়ে কাছের বাক্যগুলি সনাক্ত করতে একটি ক্লাস্টারিং অ্যালগরিদম নিয়োগ করে। এই নিষ্কাশন পদক্ষেপ প্রতিটি খণ্ড থেকে সবচেয়ে গুরুত্বপূর্ণ এবং প্রাসঙ্গিক বিষয়বস্তু সংরক্ষণ করতে সাহায্য করে।
  3. প্রতিটি খণ্ডের জন্য নিষ্কাশনমূলক সারাংশ তৈরি করার পরে, আমরা বিমূর্ত সংক্ষিপ্তসার পর্বে চলে যাই। এখানে, আমরা সুসংগত এবং প্রাসঙ্গিকভাবে প্রাসঙ্গিক সারাংশ তৈরি করার ক্ষমতার জন্য পরিচিত LLM ব্যবহার করি। এই মডেলগুলি নিষ্কাশিত সারাংশগুলিকে ইনপুট হিসাবে গ্রহণ করে এবং বিমূর্ত সারাংশ তৈরি করে যা পাঠযোগ্যতা এবং সুসংগততা নিশ্চিত করার সাথে সাথে মূল নথির সারাংশকে ক্যাপচার করে।

নিষ্কাশনমূলক এবং বিমূর্ত সংক্ষিপ্তকরণ কৌশলগুলিকে একত্রিত করে, এই পদ্ধতিটি বইয়ের মতো দীর্ঘ নথির সংক্ষিপ্তসারের জন্য একটি কার্যকর এবং ব্যাপক উপায় সরবরাহ করে। এটি নিশ্চিত করে যে সংক্ষিপ্ত এবং মানব-পঠনযোগ্য সারাংশ তৈরির অনুমতি দেওয়ার সময় গুরুত্বপূর্ণ তথ্য বের করা হয়, এটি নথির সংক্ষিপ্তকরণের ডোমেনে বিভিন্ন অ্যাপ্লিকেশনের জন্য একটি মূল্যবান হাতিয়ার করে তোলে।

বিমূর্ত-বিমূর্ত সারাংশ

বিমূর্ত-বিমূর্ত সংক্ষিপ্তকরণ হল এমন একটি পদ্ধতি যেখানে বিমূর্ত পদ্ধতিগুলি সারাংশ বের করা এবং উৎপন্ন করার জন্য ব্যবহৃত হয়। এটি বর্ধিত পঠনযোগ্যতা, সুসংগততা এবং সারাংশের দৈর্ঘ্য এবং বিস্তারিত সামঞ্জস্য করার নমনীয়তা সহ উল্লেখযোগ্য সুবিধা প্রদান করে। এটি ভাষা তৈরির ক্ষেত্রে উৎকর্ষ সাধন করে, যা ব্যাখ্যা করার এবং অপ্রয়োজনীয়তা এড়ানোর অনুমতি দেয়। যাইহোক, অপূর্ণতা আছে. উদাহরণস্বরূপ, এটি গণনাগতভাবে ব্যয়বহুল এবং সম্পদের নিবিড়, এবং এর গুণমানটি অন্তর্নিহিত মডেলগুলির কার্যকারিতার উপর ব্যাপকভাবে নির্ভর করে, যা, যদি ভালভাবে প্রশিক্ষিত বা বহুমুখী না হয় তবে উত্পন্ন সারাংশের গুণমানকে প্রভাবিত করতে পারে। এই চ্যালেঞ্জগুলি প্রশমিত করতে এবং উচ্চ-মানের বিমূর্ত সারাংশ নিশ্চিত করার জন্য মডেল নির্বাচন অত্যন্ত গুরুত্বপূর্ণ। বিমূর্ত-বিমূর্ত সংক্ষিপ্তসারের জন্য, আমরা দুটি কৌশল নিয়ে আলোচনা করি: ম্যাপ রিডুস এবং ম্যাপ রিরাঙ্ক।

LangChain ব্যবহার করে মানচিত্র হ্রাস করুন

এই দ্বি-পদক্ষেপ প্রক্রিয়ার মধ্যে রয়েছে একটি মানচিত্র ধাপ এবং একটি হ্রাস পদক্ষেপ, নিম্নলিখিত চিত্রে চিত্রিত হিসাবে। এই কৌশলটি আপনাকে একটি ইনপুট সংক্ষিপ্ত করতে সক্ষম করে যা মডেলের ইনপুট টোকেন সীমার চেয়ে দীর্ঘ।

বিমূর্ত পাঠ্য সংক্ষিপ্তকরণ ম্যাপরিডুস

প্রক্রিয়াটি তিনটি প্রধান পদক্ষেপ নিয়ে গঠিত:

  1. কর্পোরাকে ছোট ছোট খণ্ডে বিভক্ত করা হয়েছে যা LLM-এর টোকেন সীমার সাথে খাপ খায়।
  2. আমরা পৃথকভাবে একটি LLM চেইন প্রয়োগ করতে একটি মানচিত্র পদক্ষেপ ব্যবহার করি যা প্রতিটি প্যাসেজ থেকে সমস্ত গুরুত্বপূর্ণ তথ্য বের করে এবং এর আউটপুট একটি নতুন প্যাসেজ হিসাবে ব্যবহৃত হয়। কর্পোরার আকার এবং কাঠামোর উপর নির্ভর করে, এটি অত্যধিক থিম বা সংক্ষিপ্ত সারাংশের আকারে হতে পারে।
  3. Reduce ধাপটি মানচিত্রের ধাপের আউটপুট প্যাসেজগুলিকে একত্রিত করে বা একটি কমানো ধাপের মতো করে যাতে এটি টোকেন সীমার সাথে ফিট করে এবং এটিকে LLM-এ ফিড করে। চূড়ান্ত আউটপুট একটি একক উত্তরণ না হওয়া পর্যন্ত এই প্রক্রিয়াটি পুনরাবৃত্তি হয়।

এই কৌশলটি ব্যবহার করার সুবিধা হল এটি অত্যন্ত স্কেলযোগ্য এবং সমান্তরাল। প্রতিটি ধাপে সমস্ত প্রক্রিয়াকরণ একে অপরের থেকে স্বাধীন, যা বিতরণ করা সিস্টেম বা সার্ভারবিহীন পরিষেবা এবং কম গণনা সময়ের সুবিধা নেয়।

LangChain ব্যবহার করে ম্যাপ ReRank

এই চেইনটি প্রতিটি নথিতে একটি প্রাথমিক প্রম্পট চালায় যা শুধুমাত্র একটি টাস্ক সম্পূর্ণ করার চেষ্টা করে না বরং এটি তার উত্তরে কতটা নিশ্চিত তার জন্য একটি স্কোরও দেয়। সর্বোচ্চ স্কোরিং প্রতিক্রিয়া ফেরত হয়.

এই কৌশলটি Map Reduce-এর মতোই কিন্তু কম সামগ্রিক কলের প্রয়োজনের সুবিধার সাথে, সংক্ষিপ্তকরণ প্রক্রিয়াটিকে স্ট্রিমলাইন করে। যাইহোক, এর সীমাবদ্ধতা একাধিক নথিতে তথ্য একত্রিত করতে অক্ষমতার মধ্যে রয়েছে। এই বিধিনিষেধটি এমন পরিস্থিতিতে এটিকে সবচেয়ে কার্যকর করে তোলে যেখানে একটি একক নথি থেকে একটি একক, সরল উত্তর প্রত্যাশিত হয়, এটি একাধিক উত্স জড়িত আরও জটিল বা বহুমুখী তথ্য পুনরুদ্ধার কাজের জন্য কম উপযুক্ত করে তোলে। নির্দিষ্ট সারসংক্ষেপের প্রয়োজনের জন্য এই পদ্ধতির উপযুক্ততা নির্ধারণের জন্য প্রেক্ষাপট এবং ডেটার প্রকৃতির যত্ন সহকারে বিবেচনা করা অপরিহার্য।

Cohere ReRank একটি শব্দার্থ-ভিত্তিক পুনঃর্যাঙ্কিং সিস্টেম ব্যবহার করে যা কীওয়ার্ড প্রাসঙ্গিকতার বাইরে ব্যবহারকারীর প্রশ্নের অর্থকে প্রাসঙ্গিক করে। এটি ভেক্টর স্টোর সিস্টেমের পাশাপাশি কীওয়ার্ড-ভিত্তিক সার্চ ইঞ্জিনগুলির সাথে ব্যবহার করা হয়, এটি নমনীয়তা দেয়।

সংক্ষিপ্তকরণ কৌশল তুলনা

প্রতিটি সংক্ষিপ্তকরণ কৌশলটির নিজস্ব অনন্য সুবিধা এবং অসুবিধা রয়েছে:

  • নিষ্কাশনমূলক সারাংশ মূল বিষয়বস্তু সংরক্ষণ করে এবং উচ্চ পাঠযোগ্যতা নিশ্চিত করে কিন্তু সৃজনশীলতার অভাব থাকে এবং দীর্ঘ সারাংশ তৈরি করতে পারে।
  • বিমূর্ত সংক্ষিপ্তকরণ, সৃজনশীলতা অফার করার সময় এবং সংক্ষিপ্ত, সাবলীল সারাংশ তৈরি করার সময়, অনিচ্ছাকৃত বিষয়বস্তু পরিবর্তন, ভাষার নির্ভুলতার চ্যালেঞ্জ এবং সম্পদ-নিবিড় বিকাশের ঝুঁকি নিয়ে আসে।
  • এক্সট্র্যাক্টিভ-অ্যাবস্ট্রাক্টিভ মাল্টি-লেভেল সারমাইজেশন কার্যকরভাবে বড় নথির সারসংক্ষেপ করে এবং মডেলের এক্সট্রাক্টিভ অংশকে ফাইন-টিউনিংয়ে আরও ভালো নমনীয়তা প্রদান করে। যাইহোক, এটি ব্যয়বহুল, সময়সাপেক্ষ, এবং সমান্তরালকরণের অভাব, প্যারামিটার টিউনিংকে চ্যালেঞ্জিং করে তোলে।
  • বিমূর্ত-বিমূর্ত বহু-স্তরের সারসংক্ষেপও কার্যকরভাবে বড় নথিগুলির সংক্ষিপ্তসার করে এবং বর্ধিত পঠনযোগ্যতা এবং সুসংগতিতে উৎকর্ষ সাধন করে। যাইহোক, এটি গণনাগতভাবে ব্যয়বহুল এবং সম্পদ নিবিড়, অন্তর্নিহিত মডেলগুলির কার্যকারিতার উপর প্রচুর নির্ভর করে।

চ্যালেঞ্জগুলি কমাতে এবং এই পদ্ধতিতে উচ্চ-মানের বিমূর্ত সারাংশ নিশ্চিত করতে যত্নশীল মডেল নির্বাচন অত্যন্ত গুরুত্বপূর্ণ। নিম্নলিখিত সারণী প্রতিটি ধরনের সারাংশের জন্য ক্ষমতার সারসংক্ষেপ করে।

দৃষ্টিভঙ্গি নিষ্কাশনমূলক সংক্ষিপ্তকরণ বিমূর্ত সংক্ষিপ্তসার বহু-স্তরের সংক্ষিপ্তকরণ
সৃজনশীল এবং আকর্ষক সারাংশ তৈরি করুন না হাঁ হাঁ
মূল বিষয়বস্তু সংরক্ষণ করুন হাঁ না না
তথ্য সংরক্ষণ এবং সৃজনশীলতার ভারসাম্য বজায় রাখুন না হাঁ হাঁ
সংক্ষিপ্ত, উদ্দেশ্যমূলক পাঠ্যের জন্য উপযুক্ত (ইনপুট পাঠ্যের দৈর্ঘ্য মডেলের সর্বাধিক টোকেনের চেয়ে ছোট) হাঁ হাঁ না
দীর্ঘ সময়ের জন্য কার্যকর, জটিল নথি যেমন বই (ইনপুট পাঠ্যের দৈর্ঘ্য মডেলের সর্বাধিক টোকেনের চেয়ে বেশি) না না হাঁ
নিষ্কাশন এবং বিষয়বস্তু প্রজন্মকে একত্রিত করে না না হাঁ

বহু-স্তরের সংক্ষিপ্তকরণ কৌশলগুলি দীর্ঘ এবং জটিল নথিগুলির জন্য উপযুক্ত যেখানে ইনপুট পাঠ্যের দৈর্ঘ্য মডেলের টোকেন সীমা অতিক্রম করে। নিম্নলিখিত টেবিল এই কৌশল তুলনা.

প্রযুক্তি উপকারিতা অসুবিধা সমূহ
EACSS (নিষ্ক্রিয়-বিমূর্ত) গুরুত্বপূর্ণ তথ্য সংরক্ষণ করে, মডেলগুলির নিষ্কাশন অংশকে সূক্ষ্ম-সুর করার ক্ষমতা প্রদান করে। গণনাগতভাবে ব্যয়বহুল, সম্ভাব্য তথ্যের ক্ষতি এবং সমান্তরালতার অভাব।
মানচিত্র হ্রাস (বিমূর্ত-বিমূর্ত) পরিমাপযোগ্য এবং সমান্তরাল, কম গণনা সময় সহ। সৃজনশীল এবং সংক্ষিপ্ত সারাংশ তৈরি করার সেরা কৌশল। মেমরি-নিবিড় প্রক্রিয়া।
ম্যাপ ReRank (বিমূর্ত-বিমূর্ত) শব্দার্থ-ভিত্তিক র‌্যাঙ্কিং সহ স্ট্রীমলাইনড সারসংক্ষেপ। সীমিত তথ্য একত্রীকরণ.

টেক্সট সংক্ষিপ্ত করার সময় টিপস

টেক্সট সংক্ষিপ্ত করার সময় নিম্নলিখিত সেরা অনুশীলনগুলি বিবেচনা করুন:

  • মোট টোকেন আকার সম্পর্কে সচেতন হন - পাঠ্যটি মডেলের টোকেন সীমা অতিক্রম করলে বা LLM ব্যবহার করার সময় একাধিক স্তরের সংক্ষিপ্তকরণ নিযুক্ত করলে তা বিভক্ত করার জন্য প্রস্তুত থাকুন।
  • তথ্য উত্সের প্রকার এবং সংখ্যা সম্পর্কে সচেতন হন - একাধিক উত্স থেকে তথ্য একত্রিত করার জন্য রূপান্তর, স্পষ্ট সংগঠন এবং একীকরণ কৌশল প্রয়োজন হতে পারে। ল্যাংচেইন স্টাফ তথ্য উৎসের বিস্তৃত বৈচিত্র্যের একীকরণ রয়েছে এবং নথির ধরন. এটি এই কৌশলটি ব্যবহার করে বিভিন্ন নথি এবং ডেটা উত্স থেকে পাঠ্য একত্রিত করার প্রক্রিয়াটিকে সহজ করে তোলে।
  • মডেল স্পেশালাইজেশন সম্পর্কে সচেতন হন - কিছু মডেল নির্দিষ্ট ধরণের সামগ্রীতে পারদর্শী হতে পারে তবে অন্যদের সাথে লড়াই করতে পারে। আপনার টেক্সট ডোমেনের জন্য আরও উপযুক্ত মডেল থাকতে পারে।
  • পাঠ্যের বড় অংশের জন্য বহু-স্তরের সারাংশ ব্যবহার করুন - টোকেন সীমা অতিক্রম করা পাঠ্যগুলির জন্য, একটি বহু-স্তরের সংক্ষিপ্তকরণ পদ্ধতি বিবেচনা করুন। মূল ধারণাগুলি ক্যাপচার করার জন্য একটি উচ্চ-স্তরের সারাংশ দিয়ে শুরু করুন এবং তারপরে আরও বিশদ অন্তর্দৃষ্টির জন্য ধীরে ধীরে উপবিভাগ বা অধ্যায়গুলির সংক্ষিপ্তসার করুন৷
  • বিষয় অনুসারে পাঠ্য সংক্ষিপ্ত করুন - এই পদ্ধতিটি একটি যৌক্তিক প্রবাহ বজায় রাখতে এবং তথ্যের ক্ষতি কমাতে সাহায্য করে এবং এটি গুরুত্বপূর্ণ তথ্য ধারণকে অগ্রাধিকার দেয়। আপনি যদি LLM ব্যবহার করেন, তাহলে স্পষ্ট এবং নির্দিষ্ট প্রম্পট তৈরি করুন যা মডেলটিকে সম্পূর্ণ পাঠ্যের পরিবর্তে একটি নির্দিষ্ট বিষয়ের সংক্ষিপ্তসারের জন্য গাইড করে।

উপসংহার

সংক্ষিপ্তকরণ আমাদের তথ্য-সমৃদ্ধ যুগে একটি গুরুত্বপূর্ণ হাতিয়ার হিসাবে দাঁড়িয়েছে, যা সংক্ষিপ্ত এবং অর্থপূর্ণ আকারে বিস্তৃত তথ্যের দক্ষ পাতনকে সক্ষম করে। এটি বিভিন্ন ডোমেনে একটি গুরুত্বপূর্ণ ভূমিকা পালন করে, অনেক সুবিধা প্রদান করে। সংক্ষিপ্তকরণ দীর্ঘ নথি থেকে প্রয়োজনীয় বিষয়বস্তু দ্রুত পৌঁছে দেওয়ার মাধ্যমে সময় সাশ্রয় করে, সমালোচনামূলক তথ্য বের করে সিদ্ধান্ত গ্রহণে সহায়তা করে এবং শিক্ষা ও বিষয়বস্তু কিউরেশনে বোধগম্যতা বাড়ায়।

এই পোস্টটি এক্সট্রাক্টিভ, অ্যাবস্ট্রাক্টিভ এবং মাল্টি-লেভেল পন্থা সহ বিভিন্ন সারসংক্ষেপের কৌশলগুলির একটি ব্যাপক ওভারভিউ প্রদান করেছে। LangChain এবং ভাষা মডেলের মতো টুলগুলির সাহায্যে, আপনি যোগাযোগকে স্ট্রীমলাইন করতে, সিদ্ধান্ত গ্রহণের উন্নতি করতে এবং বিশাল তথ্য ভান্ডারের সম্পূর্ণ সম্ভাবনা আনলক করতে সারসংক্ষেপের শক্তি ব্যবহার করতে পারেন। এই পোস্টের তুলনা সারণী আপনাকে আপনার প্রকল্পগুলির জন্য সবচেয়ে উপযুক্ত সংক্ষিপ্তকরণ কৌশলগুলি সনাক্ত করতে সাহায্য করতে পারে। উপরন্তু, টেক্সট সারাংশের জন্য LLM-এর সাথে পরীক্ষা করার সময় পুনরাবৃত্তিমূলক ত্রুটিগুলি এড়াতে পোস্টে শেয়ার করা টিপসগুলি মূল্যবান নির্দেশিকা হিসাবে কাজ করে। এই ব্যবহারিক পরামর্শ আপনাকে প্রকল্পগুলিতে সফল এবং দক্ষ সারসংক্ষেপ নিশ্চিত করে অর্জিত জ্ঞান প্রয়োগ করার ক্ষমতা দেয়।

তথ্যসূত্র


লেখক সম্পর্কে

ভাষা মডেল ব্যবহার করে নথির স্বয়ংক্রিয় সংক্ষিপ্তসারের কৌশল | আমাজন ওয়েব সার্ভিস প্লেটোব্লকচেইন ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.নিক বিসো AWS প্রফেশনাল সার্ভিসে একজন মেশিন লার্নিং ইঞ্জিনিয়ার। তিনি ডেটা সায়েন্স এবং ইঞ্জিনিয়ারিং ব্যবহার করে জটিল সাংগঠনিক এবং প্রযুক্তিগত চ্যালেঞ্জগুলি সমাধান করেন। উপরন্তু, তিনি AWS ক্লাউডে AI/ML মডেল তৈরি এবং স্থাপন করেন। তার আবেগ ভ্রমণ এবং বিভিন্ন সাংস্কৃতিক অভিজ্ঞতার জন্য তার প্ররোচনা পর্যন্ত প্রসারিত।

ভাষা মডেল ব্যবহার করে নথির স্বয়ংক্রিয় সংক্ষিপ্তসারের কৌশল | আমাজন ওয়েব সার্ভিস প্লেটোব্লকচেইন ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.সুহাস চৌধুরী জোন্নালগড্ডা AWS গ্লোবাল সার্ভিসেসের একজন ডেটা সায়েন্টিস্ট। তিনি এন্টারপ্রাইজ গ্রাহকদের AI/ML এর শক্তি দিয়ে তাদের সবচেয়ে জটিল সমস্যা সমাধানে সাহায্য করার ব্যাপারে উৎসাহী। তিনি গ্রাহকদের অর্থ, স্বাস্থ্যসেবা, ব্যাংকিং, ইকমার্স, মিডিয়া, বিজ্ঞাপন এবং বিপণন সহ বিভিন্ন শিল্পে তাদের ব্যবসায়িক সমাধানগুলিকে রূপান্তরিত করতে সহায়তা করেছেন।

ভাষা মডেল ব্যবহার করে নথির স্বয়ংক্রিয় সংক্ষিপ্তসারের কৌশল | আমাজন ওয়েব সার্ভিস প্লেটোব্লকচেইন ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.ট্যাবি ওয়ার্ড একজন প্রিন্সিপাল ক্লাউড আর্কিটেক্ট/স্ট্র্যাটেজিক টেকনিক্যাল অ্যাডভাইজার যার ব্যাপক অভিজ্ঞতা গ্রাহকদের স্থানান্তরিত করা এবং তাদের অ্যাপ্লিকেশন কাজের চাপ এবং AWS-এ পরিষেবা আধুনিকীকরণ করা। সফ্টওয়্যার বিকাশ এবং স্থাপত্যের 25 বছরেরও বেশি অভিজ্ঞতার সাথে, তিনি তার গভীর-ডাইভ ক্ষমতার পাশাপাশি একাধিক প্রযুক্তিগত স্ট্যাক এবং ক্লাউড প্রদানকারী জুড়ে আর্কিটেকচার এবং সমাধান ডিজাইন করার জন্য গ্রাহকদের এবং অংশীদারদের আস্থা অর্জনের জন্য স্বীকৃত।

ভাষা মডেল ব্যবহার করে নথির স্বয়ংক্রিয় সংক্ষিপ্তসারের কৌশল | আমাজন ওয়েব সার্ভিস প্লেটোব্লকচেইন ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.শ্যাম দেশাই AWS-এ বড় ডেটা এবং মেশিন লার্নিং পরিষেবার জন্য একজন ক্লাউড ইঞ্জিনিয়ার। তিনি ডেটা বিজ্ঞানের সাথে সফ্টওয়্যার ইঞ্জিনিয়ারিং দক্ষতার সংমিশ্রণ ব্যবহার করে এন্টারপ্রাইজ-স্তরের বড় ডেটা অ্যাপ্লিকেশন এবং গ্রাহকদের সমর্থন করেন। কৃত্রিম বুদ্ধিমত্তার জন্য কম্পিউটার ভিশন এবং ইমেজিং অ্যাপ্লিকেশনের পাশাপাশি বায়োমেডিকাল এবং বায়োইনফরম্যাটিক অ্যাপ্লিকেশনগুলিতে তার ব্যাপক জ্ঞান রয়েছে।

সময় স্ট্যাম্প:

থেকে আরো এডাব্লুএস মেশিন লার্নিং

আমাজন কেন্দ্রের জন্য কুইপ সংযোগকারী ব্যবহার করে বুদ্ধিমান অনুসন্ধানের মাধ্যমে কুইপ নথিতে জ্ঞানের জন্য অনুসন্ধান করুন

উত্স নোড: 1270825
সময় স্ট্যাম্প: এপ্রিল 19, 2022

SageMaker স্বয়ংক্রিয় মডেল টিউনিংয়ের সাথে ন্যায়সঙ্গততার মতো অতিরিক্ত উদ্দেশ্যগুলির জন্য ML মডেলগুলি টিউন করুন৷

উত্স নোড: 1807772
সময় স্ট্যাম্প: ফেব্রুয়ারী 27, 2023