Techniques For Automatic Summarization Of Documents Using Language Models

بازنشر افلاطون

دنبال: 0

خلاصه سازی تکنیکی است که اطلاعات قابل توجهی را به شکلی فشرده و معنادار تراکم می کند و به عنوان سنگ بنای ارتباطات کارآمد در عصر غنی از اطلاعات ما قرار دارد. در دنیایی مملو از داده، خلاصه کردن متون طولانی به خلاصه‌های کوتاه باعث صرفه‌جویی در زمان و تصمیم‌گیری آگاهانه می‌شود. خلاصه سازی محتوا را فشرده می کند و با ارائه مختصر و منسجم اطلاعات باعث صرفه جویی در زمان و بهبود وضوح می شود. خلاصه سازی برای تصمیم گیری و مدیریت حجم زیاد محتوا بسیار ارزشمند است.

روش‌های خلاصه‌سازی طیف گسترده‌ای از کاربردها را برای اهداف مختلف دارند، مانند:

تجمیع اخبار - تجمیع اخبار شامل خلاصه کردن مقالات خبری در یک خبرنامه برای صنعت رسانه است
خلاصه اسناد حقوقی - خلاصه اسناد حقوقی به متخصصان حقوقی کمک می کند تا اطلاعات حقوقی کلیدی را از اسناد طولانی مانند شرایط، شرایط و قراردادها استخراج کنند
تحقیقات دانشگاهی - خلاصه سازی، اطلاعات مهم را از مقالات دانشگاهی حاشیه نویسی، نمایه سازی، فشرده سازی و ساده سازی می کند.
مدیریت محتوا برای وبلاگ ها و وب سایت ها - می توانید خلاصه های محتوای جذاب و اصلی را برای خوانندگان ایجاد کنید، به خصوص در بازاریابی
گزارش های مالی و تحلیل بازار - می توانید استخراج کنید بینش مالی از گزارش ها و ایجاد خلاصه های اجرایی برای ارائه سرمایه گذاران در صنعت مالی

با پیشرفت در پردازش زبان طبیعی (NLP)، مدل‌های زبان و هوش مصنوعی تولیدی، خلاصه کردن متون با طول‌های مختلف قابل دسترس‌تر شده است. ابزارهایی مانند LangChain، همراه با یک مدل زبان بزرگ (LLM) که توسط بستر آمازون or Amazon SageMaker JumpStart، فرآیند پیاده سازی را ساده می کند.

این پست به تکنیک های خلاصه سازی زیر می پردازد:

خلاصه سازی استخراجی با استفاده از خلاصه کننده استخراجی BERT
خلاصه سازی انتزاعی با استفاده از مدل های خلاصه سازی تخصصی و LLM
دو تکنیک خلاصه سازی چند سطحی:
- خلاصه سازی استخراجی-انتزاعی با استفاده از استراتژی خلاصه سازی محتوای استخراجی-انتزاعی (EACSS)
- خلاصه انتزاعی-انتزاعی با استفاده از Map Reduce و Map ReRank

تکنیک های خلاصه سازی متن

نمونه کد کامل در یافت می شود GitHub repo. شما می توانید راه اندازی این راه حل in Amazon SageMaker Studio.

برای باز کردن کنسول AWS اینجا را کلیک کنید و ادامه دهید.

انواع خلاصه

چندین تکنیک برای خلاصه کردن متن وجود دارد که به طور کلی به دو رویکرد اصلی طبقه‌بندی می‌شوند: استخراج و انتزاعی خلاصه سازی. علاوه بر این، روش‌های خلاصه‌سازی چند سطحی مجموعه‌ای از مراحل را شامل می‌شوند که هر دو تکنیک استخراجی و انتزاعی را با هم ترکیب می‌کنند. این رویکردهای چند سطحی هنگام برخورد با متن با توکن‌های طولانی‌تر از حد مجاز یک LLM سودمند هستند و درک روایت‌های پیچیده را امکان‌پذیر می‌سازند.

جمع بندی استخراجی

خلاصه سازی استخراجی تکنیکی است که در NLP و تحلیل متن برای ایجاد خلاصه با استخراج جملات کلیدی استفاده می شود. به‌جای تولید جملات یا محتوای جدید مانند خلاصه‌سازی انتزاعی، خلاصه‌سازی استخراجی به شناسایی و بیرون کشیدن مرتبط‌ترین و آموزنده‌ترین بخش‌های متن اصلی برای ایجاد یک نسخه فشرده متکی است.

خلاصه نویسی استخراجی، اگرچه در حفظ محتوای اصلی و اطمینان از خوانایی بالا با بیرون کشیدن مستقیم جملات مهم از متن منبع سودمند است، اما محدودیت هایی دارد. فاقد خلاقیت است، قادر به تولید جملات بدیع نیست و ممکن است جزییات ظریف را نادیده بگیرد و به طور بالقوه اطلاعات مهم را از دست بدهد. علاوه بر این، ممکن است خلاصه های طولانی را تولید کند که گاهی اوقات خوانندگان را با اطلاعات بیش از حد و ناخواسته غرق می کند. تکنیک های خلاصه سازی استخراجی زیادی وجود دارد، مانند TextRank و LexRank. در این پست، ما بر خلاصه‌کننده استخراجی BERT تمرکز می‌کنیم.

خلاصه کننده استخراجی BERT

La خلاصه کننده استخراجی BERT نوعی مدل خلاصه سازی استخراجی است که از مدل زبان BERT برای استخراج مهمترین جملات از یک متن استفاده می کند. برت یک مدل زبان از پیش آموزش دیده است که می تواند برای کارهای مختلف از جمله خلاصه سازی متن به خوبی تنظیم شود. با استفاده از BERT ابتدا جملات را در متن جاسازی می کند. این یک نمایش برداری برای هر جمله ایجاد می کند که معنی و زمینه آن را نشان می دهد. سپس مدل از یک الگوریتم خوشه بندی برای گروه بندی جملات در خوشه ها استفاده می کند. جملاتی که نزدیکترین آنها به مرکز هر خوشه هستند برای تشکیل خلاصه انتخاب می شوند.

در مقایسه با LLM ها، مزیت خلاصه کننده استخراجی BERT این است که آموزش و استقرار مدل نسبتاً ساده است و قابل توضیح تر است. نقطه ضعف این است که خلاصه سازی خلاقانه نیست و جملات تولید نمی کند. فقط جملات را از متن اصلی انتخاب می کند. این توانایی آن را برای خلاصه کردن متون پیچیده یا ظریف محدود می کند.

خلاصه انتزاعی

خلاصه نویسی انتزاعی تکنیکی است که در NLP و تجزیه و تحلیل متن برای ایجاد خلاصه ای استفاده می شود که فراتر از استخراج صرف جملات یا عبارات از متن منبع است. به‌جای انتخاب و سازماندهی مجدد محتوای موجود، خلاصه‌سازی انتزاعی جملات یا عبارات جدیدی تولید می‌کند که معنای اصلی و ایده‌های اصلی متن اصلی را به شکل فشرده‌تر و منسجم‌تری نشان می‌دهد. این رویکرد مستلزم آن است که مدل محتوای متن را درک کند و آن را به گونه ای بیان کند که لزوماً در منبع منبع وجود نداشته باشد.

مدل های خلاصه سازی تخصصی

این مدل های زبان طبیعی از پیش آموزش دیده، مانند بارت و PEGASUS، به طور خاص برای کارهای خلاصه سازی متن طراحی شده اند. آنها از معماری رمزگذار-رمزگشا استفاده می کنند و از نظر پارامترها در مقایسه با همتایان خود کوچکتر هستند. این اندازه کاهش یافته امکان تنظیم دقیق و استقرار در نمونه های کوچکتر را فراهم می کند. با این حال، توجه به این نکته مهم است که این مدل‌های خلاصه‌سازی با اندازه توکن ورودی و خروجی کوچک‌تر نیز ارائه می‌شوند. این مدل‌ها بر خلاف همتایان عمومی‌تر خود، منحصراً برای کارهای خلاصه‌سازی طراحی شده‌اند. در نتیجه، ورودی مورد نیاز برای این مدل‌ها صرفاً متنی است که باید خلاصه شود.

مدل های زبان بزرگ

A مدل زبان بزرگ به هر مدلی اطلاق می شود که بر روی مجموعه داده های گسترده و متنوع، معمولاً از طریق یادگیری خود نظارتی در مقیاس بزرگ، تحت آموزش قرار می گیرد، و می تواند متناسب با مجموعه وسیعی از وظایف پایین دستی خاص تنظیم شود. این مدل ها از نظر اندازه پارامتر بزرگتر هستند و در وظایف بهتر عمل می کنند. قابل ذکر است، آنها دارای اندازه توکن ورودی به طور قابل توجهی بزرگتر هستند، که برخی از آنها ادامه دارند تا 100,000مانند آنتروپیک کلود. برای استفاده از یکی از این مدل ها، AWS سرویس کاملاً مدیریت شده Amazon Bedrock را ارائه می دهد. اگر به کنترل بیشتری بر چرخه عمر توسعه مدل نیاز دارید، می توانید LLM ها را از طریق SageMaker مستقر کنید.

با توجه به ماهیت همه کاره آنها، این مدل ها به دستورالعمل های وظایف خاصی نیاز دارند که از طریق متن ورودی ارائه می شود، عملی که به آن گفته می شود مهندسی سریع. این فرآیند خلاقانه بر اساس نوع مدل و متن ورودی، نتایج متفاوتی را به همراه دارد. اثربخشی عملکرد مدل و کیفیت اعلان به طور قابل توجهی بر کیفیت نهایی خروجی های مدل تأثیر می گذارد. در زیر نکاتی وجود دارد که مهندسی برای خلاصه کردن درخواست می کند:

متن را برای خلاصه کردن وارد کنید - متنی را که باید خلاصه شود وارد کنید. این به عنوان منبع منبع برای خلاصه عمل می کند.
تکلیف را مشخص کنید - به وضوح بیان کنید که هدف، خلاصه سازی متن است. برای مثال، «متن زیر را خلاصه کنید: [متن ورودی]».
زمینه را فراهم کنید - یک مقدمه یا زمینه مختصر برای متن داده شده ارائه دهید که باید خلاصه شود. این به مدل کمک می کند تا محتوا و زمینه را درک کند. به عنوان مثال، "مقاله زیر در مورد هوش مصنوعی و نقش آن در مراقبت های بهداشتی به شما داده شده است: [متن ورودی]."
خلاصه را درخواست کنید – از مدل بخواهید خلاصه ای از متن ارائه شده را تولید کند. در مورد طول یا قالب مورد نظر خلاصه صحبت کنید. به عنوان مثال، "لطفاً خلاصه ای مختصر از مقاله داده شده در مورد هوش مصنوعی و نقش آن در مراقبت های بهداشتی ایجاد کنید: [متن ورودی]."
محدودیت ها یا دستورالعمل های طول را تنظیم کنید - به صورت اختیاری، طول خلاصه را با تعیین تعداد کلمات دلخواه، تعداد جمله یا محدودیت کاراکتر هدایت کنید. برای مثال، «لطفاً خلاصه‌ای ایجاد کنید که بیش از 50 کلمه نباشد: [متن ورودی]».

مهندسی سریع موثر برای حصول اطمینان از اینکه خلاصه های تولید شده دقیق، مرتبط و همسو با وظیفه خلاصه سازی مورد نظر هستند، حیاتی است. درخواست را برای نتیجه خلاصه سازی بهینه با آزمایش ها و تکرارها اصلاح کنید. بعد از اینکه اثربخشی دستورات را مشخص کردید، می‌توانید با استفاده از آنها دوباره از آنها استفاده کنید قالب های سریع.

خلاصه سازی چند سطحی

خلاصه های استخراجی و انتزاعی برای متون کوتاهتر مفید هستند. با این حال، هنگامی که متن ورودی از حداکثر حد مجاز مدل فراتر می رود، خلاصه سازی چند سطحی ضروری می شود. خلاصه‌سازی چند سطحی شامل ترکیبی از تکنیک‌های خلاصه‌سازی مختلف، مانند روش‌های استخراجی و انتزاعی، برای فشرده‌سازی مؤثر متون طولانی‌تر با اعمال لایه‌های متعدد فرآیندهای خلاصه‌سازی است. در این بخش، دو تکنیک خلاصه‌سازی چند سطحی را مورد بحث قرار می‌دهیم: خلاصه‌سازی استخراجی-انتزاعی و خلاصه‌سازی انتزاعی-انتزاعی.

خلاصه استخراجی-انتزاعی

خلاصه سازی استخراجی-انتزاعی ابتدا با ایجاد یک خلاصه استخراجی از متن کار می کند. سپس از یک سیستم خلاصه سازی انتزاعی برای اصلاح خلاصه استخراجی استفاده می کند و آن را مختصرتر و آموزنده تر می کند. این امر با ارائه خلاصه های آموزنده تر در مقایسه با روش های استخراجی به تنهایی، دقت را افزایش می دهد.

استراتژی خلاصه سازی محتوای استخراجی-انتزاعی

تکنیک EACSS نقاط قوت دو تکنیک قدرتمند را ترکیب می‌کند: خلاصه‌کننده استخراج BERT برای فاز استخراج و LLMs برای فاز انتزاعی، همانطور که در نمودار زیر نشان داده شده است.

خلاصه متن انتزاعی استخراجی

EACSS چندین مزیت از جمله حفظ اطلاعات حیاتی، خوانایی افزایش یافته و سازگاری را ارائه می دهد. با این حال، پیاده سازی EACSS از نظر محاسباتی گران و پیچیده است. خطر از دست رفتن اطلاعات بالقوه وجود دارد، و کیفیت خلاصه به شدت به عملکرد مدل‌های زیربنایی بستگی دارد، و انتخاب دقیق مدل و تنظیم آن برای دستیابی به نتایج بهینه ضروری است. پیاده سازی شامل مراحل زیر است:

اولین قدم این است که سند بزرگ، مانند یک کتاب، را به بخش های کوچکتر تقسیم کنید یا تکه ها. این تکه ها بسته به جزئیات مورد نظر برای خلاصه به عنوان جملات، پاراگراف ها یا حتی فصل ها تعریف می شوند.
برای مرحله استخراج، از خلاصه‌کننده استخراجی BERT استفاده می‌کنیم. این مؤلفه با جاسازی جملات در هر بخش و سپس استفاده از یک الگوریتم خوشه‌بندی برای شناسایی جملاتی که نزدیک‌ترین آنها به مرکز خوشه هستند، کار می‌کند. این مرحله استخراجی به حفظ مهم ترین و مرتبط ترین محتوا از هر بخش کمک می کند.
پس از ایجاد خلاصه‌های استخراجی برای هر بخش، به مرحله خلاصه‌سازی انتزاعی می‌رویم. در اینجا، ما از LLM هایی استفاده می کنیم که به دلیل توانایی آنها در تولید خلاصه های منسجم و مرتبط با زمینه شناخته شده است. این مدل‌ها خلاصه‌های استخراج‌شده را به عنوان ورودی می‌گیرند و خلاصه‌های انتزاعی را تولید می‌کنند که ماهیت سند اصلی را در بر می‌گیرد و در عین حال از خوانایی و انسجام اطمینان می‌دهد.

این رویکرد با ترکیب تکنیک‌های خلاصه‌سازی استخراجی و انتزاعی، راهی کارآمد و جامع برای خلاصه‌سازی اسناد طولانی مانند کتاب‌ها ارائه می‌دهد. این تضمین می کند که اطلاعات مهم استخراج می شود و در عین حال امکان تولید خلاصه های مختصر و قابل خواندن توسط انسان را فراهم می کند و آن را به ابزاری ارزشمند برای کاربردهای مختلف در حوزه خلاصه سازی اسناد تبدیل می کند.

خلاصه انتزاعی-انتزاعی

خلاصه سازی انتزاعی-انتزاعی رویکردی است که در آن از روش های انتزاعی هم برای استخراج و هم برای تولید خلاصه استفاده می شود. مزایای قابل توجهی از جمله خوانایی افزایش یافته، انسجام، و انعطاف پذیری برای تنظیم طول خلاصه و جزئیات ارائه می دهد. این زبان در تولید زبان برتر است و امکان بازنویسی و اجتناب از افزونگی را فراهم می کند. با این حال، اشکالاتی وجود دارد. به عنوان مثال، از نظر محاسباتی گران و منابع فشرده است، و کیفیت آن به شدت به اثربخشی مدل‌های زیربنایی بستگی دارد، که اگر به خوبی آموزش دیده یا همه‌کاره نباشند، ممکن است بر کیفیت خلاصه‌های تولید شده تأثیر بگذارد. انتخاب مدل‌ها برای کاهش این چالش‌ها و اطمینان از خلاصه‌های انتزاعی با کیفیت بسیار مهم است. برای خلاصه‌سازی انتزاعی-انتزاعی، ما دو استراتژی را مورد بحث قرار می‌دهیم: Map Reduce و Map ReRank.

کاهش نقشه با استفاده از LangChain

این فرآیند دو مرحله ای شامل یک مرحله نقشه و یک مرحله کاهش، همانطور که در نمودار زیر نشان داده شده است. این تکنیک به شما امکان می‌دهد ورودی‌هایی را که طولانی‌تر از حد توکن ورودی مدل است، خلاصه کنید.

خلاصه متن انتزاعی کاهش نقشه

این فرآیند شامل سه مرحله اصلی است:

بدنه ها به قطعات کوچکتر تقسیم می شوند که در حد توکن LLM قرار می گیرند.
ما از یک گام Map برای اعمال یک زنجیره LLM استفاده می کنیم که تمام اطلاعات مهم را از هر قسمت استخراج می کند و خروجی آن به عنوان یک پاساژ جدید استفاده می شود. بسته به اندازه و ساختار مجموعه ها، این می تواند به صورت مضامین فراگیر یا خلاصه های کوتاه باشد.
مرحله Reduce مسیرهای خروجی از مرحله Map یا یک Reduce Step را با هم ترکیب می‌کند تا با محدودیت توکن مطابقت داشته باشد و آن را به LLM وارد کند. این فرآیند تا زمانی که خروجی نهایی یک گذرگاه منفرد باشد تکرار می شود.

مزیت استفاده از این تکنیک این است که بسیار مقیاس پذیر و موازی پذیر است. تمام پردازش ها در هر مرحله از یکدیگر مستقل است که از سیستم های توزیع شده یا خدمات بدون سرور و زمان محاسبه کمتر بهره می برد.

نقشه مجدد با استفاده از LangChain

این زنجیره یک اعلان اولیه را روی هر سند اجرا می‌کند که نه تنها تلاش می‌کند تا یک کار را تکمیل کند، بلکه امتیازی نیز برای اطمینان از پاسخ آن می‌دهد. بالاترین امتیاز پاسخ داده می شود.

این تکنیک بسیار شبیه به Map Reduce است اما با مزیت نیاز به تماس های کلی کمتر، فرآیند خلاصه سازی را ساده می کند. با این حال، محدودیت آن در عدم توانایی آن در ادغام اطلاعات در چندین سند است. این محدودیت آن را در سناریوهایی که از یک سند منفرد انتظار می‌رود یک پاسخ ساده و منفرد مؤثر باشد، و آن را برای کارهای پیچیده‌تر یا چند وجهی بازیابی اطلاعات که شامل منابع متعدد است، کمتر مناسب می‌سازد. بررسی دقیق زمینه و ماهیت داده ها برای تعیین مناسب بودن این روش برای نیازهای خلاصه سازی خاص ضروری است.

Cohere ReRank از یک سیستم رتبه‌بندی مجدد مبتنی بر معنایی استفاده می‌کند که معنای پرس و جو کاربر را فراتر از ارتباط کلمه کلیدی می‌سازد. این با سیستم های فروشگاه برداری و همچنین موتورهای جستجوی مبتنی بر کلمات کلیدی استفاده می شود و به آن انعطاف پذیری می دهد.

مقایسه تکنیک های خلاصه سازی

هر تکنیک خلاصه سازی مزایا و معایب منحصر به فرد خود را دارد:

خلاصه‌سازی استخراجی محتوای اصلی را حفظ می‌کند و خوانایی بالا را تضمین می‌کند، اما خلاقیت ندارد و ممکن است خلاصه‌های طولانی ایجاد کند.
خلاصه‌سازی انتزاعی، در حالی که خلاقیت ارائه می‌دهد و خلاصه‌های موجز و روان را ایجاد می‌کند، با خطر اصلاح ناخواسته محتوا، چالش‌هایی در دقت زبان و توسعه منابع فشرده همراه است.
خلاصه سازی چند سطحی استخراجی-انتزاعی به طور موثر اسناد بزرگ را خلاصه می کند و انعطاف پذیری بهتری را در تنظیم دقیق بخش استخراجی مدل ها فراهم می کند. با این حال، گران، وقت گیر و فاقد موازی سازی است که تنظیم پارامتر را به چالش می کشد.
خلاصه‌سازی چند سطحی انتزاعی-انتزاعی نیز به طور مؤثر اسناد بزرگ را خلاصه می‌کند و در خوانایی و انسجام بیشتر برتری دارد. با این حال، از نظر محاسباتی گران و منابع فشرده است و به شدت بر اثربخشی مدل‌های زیربنایی متکی است.

انتخاب دقیق مدل برای کاهش چالش‌ها و اطمینان از خلاصه‌های انتزاعی با کیفیت بالا در این رویکرد بسیار مهم است. جدول زیر قابلیت های هر نوع خلاصه سازی را خلاصه می کند.

منظر	خلاصه استخراجی	خلاصه انتزاعی	خلاصه سازی چند سطحی
خلاصه های خلاقانه و جذاب ایجاد کنید	نه	بله	بله
محتوای اصلی را حفظ کنید	بله	نه	نه
حفظ تعادل اطلاعات و خلاقیت	نه	بله	بله
مناسب برای متن کوتاه و عینی (طول متن ورودی کوچکتر از حداکثر نشانه های مدل)	بله	بله	نه
برای اسناد طولانی تر و پیچیده مانند کتاب ها (طول متن ورودی بیشتر از حداکثر نشانه های مدل) موثر است.	نه	نه	بله
استخراج و تولید محتوا را با هم ترکیب می کند	نه	نه	بله

تکنیک‌های خلاصه‌سازی چند سطحی برای اسناد طولانی و پیچیده که طول متن ورودی از حد نشانه مدل بیشتر است، مناسب هستند. جدول زیر این تکنیک ها را با هم مقایسه می کند.

تکنیک	مزایای	معایب
EACSS (استخراجی-انتزاعی)	اطلاعات مهم را حفظ می کند، توانایی تنظیم دقیق بخش استخراجی مدل ها را فراهم می کند.	از نظر محاسباتی گران، از دست دادن اطلاعات بالقوه، و عدم موازی سازی.
کاهش نقشه (انتزاعی-انتزاعی)	مقیاس پذیر و موازی پذیر، با زمان محاسبه کمتر. بهترین تکنیک برای ایجاد خلاصه های خلاقانه و مختصر.	فرآیند فشرده حافظه
رتبه بندی مجدد نقشه (انتزاعی-انتزاعی)	خلاصه سازی ساده با رتبه بندی مبتنی بر معنایی.	ادغام اطلاعات محدود

نکاتی هنگام خلاصه کردن متن

بهترین روش های زیر را هنگام خلاصه کردن متن در نظر بگیرید:

از اندازه کل توکن آگاه باشید - آماده باشید که متن را در صورت فراتر از حد مجاز مدل، تقسیم کنید یا در هنگام استفاده از LLM از چندین سطح خلاصه سازی استفاده کنید.
از انواع و تعداد منابع داده آگاه باشید - ترکیب اطلاعات از منابع متعدد ممکن است نیازمند تحولات، سازماندهی روشن و استراتژی های یکپارچه سازی باشد. LangChain Stuff دارای ادغام در طیف گسترده ای از منابع داده و انواع سند. با استفاده از این تکنیک، فرآیند ترکیب متن از اسناد و منابع داده های مختلف را ساده می کند.
از تخصص مدل آگاه باشید - برخی از مدل‌ها ممکن است در انواع خاصی از محتوا برتر باشند، اما با برخی دیگر مشکل دارند. ممکن است مدل‌های تنظیم‌شده‌ای وجود داشته باشند که برای دامنه متن شما مناسب‌تر باشند.
از خلاصه سازی چند سطحی برای متن های بزرگ استفاده کنید - برای متونی که از محدودیت های رمز عبور می کنند، یک رویکرد خلاصه سازی چند سطحی را در نظر بگیرید. با یک خلاصه سطح بالا شروع کنید تا ایده های اصلی را به دست آورید و سپس به تدریج زیربخش ها یا فصل ها را برای بینش های دقیق تر خلاصه کنید.
خلاصه کردن متن بر اساس موضوعات - این رویکرد به حفظ یک جریان منطقی و کاهش از دست دادن اطلاعات کمک می کند و حفظ اطلاعات حیاتی را در اولویت قرار می دهد. اگر از LLM استفاده می‌کنید، اعلان‌های واضح و مشخصی ایجاد کنید که مدل را راهنمایی می‌کند تا یک موضوع خاص را به‌جای کل متن خلاصه کند.

نتیجه

خلاصه سازی به عنوان یک ابزار حیاتی در عصر غنی از اطلاعات ما می ایستد و امکان تقطیر کارآمد اطلاعات گسترده را به اشکال مختصر و معنی دار فراهم می کند. این نقش محوری در حوزه های مختلف ایفا می کند و مزایای متعددی را ارائه می دهد. خلاصه‌سازی با انتقال سریع محتوای ضروری از اسناد طولانی، در زمان صرفه‌جویی می‌کند، با استخراج اطلاعات حیاتی به تصمیم‌گیری کمک می‌کند، و درک در آموزش و تنظیم محتوا را افزایش می‌دهد.

این پست یک مرور کلی از تکنیک های مختلف خلاصه سازی، از جمله رویکردهای استخراجی، انتزاعی و چند سطحی ارائه می دهد. با ابزارهایی مانند LangChain و مدل‌های زبان، می‌توانید از قدرت خلاصه‌سازی برای ساده‌سازی ارتباطات، بهبود تصمیم‌گیری و باز کردن پتانسیل کامل مخازن اطلاعات گسترده استفاده کنید. جدول مقایسه در این پست می تواند به شما در شناسایی مناسب ترین تکنیک های خلاصه سازی برای پروژه های خود کمک کند. علاوه بر این، نکات به اشتراک گذاشته شده در پست به عنوان دستورالعمل های ارزشمندی برای جلوگیری از خطاهای تکراری هنگام آزمایش با LLM برای خلاصه سازی متن عمل می کند. این توصیه عملی به شما قدرت می دهد تا دانش به دست آمده را به کار ببرید و از خلاصه سازی موفق و کارآمد در پروژه ها اطمینان حاصل کنید.

منابع

درباره نویسندگان

نیک بیسو مهندس یادگیری ماشین در AWS Professional Services است. او چالش های پیچیده سازمانی و فنی را با استفاده از علم داده و مهندسی حل می کند. علاوه بر این، او مدل‌های AI/ML را روی AWS Cloud می‌سازد و مستقر می‌کند. اشتیاق او به میل او به سفر و تجربیات فرهنگی متنوع گسترش می یابد.

سوهاس چودری جونالاگدا دانشمند داده در خدمات جهانی AWS است. او مشتاق کمک به مشتریان سازمانی برای حل پیچیده ترین مشکلات خود با قدرت AI/ML است. او به مشتریان کمک کرده است تا راه حل های تجاری خود را در صنایع مختلف از جمله مالی، مراقبت های بهداشتی، بانکداری، تجارت الکترونیک، رسانه، تبلیغات و بازاریابی تغییر دهند.

تابی وارد یک معمار اصلی ابر/مشاور فنی استراتژیک با تجربه گسترده در مهاجرت مشتریان و مدرن کردن حجم کاری برنامه و خدمات آنها به AWS است. او با بیش از 25 سال تجربه در توسعه و معماری نرم افزار، به دلیل توانایی غواصی عمیق و همچنین جلب مهارت اعتماد مشتریان و شرکا برای طراحی معماری ها و راه حل ها در چندین پشته فناوری و ارائه دهندگان ابر شناخته شده است.

Techniques for automatic summarization of documents using language models | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai. شیام دسای یک مهندس ابر برای خدمات داده های بزرگ و یادگیری ماشین در AWS است. او با استفاده از ترکیبی از تخصص مهندسی نرم افزار با علم داده، از برنامه های کاربردی داده های بزرگ و مشتریان در سطح سازمانی پشتیبانی می کند. او دانش گسترده ای در کاربردهای بینایی کامپیوتری و تصویربرداری برای هوش مصنوعی و همچنین کاربردهای زیست پزشکی و بیوانفورماتیک دارد.

محتوای مبتنی بر SEO و توزیع روابط عمومی. امروز تقویت شوید.
PlatoData.Network Vertical Generative Ai. به خودت قدرت بده دسترسی به اینجا.
PlatoAiStream. هوش وب 3 دانش تقویت شده دسترسی به اینجا.
PlatoESG. کربن ، CleanTech، انرژی، محیط، خورشیدی، مدیریت پسماند دسترسی به اینجا.
PlatoHealth. هوش بیوتکنولوژی و آزمایشات بالینی. دسترسی به اینجا.
منبع: https://aws.amazon.com/blogs/machine-learning/techniques-for-automatic-summarization-of-documents-using-language-models/

تمبر زمان: دسامبر 6، 2023

تمبر زمان: اکتبر 19، 2022

بازنشر افلاطون

طراحی توابع مدولار برای سیستم‌های کمک راننده پیشرفته (ADAS) در AWS

با استفاده از Amazon SageMaker Data Wrangler داده ها را از Amazon EMR برای یادگیری ماشینی آماده کنید

چندین مدل را با Amazon SageMaker و Triton Inference Server ارائه دهید

استقرار مدل های زبان بزرگ در AWS Inferentia2 با استفاده از ظرف های استنتاج مدل بزرگ

با توییتر، Amazon SageMaker و Hugging Face یک سیستم هشدار بی‌درنگ مبتنی بر اخبار بسازید.

RStudio را در محیط AWS خود پیاده کنید و با استفاده از مجوزهای AWS Lake Formation به دریاچه داده خود دسترسی پیدا کنید.

درباره‌ ما

جستجوی عمودی و هوش مصنوعی

سکو

همیشه در ارتباط ماندن

حساب