با استفاده از Amazon Comprehend، یک شناسه‌دهنده موجودیت سفارشی برای اسناد PDF بسازید

بازنشر افلاطون

دنبال: 0

در بسیاری از صنایع، استخراج به موقع نهادهای سفارشی از اسناد بسیار مهم است. این می تواند چالش برانگیز باشد. به عنوان مثال، ادعاهای بیمه اغلب حاوی ده ها ویژگی مهم (مانند تاریخ، نام، مکان و گزارش) هستند که در اسناد طولانی و متراکم پاشیده شده اند. اسکن دستی و استخراج چنین اطلاعاتی می تواند مستعد خطا و زمان بر باشد. نرم افزار مبتنی بر قانون می تواند کمک کند، اما در نهایت آنقدر سفت و سخت است که نمی تواند با انواع مختلف اسناد و طرح بندی سازگار شود.

برای کمک به خودکارسازی و سرعت بخشیدن به این فرآیند، می توانید استفاده کنید درک آمازون برای شناسایی سریع و دقیق موجودیت های سفارشی با استفاده از یادگیری ماشین (ML). این رویکرد انعطاف‌پذیر و دقیق است، زیرا سیستم می‌تواند با استفاده از آنچه در گذشته آموخته است، خود را با اسناد جدید تطبیق دهد. با این حال، تا همین اواخر، این قابلیت فقط برای اسناد متنی ساده قابل اعمال بود، به این معنی که هنگام تبدیل اسناد از فرمت اصلی، اطلاعات موقعیتی از بین می رفت. برای رسیدگی به این، این بود به تازگی اعلام کرد که Amazon Comprehend می تواند موجودیت های سفارشی را در فایل های PDF، تصاویر و فرمت های فایل Word استخراج کند.

در این پست، یک مثال عینی از صنعت بیمه را بررسی می کنیم که چگونه می توانید با استفاده از حاشیه نویسی PDF، یک شناسه سفارشی بسازید.

بررسی اجمالی راه حل

ما شما را از طریق مراحل سطح بالا زیر راهنمایی می کنیم:

حاشیه نویسی PDF ایجاد کنید.
از حاشیه نویسی PDF برای آموزش یک مدل سفارشی با استفاده از Python API استفاده کنید.
معیارهای ارزیابی را از مدل آموزش دیده به دست آورید.
انجام استنباط بر روی یک سند غیبی.

تا پایان این پست، می‌خواهیم بتوانیم یک سند PDF خام را به مدل آموزش‌دیده خود ارسال کنیم و از آن یک فایل ساختاریافته با اطلاعاتی در مورد برچسب‌های مورد علاقه‌مان خارج کنیم. به ویژه، ما مدل خود را برای شناسایی پنج نهاد زیر که به دلیل ارتباط آنها با ادعاهای بیمه انتخاب کرده‌ایم آموزش می‌دهیم: DateOfForm, DateOfLoss, NameOfInsured, LocationOfLossو InsuredMailingAddress. پس از خواندن خروجی ساختاریافته، می‌توانیم مانند تصویر زیر، اطلاعات برچسب را مستقیماً روی سند PDF تجسم کنیم.

این پست با یک دفترچه یادداشت Jupyter همراه است که شامل همین مراحل است. در حین اجرای مراحل آن راحت باشید دفتر یادداشت. توجه داشته باشید که باید آن را تنظیم کنید آمازون SageMaker محیطی که به Amazon Comprehend اجازه می دهد از آن بخواند سرویس ذخیره سازی ساده آمازون (Amazon S3) همانطور که در بالای نوت بوک توضیح داده شده است.

حاشیه نویسی PDF ایجاد کنید

برای ایجاد حاشیه نویسی برای اسناد PDF، می توانید استفاده کنید Amazon SageMaker Ground Truth، یک سرویس برچسب گذاری داده کاملاً مدیریت شده که ساخت مجموعه داده های آموزشی بسیار دقیق برای ML را آسان می کند.

برای این آموزش، ما قبلاً فایل‌های PDF را به شکل اصلی (بدون تبدیل به متن ساده) با استفاده از Ground Truth حاشیه‌نویسی کرده‌ایم. کار Ground Truth سه مسیری را ایجاد می کند که ما برای آموزش مدل آمازون Comprehend سفارشی خود نیاز داریم:

منابع – مسیر فایل های PDF ورودی.
حاشیه نویسی – مسیر فایل های JSON حاشیه نویسی حاوی اطلاعات موجودیت برچسب گذاری شده.
آشکار – فایلی که به محل حاشیه نویسی ها و فایل های PDF منبع اشاره می کند. این فایل برای ایجاد کار آموزش تشخیص نهاد سفارشی Amazon Comprehend و آموزش یک مدل سفارشی استفاده می شود.

تصویر زیر نمونه ای از حاشیه نویسی را نشان می دهد.

کار سفارشی Ground Truth یک حاشیه نویسی PDF ایجاد می کند که اطلاعات سطح بلوک را در مورد موجودیت ثبت می کند. چنین اطلاعاتی در سطح بلوک مختصات موقعیتی دقیق موجودیت را فراهم می کند (با بلوک های فرزند که هر کلمه را در بلوک موجودیت نشان می دهد). این متفاوت از یک کار استاندارد Ground Truth است که در آن داده‌های PDF به قالب متنی صاف می‌شوند و فقط اطلاعات افست - اما نه اطلاعات مختصات دقیق - در حین حاشیه‌نویسی گرفته می‌شوند. اطلاعات موقعیتی غنی که با این پارادایم حاشیه نویسی سفارشی به دست می آوریم به ما امکان می دهد مدل دقیق تری را آموزش دهیم.

مانیفست که از این نوع کار تولید می شود، مانیفست تقویت شده نامیده می شود، برخلاف CSV که برای حاشیه نویسی استاندارد استفاده می شود. برای اطلاعات بیشتر ببین حاشیه نویسی.

از حاشیه نویسی PDF برای آموزش یک مدل سفارشی با استفاده از Python API استفاده کنید

یک فایل مانیفست تقویت شده باید در قالب JSON Lines قالب بندی شود. در قالب JSON Lines، هر خط در فایل یک شیء JSON کامل است که به دنبال آن یک جداکننده خط جدید قرار دارد.

کد زیر ورودی این فایل مانیفست تقویت شده است.

چند نکته قابل توجه:

پنج نوع برچسب گذاری با این شغل مرتبط است: DateOfForm, DateOfLoss, NameOfInsured, LocationOfLossو InsuredMailingAddress.
فایل مانیفست هم به مکان PDF منبع و هم به مکان حاشیه نویسی اشاره دارد.
فراداده مربوط به کار حاشیه نویسی (مانند تاریخ ایجاد) گرفته می شود.
Use-textract-only تنظیم شده است False، به این معنی که ابزار حاشیه نویسی تصمیم می گیرد که آیا از PDFPlumber (برای یک PDF بومی) استفاده کند یا خیر متن آمازون (برای یک پی دی اف اسکن شده). اگر تنظیم شود true، متن آمازون در هر دو مورد استفاده می شود (که هزینه بیشتری دارد اما به طور بالقوه دقیق تر است).

اکنون می توانیم شناساگر را آموزش دهیم، همانطور که در کد مثال زیر نشان داده شده است.

ما یک شناسه برای شناسایی هر پنج نوع موجودیت ایجاد می کنیم. اگر مایل بودیم می توانستیم از زیر مجموعه ای از این موجودیت ها استفاده کنیم. می توانید از 25 موجودیت استفاده کنید.

برای جزئیات هر پارامتر، مراجعه کنید create_entity_recognizer.

بسته به اندازه مجموعه آموزشی، زمان تمرین می تواند متفاوت باشد. برای این مجموعه داده، آموزش تقریباً 1 ساعت طول می کشد. برای نظارت بر وضعیت کار آموزشی می توانید از describe_entity_recognizer API

معیارهای ارزیابی را از مدل آموزش دیده به دست آورید

Amazon Comprehend معیارهای عملکرد مدل را برای یک مدل آموزش‌دیده ارائه می‌کند، که نشان می‌دهد مدل آموزش‌دیده چقدر خوب انتظار می‌رود با استفاده از ورودی‌های مشابه، پیش‌بینی کند. ما می‌توانیم هم معیارهای دقیق و فراخوان جهانی و هم معیارهای هر نهاد را بدست آوریم. یک مدل دقیق دقت بالا و یادآوری بالایی دارد. دقت بالا به این معنی است که مدل معمولاً زمانی که یک برچسب خاص را نشان می دهد صحیح است. یادآوری بالا به این معنی است که مدل بیشتر برچسب ها را پیدا کرده است. F1 یک متریک ترکیبی (میانگین هارمونیک) از این معیارها است، و بنابراین زمانی که هر دو مؤلفه بالا هستند، بالا است. برای توضیح دقیق معیارها، نگاه کنید به معیارهای تشخیص نهاد سفارشی.

هنگامی که اسناد را به کار آموزشی ارائه می دهید، Amazon Comprehend به طور خودکار آنها را در قطار و مجموعه آزمایشی جدا می کند. وقتی مدل رسید TRAINED وضعیت، شما می توانید استفاده کنید describe_entity_recognizer API دوباره برای به دست آوردن معیارهای ارزیابی در مجموعه آزمایشی.

در زیر نمونه ای از معیارهای جهانی آورده شده است.

در زیر نمونه ای از معیارهای هر نهاد ارائه شده است.

نمرات بالا نشان می دهد که مدل به خوبی یاد گرفته است که چگونه این موجودات را شناسایی کند.

انجام استنباط بر روی یک سند غیبی

بیایید استنتاج را با مدل آموزش‌دیده خود بر روی سندی اجرا کنیم که بخشی از روند آموزشی نیست. ما می توانیم از این API ناهمزمان برای NER استاندارد یا سفارشی استفاده کنیم. در صورت استفاده از آن برای NER سفارشی (مانند این پست)، باید ARN مدل آموزش دیده را پاس کنیم.

با چاپ پاسخ می توانیم کار ارسالی را بررسی کنیم.

ما می‌توانیم خروجی کار تشخیص با پانداها را به یک جدول قالب‌بندی کنیم. را Score مقدار نشان دهنده سطح اطمینان مدل در مورد موجودیت است.

در نهایت، می‌توانیم پیش‌بینی‌ها را روی اسناد نادیده قرار دهیم، که نتیجه را همانطور که در بالای این پست نشان داده شده است، نشان می‌دهد.

نتیجه

در این پست نحوه استخراج موجودیت های سفارشی در قالب PDF بومی خود را با استفاده از Amazon Comprehend مشاهده کردید. به عنوان مراحل بعدی، غواصی عمیق تر را در نظر بگیرید:

با استفاده از نوت بوک همراه، تشخیص دهنده خود را آموزش دهید اینجا کلیک نمایید. به خاطر داشته باشید که پس از پایان کار، منابع را حذف کنید تا از هزینه های بعدی جلوگیری کنید.
کار حاشیه نویسی سفارشی خود را برای جمع آوری حاشیه نویسی PDF برای نهادهای مورد علاقه خود تنظیم کنید. برای اطلاعات بیشتر مراجعه کنید حاشیه نویسی اسناد سفارشی برای استخراج موجودیت های نامگذاری شده در اسناد با استفاده از آمازون Comprehend.
یک مدل NER سفارشی را در کنسول آمازون Comprehend آموزش دهید. برای اطلاعات بیشتر ببین با Amazon Comprehend موجودیت های سفارشی را از اسناد در قالب اصلی آنها استخراج کنید.

درباره نویسنده

جاشوا لوی دانشمند ارشد کاربردی در آزمایشگاه راه حل های یادگیری ماشین آمازون است، جایی که به مشتریان کمک می کند راه حل های AI/ML را برای حل مشکلات کلیدی کسب و کار طراحی و بسازند.

اندرو آنگ یک مهندس یادگیری ماشین در آزمایشگاه راه‌حل‌های یادگیری ماشین آمازون است، جایی که به مشتریانی از طیف متنوعی از صنایع کمک می‌کند تا راه‌حل‌های AI/ML را برای حل فوری‌ترین مشکلات تجاری خود شناسایی و بسازند. خارج از محل کار، او از تماشای ویدیوهای سفر و غذا لذت می برد.

الکس چیرایت یک مهندس نرم‌افزار در آزمایشگاه راه‌حل‌های یادگیری ماشین آمازون است که بر راه‌حل‌های مبتنی بر کاربرد ساختمان تمرکز دارد که به مشتریان نشان می‌دهد چگونه قدرت خدمات AWS AI/ML را برای حل مشکلات تجاری دنیای واقعی باز کنند.

جنیفر زو یک دانشمند کاربردی از آزمایشگاه راه حل های یادگیری ماشین هوش مصنوعی آمازون است. او با مشتریان AWS کار می کند تا راه حل های AI/ML را برای نیازهای تجاری با اولویت بالا آنها بسازند.

نیاریکا جایانتی یک مهندس Front End در آزمایشگاه راه حل های یادگیری ماشین آمازون - Human in the Loop است. او به ایجاد راه حل های تجربه کاربری برای مشتریان Amazon SageMaker Ground Truth کمک می کند.

بوریس آرونچیک مدیر آزمایشگاه راه‌حل‌های یادگیری ماشین هوش مصنوعی آمازون است که در آنجا تیمی از دانشمندان و مهندسان ML را رهبری می‌کند تا به مشتریان AWS کمک کند تا اهداف تجاری را با استفاده از راه‌حل‌های AI/ML درک کنند.

تمبر زمان: آوریل 8، 2022

تمبر زمان: اوت 2، 2023

با استفاده از Amazon Comprehend یک شناسه موجودیت سفارشی برای اسناد PDF بسازید

بازنشر افلاطون

بررسی اجمالی راه حل

حاشیه نویسی PDF ایجاد کنید

از حاشیه نویسی PDF برای آموزش یک مدل سفارشی با استفاده از Python API استفاده کنید

معیارهای ارزیابی را از مدل آموزش دیده به دست آورید

انجام استنباط بر روی یک سند غیبی

نتیجه

درباره نویسنده

بیشتر از آموزش ماشین AWS

ابرپارامترها را با تنظیم خودکار مدل Amazon SageMaker بهینه کنید

از ADFS OIDC به عنوان IdP برای نیروی کار خصوصی Amazon SageMaker Ground Truth استفاده کنید

با استفاده از Amazon SageMaker JumpStart، مدل‌های طبقه‌بندی تصویر با عملکرد بالا بسازید

با ساخت سریع Amazon SageMaker Canvas یک مدل پیش‌بینی سری زمانی را سریع‌تر آموزش دهید

از بینایی کامپیوتری برای اندازه‌گیری عملکرد کشاورزی با برچسب‌های سفارشی شناسایی آمازون استفاده کنید

با استفاده از Amazon Personalize | توصیه های شخصی سازی شده را در زمان واقعی پیاده سازی کنید خدمات وب آمازون

درباره‌ ما

جستجوی عمودی و هوش مصنوعی

سکو

همیشه در ارتباط ماندن

حساب