در بسیاری از صنایع، استخراج به موقع نهادهای سفارشی از اسناد بسیار مهم است. این می تواند چالش برانگیز باشد. به عنوان مثال، ادعاهای بیمه اغلب حاوی ده ها ویژگی مهم (مانند تاریخ، نام، مکان و گزارش) هستند که در اسناد طولانی و متراکم پاشیده شده اند. اسکن دستی و استخراج چنین اطلاعاتی می تواند مستعد خطا و زمان بر باشد. نرم افزار مبتنی بر قانون می تواند کمک کند، اما در نهایت آنقدر سفت و سخت است که نمی تواند با انواع مختلف اسناد و طرح بندی سازگار شود.
برای کمک به خودکارسازی و سرعت بخشیدن به این فرآیند، می توانید استفاده کنید درک آمازون برای شناسایی سریع و دقیق موجودیت های سفارشی با استفاده از یادگیری ماشین (ML). این رویکرد انعطافپذیر و دقیق است، زیرا سیستم میتواند با استفاده از آنچه در گذشته آموخته است، خود را با اسناد جدید تطبیق دهد. با این حال، تا همین اواخر، این قابلیت فقط برای اسناد متنی ساده قابل اعمال بود، به این معنی که هنگام تبدیل اسناد از فرمت اصلی، اطلاعات موقعیتی از بین می رفت. برای رسیدگی به این، این بود به تازگی اعلام کرد که Amazon Comprehend می تواند موجودیت های سفارشی را در فایل های PDF، تصاویر و فرمت های فایل Word استخراج کند.
در این پست، یک مثال عینی از صنعت بیمه را بررسی می کنیم که چگونه می توانید با استفاده از حاشیه نویسی PDF، یک شناسه سفارشی بسازید.
بررسی اجمالی راه حل
ما شما را از طریق مراحل سطح بالا زیر راهنمایی می کنیم:
- حاشیه نویسی PDF ایجاد کنید.
- از حاشیه نویسی PDF برای آموزش یک مدل سفارشی با استفاده از Python API استفاده کنید.
- معیارهای ارزیابی را از مدل آموزش دیده به دست آورید.
- انجام استنباط بر روی یک سند غیبی.
تا پایان این پست، میخواهیم بتوانیم یک سند PDF خام را به مدل آموزشدیده خود ارسال کنیم و از آن یک فایل ساختاریافته با اطلاعاتی در مورد برچسبهای مورد علاقهمان خارج کنیم. به ویژه، ما مدل خود را برای شناسایی پنج نهاد زیر که به دلیل ارتباط آنها با ادعاهای بیمه انتخاب کردهایم آموزش میدهیم: DateOfForm
, DateOfLoss
, NameOfInsured
, LocationOfLoss
و InsuredMailingAddress
. پس از خواندن خروجی ساختاریافته، میتوانیم مانند تصویر زیر، اطلاعات برچسب را مستقیماً روی سند PDF تجسم کنیم.
این پست با یک دفترچه یادداشت Jupyter همراه است که شامل همین مراحل است. در حین اجرای مراحل آن راحت باشید دفتر یادداشت. توجه داشته باشید که باید آن را تنظیم کنید آمازون SageMaker محیطی که به Amazon Comprehend اجازه می دهد از آن بخواند سرویس ذخیره سازی ساده آمازون (Amazon S3) همانطور که در بالای نوت بوک توضیح داده شده است.
حاشیه نویسی PDF ایجاد کنید
برای ایجاد حاشیه نویسی برای اسناد PDF، می توانید استفاده کنید Amazon SageMaker Ground Truth، یک سرویس برچسب گذاری داده کاملاً مدیریت شده که ساخت مجموعه داده های آموزشی بسیار دقیق برای ML را آسان می کند.
برای این آموزش، ما قبلاً فایلهای PDF را به شکل اصلی (بدون تبدیل به متن ساده) با استفاده از Ground Truth حاشیهنویسی کردهایم. کار Ground Truth سه مسیری را ایجاد می کند که ما برای آموزش مدل آمازون Comprehend سفارشی خود نیاز داریم:
- منابع – مسیر فایل های PDF ورودی.
- حاشیه نویسی – مسیر فایل های JSON حاشیه نویسی حاوی اطلاعات موجودیت برچسب گذاری شده.
- آشکار – فایلی که به محل حاشیه نویسی ها و فایل های PDF منبع اشاره می کند. این فایل برای ایجاد کار آموزش تشخیص نهاد سفارشی Amazon Comprehend و آموزش یک مدل سفارشی استفاده می شود.
تصویر زیر نمونه ای از حاشیه نویسی را نشان می دهد.
کار سفارشی Ground Truth یک حاشیه نویسی PDF ایجاد می کند که اطلاعات سطح بلوک را در مورد موجودیت ثبت می کند. چنین اطلاعاتی در سطح بلوک مختصات موقعیتی دقیق موجودیت را فراهم می کند (با بلوک های فرزند که هر کلمه را در بلوک موجودیت نشان می دهد). این متفاوت از یک کار استاندارد Ground Truth است که در آن دادههای PDF به قالب متنی صاف میشوند و فقط اطلاعات افست - اما نه اطلاعات مختصات دقیق - در حین حاشیهنویسی گرفته میشوند. اطلاعات موقعیتی غنی که با این پارادایم حاشیه نویسی سفارشی به دست می آوریم به ما امکان می دهد مدل دقیق تری را آموزش دهیم.
مانیفست که از این نوع کار تولید می شود، مانیفست تقویت شده نامیده می شود، برخلاف CSV که برای حاشیه نویسی استاندارد استفاده می شود. برای اطلاعات بیشتر ببین حاشیه نویسی.
از حاشیه نویسی PDF برای آموزش یک مدل سفارشی با استفاده از Python API استفاده کنید
یک فایل مانیفست تقویت شده باید در قالب JSON Lines قالب بندی شود. در قالب JSON Lines، هر خط در فایل یک شیء JSON کامل است که به دنبال آن یک جداکننده خط جدید قرار دارد.
کد زیر ورودی این فایل مانیفست تقویت شده است.
چند نکته قابل توجه:
- پنج نوع برچسب گذاری با این شغل مرتبط است:
DateOfForm
,DateOfLoss
,NameOfInsured
,LocationOfLoss
وInsuredMailingAddress
. - فایل مانیفست هم به مکان PDF منبع و هم به مکان حاشیه نویسی اشاره دارد.
- فراداده مربوط به کار حاشیه نویسی (مانند تاریخ ایجاد) گرفته می شود.
Use-textract-only
تنظیم شده استFalse
، به این معنی که ابزار حاشیه نویسی تصمیم می گیرد که آیا از PDFPlumber (برای یک PDF بومی) استفاده کند یا خیر متن آمازون (برای یک پی دی اف اسکن شده). اگر تنظیم شودtrue
، متن آمازون در هر دو مورد استفاده می شود (که هزینه بیشتری دارد اما به طور بالقوه دقیق تر است).
اکنون می توانیم شناساگر را آموزش دهیم، همانطور که در کد مثال زیر نشان داده شده است.
ما یک شناسه برای شناسایی هر پنج نوع موجودیت ایجاد می کنیم. اگر مایل بودیم می توانستیم از زیر مجموعه ای از این موجودیت ها استفاده کنیم. می توانید از 25 موجودیت استفاده کنید.
برای جزئیات هر پارامتر، مراجعه کنید create_entity_recognizer.
بسته به اندازه مجموعه آموزشی، زمان تمرین می تواند متفاوت باشد. برای این مجموعه داده، آموزش تقریباً 1 ساعت طول می کشد. برای نظارت بر وضعیت کار آموزشی می توانید از describe_entity_recognizer
API
معیارهای ارزیابی را از مدل آموزش دیده به دست آورید
Amazon Comprehend معیارهای عملکرد مدل را برای یک مدل آموزشدیده ارائه میکند، که نشان میدهد مدل آموزشدیده چقدر خوب انتظار میرود با استفاده از ورودیهای مشابه، پیشبینی کند. ما میتوانیم هم معیارهای دقیق و فراخوان جهانی و هم معیارهای هر نهاد را بدست آوریم. یک مدل دقیق دقت بالا و یادآوری بالایی دارد. دقت بالا به این معنی است که مدل معمولاً زمانی که یک برچسب خاص را نشان می دهد صحیح است. یادآوری بالا به این معنی است که مدل بیشتر برچسب ها را پیدا کرده است. F1 یک متریک ترکیبی (میانگین هارمونیک) از این معیارها است، و بنابراین زمانی که هر دو مؤلفه بالا هستند، بالا است. برای توضیح دقیق معیارها، نگاه کنید به معیارهای تشخیص نهاد سفارشی.
هنگامی که اسناد را به کار آموزشی ارائه می دهید، Amazon Comprehend به طور خودکار آنها را در قطار و مجموعه آزمایشی جدا می کند. وقتی مدل رسید TRAINED
وضعیت، شما می توانید استفاده کنید describe_entity_recognizer
API دوباره برای به دست آوردن معیارهای ارزیابی در مجموعه آزمایشی.
در زیر نمونه ای از معیارهای جهانی آورده شده است.
در زیر نمونه ای از معیارهای هر نهاد ارائه شده است.
نمرات بالا نشان می دهد که مدل به خوبی یاد گرفته است که چگونه این موجودات را شناسایی کند.
انجام استنباط بر روی یک سند غیبی
بیایید استنتاج را با مدل آموزشدیده خود بر روی سندی اجرا کنیم که بخشی از روند آموزشی نیست. ما می توانیم از این API ناهمزمان برای NER استاندارد یا سفارشی استفاده کنیم. در صورت استفاده از آن برای NER سفارشی (مانند این پست)، باید ARN مدل آموزش دیده را پاس کنیم.
با چاپ پاسخ می توانیم کار ارسالی را بررسی کنیم.
ما میتوانیم خروجی کار تشخیص با پانداها را به یک جدول قالببندی کنیم. را Score
مقدار نشان دهنده سطح اطمینان مدل در مورد موجودیت است.
در نهایت، میتوانیم پیشبینیها را روی اسناد نادیده قرار دهیم، که نتیجه را همانطور که در بالای این پست نشان داده شده است، نشان میدهد.
نتیجه
در این پست نحوه استخراج موجودیت های سفارشی در قالب PDF بومی خود را با استفاده از Amazon Comprehend مشاهده کردید. به عنوان مراحل بعدی، غواصی عمیق تر را در نظر بگیرید:
- با استفاده از نوت بوک همراه، تشخیص دهنده خود را آموزش دهید اینجا کلیک نمایید. به خاطر داشته باشید که پس از پایان کار، منابع را حذف کنید تا از هزینه های بعدی جلوگیری کنید.
- کار حاشیه نویسی سفارشی خود را برای جمع آوری حاشیه نویسی PDF برای نهادهای مورد علاقه خود تنظیم کنید. برای اطلاعات بیشتر مراجعه کنید حاشیه نویسی اسناد سفارشی برای استخراج موجودیت های نامگذاری شده در اسناد با استفاده از آمازون Comprehend.
- یک مدل NER سفارشی را در کنسول آمازون Comprehend آموزش دهید. برای اطلاعات بیشتر ببین با Amazon Comprehend موجودیت های سفارشی را از اسناد در قالب اصلی آنها استخراج کنید.
درباره نویسنده
جاشوا لوی دانشمند ارشد کاربردی در آزمایشگاه راه حل های یادگیری ماشین آمازون است، جایی که به مشتریان کمک می کند راه حل های AI/ML را برای حل مشکلات کلیدی کسب و کار طراحی و بسازند.
اندرو آنگ یک مهندس یادگیری ماشین در آزمایشگاه راهحلهای یادگیری ماشین آمازون است، جایی که به مشتریانی از طیف متنوعی از صنایع کمک میکند تا راهحلهای AI/ML را برای حل فوریترین مشکلات تجاری خود شناسایی و بسازند. خارج از محل کار، او از تماشای ویدیوهای سفر و غذا لذت می برد.
الکس چیرایت یک مهندس نرمافزار در آزمایشگاه راهحلهای یادگیری ماشین آمازون است که بر راهحلهای مبتنی بر کاربرد ساختمان تمرکز دارد که به مشتریان نشان میدهد چگونه قدرت خدمات AWS AI/ML را برای حل مشکلات تجاری دنیای واقعی باز کنند.
جنیفر زو یک دانشمند کاربردی از آزمایشگاه راه حل های یادگیری ماشین هوش مصنوعی آمازون است. او با مشتریان AWS کار می کند تا راه حل های AI/ML را برای نیازهای تجاری با اولویت بالا آنها بسازند.
نیاریکا جایانتی یک مهندس Front End در آزمایشگاه راه حل های یادگیری ماشین آمازون - Human in the Loop است. او به ایجاد راه حل های تجربه کاربری برای مشتریان Amazon SageMaker Ground Truth کمک می کند.
بوریس آرونچیک مدیر آزمایشگاه راهحلهای یادگیری ماشین هوش مصنوعی آمازون است که در آنجا تیمی از دانشمندان و مهندسان ML را رهبری میکند تا به مشتریان AWS کمک کند تا اهداف تجاری را با استفاده از راهحلهای AI/ML درک کنند.
- "
- &
- 100
- درباره ما
- دقیق
- در میان
- نشانی
- AI
- معرفی
- قبلا
- آمازون
- API
- روش
- تقریبا
- خواص
- افزوده شده
- خودکار بودن
- AWS
- مسدود کردن
- ساختن
- بنا
- کسب و کار
- به چالش کشیدن
- بار
- کودک
- ادعای
- رمز
- جمع آوری
- اعتماد به نفس
- کنسول
- شامل
- مختصات
- میتوانست
- ایجاد
- بحرانی
- سفارشی
- مشتریان
- داده ها
- تاریخ
- عمیق تر
- طرح
- کشف
- مستقیما
- اسناد و مدارک
- مهندس
- مورد تأیید
- اشخاص
- محیط
- مثال
- انتظار می رود
- تجربه
- قابل انعطاف
- به دنبال
- پیروی
- غذا
- فرم
- قالب
- یافت
- رایگان
- آینده
- جهانی
- اهداف
- کمک
- کمک می کند
- زیاد
- خیلی
- چگونه
- چگونه
- HTTPS
- انسان
- شناسایی
- تصویر
- مهم
- لوازم
- صنعت
- اطلاعات
- ورودی
- بیمه
- علاقه
- IT
- کار
- کلید
- آزمایشگاه
- برچسب
- برچسب ها
- منجر می شود
- آموخته
- یادگیری
- سطح
- بهره برداری
- لاین
- محل
- مکان
- دستگاه
- فراگیری ماشین
- باعث می شود
- اداره می شود
- مدیر
- روش
- دستی
- معنی
- متریک
- ML
- مدل
- مانیتور
- بیش
- اکثر
- نام
- دفتر یادداشت
- چاپ افست
- خود
- نمونه
- کارایی
- قدرت
- پیش بینی
- مشکلات
- روند
- ارائه
- فراهم می کند
- به سرعت
- خام
- مطالعه
- دنیای واقعی
- تحقق بخشیدن
- شناختن
- گزارش ها
- منابع
- پاسخ
- این فایل نقد می نویسید:
- دویدن
- در حال اجرا
- پویش
- دانشمند
- دانشمندان
- سرویس
- خدمات
- تنظیم
- مشابه
- ساده
- اندازه
- نرم افزار
- مهندس نرمافزار
- مزایا
- حل
- سرعت
- استاندارد
- وضعیت
- ذخیره سازی
- ساخت یافته
- ارسال
- سیستم
- تیم
- آزمون
- منبع
- از طریق
- زمان
- زمان بر
- ابزار
- بالا
- آموزش
- سفر
- باز
- us
- استفاده کنید
- معمولا
- ارزش
- چی
- چه
- در حین
- در داخل
- بدون
- مهاجرت کاری
- با این نسخهها کار
- جهان