Introducing One-step Classification And Entity Recognition With Amazon Comprehend For Intelligent Document Processing

بازنشر افلاطون

دنبال: 0

راه‌حل‌های پردازش اسناد هوشمند (IDP) داده‌ها را برای پشتیبانی از اتوماسیون وظایف پردازش اسناد با حجم بالا و تکراری و برای تجزیه و تحلیل و بینش استخراج می‌کنند. IDP از فناوری‌های زبان طبیعی و بینایی رایانه‌ای برای استخراج داده‌ها از محتوای ساختاریافته و بدون ساختار، به‌ویژه از اسناد، برای پشتیبانی از اتوماسیون و تقویت استفاده می‌کند.» - گارتنر

هدف از پردازش هوشمند اسناد آمازون (IDP) خودکارسازی پردازش مقادیر زیادی از اسناد با استفاده از یادگیری ماشینی (ML) به منظور افزایش بهره وری، کاهش هزینه های مرتبط با نیروی کار انسانی و ارائه یک تجربه کاربری یکپارچه است. مشتریان زمان و تلاش قابل توجهی را صرف شناسایی اسناد و استخراج اطلاعات حیاتی از آنها برای موارد استفاده مختلف می کنند. امروز، درک آمازون از طبقه‌بندی برای اسناد متنی ساده پشتیبانی می‌کند، که از شما می‌خواهد اسناد را در قالب‌های نیمه ساختاریافته (اسکن شده، PDF دیجیتال یا تصاویری مانند PNG، JPG، TIFF) از قبل پردازش کنید و سپس از خروجی متن ساده برای اجرای استنباط با خود استفاده کنید. طبقه بندی سفارشی مدل. به طور مشابه، برای شناسایی موجودیت سفارشی در زمان واقعی، پیش پردازش برای استخراج متن برای اسناد نیمه ساختار یافته مانند PDF و فایل های تصویری مورد نیاز است. این فرآیند دو مرحله‌ای پیچیدگی‌هایی را در گردش‌های کاری پردازش اسناد معرفی می‌کند.

سال گذشته ، ما پشتیبانی از فرمت های اسناد بومی را اعلام کرد با شناسایی نهاد با نام سفارشی (NER) مشاغل ناهمزمان. امروز، ما هیجان‌زده هستیم که طبقه‌بندی اسناد یک مرحله‌ای و تجزیه و تحلیل بلادرنگ را برای NER برای اسناد نیمه ساختاریافته در قالب‌های بومی (PDF، TIFF، JPG، PNG) با استفاده از Amazon Comprehend اعلام کنیم. به طور خاص، ما قابلیت های زیر را اعلام می کنیم:

پشتیبانی از اسناد در قالب های بومی برای طبقه بندی سفارشی تجزیه و تحلیل زمان واقعی و مشاغل ناهمزمان
پشتیبانی از اسناد در قالب‌های بومی برای تجزیه و تحلیل آنی موجودیت سفارشی

با این نسخه جدید، Amazon Comprehend طبقه‌بندی سفارشی و شناسایی موجودیت سفارشی (NER) اسناد را با فرمت‌هایی مانند PDF، TIFF، PNG و JPEG مستقیماً بدون نیاز به استخراج متن ساده با کدگذاری UTF8 از آنها پشتیبانی می‌کند. شکل زیر فرآیند قبلی را با رویه و پشتیبانی جدید مقایسه می‌کند.

این ویژگی با حذف هر گونه مراحل پیش پردازش مورد نیاز برای استخراج متن ساده از اسناد، گردش کار پردازش سند را ساده می کند و زمان کلی مورد نیاز برای پردازش آنها را کاهش می دهد.

در این پست، طراحی راه حل گردش کار IDP سطح بالا، چند مورد استفاده در صنعت، ویژگی های جدید Amazon Comprehend و نحوه استفاده از آنها را مورد بحث قرار می دهیم.

بررسی اجمالی راه حل

بیایید با بررسی یک مورد استفاده رایج در صنعت بیمه شروع کنیم. یک فرآیند خسارت بیمه معمولی شامل یک بسته خسارت است که ممکن است حاوی چندین سند باشد. هنگامی که یک ادعای بیمه ثبت می شود، شامل اسنادی مانند فرم ادعای بیمه، گزارش حوادث، اسناد هویتی و اسناد ادعای شخص ثالث می شود. حجم اسناد برای رسیدگی و رسیدگی به ادعای بیمه بسته به نوع ادعا و فرآیندهای تجاری درگیر می تواند تا صدها و حتی هزاران صفحه باشد. نمایندگان و داوران ادعاهای بیمه معمولاً صدها ساعت را صرف الک کردن، مرتب‌سازی و استخراج اطلاعات از صدها یا حتی هزاران پرونده ادعایی می‌کنند.

مشابه مورد استفاده صنعت بیمه، صنعت پرداخت نیز حجم زیادی از اسناد نیمه ساختاریافته را برای قراردادهای پرداخت فرامرزی، فاکتورها و صورت‌حساب‌های فارکس پردازش می‌کند. کاربران تجاری بیشتر وقت خود را صرف فعالیت های دستی مانند شناسایی، سازماندهی، اعتبارسنجی، استخراج و ارسال اطلاعات مورد نیاز به برنامه های پایین دستی می کنند. این فرآیند دستی خسته کننده، تکراری، مستعد خطا، پرهزینه و سخت است. سایر صنایعی که با چالش های مشابهی روبرو هستند عبارتند از وام مسکن و وام، مراقبت های بهداشتی و علوم زیستی، حقوقی، حسابداری و مدیریت مالیات. برای مشاغل بسیار مهم است که چنین حجم زیادی از اسناد را به موقع و با دقت بالا و تلاش دستی نامی پردازش کنند.

Amazon Comprehend قابلیت‌های کلیدی را برای خودکارسازی طبقه‌بندی اسناد و استخراج اطلاعات از حجم زیادی از اسناد با دقت بالا، به روشی مقیاس‌پذیر و مقرون‌به‌صرفه فراهم می‌کند. نمودار زیر یک گردش کار منطقی IDP با Amazon Comprehend را نشان می دهد. هسته جریان کار شامل طبقه بندی اسناد و استخراج اطلاعات با استفاده از NER با مدل های سفارشی آمازون Comprehend است. این نمودار همچنین نشان می‌دهد که چگونه مدل‌های سفارشی را می‌توان به طور مداوم بهبود بخشید تا دقت‌های بالاتری را با تکامل اسناد و فرآیندهای تجاری ارائه کند.

طبقه بندی اسناد سفارشی

با طبقه‌بندی سفارشی Amazon Comprehend، می‌توانید اسناد خود را در دسته‌های (کلاس‌ها) از پیش تعریف‌شده سازمان‌دهی کنید. در سطح بالا، مراحل زیر برای راه اندازی یک طبقه بندی اسناد سفارشی و انجام طبقه بندی اسناد است:

داده های آموزشی را برای آموزش یک طبقه بندی کننده اسناد سفارشی آماده کنید.
با داده های آموزشی یک طبقه بندی کننده اسناد مشتری را آموزش دهید.
پس از آموزش مدل، به صورت اختیاری یک نقطه پایانی بلادرنگ مستقر کنید.
طبقه بندی اسناد را با یک کار ناهمزمان یا در زمان واقعی با استفاده از نقطه پایانی انجام دهید.

مراحل 1 و 2 معمولاً در ابتدای پروژه IDP پس از شناسایی کلاس های سند مربوط به فرآیند تجاری انجام می شود. سپس یک مدل طبقه‌بندی‌کننده سفارشی می‌تواند به صورت دوره‌ای برای بهبود دقت و معرفی کلاس‌های سند جدید دوباره آموزش داده شود. شما می توانید یک مدل طبقه بندی سفارشی را در هر دو آموزش دهید حالت چند کلاسه or حالت چند برچسبی. آموزش را می توان برای هر یک به یکی از دو روش انجام داد: با استفاده از یک فایل CSV، یا استفاده از یک فایل مانیفست تقویت شده. رجوع شود به آماده سازی داده های آموزشی برای جزئیات بیشتر در مورد آموزش یک مدل طبقه بندی سفارشی. پس از آموزش یک مدل طبقه‌بندی‌کننده سفارشی، یک سند را می‌توان با استفاده از هر دو طبقه‌بندی کرد تجزیه و تحلیل زمان واقعی و یا کار ناهمزمان. تجزیه و تحلیل زمان واقعی نیاز به یک نقطه پایانی که قرار است مستقر شود با مدل آموزش دیده و بسته به مورد استفاده برای اسناد کوچک مناسب است. برای تعداد زیادی از اسناد، کار طبقه بندی ناهمزمان بهترین گزینه است.

یک مدل طبقه بندی اسناد سفارشی را آموزش دهید

برای نشان دادن ویژگی جدید، ما یک مدل طبقه بندی سفارشی را در حالت چند برچسبی آموزش دادیم که می تواند اسناد بیمه را در یکی از هفت کلاس مختلف طبقه بندی کند. کلاس ها هستند INSURANCE_ID, PASSPORT, LICENSE, INVOICE_RECEIPT, MEDICAL_TRANSCRIPTION, DISCHARGE_SUMMARYو CMS1500. ما می‌خواهیم اسناد نمونه را در قالب‌های PDF، PNG و JPEG بومی، ذخیره شده در یک طبقه‌بندی کنیم سرویس ذخیره سازی ساده آمازون سطل (Amazon S3) با استفاده از مدل طبقه بندی. برای شروع یک کار طبقه بندی ناهمزمان، مراحل زیر را کامل کنید:

در کنسول آمازون Comprehend، را انتخاب کنید تحلیل مشاغل در صفحه ناوبری
را انتخاب کنید ایجاد شغل.
برای نام، یک نام برای شغل طبقه بندی خود وارد کنید.
برای نوع تحلیلانتخاب کنید طبقه بندی سفارشی.
برای مدل طبقه بندی کننده، مدل طبقه بندی آموزش دیده مناسب را انتخاب کنید.
برای نسخه، نسخه مدل مناسب را انتخاب کنید.

در داده های ورودی بخش، ما مکانی را که اسناد ما در آن ذخیره می شود، ارائه می دهیم.

برای قالب ورودی، انتخاب کنید یک سند در هر فایل.
برای حالت خواندن سندانتخاب کنید اقدام خواندن سند را اجباری کنید.
برای اقدام خواندن سند، انتخاب کنید متن سند را تشخیص می دهد.

این امر Amazon Comprehend را قادر می سازد از آن استفاده کند متن آمازون ردیابی API برای خواندن اسناد قبل از اجرای طبقه بندی. را DetectDocumentText API در استخراج خطوط و کلمات متن از اسناد مفید است. شما همچنین می توانید انتخاب کنید سند تجزیه و تحلیل متن برای اقدام خواندن سند، در این صورت Amazon Comprehend از متن آمازون استفاده می کند آنالیز سند API برای خواندن اسناد. با AnalyzeDocument API، شما می توانید استخراج را انتخاب کنید جداول, تشکیل می دهد، یا هر دو. این حالت خواندن سند این گزینه Amazon Comprehend را قادر می‌سازد تا متن را از اسناد پشت صحنه استخراج کند، که به کاهش مرحله اضافی استخراج متن از سند، که در گردش کار پردازش سند ما نیاز است، کمک می‌کند.

طبقه‌بندی‌کننده سفارشی Amazon Comprehend همچنین می‌تواند پاسخ‌های خام JSON تولید شده توسط آن را پردازش کند DetectDocumentText و AnalyzeDocument API ها، بدون هیچ گونه تغییر یا پیش پردازش. این برای گردش‌های کاری موجود که Amazon Textract در استخراج متن از اسناد در حال حاضر نقش دارد، مفید است. در این مورد، خروجی JSON از Amazon Textract می‌تواند مستقیماً به APIهای طبقه‌بندی اسناد آمازون Comprehend داده شود.

در داده های خروجی بخش، برای مکان S3، مکان آمازون S3 را مشخص کنید که می خواهید کار ناهمزمان نتایج استنتاج را بنویسد.
گزینه های باقی مانده را به عنوان پیش فرض بگذارید.
را انتخاب کنید ایجاد شغل برای شروع کار

شما می توانید وضعیت کار را در صفحه مشاهده کنید تحلیل مشاغل احتمال برد مراجعه کنید.

هنگامی که کار کامل شد، می‌توانیم خروجی کار تجزیه و تحلیل را مشاهده کنیم که در مکان Amazon S3 ارائه شده در هنگام پیکربندی کار ذخیره می‌شود. خروجی طبقه بندی برای سند PDF تک صفحه ای نمونه CMS1500 ما به شرح زیر است. خروجی فایلی با فرمت خطوط JSON است که برای بهبود خوانایی فرمت شده است.

{
  "Classes": [
    { "Name": "CMS1500", "Score": 0.9998 },
    { "Name": "DISCHARGE_SUMMARY", "Score": 0.0001 },
    { "Name": "INSURANCE_ID", "Score": 0 },
    { "Name": "PASSPORT", "Score": 0 },
    { "Name": "LICENSE", "Score": 0 },
    { "Name": "INVOICE_RECEIPT", "Score": 0 },
    { "Name": "MEDICAL_TRANSCRIPTION", "Score": 0 }
  ],
  "DocumentMetadata": {
    "PageNumber": 1,
    "Pages": 1
  },
  "DocumentType": "NativePDFScanned",
  "File": "sample-cms1500.pdf",
  "Version": "2022-08-30"
}

نمونه قبلی یک سند PDF تک صفحه ای است. با این حال، طبقه بندی سفارشی می تواند اسناد PDF چند صفحه ای را نیز مدیریت کند. در مورد اسناد چند صفحه ای، خروجی شامل چندین خط JSON است که هر خط نتیجه طبقه بندی هر یک از صفحات یک سند است. نمونه زیر یک نمونه خروجی طبقه بندی چند صفحه ای است:

{"Classes": [{"Name": "CMS1500", "Score": 0.4718}, {"Name": "MEDICAL_TRANSCRIPTION", "Score": 0.0841}, {"Name": "PASSPORT", "Score": 0.0722}], "DocumentMetadata": {"PageNumber": 1, "Pages": 4}, "DocumentType": "NativePDFScanned", "File": "sample-document.pdf", "Version": "2022-08-30"}

{"Classes": [{"Name": "DISCHARGE_SUMMARY", "Score": 0.9998}, {"Name": "CMS1500", "Score": 0.0001}, {"Name": "INVOICE_RECEIPT", "Score": 0.0}], "DocumentMetadata": {"PageNumber": 2, "Pages": 4}, "DocumentType": "NativePDFScanned", "File": "sample-document.pdf", "Version": "2022-08-30"}

{"Classes": [{"Name": "DISCHARGE_SUMMARY", "Score": 0.9998}, {"Name": "CMS1500", "Score": 0.0001}, {"Name": "INVOICE_RECEIPT", "Score": 0.0}], "DocumentMetadata": {"PageNumber": 3, "Pages": 4}, "DocumentType": "NativePDFScanned", "File": "sample-document.pdf", "Version": "2022-08-30"}

{"Classes": [{"Name": "DISCHARGE_SUMMARY", "Score": 0.9998}, {"Name": "CMS1500", "Score": 0.0001}, {"Name": "INVOICE_RECEIPT", "Score": 0.0}], "DocumentMetadata": {"PageNumber": 4, "Pages": 4}, "DocumentType": "NativePDFScanned", "File": "sample-document.pdf", "Version": "2022-08-30"}

شناسایی موجودیت سفارشی

با شناسایی نهاد سفارشی آمازون Comprehend، می توانید اسناد را تجزیه و تحلیل کنید و موجودیت هایی مانند کدهای محصول یا موجودیت های خاص کسب و کار را که متناسب با نیازهای خاص شما هستند استخراج کنید. در سطح بالا، مراحل زیر برای راه‌اندازی یک شناسایی‌کننده موجودیت سفارشی و انجام شناسایی موجودیت است:

داده های آموزشی را برای آموزش یک شناساگر موجودیت سفارشی آماده کنید.
با داده های آموزشی، یک شناسایی کننده موجودیت سفارشی را آموزش دهید.
پس از آموزش مدل، به صورت اختیاری یک نقطه پایانی بلادرنگ مستقر کنید.
تشخیص موجودیت را با یک کار ناهمزمان یا در زمان واقعی با استفاده از نقطه پایانی انجام دهید.

یک مدل شناسایی موجودیت سفارشی می‌تواند به‌طور دوره‌ای برای بهبود دقت و معرفی انواع موجودیت‌های جدید بازآموزی شود. شما می توانید یک مدل شناسایی موجودیت سفارشی را با هر کدام آموزش دهید لیست های موجودیت or حاشیه نویسی. در هر دو مورد، Amazon Comprehend در مورد نوع اسناد و زمینه ای که موجودیت ها در آن رخ می دهند یاد می گیرد تا یک مدل شناسایی موجودیت بسازد که می تواند برای شناسایی موجودیت های جدید تعمیم یابد. رجوع شود به آماده سازی داده های آموزشی برای کسب اطلاعات بیشتر در مورد آماده سازی داده های آموزشی برای شناسایی کننده موجودیت سفارشی.

پس از آموزش یک مدل شناسایی موجودیت سفارشی، تشخیص موجودیت را می توان با استفاده از هر دو انجام داد تجزیه و تحلیل زمان واقعی و یا کار ناهمزمان. تجزیه و تحلیل زمان واقعی نیاز به یک نقطه پایانی که قرار است مستقر شود با مدل آموزش دیده و بسته به مورد استفاده برای اسناد کوچک مناسب است. برای تعداد زیادی از اسناد، کار طبقه بندی ناهمزمان بهترین گزینه است.

یک مدل شناسایی موجودیت سفارشی را آموزش دهید

برای نشان دادن تشخیص موجودیت در زمان واقعی، ما یک مدل شناسایی موجودیت سفارشی را با اسناد بیمه و فایل‌های مانیفست تقویت‌شده با استفاده از حاشیه‌نویسی‌های سفارشی آموزش دادیم و نقطه پایانی را با استفاده از مدل آموزش‌دیده مستقر کردیم. انواع موجودیت هستند Law Firm, Law Office Address, Insurance Company, Insurance Company Address, Policy Holder Name, Beneficiary Name, Policy Number, Payout, Required Actionو Sender. ما می‌خواهیم موجودیت‌ها را از اسناد نمونه در قالب‌های PDF، PNG و JPEG بومی که در یک سطل S3 ذخیره شده‌اند، با استفاده از مدل شناسایی شناسایی کنیم.

توجه داشته باشید که می توانید از یک مدل تشخیص موجودیت سفارشی که با اسناد PDF آموزش داده شده است برای استخراج موجودیت های سفارشی از PDF، TIFF، image، Word و اسناد متنی ساده استفاده کنید. اگر مدل شما با استفاده از اسناد متنی و لیست موجودی آموزش دیده است، فقط می توانید از اسناد متنی ساده برای استخراج موجودیت ها استفاده کنید.

ما باید موجودیت ها را از یک سند نمونه در هر فرمت PDF، PNG، و JPEG بومی با استفاده از مدل شناسایی شناسایی کنیم. برای شروع کار شناسایی موجودیت همزمان، مراحل زیر را کامل کنید:

در کنسول آمازون Comprehend، را انتخاب کنید تجزیه و تحلیل زمان واقعی در صفحه ناوبری
تحت نوع تحلیل، انتخاب کنید سفارشی.
برای شناسایی موجودیت سفارشی، نوع مدل سفارشی را انتخاب کنید.
برای نقطه پایانی، نقطه پایان بلادرنگی را که برای مدل شناسایی موجودیت خود ایجاد کرده اید انتخاب کنید.
انتخاب کنید آپلود فایل و انتخاب کنید انتخاب فایل برای بارگذاری فایل PDF یا تصویر برای استنباط.
گسترش ورودی سند پیشرفته بخش و برای حالت خواندن سند، انتخاب کنید سرویس پیش فرض.
برای اقدام خواندن سند، انتخاب کنید متن سند را تشخیص می دهد.
را انتخاب کنید تجزیه و تحلیل برای تجزیه و تحلیل سند در زمان واقعی.

نهادهای شناسایی شده در فهرست شده اند مطالب مفید بخش. هر موجودیت حاوی مقدار نهاد (متن)، نوع موجودیتی است که توسط شما در طول فرآیند آموزش تعریف شده است، و امتیاز اطمینان مربوطه.

برای جزئیات بیشتر و توضیح کامل در مورد نحوه آموزش یک مدل شناسایی کننده موجودیت سفارشی و استفاده از آن برای انجام استنتاج ناهمزمان با استفاده از کارهای تحلیل ناهمزمان، به با Amazon Comprehend موجودیت های سفارشی را از اسناد در قالب اصلی آنها استخراج کنید.

نتیجه

این پست نشان می‌دهد که چگونه می‌توانید اسناد نیمه ساختاریافته را در قالب اصلی آنها طبقه‌بندی و دسته‌بندی کنید و با استفاده از Amazon Comprehend، نهادهای تجاری خاص را از آنها شناسایی کنید. می‌توانید از APIهای بلادرنگ برای موارد استفاده با تأخیر کم استفاده کنید یا از کارهای تحلیل ناهمزمان برای پردازش اسناد انبوه استفاده کنید.

به عنوان گام بعدی، ما شما را تشویق می‌کنیم که از Amazon Comprehend دیدن کنید مخزن GitHub برای نمونه کد کامل برای امتحان این ویژگی های جدید. همچنین می توانید از راهنمای توسعه دهنده آمازون Comprehend و منابع توسعه دهنده آمازون Comprehend برای فیلم ها، آموزش ها، وبلاگ ها و موارد دیگر.

درباره نویسندگان

ریک تالوکدار یک معمار ارشد با تیم آمازون Comprehend Service است. او با مشتریان AWS کار می کند تا به آنها کمک کند یادگیری ماشینی را در مقیاس بزرگ اتخاذ کنند. او در خارج از محل کار به مطالعه و عکاسی علاقه دارد.

انجان بیسواس یک معمار ارشد راه حل های خدمات هوش مصنوعی با تمرکز بر AI/ML و تجزیه و تحلیل داده ها است. Anjan بخشی از تیم خدمات هوش مصنوعی در سراسر جهان است و با مشتریان همکاری می کند تا به آنها کمک کند تا راه حل هایی برای مشکلات تجاری با هوش مصنوعی و ML ایجاد کنند. Anjan بیش از 14 سال تجربه کار با زنجیره تامین جهانی، تولید و سازمان‌های خرده‌فروشی دارد و به طور فعال به مشتریان کمک می‌کند تا خدمات هوش مصنوعی AWS را شروع کرده و مقیاس کنند.

گادوین ساهایاراج وینسنت یک معمار راه حل های سازمانی در AWS است که به یادگیری ماشین و ارائه راهنمایی به مشتریان برای طراحی، استقرار و مدیریت حجم کاری و معماری AWS خود علاقه دارد. در اوقات فراغت، او عاشق بازی کریکت با دوستانش و بازی تنیس با سه فرزندش است.

تمبر زمان: دسامبر 2، 2022دسامبر 2، 2022

تمبر زمان: فوریه 28، 2024

معرفی طبقه بندی یک مرحله ای و شناسایی موجودیت با آمازون Comprehend برای پردازش هوشمند اسناد

بازنشر افلاطون

بررسی اجمالی راه حل

طبقه بندی اسناد سفارشی

یک مدل طبقه بندی اسناد سفارشی را آموزش دهید

شناسایی موجودیت سفارشی

یک مدل شناسایی موجودیت سفارشی را آموزش دهید

نتیجه

درباره نویسندگان

بیشتر از آموزش ماشین AWS

پایگاه های دانش برای Amazon Bedrock اکنون از فیلتر ابرداده برای بهبود دقت بازیابی پشتیبانی می کند | خدمات وب آمازون

مدل پایه AI21 Jurassic-1 اکنون در Amazon SageMaker در دسترس است

تسریع استنتاج Amazon SageMaker با نمونه های آمازون EC6 مبتنی بر C2i اینتل

خودکار کردن پیش برچسب گذاری PDF برای Amazon Comprehend | خدمات وب آمازون

درباره‌ ما

جستجوی عمودی و هوش مصنوعی

سکو

همیشه در ارتباط ماندن

حساب