یک خط لوله تجزیه اسناد قابل ردیابی، سفارشی و چند قالبی با متن آمازون بسازید

بازنشر افلاطون

دنبال: 0

فرم‌های سازمانی به عنوان ابزار اصلی کسب‌وکار در سراسر صنایع - از خدمات مالی، تا مراقبت‌های بهداشتی و غیره- عمل می‌کنند. به عنوان مثال، فرم‌های تشکیل پرونده مالیاتی در صنعت مدیریت مالیاتی را در نظر بگیرید، جایی که فرم‌های جدید هر ساله با اطلاعات تقریباً یکسانی منتشر می‌شوند. مشتریان AWS در بخش‌های مختلف باید اطلاعات را در فرم‌هایی پردازش و ذخیره کنند تا بخشی از فعالیت تجاری روزانه خود باشند. این فرم‌ها اغلب به‌عنوان وسیله‌ای اولیه برای جریان اطلاعات به سازمانی عمل می‌کنند که در آن ابزارهای فن‌آوری جمع‌آوری داده‌ها غیرعملی هستند.

علاوه بر استفاده از فرم ها برای جمع آوری اطلاعات، در طول سال های ارائه متن آمازونمشاهده کرده‌ایم که مشتریان AWS غالباً فرم‌های سازمانی خود را بر اساس تغییرات ساختاری ایجاد شده، فیلدهای اضافه یا تغییر یافته یا ملاحظات دیگری مانند تغییر سال یا نسخه فرم، نسخه می‌کنند.

وقتی ساختار یا محتوای یک فرم تغییر می‌کند، اغلب این امر می‌تواند برای سیستم‌های OCR سنتی چالش‌هایی ایجاد کند یا بر ابزارهای پایین‌دستی که برای جمع‌آوری اطلاعات استفاده می‌شوند، تأثیر بگذارد، حتی زمانی که نیاز دارید همان اطلاعات را سال به سال ضبط کنید و داده‌ها را برای استفاده بدون توجه به فرمت جمع‌آوری کنید. از سند

برای حل این مشکل، در این پست نشان می‌دهیم که چگونه می‌توانید یک خط لوله تجزیه اسناد مبتنی بر رویداد، بدون سرور و چند قالبی را با آمازون تکست بسازید و استقرار دهید.

بررسی اجمالی راه حل

نمودار زیر معماری راه حل ما را نشان می دهد:

اول، راه حل استفاده از خط لوله را ارائه می دهد سرویس ذخیره سازی ساده آمازون (Amazon S3)، اعلان‌های رویداد Amazon S3، و یک سرویس صف ساده آمازون صف (Amazon SQS) به طوری که پردازش زمانی شروع می شود که یک فرم در پارتیشن آمازون S3 هدف قرار می گیرد. یک رویداد در پل رویداد آمازون ایجاد شده و به یک ارسال می شود AWS لامبدا هدفی که کار آمازون Texttract را راه اندازی می کند.

می توانید از خدمات AWS بدون سرور مانند Lambda و توابع مرحله AWS برای ایجاد ادغام خدمات ناهمزمان بین خدمات AWS AI و AWS Analytics و خدمات پایگاه داده برای انبارداری، تجزیه و تحلیل، و هوش مصنوعی و یادگیری ماشین (ML). در این پست، نحوه استفاده از توابع Step برای کنترل و حفظ وضعیت درخواست‌ها به APIهای ناهمزمان آمازون Texttract را به طور ناهمزمان نشان می‌دهیم. این با استفاده از یک ماشین حالت برای مدیریت تماس ها و پاسخ ها به دست می آید. ما از Lambda در دستگاه حالت استفاده می‌کنیم تا داده‌های پاسخ API صفحه‌بندی‌شده از Amazon Textract را در یک شی JSON که حاوی داده‌های متنی نیمه‌ساختارمند استخراج‌شده با استفاده از OCR است، ادغام کنیم.

سپس با استفاده از یک رویکرد استاندارد شده برای جمع‌آوری این داده‌های OCR در قالب ساختاری مشترک با استفاده از فرم‌های مختلف فیلتر می‌کنیم. آمازون آتنا و یک SQL Amazon Texttract JSON SerDe.

شما می توانید مراحل انجام شده از طریق این خط لوله را با استفاده از توابع مرحله بدون سرور برای ردیابی وضعیت پردازش و حفظ خروجی هر حالت ردیابی کنید. این کاری است که مشتریان در برخی از صنایع ترجیح می دهند هنگام کار با داده ها انجام دهند، جایی که باید نتایج همه پیش بینی ها از خدماتی مانند Amazon Textract را برای ارتقای قابلیت توضیح نتایج خط لوله خود در طولانی مدت حفظ کنید.

در نهایت می توانید داده های استخراج شده را در جداول آتنا پرس و جو کنید.

در بخش‌های بعدی، شما را با راه‌اندازی خط لوله با استفاده از آن راهنمایی می‌کنیم AWS CloudFormation، آزمایش خط لوله و افزودن نسخه های جدید فرم. این خط لوله راه حلی قابل نگهداری را ارائه می دهد زیرا هر جزء (دریافت، استخراج متن، پردازش متن) مستقل و ایزوله است.

پارامترهای ورودی پیش فرض را برای پشته های CloudFormation تعریف کنید

برای تعریف پارامترهای ورودی برای پشته های CloudFormation، باز کنید default.properties تحت params پوشه و کد زیر را وارد کنید:

- set the default value for parameter 'pInputBucketName' for Input S3 bucket - set the default value for parameter 'pOutputBucketName' for Output S3 bucket - set the default value for parameter 'pInputQueueName' for Ingest SQS (a.k.a job scheduler)

راه حل را مستقر کنید

برای استقرار خط لوله خود، مراحل زیر را انجام دهید:

را انتخاب کنید Stack را راه اندازی کنید:
را انتخاب کنید بعدی.
جزئیات پشته را همانطور که در تصویر زیر نشان داده شده است مشخص کنید و انتخاب کنید بعدی.
در پیکربندی گزینه های پشته بخش، برچسب های اختیاری، مجوزها و سایر تنظیمات پیشرفته را اضافه کنید.
را انتخاب کنید بعدی.
جزئیات پشته را بررسی کرده و انتخاب کنید من تصدیق می کنم که AWS CloudFormation ممکن است منابع IAM را با نام های سفارشی ایجاد کند.
را انتخاب کنید پشته ایجاد کنید.

این کار استقرار پشته را در حساب AWS شما آغاز می کند.

پس از استقرار موفقیت آمیز پشته، می توانید آزمایش خط لوله را همانطور که در بخش بعدی توضیح داده شد شروع کنید.

خط لوله را آزمایش کنید

پس از استقرار موفقیت آمیز، مراحل زیر را برای آزمایش خط لوله خود انجام دهید:

دانلود پرونده های نمونه روی رایانه
ایجاد یک /uploads پوشه (پارتیشن) زیر سطل ورودی S3 جدید ایجاد شده.
پوشه های جداگانه (پارتیشن) مانند ایجاد کنید jobapplications زیر /uploads.
اولین نسخه برنامه شغلی را از پوشه نمونه اسناد در قسمت آپلود کنید /uploads/jobapplications پارتیشن

هنگامی که خط لوله کامل شد، می توانید مقدار کلید استخراج شده برای این نسخه از سند را در آن پیدا کنید /OuputS3/03-textract-parsed-output/jobapplications در کنسول آمازون S3.

همچنین می توانید آن را در جدول آتنا پیدا کنید (applications_data_table) روی پایگاه داده منو (jobapplicationsdatabase).

نسخه دوم برنامه شغلی را از پوشه نمونه اسناد در آپلود کنید /uploads/jobapplications پارتیشن

هنگامی که خط لوله کامل شد، می توانید مقدار کلید استخراج شده برای این نسخه را در آن پیدا کنید /OuputS3/03-textract-parsed-output/jobapplications در کنسول آمازون S3.

همچنین می توانید آن را در جدول آتنا پیدا کنید (applications_data_table) روی پایگاه داده منو (jobapplicationsdatabase).

شما تمام شده اید! شما با موفقیت خط لوله خود را مستقر کرده اید.

نسخه های فرم جدید را اضافه کنید

به روز رسانی راه حل برای یک نسخه فرم جدید ساده است - هر نسخه فرم فقط باید با آزمایش جستجوهای موجود در پشته پردازش به روز شود.

پس از انجام به‌روزرسانی‌ها، می‌توانید با استفاده از APIهای AWS CloudFormation، خط لوله به‌روزرسانی‌شده را مجدداً مستقر کنید و اسناد جدید را پردازش کنید، با کمترین اختلال و تلاش توسعه‌ای که برای ایجاد تغییرات در خط لوله‌تان لازم است، به همان نقاط داده استاندارد برای طرح خود برسید. این انعطاف‌پذیری که با جدا کردن رفتار تجزیه و استخراج و استفاده از عملکرد JSON SerDe در Athena به دست می‌آید، این خط لوله را به یک راه‌حل قابل نگهداری برای هر تعداد نسخه‌ای که سازمان شما نیاز به پردازش برای جمع‌آوری اطلاعات دارد تبدیل می‌کند.

همانطور که راه حل ingest را اجرا می کنید، داده های فرم های دریافتی به طور خودکار با اطلاعات فایل ها و ورودی های مرتبط با آنها در Athena پر می شود. هنگامی که داده‌های فرم‌های شما از داده‌های بدون ساختار به داده‌های ساختاریافته منتقل می‌شوند، برای برنامه‌های پایین دستی مانند تجزیه و تحلیل، مدل‌سازی ML و موارد دیگر آماده استفاده هستند.

پاک کردن

برای جلوگیری از تحمیل هزینه های مداوم، پس از اتمام کار، منابعی را که به عنوان بخشی از این راه حل ایجاد کرده اید حذف کنید.

در کنسول آمازون S3، سطل هایی را که به عنوان بخشی از پشته CloudFormation ایجاد کرده اید، به صورت دستی حذف کنید.
در کنسول AWS CloudFormation، را انتخاب کنید پشته در صفحه ناوبری
پشته اصلی را انتخاب کنید و انتخاب کنید حذف.

این به طور خودکار پشته های تودرتو را حذف می کند.

نتیجه

در این پست، نشان دادیم که چگونه مشتریانی که به دنبال ردیابی و سفارشی کردن پردازش سند هستند، می‌توانند یک خط لوله تجزیه سند مبتنی بر رویداد، بدون سرور و چند قالبی را با آمازون تکست بسازند و به کار گیرند. این خط لوله راه حلی قابل نگهداری را ارائه می دهد زیرا هر مؤلفه (مصرف، استخراج متن، پردازش متن) مستقل و مجزا هستند و به سازمان ها اجازه می دهد راه حل های خود را برای رفع نیازهای پردازشی متنوع عملیاتی کنند.

همین امروز راه حل را امتحان کنید و نظرات خود را در بخش نظرات بنویسید.

درباره نویسنده

امیلی ساوارد یک دانشمند داده با خدمات حرفه ای AWS است. او دارای مدرک کارشناسی ارشد علوم با ممتاز در هوش مصنوعی از دانشگاه ادینبورگ در اسکاتلند، بریتانیا با تاکید بر پردازش زبان طبیعی (NLP) است. امیلی در نقش‌های علمی و مهندسی کاربردی متمرکز بر تحقیق و توسعه محصول مبتنی بر هوش مصنوعی، تعالی عملیاتی، و حاکمیت برای حجم کاری هوش مصنوعی در سازمان‌های بخش دولتی و خصوصی خدمت کرده است. او به عنوان سخنران ارشد AWS و اخیراً به عنوان نویسنده AWS Well-Architected in the Machine Learning Lens در راهنمایی مشتری مشارکت دارد.

ساندیپ سینگ یک دانشمند داده با خدمات حرفه ای AWS است. او دارای مدرک کارشناسی ارشد در سیستم های اطلاعاتی با تمرکز بر هوش مصنوعی و علم داده از دانشگاه ایالتی سن دیگو (SDSU)، کالیفرنیا است. او یک دانشمند داده کامل با پیشینه قوی در علوم کامپیوتر و مشاور مورد اعتماد با تخصص در طراحی سیستم های هوش مصنوعی و کنترل است. او مشتاق است به مشتریان کمک کند تا پروژه‌های تأثیرگذار خود را در مسیر درست هدایت کنند، آنها را در سفر Cloud راهنمایی و راهنمایی کند، و راه‌حل‌های پیشرفته AI/ML را بسازد.

تمبر زمان: مارس 17، 2022

تمبر زمان: سپتامبر 18، 2023

با Amazon Textract یک خط لوله تجزیه اسناد قابل ردیابی، سفارشی و چند قالبی بسازید

بازنشر افلاطون

بررسی اجمالی راه حل

پارامترهای ورودی پیش فرض را برای پشته های CloudFormation تعریف کنید

راه حل را مستقر کنید

خط لوله را آزمایش کنید

نسخه های فرم جدید را اضافه کنید

پاک کردن

نتیجه

درباره نویسنده

بیشتر از آموزش ماشین AWS

به طور موثر مدل زبان پروتئین ESM-2 را با Amazon SageMaker | تنظیم کنید خدمات وب آمازون

با استفاده از Amazon Kendra، محتوای Alfresco را هوشمندانه جستجو کنید

PyTorch Lightning و PyTorch DDP بومی را در آموزش SageMaker آمازون با قابلیت جستجوی آمازون اجرا کنید

چگونه Earth.com و Provectus زیرساخت MLOps خود را با Amazon SageMaker پیاده سازی کردند | خدمات وب آمازون

طراحی شهرهای تاب‌آور در Arup با استفاده از قابلیت‌های جغرافیایی Amazon SageMaker | خدمات وب آمازون

درباره‌ ما

جستجوی عمودی و هوش مصنوعی

سکو

همیشه در ارتباط ماندن

حساب