فرمهای سازمانی به عنوان ابزار اصلی کسبوکار در سراسر صنایع - از خدمات مالی، تا مراقبتهای بهداشتی و غیره- عمل میکنند. به عنوان مثال، فرمهای تشکیل پرونده مالیاتی در صنعت مدیریت مالیاتی را در نظر بگیرید، جایی که فرمهای جدید هر ساله با اطلاعات تقریباً یکسانی منتشر میشوند. مشتریان AWS در بخشهای مختلف باید اطلاعات را در فرمهایی پردازش و ذخیره کنند تا بخشی از فعالیت تجاری روزانه خود باشند. این فرمها اغلب بهعنوان وسیلهای اولیه برای جریان اطلاعات به سازمانی عمل میکنند که در آن ابزارهای فنآوری جمعآوری دادهها غیرعملی هستند.
علاوه بر استفاده از فرم ها برای جمع آوری اطلاعات، در طول سال های ارائه متن آمازونمشاهده کردهایم که مشتریان AWS غالباً فرمهای سازمانی خود را بر اساس تغییرات ساختاری ایجاد شده، فیلدهای اضافه یا تغییر یافته یا ملاحظات دیگری مانند تغییر سال یا نسخه فرم، نسخه میکنند.
وقتی ساختار یا محتوای یک فرم تغییر میکند، اغلب این امر میتواند برای سیستمهای OCR سنتی چالشهایی ایجاد کند یا بر ابزارهای پاییندستی که برای جمعآوری اطلاعات استفاده میشوند، تأثیر بگذارد، حتی زمانی که نیاز دارید همان اطلاعات را سال به سال ضبط کنید و دادهها را برای استفاده بدون توجه به فرمت جمعآوری کنید. از سند
برای حل این مشکل، در این پست نشان میدهیم که چگونه میتوانید یک خط لوله تجزیه اسناد مبتنی بر رویداد، بدون سرور و چند قالبی را با آمازون تکست بسازید و استقرار دهید.
بررسی اجمالی راه حل
نمودار زیر معماری راه حل ما را نشان می دهد:
اول، راه حل استفاده از خط لوله را ارائه می دهد سرویس ذخیره سازی ساده آمازون (Amazon S3)، اعلانهای رویداد Amazon S3، و یک سرویس صف ساده آمازون صف (Amazon SQS) به طوری که پردازش زمانی شروع می شود که یک فرم در پارتیشن آمازون S3 هدف قرار می گیرد. یک رویداد در پل رویداد آمازون ایجاد شده و به یک ارسال می شود AWS لامبدا هدفی که کار آمازون Texttract را راه اندازی می کند.
می توانید از خدمات AWS بدون سرور مانند Lambda و توابع مرحله AWS برای ایجاد ادغام خدمات ناهمزمان بین خدمات AWS AI و AWS Analytics و خدمات پایگاه داده برای انبارداری، تجزیه و تحلیل، و هوش مصنوعی و یادگیری ماشین (ML). در این پست، نحوه استفاده از توابع Step برای کنترل و حفظ وضعیت درخواستها به APIهای ناهمزمان آمازون Texttract را به طور ناهمزمان نشان میدهیم. این با استفاده از یک ماشین حالت برای مدیریت تماس ها و پاسخ ها به دست می آید. ما از Lambda در دستگاه حالت استفاده میکنیم تا دادههای پاسخ API صفحهبندیشده از Amazon Textract را در یک شی JSON که حاوی دادههای متنی نیمهساختارمند استخراجشده با استفاده از OCR است، ادغام کنیم.
سپس با استفاده از یک رویکرد استاندارد شده برای جمعآوری این دادههای OCR در قالب ساختاری مشترک با استفاده از فرمهای مختلف فیلتر میکنیم. آمازون آتنا و یک SQL Amazon Texttract JSON SerDe.
شما می توانید مراحل انجام شده از طریق این خط لوله را با استفاده از توابع مرحله بدون سرور برای ردیابی وضعیت پردازش و حفظ خروجی هر حالت ردیابی کنید. این کاری است که مشتریان در برخی از صنایع ترجیح می دهند هنگام کار با داده ها انجام دهند، جایی که باید نتایج همه پیش بینی ها از خدماتی مانند Amazon Textract را برای ارتقای قابلیت توضیح نتایج خط لوله خود در طولانی مدت حفظ کنید.
در نهایت می توانید داده های استخراج شده را در جداول آتنا پرس و جو کنید.
در بخشهای بعدی، شما را با راهاندازی خط لوله با استفاده از آن راهنمایی میکنیم AWS CloudFormation، آزمایش خط لوله و افزودن نسخه های جدید فرم. این خط لوله راه حلی قابل نگهداری را ارائه می دهد زیرا هر جزء (دریافت، استخراج متن، پردازش متن) مستقل و ایزوله است.
پارامترهای ورودی پیش فرض را برای پشته های CloudFormation تعریف کنید
برای تعریف پارامترهای ورودی برای پشته های CloudFormation، باز کنید default.properties
تحت params
پوشه و کد زیر را وارد کنید:
راه حل را مستقر کنید
برای استقرار خط لوله خود، مراحل زیر را انجام دهید:
- را انتخاب کنید Stack را راه اندازی کنید:
- را انتخاب کنید بعدی.
- جزئیات پشته را همانطور که در تصویر زیر نشان داده شده است مشخص کنید و انتخاب کنید بعدی.
- در پیکربندی گزینه های پشته بخش، برچسب های اختیاری، مجوزها و سایر تنظیمات پیشرفته را اضافه کنید.
- را انتخاب کنید بعدی.
- جزئیات پشته را بررسی کرده و انتخاب کنید من تصدیق می کنم که AWS CloudFormation ممکن است منابع IAM را با نام های سفارشی ایجاد کند.
- را انتخاب کنید پشته ایجاد کنید.
این کار استقرار پشته را در حساب AWS شما آغاز می کند.
پس از استقرار موفقیت آمیز پشته، می توانید آزمایش خط لوله را همانطور که در بخش بعدی توضیح داده شد شروع کنید.
خط لوله را آزمایش کنید
پس از استقرار موفقیت آمیز، مراحل زیر را برای آزمایش خط لوله خود انجام دهید:
- دانلود پرونده های نمونه روی رایانه
- ایجاد یک
/uploads
پوشه (پارتیشن) زیر سطل ورودی S3 جدید ایجاد شده.
- پوشه های جداگانه (پارتیشن) مانند ایجاد کنید
jobapplications
زیر/uploads
.
- اولین نسخه برنامه شغلی را از پوشه نمونه اسناد در قسمت آپلود کنید
/uploads/jobapplications
پارتیشن
هنگامی که خط لوله کامل شد، می توانید مقدار کلید استخراج شده برای این نسخه از سند را در آن پیدا کنید /OuputS3/03-textract-parsed-output/jobapplications
در کنسول آمازون S3.
همچنین می توانید آن را در جدول آتنا پیدا کنید (applications_data_table
) روی پایگاه داده منو (jobapplicationsdatabase
).
هنگامی که خط لوله کامل شد، می توانید مقدار کلید استخراج شده برای این نسخه را در آن پیدا کنید /OuputS3/03-textract-parsed-output/jobapplications
در کنسول آمازون S3.
همچنین می توانید آن را در جدول آتنا پیدا کنید (applications_data_table
) روی پایگاه داده منو (jobapplicationsdatabase
).
شما تمام شده اید! شما با موفقیت خط لوله خود را مستقر کرده اید.
نسخه های فرم جدید را اضافه کنید
به روز رسانی راه حل برای یک نسخه فرم جدید ساده است - هر نسخه فرم فقط باید با آزمایش جستجوهای موجود در پشته پردازش به روز شود.
پس از انجام بهروزرسانیها، میتوانید با استفاده از APIهای AWS CloudFormation، خط لوله بهروزرسانیشده را مجدداً مستقر کنید و اسناد جدید را پردازش کنید، با کمترین اختلال و تلاش توسعهای که برای ایجاد تغییرات در خط لولهتان لازم است، به همان نقاط داده استاندارد برای طرح خود برسید. این انعطافپذیری که با جدا کردن رفتار تجزیه و استخراج و استفاده از عملکرد JSON SerDe در Athena به دست میآید، این خط لوله را به یک راهحل قابل نگهداری برای هر تعداد نسخهای که سازمان شما نیاز به پردازش برای جمعآوری اطلاعات دارد تبدیل میکند.
همانطور که راه حل ingest را اجرا می کنید، داده های فرم های دریافتی به طور خودکار با اطلاعات فایل ها و ورودی های مرتبط با آنها در Athena پر می شود. هنگامی که دادههای فرمهای شما از دادههای بدون ساختار به دادههای ساختاریافته منتقل میشوند، برای برنامههای پایین دستی مانند تجزیه و تحلیل، مدلسازی ML و موارد دیگر آماده استفاده هستند.
پاک کردن
برای جلوگیری از تحمیل هزینه های مداوم، پس از اتمام کار، منابعی را که به عنوان بخشی از این راه حل ایجاد کرده اید حذف کنید.
- در کنسول آمازون S3، سطل هایی را که به عنوان بخشی از پشته CloudFormation ایجاد کرده اید، به صورت دستی حذف کنید.
- در کنسول AWS CloudFormation، را انتخاب کنید پشته در صفحه ناوبری
- پشته اصلی را انتخاب کنید و انتخاب کنید حذف.
این به طور خودکار پشته های تودرتو را حذف می کند.
نتیجه
در این پست، نشان دادیم که چگونه مشتریانی که به دنبال ردیابی و سفارشی کردن پردازش سند هستند، میتوانند یک خط لوله تجزیه سند مبتنی بر رویداد، بدون سرور و چند قالبی را با آمازون تکست بسازند و به کار گیرند. این خط لوله راه حلی قابل نگهداری را ارائه می دهد زیرا هر مؤلفه (مصرف، استخراج متن، پردازش متن) مستقل و مجزا هستند و به سازمان ها اجازه می دهد راه حل های خود را برای رفع نیازهای پردازشی متنوع عملیاتی کنند.
همین امروز راه حل را امتحان کنید و نظرات خود را در بخش نظرات بنویسید.
درباره نویسنده
امیلی ساوارد یک دانشمند داده با خدمات حرفه ای AWS است. او دارای مدرک کارشناسی ارشد علوم با ممتاز در هوش مصنوعی از دانشگاه ادینبورگ در اسکاتلند، بریتانیا با تاکید بر پردازش زبان طبیعی (NLP) است. امیلی در نقشهای علمی و مهندسی کاربردی متمرکز بر تحقیق و توسعه محصول مبتنی بر هوش مصنوعی، تعالی عملیاتی، و حاکمیت برای حجم کاری هوش مصنوعی در سازمانهای بخش دولتی و خصوصی خدمت کرده است. او به عنوان سخنران ارشد AWS و اخیراً به عنوان نویسنده AWS Well-Architected in the Machine Learning Lens در راهنمایی مشتری مشارکت دارد.
ساندیپ سینگ یک دانشمند داده با خدمات حرفه ای AWS است. او دارای مدرک کارشناسی ارشد در سیستم های اطلاعاتی با تمرکز بر هوش مصنوعی و علم داده از دانشگاه ایالتی سن دیگو (SDSU)، کالیفرنیا است. او یک دانشمند داده کامل با پیشینه قوی در علوم کامپیوتر و مشاور مورد اعتماد با تخصص در طراحی سیستم های هوش مصنوعی و کنترل است. او مشتاق است به مشتریان کمک کند تا پروژههای تأثیرگذار خود را در مسیر درست هدایت کنند، آنها را در سفر Cloud راهنمایی و راهنمایی کند، و راهحلهای پیشرفته AI/ML را بسازد.
- "
- 100
- درباره ما
- حساب
- دست
- در میان
- نشانی
- پیشرفته
- AI
- خدمات هوش مصنوعی
- معرفی
- اجازه دادن
- آمازون
- علم تجزیه و تحلیل
- API
- رابط های برنامه کاربردی
- کاربرد
- برنامه های کاربردی
- روش
- معماری
- مصنوعی
- هوش مصنوعی
- AWS
- زمینه
- مرز
- ساختن
- بنا
- کسب و کار
- کالیفرنیا
- علت
- چالش ها
- تغییر دادن
- بار
- ابر
- رمز
- نظرات
- مشترک
- جزء
- علم کامپیوتر
- غلظت
- کنسول
- محتوا
- کنترل
- مشتریان
- داده ها
- علم اطلاعات
- دانشمند داده
- پایگاه داده
- نشان
- گسترش
- گسترش
- طرح
- پروژه
- مختلف
- قطع
- اسناد و مدارک
- مهندسی
- واقعه
- مثال
- باز خورد
- زمینه
- مالی
- خدمات مالی
- نام خانوادگی
- انعطاف پذیری
- جریان
- متمرکز شده است
- پیروی
- فرم
- قالب
- اشکال
- کامل
- قابلیت
- حکومت
- بهداشت و درمان
- زیاد
- دارای
- چگونه
- چگونه
- HTTPS
- تأثیر
- لوازم
- صنعت
- اطلاعات
- یکپارچگی
- اطلاعات
- IT
- کار
- پادشاهی
- زبان
- یادگیری
- ترک کردن
- طولانی
- دستگاه
- فراگیری ماشین
- حفظ
- مدیریت
- مدیریت
- دستی
- ML
- طبیعی
- جهت یابی
- عدد
- ارائه
- پیشنهادات
- باز کن
- کدام سازمان ها
- سازمانی
- سازمان های
- دیگر
- تمرین
- پیش بینی
- اصلی
- خصوصی
- مشکل
- روند
- محصول
- حرفه ای
- پروژه ها
- فراهم می کند
- عمومی
- تحقیق
- تحقیق و توسعه
- منابع
- پاسخ
- نتایج
- دویدن
- در حال اجرا
- سان
- علم
- دانشمند
- بخش
- بخش ها
- به دنبال
- بدون سرور
- سرویس
- خدمات
- تنظیم
- محیط
- ساده
- So
- راه حل
- مزایا
- حل
- چیزی
- گوینده
- پشته
- شروع
- دولت
- وضعیت هنر
- ذخیره سازی
- opbevare
- قوی
- موفق
- موفقیت
- سیستم های
- هدف
- مالیات
- آزمون
- تست
- از طریق
- امروز
- ابزار
- ابزار
- مسیر
- سنتی
- متحد
- انگلستان
- دانشگاه
- به روز رسانی
- استفاده کنید
- ارزش
- در داخل
- کارگر
- سال
- سال