درک آمازون یک سرویس پردازش زبان طبیعی (NLP) است که API های از پیش آموزش دیده و سفارشی را برای استخراج بینش از داده های متنی ارائه می دهد. مشتریان آمازون Comprehend میتوانند مدلهای شناسایی موجودیت با نام سفارشی (NER) را برای استخراج موجودیتهای مورد علاقه، مانند مکان، نام شخص و تاریخ، که مختص کسبوکارشان هستند، آموزش دهند.
برای آموزش یک مدل سفارشی، ابتدا داده های آموزشی را با حاشیه نویسی دستی موجودیت ها در اسناد آماده می کنید. این را می توان با ابزار حاشیه نویسی اسناد نیمه ساختار یافته را درک کنید، که ایجاد می کند Amazon SageMaker Ground Truth کار با یک الگوی سفارشی، به حاشیه نویسان اجازه می دهد تا جعبه های محدود کننده اطراف موجودیت ها را مستقیماً روی اسناد PDF ترسیم کنند. با این حال، برای شرکتهایی که دادههای موجود جدولی در سیستمهای ERP مانند SAP دارند، حاشیهنویسی دستی میتواند تکراری و وقتگیر باشد.
برای کاهش تلاش برای آمادهسازی دادههای آموزشی، یک ابزار پیش برچسبگذاری با استفاده از آن ساختیم توابع مرحله AWS که به طور خودکار اسناد را با استفاده از داده های موجود جدولی پیش حاشیه نویسی می کند. این به طور قابل توجهی کار دستی مورد نیاز برای آموزش مدلهای تشخیص دقیق موجودیت سفارشی در Amazon Comprehend را کاهش میدهد.
در این پست، شما را در مراحل راهاندازی ابزار پیش برچسبگذاری راهنمایی میکنیم و نمونههایی از نحوه حاشیهنویسی خودکار اسناد از یک عمومی را نشان میدهیم. مجموعه داده نمونه صورتحساب بانکی در قالب PDF. کد کامل در دسترس است GitHub repo.
بررسی اجمالی راه حل
در این بخش، ورودی ها و خروجی های ابزار pre-labeling را مورد بحث قرار می دهیم و یک نمای کلی از معماری راه حل ارائه می دهیم.
ورودی ها و خروجی ها
به عنوان ورودی، ابزار پیش برچسبگذاری اسناد PDF را که حاوی متن هستند میگیرد تا حاشیهنویسی شود. برای نسخه ی نمایشی، از صورتحساب های بانکی شبیه سازی شده مانند مثال زیر استفاده می کنیم.
این ابزار همچنین یک فایل مانیفست می گیرد که اسناد PDF را با موجودیت هایی که می خواهیم از این اسناد استخراج کنیم، نقشه برداری می کند. موجودیت ها از دو چیز تشکیل شده اند: expected_text
برای استخراج از سند (به عنوان مثال، AnyCompany Bank
) و مربوطه entity_type
(مثلا، bank_name
). بعداً در این پست، نحوه ساخت این فایل مانیفست را از یک سند CSV مانند مثال زیر نشان میدهیم.
ابزار pre-labeling از فایل مانیفست برای حاشیه نویسی خودکار اسناد با موجودیت های مربوطه استفاده می کند. سپس میتوانیم از این حاشیهنویسی مستقیماً برای آموزش مدل آمازون Comprehend استفاده کنیم.
از طرف دیگر، میتوانید یک کار برچسبگذاری SageMaker Ground Truth برای بررسی و ویرایش انسانی ایجاد کنید، همانطور که در تصویر زیر نشان داده شده است.
وقتی بررسی کامل شد، میتوانید از دادههای حاشیهنویسی برای آموزش یک مدل شناسایی نهاد سفارشی آمازون Comprehend استفاده کنید.
معماری
ابزار پیش برچسب گذاری از چندین مورد تشکیل شده است AWS لامبدا توابع تنظیم شده توسط یک ماشین حالت توابع Step. این دارای دو نسخه است که از تکنیک های متفاوتی برای ایجاد حاشیه نویسی های اولیه استفاده می کنند.
اولین تکنیک این است تطبیق فازی. این به یک فایل پیش نمایش با موجودیت های مورد انتظار نیاز دارد. این ابزار از الگوریتم تطبیق فازی برای ایجاد حاشیهنویسیهای اولیه با مقایسه شباهت متن استفاده میکند.
تطبیق فازی به دنبال رشتههایی در سند میگردد که مشابه (اما نه لزوماً یکسان) با موجودیتهای مورد انتظار فهرستشده در فایل pre-manifest هستند. ابتدا امتیاز شباهت متن را بین متن مورد انتظار و کلمات در سند محاسبه می کند، سپس تمام جفت های بالاتر از یک آستانه را مطابقت می دهد. بنابراین، حتی اگر هیچ تطابق دقیقی وجود نداشته باشد، تطبیق فازی میتواند انواعی مانند اختصارات و املای غلط را پیدا کند. این به ابزار اجازه می دهد تا اسناد را بدون نیاز به نمایش کلمه به کلمه از قبل برچسب گذاری کند. به عنوان مثال، اگر 'AnyCompany Bank'
به عنوان یک موجود مورد انتظار فهرست شده است، تطبیق فازی رخدادهای آن را حاشیه نویسی می کند 'Any Companys Bank'
. این انعطاف پذیری بیشتری نسبت به تطبیق رشته سخت فراهم می کند و ابزار پیش برچسب گذاری را قادر می سازد تا به طور خودکار نهادهای بیشتری را برچسب گذاری کند.
نمودار زیر معماری این ماشین حالت توابع مرحله ای را نشان می دهد.
تکنیک دوم مستلزم الف مدل شناسایی موجودیت آمازون Comprehend از پیش آموزش دیده. این ابزار با استفاده از مدل آمازون Comprehend، با پیروی از گردش کار نشان داده شده در نمودار زیر، حاشیهنویسیهای اولیه را ایجاد میکند.
نمودار زیر معماری کامل را نشان می دهد.
در قسمت های بعدی مراحل پیاده سازی راه حل را طی می کنیم.
ابزار پیش برچسب گذاری را به کار ببرید
مخزن را در ماشین محلی خود کلون کنید:
این مخزن در بالای ابزار حاشیه نویسی اسناد نیمه ساختاریافته ساخته شده است و عملکردهای آن را با این امکان گسترش می دهد که به شما امکان می دهد یک کار برچسب گذاری SageMaker Ground Truth را با حاشیه نویسی های قبلی که قبلاً در SageMaker Ground Truth UI نمایش داده شده است، شروع کنید.
ابزار pre-labeling هم شامل منابع Comprehend Semi-Structured Documents Annotation Tool و هم برخی منابع خاص برای ابزار pre-labeling است. شما می توانید راه حل را با مدل برنامه بدون سرور AWS (AWS SAM)، یک چارچوب متن باز است که می توانید از آن برای تعریف کد زیرساخت برنامه بدون سرور استفاده کنید.
اگر قبلاً ابزار حاشیه نویسی اسناد نیمه ساختاریافته را اجرا کرده اید، به بخش سؤالات متداول در Pre_labeling_tool/README.md
برای دستورالعملهایی در مورد نحوه استقرار فقط منابع خاص ابزار پیش برچسبگذاری.
اگر قبلاً ابزار را اجرا نکردهاید و تازه شروع به کار کردهاید، برای استقرار کل راهحل، موارد زیر را انجام دهید.
دایرکتوری فعلی را به پوشه ابزار حاشیه نویسی تغییر دهید:
راه حل را بسازید و اجرا کنید:
فایل pre-manifest را ایجاد کنید
قبل از اینکه بتوانید از ابزار پیش برچسب گذاری استفاده کنید، باید داده های خود را آماده کنید. ورودی های اصلی اسناد PDF و یک فایل پیش نمایش هستند. فایل پیش نمایش حاوی محل هر سند PDF در زیر است 'pdf'
و مکان یک فایل JSON با موجودیت های مورد انتظار برای برچسب گذاری 'expected_entities'
.
دفترچه یادداشت gene_premanifest_file.ipynb نحوه ایجاد این فایل را نشان می دهد. در نسخه ی نمایشی، فایل pre-manifest کد زیر را نشان می دهد:
هر فایل JSON فهرست شده در فایل پیش نمایش (زیر expected_entities
) شامل فهرستی از فرهنگ لغت، یکی برای هر موجودیت مورد انتظار است. دیکشنری ها دارای کلیدهای زیر هستند:
- "متن_های مورد انتظار" - لیستی از رشته های متنی ممکن که با موجودیت مطابقت دارند.
- "نوع_نوع" - نوع موجودیت مربوطه.
- «لیست_نادیده گرفتن» (اختیاری) - لیست کلماتی که باید در مسابقه نادیده گرفته شوند. این پارامترها باید برای جلوگیری از تطبیق فازی از تطبیق ترکیبات خاصی از کلماتی که می دانید اشتباه هستند استفاده شوند. این می تواند مفید باشد اگر می خواهید هنگام نگاه کردن به نام ها، برخی از شماره ها یا آدرس های ایمیل را نادیده بگیرید.
به عنوان مثال expected_entities
PDF نشان داده شده قبلاً به شکل زیر است:
ابزار pre-labeling را اجرا کنید
با فایل pre-manifest که در مرحله قبل ایجاد کردید، ابزار pre-labeling را شروع کنید. برای توضیحات بیشتر به دفترچه یادداشت مراجعه کنید start_step_functions.ipynb.
برای راه اندازی ابزار پیش برچسب گذاری، یک را ارائه دهید event
با کلیدهای زیر:
- از قبل آشکار می شود - هر سند PDF را به آن نقشه میدهد
expected_entities
فایل. این باید حاوی سرویس ذخیره سازی ساده آمازون سطل (Amazon S3) (زیرbucket
) و کلید (زیرkey
) از فایل. - پیشوند - برای ایجاد
execution_id
، که پوشه S3 را برای ذخیره خروجی و نام کار برچسب زدن SageMaker Ground Truth را نامگذاری می کند. - entity_types - در رابط کاربری نمایش داده می شود تا حاشیه نویس ها برچسب گذاری کنند. اینها باید همه انواع موجودیت را در فایلهای موجودیت مورد انتظار شامل شود.
- نام_تیم_کار (اختیاری) - برای ایجاد کار برچسب زدن SageMaker Ground Truth استفاده می شود. این مربوط به نیروی کار خصوصی برای استفاده است. اگر ارائه نشده باشد، به جای کار برچسبگذاری SageMaker Ground Truth، فقط یک فایل مانیفست ایجاد میشود. بعداً میتوانید از فایل مانیفست برای ایجاد یک کار برچسبگذاری SageMaker Ground Truth استفاده کنید. توجه داشته باشید که از زمان نگارش این مقاله، نمیتوانید هنگام ایجاد کار برچسبگذاری از دفترچه، نیروی کار خارجی فراهم کنید. با این حال، می توانید کار ایجاد شده را شبیه سازی کنید و آن را به یک نیروی کار خارجی در کنسول SageMaker Ground Truth اختصاص دهید.
- comprehend_parameters (اختیاری) - پارامترهایی برای آموزش مستقیم مدل شناسایی کننده موجودیت سفارشی Amazon Comprehend. در صورت حذف، از این مرحله صرفنظر می شود.
برای راه اندازی ماشین حالت، کد پایتون زیر را اجرا کنید:
با این کار اجرای ماشین حالت شروع می شود. شما می توانید پیشرفت ماشین حالت را در کنسول Step Functions نظارت کنید. نمودار زیر گردش کار ماشین حالت را نشان می دهد.
هنگامی که ماشین حالت کامل شد، موارد زیر را انجام دهید:
- خروجی های زیر ذخیره شده در را بررسی کنید
prelabeling/
پوشه ازcomprehend-semi-structured-docs
سطل S3:- فایل های حاشیه نویسی جداگانه برای هر صفحه از اسناد (یکی در هر صفحه در هر سند) در
temp_individual_manifests/
- مانیفست برای کار برچسب زدن SageMaker Ground Truth در
consolidated_manifest/consolidated_manifest.manifest
- مانیفستی که می تواند برای آموزش یک مدل آمازون Comprehend سفارشی استفاده شود
consolidated_manifest/consolidated_manifest_comprehend.manifest
- فایل های حاشیه نویسی جداگانه برای هر صفحه از اسناد (یکی در هر صفحه در هر سند) در
- در کنسول SageMaker، کار برچسب زدن SageMaker Ground Truth را که برای بررسی حاشیه نویسی ایجاد شده است، باز کنید.
- مدل آمازون Comprehend سفارشی که آموزش داده شده را بررسی و آزمایش کنید
همانطور که قبلاً ذکر شد، این ابزار فقط میتواند مشاغل برچسبگذاری SageMaker Ground Truth را برای نیروهای کار خصوصی ایجاد کند. برای برون سپاری تلاشهای برچسبگذاری انسانی، میتوانید کار برچسبگذاری را در کنسول SageMaker Ground Truth شبیهسازی کنید و هر نیروی کاری را به شغل جدید متصل کنید.
پاک کردن
برای جلوگیری از تحمیل هزینههای اضافی، منابعی را که ایجاد کردهاید حذف کنید و پشتهای را که مستقر کردهاید با دستور زیر حذف کنید:
نتیجه
ابزار پیش برچسبگذاری راهی قدرتمند برای شرکتها فراهم میکند تا از دادههای جدولی موجود برای تسریع روند آموزش مدلهای تشخیص موجودیت سفارشی در آمازون Comprehend استفاده کنند. با پیشنویسی خودکار اسناد PDF، تلاش دستی مورد نیاز در فرآیند برچسبگذاری را به میزان قابل توجهی کاهش میدهد.
این ابزار دارای دو نسخه است: تطبیق فازی و مبتنی بر آمازون Comprehend، که انعطافپذیری در نحوه ایجاد حاشیهنویسیهای اولیه میدهد. پس از اینکه اسناد از قبل برچسبگذاری شدند، میتوانید به سرعت آنها را در یک کار برچسبگذاری SageMaker Ground Truth مرور کنید یا حتی از بررسی صرفنظر کنید و مستقیماً یک مدل سفارشی Amazon Comprehend را آموزش دهید.
ابزار پیش برچسبگذاری به شما امکان میدهد تا به سرعت ارزش دادههای موجودیت تاریخی خود را باز کنید و از آن در ایجاد مدلهای سفارشی متناسب با دامنه خاص خود استفاده کنید. با سرعت بخشیدن به چیزی که معمولاً پرزحمتترین بخش فرآیند است، شناسایی موجودیت سفارشی با Amazon Comprehend را بیش از همیشه در دسترس قرار میدهد.
برای اطلاعات بیشتر در مورد نحوه برچسبگذاری اسناد PDF با استفاده از کار برچسبگذاری SageMaker Ground Truth، ببینید حاشیه نویسی اسناد سفارشی برای استخراج موجودیت های نامگذاری شده در اسناد با استفاده از آمازون Comprehend و از Amazon SageMaker Ground Truth برای برچسب گذاری داده ها استفاده کنید.
درباره نویسندگان
اسکار اشناک یک دانشمند کاربردی در مرکز نوآوری هوش مصنوعی مولد است. او علاقه زیادی به غواصی در علم پشت یادگیری ماشینی دارد تا آن را برای مشتریان در دسترس قرار دهد. خارج از محل کار، اسکار از دوچرخه سواری و همگام شدن با روندهای نظریه اطلاعات لذت می برد.
رومن بسومبس یک معمار یادگیری عمیق در مرکز نوآوری هوش مصنوعی مولد است. او مشتاق ساخت معماری های نوآورانه برای رسیدگی به مشکلات تجاری مشتریان با یادگیری ماشین است.
- محتوای مبتنی بر SEO و توزیع روابط عمومی. امروز تقویت شوید.
- PlatoData.Network Vertical Generative Ai. به خودت قدرت بده دسترسی به اینجا.
- PlatoAiStream. هوش وب 3 دانش تقویت شده دسترسی به اینجا.
- PlatoESG. کربن ، CleanTech، انرژی، محیط، خورشیدی، مدیریت پسماند دسترسی به اینجا.
- PlatoHealth. هوش بیوتکنولوژی و آزمایشات بالینی. دسترسی به اینجا.
- منبع: https://aws.amazon.com/blogs/machine-learning/automate-pdf-pre-labeling-for-amazon-comprehend/
- : دارد
- :است
- :نه
- $UP
- 100
- 11
- 150
- 152
- 19
- 400
- 500
- 600
- 7
- 804
- 9
- a
- درباره ما
- بالاتر
- شتاب دادن
- در دسترس
- دقیق
- اضافی
- نشانی
- آدرس
- پس از
- AI
- الگوریتم
- معرفی
- اجازه دادن
- اجازه می دهد تا
- قبلا
- همچنین
- آمازون
- درک آمازون
- آمازون SageMaker
- Amazon SageMaker Ground Truth
- آمازون خدمات وب
- an
- و
- هر
- رابط های برنامه کاربردی
- ظاهر شدن
- کاربرد
- اعمال می شود
- معماری
- هستند
- دور و بر
- AS
- At
- ضمیمه کردن
- خودکار بودن
- بطور خودکار
- در دسترس
- اجتناب از
- AWS
- بانک
- BE
- بوده
- قبل از
- پشت سر
- میان
- هر دو
- جعبه
- بنا
- ساخته
- کسب و کار
- اما
- by
- محاسبه می کند
- CAN
- مرکز
- بار
- رمز
- COM
- ترکیب
- شرکت
- مقایسه
- کامل
- درک
- تشکیل شده است
- کنسول
- ساختن
- شامل
- شامل
- متناظر
- مطابقت دارد
- ایجاد
- ایجاد شده
- ایجاد
- ایجاد
- جاری
- سفارشی
- مشتریان
- داده ها
- تاریخ
- کاهش می دهد
- عمیق
- یادگیری عمیق
- تعريف كردن
- نسخه ی نمایشی
- گسترش
- مستقر
- استخراج
- جزئیات
- مختلف
- مستقیما
- بحث و تبادل نظر
- نمایش داده
- غواصی
- do
- سند
- اسناد و مدارک
- داری
- دامنه
- انجام شده
- قرعه کشی
- هر
- تلاش
- پست الکترونیک
- را قادر می سازد
- را قادر می سازد
- اشخاص
- موجودیت
- ERP
- حتی
- تا کنون
- مثال
- مثال ها
- موجود
- انتظار می رود
- گسترش می یابد
- خارجی
- عصاره
- پاسخ به برخی سوالات مهم
- پرونده
- فایل ها
- پیدا کردن
- نام خانوادگی
- انعطاف پذیری
- پیروی
- برای
- قالب
- چارچوب
- تازه
- از جانب
- کامل
- ویژگی های
- توابع
- تولید می کنند
- تولید می کند
- مولد
- هوش مصنوعی مولد
- دادن
- زمین
- آیا
- he
- تاریخی
- چگونه
- چگونه
- اما
- HTML
- HTTP
- HTTPS
- انسان
- یکسان
- if
- چشم پوشی از
- نشان می دهد
- انجام
- in
- شامل
- شامل
- اطلاعات
- شالوده
- اول
- ابداع
- ابتکاری
- ورودی
- ورودی
- بینش
- در عوض
- دستورالعمل
- علاقه
- به
- IT
- ITS
- جین
- کار
- شغل ها
- JPG
- json
- نگهداری
- کلید
- کلید
- دانستن
- برچسب
- برچسب
- بعد
- یادگیری
- پسندیدن
- فهرست
- ذکر شده
- محلی
- محل
- به دنبال
- مطالب
- دستگاه
- فراگیری ماشین
- اصلی
- ساخت
- باعث می شود
- کتابچه راهنمای
- کار دستی
- دستی
- نقشه ها
- مسابقه
- کبریت
- مطابق
- ذکر شده
- مدل
- مدل
- مانیتور
- بیش
- اکثر
- چندگانه
- نام
- تحت عنوان
- نام
- لزوما
- نیاز
- ضروری
- جدید
- nlp
- نه
- توجه داشته باشید
- دفتر یادداشت
- تعداد
- of
- on
- ONE
- فقط
- باز کن
- منبع باز
- or
- هماهنگ شده
- تولید
- خروجی
- خارج از
- برون سپاری
- مروری
- با ما
- جفت
- پارامترهای
- بخش
- احساساتی
- برای
- شخص
- افلاطون
- هوش داده افلاطون
- PlatoData
- ممکن
- پست
- قوی
- آماده
- آماده
- جلوگیری از
- قبلی
- قبلا
- خصوصی
- مشکلات
- روند
- در حال پردازش
- پیشرفت
- ارائه
- ارائه
- فراهم می کند
- عمومی
- پــایتــون
- به سرعت
- به رسمیت شناختن
- كاهش دادن
- را کاهش می دهد
- مراجعه
- تکراری
- مخزن
- ضروری
- نیاز
- منابع
- این فایل نقد می نویسید:
- دویدن
- در حال اجرا
- حکیم ساز
- سام
- شیره
- نگهداری می شود
- علم
- دانشمند
- دوم
- بخش
- بخش
- دیدن
- بدون سرور
- سرویس
- خدمات
- محیط
- باید
- نشان
- نشان داده شده
- نشان می دهد
- به طور قابل توجهی
- مشابه
- ساده
- راه حل
- برخی از
- منبع
- خاص
- پشته
- شروع
- راه افتادن
- دولت
- اظهارات
- گام
- مراحل
- ذخیره سازی
- سخت
- رشته
- چنین
- سیستم های
- طراحی شده
- طول می کشد
- تکنیک
- تکنیک
- قالب
- آزمون
- متن
- متن
- نسبت به
- که
- La
- دولت
- شان
- آنها
- سپس
- نظریه
- آنجا.
- از این رو
- اینها
- اشیاء
- این
- آستانه
- از طریق
- زمان بر
- به
- ابزار
- بالا
- قطار
- آموزش
- روند
- حقیقت
- دو
- نوع
- انواع
- به طور معمول
- ui
- زیر
- منحصر به فرد
- باز
- استفاده کنید
- استفاده
- استفاده
- با استفاده از
- ارزش
- نسخه
- راه رفتن
- می خواهم
- بود
- مسیر..
- we
- وب
- خدمات وب
- خوب
- چی
- چه شده است
- چه زمانی
- که
- تمام
- ویکیپدیا
- اراده
- با
- بدون
- کلمات
- مهاجرت کاری
- گردش کار
- نیروی کار
- نوشته
- اشتباه
- شما
- شما
- زفیرنت
- زیپ