LayoutLM توضیح داده شد

بازنشر افلاطون

دنبال: 0

پردازش اسناد چیست؟

LayoutLM توضیح داده شد

پردازش اسناد، فرآیند استخراج خودکار داده های ساختاریافته از اسناد است. این می تواند برای هر مدرکی باشد، مثلاً فاکتور، رزومه، کارت شناسایی و غیره. بخش چالش برانگیز در اینجا فقط OCR نیست. گزینه های زیادی با هزینه کم وجود دارد که می تواند متن را استخراج کرده و موقعیت مکانی را به شما بدهد. چالش واقعی برچسب گذاری دقیق و خودکار این تکه های متن است.

تأثیر تجاری پردازش اسناد

چندین صنعت به شدت به پردازش اسناد برای عملیات روزانه خود متکی هستند. این فهرست ادامه می‌یابد، سازمان‌های مالی نیاز به دسترسی به پرونده‌های SEC، پرونده‌های بیمه دارند، یک شرکت تجارت الکترونیک یا زنجیره تامین ممکن است نیاز به دسترسی به فاکتورهایی داشته باشد که استفاده می‌شوند. دقت این اطلاعات به اندازه زمان ذخیره شده مهم است، به همین دلیل است که ما همیشه توصیه می کنیم از روش های پیشرفته یادگیری عمیق استفاده کنید که بیشتر تعمیم می دهند و دقیق تر هستند.

بر اساس این گزارش توسط PwC، [پیوند] حتی ابتدایی ترین مقدار استخراج داده های ساخت یافته می تواند به صرفه جویی 30 تا 50 درصد از زمان صرف شده برای کپی دستی و چسباندن داده ها از فایل های PDF به صفحات گسترده اکسل کمک کند. مدل هایی مانند LayoutLM مطمئناً ابتدایی نیستند، آنها به عنوان عوامل بسیار هوشمندی ساخته شده اند که قادر به استخراج داده های دقیق در مقیاس، در موارد مختلف استفاده هستند. حتی با بسیاری از مشتریان خودمان، زمان مورد نیاز برای استخراج داده ها به صورت دستی را از 20 دقیقه در هر سند به کمتر از 10 ثانیه کاهش داده ایم. این یک جابجایی عظیم است که کارگران را قادر می‌سازد تا بازدهی بیشتری داشته باشند و به طور کلی توان عملیاتی بالاتری داشته باشند.

بنابراین در کجا می توان هوش مصنوعی مشابه LayoutLM را اعمال کرد؟ در Nanonets، ما از چنین فناوری استفاده کرده ایم

و بسیاری موارد استفاده دیگر

چرا LayoutLM؟

چگونه یک مدل یادگیری عمیق می‌فهمد که یک قطعه متن داده شده، شرح مورد در فاکتور است یا شماره فاکتور؟ به بیان ساده، چگونه یک مدل یاد می گیرد که چگونه برچسب ها را به درستی اختصاص دهد؟

یکی از روش‌ها استفاده از جاسازی‌های متنی از یک مدل زبانی عظیم مانند BERT یا GPT-3 و اجرای آن از طریق یک طبقه‌بندی‌کننده است – اگرچه این کار چندان مؤثری نیست. اطلاعات زیادی وجود دارد که نمی توان آنها را صرفاً با استفاده از متن اندازه گیری کرد. یا می توان از اطلاعات مبتنی بر تصویر استفاده کرد. این با استفاده از مدل های R-CNN و Faster R-CNN به دست آمد. با این حال، این هنوز به طور کامل از اطلاعات موجود در اسناد استفاده نمی کند. یکی دیگر از رویکردهای مورد استفاده، شبکه‌های عصبی کانولوشن گراف بود که اطلاعات مکانی و متنی را با هم ترکیب می‌کرد، اما اطلاعات تصویر را در نظر نمی‌گرفت.

پس چگونه از هر سه بعد اطلاعات یعنی متن، تصویر و مکان متن داده شده نیز استفاده کنیم؟ اینجاست که مدل‌هایی مانند LayoutLM وارد می‌شوند. علیرغم اینکه LayoutLM سال‌ها قبل یک حوزه تحقیقاتی فعال بود، یکی از اولین مدل‌هایی بود که با ترکیب قطعات برای ایجاد یک مدل منحصر به فرد به موفقیت دست یافت که برچسب‌گذاری را با استفاده از اطلاعات موقعیتی، اطلاعات مبتنی بر متن انجام می‌داد. و همچنین اطلاعات تصویری

آموزش LayoutLM

LayoutLM توضیح داده شد — LayoutLM Architecture

این مقاله فرض می کند که شما می دانید مدل زبان چیست. اگر نه، نگران نباشید، ما یک مقاله در مورد آن نیز نوشتیم! اگر می‌خواهید در مورد مدل‌های ترانسفورماتور و توجه به آن بیشتر بدانید، اینجا مقاله ای شگفت انگیز از جی آلمار است.

با فرض اینکه این موارد را از سر راه برداشته ایم، بیایید با آموزش شروع کنیم. ما از مقاله LayoutLM اصلی به عنوان مرجع اصلی استفاده خواهیم کرد.

استخراج متن OCR

اولین کاری که ما با یک سند انجام می دهیم این است که اطلاعات مبتنی بر متن را از سند استخراج کنیم و مکان های مربوط به آنها را پیدا کنیم. از نظر مکان، ما به چیزی به نام "جعبه مرزی" اشاره می کنیم. کادر محصور مستطیلی است که تکه متن روی صفحه را محصور می کند.

در بیشتر موارد، فرض بر این است که جعبه مرزی در گوشه بالا سمت چپ منشاء دارد و محور x مثبت از مبدا به سمت راست صفحه هدایت می‌شود و محور مثبت y از مبدا به سمت راست هدایت می‌شود. پایین صفحه، با یک پیکسل که واحد اندازه گیری در نظر گرفته می شود.

جاسازی زبان و مکان

در مرحله بعد، از پنج لایه جاسازی مختلف استفاده می کنیم. یکی، رمزگذاری اطلاعات مربوط به زبان - یعنی جاسازی متن است.

چهار مورد دیگر برای جاسازی مکان رزرو شده اند. با فرض اینکه مقادیر xmin، ymin، xmax و ymax را بدانیم، می‌توانیم کل کادر مرزی را تعیین کنیم. (اگر نمی توانید آن را تجسم کنید، در اینجا یک لینک برای شما است). این مختصات از لایه های تعبیه شده مربوطه عبور داده می شوند تا اطلاعات مکان را رمزگذاری کنند.

پنج جاسازی - یکی برای متن و چهار برای مختصات - سپس برای ایجاد ارزش نهایی جاسازی که از طریق LayoutLM منتقل می شود، جمع می شوند. خروجی به عنوان جاسازی LayoutLM نامیده می شود.

جاسازی های تصویر

بسیار خوب، بنابراین ما موفق شده‌ایم اطلاعات مربوط به متن و مکان را با ترکیب جاسازی‌های آنها و عبور آن از یک مدل زبانی پیدا کنیم. حال چگونه می‌توانیم فرآیند ترکیب اطلاعات مربوط به تصویر را در آن مرور کنیم؟

در حالی که اطلاعات متن و چیدمان در حال کدگذاری هستند، به طور موازی، از Faster R-CNN برای استخراج مناطق متن مربوط به سند استفاده می کنیم. سریعتر R-CNN یک مدل تصویری است که برای تشخیص اشیا استفاده می شود. در مورد ما، ما از آن برای شناسایی قطعات مختلف متن استفاده می‌کنیم (با فرض اینکه هر عبارت یک شی است) و سپس تصاویر بخش‌بندی شده را از یک لایه کاملاً متصل عبور می‌دهیم تا به ایجاد جاسازی برای تصاویر نیز کمک کنیم.

تعبیه‌های LayoutLM و همچنین جاسازی‌های تصویر برای ایجاد یک جاسازی نهایی ترکیب می‌شوند که سپس می‌توان از آن برای انجام پردازش پایین‌دستی استفاده کرد.

LayoutLM قبل از آموزش

همه موارد فوق تنها در صورتی معنا پیدا می کند که روش آموزش LayoutLM را درک کنیم. به هر حال، مهم نیست که چه نوع ارتباطی در یک شبکه عصبی برقرار می کنیم، تا زمانی که با هدف یادگیری درست آموزش داده نشود، کاملاً هوشمند نیست. نویسندگان LayoutLM می‌خواستند روشی مشابه آنچه برای پیش‌آموزش BERT استفاده می‌شد، دنبال کنند.

مدل زبان بصری ماسک شده (MVLM)

به منظور کمک به مدل در یادگیری اینکه چه متنی می‌توانست در یک مکان خاص وجود داشته باشد، نویسندگان به‌طور تصادفی چند نشانه از متن را در حالی که اطلاعات مربوط به مکان و جاسازی‌ها را حفظ می‌کردند، پنهان کردند. این LayoutLM را قادر ساخت تا فراتر از مدل‌سازی زبان ماسک‌شده ساده برود و به همراه کردن جاسازی‌های متن با روش‌های مربوط به مکان نیز کمک کرد.

طبقه بندی اسناد چند برچسبی (MDC)

استفاده از تمام اطلاعات موجود در سند برای طبقه بندی آن به دسته ها به مدل کمک می کند تا بفهمد چه اطلاعاتی به دسته خاصی از اسناد مربوط می شود. با این حال، نویسندگان خاطرنشان می کنند که برای مجموعه داده های بزرگتر، داده های مربوط به کلاس های سند ممکن است به راحتی در دسترس نباشند. از این رو، آنها اساس نتایج را هم آموزش MVLM به تنهایی و هم آموزش MVLM + MDC ارائه کرده اند.

تنظیم دقیق LayoutLM برای کارهای پایین دست

چندین کار پایین دستی وجود دارد که می توان با LayoutLM اجرا کرد. ما در مورد مواردی که نویسندگان متعهد شده اند بحث خواهیم کرد.

تفاهم فرم

این کار مستلزم پیوند یک نوع برچسب به یک قطعه متن داده شده است. با استفاده از این، می توانیم داده های ساختار یافته را از هر نوع سندی استخراج کنیم. با توجه به خروجی نهایی، یعنی جاسازی‌های LayouLM + جاسازی‌های تصویر، آنها از یک لایه کاملاً متصل عبور داده می‌شوند و سپس از یک softmax برای پیش‌بینی احتمالات کلاس برای برچسب یک قطعه متن داده شده عبور می‌کنند.

درک رسید

در این کار، چندین اسلات اطلاعات روی رسیدها خالی می ماندند و مدل باید قطعات متن را به درستی در اسلات مربوطه خود قرار می داد.

طبقه بندی تصویر سند

اطلاعات متن و تصویر سند برای کمک به درک کلاس سند با عبور دادن آن از یک لایه softmax ترکیب می شود.

Huggingface LayoutLM

یکی از دلایل اصلی که LayoutLM بسیار مورد بحث قرار می گیرد این است که این مدل مدتی پیش منبع باز بود. این است موجود در Hugging Face، بنابراین استفاده از LayoutLM در حال حاضر بسیار ساده تر است.

قبل از اینکه به جزئیات نحوه تنظیم دقیق LayoutLM برای نیازهای خود بپردازیم، چند نکته وجود دارد که باید در نظر گرفته شود.

نصب کتابخانه ها

برای اجرای LayoutLM، به کتابخانه Transformers از Hugging Face نیاز دارید که به نوبه خود به کتابخانه PyTorch وابسته است. برای نصب آنها (اگر قبلا نصب نشده اند)، دستورات زیر را اجرا کنید

در جعبه های مرزبندی

برای ایجاد یک طرح جاسازی یکنواخت بدون توجه به اندازه تصویر، مختصات جعبه مرزی در مقیاس 1000 نرمال می شوند.

پیکر بندی

با استفاده از کلاس transformers.LayoutLMConfig، می توانید اندازه مدل را مطابق با نیازهای خود تنظیم کنید، زیرا این مدل ها معمولاً سنگین هستند و به قدرت محاسباتی کمی نیاز دارند. تنظیم آن بر روی یک مدل کوچکتر ممکن است به شما کمک کند آن را به صورت محلی اجرا کنید. تو می توانی در اینجا درباره کلاس بیشتر بدانید.

LayoutLM برای طبقه بندی اسناد (ارتباط دادن)

اگر می خواهید طبقه بندی اسناد را انجام دهید، به ترانسفورماتورهای کلاس نیاز دارید.LayoutLMForSequenceClassification. دنباله در اینجا دنباله ای از متن از سندی است که شما استخراج کرده اید. در اینجا یک نمونه کد کوچک از Hugging Face.co آمده است که نحوه استفاده از آن را توضیح می دهد

LayoutLM برای برچسب گذاری متن (ارتباط دادن)

برای انجام برچسب‌گذاری معنایی، به عنوان مثال برچسب‌ها را به قسمت‌های مختلف متن در سند اختصاص دهید، به کلاس transformers نیاز دارید. LayoutLMForTokenClassification. شما ممکن است جزئیات بیشتری در مورد پیدا کنید اینجا هم همینطوردر اینجا یک نمونه کد کوچک برای شما آورده شده است تا ببینید چگونه می تواند برای شما کار کند

چند نکته در مورد چیدمان صورت در آغوش گرفتن LM

در حال حاضر، مدل Hugging Face LayoutLM از کتابخانه متن باز Tesseract برای استخراج متن استفاده می کند که خیلی دقیق نیست. ممکن است بخواهید از ابزار OCR متفاوت و پولی مانند AWS Textract یا Google Cloud Vision استفاده کنید
مدل موجود فقط مدل زبان را ارائه می‌کند، یعنی جاسازی‌های LayoutLM، و نه لایه‌های نهایی که ویژگی‌های بصری را ترکیب می‌کنند. LayoutLMv2 (در بخش بعدی مورد بحث قرار گرفته است) از کتابخانه Detectron برای فعال کردن جاسازی ویژگی های بصری نیز استفاده می کند.
طبقه‌بندی برچسب‌ها در سطح کلمه اتفاق می‌افتد، بنابراین واقعاً به موتور استخراج متن OCR بستگی دارد که مطمئن شود همه کلمات در یک فیلد در یک توالی پیوسته قرار دارند، یا ممکن است یک فیلد به صورت دو قسمتی پیش‌بینی شود.

LayoutLMv2

LayoutLM به عنوان انقلابی در نحوه استخراج داده ها از اسناد به وجود آمد. با این حال، تا آنجا که تحقیقات یادگیری عمیق پیش می‌رود، مدل‌ها با گذشت زمان بیشتر و بیشتر بهبود می‌یابند. LayoutLM به طور مشابه توسط LayoutLMv2 جایگزین شد، جایی که نویسندگان تغییرات مهمی را در نحوه آموزش مدل ایجاد کردند.

از جمله جاسازی‌های فضایی 1 بعدی و جاسازی‌های نشانه بصری

LayoutLMv2 شامل اطلاعات مربوط به مکان نسبی 1-D و همچنین اطلاعات کلی مربوط به تصویر بود. دلیل اهمیت این موضوع به دلیل اهداف آموزشی جدید است که اکنون در مورد آنها بحث خواهیم کرد

اهداف آموزشی جدید

LayoutLMv2 شامل برخی از اهداف آموزشی اصلاح شده است. این موارد به شرح زیر است:

Masked Visual Language Modelling: این شبیه به LayoutLM است
تراز تصویر متن: متن به طور تصادفی از تصویر پوشانده شد، در حالی که نشانه های متن در اختیار مدل قرار گرفت. برای هر نشانه، مدل باید یاد می گرفت که آیا متن داده شده پوشش داده شده است یا خیر. از این طریق، مدل قادر به ترکیب اطلاعات از هر دو حالت تصویری و متنی بود
مطابقت تصویر متن: از مدل خواسته می شود بررسی کند که آیا تصویر داده شده با متن داده شده مطابقت دارد یا خیر. نمونه‌های منفی یا به‌عنوان تصاویر نادرست تغذیه می‌شوند، یا اصلاً هیچ جاسازی تصویری ارائه نمی‌شود. این کار برای اطمینان از اینکه مدل درباره نحوه ارتباط متن و تصاویر بیشتر می‌آموزد انجام می‌شود.

با استفاده از این روش‌ها و جاسازی‌های جدید، این مدل توانست تقریباً در تمام مجموعه‌های داده آزمایشی به‌عنوان LayoutLM به نمرات F1 بالاتری دست یابد.

تمبر زمان: مارس 7، 2022

تمبر زمان: ژان 5، 2023

بازنشر افلاطون

تبدیل داده های PDF به ورودی های پایگاه داده

راهنمای مدیریت فاکتور در Oracle NetSuite

Power Automate چیست؟

پردازشگرهای پرداخت چیست و چگونه کار می کنند؟

نسبت هزینه متغیر: چیست و چگونه آن را محاسبه کنیم؟

ABBYY Teardown – مزایا و معایب استفاده از ABBYY

درباره‌ ما

جستجوی عمودی و هوش مصنوعی

سکو

همیشه در ارتباط ماندن

حساب