شرح تخطيط LM

أعاد نشره أفلاطون

المتابعون: 0

ما هي معالجة المستندات؟

شرح تخطيط LM

معالجة المستندات هي عملية أتمتة استخراج البيانات المنظمة من المستندات. قد يكون هذا لأي مستند ، على سبيل المثال فاتورة ، سيرة ذاتية ، بطاقات هوية ، إلخ. الجزء الصعب هنا ليس مجرد التعرف الضوئي على الحروف. هناك العديد من الخيارات المتاحة بتكلفة منخفضة والتي يمكن أن تستخرج النص وتعطيك الموقع. التحدي الحقيقي هو تسمية هذه الأجزاء من النص بدقة وتلقائية.

تأثير معالجة المستندات على الأعمال

تعتمد العديد من الصناعات بشكل كبير على معالجة المستندات لعملياتها اليومية. تحتاج المؤسسات المالية إلى الوصول إلى إيداعات SEC ، أو إيداعات التأمين ، أو قد تحتاج شركة التجارة الإلكترونية أو سلسلة التوريد إلى الوصول إلى الفواتير التي يتم استخدامها ، كما تطول القائمة. دقة هذه المعلومات لا تقل أهمية عن الوقت الذي يتم توفيره ، ولهذا السبب نوصي دائمًا باستخدام طرق التعلم العميق المتقدمة التي تعمم أكثر وأكثر دقة.

وفقًا لهذا التقرير الصادر عن شركة برايس ووترهاوس كوبرز ، [الصفحة ] حتى المقدار الأكثر بدائية من استخراج البيانات المنظمة يمكن أن يساعد في توفير 30-50٪ من وقت الموظف الذي يقضيه في نسخ البيانات ولصقها يدويًا من ملفات PDF إلى جداول البيانات المتميزة. نماذج مثل LayoutLM ليست بدائية بالتأكيد ، فقد تم بناؤها كعوامل ذكية للغاية قادرة على استخراج البيانات بدقة على نطاق واسع ، عبر حالات الاستخدام المختلفة. حتى مع وجود العديد من عملائنا ، قمنا بتقليل الوقت المطلوب لاستخراج البيانات يدويًا من 20 دقيقة لكل مستند إلى أقل من 10 ثوانٍ. هذا تحول هائل ، يمكّن العمال من أن يكونوا أكثر إنتاجية ، ولإنتاجية أعلى بشكل عام.

إذن ، أين يمكن تطبيق الذكاء الاصطناعي المشابه لـ LayoutLM؟ في Nanonets ، استخدمنا هذه التكنولوجيا لـ

والعديد من حالات الاستخدام الأخرى.

لماذا LayoutLM؟

كيف يفهم نموذج التعلم العميق ما إذا كان جزء معين من النص هو وصف عنصر في فاتورة أو رقم الفاتورة؟ ببساطة ، كيف يتعلم النموذج كيفية تعيين الملصقات بشكل صحيح؟

تتمثل إحدى الطرق في استخدام تضمين النص من نموذج لغة ضخم مثل BERT أو GPT-3 وتشغيله من خلال مصنف - على الرغم من أن هذا ليس فعالًا للغاية. هناك الكثير من المعلومات التي لا يمكن قياسها باستخدام النص فقط. أو ، يمكن للمرء الاستفادة من المعلومات القائمة على الصور. تم تحقيق ذلك باستخدام طرازي R-CNN و Faster R-CNN. ومع ذلك ، لا يزال هذا لا يستخدم بشكل كامل المعلومات المتاحة في الوثائق. الطريقة الأخرى المستخدمة كانت مع الشبكات العصبية التلافيفية للرسم البياني ، والتي جمعت بين المعلومات الموضعية والنصية ، ولكنها لم تأخذ في الاعتبار معلومات الصورة.

إذن كيف نستخدم الأبعاد الثلاثة للمعلومات ، أي النص والصورة وموقع النص المعطى أيضًا؟ هذا هو المكان الذي تأتي فيه نماذج مثل LayoutLM. على الرغم من كونها مجالًا نشطًا للبحث لعدة سنوات سابقة ، فقد كان LayoutLM أحد النماذج الأولى التي حققت النجاح في الجمع بين القطع لإنشاء نموذج فريد يؤدي وضع العلامات باستخدام المعلومات الموضعية والمعلومات المستندة إلى النص ، وكذلك معلومات الصورة.

LayoutLM البرنامج التعليمي

تفترض هذه المقالة أنك تفهم ما هو نموذج اللغة. إذا لم يكن كذلك ، فلا تقلق ، لقد كتبنا مقالًا عن ذلك أيضًا! إذا كنت ترغب في معرفة المزيد حول ماهية نماذج المحولات ، وما هو الاهتمام ، هنا مقال رائع بقلم جاي العمار.

بافتراض أننا حصلنا على هذه الأشياء بعيدًا عن الطريق ، فلنبدأ بالدرس التعليمي. سنستخدم ورق LayoutLM الأصلي كمرجع رئيسي.

استخراج النص OCR

أول شيء نفعله مع المستند هو استخراج المعلومات المستندة إلى النص من المستند ، والعثور على مواقع كل منها. حسب الموقع ، نشير إلى شيء يسمى "الصندوق المحيط". المربع المحيط هو مستطيل يحتوي على جزء من النص على الصفحة.

في معظم الحالات ، يُفترض أن المربع المحيط له أصل في الزاوية اليسرى العليا ، وأن المحور x الموجب موجه من الأصل نحو يمين الصفحة ، وأن المحور y الموجب موجه من الأصل إلى الجزء السفلي من الصفحة ، مع اعتبار البكسل وحدة قياس.

حفلات الزفاف في اللغة والمكان

بعد ذلك ، نستخدم خمس طبقات تضمين مختلفة. الأول ، هو ترميز المعلومات المتعلقة باللغة - مثل حفلات الزفاف النصية.

الأربعة الأخرى محجوزة لحفلات الزفاف في الموقع. بافتراض أننا نعرف قيم xmin و ymin و xmax و ymax ، يمكننا تحديد المربع المحيط بالكامل (إذا كنت لا تستطيع تصور ذلك ، هنا هو الرابط بالنسبة لك). يتم تمرير هذه الإحداثيات عبر طبقات التضمين الخاصة بها لترميز المعلومات الخاصة بالموقع.

تتم إضافة التضمينات الخمسة - واحدة للنص وأربعة للإحداثيات - لإنشاء القيمة النهائية للتضمين الذي يتم تمريره عبر LayoutLM. يُشار إلى الإخراج على أنه تضمين LayoutLM.

صور حفلات الزفاف

حسنًا ، لقد تمكنا من العثور على المعلومات المتعلقة بالنص والموقع من خلال الجمع بين حفلات الزفاف الخاصة بهم وتمريرها عبر نموذج اللغة. الآن كيف نتجول في عملية الجمع بين المعلومات المتعلقة بالصور فيه؟

أثناء تشفير معلومات النص والتخطيط ، بشكل متوازٍ ، نستخدم Faster R-CNN لاستخراج مناطق النص المتعلقة بالمستند. أسرع R-CNN هو نموذج صور يستخدم لاكتشاف الأشياء. في حالتنا ، نستخدمها لاكتشاف أجزاء مختلفة من النص (بافتراض أن كل عبارة هي كائن) ثم نقوم بتمرير الصور المجزأة عبر طبقة متصلة بالكامل للمساعدة في إنشاء عمليات دمج للصور أيضًا.

يتم دمج حفلات الزفاف LayoutLM بالإضافة إلى حفلات الزفاف لإنشاء دمج نهائي ، والذي يمكن استخدامه بعد ذلك لإجراء المعالجة النهائية.

تخطيط ما قبل التدريب

يكون كل ما سبق منطقيًا فقط إذا فهمنا الطريقة التي تم بها تدريب LayoutLM. بعد كل شيء ، بغض النظر عن نوع الاتصالات التي نؤسسها في الشبكة العصبية ، حتى وما لم يتم تدريبها بهدف التعلم الصحيح ، فهي ليست ذكية تمامًا. أراد مؤلفو LayoutLM اتباع طريقة مشابهة لما تم استخدامه للتدريب المسبق لـ BERT.

نموذج اللغة المرئية المقنع (MVLM)

من أجل مساعدة النموذج في معرفة النص الذي يمكن أن يكون موجودًا في موقع معين ، قام المؤلفون بشكل عشوائي بإخفاء بعض الرموز المميزة للنص مع الاحتفاظ بالمعلومات المتعلقة بالموقع وحفلات الزفاف. مكّن هذا LayoutLM من تجاوز النمذجة اللغوية المقنعة البسيطة ، وساعد أيضًا في ربط عمليات تضمين النص بالطرائق المتعلقة بالموقع.

تصنيف المستندات متعدد التسميات (MDC)

يساعد استخدام جميع المعلومات الموجودة في المستند لتصنيفها إلى فئات النموذج على فهم المعلومات ذات الصلة بفئة معينة من المستندات. ومع ذلك ، لاحظ المؤلفون أنه بالنسبة لمجموعات البيانات الأكبر ، قد لا تكون البيانات الخاصة بفئات المستندات متاحة بسهولة. ومن ثم ، فقد قدموا أساس النتائج لكل من تدريب MVLM وحده ، والتدريب على MVLM + MDC.

Fine Tuning LayoutLM لمهام المصب

هناك العديد من المهام النهائية التي يمكن تنفيذها باستخدام LayoutLM. سنناقش تلك التي تعهد بها المؤلفون.

فهم النموذج

تستلزم هذه المهمة ربط نوع تسمية بجزء معين من النص. باستخدام هذا ، يمكننا استخراج البيانات المنظمة من أي نوع من المستندات. بالنظر إلى المخرجات النهائية ، أي LayouLM embeddings + Image embeddings ، يتم تمريرها عبر طبقة متصلة بالكامل ثم يتم تمريرها عبر softmax للتنبؤ باحتمالات الفئة لتسمية جزء معين من النص.

فهم الاستلام

في هذه المهمة ، تُركت عدة فتحات من المعلومات فارغة على الإيصالات ، وكان على النموذج وضع أجزاء من النص بشكل صحيح في الفتحات الخاصة بكل منها.

تصنيف صورة الوثيقة

يتم دمج المعلومات من نص وصورة المستند للمساعدة في فهم فئة المستند بمجرد تمريره عبر طبقة softmax.

تعانق تخطيط الوجهLM

أحد الأسباب الرئيسية وراء مناقشة LayoutLM كثيرًا هو أن النموذج كان مفتوح المصدر منذ فترة. أنه متاح على Hugging Face، لذلك أصبح استخدام LayoutLM أسهل بكثير الآن.

قبل التعمق في تفاصيل كيفية ضبط LayoutLM وفقًا لاحتياجاتك الخاصة ، هناك بعض الأشياء التي يجب وضعها في الاعتبار.

تثبيت المكتبات

لتشغيل LayoutLM ، ستحتاج إلى مكتبة المحولات من Hugging Face ، والتي بدورها تعتمد على مكتبة PyTorch. لتثبيتها (إذا لم تكن مثبتة بالفعل) ، قم بتشغيل الأوامر التالية

على المربعات المحيطة

لإنشاء نظام دمج موحد بغض النظر عن حجم الصورة ، يتم تسوية إحداثيات الصندوق المحيط بمقياس 1000

الاعداد

باستخدام فئة transformers.LayoutLMConfig ، يمكنك ضبط حجم النموذج ليناسب متطلباتك بشكل أفضل ، نظرًا لأن هذه النماذج ثقيلة عادةً وتحتاج إلى قدر كبير من القدرة الحسابية. قد يساعدك تعيينه على نموذج أصغر في تشغيله محليًا. يمكنك تعلم المزيد عن الفصل هنا.

LayoutLM لتصنيف المستندات (لينك)

إذا كنت تريد إجراء تصنيف الوثيقة ، فستحتاج إلى محولات الفئة. التسلسل هنا هو تسلسل النص من المستند الذي قمت باستخراجه. إليك عينة صغيرة من التعليمات البرمجية من Hugging Face.co والتي سوف تشرح كيفية استخدامها

LayoutLM لتصنيف النص (لينك)

لتنفيذ وضع العلامات الدلالية ، أي تعيين تسميات لأجزاء مختلفة من النص في المستند ، ستحتاج إلى محولات الفئة. قد تجد المزيد من التفاصيل حول كذلك هناإليك نموذج رمز صغير لك لترى كيف يمكن أن يعمل من أجلك

بعض النقاط التي يجب ملاحظتها حول Hugging Face LayoutLM

حاليًا ، يستخدم نموذج Hugging Face LayoutLM مكتبة Tesseract مفتوحة المصدر لاستخراج النص ، وهي ليست دقيقة للغاية. قد ترغب في التفكير في استخدام أداة OCR مختلفة مدفوعة الأجر مثل AWS Textract أو Google Cloud Vision
يوفر النموذج الحالي فقط نموذج اللغة ، أي LayoutLM embeddings ، وليس الطبقات النهائية التي تجمع بين الميزات المرئية. تخطيط LMv2 (تمت مناقشته في القسم التالي) يستخدم مكتبة Detectron لتمكين الزخارف ذات الميزات المرئية أيضًا.
يحدث تصنيف الملصقات على مستوى الكلمة ، لذا فإن الأمر متروك حقًا لمحرك استخراج النص OCR للتأكد من أن جميع الكلمات في حقل ما في تسلسل مستمر ، أو يمكن توقع حقل واحد على أنه اثنين.

تخطيط

ظهر LayoutLM على أنه ثورة في كيفية استخراج البيانات من المستندات. ومع ذلك ، فيما يتعلق ببحوث التعلم العميق ، فإن النماذج تتحسن أكثر فأكثر بمرور الوقت. نجح LayoutLM بالمثل بواسطة LayoutLMv2 ، حيث أجرى المؤلفون بعض التغييرات المهمة على كيفية تدريب النموذج.

بما في ذلك حفلات الزفاف المكانية 1-D وحفلات الزفاف الرمزية المرئية

تضمن LayoutLMv2 معلومات تتعلق بالموقع النسبي أحادي الأبعاد ، بالإضافة إلى المعلومات العامة المتعلقة بالصورة. سبب أهمية ذلك هو أهداف التدريب الجديدة ، والتي سنناقشها الآن

أهداف تدريبية جديدة

تضمن LayoutLMv2 بعض أهداف التدريب المعدلة. هذه كالتالي:

نمذجة اللغة المرئية المقنعة: هذا هو نفسه في LayoutLM
محاذاة صورة النص: تمت تغطية النص عشوائيًا من الصورة ، بينما تم توفير الرموز المميزة للنص للنموذج. لكل رمز ، كان على النموذج أن يتعلم ما إذا كان النص المحدد قد تمت تغطيته أم لا. من خلال هذا ، كان النموذج قادرًا على الجمع بين المعلومات من الطرائق المرئية والنصية
مطابقة صورة النص: يُطلب من النموذج التحقق مما إذا كانت الصورة المقدمة تتوافق مع النص المحدد. يتم تغذية العينات السلبية كصور كاذبة ، أو لا يتم تقديم صور للزفاف على الإطلاق. يتم ذلك للتأكد من أن النموذج يتعلم المزيد حول كيفية ارتباط النص والصور.

باستخدام هذه الأساليب والزخارف الجديدة ، تمكن النموذج من تحقيق أعلى درجات F1 في جميع مجموعات بيانات الاختبار تقريبًا مثل LayoutLM.

الطابع الزمني: 7 آذار، 2022

الطابع الزمني: يناير 5، 2023

أعاد نشره أفلاطون

تحويل بيانات PDF إلى إدخالات قاعدة البيانات

دليل لإدارة الفواتير في Oracle NetSuite

ما هو Power Automate؟

ما هي معالجات الدفع وكيف تعمل؟

نسبة النفقات المتغيرة: ما هي وكيفية حسابها؟

ABBYY Teardown - إيجابيات وسلبيات استخدام ABBYY

من نحن

البحث العمودي و Ai

الانطلاق

ابق على تواصل

حسابي