نموذج استخراج البيانات

أعاد نشره أفلاطون

المتابعون: 0

هل تريد استخراج البيانات من النماذج المطبوعة أو المكتوبة بخط اليد؟ الدفع النانو™ مستخرج بيانات النموذج مجانًا وأتمتة تصدير المعلومات من أي شكل!

النماذج في كل مكان. يتم تعريفها على أنها مستندات تم إنشاؤها لجمع المعلومات عن طريق مطالبة المشاركين بملء المعلومات المطلوبة بتنسيق معين. إنها مفيدة نظرًا لقدرتها على جمع الكثير من البيانات في وقت قصير. ومع ذلك ، لا تتمتع جميع النماذج بنفس القدرة على جمع البيانات وغالبًا ما تتطلب عملاً يدويًا في وقت لاحق. لذلك ، نعتمد على الأدوات والخوارزميات لأتمتة عملية استخراج بيانات النموذج بذكاء. ستتعمق هذه المدونة في سيناريوهات وتقنيات مختلفة لاستخراج البيانات من النماذج باستخدام التعرف الضوئي على الحروف والتعلم العميق.

ما هو نموذج استخراج البيانات؟
ما الذي يجعل المشكلة صعبة؟
عمق مشكلة استخراج النموذج
كيف تطورت حلول استخراج البيانات من النموذج؟
نموذج استخراج البيانات باستخدام OCRs
حل استخراج بيانات النموذج باستخدام التعلم العميق
أدخل Nanonets

ما هو نموذج استخراج البيانات؟

استخراج بيانات النموذج هو عملية استخراج البيانات من النماذج - سواء عبر الإنترنت أو دون الاتصال بالإنترنت. يمكن العثور على هذه البيانات في أي تنسيق ، وعادة ما تحتوي على نموذج مع المعلومات ذات الصلة. ومع ذلك ، فإن استخراج هذه البيانات ليس دائمًا مهمة سهلة لأن العديد من التخطيطات والتصميمات لا تسمح بتحديد النص بسهولة. لا توجد طريقة أصلية لنسخ البيانات منها. لذلك ، نعتمد على التقنيات الآلية للمساعدة في استخراج البيانات من النماذج الأكثر فعالية والأقل عرضة للخطأ.

ما هو نموذج استخراج البيانات؟

على سبيل المثال ، يعتمد العديد من المستخدمين اليوم على النماذج المستندة إلى PDF لجمع معلومات الاتصال. هذه طريقة فعالة للغاية لجمع المعلومات لأنها لا تتطلب من المرسل والمتلقي تقديم المدخلات. لكن استخراج هذه البيانات من نموذج PDF يمكن أن يكون صعبًا ومكلفًا.

هنا ، يمكن أن يساعد استخراج بيانات النموذج في استخراج البيانات من نموذج PDF ، مثل الاسم وعنوان البريد الإلكتروني ورقم الهاتف وما إلى ذلك. يمكن استيرادها إلى تطبيق آخر مثل Excel أو Sheets أو أي تنسيق منظم آخر. الطريقة التي تعمل بها هي قراءة أدوات الاستخراج فوق ملف PDF ، وسحب ما يحتاج إليه تلقائيًا وتنظيمه بتنسيق سهل القراءة. يمكن تصدير هذه البيانات إلى تنسيقات أخرى مثل Excel و CSV و JSON وتنسيقات بيانات أخرى جيدة التنظيم. في القسم التالي ، دعنا نلقي نظرة على بعض التحديات التي نواجهها بشكل متكرر عند إنشاء خوارزميات استخراج بيانات النموذج.

هل تريد استخراج البيانات من النماذج المطبوعة أو المكتوبة بخط اليد؟ تحقق من شبكات النانو™ مستخرج بيانات النموذج مجانًا وأتمتة تصدير المعلومات من أي شكل!

ما الذي يجعل استخراج بيانات النموذج يمثل تحديًا؟

يعد استخراج البيانات مشكلة مثيرة لعدة أسباب. أولاً ، إنها مشكلة التعرف على الصور ، ولكن عليها أيضًا مراعاة النص الذي قد يكون موجودًا في الصورة وتخطيط النموذج ، مما يجعل بناء خوارزمية أكثر تعقيدًا. يناقش هذا القسم بعض التحديات الشائعة التي يواجهها الأشخاص عند إنشاء خوارزميات استخراج بيانات النموذج.

نقص البيانات: عادةً ما يتم إنشاء خوارزميات استخراج البيانات باستخدام خوارزميات التعلم العميق القوية والخوارزميات القائمة على رؤية الكمبيوتر. تعتمد هذه عادةً على كميات هائلة من البيانات لتحقيق أداء متطور. وبالتالي ، فإن العثور على مجموعة بيانات متسقة وموثوقة ومعالجتها أمر بالغ الأهمية لأي شكل من أشكال أداة أو برنامج استخراج البيانات. على سبيل المثال ، لنفترض أن لدينا نماذج ذات قوالب متعددة ، فيجب أن تكون هذه الخوارزميات قادرة على فهم مجموعة واسعة من النماذج ؛ لذلك فإن تدريبهم على مجموعة بيانات قوية سيكون له أداء أكثر دقة.
معالجة الخطوط واللغات والتخطيطات: هناك كميات مذهلة من المحارف والتصميمات والقوالب المختلفة المتاحة لأنواع مختلفة من بيانات النموذج. قد تقع في عدة تصنيفات مختلفة تمامًا ، مما يجعل من الصعب ضمان التعرف الدقيق عندما يكون هناك قدر كبير من أنواع الشخصيات المختلفة التي يجب أخذها في الاعتبار. ومن ثم ، من المهم قصر مجموعة الخطوط على لغة ونوع معينين لأنها ستنشئ العديد من العمليات التي تتدفق بسلاسة بمجرد أن تتم معالجة هذه المستندات بشكل مناسب. في الحالات متعددة اللغات ، يجب التحضير للتنقل بين الأحرف من لغات متعددة وكذلك الاهتمام بالطباعة المعقدة.

مصدر الصورة: متوسط

التوجيه والانحراف (الدوران): أثناء معالجة البيانات ، غالبًا ما نقوم بمسح الصور ضوئيًا لتدريب الخوارزميات على جمع بيانات الإدخال. إذا سبق لك استخدام ماسح ضوئي أو كاميرا رقمية ، فربما تكون قد لاحظت أن الزاوية التي تلتقط بها صور المستندات قد تؤدي أحيانًا إلى ظهورها بشكل منحرف. يُعرف هذا باسم الانحراف الذي يشير إلى درجة الزاوية. هذا الانحراف يمكن أن يقلل من دقة النموذج. لحسن الحظ ، يمكن استخدام تقنيات مختلفة لإصلاح هذه المشكلة ببساطة عن طريق تعديل كيفية اكتشاف برنامجنا لميزات في مناطق معينة من الصورة. مثال على هذه التقنية هو طرق ملف تعريف الإسقاط أو طرق تحويل فورييه ، والتي تتيح نتائج أكثر نظافة في الشكل والأبعاد والتعرف على النسيج! على الرغم من أن الاتجاه والانحراف قد يكونان خطأين بسيطين ، إلا أنهما قد يؤثران على دقة النموذج بأعداد كبيرة.

مصدر الصورة: pyimagesearch

حماية البيانات: إذا كنت تستخرج البيانات من مصادر مختلفة لجمع البيانات ، فمن المهم أن تكون على دراية بالإجراءات الأمنية المعمول بها. خلاف ذلك ، فإنك تخاطر بتعريض المعلومات التي يتم نقلها للخطر. يمكن أن يؤدي هذا إلى مواقف يتم فيها انتهاك المعلومات الشخصية أو أن المعلومات التي يتم إرسالها إلى واجهة برمجة التطبيقات غير آمنة. لذلك ، أثناء العمل مع البرامج النصية ETL وواجهات برمجة التطبيقات عبر الإنترنت لاستخراج البيانات ، يجب على المرء أيضًا أن يكون على دراية بقضايا أمان البيانات.
استخراج الجدول: في بعض الأحيان ، نرى بيانات النموذج داخل الجداول ؛ قد يكون بناء خوارزمية قوية يمكنها التعامل مع كل من استخراج النموذج واستخراج الجدول أمرًا صعبًا. تتمثل الطريقة المعتادة في بناء هذه الخوارزميات بشكل مستقل وتطبيقها على البيانات ، ولكن هذا سيؤدي إلى استخدام المزيد من القوة الحسابية مما يزيد التكاليف. لذلك ، يجب أن يكون استخراج النموذج المثالي قادرًا على استخراج بيانات النموذج وكذلك البيانات من مستند معين.

مصدر الصورة: شبكات جي سي إن

معالجة ما بعد / إخراج الإخراج: البيانات الناتجة من أي استخراج بيانات ليست مباشرة. لذلك ، يعتمد المطورون على تقنيات ما بعد المعالجة لتصفية النتائج إلى تنسيق أكثر تنظيماً. بعد معالجة البيانات ، يتم تصديرها إلى تنسيق أكثر تنظيماً مثل CSV أو Excel أو قاعدة بيانات. تعتمد المؤسسات على عمليات تكامل الجهات الخارجية أو تطوير واجهات برمجة التطبيقات لأتمتة هذه العملية ، والتي تستغرق وقتًا طويلاً مرة أخرى. ومن ثم ، يجب أن تكون خوارزميات استخراج البيانات المثالية مرنة وسهلة التواصل مع مصادر البيانات الخارجية.

المعالجة اللاحقة في نموذج استخراج البيانات

فهم عمق استخراج النموذج مع سيناريوهات مختلفة

لقد ناقشنا حتى الآن أساسيات وتحديات استخراج بيانات النموذج. في هذا القسم ، سنتعمق في سيناريوهات مختلفة ونفهم عمق استخراج بيانات النموذج. سننظر أيضًا في كيفية أتمتة عملية الاستخراج لهذه السيناريوهات المحددة.

السيناريو رقم 1: التعرف الكتابي على النماذج غير المتصلة

توجد أشكال غير متصلة بالإنترنت بشكل شائع في الحياة اليومية. من الضروري أن تكون النماذج سهلة الملء والإرسال. يمكن أن تكون عملية رقمنة النماذج غير المتصلة يدويًا مهمة شاقة ومكلفة ، وهذا هو سبب الحاجة إلى خوارزميات التعلم العميق. تمثل المستندات المكتوبة بخط اليد تحديًا كبيرًا لاستخراج البيانات بسبب تعقيد الأحرف المكتوبة بخط اليد. لذلك ، يتم استخدام خوارزميات التعرف على البيانات بشكل كبير حيث يتعلم الجهاز قراءة النص المكتوب بخط اليد وتفسيره. تتضمن العملية مسح صور الكلمات المكتوبة بخط اليد وتحويلها إلى بيانات يمكن معالجتها وتحليلها بواسطة خوارزمية. تقوم الخوارزمية بعد ذلك بإنشاء خريطة شخصية بناءً على السكتات الدماغية والتعرف على الأحرف المقابلة لاستخراج النص.

مصدر الصورة: مجموعة بيانات NSIT

السيناريو رقم 2: تحديد خانة الاختيار في النماذج

نماذج خانة الاختيار هي شكل من أشكال إدخال البيانات المستخدمة لجمع المعلومات من مستخدم في حقل الإدخال. يوجد هذا النوع من البيانات عادةً في القوائم والجداول التي تتطلب من المستخدم تحديد عنصر واحد أو أكثر ، مثل العناصر التي يريدون الاتصال بهم. يمكن العثور عليها في أي عدد من الأماكن - النماذج والاستبيانات والاستطلاعات عبر الإنترنت ، وما إلى ذلك. اليوم ، يمكن لبعض الخوارزميات أتمتة عملية استخراج البيانات حتى من مربعات الاختيار. الهدف الأساسي من هذه الخوارزمية هو تحديد مناطق الإدخال باستخدام تقنيات رؤية الكمبيوتر. يتضمن ذلك تحديد الخطوط (الأفقية والرأسية) ، وتطبيق المرشحات ، وتحديد ملامح واكتشاف الحواف على الصور. بعد تحديد منطقة الإدخال ، من السهل استخراج محتويات خانة الاختيار التي تم تمييزها أو عدم تمييزها.

تحديد خانة الاختيار في استخراج بيانات النموذج

السيناريو رقم 3: تخطيط التغييرات في النموذج من وقت لآخر

عندما يتعلق الأمر بملء النماذج ، يوجد عادةً نوعان مختلفان من الخيارات. بالنسبة لبعض النماذج ، نحتاج إلى تقديم معلوماتنا عن طريق الكتابة في جميع الحقول ذات الصلة ، بينما بالنسبة للآخرين ، يمكننا توفير المعلومات عن طريق الاختيار من بين عدد قليل من مربعات الاختيار. يتغير تخطيط النموذج أيضًا وفقًا لنوع النموذج وسياقه. لذلك ، من الضروري بناء خوارزمية يمكنها التعامل مع العديد من المستندات غير المهيكلة واستخراج المحتوى بذكاء اعتمادًا على تسميات النموذج. إحدى التقنيات الشائعة لهندسة التعلم العميق للتعامل مع تخطيطات المستندات هي Graph CNNs. الفكرة وراء الشبكات التلافيفية للرسم البياني (GCNs) هي التأكد من أن عمليات تنشيط الخلايا العصبية تعتمد على البيانات. وهي مصممة لتعمل على الرسوم البيانية ، التي تتكون من عقد وحواف. طبقة الرسم البياني التلافيفية قادرة على التعرف على الأنماط في حالة عدم وجود إشارة تدريب خاصة بالمهمة. لذلك ، تكون هذه مناسبة عندما تكون البيانات قوية.

السيناريو رقم 4: الكشف عن خلايا الجدول

في بعض الحالات ، تصادف الشركات أنواعًا خاصة من النماذج تتكون من خلايا الجدول. خلايا الجدول هي مناطق مستطيلة داخل الجدول حيث يتم تخزين البيانات. يمكن تصنيفها كرؤوس أو صفوف أو أعمدة. يجب أن تحدد الخوارزمية المثالية كل هذه الأنواع من الخلايا وحدودها لاستخراج البيانات منها. بعض التقنيات الشائعة لاستخراج الجدول تشمل Stream و Lattice ؛ هذه خوارزميات يمكن أن تساعد في اكتشاف الخطوط والأشكال والمضلعات باستخدام عمليات متشابهة بسيطة على الصور.

كيف تطورت حلول استخراج البيانات من النموذج؟

تعود أصول استخراج بيانات النموذج إلى أيام ما قبل الكمبيوتر عندما كان الناس يتعاملون مع النماذج الورقية. مع ظهور الحوسبة ، أصبح من الممكن تخزين البيانات إلكترونيًا. يمكن لبرامج الكمبيوتر استخدام البيانات لإنشاء تقارير ، مثل إحصاءات المبيعات. يمكن أيضًا استخدام هذا البرنامج لطباعة الملصقات البريدية ، مثل اسم العملاء وعنوانهم ، وطباعة الفواتير ، مثل المبلغ المستحق والعنوان الذي يجب إرسالها إليه. ومع ذلك ، نرى اليوم إصدارًا مختلفًا من برنامج استخراج بيانات النموذج ؛ هذه هي دقيقة للغاية وأسرع وتقدم البيانات بطريقة منظمة ومنظمة للغاية. الآن ، دعنا نناقش بإيجاز الأنواع المختلفة لتقنيات استخراج بيانات النموذج.

على أساس القواعد من استخراج البيانات: الاستخراج المستند إلى القواعد هو تقنية تستخرج البيانات تلقائيًا من نموذج نموذج معين. يمكنه استخراج البيانات دون أي تدخل بشري. إنهم يعملون عن طريق فحص الحقول المختلفة على الصفحة وتحديد الحقول المطلوب استخلاصها بناءً على النص المحيط والتسميات وغيرها من الأدلة السياقية. عادة ما يتم تطوير هذه الخوارزميات وأتمتتها باستخدام البرامج النصية ETL أو تجريف الويب. ومع ذلك ، عندما يتم اختبارها على بيانات غير مرئية ، فإنها تفشل تمامًا.
نموذج استخراج البيانات باستخدام التعرف الضوئي على الحروف: OCR هو الحل الأمثل لأي شكل من أشكال مشكلة استخراج البيانات. ومع ذلك ، يجب على المرء كتابة نصوص وبرامج إضافية لتحقيق أداء دقيق. لكي يعمل التعرف الضوئي على الحروف ، يتطلب إدخال صورة بها نص. يقوم البرنامج بعد ذلك بقراءة كل بكسل ويقارن كل بكسل بالحرف المقابل له. إذا كان متطابقًا ، فسيتم إخراج هذا الحرف وأي أرقام أو رموز قريبة بدرجة كافية من الحرف. يتمثل التحدي الأكبر في التعرف الضوئي على الحروف في معرفة كيفية فصل الأحرف. على سبيل المثال ، عندما تكون الملاحظات متقاربة أو متداخلة ، مثل "أ" و "هـ". لذلك ، قد لا تعمل هذه عندما نستخرج النماذج غير المتصلة.
NER لاستخراج بيانات النموذج: التعرف على الكيان المسمى هو مهمة تحديد وتصنيف الكيانات المحددة مسبقًا في نص اللغة الطبيعية. غالبًا ما يتم استخدامه لاستخراج المعلومات من النماذج ، حيث يكتب الأشخاص الأسماء والعناوين والتعليقات ، وما إلى ذلك. ترتبط مهمة التعرف على الكيانات المسماة ارتباطًا وثيقًا بالمهمة الأوسع لحل المرجع ، والتي تحدد ما إذا كانت إشارات نفس الكيانات تشير إلى كيانات العالم الحقيقي نفسها. اليوم مع أدوات وأطر البرمجة المتقدمة ، يمكننا الاستفادة من النماذج المدربة مسبقًا لبناء نماذج قائمة على NER لمهام استخراج المعلومات.

مصدر الصورة: متوسط

استخدام التعلم العميق لاستخراج بيانات النموذج: التعلم العميق ليس جديدًا ، فهو موجود منذ عقود ، ولكن التطورات الأخيرة في بنيات التعلم العميق وقوة الحوسبة أدت إلى نتائج مذهلة. حقق استخراج بيانات النموذج باستخدام التعلم العميق أداءً متطورًا بأي تنسيق تقريبًا ، سواء كان رقميًا أو مكتوبًا بخط اليد. تبدأ العملية عن طريق تغذية الشبكة العصبية العميقة (DNN) بالآلاف أو الملايين من الأمثلة المختلفة الموصوفة بما هي عليه. على سبيل المثال ، تسميات نموذج الصورة مع كياناتها مثل الاسم والبريد الإلكتروني والمعرف وما إلى ذلك. تعالج DNN كل هذه المعلومات وتتعلم من تلقاء نفسها كيفية توصيل هذه القطع. ومع ذلك ، فإن بناء نموذج عالي الدقة يتطلب الكثير من الخبرة والتجارب.

التعلم العميق لاستخراج البيانات النموذجية

نموذج استخراج البيانات باستخدام OCRs

هناك العديد من المكتبات المختلفة المتاحة لاستخراج البيانات من النماذج. ولكن ماذا لو كنت تريد استخراج البيانات من صورة لنموذج؟ هذا هو المكان الذي يأتي فيه Tesseract OCR (التعرف الضوئي على الأحرف). Tesseract هو محرك OCR مفتوح المصدر (التعرف الضوئي على الأحرف) تم تطويره بواسطة HP. باستخدام Tesseract OCR ، من الممكن تحويل المستندات الممسوحة ضوئيًا مثل الفواتير الورقية والإيصالات والشيكات إلى ملفات رقمية قابلة للبحث والتحرير. إنه متوفر بعدة لغات ويمكنه التعرف على الأحرف بتنسيقات صور مختلفة. عادةً ما يتم استخدام Tesseract مع مكتبات أخرى لمعالجة الصور لاستخراج النص.

لاختبار ذلك ، تأكد من تثبيت Tesseract على جهازك المحلي. يمكنك إما استخدام روابط Tesseract CLI أو Python لتشغيل OCR. Python-tesseract عبارة عن غلاف لمحرك Tesseract-OCR من Google. يمكن استخدامه لقراءة جميع أنواع الصور التي تدعمها مكتبات التصوير وسادة و Leptonica ، بما في ذلك jpeg و png و gif و bmp و tiff وغيرها. يمكنك استخدامه بسهولة كبرنامج نصي استدعاء مستقل للتأثير إذا لزم الأمر.

الآن ، لنأخذ إيصالًا يحتوي على بيانات النموذج ونحاول تحديد موقع النص باستخدام Computer Vision و Tesseract.

import pytesseract
from pytesseract import Output
import cv2 img = cv2.imread('receipt.jpg')
d = pytesseract.image_to_data(img, output_type=Output.DICT)
n_boxes = len(d['level'])
for i in range(n_boxes): (x, y, w, h) = (d['left'][i], d['top'][i], d['width'][i], d['height'][i]) img = cv2.rectangle(img, (x, y), (x + w, y + h), (0, 0, 255), 2) cv2.imshow(img,'img')

نموذج استخراج البيانات باستخدام OCRs

هنا ، في الإخراج ، كما نرى ، كان البرنامج قادرًا على تحديد كل النص داخل النموذج. الآن ، دعنا نطبق OCR على هذا لاستخراج جميع المعلومات. يمكننا القيام بذلك ببساطة عن طريق استخدام image_to_string تعمل في بايثون.

extracted_text = pytesseract.image_to_string(img, lang = 'deu')

الإخراج:

Berghotel
Grosse Scheidegg
3818 Grindelwald
Familie R.Müller Rech.Nr. 4572 30.07.2007/13:29: 17
Bar Tisch 7/01
2xLatte Macchiato &ä 4.50 CHF 9,00
1xGloki a 5.00 CH 5.00
1xSchweinschnitzel ä 22.00 CHF 22.00
IxChässpätz 1 a 18.50 CHF 18.50 Total: CHF 54.50 Incl. 7.6% MwSt 54.50 CHF: 3.85 Entspricht in Euro 36.33 EUR
Es bediente Sie: Ursula MwSt Nr. : 430 234
Tel.: 033 853 67 16
Fax.: 033 853 67 19
E-mail: grossescheidegs@b luewin. Ch

هنا يمكننا استخراج جميع المعلومات من النموذج. ومع ذلك ، في معظم الحالات ، لن يساعد استخدام التعرف الضوئي على الحروف فقط لأن البيانات المستخرجة ستكون غير منظمة تمامًا. لذلك ، يعتمد المستخدمون على استخراج زوج القيمة الرئيسية في النماذج ، والتي يمكنها فقط تحديد كيانات معينة مثل المعرف والتواريخ ومبلغ الضريبة وما إلى ذلك. وهذا ممكن فقط من خلال التعلم العميق. في القسم التالي ، دعنا نلقي نظرة على كيفية الاستفادة من تقنيات التعلم العميق المختلفة لبناء خوارزميات لاستخراج المعلومات.

حل استخراج بيانات النموذج باستخدام التعلم العميق

تحويل الرسم البياني لاستخراج المعلومات متعددة الوسائط من المستندات الغنية بصريًا

الشبكات التلافيفية للرسم البياني (الرسم البياني CNNs) هي فئة من الشبكات العصبية التلافيفية العميقة (CNNs) القادرة على التعلم الفعال للميزات غير الخطية للغاية في هياكل بيانات الرسم البياني مع الحفاظ على بنية العقدة والحافة. يمكنهم أخذ هياكل بيانات الرسم البياني كمدخلات وإنشاء "خرائط معالم" للعقد والحواف. يمكن استخدام الميزات الناتجة لتصنيف الرسم البياني أو التجميع أو اكتشاف المجتمع. توفر شبكات GCN حلاً فعالاً لاستخراج المعلومات من المستندات الكبيرة الغنية بصريًا مثل الفواتير والإيصالات. لمعالجة هذه الأمور ، يجب تحويل كل صورة إلى رسم بياني يتكون من عقد وحواف. يتم تمثيل أي كلمة في الصورة بواسطة العقدة الخاصة بها ؛ يتم ترميز التصور لبقية البيانات في متجه ميزات العقدة.

وثيقة الرسم البياني. كل عقدة في الرسم البياني متصلة ببعضها البعض بشكل كامل. (SRC)

يقوم هذا النموذج أولاً بترميز كل مقطع نصي في المستند إلى تضمين الرسم البياني. يؤدي القيام بذلك إلى التقاط السياق المرئي والنصي المحيط بكل عنصر نصي ، جنبًا إلى جنب مع موضعه أو موقعه داخل كتلة نصية. ثم يقوم بدمج هذه الرسوم البيانية مع تضمين النص لإنشاء تمثيل شامل لهيكل المستند وما هو مكتوب داخله. يتعلم النموذج تعيين أوزان أعلى للنصوص التي من المحتمل أن تكون كيانات بناءً على مواقعها بالنسبة لبعضها البعض والسياق الذي تظهر فيه ضمن كتلة أكبر من القراء. أخيرًا ، يتم تطبيق نموذج BiLSTM-CRF القياسي لاستخراج الكيانات. تظهر النتائج أن هذه الخوارزمية تتفوق على النموذج الأساسي (BiLSTM-CRF) بهامش واسع.

LayoutLM: التدريب المسبق للنص والتخطيط لفهم صورة المستند

تصميم نموذج LayoutLM مستوحى بشكل كبير من BERT ويتضمن صورًا للزفاف من Faster R-CNN. يتم إنشاء عمليات تضمين إدخال LayoutLM كمزيج من حفلات الزفاف النصية والموضع ، ثم يتم دمجها مع عمليات دمج الصور التي تم إنشاؤها بواسطة نموذج Faster R-CNN. يتم استخدام نماذج اللغات المرئية المقنعة وتصنيف المستندات متعدد التسميات بشكل أساسي كمهام تدريب مسبق لـ LayoutLM. يعد نموذج LayoutLM قيمًا وديناميكيًا وقويًا بما يكفي لأي وظيفة تتطلب فهمًا للتخطيط ، مثل استخلاص النموذج / الإيصال أو تصنيف صورة المستند أو حتى يمكن إجراء الإجابة على الأسئلة المرئية باستخدام هذا النموذج التدريبي.

مصدر الصورة: تنسيق ML

تم تدريب نموذج LayoutLM على مجموعة اختبار IIT-CDIP 1.0 ، والتي تتضمن أكثر من 6 ملايين مستند وأكثر من 11 مليون صورة مستند ممسوحة ضوئيًا يبلغ مجموعها أكثر من 12 جيجابايت من البيانات. لقد تفوق هذا النموذج بشكل كبير على العديد من نماذج SOTA المدربة مسبقًا في فهم النموذج وفهم الاستلام ومهام تصنيف صور المستندات الممسوحة ضوئيًا.

Form2Seq: إطار عمل لاستخراج بنية النموذج ذات الترتيب الأعلى

Form2Seq هو إطار عمل يركز على استخراج الهياكل من إدخال النص باستخدام التسلسلات الموضعية. على عكس أطر عمل seq2seq التقليدية ، يستفيد Form2Seq من المواضع المكانية النسبية للهياكل ، بدلاً من ترتيبها.

في هذه الطريقة ، أولاً ، نصنف العناصر منخفضة المستوى التي ستسمح بمعالجة وتنظيم أفضل. هناك 10 أنواع من النماذج ، مثل التسميات التوضيحية للحقول وعناصر القائمة وما إلى ذلك. بعد ذلك ، نقوم بتجميع العناصر ذات المستوى الأدنى ، مثل Text Fields و ChoiceFields ، في تركيبات ذات ترتيب أعلى تسمى ChoiceGroups. تُستخدم هذه كآليات لجمع المعلومات لتحقيق تجربة مستخدم أفضل لعناصر المستوى الأدنى في التركيبات ذات الترتيب الأعلى ، مثل Text Fields و ChoiceFields و ChoiceGroups ، تُستخدم كآليات لجمع المعلومات في النماذج. هذا ممكن عن طريق ترتيب العناصر المكونة في ترتيب خطي في ترتيب القراءة الطبيعي وتغذية تمثيلاتها المكانية والنصية إلى إطار Seq2Seq. يقوم إطار عمل Seq2Seq بعمل تنبؤات بالتسلسل لكل عنصر من الجملة اعتمادًا على السياق. وهذا يسمح لها بمعالجة المزيد من المعلومات والتوصل إلى فهم أفضل للمهمة المطروحة.

Form2seq Model Architecture لتصنيف نوع العنصر. المراحل المختلفة مشروحة بأحرف (SRC).

حقق النموذج دقة بنسبة 90٪ في مهمة التصنيف ، والتي كانت أعلى من تلك الخاصة بنماذج خط الأساس القائمة على التجزئة. كان F1 في كتل النص وحقول النص وحقول الاختيار 86.01٪ و 61.63٪ على التوالي. حقق إطار العمل هذا حالة النتائج على مجموعة بيانات ICDAR للتعرف على بنية الجدول.

لماذا يعد التعرف الضوئي على الحروف المستند إلى AI من Nanonets هو الخيار الأفضل

على الرغم من أن برنامج OCR يمكنه تحويل الصور الممسوحة ضوئيًا للنص إلى ملفات رقمية منسقة مثل ملفات PDF و DOCs و PPT ، إلا أنها ليست دقيقة دائمًا. تغلبت البرامج المتطورة اليوم مثل نظام التعلم العميق OCR المستند إلى الذكاء الاصطناعي Nanonets على العديد من التحديات التي واجهتها أنظمة OCR التقليدية أثناء إنشاء ملف قابل للتحرير من مستند ممسوح ضوئيًا. لقد أصبح الخيار الأفضل لاستخراج البيانات لأنه يمكن أن يوفر معدلات دقة عالية ومستويات تحمل عالية للتشويش والعناصر الرسومية وتغييرات التنسيق. الآن ، دعنا نناقش بعض النقاط حول كيف أن OCR المستند إلى AI هو الخيار الأفضل.

Nanonets - نموذج استخراج البيانات

OCR ، كما تمت مناقشته ، هو أسلوب مباشر لاستخراج البيانات. ومع ذلك ، فإنها لن تعمل باستمرار عند وضعها على بيانات غير مرئية / جديدة. ومع ذلك ، يمكن لـ OCR المستند إلى AI التعامل مع مثل هذه المواقف ، حيث يتدربون على مجموعة واسعة من البيانات.
لا يمكن لـ OCRs العادية التعامل مع التخطيطات المعقدة لاستخراج بيانات النموذج. لذلك ، عند تشغيلها بالتعلم العميق أو الذكاء الاصطناعي ، فإنها تقدم أفضل النتائج من خلال فهم تخطيطات البيانات ونصها وسياقها.
قد يكون أداء OCR ضعيفًا عندما يكون هناك تشويش في البيانات ، مثل الانحراف والصور الممسوحة ضوئيًا في الإضاءة المنخفضة وما إلى ذلك ، بينما يمكن لنماذج التعلم العميق التعامل مع مثل هذه الظروف ولا تزال تقدم نتائج دقيقة للغاية.
تعد OCRs المستندة إلى AI قابلة للتخصيص والمرونة بدرجة كبيرة مقارنةً بـ OCRs التقليدية ؛ يمكن بناؤها على أنواع مختلفة من البيانات لتحويل البيانات غير المهيكلة إلى أي تنسيق منظم.
يمكن الوصول إلى مخرجات ما بعد المعالجة من OCR المستند إلى AI مقارنةً بـ OCR العادي ؛ يمكن تصديرها إلى أي تنسيقات بيانات مثل JSON أو CSV أو Excel Sheets أو حتى قاعدة بيانات مثل Postgres مباشرة من النموذج.
يمكن تصدير OCR المستند إلى AI كواجهة برمجة تطبيقات بسيطة باستخدام نماذج مدربة مسبقًا. لا يزال هذا ممكنًا في الطرق التقليدية الأخرى ، ولكن قد يكون من الصعب تحسين النماذج باستمرار في الوقت المناسب. أثناء استخدام OCR المستند إلى AI ، يمكن ضبطه تلقائيًا بواسطة الأخطاء.
استخراج الجدول مستحيل للغاية باستخدام OCR مباشرة. ومع ذلك ، يمكن القيام بذلك بسهولة باستخدام قوة AI / DL. اليوم ، يمكن لـ OCRs المستندة إلى AI أن تشير بشكل إيجابي إلى النماذج المستندة إلى الجدول داخل المستندات واستخراج المعلومات.
في حالة وجود أي بيانات مالية أو سرية في المستندات ، يمكن لنماذج الذكاء الاصطناعي أيضًا إجراء فحوصات الاحتيال. يبحث بشكل أساسي عن النص المحرر / غير الواضح من المستندات الممسوحة ضوئيًا ويخطر المسؤولين. يمكن أيضًا تحديد المستندات أو المعلومات المكررة من خلال هذه النماذج. بينما فشل التعرف الضوئي على الحروف ببساطة في مثل هذه الحالات.

الطابع الزمني: 6 آذار، 2022

الطابع الزمني: فبراير 28، 2024

نموذج استخراج البيانات

أعاد نشره أفلاطون

ما هو نموذج استخراج البيانات؟

ما الذي يجعل استخراج بيانات النموذج يمثل تحديًا؟

فهم عمق استخراج النموذج مع سيناريوهات مختلفة

السيناريو رقم 1: التعرف الكتابي على النماذج غير المتصلة

السيناريو رقم 2: تحديد خانة الاختيار في النماذج

السيناريو رقم 3: تخطيط التغييرات في النموذج من وقت لآخر

السيناريو رقم 4: الكشف عن خلايا الجدول

كيف تطورت حلول استخراج البيانات من النموذج؟

نموذج استخراج البيانات باستخدام OCRs

حل استخراج بيانات النموذج باستخدام التعلم العميق

لماذا يعد التعرف الضوئي على الحروف المستند إلى AI من Nanonets هو الخيار الأفضل

اكثر من الذكاء الاصطناعي والتعلم الآلي

أتمتة رقمنة الإيصال باستخدام OCR والتعلم العميق

ما هي دورة حسابات القبض؟

ما هي PO Flips وكيف يمكنها تحسين عملك؟

ما هي قاعدة بيانات Salesforce؟

ما هو طلب عرض الأسعار (RFQ) وكيف يختلف عن طلب تقديم العروض (RFP)؟

أفضل 10 ممارسات لحسابات الدفع لتحسين عملية AP في عام 2024

أفضل 10 برامج للتعرف الضوئي على الحروف للتصنيع في عام 2024 (أدوات مجانية ومدفوعة)

من نحن

البحث العمودي و Ai

الانطلاق

ابق على تواصل

حسابي