חילוץ נתוני טופס

הועלה מחדש על ידי אפלטון

עוקב: 0

חילוץ נתוני טופס

רוצה לחלץ נתונים מטפסים מודפסים או בכתב יד? לבדוק ננונטים™ מחלץ נתונים של טופס בחינם והפוך את ייצוא המידע לאוטומטי מכל צורה שהיא!

טפסים נמצאים בכל מקום; הם מוגדרים כמסמכים שנוצרו כדי לאסוף מידע על ידי בקשת המשתתפים למלא את המידע הדרוש בפורמט מסוים. הם מועילים בגלל היכולת שלהם לאסוף הרבה נתונים בזמן קצר. עם זאת, לא לכל הטפסים יש את אותה יכולת לאיסוף נתונים ולעתים קרובות דורשים עבודה ידנית מאוחר יותר. לכן, אנו מסתמכים על כלים ואלגוריתמים לאוטומציה חכמה של תהליך חילוץ נתוני הטופס. פוסט זה בבלוג יצלול עמוק לתוך תרחישים וטכניקות שונות לחילוץ נתונים מטפסים באמצעות OCR ו-Deep Learning.

מהי חילוץ נתוני טופס?
מה הופך את הבעיה למאתגרת?
עומק בעיית חילוץ הטפסים
כיצד התפתחו פתרונות מיצוי נתוני הטפסים?
חילוץ נתוני טופס באמצעות OCR
פתרון חילוץ נתוני טופס באמצעות למידה עמוקה
היכנסו לננונטס

מהי חילוץ נתוני טופס?

חילוץ נתוני טפסים הוא תהליך של חילוץ נתונים מטפסים - הן מקוונות והן לא מקוונות. ניתן למצוא נתונים אלו בכל פורמט, בדרך כלל מכיל טופס עם המידע הרלוונטי. עם זאת, חילוץ נתונים אלה אינו תמיד משימה קלה מכיוון שהרבה פריסות ועיצובים אינם מאפשרים לבחור טקסט בקלות. אין דרך מקורית להעתיק מהם נתונים. לכן, אנו מסתמכים על טכניקות אוטומטיות שיעזרו לחלץ נתונים מטפסים יעילים יותר ופחות מועדים לשגיאות.

מהי חילוץ נתוני טופס?

לדוגמה, כיום, משתמשים רבים תלויים בטפסים מבוססי PDF כדי לאסוף מידע ליצירת קשר. זוהי דרך יעילה ביותר לאסוף מידע מכיוון שהיא אינה דורשת מהשולח והנמען לספק קלט. אבל חילוץ נתונים אלה מטופס PDF יכול להיות מאתגר ויקר.

כאן, חילוץ נתוני טופס יכול לעזור לחלץ נתונים מטופס PDF, כגון שם, כתובת דואר אלקטרוני, מספר טלפון וכו'. ניתן לייבא אותו ליישום אחר כמו Excel, Sheets, או כל פורמט מובנה אחר. הדרך שבה זה עובד היא שכלי החילוץ קוראים את קובץ ה-PDF, שולפים אוטומטית את מה שהוא צריך ומארגנים אותו בפורמט קל לקריאה. ניתן לייצא נתונים אלה לפורמטים אחרים כמו Excel, CSV, JSON ופורמטים אחרים של נתונים מובנים היטב. בסעיף הבא, בואו נסתכל על כמה מהאתגרים שנתקלים בהם לעתים קרובות בעת בניית אלגוריתמים לחילוץ נתוני טופס.

רוצה לחלץ נתונים מטפסים מודפסים או בכתב יד? בדוק את Nanonets™ מחלץ נתוני טופס בחינם והפוך את ייצוא המידע לאוטומטי מכל צורה שהיא!

מה הופך את מיצוי נתוני הטופס למאתגר?

שאיבת נתונים היא בעיה מרגשת ממגוון סיבות. ראשית, מדובר בבעיית זיהוי תמונה, אך עליה להתחשב גם בטקסט שעשוי להיות קיים בתמונה ובפריסה של הטופס, מה שהופך את בניית האלגוריתם למורכבת יותר. חלק זה דן בכמה מהאתגרים הנפוצים שאנשים נתקלים בהם בעת בניית אלגוריתמים לחילוץ נתוני טופס.

חוסר נתונים: אלגוריתמים לחילוץ נתונים נבנים בדרך כלל באמצעות אלגוריתמים חזקים של למידה עמוקה ואלגוריתמים מבוססי ראייה ממוחשבת. אלה מסתמכים בדרך כלל על כמויות אדירות של נתונים כדי להשיג ביצועים עדכניים. לפיכך, מציאת מערך נתונים עקבי ואמין ועיבודם הוא חיוני עבור כל צורה של כלי או תוכנה לחילוץ נתונים. לדוגמה, נניח שיש לנו טפסים עם מספר תבניות, אז אלגוריתמים אלה צריכים להיות מסוגלים להבין מגוון רחב של צורות; לכן אימון אותם על מערך נתונים חזק יביא לביצועים מדויקים יותר.
טיפול בגופנים, שפות ופריסות: ישנן כמויות מסחררות של גופים, עיצובים ותבניות שונות זמינות לסוגים שונים של נתוני טפסים. הם עשויים להיכלל בכמה סיווגים שונים לחלוטין, מה שהופך את זה למאתגר להבטיח זיהוי מדויק כאשר יש כמות עצומה של סוגי דמויות שונים לקחת בחשבון. מכאן שחשוב להגביל את אוסף הגופנים לשפה וסוג מסוים, כי זה ייצור תהליכים רבים שזורמים בצורה חלקה ברגע שמסמכים אלה יעובדו כראוי. במקרים רב לשוניים, יש להתכונן ללהטט בין דמויות ממספר שפות וגם לדאוג לטיפוגרפיה מורכבת.

מקור תמונה: בינוני

כיוון והטיה (סיבוב): במהלך איסוף נתונים, לעתים קרובות אנו סורקים תמונות כדי לאמן אלגוריתמים לאיסוף נתונים קלט. אם אי פעם השתמשת בסורק או במצלמה דיגיטלית, אז אולי שמת לב שהזווית שבה אתה מצלם תמונות של מסמכים יכולה לפעמים לגרום להן להיראות מוטה. זה ידוע בתור שיפוע המתייחס למידת הזווית. הטיה הזו יכולה להפחית את דיוק הדגם. למרבה המזל, ניתן להשתמש בטכניקות שונות כדי לתקן בעיה זו על ידי שינוי פשוט של האופן שבו התוכנה שלנו מזהה תכונות באזורים מסוימים של התמונה. דוגמה לטכניקה כזו היא שיטות Projection Profile או שיטות פורייה טרנספורמציה, המאפשרות תוצאות הרבה יותר נקיות בזיהוי צורה, מימד וטקסטורה! למרות שהתמצאות והטיה עשויות להיות טעויות פשוטות, הן יכולות להשפיע על הדיוק של המודל במספרים גדולים.

מקור תמונה: pyimagesearch

אבטחת מידע: אם אתה שואב נתונים ממקורות שונים לאיסוף נתונים, חשוב להיות מודעים לאמצעי האבטחה הקיימים. אחרת, אתה מסתכן בפגיעה במידע המועבר. זה יכול להוביל למצבים שבהם המידע האישי נפרץ או שהמידע שנשלח ל-API אינו מאובטח. לכן, תוך כדי עבודה עם סקריפטים של ETL וממשקי API מקוונים לחילוץ נתונים, יש להיות מודעים גם לבעיות אבטחת נתונים.
שאיבת שולחנות: לפעמים, אנו רואים נתוני טופס בתוך טבלאות; בניית אלגוריתם חזק שיכול להתמודד גם עם מיצוי טפסים וגם מיצוי טבלה יכולה להיות מאתגרת. הגישה המקובלת היא לבנות את האלגוריתמים הללו באופן עצמאי וליישם אותם על הנתונים, אבל זה יוביל לשימוש בכוח חישוב רב יותר מה שמגדיל את העלויות. לכן, חילוץ טופס אידיאלי אמור להיות מסוגל לחלץ גם נתוני טופס וגם נתונים ממסמך נתון.

מקור תמונה: GCNs

עיבוד אחר / ייצוא פלט: נתוני הפלט מכל חילוץ נתונים אינם ישרים. לכן, מפתחים מסתמכים על טכניקות שלאחר עיבוד כדי לסנן את התוצאות לפורמט מובנה יותר. לאחר עיבוד הנתונים, הם מיוצאים לפורמט מובנה יותר כגון CSV, Excel או מסד נתונים. ארגונים מסתמכים על אינטגרציות של צד שלישי או מפתחים ממשקי API כדי להפוך את התהליך הזה לאוטומטי, וזה שוב גוזל זמן. לפיכך, אלגוריתמים אידיאליים לחילוץ נתונים צריכים להיות גמישים וקלים לתקשורת עם מקורות נתונים חיצוניים.

עיבוד לאחר בחילוץ נתוני טופס

הבנת עומק חילוץ הטופס עם תרחישים שונים

עד כה, דנו ביסודות ובאתגרים של מיצוי נתוני טופס. בחלק זה, נצלול עמוק לתוך תרחישים שונים ונבין את עומק חילוץ נתוני הטופס. נבחן גם כיצד נוכל להפוך את תהליך החילוץ לאוטומטי עבור תרחישים ספציפיים אלה.

תרחיש מס' 1: זיהוי בכתב יד עבור טפסים לא מקוונים

בדרך כלל נתקלים בטפסים לא מקוונים בחיי היומיום. הכרחי שהטפסים יהיו קלים למילוי ושליחה. דיגיטציה ידנית של טפסים לא מקוונים יכולה להיות משימה קדחתנית ויקרה, ולכן יש צורך באלגוריתמי למידה עמוקה. מסמכים בכתב יד הם אתגר גדול לחלץ מהם נתונים בשל המורכבות של התווים בכתב יד. לכן, נעשה שימוש רב באלגוריתמי זיהוי נתונים שבהם מכונה לומדת לקרוא ולפרש את הטקסט בכתב יד. התהליך כולל סריקת תמונות של מילים בכתב יד והמרתן לנתונים שניתן לעבד ולנתח על ידי אלגוריתם. לאחר מכן האלגוריתם יוצר מפת תווים המבוססת על קווים ומזהה אותיות מתאימות על מנת לחלץ את הטקסט.

מקור תמונה: מערך נתונים של NSIT

תרחיש מס' 2: זיהוי תיבת סימון בטפסים

טפסי תיבת סימון היא סוג של קלט נתונים המשמש לאיסוף מידע ממשתמש בשדה קלט. סוג זה של נתונים נמצא בדרך כלל ברשימות ובטבלאות המחייבות את המשתמש לבחור פריט אחד או יותר, כגון פריטים שהוא רוצה שייצור איתו קשר. ניתן למצוא אותו בכל מספר מקומות - טפסים מקוונים, שאלונים וסקרים וכן הלאה. כיום, אלגוריתמים מסוימים יכולים להפוך את תהליך חילוץ הנתונים לאוטומטי אפילו מתיבות הסימון. המטרה העיקרית של אלגוריתם זה היא לזהות את אזורי הקלט באמצעות טכניקות ראייה ממוחשבת. אלה כוללים זיהוי קווים (אופקיים ואנכיים), החלת מסננים, קווי מתאר וזיהוי קצוות על התמונות. לאחר זיהוי אזור הקלט, קל לחלץ את תוכן תיבת הסימון המסומן או לא מסומן.

זיהוי תיבת סימון בחילוץ נתוני טופס

תרחיש מס' 3: פריסה שינויים בטופס מעת לעת

כשמדובר במילוי טפסים, יש בדרך כלל שני סוגים שונים של אפשרויות. עבור טפסים מסוימים, אנו צריכים לספק את המידע שלנו על ידי כתיבה בכל השדות הרלוונטיים, בעוד עבור אחרים, אנו יכולים לספק את המידע על ידי בחירה מתוך כמה תיבות סימון. גם פריסת הטופס משתנה בהתאם לסוג הטופס וההקשר שלו. לכן, חיוני לבנות אלגוריתם שיוכל לטפל במספר מסמכים לא מובנים ולחלץ תוכן בצורה חכמה בהתאם לתוויות הטפסים. אחת הטכניקות הפופולריות של ארכיטקטורת למידה עמוקה לטיפול בפריסות מסמכים היא Graph CNNs. הרעיון מאחורי Graph Convolutional Networks (GCNs) הוא להבטיח שהפעלת הנוירונים מונעת נתונים. הם נועדו לתפקד על גרפים, המורכבים מצמתים וקצוות. שכבת פיתול גרף מסוגלת לזהות דפוסים בהיעדר אות אימון ספציפי למשימה. לכן, אלה מתאימים כאשר הנתונים חזקים.

תרחיש מס' 4: זיהוי תאי טבלה

במקרים מסוימים, עסקים נתקלים בסוגים מיוחדים של טפסים המורכבים מתאי טבלה. תאי טבלה הם אזורים מלבניים בתוך טבלה שבהם מאוחסנים נתונים. ניתן לסווג אותם ככותרות, שורות או עמודות. אלגוריתם אידיאלי צריך לזהות את כל סוגי התאים הללו ואת הגבולות שלהם כדי לחלץ מהם את הנתונים. כמה טכניקות פופולריות לחילוץ שולחן כוללות זרם וסריג; אלו אלגוריתמים שיכולים לעזור לזהות קווים, צורות, מצולעים על ידי שימוש בפעולות איזומורפיות פשוטות על תמונות.

כיצד התפתחו פתרונות מיצוי נתוני הטפסים?

לחילוץ נתוני טפסים מקורו בימי טרום המחשב שבהם אנשים טיפלו בטפסי נייר. עם הופעת המחשוב, ניתן היה לאחסן נתונים באופן אלקטרוני. תוכניות המחשב יכולות להשתמש בנתונים כדי ליצור דוחות, כגון סטטיסטיקת מכירות. תוכנה זו יכולה לשמש גם להדפסת תוויות דואר, כגון שם וכתובת הלקוחות, ולהדפיס חשבוניות, כגון הסכום לתשלום והכתובת אליה יש לשלוח. עם זאת, היום אנו רואים גרסה אחרת של תוכנת חילוץ נתוני הטופס; אלה מדויקים מאוד, מהירים יותר ומספקים את הנתונים בצורה מאורגנת ומובנית ביותר. כעת, בואו נדון בקצרה בסוגים שונים של טכניקות חילוץ נתוני טופס.

מבוסס על כללים מתוך חילוץ נתונים: חילוץ מבוסס כללים היא טכניקה המחלצת נתונים אוטומטית מטופס תבנית מסוים. זה יכול לחלץ נתונים ללא כל התערבות אנושית. הם פועלים על ידי בחינת שדות שונים בדף והחלטה אילו מהם לחלץ על סמך טקסט מסביב, תוויות ורמזים הקשריים אחרים. אלגוריתמים אלה מפותחים בדרך כלל ואוטומטיים באמצעות סקריפטים של ETL או גירוד אינטרנט. עם זאת, כאשר הם נבדקים על נתונים בלתי נראים, הם נכשלים לחלוטין.
חילוץ נתוני טופס באמצעות OCR: OCR הוא פתרון מומלץ לכל צורה של בעיית חילוץ נתונים. עם זאת, יש לכתוב סקריפטים ותוכניות נוספים כדי להשיג ביצועים מדויקים. כדי ש-OCR יעבוד, זה דורש קלט של תמונה עם טקסט עליה. לאחר מכן, התוכנה קוראת כל פיקסל ומשווה כל פיקסל לאות המתאימה לו. אם הוא תואם, הוא יוציא את האות הזו וכל מספרים או סמלים קרובים מספיק לאות. האתגר הגדול ביותר עם OCR הוא להבין כיצד להפריד אותיות. לדוגמה, כאשר התווים קרובים זה לזה או חופפים, כגון "a" ו-"e". לכן, ייתכן שהם לא יפעלו כאשר אנו מחלצים טפסים לא מקוונים.
NER עבור מיצוי נתוני טופס: זיהוי ישויות בשם הוא המשימה של זיהוי וסיווג ישויות מוגדרות מראש בטקסט בשפה טבעית. הוא משמש לעתים קרובות כדי לחלץ מידע מטפסים, שבהם אנשים מקלידים שמות, כתובות, הערות וכו'. המשימה של זיהוי ישויות בשמות קשורה קשר הדוק למשימה הרחבה יותר של פתרון קו-הפניה, הקובעת אם אזכורים של אותן ישויות מתייחסות ל- אותן ישויות בעולם האמיתי. היום עם כלי תכנות ומסגרות מתקדמים, נוכל למנף מודלים שהוכשרו מראש כדי לבנות מודלים מבוססי NER למשימות מיצוי מידע.

מקור תמונה: בינוני

שימוש בלמידה עמוקה לחילוץ נתוני טופס: למידה עמוקה אינה חדשה, היא קיימת כבר עשרות שנים, אך התפתחויות אחרונות בארכיטקטורות למידה עמוקה וכוח מחשוב הובילו לתוצאות פורצות דרך. מיצוי נתוני טופס באמצעות למידה עמוקה השיגה ביצועים מתקדמים כמעט בכל פורמט, בין אם זה דיגיטלי או בכתב יד. התהליך מתחיל בהזנת הרשת העצבית העמוקה (DNN) באלפי או מיליוני דוגמאות שונות המסומנות במה שהן. לדוגמה, תוויות בצורת תמונה עם הישויות שלה כמו שם, דוא"ל, מזהה וכו'. ה-DNN מעבד את כל המידע הזה ולומד בעצמו כיצד חלקים אלו מחוברים. עם זאת, בניית מודל מדויק ביותר דורשת הרבה מומחיות וניסויים.

למידה עמוקה לחילוץ נתוני טופס

חילוץ נתוני טופס באמצעות OCR

ישנן ספריות רבות ושונות זמינות לחילוץ נתונים מטפסים. אבל מה אם אתה רוצה לחלץ נתונים מתמונה של טופס? כאן נכנס לתמונה Tesseract OCR (זיהוי תווים אופטי). Tesseract הוא מנוע OCR (זיהוי תווים אופטי) בקוד פתוח שפותח על ידי HP. באמצעות Tesseract OCR, ניתן להמיר מסמכים סרוקים כגון חשבוניות נייר, קבלות והמחאות לקבצים דיגיטליים הניתנים לחיפוש לעריכה. הוא זמין במספר שפות ויכול לזהות תווים בפורמטים שונים של תמונה. Tesseract משמש בדרך כלל בשילוב עם ספריות אחרות כדי לעבד תמונות כדי לחלץ טקסט.

כדי לבדוק זאת, הקפד להתקין את Tesseract במחשב המקומי שלך. אתה יכול להשתמש ב-Tesseract CLI או ב-Python להפעלת ה-OCR. Python-tesseract הוא מעטפת עבור מנוע Tesseract-OCR של גוגל. ניתן להשתמש בו כדי לקרוא את כל סוגי התמונות הנתמכים על ידי ספריות ההדמיה של Pillow ולפטוניקה, כולל jpeg, png, gif, bmp, tiff ואחרים. אתה יכול להשתמש בו בקלות כתסריט קריאת קורא עצמאי כדי להפעיל במידת הצורך.

כעת, בואו ניקח קבלה המכילה נתוני טופס וננסה לזהות את מיקום הטקסט באמצעות Computer Vision ו-Tesseract.

import pytesseract
from pytesseract import Output
import cv2 img = cv2.imread('receipt.jpg')
d = pytesseract.image_to_data(img, output_type=Output.DICT)
n_boxes = len(d['level'])
for i in range(n_boxes): (x, y, w, h) = (d['left'][i], d['top'][i], d['width'][i], d['height'][i]) img = cv2.rectangle(img, (x, y), (x + w, y + h), (0, 0, 255), 2) cv2.imshow(img,'img')

חילוץ נתוני טופס באמצעות OCR

כאן, בפלט, כפי שאנו יכולים לראות, התוכנית הצליחה לזהות את כל הטקסט בתוך הטופס. כעת, בואו נחיל OCR על זה כדי לחלץ את כל המידע. אנחנו יכולים פשוט לעשות זאת על ידי שימוש ב- תמונה_למחרוזת פונקציה ב- Python.

extracted_text = pytesseract.image_to_string(img, lang = 'deu')

פלט:

Berghotel
Grosse Scheidegg
3818 Grindelwald
Familie R.Müller Rech.Nr. 4572 30.07.2007/13:29: 17
Bar Tisch 7/01
2xLatte Macchiato &ä 4.50 CHF 9,00
1xGloki a 5.00 CH 5.00
1xSchweinschnitzel ä 22.00 CHF 22.00
IxChässpätz 1 a 18.50 CHF 18.50 Total: CHF 54.50 Incl. 7.6% MwSt 54.50 CHF: 3.85 Entspricht in Euro 36.33 EUR
Es bediente Sie: Ursula MwSt Nr. : 430 234
Tel.: 033 853 67 16
Fax.: 033 853 67 19
E-mail: grossescheidegs@b luewin. Ch

כאן אנו יכולים לחלץ את כל המידע מהטופס. עם זאת, ברוב המקרים, שימוש ב-OCR בלבד לא יעזור מכיוון שהנתונים שחולצו יהיו בלתי מובנים לחלוטין. לכן, משתמשים מסתמכים על מיצוי צמדי מפתח-ערך על טפסים, שיכולים לזהות רק ישויות ספציפיות כגון מזהה, תאריכים, סכום מס וכו'. זה אפשרי רק עם למידה עמוקה. בסעיף הבא, הבה נבחן כיצד אנו יכולים למנף טכניקות שונות של למידה עמוקה לבניית אלגוריתמים למיצוי מידע.

פתרון חילוץ נתוני טופס באמצעות למידה עמוקה

שחרור גרפים לחילוץ מידע רב-מודאלי ממסמכים עשירים חזותית

Graph Convolutional Networks (גרף CNNs) הם מחלקה של רשתות עצביות קונבולוציוניות עמוקות (CNNs) המסוגלות ללמוד ביעילות תכונות מאוד לא ליניאריות במבני נתונים גרפים תוך שמירה על מבנה הצומת והקצה. הם יכולים לקחת מבני נתונים גרפים כקלט וליצור 'מפות תכונות' עבור צמתים וקצוות. התכונות המתקבלות יכולות לשמש לסיווג גרפים, אשכולות או זיהוי קהילה. GCNs מספקים פתרון רב עוצמה לחילוץ מידע ממסמכים גדולים ועשירים מבחינה ויזואלית כמו חשבוניות וקבלות. כדי לעבד אותם, יש להפוך כל תמונה לגרף המורכב מצמתים וקצוות. כל מילה בתמונה מיוצגת על ידי הצומת שלה; הדמיה של שאר הנתונים מקודדת בווקטור התכונה של הצומת.

גרף מסמך. כל צומת בגרף מחובר לחלוטין אחד לשני.(SRC)

מודל זה מקודד תחילה כל קטע טקסט במסמך להטמעת גרפים. פעולה זו תופסת את ההקשר החזותי והטקסטואלי המקיף כל רכיב טקסט, יחד עם מיקומו או מיקומו בתוך גוש טקסט. לאחר מכן הוא משלב את הגרפים הללו עם הטבעות טקסט כדי ליצור ייצוג כולל של מבנה המסמך והכתוב בתוכו. המודל לומד להקצות משקלים גבוהים יותר לטקסטים שסביר להניח שהם ישויות בהתבסס על מיקומם זה ביחס לזה וההקשר שבו הם מופיעים בתוך בלוק גדול יותר של קוראים. לבסוף, הוא מיישם מודל BiLSTM-CRF סטנדרטי לחילוץ ישויות. התוצאות מראות שאלגוריתם זה עולה על מודל הבסיס (BiLSTM-CRF) בפער רחב.

LayoutLM: הדרכה מוקדמת של טקסט ופריסה להבנת תמונת מסמך

הארכיטקטורה של מודל LayoutLM שואבת השראה רבה מ-BERT ומשלבת הטמעות תמונה מ-Faster R-CNN. הטמעות קלט של LayoutLM נוצרות כשילוב של הטבעות טקסט ומיקום, ולאחר מכן משולבות עם הטבעות התמונה שנוצרות על ידי מודל Faster R-CNN. מודלים של שפות חזותיות מסכות וסיווג מסמכים מרובי תוויות משמשים בעיקר כמשימות אימון מקדים עבור LayoutLM. מודל LayoutLM הוא בעל ערך, דינמי וחזק מספיק עבור כל עבודה הדורשת הבנת פריסה, כגון חילוץ טופס/קבלה, סיווג תמונה של מסמכים, או אפילו מענה חזותי לשאלות ניתן לבצע עם מודל הדרכה זה.

מקור תמונה: LayoutML

מודל LayoutLM הוכשר על IIT-CDIP Test Collection 1.0, הכולל למעלה מ-6 מיליון מסמכים ויותר מ-11 מיליון תמונות מסמכים סרוקות בהיקף כולל של למעלה מ-12GB של נתונים. מודל זה עלה בהרבה על מספר מודלים שעברו הכשרה מראש של SOTA בהבנת טפסים, הבנת קבלות ומשימות סיווג תמונות סרוקות של מסמכים.

Form2Seq: מסגרת לחילוץ מבנה טופס מסדר גבוה

Form2Seq היא מסגרת המתמקדת בחילוץ מבנים מטקסט קלט באמצעות רצפים מיקומיים. בניגוד למסגרות seq2seq המסורתיות, Form2Seq ממנפת מיקומים מרחביים יחסיים של המבנים, ולא את הסדר שלהם.

בשיטה זו, ראשית, אנו מסווגים אלמנטים ברמה נמוכה שיאפשרו עיבוד וארגון טובים יותר. ישנם 10 סוגים של טפסים, כגון כתוביות שדה, פריטי רשימה וכן הלאה. לאחר מכן, אנו מקבצים אלמנטים ברמה נמוכה יותר, כגון שדות טקסט ו- ChoiceFields, למבנים מסדר גבוה יותר הנקרא ChoiceGroups. אלה משמשים כמנגנוני איסוף מידע כדי להשיג חווית משתמש טובה יותר של אלמנטים ברמה נמוכה יותר לתוך מבנים מסדר גבוה יותר, כגון שדות טקסט, ChoiceFields ו- ChoiceGroups, המשמשים כמנגנוני איסוף מידע בטפסים. זה אפשרי על ידי סידור האלמנטים המרכיבים בסדר ליניארי בסדר קריאה טבעי והזנת הייצוגים המרחביים והטקסטואליים שלהם למסגרת Seq2Seq. המסגרת של Seq2Seq עושה ברצף תחזיות עבור כל רכיב במשפט בהתאם להקשר. זה מאפשר לו לעבד מידע נוסף ולהגיע להבנה טובה יותר של המשימה שעל הפרק.

Form2seq Model Architecture לסיווג סוג אלמנט. שלבים שונים מסומנים באותיות (SRC).

המודל השיג דיוק של 90% במשימת הסיווג, שהיה גבוה מזה של מודלים בסיסיים מבוססי פילוח. ה-F1 על בלוקי טקסט, שדות טקסט ושדות בחירה היו 86.01%, 61.63% בהתאמה. מסגרת זו השיגה את מצב התוצאות במערך הנתונים של ICDAR לזיהוי מבנה טבלאות.

מדוע OCR מבוסס Nanonets בינה מלאכותית היא האפשרות הטובה ביותר

למרות שתוכנת OCR יכולה להמיר תמונות סרוקות של טקסט לקבצים דיגיטליים מעוצבים כגון PDF, DOC ו-PPT, היא לא תמיד מדויקת. תוכנת הקצה המובילה של היום כמו מערכת OCR מבוססת AI מבוססת OCR התגברה על אתגרים רבים איתם התמודדו מערכות OCR מסורתיות תוך יצירת קובץ הניתן לעריכה ממסמך סרוק. זה הפך לאופציה הטובה ביותר לחילוץ נתונים מכיוון שהוא יכול לספק קצבי דיוק גבוהים ורמות סובלנות גבוהות לרעש, אלמנטים גרפיים ושינויי עיצוב. כעת, בואו נדון בכמה נקודות כיצד OCR מבוסס בינה מלאכותית היא האפשרות הטובה ביותר.

ננונטים - מיצוי נתוני טופס

OCR, כפי שצוין, היא טכניקה פשוטה לחילוץ נתונים. עם זאת, הם לא יעבדו באופן עקבי כאשר הם שמים על נתונים בלתי נראים/חדשים. עם זאת, OCR מבוסס AI יכול להתמודד עם מצבים כאלה, מכיוון שהם מתאמנים על מגוון רחב של נתונים.
OCRs רגילים אינם יכולים להתמודד עם פריסות מורכבות עבור מיצוי נתוני טופס. לכן, כאשר הם מופעלים עם למידה עמוקה או AI, הם נותנים את התוצאות הטובות ביותר על ידי הבנת הפריסות, הטקסט וההקשר של הנתונים.
מכשירי OCR עלולים להיעדר ביצועים כשיש רעש בנתונים, כגון עיוות, תמונות סרוקות באור נמוך וכו', בעוד שמודלים של למידה עמוקה יכולים להתמודד עם תנאים כאלה ועדיין להחזיר תוצאות מדויקות ביותר.
OCR מבוססי AI ניתנים להתאמה אישית וגמישים מאוד בהשוואה ל-OCR מסורתיים; הם יכולים להיבנות על סוגים שונים של נתונים כדי להמיר נתונים לא מובנים לכל פורמט מובנה.
תפוקות שלאחר עיבוד מ-OCR מבוסס בינה מלאכותית נגישות בהשוואה ל-OCR רגיל; ניתן לייצא אותם לכל פורמט נתונים כגון JSON, CSV, Excel Sheets, או אפילו מסד נתונים כגון Postgres ישירות מהמודל.
ניתן לייצא OCR מבוסס AI כ-API פשוט באמצעות מודלים מאומנים מראש. זה עדיין אפשרי בשיטות מסורתיות אחרות, אבל זה עשוי להיות קשה לשפר את המודלים באופן עקבי בזמן. בזמן OCR מבוסס AI, ניתן לכוונן אותו אוטומטית על ידי שגיאות.
חילוץ טבלה הוא בלתי אפשרי ביותר באמצעות OCR ישר. עם זאת, ניתן לעשות זאת בקלות עם הכוח של AI/DL. כיום, OCR מבוססי AI יכולים להצביע בצורה חיובית על טפסים מבוססי טבלה בתוך מסמכים ולחלץ מידע.
אם יש נתונים פיננסיים או סודיים במסמכים, מודלים של AI יכולים גם לבצע בדיקות הונאה. זה בעצם מחפש טקסט ערוך/מטושטש מהמסמכים הסרוקים ומודיע למנהלים. ניתן לזהות מסמכים או מידע כפולים גם באמצעות מודלים אלה. בעוד OCR פשוט נכשל במקרים כאלה.

בול זמן: במרץ 6, 2022

בול זמן: פבואר 28, 2024

חילוץ נתוני טופס

הועלה מחדש על ידי אפלטון

מהי חילוץ נתוני טופס?

מה הופך את מיצוי נתוני הטופס למאתגר?

הבנת עומק חילוץ הטופס עם תרחישים שונים

תרחיש מס' 1: זיהוי בכתב יד עבור טפסים לא מקוונים

תרחיש מס' 2: זיהוי תיבת סימון בטפסים

תרחיש מס' 3: פריסה שינויים בטופס מעת לעת

תרחיש מס' 4: זיהוי תאי טבלה

כיצד התפתחו פתרונות מיצוי נתוני הטפסים?

חילוץ נתוני טופס באמצעות OCR

פתרון חילוץ נתוני טופס באמצעות למידה עמוקה

מדוע OCR מבוסס Nanonets בינה מלאכותית היא האפשרות הטובה ביותר

עוד מ AI & Machine Learning

אוטומציה של דיגיטציה של קבלה באמצעות OCR ולמידה מעמיקה

מהו מחזור החובות?

מה הם PO Flips וכיצד הם יכולים לייעל את העסק שלך?

מהו מסד הנתונים של Salesforce?

מהו הצעת הצעה ובמה היא שונה מהצעה?

10 שיטות עבודה מומלצות לתשלום חשבונות לשיפור תהליך AP בשנת 2024

10 תוכנות OCR הייצור הטובות ביותר בשנת 2024 (כלים בחינם ובתשלום)

אודות

חיפוש אנכי ו- Ai

פלטפורמה

שמור על קשר

חֶשְׁבּוֹן