חילוץ נתונים ממסמכים סרוקים

הועלה מחדש על ידי אפלטון

עוקב: 0

חילוץ נתונים ממסמכים סרוקים

מחפשים לחלץ נתונים ממסמכים סרוקים? לְנַסוֹת ננונטים™ מתקדם סורק OCR מבוסס בינה מלאכותית לחלץ ולארגן ממנו מידע מסמכים סרוקים באופן אוטומטי.

מבוא

ככל שהעולם הפך מניירות וכתבי יד למסמכים דיגיטליים מטעמי נוחות, החשיבות של המרת תמונות ומסמכים סרוקים לנתונים משמעותיים עלתה שחקים.

כדי לעמוד בקצב הצורך בחילוץ נתוני מסמכים מדויקים ביותר, מתקני מחקר ותאגידים רבים (כלומר גוגל, AWS, Nanonets וכו') התמקדו עמוק בטכנולוגיות בתחומי ראייה ממוחשבת ועיבוד שפה טבעית (NLP).

פריחתן של טכנולוגיות למידה עמוקה הבטיחה קפיצת מדרגה ענקית לסוג הנתונים שניתן לחלץ; אנחנו כבר לא מוגבלים רק לחלץ טקסט, אלא גם מבני נתונים אחרים כגון טבלאות וצמדי מפתח-ערך. פתרונות רבים מציעים כיום מוצרים שונים למילוי הצרכים של אנשים פרטיים ובעלי עסקים בחילוץ נתוני מסמכים.

מאמר זה צולל לתוך הטכנולוגיה הנוכחית המשמשת לחילוץ נתונים ממסמכים סרוקים, ולאחר מכן מדריך מעשי קצר ב- Python. כמו כן, נבחן כמה מהפתרונות הפופולריים כיום בשוק המספקים את ההצעות הטובות ביותר בתחום זה.

מהי חילוץ נתונים?

מיצוי נתונים הוא תהליך של המרת נתונים לא מובנים למידע שניתן לפרש על ידי תוכניות כדי לאפשר עיבוד נתונים נוסף על ידי בני אדם. כאן אנו מפרטים כמה מסוגי הנתונים הנפוצים ביותר שיש לחלץ ממסמכים סרוקים.

נתוני טקסט

המשימה הנפוצה והחשובה ביותר בחילוץ נתונים ממסמכים סרוקים היא חילוץ טקסט. תהליך זה, על אף שנראה פשוט לכאורה, הוא למעשה קשה מאוד מכיוון שמסמכים סרוקים מוצגים לרוב בפורמט של תמונות. בנוסף, שיטות החילוץ תלויות מאוד בסוגי הטקסט. בעוד שטקסט קיים בפורמטים מודפסים צפופים רוב הזמן, היכולת לחלץ טקסט דליל ממסמכים סרוקים פחות טוב או ממכתבים בכתב יד עם סגנונות משתנים באופן דרסטי חשובה באותה מידה. תהליך כזה יאפשר לתוכניות להמיר תמונות לטקסט מקודד במכונה, שם נוכל לארגן אותן עוד יותר מנתונים לא מובנים (ללא עיצוב מסוים) לנתונים מובנים לצורך ניתוח נוסף.

???

רוצים להבין את אלגוריתמי הלמידה העמוקים שמניעים תהליכים כאלה? המשך אל שלנו בלוג LayoutLM Explained

לוחות

טבלאות טבלאות היא הגישה הפופולרית ביותר לאחסון נתונים, שכן הפורמט ניתן לפירוש בקלות בעיניים אנושיות. תהליך חילוץ הטבלאות ממסמכים סרוקים דורש טכנולוגיה מעבר לזיהוי תווים - יש לזהות את השורות ומאפיינים חזותיים אחרים על מנת לבצע חילוץ טבלה נכון ולהמיר מידע נוסף לנתונים מובנים לצורך חישוב נוסף. נעשה שימוש רב בשיטות ראייה ממוחשבת (מתוארות בפירוט בסעיפים הבאים) להשגת מיצוי טבלה ברמת דיוק גבוהה.

צמדי מפתח-ערך

פורמט חלופי שאנו מאמצים לעתים קרובות במסמכים לאחסון נתונים הוא צמדי מפתח-ערך (KVP).

KVPs הם בעצם שני פריטי נתונים - מפתח וערך - המקושרים יחד כאחד. המפתח משמש כמזהה ייחודי עבור הערך שיש לאחזר. דוגמה קלאסית של KVP היא המילון, שבו אוצר המילים הם המפתחות וההגדרות המתאימות הן הערכים. צמדים אלה, למרות שבדרך כלל לא שמים לב אליהם, למעשה נמצאים בשימוש תדיר מאוד במסמכים: שאלות בסקרים כגון שם, גיל ומחירים של פריטים בחשבוניות הן כולן KVPs במרומז.

עם זאת, בניגוד לטבלאות, קבצי KVP קיימים לרוב בפורמטים לא ידועים ולעיתים אף נכתבים בכתב יד חלקית. לדוגמה, מפתחות יכולים להיות מודפסים מראש בתיבות וערכים נכתבים בכתב יד בעת מילוי הטופס. לכן, מציאת המבנים הבסיסיים לביצוע חילוץ KVP באופן אוטומטי הוא תהליך מחקר מתמשך אפילו עבור המתקנים והמעבדות המתקדמות ביותר.

דמויות

לבסוף, חשוב מאוד גם לחלץ או לכידת נתונים מתוך דמויות בתוך מסמך סרוק. אינדיקטורים סטטיסטיים כגון תרשימי עוגה ותרשימי עמודות כוללים לעתים קרובות מידע חיוני עבור מסמכים. תהליך חילוץ נתונים טוב אמור להיות מסוגל להסיק מהאגדות והמספרים כדי לחלץ חלקית נתונים מדמויות לשימוש נוסף.

מחפשים לחלץ נתונים ממסמכים סרוקים? תן ננונטים™ סיבוב לדיוק גבוה יותר, גמישות רבה יותר, עיבוד לאחר, ומערך רחב של שילובים!

טכנולוגיות מאחורי מיצוי הנתונים

חילוץ הנתונים סובב סביב שני תהליכים עיקריים: זיהוי תווים אופטי (OCR) ואחריו עיבוד שפה טבעית (NLP).

חילוץ OCR הוא תהליך המרת תמונות טקסט לטקסט מקודד במכונה, בעוד שהאחרון הוא הניתוח של המילים כדי להסיק משמעויות. לעתים קרובות מלוות עם ה-OCR טכניקות ראייה ממוחשבת כגון זיהוי קופסאות וקווים כדי לחלץ סוגי נתונים שהוזכרו לעיל כגון טבלאות ו-KVP לחילוץ מקיף יותר.

שיפורים הליבה מאחורי צינור חילוץ הנתונים קשורים באופן הדוק להתקדמות בלמידה עמוקה שתרמה רבות לתחומי ראיית מחשב ועיבוד שפה טבעית (NLP).

מהי למידה עמוקה?

ללמידה עמוקה יש תפקיד מרכזי מאחורי ההייפ של עידן הבינה המלאכותית, והיא נדחקה ללא הרף לקדמת הבמה ביישומים רבים. בהנדסה מסורתית, המטרה שלנו היא לתכנן מערכת/פונקציה המפיקה פלט מקלט נתון; למידה עמוקה, לעומת זאת, מסתמכת על התשומות והפלטים כדי למצוא את קשר הביניים שניתן להרחיב לנתונים בלתי נראים חדשים באמצעות מה שנקרא רשת עצבית.

רשת עצבית, או פרצפטרון רב שכבתי (MLP), היא ארכיטקטורת למידת מכונה בהשראת האופן שבו המוח האנושי לומד. הרשת מכילה נוירונים, המחקים נוירונים ביולוגיים ו"פועלים" כאשר ניתן מידע שונה. קבוצות של נוירונים יוצרות שכבות, ושכבות מרובות מוערמות יחד כדי ליצור רשת שתשרת את מטרות הניבוי של צורות מרובות (כלומר, סיווגי תמונות או תיבות תוחמות לזיהוי אובייקטים).

בתחום הראייה הממוחשבת, סוג של וריאציה של רשת עצבית מיושם בכבדות - רשתות עצביות קונבולוציוניות (CNNs). במקום שכבות מסורתיות, CNN מאמץ גרעינים קונבולוציוניים המחליקים דרך טנזורים (או וקטורים בעלי מימדים גבוהים) לחילוץ תכונות. בליווי שכבות רשת מסורתיות בסופו של דבר, CNN מצליחים מאוד במשימות הקשורות לתמונה, ועוד יותר היוו את הבסיס לחילוץ OCR וזיהוי תכונות אחרות.

מצד שני, NLP מסתמכת על קבוצה אחרת של רשתות, המתמקדת בנתונים מסדרות זמן. בניגוד לתמונות, שבהן תמונה אחת עצמאית אחת מהשנייה, ניתן להפיק תועלת רבה בחיזוי טקסט אם נלקחות בחשבון גם מילים לפני או אחרי. בשנים האחרונות, משפחה של רשתות, כלומר זיכרונות לטווח קצר ארוך (LSTMs), שלוקח תוצאות קודמות כקלט כדי לחזות את התוצאות הנוכחיות. LSTMs דו-צדדיים אומצו לעתים קרובות גם כדי לשפר את תפוקת החיזוי, כאשר הן התוצאות לפני ואחרי נבחנו. עם זאת, בשנים האחרונות, הרעיון של שנאים המשתמשים במנגנון קשב מתחיל לעלות עקב הגמישות הגבוהה שלו המובילה לתוצאות טובות יותר מאשר רשתות מסורתיות המטפלות בסדרות זמן עוקבות.

יישומים של חילוץ נתונים

המטרה העיקרית של מיצוי הנתונים היא להמיר נתונים ממסמכים לא מובנים לפורמטים מובנים, שבהם שליפה מדויקת ביותר של טקסט, דמויות ומבני נתונים יכולה להועיל מאוד לניתוח מספרי והקשרי. ניתוחים אלה יכולים להיות מאוד מועילים במיוחד עבור עסקים:

עסקים

תאגידים עסקיים וארגונים גדולים מתמודדים עם אלפי ניירת בפורמטים דומים על בסיס יומי - בנקים גדולים מקבלים מספר רב של יישומים זהים, וצוותי מחקר צריכים לנתח ערימות של טפסים כדי לבצע ניתוח סטטיסטי. לכן, אוטומציה של השלב הראשוני של חילוץ נתונים ממסמכים מפחיתה משמעותית את היתירות של משאבי אנוש ומאפשרת לעובדים להתמקד בניתוח נתונים ובסקירת יישומים במקום להזין מידע.

אימות יישומים - חברות מקבלות טונות של בקשות, בין אם בכתב יד ובין אם באמצעות טפסי בקשה בלבד. לרוב, אפליקציות אלו עשויות להיות מלוות בתעודות זהות אישיות למטרות אימות. מסמכים סרוקים של תעודות זהות כגון דרכונים או כרטיסים מגיעים בדרך כלל בקבוצות עם פורמטים דומים. לכן, מחלץ נתונים כתוב היטב יכול להמיר במהירות את הנתונים (טקסטים, טבלאות, דמויות, KVPs) לטקסטים מובנים במכונה, מה שיכול להפחית באופן משמעותי את שעות העבודה במשימות אלה ולהתמקד בבחירת יישומים במקום בחילוץ.
תיאום תשלום — תיאום תשלומים הוא תהליך השוואת דפי בנק כדי להבטיח התאמה של מספרים בין חשבונות, אשר סובב במידה רבה סביב חילוץ נתונים ממסמכים - סוגיה מאתגרת עבור חברה בעלת גודל ניכר ומקורות הכנסה שונים. חילוץ נתונים יכול להקל על תהליך זה ולאפשר לעובדים להתמקד בנתונים פגומים ולחקור אירועי הונאה פוטנציאליים לגבי תזרים המזומנים.
ניתוח סטטיסטי - משוב מלקוחות או משתתפי ניסוי משמשים תאגידים וארגונים כדי לשפר את המוצרים והשירות שלהם, והערכת משוב מקיפה תצטרך בדרך כלל ניתוח סטטיסטי. עם זאת, נתוני סקר עשויים להתקיים בפורמטים רבים או מוסתרים בין טקסט בפורמטים שונים. חילוץ נתונים יכול להקל על התהליך על ידי הצבעה על נתונים ברורים ממסמכים באצווה, להקל על תהליך מציאת תהליכים שימושיים, ובסופו של דבר להגביר את היעילות.
שיתוף רשומות קודמות - משירותי בריאות למעבר שירותי בנק, תעשיות גדולות דורשות לעתים קרובות מידע חדש על לקוחות שאולי כבר היה קיים במקומות אחרים. לדוגמה, למטופל שעובר בית חולים עקב מעבר דירה עשוי להיות רישומים רפואיים קיימים שיכולים להועיל לבית החולים החדש. במקרים כאלה, תוכנה טובה לחילוץ נתונים שימושית שכן כל מה שנדרש הוא שהאדם יביא היסטוריה סרוקה של רשומות לבית החולים החדש כדי שימלא אוטומטית את כל המידע. לא רק שזה יהיה נוח, זה גם יכול למנוע סיכונים נרחבים במיוחד בתעשיית הבריאות של התעלמות מרישומי חולים חשובים.

הדרכות

כדי לספק תצוגה ברורה יותר כיצד לבצע חילוץ נתונים, אנו מציגים שתי קבוצות של שיטות לביצוע חילוץ נתונים מסריקת מסמכים.

בונים מאפס

אפשר לבנות מנוע OCR פשוט לחילוץ נתונים באמצעות מנוע PyTesseract כדלקמן:

try: from PIL import Image
except ImportError: import Image
import pytesseract # If you don't have tesseract executable in your PATH, include the following:
pytesseract.pytesseract.tesseract_cmd = r'<full_path_to_your_tesseract_executable>'
# Example tesseract_cmd = r'C:Program Files (x86)Tesseract-OCRtesseract' # Simple image to string
print(pytesseract.image_to_string(Image.open('test.png'))) # List of available languages
print(pytesseract.get_languages(config='')) # French text image to string
print(pytesseract.image_to_string(Image.open('test-european.jpg'), lang='fra')) # In order to bypass the image conversions of pytesseract, just use relative or absolute image path
# NOTE: In this case you should provide tesseract supported images or tesseract will return error
print(pytesseract.image_to_string('test.png')) # Batch processing with a single file containing the list of multiple image file paths
print(pytesseract.image_to_string('images.txt')) # Timeout/terminate the tesseract job after a period of time
try: print(pytesseract.image_to_string('test.jpg', timeout=2)) # Timeout after 2 seconds print(pytesseract.image_to_string('test.jpg', timeout=0.5)) # Timeout after half a second
except RuntimeError as timeout_error: # Tesseract processing is terminated pass # Get bounding box estimates
print(pytesseract.image_to_boxes(Image.open('test.png'))) # Get verbose data including boxes, confidences, line and page numbers
print(pytesseract.image_to_data(Image.open('test.png'))) # Get information about orientation and script detection
print(pytesseract.image_to_osd(Image.open('test.png'))) # Get a searchable PDF
pdf = pytesseract.image_to_pdf_or_hocr('test.png', extension='pdf')
with open('test.pdf', 'w+b') as f: f.write(pdf) # pdf type is bytes by default # Get HOCR output
hocr = pytesseract.image_to_pdf_or_hocr('test.png', extension='hocr') # Get ALTO XML output
xml = pytesseract.image_to_alto_xml('test.png')

למידע נוסף לגבי הקוד, אתה יכול לבדוק את הרשמי שלהם תיעוד.

במילים פשוטות, הקוד מחלץ נתונים כגון טקסטים ותיבות תוחמות מתמונה נתונה. למרות שהוא שימושי למדי, המנוע אינו חזק כמו אלו שמספקים פתרונות מתקדמים בשל כוח החישוב המשמעותי שלהם לאימון.

שימוש ב-Google Document API

 def async_detect_document(gcs_source_uri, gcs_destination_uri):
"""OCR with PDF/TIFF as source files on GCS""" import json import re from google.cloud import vision from google.cloud import storage # Supported mime_types are: 'application/pdf' and 'image/tiff' mime_type = 'application/pdf' # How many pages should be grouped into each json output file. batch_size = 2 client = vision.ImageAnnotatorClient() feature = vision.Feature( type_=vision.Feature.Type.DOCUMENT_TEXT_DETECTION) gcs_source = vision.GcsSource(uri=gcs_source_uri) input_config = vision.InputConfig( gcs_source=gcs_source, mime_type=mime_type) gcs_destination = vision.GcsDestination(uri=gcs_destination_uri) output_config = vision.OutputConfig( gcs_destination=gcs_destination, batch_size=batch_size) async_request = vision.AsyncAnnotateFileRequest( features=[feature], input_config=input_config, output_config=output_config) operation = client.async_batch_annotate_files( requests=[async_request]) print('Waiting for the operation to finish.') operation.result(timeout=420) # Once the request has completed and the output has been # written to GCS, we can list all the output files. storage_client = storage.Client() match = re.match(r'gs://([^/]+)/(.+)', gcs_destination_uri) bucket_name = match.group(1) prefix = match.group(2) bucket = storage_client.get_bucket(bucket_name) # List objects with the given prefix. blob_list = list(bucket.list_blobs(prefix=prefix)) print('Output files:') for blob in blob_list: print(blob.name) # Process the first output file from GCS. # Since we specified batch_size=2, the first response contains # the first two pages of the input file. output = blob_list[0] json_string = output.download_as_string() response = json.loads(json_string) # The actual response for the first page of the input file. first_page_response = response['responses'][0] annotation = first_page_response['fullTextAnnotation'] # Here we print the full text from the first page. # The response contains more information: # annotation/pages/blocks/paragraphs/words/symbols # including confidence scores and bounding boxes print('Full text:n') print(annotation['text'])

בסופו של דבר, AI המסמכים של גוגל מאפשר לך לחלץ מידע רב ממסמכים בדיוק גבוה. בנוסף, השירות מוצע לשימושים ספציפיים מדי, כולל חילוץ טקסט עבור תמונות רגילות וטבעיות כאחד.

נא עיין כאן לעוד.

פתרונות עדכניים המציעים חילוץ נתונים

מלבד תאגידים גדולים עם ממשקי API לחילוץ נתוני מסמכים, ישנם מספר פתרונות המספקים מדויקים ביותר PDF OCR שירותים. אנו מציגים מספר אפשרויות של PDF OCR המתמחות בהיבטים שונים, כמו גם כמה אבות טיפוס מחקר עדכני שנראה כי מספקים תוצאות מבטיחות*:

*הערה צדדית: ישנם שירותי OCR מרובים המכוונים למשימות כגון תמונות בטבע. דילגנו על שירותים אלה מכיוון שאנו מתמקדים כעת בקריאת מסמכי PDF בלבד.

ממשק API של גוגל - כאחת מספקיות השירות המקוונות הגדולות ביותר, גוגל מציעה תוצאות מדהימות בחילוץ מסמכים עם טכנולוגיית ראיית המחשב החלוצית שלהם. אפשר להשתמש בשירותים שלהם בחינם אם השימוש די נמוך, אבל המחיר מצטבר ככל שקריאות ה-API עולות.
קורא עמוק — Deep Reader היא עבודת מחקר שפורסמה בכנס ACCV 2019. היא משלבת מספר ארכיטקטורות רשת מתקדמות לביצוע משימות כגון התאמת מסמכים, שליפת טקסט והשחתת תמונות. ישנן תכונות נוספות כגון טבלאות וחילוץ מפתח-ערך-זוג המאפשרים לאחזר ולשמור נתונים בצורה מסודרת.
Nanonets ™ - עם צוות למידה עמוקה מיומן במיוחד, Nanonets™ PDF OCR הוא עצמאי לחלוטין של תבנית וכללים. לכן, לא רק Nanonets™ יכול לעבוד על סוגים ספציפיים של קובצי PDF, זה יכול גם להיות מיושם על כל סוג מסמך לצורך אחזור טקסט.

סיכום

לסיכום, מאמר זה מציג הסבר יסודי לקראת חילוץ נתונים ממסמכים סרוקים, כולל האתגרים העומדים מאחוריו והטכנולוגיה הנדרשת לתהליך זה.

מוצגים שני מדריכים של שיטות שונות, ופתרונות עדכניים המציעים זאת מחוץ לקופסה מוצגים גם לעיון.

בול זמן: מאי 17, 2022

בול זמן: ספטמבר 28, 2023

חילוץ נתונים ממסמכים סרוקים

הועלה מחדש על ידי אפלטון

מבוא

מהי חילוץ נתונים?

נתוני טקסט

לוחות

צמדי מפתח-ערך

דמויות

טכנולוגיות מאחורי מיצוי הנתונים

מהי למידה עמוקה?

יישומים של חילוץ נתונים

עסקים

הדרכות

בונים מאפס

שימוש ב-Google Document API

פתרונות עדכניים המציעים חילוץ נתונים

סיכום

עוד מ AI & Machine Learning

מהו תיאום חשבון?

מדריך מקיף למנתחי דוא"ל

כיצד להמיר קבצי טקסט לאקסל

10 שיטות עבודה מומלצות לתשלום חשבונות לשיפור תהליך AP בשנת 2024

חמשת כרטיסי האשראי הווירטואליים הטובים ביותר בשנת 5

ערוך מטא נתונים של PDF ב-5 שלבים פשוטים עם Nanonets

הפוך נתונים גולמיים לתובנות ניתנות לפעולה עם העשרת נתונים

חיזוק הבקרה עם התאמה בנקאית | ננונטים

מהו תהליך התשלומים?

תשלומים חוצי גבולות: אתגרים ופתרונות

אודות

חיפוש אנכי ו- Ai

פלטפורמה

שמור על קשר

חֶשְׁבּוֹן