עיבוד מסמכים חכם עם שירותי AI של AWS: חלק 1

הועלה מחדש על ידי אפלטון

עוקב: 0

ארגונים בתעשיות שונות כמו בריאות, פיננסים והלוואות, משפטים, קמעונאות וייצור נאלצים לעתים קרובות להתמודד עם הרבה מסמכים בתהליכים העסקיים היומיומיים שלהם. מסמכים אלה מכילים מידע קריטי המהווה מפתח לקבלת החלטות בזמן על מנת לשמור על הרמות הגבוהות ביותר של שביעות רצון לקוחות, כניסת לקוחות מהירה יותר, ותחזוקה נמוכה יותר של לקוחות. ברוב המקרים, מסמכים מעובדים באופן ידני כדי לחלץ מידע ותובנות, דבר שגוזל זמן רב, מועד לשגיאות, יקר וקשה להרחבה. יש היום אוטומציה מוגבלת לעיבוד והפקת מידע ממסמכים אלה. עיבוד מסמכים חכם (IDP) עם שירותי בינה מלאכותית (AI) של AWS מסייע לבצע אוטומציה של חילוץ מידע ממסמכים מסוגים ופורמטים שונים, במהירות ובדיוק גבוה, ללא צורך בכישורי למידת מכונה (ML). מיצוי מידע מהיר יותר עם דיוק גבוה מסייע בקבלת החלטות עסקיות איכותיות בזמן, תוך הפחתת העלויות הכוללות.

למרות שהשלבים בזרימת עבודה של IDP עשויים להשתנות ולהיות מושפעים ממקרי שימוש ודרישות עסקיות, האיור הבא מציג את השלבים שהם בדרך כלל חלק מזרימת עבודה של IDP. עיבוד מסמכים כגון טפסי מס, תביעות, הערות רפואיות, טפסי לקוחות חדשים, חשבוניות, חוזים משפטיים ועוד הם רק חלק קטן ממקרי השימוש עבור IDP.

בסדרה בת שני חלקים זו, אנו דנים כיצד ניתן לבצע אוטומציה ולעבד בצורה חכמה מסמכים בקנה מידה באמצעות שירותי AI של AWS. בפוסט זה, אנו דנים בשלושת השלבים הראשונים של זרימת העבודה של IDP. ב חלק 2, אנו דנים בשלבי זרימת העבודה הנותרים.

סקירת פתרונות

דיאגרמת הארכיטקטורה הבאה מציגה את השלבים של זרימת עבודה של IDP. זה מתחיל בשלב לכידת נתונים כדי לאחסן ולצבור בצורה מאובטחת פורמטים שונים של קבצים (PDF, JPEG, PNG, TIFF) ופריסות של מסמכים. השלב הבא הוא סיווג, שבו אתה מחלק את המסמכים שלך (כגון חוזים, טפסי תביעה, חשבוניות או קבלות), ולאחר מכן חילוץ מסמכים. בשלב החילוץ תוכלו לחלץ מידע עסקי משמעותי מהמסמכים שלכם. נתונים שחולצו זה משמשים לעתים קרובות לאיסוף תובנות באמצעות ניתוח נתונים, או נשלח למערכות במורד הזרם כגון מסדי נתונים או מערכות עסקאות. השלב הבא הוא העשרה, שבו ניתן להעשיר מסמכים על ידי עריכת מידע בריאותי מוגן (PHI) או מידע אישי מזהה (PII), מיצוי מונחים עסקיים מותאמים אישית וכן הלאה. לבסוף, בשלב הסקירה והאימות, אתה יכול לכלול כוח עבודה אנושי לבדיקת מסמכים כדי להבטיח שהתוצאה מדויקת.

למטרות פוסט זה, אנו רואים קבוצה של מסמכים לדוגמה כגון דפי בנק, חשבוניות וקבלות בחנות. ניתן למצוא את דוגמאות המסמכים, יחד עם קוד לדוגמה, אצלנו מאגר GitHub. בסעיפים הבאים, אנו מעבירים אותך דרך דוגמאות הקוד הללו יחד עם יישום מעשי אמיתי. אנו מדגימים כיצד אתה יכול להשתמש ביכולות ML עם טקסטורה באמזון, אמזון להתבונן, ו אמזון AI מוגדל (Amazon A2I) לעיבוד מסמכים ולאמת את הנתונים שנשלפו מהם.

Amazon Textract הוא שירות ML המחלץ אוטומטית טקסט, כתב יד ונתונים ממסמכים סרוקים. זה חורג מזיהוי תווים אופטי פשוט (OCR) לזהות, להבין ולחלץ נתונים מטפסים וטבלאות. Amazon Textract משתמשת ב-ML כדי לקרוא ולעבד כל סוג של מסמך, תוך חילוץ מדויק של טקסט, כתב יד, טבלאות ונתונים אחרים ללא מאמץ ידני.

Amazon Comprehend הוא שירות עיבוד שפה טבעית (NLP) המשתמש ב-ML כדי לחלץ תובנות לגבי תוכן המסמכים. Amazon Comprehend יכולה לזהות אלמנטים קריטיים במסמכים, כולל הפניות לשפה, אנשים ומקומות, ולסווג אותם לנושאים או אשכולות רלוונטיים. זה יכול לבצע ניתוח סנטימנט כדי לקבוע את הסנטימנט של מסמך בזמן אמת באמצעות זיהוי מסמך בודד או אצווה. לדוגמה, זה יכול לנתח את ההערות על פוסט בבלוג כדי לדעת אם הקוראים שלך אוהבים את הפוסט או לא. Amazon Comprehend גם מזהה PII כמו כתובות, מספרי חשבונות בנק ומספרי טלפון במסמכי טקסט בזמן אמת ועבודות אצווה אסינכרוניות. זה יכול גם לבטל ישויות PII בעבודות אצווה אסינכרוניות.

Amazon A2I הוא שירות ML שמקל על בניית זרימות העבודה הנדרשות לסקירה אנושית. Amazon A2I מביאה סקירה אנושית לכל המפתחים, מסירה את ההרמה הכבדה הבלתי מובחנת הקשורה לבניית מערכות ביקורת אנושיות או ניהול מספר רב של סוקרים אנושיים, בין אם היא פועלת על AWS או לא. Amazon A2I משלב את שניהם עם טקסטורה באמזון ו אמזון להתבונן כדי לספק לך את היכולת להציג שלבי סקירה אנושית בתוך זרימת העבודה החכם שלך לעיבוד מסמכים.

שלב לכידת נתונים

אתה יכול לאחסן מסמכים באחסון מאוד מדרגי ועמיד כמו שירות אחסון פשוט של אמזון (אמזון S3). Amazon S3 הוא שירות אחסון אובייקטים המציע מדרגיות מובילה בתעשייה, זמינות נתונים, אבטחה וביצועים. Amazon S3 מיועד לעמידות של 11 9 ומאחסן נתונים עבור מיליוני לקוחות בכל רחבי העולם. מסמכים יכולים להגיע בפורמטים ובפריסות שונות, ויכולים להגיע מערוצים שונים כמו פורטלי אינטרנט או קבצים מצורפים לאימייל.

שלב המיון

בשלב הקודם אספנו מסמכים מסוגים ופורמטים שונים. בשלב זה, עלינו לסווג את המסמכים לפני שנוכל לבצע חילוץ נוסף. לשם כך, אנו משתמשים ב- Amazon Comprehend סיווג מותאם אישית. סיווג מסמכים הוא תהליך דו-שלבי. ראשית, אתה מאמן מסווג מותאם אישית של Amazon Comprehend לזהות את השיעורים שמעניינים אותך. לאחר מכן, אתה פורס את המודל עם א סיווג מותאם אישית בזמן אמת ולשלוח מסמכים ללא תווית לנקודת הקצה בזמן אמת לסיווג.

האיור הבא מייצג זרימת עבודה טיפוסית של סיווג מסמכים.

שלב המיון

כדי להכשיר את המסווג, זהה את השיעורים שבהם אתה מעוניין וספק מסמכים לדוגמה עבור כל אחד מהשיעורים כחומר הדרכה. בהתבסס על האפשרויות שציינת, Amazon Comprehend יוצרת מודל ML מותאם אישית שהיא מאמנת על סמך המסמכים שסיפקת. מודל מותאם אישית זה (המסווג) בוחן כל מסמך שאתה שולח. הוא מחזיר את המחלקה הספציפית שמייצגת בצורה הטובה ביותר את התוכן (אם אתה משתמש במצב ריבוי מחלקות) או את קבוצת המחלקות החלות עליה (אם אתה משתמש במצב ריבוי תוויות).

הכן נתוני אימון

הצעד הראשון הוא לחלץ טקסט ממסמכים הנדרשים עבור המיון המותאם אישית של Amazon Comprehend. כדי לחלץ את מידע הטקסט הגולמי עבור כל המסמכים באמזון S3, אנו משתמשים ב-Amazon Textract detect_document_text() ממשק API. אנו גם מתייגים את הנתונים בהתאם לסוג המסמך שישמש להכשרת מסווג מותאם אישית של Amazon Comprehend.

הקוד הבא קוצץ למטרות פישוט. לקוד המלא, עיין ב- GitHub קוד לדוגמא ל textract_extract_text(). הפונקציה call_textract() היא פונקציה wr4apper הקוראת ל- נתח את המסמך API באופן פנימי, והפרמטרים שהועברו לשיטה מפשטים חלק מהקונפיגורציות שה-API צריך כדי להפעיל את משימת החילוץ.

def textract_extract_text(document, bucket=data_bucket):        
    try:
        print(f'Processing document: {document}')
        lines = ""
        row = []
        
        # using amazon-textract-caller
        response = call_textract(input_document=f's3://{bucket}/{document}') 
        # using pretty printer to get all the lines
        lines = get_string(textract_json=response, output_type=[Textract_Pretty_Print.LINES])
        
        label = [name for name in names if(name in document)]  
        row.append(label[0])
        row.append(lines)        
        return row
    except Exception as e:
        print (e)

אימון מסווג מותאם אישית

בשלב זה, אנו משתמשים בסיווג מותאם אישית של Amazon Comprehend כדי להכשיר את המודל שלנו לסיווג המסמכים. אנו משתמשים ב- CreateDocumentClassifier API ליצירת מסווג שמאמן מודל מותאם אישית באמצעות הנתונים המסומנים שלנו. ראה את הקוד הבא:

create_response = comprehend.create_document_classifier(
        InputDataConfig={
            'DataFormat': 'COMPREHEND_CSV',
            'S3Uri': f's3://{data_bucket}/{key}'
        },
        DataAccessRoleArn=role,
        DocumentClassifierName=document_classifier_name,
        VersionName=document_classifier_version,
        LanguageCode='en',
        Mode='MULTI_CLASS'
    )

פרוס נקודת קצה בזמן אמת

כדי להשתמש במסווג המותאם אישית של Amazon Comprehend, אנו יוצרים נקודת קצה בזמן אמת באמצעות CreateEndpoint API:

endpoint_response = comprehend.create_endpoint(
        EndpointName=ep_name,
        ModelArn=model_arn,
        DesiredInferenceUnits=1,    
        DataAccessRoleArn=role
    )
    ENDPOINT_ARN=endpoint_response['EndpointArn']
print(f'Endpoint created with ARN: {ENDPOINT_ARN}')

סיווג מסמכים עם נקודת הקצה בזמן אמת

לאחר יצירת נקודת הקצה של Amazon Comprehend, נוכל להשתמש בנקודת הקצה בזמן אמת כדי לסווג מסמכים. אנו משתמשים ב- comprehend.classify_document() פונקציה עם טקסט המסמך שחולץ ונקודת הסיום כפרמטרי קלט:

response = comprehend.classify_document(
      Text= document,
      EndpointArn=ENDPOINT_ARN
      )

Amazon Comprehend מחזירה את כל מחלקות המסמכים עם ציון ביטחון המקושר לכל מחלקה במערך של צמדי מפתח-ערך (שם-ציון). אנו בוחרים את מחלקת המסמכים עם ציון הביטחון הגבוה ביותר. צילום המסך הבא הוא תגובה לדוגמה.

סיווג מסמכים עם נקודת הקצה בזמן אמת

אנו ממליצים לעבור על קוד לדוגמה סיווג המסמכים המפורט ב- GitHub.

שלב המיצוי

Amazon Textract מאפשר לך לחלץ טקסט ומידע מובנה באמצעות Amazon Textract DetectDocumentText ו נתח את המסמך ממשקי API, בהתאמה. ממשקי API אלה מגיבים עם נתוני JSON, המכילים WORDS, LINES, FORMS, TABLES, מידע על גיאומטריה או תיבה תוחמת, קשרים וכן הלאה. שניהם DetectDocumentText ו AnalyzeDocument הן פעולות סינכרוניות. כדי לנתח מסמכים באופן אסינכרוני, השתמש StartDocumentTextDetection.

חילוץ נתונים מובנה

ניתן לחלץ נתונים מובנים כגון טבלאות ממסמכים תוך שמירה על מבנה הנתונים והקשרים בין פריטים שזוהו. אתה יכול להשתמש ב נתח את המסמך API עם ה FeatureType as TABLE כדי לזהות את כל הטבלאות במסמך. האיור הבא ממחיש תהליך זה.

חילוץ נתונים מובנה

ראה את הקוד הבא:

response = textract.analyze_document(
    Document={
        'S3Object': {
            'Bucket': s3BucketName,
            'Name': documentName
        }
    },
    FeatureTypes=["TABLES"])

אנחנו מפעילים את analyze_document() שיטה עם FeatureType as TABLES על מסמך היסטוריית העובדים והשיג את חילוץ הטבלה בתוצאות הבאות.

נתח את תגובת ה-API של מסמך עבור חילוץ טבלאות

חילוץ נתונים מובנה למחצה

ניתן לחלץ נתונים מובנים למחצה כגון טפסים או צמדי מפתח-ערך ממסמכים תוך שמירה על מבנה הנתונים והקשרים בין פריטים שזוהו. אתה יכול להשתמש ב נתח את המסמך API עם ה FeatureType as FORMS כדי לזהות את כל הטפסים במסמך. התרשים הבא ממחיש תהליך זה.

חילוץ נתונים מובנה למחצה

ראה את הקוד הבא:

response = textract.analyze_document(
    Document={
        'S3Object': {
            'Bucket': s3BucketName,
            'Name': documentName
        }
    },
    FeatureTypes=["FORMS"])

כאן, אנו מפעילים את analyze_document() שיטה עם FeatureType as FORMS על מסמך בקשת העובד ולקבל את חילוץ הטבלה בתוצאות.

עיבוד מסמכים חכם עם שירותי AI של AWS: חלק 1 PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

חילוץ נתונים לא מובנה

Amazon Textract הוא אופטימלי לחילוץ טקסט צפוף עם דיוק OCR מוביל בתעשייה. אתה יכול להשתמש ב DetectDocumentText API לזיהוי שורות טקסט והמילים המרכיבות שורת טקסט, כפי שמוצג באיור הבא.

חילוץ נתונים לא מובנה

ראה את הקוד הבא:

response = textract.detect_document_text(Document={'Bytes': imageBytes})

# Print detected text
for item in response["Blocks"]:
	if item["BlockType"] == "LINE":
 		print (item["Text"])

עכשיו אנחנו מפעילים את detect_document_text() שיטה על התמונה לדוגמה ולהשיג מיצוי טקסט גולמי בתוצאות.

עיבוד מסמכים חכם עם שירותי AI של AWS: חלק 1 PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

חשבוניות וקבלות

Amazon Textract מספקת תמיכה מיוחדת לעיבוד חשבוניות וקבלות בקנה מידה. ה AnalyzeExpense API יכול לחלץ נתונים עם תווית מפורשת, נתונים משתמעים ופריטי שורה מרשימה מפורטת של סחורות או שירותים כמעט מכל חשבונית או קבלה ללא תבניות או תצורה כלשהי. האיור הבא ממחיש תהליך זה.

הוצאת חשבוניות וקבלות

ראה את הקוד הבא:

response = textract.analyze_expense(
    Document={
        'S3Object': {
            'Bucket': s3BucketName,
            'Name': documentName
        }
    })

Amazon Textract יכולה למצוא את שם הספק בקבלה גם אם הוא מצוין רק בתוך לוגו בעמוד ללא תווית מפורשת בשם "ספק". הוא יכול גם למצוא ולחלץ פריטי הוצאות, כמות ומחירים שאינם מסומנים בכותרות העמודות עבור פריטי שורה.

נתח את תגובת ה-API של הוצאות

מסמכי זהות

The Amazon Textract ניתוח מזהה API יכול לעזור לך לחלץ מידע אוטומטית ממסמכי זיהוי, כגון רישיונות נהיגה ודרכונים, ללא צורך בתבניות או בתצורה. אנו יכולים לחלץ מידע ספציפי, כגון תאריך תפוגה ותאריך לידה, כמו גם לזהות ולחלץ מידע מרומז באופן מושכל, כגון שם וכתובת. התרשים הבא ממחיש תהליך זה.

שליפת מסמכי זהות

ראה את הקוד הבא:

textract_client = boto3.client('textract')
j = call_textract_analyzeid(document_pages=["s3://amazon-textract-public-content/analyzeid/driverlicense.png"],boto3_textract_client=textract_client)

אנו יכולים להשתמש tabulate כדי לקבל פלט מודפס יפה:

from tabulate import tabulate

print(tabulate([x[1:3] for x in result]))

עיבוד מסמכים חכם עם שירותי AI של AWS: חלק 1 PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

אנו ממליצים לעבור על חילוץ המסמכים המפורט קוד לדוגמא ב-GitHub. למידע נוסף על דוגמאות הקוד המלאות בפוסט זה, עיין ב- GitHub ריפו.

סיכום

בפוסט הראשון של סדרה בת שני חלקים, דנו בשלבים השונים של IDP וארכיטקטורת פתרונות. דנו גם בסיווג מסמכים באמצעות סיווג מותאם אישית של Amazon Comprehend. לאחר מכן, בדקנו את הדרכים שבהן אתה יכול להשתמש ב- Amazon Textract כדי לחלץ מידע מסוגי מסמכים לא מובנים, מובנים למחצה, מובנים ומיוחדים.

In חלק 2 בסדרה זו, אנו ממשיכים בדיון עם תכונות החילוץ והשאילתות של Amazon Textract. אנו בוחנים כיצד להשתמש בישויות מוגדרות מראש של Amazon Comprehend ובישויות מותאמות אישית כדי לחלץ מונחים עסקיים מרכזיים ממסמכים עם טקסט צפוף, וכיצד לשלב סקירת Amazon A2I אנושית במעגל בתהליכי ה-IDP שלך.

אנו ממליצים לסקור את סעיפי האבטחה של טקסטורה באמזון, אמזון להתבונן, ו אמזון A2I תיעוד וביצוע ההנחיות שסופקו. כמו כן, הקדישו רגע לסקור ולהבין את התמחור עבור טקסטורה באמזון, אמזון להתבונן, ו אמזון A2I.

על המחברים

סופראקש דוטה הוא אדריכל פתרונות בשירותי האינטרנט של אמזון. הוא מתמקד באסטרטגיית טרנספורמציה דיגיטלית, מודרניזציה והגירה של יישומים, ניתוח נתונים ולמידת מכונה.

סונאלי סהו מובילה את צוות אדריכלי פתרונות AI/ML Intelligent Document Processing ב- Amazon Web Services. היא טכנופילית נלהבת ונהנית לעבוד עם לקוחות כדי לפתור בעיות מורכבות באמצעות חדשנות. תחום הליבה שלה הוא בינה מלאכותית ולמידת מכונה לעיבוד מסמכים חכם.

אנג'אן ביזוואז הוא ארכיטקט פתרונות שירותי AI בכיר עם התמקדות ב-AI/ML וניתוח נתונים. אנג'אן הוא חלק מצוות שירותי AI העולמי ועובד עם לקוחות כדי לעזור להם להבין ולפתח פתרונות לבעיות עסקיות עם AI ו-ML. לאנג'אן יש למעלה מ-14 שנות ניסיון בעבודה עם שרשרת אספקה גלובלית, ייצור וקמעונאות, והיא עוזרת ללקוחות להתחיל ולהתקדם בשירותי AI של AWS.

צ'ינמיי ראן הוא אדריכל פתרונות AI/ML מומחה בשירותי האינטרנט של אמזון. היא נלהבת למתמטיקה שימושית ולמידת מכונה. היא מתמקדת בעיצוב פתרונות עיבוד מסמכים חכמים עבור לקוחות AWS. מחוץ לעבודה, היא נהנית לרקוד סלסה ובאצ'טה.