Introducing One-step Classification And Entity Recognition With Amazon Comprehend For Intelligent Document Processing

הועלה מחדש על ידי אפלטון

עוקב: 0

"פתרונות עיבוד מסמכים חכם (IDP) שואבים נתונים כדי לתמוך באוטומציה של משימות עיבוד מסמכים בנפח גבוה וחוזר על עצמו ולצורך ניתוח ותובנה. IDP משתמשת בטכנולוגיות שפה טבעית וראייה ממוחשבת כדי לחלץ נתונים מתוכן מובנה ולא מובנה, במיוחד ממסמכים, כדי לתמוך באוטומציה והגדלה". – גרטנר

המטרה של עיבוד המסמכים החכם (IDP) של אמזון היא להפוך את העיבוד של כמויות גדולות של מסמכים באמצעות למידת מכונה (ML) על מנת להגדיל את הפרודוקטיביות, להפחית עלויות הכרוכות בעבודה אנושית ולספק חווית משתמש חלקה. לקוחות משקיעים כמות משמעותית של זמן ומאמץ בזיהוי מסמכים והפקת מידע קריטי מהם עבור מקרי שימוש שונים. היום, אמזון להתבונן תומך בסיווג עבור מסמכי טקסט רגיל, המחייב אותך לעבד מראש מסמכים בפורמטים מובנים למחצה (סרוקים, PDF דיגיטלי או תמונות כגון PNG, JPG, TIFF) ולאחר מכן להשתמש בפלט הטקסט הרגיל כדי להסיק מסקנות עם סיווג מותאם אישית דֶגֶם. באופן דומה, עבור זיהוי ישות מותאם אישית בזמן אמת, נדרש עיבוד מקדים לחילוץ טקסט עבור מסמכים מובנים למחצה כגון קבצי PDF ותמונות. תהליך דו-שלבי זה מציג מורכבויות בתהליכי עבודה של עיבוד מסמכים.

בשנה שעברה, אנחנו הכריזה על תמיכה בפורמטים מקוריים של מסמכים עם זיהוי ישות בשם מותאם אישית (NER) עבודות אסינכרוניות. היום, אנו נרגשים להכריז על סיווג מסמכים בשלב אחד וניתוח בזמן אמת עבור NER עבור מסמכים מובנים למחצה בפורמטים מקוריים (PDF, TIFF, JPG, PNG) באמצעות Amazon Comprehend. באופן ספציפי, אנו מכריזים על היכולות הבאות:

תמיכה במסמכים בפורמטים מקוריים עבור ניתוח סיווג מותאם אישית בזמן אמת ועבודות אסינכרוניות
תמיכה במסמכים בפורמטים מקוריים לניתוח זיהוי ישויות מותאם אישית בזמן אמת

עם מהדורה חדשה זו, Amazon Comprehend סיווג מותאם אישית וזיהוי ישויות מותאם אישית (NER) תומכים במסמכים בפורמטים כגון PDF, TIFF, PNG ו-JPEG ישירות, ללא צורך לחלץ מהם טקסט רגיל מקודד UTF8. האיור הבא משווה את התהליך הקודם לנוהל ולתמיכה החדשים.

תכונה זו מפשטת את זרימות העבודה של עיבוד מסמכים על ידי ביטול כל שלבי העיבוד המקדים הנדרשים לחילוץ טקסט רגיל ממסמכים, ומפחיתה את הזמן הכולל הנדרש לעיבודם.

בפוסט זה, אנו דנים בעיצוב זרימת עבודה של IDP ברמה גבוהה, בכמה מקרי שימוש בתעשייה, בתכונות החדשות של Amazon Comprehend וכיצד להשתמש בהן.

סקירה כללית של הפיתרון

נתחיל בבחינת מקרה שימוש נפוץ בענף הביטוח. תהליך תביעת ביטוח טיפוסי כולל חבילת תביעה שעשויה להכיל מספר מסמכים. כאשר מוגשת תביעת ביטוח, היא כוללת מסמכים כמו טופס תביעת ביטוח, דוחות תקריות, מסמכי זהות ומסמכי תביעה של צד שלישי. נפח המסמכים לטיפול ופסיקה בתביעת ביטוח יכול להגיע עד למאות ואף אלפי עמודים בהתאם לסוג התביעה ולתהליכים העסקיים המעורבים. נציגי תביעות ביטוח ופוסקים בדרך כלל מבלים מאות שעות בניפוי, מיון והפקת מידע מתוך מאות ואף אלפי הגשות תביעות.

בדומה למקרה השימוש בענף הביטוח, תעשיית התשלומים מעבדת גם כמויות גדולות של מסמכים מובנים למחצה עבור הסכמי תשלום חוצי גבולות, חשבוניות והצהרות מט"ח. משתמשים עסקיים מבלים את רוב זמנם בפעילויות ידניות כגון זיהוי, ארגון, אימות, חילוץ והעברת מידע נדרש ליישומים במורד הזרם. תהליך ידני זה מייגע, חוזר על עצמו, נוטה לשגיאות, יקר וקשה להרחבה. תעשיות אחרות המתמודדות עם אתגרים דומים כוללים משכנתאות והלוואות, בריאות ומדעי החיים, משפטים, חשבונאות וניהול מס. חשוב ביותר לעסקים לעבד כמויות כה גדולות של מסמכים בזמן עם רמת דיוק גבוהה ומאמץ ידני סמלי.

Amazon Comprehend מספקת יכולות מפתח לאוטומטיות של סיווג מסמכים ושליפת מידע מכמות גדולה של מסמכים עם דיוק גבוה, בצורה מדרגית וחסכונית. התרשים הבא מציג זרימת עבודה לוגית של IDP עם Amazon Comprehend. הליבה של זרימת העבודה מורכבת מסיווג מסמכים ומיצוי מידע באמצעות NER עם מודלים מותאמים אישית של Amazon Comprehend. התרשים גם מדגים כיצד ניתן לשפר באופן מתמיד את המודלים המותאמים אישית כדי לספק דיוק גבוה יותר ככל שהמסמכים והתהליכים העסקיים מתפתחים.

סיווג מסמכים מותאם אישית

עם סיווג מותאם אישית של Amazon Comprehend, אתה יכול לארגן את המסמכים שלך בקטגוריות מוגדרות מראש (מחלקות). ברמה גבוהה, להלן השלבים להגדרת סיווג מסמכים מותאם אישית ולביצוע סיווג מסמכים:

הכן נתוני אימון להכשרת מסווג מסמכים מותאם אישית.
הדרכת מסווג מסמכי לקוח עם נתוני ההדרכה.
לאחר הכשרה של המודל, אפשר לפרוס נקודת קצה בזמן אמת.
בצע סיווג מסמכים עם עבודה אסינכרונית או בזמן אמת באמצעות נקודת הקצה.

שלבים 1 ו-2 נעשים בדרך כלל בתחילת פרויקט IDP לאחר זיהוי מחלקות המסמכים הרלוונטיות לתהליך העסקי. לאחר מכן ניתן להכשיר מדי פעם מודל מסווג מותאם אישית כדי לשפר את הדיוק ולהציג מחלקות מסמכים חדשות. אתה יכול לאמן מודל סיווג מותאם אישית גם ב מצב רב-מחלקה or מצב ריבוי תוויות. הדרכה יכולה להיעשות עבור כל אחד באחת משתי דרכים: באמצעות קובץ CSV, או באמצעות קובץ מניפסט מוגדל. מתייחס הכנת נתוני אימון לפרטים נוספים על הכשרת מודל סיווג מותאם אישית. לאחר הכשרה של מודל מסווג מותאם אישית, ניתן לסווג מסמך באמצעות ניתוח בזמן אמת או עבודה אסינכרונית. ניתוח בזמן אמת דורש נקודת קצה שתיפרס עם הדגם המיומן והוא המתאים ביותר למסמכים קטנים בהתאם למקרה השימוש. עבור מספר רב של מסמכים, עבודת סיווג אסינכרונית היא המתאימה ביותר.

אימון מודל סיווג מסמכים מותאם אישית

כדי להדגים את התכונה החדשה, הכשרנו מודל סיווג מותאם אישית במצב ריבוי תוויות, שיכול לסווג מסמכי ביטוח לאחת משבעה מחלקות שונות. השיעורים הם INSURANCE_ID, PASSPORT, LICENSE, INVOICE_RECEIPT, MEDICAL_TRANSCRIPTION, DISCHARGE_SUMMARY, ו CMS1500. אנו רוצים לסווג מסמכים לדוגמה בפורמט PDF, PNG ו-JPEG מקורי, המאוחסנים ב- שירות אחסון פשוט של אמזון (Amazon S3) דלי, תוך שימוש במודל הסיווג. כדי להתחיל עבודת סיווג אסינכרוני, בצע את השלבים הבאים:

במסוף Comprehend של אמזון, בחר עבודות ניתוח בחלונית הניווט.
בחרו צור עבודה.
בעד שם, הזן שם עבור עבודת הסיווג שלך.
בעד סוג ניתוחבחר סיווג מותאם אישית.
בעד דגם מסווג, בחר את מודל הסיווג המיומן המתאים.
בעד גִרְסָה, בחר את גרסת הדגם המתאימה.

ב נתוני קלט בסעיף, אנו מספקים את המיקום שבו מאוחסנים המסמכים שלנו.

בעד פורמט הכנסה, בחר מסמך אחד לכל קובץ.
בעד מצב קריאת מסמכיםבחר כפה פעולת קריאת מסמך.
בעד פעולת קריאת מסמך, בחר Texttract זיהוי טקסט של מסמך.

זה מאפשר ל- Amazon Comprehend להשתמש ב- טקסטורה באמזון DetectDocumentText API לקריאת המסמכים לפני הפעלת הסיווג. ה DetectDocumentText API מועיל בחילוץ שורות ומילים של טקסט מהמסמכים. אתה יכול גם לבחור מסמך ניתוח טקסט ל פעולת קריאת מסמך, במקרה זה Amazon Comprehend משתמשת ב- Amazon Textract נתח את המסמך API לקריאת המסמכים. עם ה AnalyzeDocument API, אתה יכול לבחור לחלץ לוחות, טפסים, או שניהם. ה מצב קריאת מסמכים האפשרות מאפשרת ל-Amazon Comprehend לחלץ את הטקסט ממסמכים מאחורי הקלעים, מה שעוזר להפחית את השלב הנוסף של חילוץ טקסט מהמסמך, הנדרש בזרימת העבודה שלנו לעיבוד המסמכים.

הסיווג המותאם אישית של Amazon Comprehend יכול גם לעבד תגובות JSON גולמיות שנוצרו על ידי DetectDocumentText ו AnalyzeDocument ממשקי API, ללא כל שינוי או עיבוד מקדים. זה שימושי עבור זרימות עבודה קיימות בהן Amazon Textract כבר מעורבת בחילוץ טקסט מהמסמכים. במקרה זה, ניתן להזין את פלט ה-JSON מאמזון Textract ישירות לממשקי API לסיווג המסמכים של Amazon Comprehend.

ב נתוני פלט קטע, עבור מיקום S3, ציין מיקום של Amazon S3 שבו אתה רוצה שהעבודה האסינכרונית תכתוב את תוצאות ההסקה.
השאר את האפשרויות הנותרות כברירת מחדל.
בחרו צור עבודה להתחיל את העבודה.

אתה יכול לראות את מצב המשרה ב- עבודות ניתוח עמוד.

בסיום העבודה, נוכל לראות את הפלט של עבודת הניתוח, המאוחסנת במיקום Amazon S3 שסופק במהלך הגדרת העבודה. פלט הסיווג עבור מסמך PDF לדוגמה CMS1500 שלנו הוא כדלקמן. הפלט הוא קובץ בפורמט קווי JSON, שעוצב כדי לשפר את הקריאה.

{
  "Classes": [
    { "Name": "CMS1500", "Score": 0.9998 },
    { "Name": "DISCHARGE_SUMMARY", "Score": 0.0001 },
    { "Name": "INSURANCE_ID", "Score": 0 },
    { "Name": "PASSPORT", "Score": 0 },
    { "Name": "LICENSE", "Score": 0 },
    { "Name": "INVOICE_RECEIPT", "Score": 0 },
    { "Name": "MEDICAL_TRANSCRIPTION", "Score": 0 }
  ],
  "DocumentMetadata": {
    "PageNumber": 1,
    "Pages": 1
  },
  "DocumentType": "NativePDFScanned",
  "File": "sample-cms1500.pdf",
  "Version": "2022-08-30"
}

הדוגמה הקודמת היא מסמך PDF בן עמוד אחד; עם זאת, סיווג מותאם אישית יכול להתמודד גם עם מסמכי PDF מרובי עמודים. במקרה של מסמכים מרובי עמודים, הפלט מכיל שורות JSON מרובות, כאשר כל שורה היא תוצאת הסיווג של כל אחד מהעמודים במסמך. להלן פלט סיווג מרובה עמודים לדוגמה:

{"Classes": [{"Name": "CMS1500", "Score": 0.4718}, {"Name": "MEDICAL_TRANSCRIPTION", "Score": 0.0841}, {"Name": "PASSPORT", "Score": 0.0722}], "DocumentMetadata": {"PageNumber": 1, "Pages": 4}, "DocumentType": "NativePDFScanned", "File": "sample-document.pdf", "Version": "2022-08-30"}

{"Classes": [{"Name": "DISCHARGE_SUMMARY", "Score": 0.9998}, {"Name": "CMS1500", "Score": 0.0001}, {"Name": "INVOICE_RECEIPT", "Score": 0.0}], "DocumentMetadata": {"PageNumber": 2, "Pages": 4}, "DocumentType": "NativePDFScanned", "File": "sample-document.pdf", "Version": "2022-08-30"}

{"Classes": [{"Name": "DISCHARGE_SUMMARY", "Score": 0.9998}, {"Name": "CMS1500", "Score": 0.0001}, {"Name": "INVOICE_RECEIPT", "Score": 0.0}], "DocumentMetadata": {"PageNumber": 3, "Pages": 4}, "DocumentType": "NativePDFScanned", "File": "sample-document.pdf", "Version": "2022-08-30"}

{"Classes": [{"Name": "DISCHARGE_SUMMARY", "Score": 0.9998}, {"Name": "CMS1500", "Score": 0.0001}, {"Name": "INVOICE_RECEIPT", "Score": 0.0}], "DocumentMetadata": {"PageNumber": 4, "Pages": 4}, "DocumentType": "NativePDFScanned", "File": "sample-document.pdf", "Version": "2022-08-30"}

זיהוי ישויות מותאמות אישית

עם מזהה ישויות מותאם אישית של Amazon Comprehend, אתה יכול לנתח מסמכים ולחלץ ישויות כמו קודי מוצר או ישויות ספציפיות לעסק שמתאימות לצרכים הספציפיים שלך. ברמה גבוהה, להלן השלבים להגדרת מזהה ישויות מותאם אישית ולביצוע זיהוי ישויות:

הכן נתוני אימון כדי להכשיר מזהה ישויות מותאם אישית.
אמן מזהה ישויות מותאם אישית עם נתוני ההדרכה.
לאחר הכשרה של המודל, אפשר לפרוס נקודת קצה בזמן אמת.
בצע זיהוי ישויות עם עבודה אסינכרונית או בזמן אמת באמצעות נקודת הקצה.

מודל מזהה ישויות מותאם אישית ניתן להכשיר מחדש מעת לעת כדי לשפר את הדיוק ולהציג סוגי ישויות חדשים. אתה יכול לאמן מודל מזהה ישויות מותאם אישית עם אחד מהם רשימות ישויות or הערות. בשני המקרים, Amazon Comprehend לומדת על סוג המסמכים וההקשר שבו הישויות מתרחשות כדי לבנות מודל לזיהוי ישויות שיכול להכליל כדי לזהות ישויות חדשות. מתייחס הכנת נתוני האימונים למידע נוסף על הכנת נתוני הדרכה עבור מזהה ישויות מותאם אישית.

לאחר הכשרה של מודל מזהה ישויות מותאם אישית, ניתן לבצע זיהוי ישויות באמצעות שימוש ניתוח בזמן אמת או עבודה אסינכרונית. ניתוח בזמן אמת דורש נקודת קצה שתיפרס עם הדגם המיומן והוא המתאים ביותר למסמכים קטנים בהתאם למקרה השימוש. עבור מספר רב של מסמכים, עבודת סיווג אסינכרונית היא המתאימה ביותר.

אימון מודל זיהוי ישויות מותאם אישית

כדי להדגים את זיהוי הישות בזמן אמת, הכשרנו מודל מזהה ישויות מותאם אישית עם מסמכי ביטוח וקובצי מניפסט מוגדלים תוך שימוש בהערות מותאמות אישית ופרסנו את נקודת הקצה באמצעות המודל המיומן. סוגי הישויות הם Law Firm, Law Office Address, Insurance Company, Insurance Company Address, Policy Holder Name, Beneficiary Name, Policy Number, Payout, Required Action, ו Sender. אנו רוצים לזהות ישויות ממסמכים לדוגמה בפורמט מקורי של PDF, PNG ו-JPEG, המאוחסנים בדלי S3, באמצעות מודל המזהה.

שים לב שאתה יכול להשתמש במודל זיהוי ישויות מותאם אישית שמאומן עם מסמכי PDF כדי לחלץ ישויות מותאמות אישית ממסמכי PDF, TIFF, תמונה, Word וטקסט רגיל. אם המודל שלך מאומן באמצעות מסמכי טקסט ורשימת ישויות, אתה יכול להשתמש רק במסמכי טקסט רגיל כדי לחלץ את הישויות.

עלינו לזהות ישויות ממסמך לדוגמה בכל פורמט מקורי של PDF, PNG ו-JPEG באמצעות מודל המזהה. כדי להתחיל משימת זיהוי ישות סינכרונית, בצע את השלבים הבאים:

במסוף Comprehend של אמזון, בחר ניתוח בזמן אמת בחלונית הניווט.
תַחַת סוג ניתוח, בחר מותאם אישית.
בעד זיהוי ישויות מותאמות אישית, בחר את סוג הדגם המותאם אישית.
בעד נקודת קצה, בחר את נקודת הקצה בזמן אמת שיצרת עבור מודל מזהה הישות שלך.
בחר העלה קובץ ולבחור בחר קובץ כדי להעלות את קובץ ה-PDF או התמונה להסקה.
הרחב הזנת מסמכים מתקדמת סעיף ועבור מצב קריאת מסמכים, בחר ברירת המחדל של השירות.
בעד פעולת קריאת מסמך, בחר Texttract זיהוי טקסט של מסמך.
בחרו לנתח לנתח את המסמך בזמן אמת.

הישויות המוכרות מופיעות ב- תובנה סָעִיף. כל ישות מכילה את ערך הישות (הטקסט), סוג הישות כפי שהוגדרה על ידיך במהלך תהליך האימון וציון הביטחון המתאים.

לפרטים נוספים והדרכה מלאה כיצד להכשיר מודל מזהה ישויות מותאם אישית ולהשתמש בו לביצוע הסקה אסינכרונית באמצעות עבודות ניתוח אסינכרוני, עיין ב חלץ ישויות מותאמות אישית ממסמכים בפורמט המקורי שלהם עם Amazon Comprehend.

סיכום

פוסט זה הדגים כיצד ניתן לסווג ולסווג מסמכים מובנים למחצה בפורמט המקורי שלהם ולזהות מהם ישויות ספציפיות לעסק באמצעות Amazon Comprehend. אתה יכול להשתמש בממשקי API בזמן אמת למקרי שימוש עם זמן אחזור נמוך, או להשתמש בעבודות ניתוח אסינכרוני לעיבוד מסמכים בכמות גדולה.

כשלב הבא, אנו ממליצים לך לבקר ב- Amazon Comprehend מאגר GitHub לדוגמאות קוד מלאות כדי לנסות את התכונות החדשות הללו. אתה יכול גם לבקר ב Amazon Comprehend מדריך למפתחים ו משאבי מפתחים של Amazon Comprehend לסרטונים, הדרכות, בלוגים ועוד.

על המחברים

וריק טלוקדר הוא אדריכל בכיר בצוות Amazon Comprehend Service. הוא עובד עם לקוחות AWS כדי לעזור להם לאמץ למידת מכונה בקנה מידה גדול. מחוץ לעבודה, הוא נהנה לקרוא ולצלם.

אנג'אן ביזוואז הוא ארכיטקט בכיר בשירותי AI עם התמקדות ב-AI/ML ו-Data Analytics. אנג'אן הוא חלק מצוות שירותי AI העולמי ועובד עם לקוחות כדי לעזור להם להבין ולפתח פתרונות לבעיות עסקיות עם AI ו-ML. לאנג'אן יש למעלה מ-14 שנות ניסיון בעבודה עם שרשרת אספקה גלובלית, ייצור וקמעונאות, והיא עוזרת ללקוחות להתחיל ולהתקדם בשירותי AI של AWS.

גודווין סחיאראג' וינסנט הוא ארכיטקט פתרונות ארגוניים ב-AWS אשר נלהב מלמידת מכונה ומתן הדרכה ללקוחות לתכנן, לפרוס ולנהל את עומסי העבודה והארכיטקטורות של AWS שלהם. בזמנו הפנוי, הוא אוהב לשחק קריקט עם חבריו וטניס עם שלושת ילדיו.

בול זמן: דצמבר 2, 2022דצמבר 2, 2022

בול זמן: פבואר 28, 2024

הצגת סיווג שלב אחד וזיהוי ישויות עם Amazon Comprehend לעיבוד מסמכים חכם

הועלה מחדש על ידי אפלטון

סקירה כללית של הפיתרון

סיווג מסמכים מותאם אישית

אימון מודל סיווג מסמכים מותאם אישית

זיהוי ישויות מותאמות אישית

אימון מודל זיהוי ישויות מותאם אישית

סיכום

על המחברים

עוד מ למידת מכונות AWS

מסדי ידע עבור Amazon Bedrock תומכים כעת בסינון מטא נתונים כדי לשפר את דיוק השליפה | שירותי האינטרנט של אמזון

דגם הבסיס AI21 Jurassic-1 זמין כעת באמזון SageMaker

האץ את ההסקה של Amazon SageMaker עם מופעי Amazon EC6 מבוססי אינטל C2i

אוטומציה של תיוג PDF מראש עבור Amazon Comprehend | שירותי האינטרנט של אמזון

אודות

חיפוש אנכי ו- Ai

פלטפורמה

שמור על קשר

חֶשְׁבּוֹן