בנו מזהה ישויות מותאם אישית עבור מסמכי PDF באמצעות Amazon Comprehend

הועלה מחדש על ידי אפלטון

עוקב: 0

בתעשיות רבות, זה קריטי לחלץ ישויות מותאמות אישית ממסמכים בזמן. זה יכול להיות מאתגר. תביעות ביטוח, למשל, מכילות לעתים קרובות עשרות מאפיינים חשובים (כגון תאריכים, שמות, מיקומים ודוחות) המפוזרות על פני מסמכים ארוכים וצפופים. סריקה ידנית ושליפה של מידע כזה עשויה להיות מועדת לשגיאות וגוזלת זמן. תוכנה מבוססת כללים יכולה לעזור, אך בסופו של דבר היא נוקשה מכדי להסתגל למגוון סוגי המסמכים והפריסות.

כדי לעזור לבצע אוטומציה ולהאיץ את התהליך הזה, אתה יכול להשתמש אמזון להתבונן כדי לזהות ישויות מותאמות אישית במהירות ובדייקנות באמצעות למידת מכונה (ML). גישה זו גמישה ומדויקת, מכיוון שהמערכת יכולה להסתגל למסמכים חדשים על ידי שימוש במה שהיא למדה בעבר. עם זאת, עד לאחרונה, ניתן היה להחיל יכולת זו רק על מסמכי טקסט רגיל, מה שאומר שמידע מיקום אבד בעת המרת המסמכים מהפורמט המקורי שלהם. כדי לטפל בזה, זה היה לאחרונה הודיע ש-Amazon Comprehend יכולה לחלץ ישויות מותאמות אישית בקובצי PDF, תמונות ופורמטים של קבצי Word.

בפוסט זה, אנו עוברים על דוגמה קונקרטית מתעשיית הביטוח כיצד ניתן לבנות מזהה מותאם אישית באמצעות הערות PDF.

סקירת פתרונות

אנו מדריכים אותך בשלבים הבאים ברמה הגבוהה:

צור הערות PDF.
השתמש בהערות PDF כדי לאמן מודל מותאם אישית באמצעות ה-API של Python.
השג מדדי הערכה מהמודל המאומן.
בצע הסקה על מסמך שלא נראה.

עד סוף הפוסט הזה, אנחנו רוצים להיות מסוגלים לשלוח מסמך PDF גולמי למודל המיומן שלנו, ולגרום לו להוציא קובץ מובנה עם מידע על התוויות המעניינות שלנו. בפרט, אנו מאמנים את המודל שלנו לזהות את חמשת הישויות הבאות שבחרנו בגלל הרלוונטיות שלהן לתביעות ביטוח: DateOfForm, DateOfLoss, NameOfInsured, LocationOfLoss, ו InsuredMailingAddress. לאחר קריאת הפלט המובנה, נוכל לדמיין את מידע התווית ישירות על מסמך ה-PDF, כמו בתמונה הבאה.

פוסט זה מלווה במחברת Jupyter המכילה את אותם שלבים. אל תהסס לעקוב בזמן הפעלת השלבים בזה מחברה. שים לב שאתה צריך להגדיר את אמזון SageMaker סביבה כדי לאפשר ל- Amazon Comprehend לקרוא ממנה שירות אחסון פשוט של אמזון (Amazon S3) כמתואר בחלק העליון של המחברת.

צור הערות PDF

כדי ליצור הערות עבור מסמכי PDF, אתה יכול להשתמש האמת של אמזון SageMaker, שירות תיוג נתונים מנוהל במלואו המקל על בניית מערכי הדרכה מדויקים ביותר עבור ML.

עבור הדרכה זו, כבר ביארנו את קובצי ה-PDF בצורה המקורית שלהם (מבלי להמיר לטקסט רגיל) באמצעות Ground Truth. עבודת Ground Truth מייצרת שלושה מסלולים שאנו צריכים להכשרת מודל Amazon Comprehend המותאם אישית שלנו:

מקורות – הנתיב לקובצי PDF הקלט.
ביאורים – הנתיב לקובצי ה-JSON ההערה המכילים את פרטי הישות המסומנים.
מנשר – הקובץ המצביע על מיקום ההערות וקובצי PDF מקור. קובץ זה משמש ליצירת עבודת אימון מותאמת אישית של Amazon Comprehend לזיהוי ישויות ולהכשרת מודל מותאם אישית.

צילום המסך הבא מציג הערה לדוגמה.

עבודת Ground Truth המותאמת אישית יוצרת הערת PDF הלוכדת מידע ברמת הבלוק על הישות. מידע כזה ברמת הבלוק מספק את הקואורדינטות המיקוםיות המדויקות של הישות (כאשר בלוקי הצאצא מייצגים כל מילה בתוך בלוק הישות). זה נבדל מעבודת Ground Truth סטנדרטית שבה הנתונים ב-PDF משטחים לפורמט טקסטואלי ורק מידע קיזוז - אך לא מידע קואורדינטות מדויק - נקלט במהלך ההערה. המידע המיקוםי העשיר שאנו משיגים עם פרדיגמת הערות מותאמת אישית זו מאפשר לנו לאמן מודל מדויק יותר.

המניפסט שנוצר מעבודה מסוג זה נקרא מניפסט מוגדל, בניגוד ל-CSV המשמש להערות סטנדרטיות. למידע נוסף, ראה ביאורים.

השתמש בהערות PDF כדי לאמן מודל מותאם אישית באמצעות ה-API של Python

קובץ מניפסט מוגדל חייב להיות בפורמט JSON Lines. בפורמט JSON Lines, כל שורה בקובץ היא אובייקט JSON שלם ואחריו מפריד שורה חדשה.

הקוד הבא הוא ערך בתוך קובץ המניפסט המוגדל הזה.

כמה דברים שצריך לציין:

חמישה סוגי תיוג משויכים לעבודה זו: DateOfForm, DateOfLoss, NameOfInsured, LocationOfLoss, ו InsuredMailingAddress.
קובץ המניפסט מתייחס הן למיקום ה-PDF של המקור והן למיקום ההערות.
מטא נתונים על עבודת ההערה (כגון תאריך יצירה) נקלטים.
Use-textract-only מוגדר False, כלומר כלי ההערות מחליט אם להשתמש ב-PDFPlumber (עבור PDF מקורי) או טקסטורה באמזון (למסמך PDF סרוק). אם מוגדר ל true, Amazon Textract משמש בשני המקרים (שהיא יקרה יותר אך עשויה להיות מדויקת יותר).

כעת נוכל לאמן את המזהה, כפי שמוצג בקוד הדוגמה הבא.

אנו יוצרים מזהה שיזהה את כל חמשת סוגי הישויות. יכולנו להשתמש בתת-קבוצה של הישויות האלה אם היינו מעדיפים. אתה יכול להשתמש בעד 25 ישויות.

לפרטים של כל פרמטר, עיין ב יוצר_ישות_מזהה.

בהתאם לגודל מערך האימונים, זמן האימון יכול להשתנות. עבור מערך נתונים זה, ההדרכה נמשכת כשעה. כדי לעקוב אחר מצב עבודת ההדרכה, אתה יכול להשתמש ב- describe_entity_recognizer ה-API.

השג מדדי הערכה מהמודל המאומן

Amazon Comprehend מספקת מדדי ביצועי מודל עבור מודל מאומן, המציינים עד כמה המודל המאומן צפוי לבצע תחזיות באמצעות תשומות דומות. אנו יכולים להשיג גם מדדי דיוק וזיכרונות גלובליים וגם מדדי ישות. לדגם מדויק יש דיוק גבוה וזכירה גבוהה. דיוק גבוה אומר שהדגם בדרך כלל נכון כאשר הוא מציין תווית מסוימת; ריקול גבוה אומר שהדגם מצא את רוב התוויות. F1 הוא מדד מורכב (ממוצע הרמוני) של מדדים אלה, ולכן הוא גבוה כאשר שני הרכיבים גבוהים. לתיאור מפורט של המדדים, ראה מדדי זיהוי ישויות מותאמים אישית.

כאשר אתה מספק את המסמכים לעבודת ההדרכה, Amazon Comprehend מפרידה אותם אוטומטית לקבוצת רכבת ומבחן. כשהדגם הגיע TRAINED סטטוס, אתה יכול להשתמש ב describe_entity_recognizer API שוב כדי לקבל את מדדי ההערכה על ערכת הבדיקה.

להלן דוגמה למדדים גלובליים.

להלן דוגמה למדדי ישות.

הציונים הגבוהים מצביעים על כך שהמודל למד היטב כיצד לזהות ישויות אלו.

בצע הסקה על מסמך שלא נראה

בואו נסיק מסקנות עם המודל המיומן שלנו על מסמך שלא היה חלק מהליך ההדרכה. אנו יכולים להשתמש ב-API אסינכרוני זה עבור NER סטנדרטי או מותאם אישית. אם משתמשים בו עבור NER מותאם אישית (כמו בפוסט זה), עלינו לעבור את ה-ARN של הדגם המאומן.

נוכל לסקור את העבודה שהוגשה על ידי הדפסת התגובה.

אנחנו יכולים לעצב את הפלט של עבודת האיתור עם Pandas לטבלה. ה Score ערך מציין את רמת הביטחון שיש למודל לגבי הישות.

לבסוף, אנו יכולים לכסות את התחזיות על המסמכים הבלתי נראים, מה שנותן את התוצאה כפי שמוצגת בראש הפוסט הזה.

סיכום

בפוסט זה ראית כיצד לחלץ ישויות מותאמות אישית בפורמט ה-PDF המקורי שלהן באמצעות Amazon Comprehend. כצעדים הבאים, שקול לצלול עמוק יותר:

אמן את המזהה שלך באמצעות המחברת המצורפת כאן. זכור למחוק משאבים כלשהם בסיום כדי למנוע חיובים עתידיים.
הגדר עבודת הערות מותאמת אישית משלך כדי לאסוף הערות PDF עבור הישויות המעניינות שלך. למידע נוסף, עיין ב הערת מסמך מותאמת אישית לחילוץ ישויות עם שם במסמכים באמצעות Amazon Comprehend.
אימון דגם NER מותאם אישית בקונסולת Amazon Comprehend. למידע נוסף, ראה חלץ ישויות מותאמות אישית ממסמכים בפורמט המקורי שלהם עם Amazon Comprehend.

על הכותבים

יהושע לוי הוא מדען יישומי בכיר במעבדת Amazon Machine Learning Solutions, שם הוא עוזר ללקוחות לתכנן ולבנות פתרונות AI/ML לפתרון בעיות עסקיות מרכזיות.

אנדרו אנג הוא מהנדס למידת מכונה במעבדת פתרונות למידת מכונה של אמזון, שם הוא עוזר ללקוחות ממגוון רחב של תעשיות לזהות ולבנות פתרונות AI/ML כדי לפתור את הבעיות העסקיות הדוחקות ביותר שלהם. מחוץ לעבודה הוא נהנה לצפות בוולוגים של טיולים ואוכל.

אלכס שיראת ' הוא מהנדס תוכנה במעבדת פתרונות למידת מכונה של אמזון המתמקד בבניית פתרונות מבוססי-מקרה המראים ללקוחות כיצד לנצל את הכוח של שירותי AI/ML של AWS כדי לפתור בעיות עסקיות בעולם האמיתי.

ג'ניפר ז'ו הוא מדען יישומי ממעבדת פתרונות למידת מכונה של אמזון בינה מלאכותית. היא עובדת עם לקוחות של AWS בונים פתרונות AI/ML לצרכיהם העסקיים בעדיפות גבוהה.

ניהריקה ג'יאנטי הוא מהנדס חזיתי במעבדת פתרונות למידת מכונה של אמזון - צוות אנושי ב-Loop. היא עוזרת ליצור פתרונות חווית משתמש עבור לקוחות Amazon SageMaker Ground Truth.

בוריס ארונצ'יק הוא מנהל במעבדת פתרונות למידת מכונה בינה מלאכותית של אמזון, שם הוא מוביל צוות של מדעני ומהנדסי ML כדי לעזור ללקוחות AWS לממש יעדים עסקיים תוך מינוף פתרונות AI/ML.

בול זמן: אפריל 8, 2022

בול זמן: אוגוסט 2, 2023

בנו מזהה ישויות מותאם אישית עבור מסמכי PDF באמצעות Amazon Comprehend

הועלה מחדש על ידי אפלטון

סקירת פתרונות

צור הערות PDF

השתמש בהערות PDF כדי לאמן מודל מותאם אישית באמצעות ה-API של Python

השג מדדי הערכה מהמודל המאומן

בצע הסקה על מסמך שלא נראה

סיכום

על הכותבים

עוד מ למידת מכונות AWS

בצע אופטימיזציה של היפרפרמטרים עם כוונון דגמים אוטומטי של Amazon SageMaker

השתמש ב-ADFS OIDC כ-IDP עבור כוח עבודה פרטי של Amazon SageMaker Ground Truth

בנה מודלים של סיווג תמונות עם ביצועים גבוהים באמצעות Amazon SageMaker JumpStart

אימון מודל חיזוי של סדרות זמן מהר יותר עם Amazon SageMaker Canvas Building Quick

השתמש בראייה ממוחשבת כדי למדוד את התפוקה החקלאית עם התוויות המותאמות אישית של אמזון זיהוי

הטמע המלצות מותאמות אישית בזמן אמת באמצעות Amazon Personalize | שירותי האינטרנט של אמזון

אודות

חיפוש אנכי ו- Ai

פלטפורמה

שמור על קשר

חֶשְׁבּוֹן