אמזון להתבונן הוא שירות עיבוד שפה טבעית (NLP) המספק APIs מותאמים ומותאמים מראש כדי להפיק תובנות מנתונים טקסטואליים. לקוחות Amazon Comprehend יכולים להכשיר מודלים מותאמים אישית של זיהוי ישויות (NER) כדי לחלץ ישויות של עניין, כגון מיקום, שם אדם ותאריך, הייחודיים לעסק שלהם.
כדי להכשיר מודל מותאם אישית, תחילה אתה מכין נתוני אימון על ידי הערות ידני של ישויות במסמכים. זה יכול להיעשות עם הבנת הכלי להערות מסמכים מובנים למחצה, אשר יוצר א האמת של אמזון SageMaker עבודה עם תבנית מותאמת אישית, המאפשרת למגיבים לצייר תיבות תוחמות סביב הישויות ישירות על מסמכי ה-PDF. עם זאת, עבור חברות עם נתוני ישויות טבלאיות קיימים במערכות ERP כמו SAP, הערה ידנית יכולה להיות חוזרת על עצמה וגוזלת זמן.
כדי להפחית את המאמץ בהכנת נתוני אימון, בנינו כלי תיוג מראש באמצעות פונקציות שלב AWS שמביא הערות מראש למסמכים באופן אוטומטי באמצעות נתוני ישויות טבלאיות קיימים. זה מקטין באופן משמעותי את העבודה הידנית הדרושה להכשרת מודלים מדויקים של זיהוי ישויות מותאמים אישית ב- Amazon Comprehend.
בפוסט זה, אנו מעבירים אותך דרך השלבים של הגדרת כלי התיוג הקדם ומציגים דוגמאות כיצד הוא מציין באופן אוטומטי מסמכים מציבור מערך נתונים של דפי חשבון בנק לדוגמה בפורמט PDF. הקוד המלא זמין ב- GitHub ריפו.
סקירת פתרונות
בחלק זה, אנו דנים בכניסות ובפלטים של כלי התיוג המקדים ומספקים סקירה כללית של ארכיטקטורת הפתרון.
תשומות ותפוקות
כקלט, כלי התיוג מראש לוקח מסמכי PDF המכילים טקסט להוספת הערות. עבור ההדגמה, אנו משתמשים בדפי חשבון בנק מדומים כמו הדוגמה הבאה.
הכלי גם לוקח קובץ מניפסט שממפה מסמכי PDF עם הישויות שאנו רוצים לחלץ ממסמכים אלו. ישויות מורכבות משני דברים: ה expected_text
לחלץ מהמסמך (לדוגמה, AnyCompany Bank
) והמתאים entity_type
(לדוגמה, bank_name
). בהמשך פוסט זה, אנו מראים כיצד לבנות את קובץ המניפסט הזה ממסמך CSV כמו הדוגמה הבאה.
כלי התיוג המקדים משתמש בקובץ המניפסט כדי להוסיף הערות אוטומטית למסמכים עם הישויות המתאימות להם. לאחר מכן נוכל להשתמש בהערות הללו ישירות כדי לאמן מודל של Amazon Comprehend.
לחלופין, אתה יכול ליצור משימת תיוג של SageMaker Ground Truth לסקירה ועריכה אנושית, כפי שמוצג בצילום המסך הבא.
כאשר הסקירה תושלם, תוכל להשתמש בנתונים המוערים כדי להכשיר מודל של זיהוי ישויות מותאם אישית של Amazon Comprehend.
אדריכלות
כלי התיוג מראש מורכב ממספר רב של AWS למבדה פונקציות מתוזמרות על ידי מכונת מצב Step Functions. יש לו שתי גרסאות המשתמשות בטכניקות שונות כדי ליצור הערות מראש.
הטכניקה הראשונה היא התאמה מטושטשת. זה דורש קובץ מראש עם ישויות צפויות. הכלי משתמש באלגוריתם ההתאמה המטושטשת כדי ליצור הערות מראש על ידי השוואת דמיון טקסט.
התאמה מטושטשת מחפשת מחרוזות במסמך הדומות (אך לא בהכרח זהות) לישויות הצפויות המפורטות בקובץ ה-pre-manifest. תחילה הוא מחשב את ציוני הדמיון בטקסט בין הטקסט הצפוי למילים במסמך, ואז הוא מתאים לכל הזוגות שמעל סף. לכן, גם אם אין התאמות מדויקות, התאמה מטושטשת יכולה למצוא גרסאות כמו קיצורים ושגיאות איות. זה מאפשר לכלי לתייג מראש מסמכים מבלי לדרוש מהישויות להופיע מילה במילה. לדוגמה, אם 'AnyCompany Bank'
רשום כישות צפויה, Fuzzy Matching יביא הערות על מופעים של 'Any Companys Bank'
. זה מספק יותר גמישות מהתאמת מחרוזות קפדנית ומאפשר לכלי התיוג המקדים לתייג אוטומטית יותר ישויות.
התרשים הבא ממחיש את הארכיטקטורה של מכונת המצבים של Step Functions.
הטכניקה השנייה דורשת א מודל מזהה ישויות מאומן מראש של Amazon Comprehend. הכלי יוצר הערות מראש באמצעות מודל Amazon Comprehend, בעקבות זרימת העבודה המוצגת בתרשים הבא.
התרשים הבא ממחיש את הארכיטקטורה המלאה.
בסעיפים הבאים, נעבור על השלבים ליישום הפתרון.
פרוס את כלי התיוג מראש
שכבו את המאגר למחשב המקומי שלכם:
מאגר זה נבנה על גבי ה-Comrehend Semi-Structured Documents Annotation Tool ומרחיב את הפונקציונליות שלו בכך שהוא מאפשר לך להתחיל עבודת תיוג SageMaker Ground Truth עם הערות מוקדמות שכבר מוצגות בממשק המשתמש של SageMaker Ground Truth.
כלי התיוג המקדים כולל גם את המשאבים של Comprehend Semi-Structured Documents Annotation Tool וגם כמה משאבים ספציפיים לכלי התיוג הקדם. אתה יכול לפרוס את הפתרון עם מודל יישום ללא שרת AWS (AWS SAM), מסגרת קוד פתוח שבה אתה יכול להשתמש כדי להגדיר קוד תשתית יישומים ללא שרת.
אם פרסתם בעבר את כלי הערת המסמכים המובנים למחצה, עיין בסעיף השאלות הנפוצות ב- Pre_labeling_tool/README.md
לקבלת הוראות כיצד לפרוס רק את המשאבים הספציפיים לכלי התיוג מראש.
אם לא פרסתם את הכלי בעבר ואתם מתחילים מחדש, בצעו את הפעולות הבאות כדי לפרוס את כל הפתרון.
שנה את הספרייה הנוכחית לתיקיית כלי ההערות:
בנה ופריסה את הפתרון:
צור את קובץ ה-pre-manifest
לפני שתוכל להשתמש בכלי התיוג מראש, עליך להכין את הנתונים שלך. התשומות העיקריות הן מסמכי PDF וקובץ טרום מניפסט. קובץ ה-pre-manifest מכיל את המיקום של כל מסמך PDF מתחתיו 'pdf'
והמיקום של קובץ JSON עם ישויות צפויות לתיוג תחתיו 'expected_entities'
.
המחברת gener_premanifest_file.ipynb מראה כיצד ליצור קובץ זה. בהדגמה, קובץ ה-pre-manifest מציג את הקוד הבא:
כל קובץ JSON רשום בקובץ ה-pre-manifest (תחת expected_entities
) מכיל רשימה של מילונים, אחד עבור כל ישות צפויה. למילונים יש את המפתחות הבאים:
- 'טקסטים_צפויים' – רשימה של מחרוזות טקסט אפשריות התואמות לישות.
- 'סוג_ישות' – סוג הישות המתאים.
- 'תעלם_רשימה' (אופציונלי) – רשימת המילים שיש להתעלם מהן במשחק. יש להשתמש בפרמטרים אלה כדי למנוע מהתאמה מטושטשת להתאים שילובים ספציפיים של מילים שאתה יודע שהן שגויות. זה יכול להיות שימושי אם ברצונך להתעלם ממספרים או כתובות דוא"ל מסוימות כאשר אתה מסתכל על שמות.
לדוגמה, expected_entities
של ה-PDF שהוצג בעבר נראה כך:
הפעל את כלי התיוג מראש
עם קובץ ה-pre-manifest שיצרת בשלב הקודם, התחל להפעיל את כלי התיוג הקדם. לפרטים נוספים, עיין במחברת start_step_functions.ipynb.
כדי להפעיל את כלי התיוג מראש, ספק event
עם המקשים הבאים:
- Premanifest - ממפה כל מסמך PDF אליו
expected_entities
קוֹבֶץ. זה צריך להכיל את שירות אחסון פשוט של אמזון (Amazon S3) דלי (מתחתbucket
) והמפתח (תחתkey
) של הקובץ. - קידומת – משמש ליצירת ה
execution_id
, אשר שמה לתיקיית S3 עבור אחסון פלט ואת שם עבודת התיוג של SageMaker Ground Truth. - סוגי_ישות - מוצג בממשק המשתמש כדי שמערים יכולים לתייג. אלה צריכים לכלול את כל סוגי הישויות בקבצי הישויות הצפויות.
- work_team_name (אופציונלי) - משמש ליצירת משימת התיוג של SageMaker Ground Truth. זה מתאים לכוח העבודה הפרטי לשימוש. אם הוא לא מסופק, רק קובץ מניפסט ייווצר במקום עבודת תיוג של SageMaker Ground Truth. אתה יכול להשתמש בקובץ המניפסט כדי ליצור משימת תיוג של SageMaker Ground Truth בהמשך. שימו לב שנכון לכתיבת שורות אלו, אינכם יכולים לספק כוח עבודה חיצוני בעת יצירת עבודת התיוג מהמחברת. עם זאת, אתה יכול לשכפל את העבודה שנוצרה ולהקצות אותה לכוח עבודה חיצוני בקונסולת SageMaker Ground Truth.
- comprehend_parameters (אופציונלי) - פרמטרים לאימון ישיר של מודל מזהה ישויות מותאם אישית של Amazon Comprehend. אם מושמט, שלב זה ידלג.
כדי להפעיל את מכונת המצב, הפעל את קוד Python הבא:
זה יתחיל ריצה של מכונת המדינה. אתה יכול לעקוב אחר התקדמות מכונת המצב במסוף Step Functions. התרשים הבא ממחיש את זרימת העבודה של מכונת המצב.
כאשר מכונת המצב הושלמה, בצע את הפעולות הבאות:
- בדוק את הפלטים הבאים השמורים ב-
prelabeling/
התיקיה שלcomprehend-semi-structured-docs
דלי S3:- קבצי הערות בודדים עבור כל עמוד של המסמכים (אחד בעמוד לכל מסמך) ב
temp_individual_manifests/
- מניפסט עבור עבודת התיוג של SageMaker Ground Truth ב
consolidated_manifest/consolidated_manifest.manifest
- מניפסט שניתן להשתמש בו כדי להכשיר מודל מותאם אישית של Amazon Comprehend
consolidated_manifest/consolidated_manifest_comprehend.manifest
- קבצי הערות בודדים עבור כל עמוד של המסמכים (אחד בעמוד לכל מסמך) ב
- בקונסולת SageMaker, פתח את עבודת התיוג של SageMaker Ground Truth שנוצרה כדי לסקור את ההערות
- בדוק ובדוק את הדגם המותאם אישית של Amazon Comprehend שעבר הכשרה
כאמור, הכלי יכול ליצור רק משרות תיוג של SageMaker Ground Truth עבור כוח אדם פרטי. כדי לבצע מיקור חוץ של מאמץ התיוג האנושי, אתה יכול לשכפל את עבודת התיוג בקונסולת SageMaker Ground Truth ולצרף כל כוח עבודה למשרה החדשה.
לנקות את
כדי להימנע מחיובים נוספים, מחק את המשאבים שיצרת ומחק את המחסנית שפרסת באמצעות הפקודה הבאה:
סיכום
כלי התיוג המקדים מספק דרך רבת עוצמה עבור חברות להשתמש בנתונים טבלאיים קיימים כדי להאיץ את תהליך הדרכה של מודלים מותאמים אישית לזיהוי ישויות באמזון Comprehend. על ידי הערה אוטומטית מראש של מסמכי PDF, זה מפחית באופן משמעותי את המאמץ הידני הנדרש בתהליך התיוג.
לכלי יש שתי גרסאות: התאמה מטושטשת ומבוססת Amazon Comprehend, מה שנותן גמישות כיצד ליצור את ההערות הראשוניות. לאחר שמסמכים מתויגים מראש, אתה יכול לסקור אותם במהירות בעבודת תיוג של SageMaker Ground Truth או אפילו לדלג על הסקירה ולהכשיר ישירות מודל מותאם אישית של Amazon Comprehend.
כלי התיוג המקדים מאפשר לך לפתוח במהירות את הערך של נתוני הישות ההיסטוריים שלך ולהשתמש בהם ביצירת מודלים מותאמים אישית המותאמים לתחום הספציפי שלך. על ידי זירוז מה שבדרך כלל הוא החלק הכי עתיר עבודה בתהליך, זה הופך את זיהוי הישויות המותאם אישית עם Amazon Comprehend לנגיש יותר מאי פעם.
למידע נוסף על אופן תיוג מסמכי PDF באמצעות עבודת תיוג של SageMaker Ground Truth, ראה הערת מסמך מותאמת אישית לחילוץ ישויות עם שם במסמכים באמצעות Amazon Comprehend ו השתמש ב-Amazon SageMaker Ground Truth כדי לתייג נתונים.
על המחברים
אוסקר שנאק הוא מדען יישומי במרכז החדשנות של AI Generative. הוא נלהב לצלול לתוך המדע שמאחורי למידת מכונה כדי להפוך אותה לנגישה ללקוחות. מחוץ לעבודה, אוסקר נהנה לרכוב על אופניים ולהתעדכן בטרנדים בתורת המידע.
רומיין בסומבס הוא אדריכל למידה עמוקה במרכז החדשנות של AI Generative. הוא נלהב מבניית ארכיטקטורות חדשניות כדי לטפל בבעיות העסקיות של לקוחות עם למידת מכונה.
- הפצת תוכן ויחסי ציבור מופעל על ידי SEO. קבל הגברה היום.
- PlatoData.Network Vertical Generative Ai. העצים את עצמך. גישה כאן.
- PlatoAiStream. Web3 Intelligence. הידע מוגבר. גישה כאן.
- PlatoESG. פחמן, קלינטק, אנרגיה, סביבה, שמש, ניהול פסולת. גישה כאן.
- PlatoHealth. מודיעין ביוטכנולוגיה וניסויים קליניים. גישה כאן.
- מקור: https://aws.amazon.com/blogs/machine-learning/automate-pdf-pre-labeling-for-amazon-comprehend/
- :יש ל
- :הוא
- :לֹא
- $ למעלה
- 100
- 11
- 150
- 152
- 19
- 400
- 500
- 600
- 7
- 804
- 9
- a
- אודות
- מֵעַל
- להאיץ
- נגיש
- מדויק
- נוסף
- כתובת
- כתובות
- לאחר
- AI
- אַלגוֹרִיתְם
- תעשיות
- מאפשר
- מאפשר
- כְּבָר
- גם
- אמזון בעברית
- אמזון להתבונן
- אמזון SageMaker
- האמת של אמזון SageMaker
- אמזון שירותי אינטרנט
- an
- ו
- כל
- ממשקי API
- לְהוֹפִיעַ
- בקשה
- יישומית
- ארכיטקטורה
- ARE
- סביב
- AS
- At
- לצרף
- אוטומטי
- באופן אוטומטי
- זמין
- לְהִמָנַע
- AWS
- בנק
- BE
- היה
- לפני
- מאחור
- בֵּין
- שניהם
- תיבות
- בִּניָן
- נבנה
- עסקים
- אבל
- by
- מחשב
- CAN
- מרכז
- חיובים
- קוד
- COM
- שילובים
- חברות
- השוואה
- להשלים
- לִהַבִין
- מורכב
- קונסול
- לבנות
- להכיל
- מכיל
- תוֹאֵם
- מתכתב
- לִיצוֹר
- נוצר
- יוצר
- יוצרים
- נוֹכְחִי
- מנהג
- לקוחות
- נתונים
- תַאֲרִיך
- ירידות
- עמוק
- למידה עמוקה
- לְהַגדִיר
- הדגמה
- לפרוס
- פרס
- לגזור
- פרטים
- אחר
- ישירות
- לדון
- מוצג
- צלילה
- do
- מסמך
- מסמכים
- איילה
- תחום
- עשה
- לצייר
- כל אחד
- מאמץ
- אמייל
- מאפשר
- מה שמאפשר
- ישויות
- ישות
- ה-ERP
- אֲפִילוּ
- אי פעם
- דוגמה
- דוגמאות
- קיימים
- צפוי
- משתרע
- חיצוני
- תמצית
- שאלות נפוצות
- שלח
- קבצים
- ראשון
- גמישות
- הבא
- בעד
- פוּרמָט
- מסגרת
- טרי
- החל מ-
- מלא
- פונקציות
- פונקציות
- ליצור
- מייצר
- גנרטטיבית
- AI Generative
- נתינה
- קרקע
- יש
- he
- היסטורי
- איך
- איך
- אולם
- HTML
- http
- HTTPS
- בן אנוש
- זהה
- if
- להתעלם
- מדגים
- ליישם
- in
- לכלול
- כולל
- מידע
- תשתית
- בתחילה
- חדשנות
- חדשני
- קלט
- תשומות
- תובנות
- במקום
- הוראות
- אינטרס
- אל תוך
- IT
- שֶׁלָה
- ג'יין
- עבודה
- מקומות תעסוקה
- jpg
- ג'סון
- שמירה
- מפתח
- מפתחות
- לדעת
- תווית
- תיוג
- מאוחר יותר
- למידה
- כמו
- רשימה
- ברשימה
- מקומי
- מיקום
- הסתכלות
- נראה
- מכונה
- למידת מכונה
- ראשי
- לעשות
- עושה
- מדריך ל
- עבודה ידנית
- באופן ידני
- מפות
- להתאים
- גפרורים
- תואם
- מוּזְכָּר
- מודל
- מודלים
- צג
- יותר
- רוב
- מספר
- שם
- שם
- שמות
- בהכרח
- צורך
- נחוץ
- חדש
- NLP
- לא
- הערות
- מחברה
- מספרים
- of
- on
- ONE
- רק
- לפתוח
- קוד פתוח
- or
- מתוזמר
- תפוקה
- פלטים
- בחוץ
- למיקור חוץ
- סקירה
- עמוד
- זוגות
- פרמטרים
- חלק
- לוהט
- עבור
- אדם
- אפלטון
- מודיעין אפלטון
- אפלטון נתונים
- אפשרי
- הודעה
- חזק
- להכין
- העריכה
- למנוע
- קודם
- קוֹדֶם
- פְּרָטִי
- בעיות
- תהליך
- תהליך
- התקדמות
- לספק
- ובלבד
- מספק
- ציבורי
- פיתון
- מהירות
- הכרה
- להפחית
- מפחית
- להתייחס
- חוזר על עצמו
- מאגר
- נדרש
- דורש
- משאבים
- סקירה
- הפעלה
- ריצה
- בעל חכמים
- סם
- מוהל
- הציל
- מדע
- מַדְעָן
- שְׁנִיָה
- סעיף
- סעיפים
- לִרְאוֹת
- ללא שרת
- שרות
- שירותים
- הצבה
- צריך
- לְהַצִיג
- הראה
- הופעות
- באופן משמעותי
- דומה
- פָּשׁוּט
- פִּתָרוֹן
- כמה
- מָקוֹר
- ספציפי
- לערום
- התחלה
- החל
- מדינה
- הצהרות
- שלב
- צעדים
- אחסון
- קפדן
- מחרוזת
- כזה
- מערכות
- מותאם
- לוקח
- טכניקה
- טכניקות
- תבנית
- מבחן
- טֶקסט
- טקסטואלית
- מֵאֲשֶׁר
- זֶה
- השמיים
- המדינה
- שֶׁלָהֶם
- אותם
- אז
- התאוריה
- שם.
- לכן
- אלה
- דברים
- זֶה
- סף
- דרך
- דורש זמן רב
- ל
- כלי
- חלק עליון
- רכבת
- הדרכה
- מגמות
- אמת
- שתיים
- סוג
- סוגים
- בדרך כלל
- ui
- תחת
- ייחודי
- לפתוח
- להשתמש
- מְשׁוּמָשׁ
- שימושים
- באמצעות
- ערך
- גירסאות
- ללכת
- רוצה
- היה
- דֶרֶך..
- we
- אינטרנט
- שירותי אינטרנט
- טוֹב
- מה
- מה
- מתי
- אשר
- כל
- ויקיפדיה
- יצטרך
- עם
- לְלֹא
- מילים
- תיק עבודות
- זרימת עבודה
- כוח עבודה
- כתיבה
- טעות
- אתה
- זפירנט
- רוכסן