טקסטורה באמזון הוא שירות למידת מכונה (ML) המחלץ אוטומטית טקסט, כתב יד ונתונים מכל מסמך או תמונה. Amazon Textract מציעה כעת את הגמישות לציין את הנתונים שאתה צריך לחלץ ממסמכים באמצעות תכונת השאילתות החדשה ב-Analyze Document API. אינך צריך לדעת את מבנה הנתונים במסמך (טבלה, טופס, שדה מרומז, נתונים מקוננים) או לדאוג לגבי וריאציות בין גרסאות ופורמטים של מסמכים.
בפוסט זה נדון בנושאים הבאים:
- סיפורי הצלחה מלקוחות AWS והיתרונות של תכונת השאילתות החדשה
- כיצד ה-API של Analyze Document Queries עוזר לחלץ מידע ממסמכים
- הדרכה על קונסולת Amazon Textract
- דוגמאות קוד לשימוש ב-Analyze Document Queries API
- כיצד לעבד את התגובה עם ספריית הנתח של Amazon Textract
היתרונות של תכונת השאילתות החדשה
פתרונות OCR מסורתיים מתקשים לחלץ נתונים בצורה מדויקת מרוב המסמכים המובנים למחצה והלא מובנים בגלל שינויים משמעותיים באופן שבו הנתונים מונחים על פני מספר גרסאות ופורמטים של מסמכים אלה. עליך ליישם קוד עיבוד מותאם אישית או לסקור באופן ידני את המידע שחולץ ממסמכים אלה. באמצעות תכונת השאילתות, תוכל לציין את המידע הדרוש לך בצורה של שאלות בשפה טבעית (לדוגמה, "מהו שם הלקוח") ולקבל את המידע המדויק ("ג'ון דו") כחלק מתגובת ה-API. התכונה משתמשת בשילוב של מודלים חזותיים, מרחביים ושפה כדי לחלץ את המידע שאתה מחפש בדיוק גבוה. תכונת השאילתות מאומנת מראש על מגוון גדול של מסמכים מובנים למחצה ולא מובנים. כמה דוגמאות כוללות תלושי משכורת, דפי בנק, W-2, טפסי בקשה להלוואה, שטרות משכנתא וכרטיסי חיסון וביטוח.
"Amazon Textract מאפשרת לנו להפוך את צרכי עיבוד המסמכים לאוטומטיים של הלקוחות שלנו. עם תכונת השאילתות, נוכל לחלץ נתונים ממגוון מסמכים עם גמישות ודיוק גדולים עוד יותר," אמר רוברט יאנסן, מנכ"ל ב-TekStream Solutions. 'אנו רואים בכך ניצחון גדול בפרודוקטיביות עבור הלקוחות העסקיים שלנו, שיוכלו להשתמש ביכולת ה-Queries כחלק מפתרון ה-IDP שלנו כדי להוציא במהירות מידע מפתח מהמסמכים שלהם."
"Amazon Textract מאפשרת לנו לחלץ טקסט כמו גם אלמנטים מובנים כמו טפסים וטבלאות מתמונות עם דיוק גבוה. Amazon Textract Queries סייעה לנו לשפר באופן דרסטי את איכות חילוץ המידע מכמה מסמכים קריטיים לעסקים כגון דפי בטיחות או מפרטי חומרים" אמר תורסטן וורנקה, מנהל | ראש מחלקת PC Analytics, יועצי ניהול קמלוט. 'מערכת השאילתות בשפה הטבעית מציעה גמישות ודיוק גדולים, מה שהפחית את העומס שלאחר העיבוד שלנו ואיפשר לנו להוסיף מסמכים חדשים לכלי חילוץ הנתונים שלנו מהר יותר."
כיצד ה-API של Analyze Document Queries עוזר לחלץ מידע ממסמכים
חברות הגדילו את האימוץ של פלטפורמות דיגיטליות, במיוחד לאור מגיפת COVID-19. רוב הארגונים מציעים כיום דרך דיגיטלית לרכוש את השירותים והמוצרים שלהם באמצעות סמארטפונים ומכשירים ניידים אחרים, אשר מציעה גמישות למשתמשים אך גם מוסיפה לקנה המידה שבו יש לסקור, לעבד ולנתח מסמכים דיגיטליים. בעומסי עבודה מסוימים שבהם, למשל, מסמכי משכנתא, כרטיסי חיסון, תלושי משכורת, כרטיסי ביטוח ומסמכים אחרים חייבים לעבור ניתוח דיגיטלי, המורכבות של חילוץ הנתונים עלולה להחמיר באופן אקספוננציאלי מכיוון שמסמכים אלה חסרים פורמט סטנדרטי או שיש להם שינויים משמעותיים בפורמט הנתונים. על פני גרסאות שונות של המסמך.
אפילו פתרונות OCR רבי עוצמה מתקשים לחלץ נתונים בצורה מדויקת ממסמכים אלה, וייתכן שתצטרך ליישם עיבוד מותאם אישית עבור מסמכים אלה. זה כולל מיפוי וריאציות אפשריות של מפתחות טופס לשמות שדות מקוריים של הלקוח או הכללת למידת מכונה מותאמת אישית כדי לזהות מידע ספציפי במסמך לא מובנה.
ה-API החדש של Analyze Document Queries ב-Amazon Textract יכול להתמודד עם שאלות כתובות בשפה טבעית כמו "מהי שיעור הריבית?" ולבצע ניתוח AI ו-ML רב עוצמה על המסמך כדי להבין את המידע הרצוי ולחלץ אותו מהמסמך ללא כל עיבוד אחר. התכונה 'שאילתות' אינה דורשת הדרכה במודל מותאם אישית או הגדרה של תבניות או תצורות. אתה יכול להתחיל במהירות על ידי העלאת המסמכים שלך וציון שאלות על מסמכים אלה דרך קונסולת Amazon Textract, ממשק שורת הפקודה של AWS (AWS CLI), או AWS SDK.
בסעיפים הבאים של פוסט זה, אנו עוברים על דוגמאות מפורטות כיצד להשתמש בפונקציונליות החדשה הזו במקרים של שימוש בעומס עבודה נפוצים וכיצד להשתמש ב-Analyze Document Queries API כדי להוסיף זריזות לתהליך הדיגיטלי של עומס העבודה שלך.
השתמש בתכונת השאילתות בקונסולת Amazon Textract
לפני שנתחיל עם ה-API ודוגמאות הקוד, בואו נסקור את קונסולת Amazon Textract. התמונה הבאה מציגה דוגמה לכרטיס חיסון על שאילתות לשונית עבור ה-API של Analyze Document בקונסולת Amazon Textract. לאחר העלאת המסמך לקונסולת Amazon Textract, בחר שאילתות ב הגדר את המסמך סָעִיף. לאחר מכן תוכל להוסיף שאילתות בצורה של שאלות בשפה טבעית. לאחר שתוסיף את כל השאילתות שלך, בחר החל תצורה. התשובות לשאלות נמצאות ב- שאילתות TAB.
דוגמאות קוד
בסעיף זה, אנו מסבירים כיצד להפעיל את ה-API של Analyze Document עם הפרמטר Queries כדי לקבל תשובות לשאלות בשפה טבעית על המסמך. מסמך הקלט הוא בפורמט מערך בתים או ממוקם ב- שירות אחסון פשוט של אמזון דלי (Amazon S3). אתה מעביר בתים של תמונה לפעולת Amazon Textract API באמצעות המאפיין Bytes. לדוגמה, אתה יכול להשתמש ב- Bytes
מאפיין להעביר מסמך שנטען ממערכת קבצים מקומית. בתים של תמונה שעברו באמצעות ה Bytes
המאפיין חייב להיות מקודד base64. ייתכן שהקוד שלך לא יצטרך לקודד בתים של קובץ מסמכים אם אתה משתמש ב-AWS SDK כדי לקרוא לפעולות Amazon Textract API. לחלופין, אתה יכול להעביר תמונות המאוחסנות בדלי S3 לפעולת ה-API של Amazon Textract באמצעות S3Object
תכונה. מסמכים המאוחסנים בדלי S3 אינם צריכים להיות מקודדים base64.
אתה יכול להשתמש בתכונת השאילתות כדי לקבל תשובות מסוגים שונים של מסמכים כמו תלושי משכורת, כרטיסי חיסון, מסמכי משכנתא, דפי בנק, טפסי W-2, טפסי 1099 ואחרים. בסעיפים הבאים, אנו עוברים על חלק מהמסמכים הללו ומראים כיצד פועלת תכונת השאילתות.
תלוש משכורת
בדוגמה זו, אנו עוברים על השלבים לניתוח תלוש תשלום באמצעות תכונת השאילתות, כפי שמוצג בתמונה הבאה לדוגמה.
אנו משתמשים בקוד Python לדוגמה הבא:
הקוד הבא הוא פקודת AWS CLI לדוגמה:
בואו ננתח את התגובה שנקבל עבור שתי השאילתות שהעברנו ל-Analyze Document API בדוגמה הקודמת. התגובה הבאה נחתכה כדי להציג רק את החלקים הרלוונטיים:
בתגובה יש א BlockType
of QUERY
שמראה את השאלה שנשאלה וא Relationships
קטע שיש לו את המזהה של הבלוק שיש לו את התשובה. התשובה נמצאת ב- BlockType
of QUERY_RESULT
. הכינוי שמועבר כקלט ל-Analyze Document API מוחזר כחלק מהתגובה וניתן להשתמש בו כדי לתייג את התשובה.
אנו משתמשים מנתח תגובה של Amazon Textract לחלץ רק את השאלות, את הכינוי ואת התשובות המתאימות לשאלות הללו:
הקוד הקודם מחזיר את התוצאות הבאות:
שאלות נוספות ואת הקוד המלא ניתן למצוא במחברת ב- GitHub ריפו.
שטר משכנתא
ממשק ה-API של Analyze Document Queries עובד היטב גם עם שטרות משכנתא כמו הבאים.
התהליך לקריאה ל-API ותוצאות התהליך זהה לדוגמא הקודמת. אתה יכול למצוא את דוגמא הקוד המלאה ב- GitHub ריפו.
הקוד הבא מציג את התגובות לדוגמה שהתקבלו באמצעות ה-API:
כרטיס חיסון
תכונת Amazon Textract Queries עובדת היטב גם כדי לחלץ מידע מכרטיסי חיסון או כרטיסים הדומים לו, כמו בדוגמה הבאה.
התהליך להתקשר ל-API ולנתח את התוצאות זהה לתהליך המשמש עבור תלוש תשלום. לאחר שנעבד את התגובה, נקבל את המידע הבא:
את הקוד המלא ניתן למצוא במחברת ב- GitHub ריפו.
כרטיס ביטוח
תכונת השאילתות עובדת היטב גם עם כרטיסי ביטוח כמו הבאים.
התהליך לקריאה ל-API ולתוצאות התהליך זהה לזה שהוצג קודם לכן. דוגמא הקוד המלאה זמינה במחברת ב- GitHub ריפו.
להלן התגובות לדוגמה שהתקבלו באמצעות ה-API:
שיטות עבודה מומלצות ליצירת שאילתות
בעת יצירת השאילתות שלך, שקול את השיטות המומלצות הבאות:
- באופן כללי, שאל שאלה בשפה טבעית שמתחילה ב"מה יש", "איפה נמצא" או "מי נמצא". היוצא מן הכלל הוא כאשר אתה מנסה לחלץ צמדי מפתח-ערך סטנדרטיים, ובמקרה זה תוכל להעביר את שם המפתח כשאילתה.
- הימנע משאלות לא מנוסחות או שגויות מבחינה דקדוקית, מכיוון שאלו עלולות לגרום לתשובות בלתי צפויות. לדוגמה, שאילתה שגויה היא "מתי?" ואילו שאילתה מעוצבת היטב היא "מתי ניתנה מנת החיסון הראשונה?"
- במידת האפשר, השתמש במילים מהמסמך כדי לבנות את השאילתה. למרות שתכונת השאילתות מנסה לבצע התאמת ראשי תיבות ומילים נרדפות עבור כמה מונחים נפוצים בתעשייה כגון "SSN", "מזהה מס" ו"מספר תעודת זהות", שימוש בשפה ישירות מהמסמך משפר את התוצאות. לדוגמה, אם המסמך אומר "התקדמות עבודה", נסה להימנע משימוש בגרסאות כמו "התקדמות הפרויקט", "התקדמות התוכנית" או "סטטוס עבודה".
- בנו שאילתה המכילה מילים הן מכותרת השורה והן מכותרת העמודה. לדוגמה, בדוגמה של כרטיס החיסון הקודם, כדי לדעת את תאריך החיסון השני, תוכל למסגר את השאילתה כ"איזה תאריך ניתנה המנה השנייה?"
- תשובות ארוכות מגדילות את זמן האחזור של התגובה ועלולות להוביל לפסקי זמן. נסו לשאול שאלות המגיבות בתשובות של פחות מ-100 מילים.
- העברת רק את שם המפתח כשהשאלה פועלת כאשר מנסים לחלץ צמדי מפתח-ערך סטנדרטיים מטופס. אנו ממליצים לנסח שאלות מלאות עבור כל מקרי השימוש האחרים בחילוץ.
- תהיה כמה שיותר ספציפי. לדוגמה:
- כאשר המסמך מכיל חלקים מרובים (כגון "לווה" ו"לווה משותף") ובשני החלקים יש שדה בשם "SSN", שאל "מהו ה-SSN ללווה?" ו"מהו ה-SSN עבור שותף לווה?"
- כאשר למסמך יש שדות מרובים הקשורים לתאריך, היו ספציפיים בשפת השאילתה ושאלו "מהו התאריך שבו המסמך נחתם?" או "מהו תאריך הלידה של הבקשה?" הימנע מלשאול שאלות לא ברורות כמו "מה התאריך?"
- אם אתה יודע את פריסת המסמך מראש, תן רמזים למיקום כדי לשפר את דיוק התוצאות. לדוגמה, שאל "מהו התאריך למעלה?" או "מה התאריך משמאל?" או "מה התאריך בתחתית?"
למידע נוסף על תכונת השאילתות, עיין ב-Textrakt תיעוד.
סיכום
בפוסט זה, סיפקנו סקירה כללית של תכונת השאילתות החדשה של Amazon Textract כדי לאחזר במהירות ובקלות מידע ממסמכים כגון תלושי משכורת, שטרות משכנתא, כרטיסי ביטוח וכרטיסי חיסון המבוססים על שאלות בשפה טבעית. תיארנו גם כיצד ניתן לנתח את התגובה JSON.
לקבלת מידע נוסף, ראה ניתוח מסמכים , או בדוק את קונסולת Amazon Textract ונסה את התכונה הזו.
על הכותבים
אודאי נאריאנן הוא Sr. Solutions Architect ב-AWS. הוא נהנה לעזור ללקוחות למצוא פתרונות חדשניים לאתגרים עסקיים מורכבים. תחומי הליבה שלו הם ניתוח נתונים, מערכות ביג דאטה ולמידת מכונה. בזמנו הפנוי הוא נהנה לשחק ספורט, לצפות בתוכניות טלוויזיה ולטייל.
רפאל קאיקסטה הוא Sr. Solutions Architect ב-AWS המבוסס בקליפורניה. יש לו למעלה מ-10 שנות ניסיון בפיתוח ארכיטקטורות לענן. תחומי הליבה שלו הם ללא שרתים, קונטיינרים ולמידת מכונה. בזמנו הפנוי הוא נהנה לקרוא ספרים בדיוניים ולטייל בעולם.
נבנת נאיר הוא מנהל מוצר בכיר, טכני בצוות Amazon Textract. הוא מתמקד בבניית שירותים מבוססי למידת מכונה עבור לקוחות AWS.
מרטין שייד הוא בכיר ML Product SA עם צוות Amazon Textract. יש לו למעלה מ-20 שנות ניסיון עם טכנולוגיות הקשורות לאינטרנט, הנדסה ופתרונות ארכיטקטורה. הוא הצטרף ל-AWS ב-2014, תחילה הדריך כמה מלקוחות ה-AWS הגדולים ביותר לשימוש היעיל והניתן להרחבה בשירותי AWS, ולאחר מכן התמקד ב-AI/ML עם התמקדות בראייה ממוחשבת. נכון לעכשיו, הוא אובססיבי לחילוץ מידע ממסמכים.
- Coinsmart. בורסת הביטקוין והקריפטו הטובה באירופה.
- Platoblockchain. Web3 Metaverse Intelligence. ידע מוגבר. גישה חופשית.
- CryptoHawk. רדאר אלטקוין. ניסיון חינם.
- מקור: https://aws.amazon.com/blogs/machine-learning/specify-and-extract-information-from-documents-using-the-new-queries-feature-in-amazon-textract/
- "
- 000
- 10
- 100
- שנים 20
- 2022
- אודות
- לרכוש
- לרוחב
- מנוהל
- אימוץ
- AI
- תעשיות
- למרות
- אמזון בעברית
- כמות
- אנליזה
- ניתוח
- API
- בקשה
- אַפּרִיל
- אוטומטי
- זמין
- AWS
- בנק
- להיות
- התחלה
- הטבות
- הטוב ביותר
- שיטות עבודה מומלצות
- נתונים גדולים
- לחסום
- ספרים
- גבול
- בִּניָן
- עסקים
- קליפורניה
- שיחה
- כרטיסים
- מקרים
- האתגרים
- רֹאשׁ
- מנכ"ל
- לבחור
- עִיר
- ענן
- קוד
- טור
- שילוב
- Common
- מורכב
- אמון
- קונסול
- מכולות
- מכיל
- ליבה
- יכול
- תקופת הקורונה
- מגיפת COVID-19
- נוֹכְחִי
- כיום
- מנהג
- לקוח
- לקוחות
- נתונים
- ניתוח נתונים
- מְתוּאָר
- מתפתח
- התקנים
- אחר
- דיגיטלי
- באופן דיגיטלי
- ישירות
- לדון
- מסמכים
- לא
- בקלות
- אפקטיבי
- יעיל
- אלמנטים
- הנדסה
- במיוחד
- דוגמה
- מנהלים
- ניסיון
- אקספוננציאלית
- תמציות
- מאפיין
- פיקציה
- שדות
- תרשים
- ראשון
- גמישות
- להתמקד
- מרוכז
- הבא
- טופס
- פוּרמָט
- צורות
- מצא
- מסגרת
- מלא
- פונקציונלי
- כללי
- GitHub
- גדול
- יותר
- ראש
- עזרה
- עוזר
- גָבוֹהַ
- איך
- איך
- HTTPS
- לזהות
- תמונה
- ליישם
- מְרוּמָז
- לשפר
- לכלול
- כולל
- כולל
- להגדיל
- גדל
- תעשייה
- מידע
- חדשני
- קלט
- ביטוח
- אינטרס
- IT
- הצטרף
- מפתח
- מפתחות
- שפה
- גָדוֹל
- הגדול ביותר
- עוֹפֶרֶת
- למידה
- רמה
- אוֹר
- קו
- רשימה
- לִטעוֹן
- מקומי
- מיקום
- מכונה
- למידת מכונה
- גדול
- ניהול
- מנהל
- באופן ידני
- יַצרָן
- מיפוי
- צעדה
- תואם
- חוֹמֶר
- בגרות
- רפואי
- חבר
- ML
- סלולרי
- מכשירים ניידים
- מודל
- מודלים
- יותר
- רוב
- מספר
- שמות
- טבעי
- מחברה
- הערות
- מספר
- מושג
- הַצָעָה
- המיוחדות שלנו
- קָצִין
- מבצע
- תפעול
- להזמין
- ארגונים
- אחר
- מגיפה
- תשלום
- תשלום
- תשלומים
- PC
- פלטפורמות
- אפשרי
- חזק
- מנהל
- תהליך
- תהליך
- המוצר
- פִּריוֹן
- מוצרים
- רכוש
- איכות
- שאלה
- מהירות
- קריאה
- לקבל
- להמליץ
- מערכות יחסים
- רלוונטי
- לדרוש
- תגובה
- תוצאות
- החזרות
- סקירה
- רוברט
- בְּטִיחוּת
- להרחבה
- סולם
- Sdk
- אבטחה
- ללא שרת
- שרות
- שירותים
- הצבה
- משמעותי
- כסף
- פָּשׁוּט
- אתר
- טלפונים חכמים
- פִּתָרוֹן
- פתרונות
- כמה
- מומחה
- ספורט
- תֶקֶן
- החל
- התחלות
- מדינה
- הצהרות
- מצב
- אחסון
- סיפורים
- מובנה
- מערכת
- מערכות
- נבחרת
- טכני
- טכנולוגיות
- העולם
- דרך
- זמן
- כלים
- חלק עליון
- נושאים
- הדרכה
- נסיעה
- tv
- us
- להשתמש
- משתמשים
- לנצל
- ניצול
- תרכיב
- מגוון
- חזון
- מה
- מה
- מי
- לנצח
- בתוך
- לְלֹא
- מילים
- עובד
- עוֹלָם
- X
- שנה
- שנים