צורות ארגוניות משמשות ככלי עסקי עיקרי בין תעשיות - משירותים פיננסיים, לשירותי בריאות ועוד. חשבו, למשל, על טפסי הגשת מס בענף ניהול המס, שם יוצאים בכל שנה טפסים חדשים עם אותו מידע במידה רבה. לקוחות AWS על פני מגזרים צריכים לעבד ולאחסן מידע בצורות כחלק מהפרקטיקה העסקית היומיומית שלהם. טפסים אלה משמשים לעתים קרובות כאמצעי עיקרי לזרימת מידע לתוך ארגון שבו אמצעים טכנולוגיים ללכידת נתונים אינם מעשיים.
בנוסף לשימוש בטפסים ללכידת מידע, לאורך שנות ההצעה טקסטורה באמזון, ראינו שלקוחות AWS מתרגמים לעתים קרובות את הטפסים הארגוניים שלהם על סמך שינויים מבניים שבוצעו, שדות שנוספו או השתנו, או שיקולים אחרים כגון שינוי שנה או גרסה של הטופס.
כאשר המבנה או התוכן של טופס משתנה, לעתים קרובות הדבר עלול לגרום לאתגרים עבור מערכות OCR מסורתיות או להשפיע על כלים במורד הזרם המשמשים ללכידת מידע, גם כאשר אתה צריך ללכוד את אותו מידע משנה לשנה ולצבור את הנתונים לשימוש ללא קשר לפורמט של המסמך.
כדי לפתור בעיה זו, בפוסט זה אנו מדגימים כיצד ניתן לבנות ולפרוס צינור ניתוח מסמכים מונע אירועים, ללא שרתים, בפורמטים רבים עם Amazon Textract.
סקירת פתרונות
התרשים הבא ממחיש את ארכיטקטורת הפתרונות שלנו:
ראשית, הפתרון מציע שימוש בצינור בליעת שירות אחסון פשוט של אמזון (Amazon S3), אמזון S3 הודעות אירוע, וכן שירות תורים פשוט של אמזון (Amazon SQS) תור כך שהעיבוד מתחיל כאשר טופס נוחת במחיצת היעד של Amazon S3. אירוע על אמזון EventBridge נוצר ונשלח ל- an AWS למבדה מטרה שמפעילה עבודה של Amazon Textract.
אתה יכול להשתמש בשירותי AWS ללא שרת כגון Lambda ו פונקציות שלב AWS ליצור אינטגרציות שירות אסינכרוניות בין שירותי AWS AI ושירותי AWS Analytics ו-Database לאחסון, ניתוח ו-AI ולמידת מכונה (ML). בפוסט זה, אנו מדגימים כיצד להשתמש ב-Step Functions כדי לשלוט ולתחזק באופן אסינכרוני את מצב הבקשות לממשקי API אסינכרוניים של Amazon Textract. זה מושג על ידי שימוש במכונת מצב לניהול שיחות ותגובות. אנו משתמשים ב- Lambda בתוך מכונת המצב כדי למזג את נתוני תגובת ה-API המעומדים מ-Amazon Textract לאובייקט JSON יחיד המכיל נתוני טקסט מובנים למחצה שחולצו באמצעות OCR.
לאחר מכן אנו מסננים על פני טפסים שונים תוך שימוש בגישה סטנדרטית כדי לצבור נתוני OCR אלה לפורמט מובנה נפוץ באמצעות אמזונה אתנה ו-SQL Amazon Textract JSON SerDe.
אתה יכול לעקוב אחר השלבים שננקטו דרך צינור זה באמצעות פונקציות צעד ללא שרת כדי לעקוב אחר מצב העיבוד ולשמור על הפלט של כל מצב. זה משהו שלקוחות בתעשיות מסוימות מעדיפים לעשות כאשר עובדים עם נתונים שבהם אתה חייב לשמור את התוצאות של כל התחזיות משירותים כגון Amazon Textract כדי לקדם את יכולת ההסבר של תוצאות הצינור שלך בטווח הארוך.
לבסוף, אתה יכול לשאול את הנתונים שחולצו בטבלאות Athena.
בסעיפים הבאים, אנו מדריכים אותך דרך הגדרת הצינור באמצעות AWS CloudFormation, בדיקת הצינור והוספת גרסאות טופס חדשות. צינור זה מספק פתרון שניתן לתחזוקה מכיוון שכל רכיב (בליעה, חילוץ טקסט, עיבוד טקסט) הוא עצמאי ומבודד.
הגדר פרמטרי קלט ברירת מחדל עבור ערימות CloudFormation
כדי להגדיר את פרמטרי הקלט עבור ערימות CloudFormation, פתח default.properties
תחת params
תיקייה והזן את הקוד הבא:
פרוס את הפתרון
כדי לפרוס את הצינור שלך, בצע את השלבים הבאים:
- לבחור השקת ערימה:
- לבחור הַבָּא.
- ציין את פרטי הערימה כפי שמוצג בצילום המסך הבא ובחר הַבָּא.
- ב הגדר אפשרויות ערימה בקטע, הוסף תגים אופציונליים, הרשאות והגדרות מתקדמות אחרות.
- לבחור הַבָּא.
- עיין בפרטי הערימה ובחר אני מאשר ש- AWS CloudFormation עשוי ליצור משאבי IAM עם שמות מותאמים אישית.
- לבחור צור ערימה.
זה יוזם פריסת מחסנית בחשבון AWS שלך.
לאחר פריסת המחסנית בהצלחה, תוכל להתחיל לבדוק את הצינור כמתואר בסעיף הבא.
בדוק את הצינור
לאחר פריסה מוצלחת, השלם את השלבים הבאים כדי לבדוק את הצינור שלך:
- הורד קבצי דוגמה למחשב שלך.
- צור
/uploads
תיקיה (מחיצה) תחת דלי הקלט S3 החדש שנוצר.
- צור את התיקיות הנפרדות (מחיצות) כמו
jobapplications
תחת/uploads
.
- העלה את הגרסה הראשונה של בקשת העבודה מתיקיית המסמכים לדוגמה ל-
/uploads/jobapplications
חֲלוּקָה.
כאשר הצינור הושלם, תוכל למצוא את ערך המפתח שחולץ עבור גרסה זו של המסמך ב /OuputS3/03-textract-parsed-output/jobapplications
בקונסולת S3 של אמזון.
אתה יכול למצוא אותו גם בטבלת אתנה (applications_data_table
) ב- מסד נתונים תפריט (jobapplicationsdatabase
).
כאשר הצינור הושלם, תוכל למצוא את ערך המפתח שחולץ עבור גרסה זו ב /OuputS3/03-textract-parsed-output/jobapplications
בקונסולת S3 של אמזון.
אתה יכול למצוא אותו גם בטבלת אתנה (applications_data_table
) ב- מסד נתונים תפריט (jobapplicationsdatabase
).
אתה סיימת! פרסת בהצלחה את הצינור שלך.
הוסף גרסאות טופס חדשות
עדכון הפתרון עבור גרסת טופס חדשה הוא פשוט - כל גרסת טופס צריכה להתעדכן רק על ידי בדיקת השאילתות בערימת העיבוד.
לאחר שתבצע את העדכונים, תוכל לפרוס מחדש את הצינור המעודכן באמצעות ממשקי API של AWS CloudFormation ולעבד מסמכים חדשים, להגיע לאותן נקודות נתונים סטנדרטיות עבור הסכימה שלך במינימום הפרעות ומאמץ פיתוח הנדרש כדי לבצע שינויים בצינור שלך. גמישות זו, המושגת על ידי ניתוק התנהגות הניתוח והחילוץ ושימוש בפונקציונליות JSON SerDe ב- Athena, הופכת את הצינור הזה לפתרון בר תחזוקה עבור כל מספר גרסאות טופס שהארגון שלך צריך לעבד כדי לאסוף מידע.
בזמן שאתה מפעיל את פתרון הטמעה, נתונים מטפסים נכנסים מאוכלסים אוטומטית לאטהנה עם מידע על הקבצים והקלטים המשויכים אליהם. כאשר הנתונים בטפסים שלך עוברים מנתונים לא מובנים לנתונים מובנים, הם מוכנים לשימוש עבור יישומים במורד הזרם כגון ניתוח, מודלים של ML ועוד.
לנקות את
כדי להימנע מחיובים מתמשכים, מחק את המשאבים שיצרת כחלק מפתרון זה כשתסיים.
- בקונסולת Amazon S3, מחק ידנית את הדליים שיצרת כחלק מחסנית CloudFormation.
- במסוף CloudFormation של AWS, בחר ערימות בחלונית הניווט.
- בחר את המחסנית הראשית ובחר מחק.
פעולה זו מוחקת אוטומטית את הערימות המקוננות.
סיכום
בפוסט זה, הדגמנו כיצד לקוחות המבקשים להתחקות אחר ולהתאים אישית את עיבוד המסמכים יכולים לבנות ולפרוס צינור ניתוח מסמכים מרובת פורמטים מונע אירועים, ללא שרתים, עם Amazon Textract. צנרת זו מספקת פתרון בר תחזוקה מכיוון שכל רכיב (בליעה, חילוץ טקסט, עיבוד טקסט) עצמאי ומבודד, מה שמאפשר לארגונים להפעיל את הפתרונות שלהם כדי לתת מענה לצרכי עיבוד מגוונים.
נסה את הפתרון עוד היום והשאיר את המשוב שלך בקטע ההערות.
על הכותבים
אמילי סוורד הוא מדען נתונים עם שירותים מקצועיים של AWS. היא בעלת תואר שני במדעים בהצטיינות בבינה מלאכותית מאוניברסיטת אדינבורו בסקוטלנד, בריטניה עם דגש על עיבוד שפה טבעית (NLP). אמילי שימשה בתפקידים מדעיים והנדסיים יישומיים המתמקדים במחקר ופיתוח מוצרים המאפשרים בינה מלאכותית, מצוינות תפעולית וממשל עבור עומסי עבודה של בינה מלאכותית הפועלים בארגונים במגזר הציבורי והפרטי. היא תורמת להדרכת לקוחות כדוברת בכירה של AWS ולאחרונה, ככותבת עבור AWS Well-Architected in the Machine Learning Lens.
סנדאפ סינג הוא מדען נתונים עם שירותים מקצועיים של AWS. הוא בעל תואר שני במדעים במערכות מידע עם ריכוז בבינה מלאכותית ומדעי נתונים מאוניברסיטת סן דייגו סטייט (SDSU), קליפורניה. הוא מדען נתונים מלא עם רקע חזק במדעי המחשב ויועץ מהימן עם התמחות בתכנון מערכות בינה מלאכותית ובקרה. הוא נלהב לעזור ללקוחות להביא את הפרויקטים בעלי ההשפעה הגבוהה שלהם בכיוון הנכון, לייעץ ולהנחות אותם במסע הענן שלהם, ולבנות פתרונות מתקדמים ב-AI/ML.
- "
- 100
- אודות
- חֶשְׁבּוֹן
- הושג
- לרוחב
- כתובת
- מתקדם
- AI
- שירותי AI
- תעשיות
- מאפשר
- אמזון בעברית
- ניתוח
- API
- ממשקי API
- בקשה
- יישומים
- גישה
- ארכיטקטורה
- מלאכותי
- בינה מלאכותית
- AWS
- רקע
- גבול
- לִבנוֹת
- בִּניָן
- עסקים
- קליפורניה
- לגרום
- האתגרים
- שינוי
- חיובים
- ענן
- קוד
- הערות
- Common
- רְכִיב
- מדעי מחשב
- ריכוז
- קונסול
- תוכן
- לִשְׁלוֹט
- לקוחות
- נתונים
- מדע נתונים
- מדען נתונים
- מסד נתונים
- מופגן
- לפרוס
- פריסה
- עיצוב
- צעצועי התפתחות
- אחר
- התפוררות
- מסמכים
- הנדסה
- אירוע
- דוגמה
- מָשׁוֹב
- שדות
- כספי
- שירותים פיננסיים
- ראשון
- גמישות
- תזרים
- מרוכז
- הבא
- טופס
- פוּרמָט
- צורות
- מלא
- פונקציונלי
- ממשל
- בריאות
- גָבוֹהַ
- מחזיק
- איך
- איך
- HTTPS
- פְּגִיעָה
- תעשיות
- תעשייה
- מידע
- ואינטגרציות
- מוֹדִיעִין
- IT
- עבודה
- מלכות
- שפה
- למידה
- יציאה
- ארוך
- מכונה
- למידת מכונה
- לתחזק
- ניהול
- ניהול
- באופן ידני
- ML
- טבעי
- ניווט
- מספר
- הצעה
- המיוחדות שלנו
- לפתוח
- ארגון
- אִרְגוּנִי
- ארגונים
- אחר
- תרגול
- התחזיות
- יְסוֹדִי
- פְּרָטִי
- בעיה
- תהליך
- המוצר
- מקצועי
- פרויקטים
- מספק
- ציבורי
- מחקר
- מחקר ופיתוח
- משאבים
- תגובה
- תוצאות
- הפעלה
- ריצה
- סן
- מדע
- מַדְעָן
- מגזר
- מגזרים
- מחפשים
- ללא שרת
- שרות
- שירותים
- סט
- הצבה
- פָּשׁוּט
- So
- פִּתָרוֹן
- פתרונות
- לפתור
- משהו
- רַמקוֹל
- לערום
- התחלה
- מדינה
- מדינה-of-the-art
- אחסון
- חנות
- חזק
- מוצלח
- בהצלחה
- מערכות
- יעד
- מס
- מבחן
- בדיקות
- דרך
- היום
- כלי
- כלים
- לעקוב
- מסורתי
- מאוחד
- בריטניה
- אוניברסיטה
- עדכונים
- להשתמש
- ערך
- בתוך
- עובד
- שנה
- שנים