שיפור עיבוד מסמכים חכם של AWS עם AI גנרטיבי | שירותי האינטרנט של אמזון

שיפור עיבוד מסמכים חכם של AWS עם AI גנרטיבי | שירותי האינטרנט של אמזון

סיווג, חילוץ וניתוח נתונים יכולים להיות מאתגרים עבור ארגונים העוסקים בכמויות של מסמכים. פתרונות עיבוד מסמכים מסורתיים הם ידניים, יקרים, מועדים לשגיאות וקשים לקנה מידה. AWS עיבוד מסמכים חכם (IDP), עם שירותי AI כגון טקסטורה באמזון, מאפשר לך לנצל את טכנולוגיית למידת מכונה (ML) המובילה בתעשייה לעיבוד מהיר ומדויק של נתונים מכל מסמך או תמונה סרוקים. בינה מלאכותית גנרטיבית (בינה מלאכותית גנרטיבית) משלימה את Amazon Textract כדי להפוך עוד יותר אוטומציה של תהליכי עבודה לעיבוד מסמכים. תכונות כגון נורמליזציה של שדות מפתח וסיכום נתוני קלט תומכות במחזורים מהירים יותר לניהול תהליכי עבודה של מסמכים, תוך הפחתת הפוטנציאל לשגיאות.

AI גנרטיבי מונע על ידי מודלים גדולים של ML הנקראים מודלים יסודיים (FMs). FMs משנים את הדרך שבה אתה יכול לפתור עומסי עבודה עיבוד מסמכים מורכבים באופן מסורתי. בנוסף ליכולות הקיימות, עסקים צריכים לסכם קטגוריות ספציפיות של מידע, כולל נתוני חיוב ואשראי ממסמכים כגון דוחות כספיים ודפי חשבון בנק. FMs מקלים על יצירת תובנות כאלה מהנתונים שחולצו. כדי לייעל את הזמן המושקע בסקירה אנושית וכדי לשפר את פרודוקטיביות העובדים, ניתן לסמן טעויות כמו ספרות חסרות במספרי טלפון, מסמכים חסרים או כתובות ללא מספרי רחוב באופן אוטומטי. בתרחיש הנוכחי, עליך להקדיש משאבים לביצוע משימות כאלה באמצעות סקירה אנושית ותסריטים מורכבים. גישה זו היא מייגעת ויקרה. FMs יכולים לעזור להשלים את המשימות האלה מהר יותר, עם פחות משאבים, ולהפוך פורמטי קלט משתנים לתבנית סטנדרטית שניתן לעבד אותה הלאה. ב-AWS, אנו מציעים שירותים כגון סלע אמזון, הדרך הקלה ביותר לבנות ולהרחיב יישומי AI מחוללים עם FMs. Amazon Bedrock הוא שירות מנוהל במלואו שהופך FM מחברות סטארט-אפ מובילות בינה מלאכותית ואמזון לזמינים באמצעות API, כך שתוכלו למצוא את הדגם המתאים ביותר לדרישות שלכם. אנחנו מציעים גם אמזון SageMaker JumpStart, המאפשר למתרגלי ML לבחור מתוך מבחר רחב של FMs בקוד פתוח. מתרגלי ML יכולים לפרוס FMs למסורים אמזון SageMaker מופעים מסביבה מבודדת רשת והתאמה אישית של מודלים באמצעות SageMaker להדרכה ופריסה של מודלים.

Ricoh מציעה פתרונות במקום העבודה ושירותי טרנספורמציה דיגיטלית שנועדו לעזור ללקוחות לנהל ולייעל את זרימת המידע בין העסקים שלהם. Ashok Shenoy, סמנכ"ל פיתוח פתרונות פורטפוליו, אומר, "אנו מוסיפים AI גנרטיבי לפתרונות ה-IDP שלנו כדי לעזור ללקוחותינו לבצע את עבודתם מהר ומדויק יותר על ידי שימוש ביכולות חדשות כגון שאלות ותשובות, סיכום ותפוקות סטנדרטיות. AWS מאפשרת לנו לנצל את ה-AI הגנרטיבי תוך שמירה על כל נתוני הלקוחות שלנו נפרדים ומאובטחים."

בפוסט זה, אנו משתפים כיצד לשפר את פתרון ה-IDP שלך ב-AWS עם AI גנרטיבי.

שיפור צינור ה-IDP

בחלק זה, נסקור כיצד ניתן להגדיל את צינור ה-IDP המסורתי על ידי FMs ונעבור על מקרה שימוש לדוגמה באמצעות Amazon Textract עם FMs.

AWS IDP מורכב משלושה שלבים: סיווג, מיצוי והעשרה. לפרטים נוספים על כל שלב, עיין ב עיבוד מסמכים חכם עם שירותי AI של AWS: חלק 1 ו חלק 2. בשלב הסיווג, מנהלי המשרד יכולים כעת לסווג מסמכים ללא הכשרה נוספת. המשמעות היא שניתן לסווג מסמכים גם אם המודל לא ראה דוגמאות דומות בעבר. FMs בשלב החילוץ מנרמל שדות תאריכים ומאמתים כתובות ומספרי טלפון, תוך הבטחת עיצוב עקבי. FMs בשלב ההעשרה מאפשרים מסקנות, נימוקים לוגיים וסיכום. כאשר אתה משתמש ב-FM בכל שלב IDP, זרימת העבודה שלך תהיה יעילה יותר והביצועים ישתפרו. התרשים הבא ממחיש את צינור ה-IDP עם בינה מלאכותית.

צינור עיבוד מסמכים חכם עם בינה מלאכותית גנרטיבית

שלב החילוץ של צינור IDP

כאשר FMs לא יכולים לעבד ישירות מסמכים בפורמטים המקוריים שלהם (כגון PDF, img, jpeg ו-tiff) כקלט, יש צורך במנגנון להמרת מסמכים לטקסט. כדי לחלץ את הטקסט מהמסמך לפני שליחתו ל-FMs, אתה יכול להשתמש ב- Amazon Textract. עם Amazon Textract, אתה יכול לחלץ שורות ומילים ולהעביר אותם ל-FM במורד הזרם. הארכיטקטורה הבאה משתמשת ב- Amazon Textract לחילוץ טקסט מדויק מכל סוג של מסמך לפני שליחתו ל-FM לעיבוד נוסף.

Textract קולט נתוני מסמכים למודלים של הקרן

בדרך כלל, מסמכים מורכבים ממידע מובנה ומובנה למחצה. ניתן להשתמש ב- Amazon Textract כדי לחלץ טקסט גולמי ונתונים מטבלאות וטפסים. הקשר בין הנתונים בטבלאות ובטפסים ממלא תפקיד חיוני באוטומציה של תהליכים עסקיים. סוגים מסוימים של מידע עשויים שלא להיות מעובדים על ידי FM. כתוצאה מכך, אנו יכולים לבחור לאחסן מידע זה בחנות במורד הזרם או לשלוח אותו ל-FM. האיור הבא הוא דוגמה לאופן שבו Amazon Textract יכולה לחלץ מידע מובנה ומובנה למחצה ממסמך, בנוסף לשורות טקסט שצריך לעבד על ידי FM.

שיפור עיבוד מסמכים חכם של AWS עם AI גנרטיבי | Amazon Web Services PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

שימוש בשירותים ללא שרתים של AWS לסיכום עם FMs

ניתן לבצע אוטומטית בצורה חלקה את צינור ה-IDP שהמחישנו קודם לכן באמצעות שירותים ללא שרתים של AWS. מסמכים מאוד לא מובנים נפוצים בארגונים גדולים. מסמכים אלה יכולים להשתרע ממסמכי רשות ניירות ערך (SEC) בענף הבנקאות ועד למסמכי כיסוי בענף ביטוחי הבריאות. עם התפתחות הבינה המלאכותית הגנרטיבית ב-AWS, אנשים בתעשיות אלו מחפשים דרכים לקבל סיכום מהמסמכים הללו באופן אוטומטי וחסכוני. שירותים ללא שרת עוזרים לספק את המנגנון לבניית פתרון ל-IDP במהירות. שירותים כגון AWS למבדה, פונקציות שלב AWS, ו אמזון EventBridge יכול לעזור לבנות את צינור עיבוד המסמכים עם אינטגרציה של FMs, כפי שמוצג בתרשים הבא.

עיבוד מסמכים מקצה לקצה עם Amazon Textract ו- Generative AI

השמיים יישום לדוגמה בשימוש בארכיטקטורה הקודמת הוא מונע על ידי אירועים. אירוע מוגדר כשינוי במצב שהתרחש לאחרונה. לדוגמה, כאשר אובייקט מועלה ל-an שירות אחסון פשוט של אמזון (Amazon S3), Amazon S3 פולט אירוע של Object Created. הודעת אירוע זו מאמזון S3 יכולה להפעיל פונקציית Lambda או זרימת עבודה של Step Functions. סוג זה של ארכיטקטורה מכונה ארכיטקטורה מונעת אירועים. בפוסט זה, היישום לדוגמה שלנו משתמש בארכיטקטורה מונעת אירועים כדי לעבד מסמך שחרור רפואי לדוגמה ולסכם את פרטי המסמך. הזרימה פועלת באופן הבא:

  1. כאשר מסמך מועלה ל-S3 bucket, Amazon S3 מפעיל אירוע Object Created.
  2. אפיק האירועים המוגדר כברירת מחדל של EventBridge מפיץ את האירוע ל-Step Functions בהתבסס על כלל EventBridge.
  3. זרימת העבודה של מכונת המדינה מעבדת את המסמך, החל מ-Amazon Textract.
  4. פונקציית Lambda הופכת את הנתונים המנותחים לשלב הבא.
  5. מכונת המדינה מעורר a נקודת קצה של SageMaker, המארח את ה-FM באמצעות שילוב ישיר של AWS SDK.
  6. דלי יעד סיכום S3 מקבל את תגובת הסיכום שנאספה מה-FM.

השתמשנו ביישום לדוגמה עם א flan-t5 דגם פנים מחבק כדי לסכם את סיכום שחרור המטופל לדוגמה הבא באמצעות זרימת העבודה Step Functions.

סיכום שחרור מטופל

זרימת העבודה של Step Functions משתמשת אינטגרציה של AWS SDK לקרוא ל-Amazon Textract נתח את המסמך וזמן ריצה של SageMaker InvokeEndpoint ממשקי API, כפי שמוצג באיור הבא.

זרימת עבודה

זרימת עבודה זו מביאה לאובייקט JSON מסכם המאוחסן בדלי יעד. אובייקט JSON נראה כך:

{ "summary": [ "John Doe is a 35-year old male who has been experiencing stomach problems for two months. He has been taking antibiotics for the last two weeks, but has not been able to eat much. He has been experiencing a lot of abdominal pain, bloating, and fatigue. He has also noticed a change in his stool color, which is now darker. He has been taking antacids for the last two weeks, but they no longer help. He has been experiencing a lot of fatigue, and has been unable to work for the last two weeks. He has also been experiencing a lot of abdominal pain, bloating, and fatigue. He has been taking antacids for the last two weeks, but they no longer help. He has been experiencing a lot of abdominal pain, bloating, and fatigue. He has been taking antacids for the last two weeks, but they no longer help. He has been experiencing a lot of abdominal pain, bloating, and fatigue. He has been taking antacids for the last two weeks, but they no longer help. He has been experiencing a lot of abdominal pain, bloating, and fatigue. He has been taking antacids for the last two weeks, but they no longer help." ], "forms": [ { "key": "Ph: ", "value": "(888)-(999)-(0000) " }, { "key": "Fax: ", "value": "(888)-(999)-(1111) " }, { "key": "Patient Name: ", "value": "John Doe " }, { "key": "Patient ID: ", "value": "NARH-36640 " }, { "key": "Gender: ", "value": "Male " }, { "key": "Attending Physician: ", "value": "Mateo Jackson, PhD " }, { "key": "Admit Date: ", "value": "07-Sep-2020 " }, { "key": "Discharge Date: ", "value": "08-Sep-2020 " }, { "key": "Discharge Disposition: ", "value": "Home with Support Services " }, { "key": "Pre-existing / Developed Conditions Impacting Hospital Stay: ", "value": "35 yo M c/o stomach problems since 2 months. Patient reports epigastric abdominal pain non- radiating. Pain is described as gnawing and burning, intermittent lasting 1-2 hours, and gotten progressively worse. Antacids used to alleviate pain but not anymore; nothing exacerbates pain. Pain unrelated to daytime or to meals. Patient denies constipation or diarrhea. Patient denies blood in stool but have noticed them darker. Patient also reports nausea. Denies recent illness or fever. He also reports fatigue for 2 weeks and bloating after eating. ROS: Negative except for above findings Meds: Motrin once/week. Tums previously. PMHx: Back pain and muscle spasms. No Hx of surgery. NKDA. FHx: Uncle has a bleeding ulcer. Social Hx: Smokes since 15 yo, 1/2-1 PPD. No recent EtOH use. Denies illicit drug use. Works on high elevation construction. Fast food diet. Exercises 3-4 times/week but stopped 2 weeks ago. " }, { "key": "Summary: ", "value": "some activity restrictions suggested, full course of antibiotics, check back with physican in case of relapse, strict diet " } ] }

יצירת סיכומים אלה באמצעות IDP עם הטמעה ללא שרתים בקנה מידה מסייעת לארגונים לקבל נתונים משמעותיים, תמציתיים ובר-יצוג באופן חסכוני. Step Functions אינו מגביל את שיטת עיבוד המסמכים למסמך אחד בכל פעם. שֶׁלָה מפה מבוזרת תכונה יכולה לסכם מספר רב של מסמכים בלוח זמנים.

השמיים יישום לדוגמה משתמש flan-t5 דגם פנים מחבק; עם זאת, אתה יכול להשתמש בנקודת קצה FM לפי בחירתך. הדרכה והרצה של המודל אינם בגדר היישום לדוגמה. עקוב אחר ההוראות במאגר GitHub כדי לפרוס יישום לדוגמה. הארכיטקטורה הקודמת היא הנחיות כיצד ניתן לתזמן זרימת עבודה של IDP באמצעות Step Functions. עיין ב סדנת AI Generative IDP להנחיות מפורטות כיצד לבנות אפליקציה עם שירותי AI ו-FM של AWS.

הגדר את הפתרון

בצע את השלבים בסעיף README קובץ כדי להגדיר את ארכיטקטורת הפתרון (למעט נקודות הקצה של SageMaker). לאחר שתהיה לך נקודת קצה משלך של SageMaker זמינה, תוכל להעביר את שם נקודת הקצה כפרמטר לתבנית.

לנקות את

כדי לחסוך בעלויות, מחק את המשאבים שפרסת כחלק מהמדריך:

  1. בצע את השלבים בסעיף הניקוי של README קובץ.
  2. מחק כל תוכן מדלי S3 שלך ולאחר מכן מחק את הדלי דרך קונסולת Amazon S3.
  3. מחק כל נקודת קצה של SageMaker שייתכן שיצרת דרך מסוף SageMaker.

סיכום

AI גנרטיבי משנה את האופן שבו אתה יכול לעבד מסמכים עם IDP כדי להפיק תובנות. שירותי AWS AI כגון Amazon Textract יחד עם AWS FMs יכולים לסייע בעיבוד מדויק של כל סוג של מסמכים. למידע נוסף על עבודה עם AI גנרטיבי ב-AWS, עיין ב הכרזה על כלים חדשים לבנייה עם AI גנרטיבי ב-AWS.


על הכותבים

שיפור עיבוד מסמכים חכם של AWS עם AI גנרטיבי | Amazon Web Services PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.סונאלי סהו מובילה עיבוד מסמכים חכם עם צוות שירותי AI/ML ב-AWS. היא סופרת, מובילת מחשבה וטכנולוגית נלהבת. תחום הליבה שלה הוא AI ו-ML, והיא מרבה לדבר בכנסים ומפגשים של AI ו-ML ברחבי העולם. יש לה ניסיון רוחב ועומק בטכנולוגיה ובתעשיית הטכנולוגיה, עם מומחיות בתעשייה בתחום הבריאות, המגזר הפיננסי וביטוח.

שיפור עיבוד מסמכים חכם של AWS עם AI גנרטיבי | Amazon Web Services PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.אשיש לאל הוא מנהל שיווק מוצר בכיר שמוביל שיווק מוצרים עבור שירותי AI ב-AWS. יש לו 9 שנות ניסיון בשיווק והוביל את מאמצי שיווק המוצרים לעיבוד מסמכים חכם. הוא קיבל תואר שני במנהל עסקים באוניברסיטת וושינגטון.

שיפור עיבוד מסמכים חכם של AWS עם AI גנרטיבי | Amazon Web Services PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.מרונאל דפטארי הוא ארכיטקט פתרונות בכיר ארגוני בשירותי האינטרנט של אמזון. הוא מבוסס בבוסטון, MA. הוא חובב ענן ומאוד נלהב ממציאת פתרונות ללקוחות פשוטים ועונים לתוצאות העסקיות שלהם. הוא אוהב לעבוד עם טכנולוגיות ענן, לספק פתרונות פשוטים וניתנים להרחבה המניעים תוצאות עסקיות חיוביות, אסטרטגיית אימוץ ענן, ועיצוב פתרונות חדשניים ומובילים למצוינות תפעולית.

שיפור עיבוד מסמכים חכם של AWS עם AI גנרטיבי | Amazon Web Services PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.דראג' מהפאטרו הוא ארכיטקט פתרונות מומחה ללא שרתים ראשי ב-AWS. הוא מתמחה בסיוע לשירותים פיננסיים ארגוניים לאמץ ארכיטקטורות נטולות שרתים ואירועים כדי לחדש את היישומים שלהם ולהאיץ את קצב החדשנות שלהם. לאחרונה, הוא עבד על קירוב עומסי עבודה של מיכלים ושימוש מעשי ב-AI גנרטיבי לחסרי שרתים ו-EDA עבור לקוחות תעשיית השירותים הפיננסיים.

שיפור עיבוד מסמכים חכם של AWS עם AI גנרטיבי | Amazon Web Services PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.יעקב האוסקנס הוא מומחה ראשי בינה מלאכותית עם למעלה מ-15 שנות ניסיון בפיתוח עסקי אסטרטגי ושותפויות. ב-7 השנים האחרונות הוא הוביל את היצירה והיישום של אסטרטגיות יציאה לשוק עבור שירותי B2B חדשים המופעלים על ידי בינה מלאכותית. לאחרונה, הוא עוזר לספקי ISV להגדיל את הכנסותיהם על ידי הוספת בינה מלאכותית גנרטיבית לתהליכי עבודה חכמים של עיבוד מסמכים.

בול זמן:

עוד מ למידת מכונות AWS