חיפוש תובנות במאגר של מסמכי טקסט בצורה חופשית יכול להיות כמו מציאת מחט בערימת שחת. גישה מסורתית עשויה להיות שימוש בספירת מילים או ניתוח בסיסי אחר כדי לנתח מסמכים, אך עם הכוח של אמזון AI וכלי למידת מכונה (ML), אנו יכולים לאסוף הבנה מעמיקה יותר של התוכן.
אמזון להתבונן הוא שירות מנוהל מלא המשתמש בעיבוד שפה טבעית (NLP) כדי לחלץ תובנות לגבי התוכן של מסמכים. Amazon Comprehend מפתחת תובנות על ידי זיהוי הישויות, ביטויי המפתח, הסנטימנטים, הנושאים והאלמנטים המותאמים אישית במסמך. Amazon Comprehend יכולה ליצור תובנות חדשות המבוססות על הבנת מבנה המסמך ויחסי הישות. לדוגמה, עם Amazon Comprehend, אתה יכול לסרוק מאגר מסמכים שלם לאיתור ביטויי מפתח.
Amazon Comprehend מאפשרת למומחים שאינם ML לבצע בקלות משימות שלוקחות בדרך כלל שעות של זמן. Amazon Comprehend מבטל הרבה מהזמן הדרוש לניקוי, בנייה והדרכה של דגם משלך. לבניית מודלים מותאמים אישית עמוקים יותר ב-NLP או בכל תחום אחר, אמזון SageMaker מאפשר לך לבנות, לאמן ולפרוס מודלים בזרימת עבודה הרבה יותר קונבנציונלית של ML אם תרצה בכך.
בפוסט זה, אנו משתמשים ב- Amazon Comprehend ובשירותי AWS אחרים כדי לנתח ולחלץ תובנות חדשות ממאגר מסמכים. לאחר מכן, אנו משתמשים אמזון קוויקסייט ליצור חזותי ענן מילים פשוט אך רב עוצמה כדי לזהות בקלות נושאים או טרנדים.
סקירה כללית של הפיתרון
התרשים הבא ממחיש את ארכיטקטורת הפתרונות.
כדי להתחיל, אנו אוספים את הנתונים לניתוח ומטעינים אותם ל- שירות אחסון פשוט של אמזון (Amazon S3) דלי בחשבון AWS. בדוגמה זו, אנו משתמשים בקבצים בפורמט טקסט. הנתונים מנותחים לאחר מכן על ידי Amazon Comprehend. Amazon Comprehend יוצר פלט בפורמט JSON שצריך להפוך ולעבד לפורמט מסד נתונים באמצעות דבק AWS. אנו מאמתים את הנתונים ומחלצים טבלאות נתונים בפורמט ספציפי באמצעות אמזונה אתנה לניתוח QuickSight באמצעות ענן מילים. למידע נוסף על הדמיות, עיין ב הדמיית נתונים באמזון QuickSight.
תנאים מוקדמים
לפריצת דרך זו, יהיו עליכם התנאים המוקדמים הבאים:
העלה נתונים לדלי S3
העלה את הנתונים שלך לדלי S3. עבור פוסט זה, אנו משתמשים בטקסט בפורמט UTF-8 של החוקה האמריקאית כקובץ הקלט. אז אתה מוכן לנתח את הנתונים וליצור הדמיות.
נתח נתונים באמצעות Amazon Comprehend
ישנם סוגים רבים של מידע מבוסס טקסט ותמונה שניתן לעבד באמצעות Amazon Comprehend. בנוסף לקבצי טקסט, אתה יכול להשתמש Amazon Comprehend לסיווג שלב אחד וזיהוי ישויות כדי לקבל קבצי תמונה, קובצי PDF וקובצי Microsoft Word כקלט, שאינם נדונים בפוסט זה.
כדי לנתח את הנתונים שלך, בצע את השלבים הבאים:
- במסוף Comprehend של אמזון, בחר עבודות ניתוח בחלונית הניווט.
- בחרו יצירת עבודת ניתוח.
- הזן שם לעבודה שלך.
- בעד סוג ניתוח, בחר ביטויי מפתח.
- בעד שפהבחר אנגלית.
- בעד מיקום נתונים קלט, ציין את התיקיה שיצרת כתנאי מוקדם.
- בעד מיקום נתוני פלט, ציין את התיקיה שיצרת כתנאי מוקדם.
- בחרו צור תפקיד IAM.
- הזן סיומת לשם התפקיד.
- בחרו צור עבודה.
העבודה תפעל והסטטוס יוצג ב- עבודות ניתוח עמוד.
המתן לסיום עבודת הניתוח. Amazon Comprehend תיצור קובץ ותמקם אותו בתיקיית נתוני הפלט שסיפקת. הקובץ הוא בפורמט .gz או GZIP.
יש להוריד קובץ זה ולהמיר אותו לפורמט לא דחוס. אתה יכול להוריד אובייקט מתיקיית הנתונים או דלי S3 באמצעות קונסולת Amazon S3.
- בקונסולת Amazon S3, בחר את האובייקט ובחר הורדה. אם ברצונך להוריד את האובייקט לתיקיה מסוימת, בחר הורדה על פעולות תפריט.
- לאחר הורדת הקובץ למחשב המקומי, פתח את הקובץ הדחוס ושמור אותו כקובץ לא דחוס.
יש להעלות את הקובץ הלא דחוס לתיקיית הפלט לפני שהסורק AWS Glue יוכל לעבד אותו. עבור דוגמה זו, אנו מעלים את הקובץ הלא דחוס לאותה תיקיית פלט שבה אנו משתמשים בשלבים מאוחרים יותר.
- בקונסולת Amazon S3, נווט אל דלי ה-S3 שלך ובחר העלה.
- בחרו הוסף קבצים.
- בחר את הקבצים הלא דחוסים מהמחשב המקומי שלך.
- בחרו העלה.
לאחר העלאת הקובץ, מחק את הקובץ הדחוס המקורי.
- בקונסולת Amazon S3, בחר את הדלי ובחר מחק.
- אשר את שם הקובץ כדי למחוק את הקובץ לצמיתות על ידי הזנת שם הקובץ בתיבת הטקסט.
- בחרו מחק אובייקטים.
זה ישאיר קובץ אחד בתיקיית הפלט: הקובץ הלא דחוס.
המר נתוני JSON לפורמט טבלה באמצעות AWS Glue
בשלב זה, אתה מכין את הפלט של Amazon Comprehend שישמש כקלט לתוך Athena. הפלט של Amazon Comprehend הוא בפורמט JSON. אתה יכול להשתמש ב-AWS Glue כדי להמיר JSON למבנה מסד נתונים שייקרא בסופו של דבר על ידי QuickSight.
- במסוף הדבק של AWS בחר סורקים בחלונית הניווט.
- בחרו צור סורק.
- הזן שם עבור הסורק שלך.
- בחרו הַבָּא.
- בעד האם הנתונים שלך כבר ממופים לטבלאות דבק, בחר טרם.
- הוסף מקור נתונים.
- בעד נתיב S3, הזן את המיקום של תיקיית נתוני הפלט של Amazon Comprehend.
הקפד להוסיף את הנגרר /
לשם הנתיב. AWS Glue יחפש בנתיב התיקיות עבור כל הקבצים.
- בחר סרוק את כל תיקיות המשנה.
- בחרו הוסף מקור נתונים S3.
- ליצור חדש AWS זהות וניהול גישה תפקיד (IAM) עבור הסורק.
- הזן שם לתפקיד IAM.
- בחרו עדכן את תפקיד IAM שנבחר כדי להיות בטוח שהתפקיד החדש מוקצה לסורק.
- בחרו הַבָּא כדי להזין את פרטי הפלט (בסיס הנתונים).
- בחרו הוסף מסד נתונים.
- הזן שם מסד נתונים.
- בחרו הַבָּא.
- בחרו צור סורק.
- בחרו הפעל סורק כדי להפעיל את הסורק.
אתה יכול לעקוב אחר מצב הסורק במסוף הדבק של AWS.
השתמש באתנה כדי להכין טבלאות עבור QuickSight
Athena תחלץ נתונים מטבלאות מסד הנתונים שהסורק AWS Glue יצר כדי לספק פורמט שבו QuickSight תשתמש כדי ליצור את ענן המילים.
- במסוף אתנה בחר עורך שאילתות בחלונית הניווט.
- בעד מקור נתונים, בחר AwsDataCatalog.
- בעד מסד נתונים, בחר את מסד הנתונים שהסורק יצר.
כדי ליצור טבלה תואמת ל-QuickSight, יש להסיר את הנתונים מהמערכים.
- הצעד הראשון הוא יצירת מסד נתונים זמני עם הנתונים הרלוונטיים של Amazon Comprehend:
- ההצהרה הבאה מגבילה לביטויים של לפחות שלוש מילים ולקבוצות לפי תדירות הביטויים:
השתמש ב-QuickSight כדי להמחיש את הפלט
לבסוף, אתה יכול ליצור את הפלט החזותי מהניתוח.
- במסוף QuickSight, בחר ניתוח חדש.
- בחרו מערך נתונים חדש.
- בעד צור מערך נתונים, בחר ממקורות נתונים חדשים.
- בחרו אתנה כמקור הנתונים.
- הזן שם למקור הנתונים ובחר צור מקור נתונים.
- בחרו דמיין.
ודא של-QuickSight יש גישה לדלי S3 שבהם מאוחסנים שולחנות Athena.
- במסוף QuickSight, בחר את סמל פרופיל המשתמש ובחר נהל את QuickSight.
- בחרו אבטחה והרשאות.
- חפש את הקטע גישה מהירה לשירותי AWS.
על ידי הגדרת גישה לשירותי AWS, QuickSight יכולה לגשת לנתונים בשירותים אלה. ניתן לשלוט בגישה של משתמשים וקבוצות באמצעות האפשרויות.
- ודא שאמזון S3 מוענקת גישה.
עכשיו אתה יכול ליצור את ענן המילים.
- בחר את ענן המילים מתחת טיפוסים חזותיים.
- גרור טקסט אל לפי קבוצה ולספור עד מידה.
בחר בתפריט האפשרויות (שלוש נקודות) בהדמיה כדי לגשת לאפשרויות העריכה. לדוגמה, ייתכן שתרצה להסתיר את המונח "אחר" מהתצוגה. אתה יכול גם לערוך פריטים כגון הכותרת והכותרת המשנה עבור החזותי שלך. כדי להוריד את ענן המילים כקובץ PDF, בחר הורדה בסרגל הכלים של QuickSight.
לנקות את
כדי להימנע מחיובים מתמשכים, מחק את כל הנתונים והתהליכים או המשאבים שאינם בשימוש הניתנים במסוף השירות שלהם.
סיכום
Amazon Comprehend משתמשת ב-NLP כדי לחלץ תובנות לגבי התוכן של מסמכים. הוא מפתח תובנות על ידי זיהוי הישויות, ביטויי המפתח, השפה, הרגשות ומרכיבים נפוצים אחרים במסמך. אתה יכול להשתמש ב- Amazon Comprehend כדי ליצור מוצרים חדשים המבוססים על הבנת מבנה המסמכים. לדוגמה, עם Amazon Comprehend, אתה יכול לסרוק מאגר מסמכים שלם לאיתור ביטויי מפתח.
פוסט זה תיאר את השלבים לבניית ענן מילים כדי להמחיש ניתוח תוכן טקסט מ- Amazon Comprehend באמצעות כלי AWS ו-QuickSight כדי להמחיש את הנתונים.
בואו להישאר בקשר דרך קטע התגובות!
על הכותבים
קריס גדמן הוא מוביל המכירות במזרח ארה"ב עבור קמעונאות ו-CPG בשירותי האינטרנט של אמזון. כשהוא לא עובד, הוא נהנה לבלות עם חבריו ומשפחתו, במיוחד בקיץ בקייפ קוד. קריס הוא לוחם נינג'ה שפרש באופן זמני אבל הוא אוהב לצפות ולאמן את שני בניו לעת עתה.
קלארק לפאבור הוא מוביל אדריכל פתרונות ב- Amazon Web Services, התומך בלקוחות ארגוניים באזור המזרח. קלארק מבוסס בניו אינגלנד ונהנה לבלות זמן באדריכלות מתכונים במטבח.
- הפצת תוכן ויחסי ציבור מופעל על ידי SEO. קבל הגברה היום.
- PlatoData.Network Vertical Generative Ai. העצים את עצמך. גישה כאן.
- PlatoAiStream. Web3 Intelligence. הידע מוגבר. גישה כאן.
- PlatoESG. רכב / רכבים חשמליים, פחמן, קלינטק, אנרגיה, סביבה, שמש, ניהול פסולת. גישה כאן.
- PlatoHealth. מודיעין ביוטכנולוגיה וניסויים קליניים. גישה כאן.
- ChartPrime. הרם את משחק המסחר שלך עם ChartPrime. גישה כאן.
- BlockOffsets. מודרניזציה של בעלות על קיזוז סביבתי. גישה כאן.
- מקור: https://aws.amazon.com/blogs/machine-learning/visualize-an-amazon-comprehend-analysis-with-a-word-cloud-in-amazon-quicksight/
- :יש ל
- :הוא
- :לֹא
- :איפה
- 1
- 10
- 100
- 11
- 12
- 13
- 17
- 23
- 500
- 7
- 8
- 9
- a
- אודות
- לְקַבֵּל
- גישה
- חֶשְׁבּוֹן
- להוסיף
- תוספת
- AI
- תעשיות
- כְּבָר
- גם
- אמזון בעברית
- אמזון להתבונן
- אמזון קוויקסייט
- אמזון שירותי אינטרנט
- an
- אנליזה
- לנתח
- מְנוּתָח
- ו
- כל
- גישה
- ארכיטקטורה
- ARE
- AS
- שהוקצה
- At
- לְהִמָנַע
- AWS
- דבק AWS
- מבוסס
- בסיסי
- BE
- לפני
- להתחיל
- אריזה מקורית
- לִבנוֹת
- בִּניָן
- אבל
- by
- CAN
- חיובים
- בחרו
- נבחר
- מיון
- ענן
- עגלונות
- הערות
- Common
- תואם
- להשלים
- לִהַבִין
- המחשב
- קונסול
- חוּקָה
- תוכן
- נשלט
- מקובל
- להמיר
- הומר
- ספירה
- cpg
- הסורק
- לִיצוֹר
- נוצר
- יוצר
- לַחֲצוֹת
- מנהג
- לקוחות
- נתונים
- מסד נתונים
- עמוק יותר
- לפרוס
- מְתוּאָר
- רצוי
- מפתחת
- נָדוֹן
- לְהַצִיג
- מוצג
- do
- מסמך
- מסמכים
- תחום
- להורדה
- בקלות
- מזרח
- אלמנטים
- מבטל
- מאפשר
- אַנְגלִיָה
- זן
- הזנת
- מִפְעָל
- שלם
- ישויות
- ישות
- במיוחד
- דוגמה
- מומחים
- תמצית
- משפחה
- שלח
- קבצים
- מציאת
- ראשון
- הבא
- בעד
- פוּרמָט
- תדר
- חברים
- החל מ-
- לגמרי
- ללקט
- ליצור
- כמובן מאליו
- קְבוּצָה
- קבוצה
- יש
- he
- הסתר
- שֶׁלוֹ
- שעות
- HTML
- http
- HTTPS
- ICON
- זהות
- if
- מדגים
- תמונה
- in
- מידע
- קלט
- תובנות
- אל תוך
- IT
- פריטים
- עבודה
- להצטרף
- jpg
- ג'סון
- מפתח
- שפה
- מאוחר יותר
- מנהיג
- למידה
- הכי פחות
- יציאה
- מאפשר לי
- כמו
- גבולות
- לִטעוֹן
- מקומי
- מיקום
- אוהב
- מכונה
- למידת מכונה
- הצליח
- רב
- תפריט
- מיקרוסופט
- יכול
- ML
- מודל
- מודלים
- צג
- יותר
- הרבה
- צריך
- שם
- טבעי
- עיבוד שפה טבעית
- נווט
- ניווט
- נחוץ
- צרכי
- חדש
- מוצרים חדשים
- הנינג'ה
- NLP
- בדרך כלל
- עַכשָׁיו
- אובייקט
- of
- on
- ONE
- מתמשך
- לפתוח
- אפשרויות
- or
- להזמין
- מְקוֹרִי
- אחר
- תפוקה
- שֶׁלוֹ
- עמוד
- זגוגית
- נתיב
- לצמיתות
- ביטויים
- מקום
- אפלטון
- מודיעין אפלטון
- אפלטון נתונים
- הודעה
- כּוֹחַ
- חזק
- להכין
- תנאים מוקדמים
- תהליך
- מעובד
- תהליכים
- תהליך
- מוצרים
- פּרוֹפִיל
- לספק
- ובלבד
- חומר עיוני
- מוכן
- זיהוי
- להתייחס
- באזור
- מערכות יחסים
- רלוונטי
- נותר
- מאגר
- משאבים
- אלה
- קמעוני
- תפקיד
- הפעלה
- מכירות
- אותו
- שמור
- סריקה
- ציון
- חיפוש
- סעיף
- רגש
- רגשות
- שרות
- שירותים
- צריך
- פָּשׁוּט
- פִּתָרוֹן
- פתרונות
- מָקוֹר
- ספציפי
- הוצאה
- מסחרי
- הצהרה
- מצב
- להשאר
- שלב
- צעדים
- אחסון
- מאוחסן
- מִבְנֶה
- כזה
- מסייע
- בטוח
- שולחן
- לקחת
- משימות
- זמני
- טווח
- טֶקסט
- זֶה
- השמיים
- שֶׁלָהֶם
- נושאים
- אז
- זֶה
- אלה
- שְׁלוֹשָׁה
- דרך
- זמן
- כותרת
- ל
- כלים
- לגעת
- מסורתי
- דלייה
- רכבת
- טרנספורמציה
- מגמות
- שתיים
- סוגים
- בסופו של דבר
- תחת
- הבנה
- לא בשימוש
- נטען
- us
- להשתמש
- מְשׁוּמָשׁ
- משתמש
- משתמשים
- שימושים
- באמצעות
- לאמת
- באמצעות
- ראיה
- לחזות
- בהדרכה
- רוצה
- צופה
- we
- אינטרנט
- שירותי אינטרנט
- מתי
- אשר
- יצטרך
- עם
- Word
- מילים
- זרימת עבודה
- עובד
- עוד
- אתה
- זפירנט