הצגת אפליקציית AI מחוללת תמונה לדיבור באמצעות Amazon SageMaker ו-Huging Face | שירותי האינטרנט של אמזון

הצגת אפליקציית AI מחוללת תמונה לדיבור באמצעות Amazon SageMaker ו-Huging Face | שירותי האינטרנט של אמזון

אובדן ראייה מגיע בצורות שונות. עבור חלק, זה מלידה, עבור אחרים, זו ירידה איטית לאורך זמן שמגיעה עם תאריכי תפוגה רבים: היום שבו אתה לא יכול לראות תמונות, לזהות את עצמך או את הפנים של אנשים אהובים או אפילו לקרוא את הדואר שלך. בפוסט הקודם שלנו בבלוג אפשר ללקויי ראייה לשמוע מסמכים באמצעות Amazon Textract ו- Amazon Polly, הראינו לך את אפליקציית הטקסט לדיבור שנקראת "קרא בשבילי". הנגישות עברה כברת דרך, אבל מה עם תמונות?

בכנס AWS re:Invent 2022 בלאס וגאס, הדגמנו "תאר עבורי" ב-AWS Builders Fair, אתר המסייע לכבדי ראייה להבין תמונות באמצעות כיתוב תמונה, זיהוי פנים וטקסט לדיבור, טכנולוגיה שאנו מתייחסים אליה כ"תמונה לדיבור". באמצעות שימוש במספר שירותי AI/ML, "תאר עבורי" יוצר כיתוב של תמונת קלט ויקרא אותה בחזרה בקול ברור וצליל טבעי במגוון שפות ודיאלקטים.

בפוסט זה בבלוג אנו מדריכים אותך דרך ארכיטקטורת הפתרונות שמאחורי "תאר עבורי", ואת שיקולי העיצוב של הפתרון שלנו.

סקירת פתרונות

ארכיטקטורת ההתייחסות הבאה מציגה את זרימת העבודה של משתמש מצלם תמונה עם טלפון ומשמיע MP3 של הכיתוב לתמונה.

ארכיטקטורת התייחסות לפתרון המתואר.

זרימת העבודה כוללת את השלבים הבאים,

  1. AWS להגביר מפיץ את אפליקציית האינטרנט DescribeForMe המורכבת מ-HTML, JavaScript ו-CSS למכשירים הניידים של משתמשי הקצה.
  2. השמיים אמזון קוגניטו מאגר הזהויות מעניק גישה זמנית ל- אמזון S3 דְלִי.
  3. המשתמש מעלה קובץ תמונה ל- אמזון S3 דלי באמצעות AWS SDK דרך אפליקציית האינטרנט.
  4. אפליקציית האינטרנט DescribeForMe מפעילה את שירותי הבינה המלאכותית האחורית על ידי שליחת אמזון S3 אובייקט הכנס את המטען ל שער API של אמזון
  5. שער API של אמזון מדגימה an פונקציות שלב AWS זרימת עבודה. מכונת המדינה מתזמנת את שירותי הבינה המלאכותית/למידת מכונה (AI/ML). אמזון, אמזון SageMakerטקסטורה באמזון, אמזון תרגום, ו אמזון פולי  באמצעות AWS למבדה פונקציות.
  6. השמיים פונקציות שלב AWS זרימת עבודה יוצרת קובץ שמע כפלט ומאחסנת אותו אמזון S3 בפורמט MP3.
  7. כתובת URL חתומה מראש עם המיקום של קובץ השמע המאוחסן ב אמזון S3 נשלח חזרה לדפדפן המשתמש דרך שער API של אמזון. המכשיר הנייד של המשתמש מנגן את קובץ השמע באמצעות כתובת האתר החתומה מראש.

הדרכה לפתרון

בחלק זה נתמקד בשיקולי העיצוב מדוע בחרנו

  1. עיבוד מקביל בתוך an פונקציות שלב AWS זרימת עבודה
  2. מודל למידת מכונה מאוחדת מרצף לרצף OFA (One For All) מ פנים מחבקות ל אמזון SageMaker לכיתוב תמונה
  3. אמזון לזיהוי פנים

לסקירה מפורטת יותר מדוע בחרנו בארכיטקטורה ללא שרת, זרימת עבודה סינכרונית, זרימת עבודה של פונקציות מהירות, ארכיטקטורה ללא ראש והיתרונות שהושגו, אנא קרא את הפוסט הקודם שלנו בבלוג אפשר ללקויי ראייה לשמוע מסמכים באמצעות Amazon Textract ו- Amazon Polly

עיבוד מקבילי

שימוש בעיבוד מקביל בתוך זרימת העבודה Step Functions הפחית את זמן החישוב עד ל-48%. ברגע שהמשתמש מעלה את התמונה ל-S3 bucket, Amazon API Gateway יוצר זרימת עבודה של AWS Step Functions. לאחר מכן שלוש פונקציות Lambda להלן מעבדות את התמונה בתוך זרימת העבודה Step Functions במקביל.

  • פונקציית Lambda הראשונה שנקראה describe_image מנתח את התמונה באמצעות דגם OFA_IMAGE_CAPTION מתארח בנקודת קצה של SageMaker בזמן אמת כדי לספק כיתוב תמונה.
  • הפונקציה השנייה של Lambda נקראה describe_faces תחילה בודק אם יש פרצופים המשתמשים בזיהוי של אמזון Detect Faces API, ואם זה נכון, זה קורא ל-API של Compare Faces. הסיבה לכך היא Compare Faces יזרוק שגיאה אם ​​לא נמצאו פרצופים בתמונה. כמו כן, הקריאה ל-Detect Faces תחילה היא מהירה יותר מאשר הפעלת Compare Faces וטיפול בשגיאות, כך שעבור תמונות ללא פנים בהן, זמן העיבוד יהיה מהיר יותר.
  • פונקציית Lambda השלישית שנקראה extract_text מטפל בטקסט לדיבור באמצעות Amazon Textract, ו- Amazon Comprehend.

ביצוע פונקציות Lambda ברצף מתאים, אך הדרך המהירה והיעילה יותר לעשות זאת היא באמצעות עיבוד מקביל. הטבלה הבאה מציגה את זמן החישוב שנשמר עבור שלוש תמונות לדוגמה.

תמונה אֲנָשִׁים זמן רציף זמן מקביל חיסכון בזמן (%) הכותרת
הצגת אפליקציית AI מחוללת תמונה לדיבור באמצעות Amazon SageMaker ו-Huging Face | Amazon Web Services PlatoBlockchain Data Intelligence. חיפוש אנכי. איי. 0 1869ms 1702ms 8% חתול טאבי מכורבל במיטה לבנה רכה.
הצגת אפליקציית AI מחוללת תמונה לדיבור באמצעות Amazon SageMaker ו-Huging Face | Amazon Web Services PlatoBlockchain Data Intelligence. חיפוש אנכי. איי. 1 4277ms 2197ms 48% אישה בחולצה ירוקה וקרדיגן שחור מחייכת למצלמה. אני מזהה אדם אחד: Kanbo.
הצגת אפליקציית AI מחוללת תמונה לדיבור באמצעות Amazon SageMaker ו-Huging Face | Amazon Web Services PlatoBlockchain Data Intelligence. חיפוש אנכי. איי. 4 6603ms 3904ms 40% אנשים עומדים מול כדורי האמזונס. אני מזהה 3 אנשים: קנבו, ג'ק ואיימן.

כיתוב תמונה

Hugging Face היא קהילה בקוד פתוח ופלטפורמת מדעי נתונים המאפשרת למשתמשים לשתף, לבנות, לאמן ולפרוס מודלים של למידת מכונה. לאחר שבדקנו דגמים הזמינים במרכז הדגמים של Hugging Face, בחרנו להשתמש ב- דגם OFA מכיוון שכפי שמתואר על ידי המחברים, זוהי "מסגרת אגנוסטית של מטלות ו-מודאליות-אגנוסטית התומכת ב-Task Comprehensiveness".

OFA הוא צעד לקראת "One For All", מכיוון שהוא מודל מאוחד מולטי-מודאלי מאומן מראש שיכול לעבור למספר משימות במורד הזרם ביעילות. בעוד שמודל OFA תומך במשימות רבות כולל הארקה ויזואלית, הבנת שפה ויצירת תמונות, השתמשנו ב דגם OFA לכיתוב תמונה בפרויקט Describe For Me כדי לבצע את חלק התמונה לטקסט של היישום. בדוק את המאגר הרשמי של OFA (ICML 2022), מאמר ללמוד על הארכיטקטורות, המשימות והשיטות המאחדות של OFA באמצעות מסגרת למידה פשוטה מרצף לרצף.

כדי לשלב את OFA באפליקציה שלנו, שיבטנו את ה-repo מ- Hugging Face ויכלנו את המודל כדי לפרוס אותו לנקודת קצה של SageMaker. ה מחברת בריפו זה הוא מדריך מצוין לפריסת הדגם הגדול של OFA במחברת Jupyter ב- SageMaker. לאחר מיכל סקריפט ההסקה שלך, המודל מוכן לפריסה מאחורי נקודת קצה של SageMaker כמתואר ב- SageMaker תיעוד. לאחר פריסת המודל, צור נקודת קצה HTTPS שניתן לשלב עם פונקציית ה- "describe_image" למבדה המנתחת את התמונה כדי ליצור את כיתוב התמונה. פרסנו את המודל הזעיר של OFA מכיוון שהוא דגם קטן יותר וניתן לפרוס אותו בפרק זמן קצר יותר תוך השגת ביצועים דומים.

דוגמאות לתוכן תמונה לדיבור שנוצר על ידי "תאר בשבילי" מוצגות להלן:

זוהר הצפון, או הזוהר הצפוני, ממלא את שמי הלילה מעל צללית של בית.

זוהר הצפון, או הזוהר הצפוני, ממלא את שמי הלילה מעל צללית של בית.

כלב ישן על שמיכה אדומה על רצפת עץ, ליד מזוודה פתוחה מלאה בצעצועים..

כלב ישן על שמיכה אדומה על רצפת עץ, ליד מזוודה פתוחה מלאה בצעצועים..

חתול טאבי מכורבל במיטה לבנה רכה.

חתול טאבי מכורבל במיטה לבנה רכה.

זיהוי פנים

אמזון זיהוי תמונה מספקת את DetectFaces פעולה שמחפשת תווי פנים מרכזיים כגון עיניים, אף ופה כדי לזהות פרצופים בתמונת קלט. בפתרון שלנו אנו ממנפים את הפונקציונליות הזו כדי לזהות כל אדם בתמונת הקלט. אם אדם מזוהה, אנו משתמשים ב- השווה פרצופים פעולה להשוואת הפנים בתמונת הקלט עם הפנים שאיתם "תאר בשבילי" הוכשרה ולתאר את האדם בשמו. בחרנו להשתמש ב-Rekognition לזיהוי פנים בגלל הדיוק הגבוה וכמה פשוט היה להשתלב באפליקציה שלנו עם יכולות מחוץ לקופסה.

קבוצת אנשים מצטלמים בחדר. אני מזהה 4 אנשים: ג'ק, קנבו, אלאק וטראק. בתמונה נמצא גם טקסט. כתוב: AWS re: Invent

קבוצת אנשים מצטלמים בחדר. אני מזהה 4 אנשים: ג'ק, קנבו, אלאק וטראק. בתמונה נמצא גם טקסט. כתוב: AWS re: Invent

מקרי שימוש פוטנציאליים

יצירת טקסט חלופי עבור תמונות אינטרנט

כל התמונות באתר אינטרנט נדרשות לכלול טקסט חלופי כדי שקוראי מסך יוכלו לדבר אותן עם לקויי ראייה. זה גם טוב עבור אופטימיזציה למנועי חיפוש (SEO). יצירת כתוביות חלופיות עשויה להיות גוזלת זמן מכיוון שהמשימה של קופירייטר היא לספק אותן בתוך מסמך עיצוב. ה-API של Describe For Me יכול ליצור אוטומטית טקסט חלופי לתמונות. זה יכול לשמש גם כתוסף לדפדפן כדי להוסיף אוטומטית כיתוב תמונה לתמונות חסרות טקסט חלופי בכל אתר אינטרנט.

תיאור אודיו עבור וידאו

תיאור אודיו מספק רצועת קריינות לתוכן וידאו כדי לעזור ללקויי ראייה לעקוב אחר סרטים. ככל שהכיתוב תמונה הופך חזק ומדויק יותר, זרימת עבודה הכוללת יצירת רצועת אודיו המבוססת על תיאורים של חלקים מרכזיים בסצנה עשויה להיות אפשרית. Amazon Rekognition כבר יכולה לזהות שינויים בסצנה, לוגואים ורצפי קרדיט, וזיהוי סלבריטאים. גרסה עתידית של תאר תאפשר להפוך את תכונת המפתח הזו לאוטומטית עבור סרטים וסרטונים.

סיכום

בפוסט זה, דנו כיצד להשתמש בשירותי AWS, כולל AI ושירותים ללא שרת, כדי לסייע לכבדי ראייה לראות תמונות. תוכל ללמוד עוד על פרויקט 'תאר בשבילי' ולהשתמש בו על ידי ביקור describeforme.com. למידע נוסף על התכונות הייחודיות של אמזון SageMakerזיהוי אמזון ו שותפות AWS עם Hugging Face.

כתב ויתור על מודל ML של צד שלישי להדרכה

הדרכה זו מיועדת למטרות מידע בלבד. אתה עדיין צריך לבצע הערכה עצמאית משלך, ולנקוט באמצעים כדי להבטיח שאתה מציית לפרקטיקות ולסטנדרטים הספציפיים של בקרת איכות משלך, ולכללים המקומיים, החוקים, התקנות, הרישיונות ותנאי השימוש החלים עליך, התוכן שלך, ו מודל למידה חישובית של צד שלישי המוזכר בהנחיה זו. ל-AWS אין שליטה או סמכות על מודל ה- Machine Learning של צד שלישי הנזכר בהנחיה זו, ואינה מציגה כל מצג או התחייבות לכך שמודל ה- Machine Learning של הצד השלישי מאובטח, נטול וירוסים, תפעולי או תואם לסביבת הייצור שלך. ותקנים. AWS אינה מציגה כל מצג, אחריות או ערבות לכך שכל מידע בהנחיות זה יביא לתוצאה או תוצאה מסוימת.


על הכותבים

ג'ק מרצ'טיג'ק מרצ'טי הוא ארכיטקט פתרונות בכיר ב-AWS המתמקד בסיוע ללקוחות לחדש ולהטמיע ארכיטקטורות נטולות שרתים מונעות אירועים. ג'ק עיוור מבחינה חוקית ומתגורר בשיקגו עם אשתו ארין והחתול מינאו. הוא גם תסריטאי ובמאי עם התמקדות עיקרית בסרטי חג המולד ובאימה. צפו בפילמוגרפיה של ג'ק אצלו דף IMDb.

אלק אסוורדאסאלק אסוורדאס הוא אדריכל פתרונות בכיר ב-AWS שבסיסו בשיקגו, אילינוי. היא נלהבת לעזור ללקוחות לעצב ארכיטקטורות ענן תוך שימוש בשירותי AWS כדי לפתור אתגרים עסקיים. Alak מתלהב מהשימוש ב- SageMaker כדי לפתור מגוון מקרי שימוש ב-ML עבור לקוחות AWS. כשהיא לא עובדת, אלאק נהנית לבלות עם בנותיה ולחקור את החוץ עם הכלבים שלה.

קנדיס בוהנוןקנדיס בוהנון הוא אדריכל פתרונות בכיר שבסיסו ממיניאפוליס, MN. בתפקיד זה, Kandyce עובד כיועץ טכני ללקוחות AWS כאשר הם משדרגים אסטרטגיות טכנולוגיות הקשורות במיוחד לנתונים ו-DevOps כדי ליישם שיטות עבודה מומלצות ב-AWS. בנוסף, קנדיס נלהבת להדריך דורות עתידיים של טכנולוגים ולהציג נשים בטכנולוגיה באמצעות תוכנית AWS She Builds Tech Skills.

טראק דוטראק דו הוא אדריכל פתרונות ב-AWS. בתפקידו, Trac עובד עם לקוחות ארגוניים כדי לתמוך בהעברת הענן ויוזמות מודרניזציה של יישומים. הוא נלהב ללמוד את האתגרים של הלקוחות ולפתור אותם עם פתרונות חזקים וניתנים להרחבה באמצעות שירותי AWS. טראק מתגורר כיום בשיקגו עם אשתו ושלושת בנים. הוא חובב תעופה גדול ובתהליך של השלמת רישיון הטייס הפרטי שלו.

בול זמן:

עוד מ למידת מכונות AWS