אובדן ראייה מגיע בצורות שונות. עבור חלק, זה מלידה, עבור אחרים, זו ירידה איטית לאורך זמן שמגיעה עם תאריכי תפוגה רבים: היום שבו אתה לא יכול לראות תמונות, לזהות את עצמך או את הפנים של אנשים אהובים או אפילו לקרוא את הדואר שלך. בפוסט הקודם שלנו בבלוג אפשר ללקויי ראייה לשמוע מסמכים באמצעות Amazon Textract ו- Amazon Polly, הראינו לך את אפליקציית הטקסט לדיבור שנקראת "קרא בשבילי". הנגישות עברה כברת דרך, אבל מה עם תמונות?
בכנס AWS re:Invent 2022 בלאס וגאס, הדגמנו "תאר עבורי" ב-AWS Builders Fair, אתר המסייע לכבדי ראייה להבין תמונות באמצעות כיתוב תמונה, זיהוי פנים וטקסט לדיבור, טכנולוגיה שאנו מתייחסים אליה כ"תמונה לדיבור". באמצעות שימוש במספר שירותי AI/ML, "תאר עבורי" יוצר כיתוב של תמונת קלט ויקרא אותה בחזרה בקול ברור וצליל טבעי במגוון שפות ודיאלקטים.
בפוסט זה בבלוג אנו מדריכים אותך דרך ארכיטקטורת הפתרונות שמאחורי "תאר עבורי", ואת שיקולי העיצוב של הפתרון שלנו.
סקירת פתרונות
ארכיטקטורת ההתייחסות הבאה מציגה את זרימת העבודה של משתמש מצלם תמונה עם טלפון ומשמיע MP3 של הכיתוב לתמונה.
זרימת העבודה כוללת את השלבים הבאים,
- AWS להגביר מפיץ את אפליקציית האינטרנט DescribeForMe המורכבת מ-HTML, JavaScript ו-CSS למכשירים הניידים של משתמשי הקצה.
- השמיים אמזון קוגניטו מאגר הזהויות מעניק גישה זמנית ל- אמזון S3 דְלִי.
- המשתמש מעלה קובץ תמונה ל- אמזון S3 דלי באמצעות AWS SDK דרך אפליקציית האינטרנט.
- אפליקציית האינטרנט DescribeForMe מפעילה את שירותי הבינה המלאכותית האחורית על ידי שליחת אמזון S3 אובייקט הכנס את המטען ל שער API של אמזון
- שער API של אמזון מדגימה an פונקציות שלב AWS זרימת עבודה. מכונת המדינה מתזמנת את שירותי הבינה המלאכותית/למידת מכונה (AI/ML). אמזון, אמזון SageMaker, טקסטורה באמזון, אמזון תרגום, ו אמזון פולי באמצעות AWS למבדה פונקציות.
- השמיים פונקציות שלב AWS זרימת עבודה יוצרת קובץ שמע כפלט ומאחסנת אותו אמזון S3 בפורמט MP3.
- כתובת URL חתומה מראש עם המיקום של קובץ השמע המאוחסן ב אמזון S3 נשלח חזרה לדפדפן המשתמש דרך שער API של אמזון. המכשיר הנייד של המשתמש מנגן את קובץ השמע באמצעות כתובת האתר החתומה מראש.
הדרכה לפתרון
בחלק זה נתמקד בשיקולי העיצוב מדוע בחרנו
- עיבוד מקביל בתוך an פונקציות שלב AWS זרימת עבודה
- מודל למידת מכונה מאוחדת מרצף לרצף OFA (One For All) מ פנים מחבקות ל אמזון SageMaker לכיתוב תמונה
- אמזון לזיהוי פנים
לסקירה מפורטת יותר מדוע בחרנו בארכיטקטורה ללא שרת, זרימת עבודה סינכרונית, זרימת עבודה של פונקציות מהירות, ארכיטקטורה ללא ראש והיתרונות שהושגו, אנא קרא את הפוסט הקודם שלנו בבלוג אפשר ללקויי ראייה לשמוע מסמכים באמצעות Amazon Textract ו- Amazon Polly.
עיבוד מקבילי
שימוש בעיבוד מקביל בתוך זרימת העבודה Step Functions הפחית את זמן החישוב עד ל-48%. ברגע שהמשתמש מעלה את התמונה ל-S3 bucket, Amazon API Gateway יוצר זרימת עבודה של AWS Step Functions. לאחר מכן שלוש פונקציות Lambda להלן מעבדות את התמונה בתוך זרימת העבודה Step Functions במקביל.
- פונקציית Lambda הראשונה שנקראה
describe_image
מנתח את התמונה באמצעות דגם OFA_IMAGE_CAPTION מתארח בנקודת קצה של SageMaker בזמן אמת כדי לספק כיתוב תמונה. - הפונקציה השנייה של Lambda נקראה
describe_faces
תחילה בודק אם יש פרצופים המשתמשים בזיהוי של אמזון Detect Faces API, ואם זה נכון, זה קורא ל-API של Compare Faces. הסיבה לכך היא Compare Faces יזרוק שגיאה אם לא נמצאו פרצופים בתמונה. כמו כן, הקריאה ל-Detect Faces תחילה היא מהירה יותר מאשר הפעלת Compare Faces וטיפול בשגיאות, כך שעבור תמונות ללא פנים בהן, זמן העיבוד יהיה מהיר יותר. - פונקציית Lambda השלישית שנקראה
extract_text
מטפל בטקסט לדיבור באמצעות Amazon Textract, ו- Amazon Comprehend.
ביצוע פונקציות Lambda ברצף מתאים, אך הדרך המהירה והיעילה יותר לעשות זאת היא באמצעות עיבוד מקביל. הטבלה הבאה מציגה את זמן החישוב שנשמר עבור שלוש תמונות לדוגמה.
תמונה | אֲנָשִׁים | זמן רציף | זמן מקביל | חיסכון בזמן (%) | הכותרת |
0 | 1869ms | 1702ms | 8% | חתול טאבי מכורבל במיטה לבנה רכה. | |
1 | 4277ms | 2197ms | 48% | אישה בחולצה ירוקה וקרדיגן שחור מחייכת למצלמה. אני מזהה אדם אחד: Kanbo. | |
4 | 6603ms | 3904ms | 40% | אנשים עומדים מול כדורי האמזונס. אני מזהה 3 אנשים: קנבו, ג'ק ואיימן. |
כיתוב תמונה
Hugging Face היא קהילה בקוד פתוח ופלטפורמת מדעי נתונים המאפשרת למשתמשים לשתף, לבנות, לאמן ולפרוס מודלים של למידת מכונה. לאחר שבדקנו דגמים הזמינים במרכז הדגמים של Hugging Face, בחרנו להשתמש ב- דגם OFA מכיוון שכפי שמתואר על ידי המחברים, זוהי "מסגרת אגנוסטית של מטלות ו-מודאליות-אגנוסטית התומכת ב-Task Comprehensiveness".
OFA הוא צעד לקראת "One For All", מכיוון שהוא מודל מאוחד מולטי-מודאלי מאומן מראש שיכול לעבור למספר משימות במורד הזרם ביעילות. בעוד שמודל OFA תומך במשימות רבות כולל הארקה ויזואלית, הבנת שפה ויצירת תמונות, השתמשנו ב דגם OFA לכיתוב תמונה בפרויקט Describe For Me כדי לבצע את חלק התמונה לטקסט של היישום. בדוק את המאגר הרשמי של OFA (ICML 2022), מאמר ללמוד על הארכיטקטורות, המשימות והשיטות המאחדות של OFA באמצעות מסגרת למידה פשוטה מרצף לרצף.
כדי לשלב את OFA באפליקציה שלנו, שיבטנו את ה-repo מ- Hugging Face ויכלנו את המודל כדי לפרוס אותו לנקודת קצה של SageMaker. ה מחברת בריפו זה הוא מדריך מצוין לפריסת הדגם הגדול של OFA במחברת Jupyter ב- SageMaker. לאחר מיכל סקריפט ההסקה שלך, המודל מוכן לפריסה מאחורי נקודת קצה של SageMaker כמתואר ב- SageMaker תיעוד. לאחר פריסת המודל, צור נקודת קצה HTTPS שניתן לשלב עם פונקציית ה- "describe_image" למבדה המנתחת את התמונה כדי ליצור את כיתוב התמונה. פרסנו את המודל הזעיר של OFA מכיוון שהוא דגם קטן יותר וניתן לפרוס אותו בפרק זמן קצר יותר תוך השגת ביצועים דומים.
דוגמאות לתוכן תמונה לדיבור שנוצר על ידי "תאר בשבילי" מוצגות להלן:
זוהר הצפון, או הזוהר הצפוני, ממלא את שמי הלילה מעל צללית של בית.
כלב ישן על שמיכה אדומה על רצפת עץ, ליד מזוודה פתוחה מלאה בצעצועים..
חתול טאבי מכורבל במיטה לבנה רכה.
זיהוי פנים
אמזון זיהוי תמונה מספקת את DetectFaces פעולה שמחפשת תווי פנים מרכזיים כגון עיניים, אף ופה כדי לזהות פרצופים בתמונת קלט. בפתרון שלנו אנו ממנפים את הפונקציונליות הזו כדי לזהות כל אדם בתמונת הקלט. אם אדם מזוהה, אנו משתמשים ב- השווה פרצופים פעולה להשוואת הפנים בתמונת הקלט עם הפנים שאיתם "תאר בשבילי" הוכשרה ולתאר את האדם בשמו. בחרנו להשתמש ב-Rekognition לזיהוי פנים בגלל הדיוק הגבוה וכמה פשוט היה להשתלב באפליקציה שלנו עם יכולות מחוץ לקופסה.
קבוצת אנשים מצטלמים בחדר. אני מזהה 4 אנשים: ג'ק, קנבו, אלאק וטראק. בתמונה נמצא גם טקסט. כתוב: AWS re: Invent
מקרי שימוש פוטנציאליים
יצירת טקסט חלופי עבור תמונות אינטרנט
כל התמונות באתר אינטרנט נדרשות לכלול טקסט חלופי כדי שקוראי מסך יוכלו לדבר אותן עם לקויי ראייה. זה גם טוב עבור אופטימיזציה למנועי חיפוש (SEO). יצירת כתוביות חלופיות עשויה להיות גוזלת זמן מכיוון שהמשימה של קופירייטר היא לספק אותן בתוך מסמך עיצוב. ה-API של Describe For Me יכול ליצור אוטומטית טקסט חלופי לתמונות. זה יכול לשמש גם כתוסף לדפדפן כדי להוסיף אוטומטית כיתוב תמונה לתמונות חסרות טקסט חלופי בכל אתר אינטרנט.
תיאור אודיו עבור וידאו
תיאור אודיו מספק רצועת קריינות לתוכן וידאו כדי לעזור ללקויי ראייה לעקוב אחר סרטים. ככל שהכיתוב תמונה הופך חזק ומדויק יותר, זרימת עבודה הכוללת יצירת רצועת אודיו המבוססת על תיאורים של חלקים מרכזיים בסצנה עשויה להיות אפשרית. Amazon Rekognition כבר יכולה לזהות שינויים בסצנה, לוגואים ורצפי קרדיט, וזיהוי סלבריטאים. גרסה עתידית של תאר תאפשר להפוך את תכונת המפתח הזו לאוטומטית עבור סרטים וסרטונים.
סיכום
בפוסט זה, דנו כיצד להשתמש בשירותי AWS, כולל AI ושירותים ללא שרת, כדי לסייע לכבדי ראייה לראות תמונות. תוכל ללמוד עוד על פרויקט 'תאר בשבילי' ולהשתמש בו על ידי ביקור describeforme.com. למידע נוסף על התכונות הייחודיות של אמזון SageMaker, זיהוי אמזון ו שותפות AWS עם Hugging Face.
כתב ויתור על מודל ML של צד שלישי להדרכה
הדרכה זו מיועדת למטרות מידע בלבד. אתה עדיין צריך לבצע הערכה עצמאית משלך, ולנקוט באמצעים כדי להבטיח שאתה מציית לפרקטיקות ולסטנדרטים הספציפיים של בקרת איכות משלך, ולכללים המקומיים, החוקים, התקנות, הרישיונות ותנאי השימוש החלים עליך, התוכן שלך, ו מודל למידה חישובית של צד שלישי המוזכר בהנחיה זו. ל-AWS אין שליטה או סמכות על מודל ה- Machine Learning של צד שלישי הנזכר בהנחיה זו, ואינה מציגה כל מצג או התחייבות לכך שמודל ה- Machine Learning של הצד השלישי מאובטח, נטול וירוסים, תפעולי או תואם לסביבת הייצור שלך. ותקנים. AWS אינה מציגה כל מצג, אחריות או ערבות לכך שכל מידע בהנחיות זה יביא לתוצאה או תוצאה מסוימת.
על הכותבים
ג'ק מרצ'טי הוא ארכיטקט פתרונות בכיר ב-AWS המתמקד בסיוע ללקוחות לחדש ולהטמיע ארכיטקטורות נטולות שרתים מונעות אירועים. ג'ק עיוור מבחינה חוקית ומתגורר בשיקגו עם אשתו ארין והחתול מינאו. הוא גם תסריטאי ובמאי עם התמקדות עיקרית בסרטי חג המולד ובאימה. צפו בפילמוגרפיה של ג'ק אצלו דף IMDb.
אלק אסוורדאס הוא אדריכל פתרונות בכיר ב-AWS שבסיסו בשיקגו, אילינוי. היא נלהבת לעזור ללקוחות לעצב ארכיטקטורות ענן תוך שימוש בשירותי AWS כדי לפתור אתגרים עסקיים. Alak מתלהב מהשימוש ב- SageMaker כדי לפתור מגוון מקרי שימוש ב-ML עבור לקוחות AWS. כשהיא לא עובדת, אלאק נהנית לבלות עם בנותיה ולחקור את החוץ עם הכלבים שלה.
קנדיס בוהנון הוא אדריכל פתרונות בכיר שבסיסו ממיניאפוליס, MN. בתפקיד זה, Kandyce עובד כיועץ טכני ללקוחות AWS כאשר הם משדרגים אסטרטגיות טכנולוגיות הקשורות במיוחד לנתונים ו-DevOps כדי ליישם שיטות עבודה מומלצות ב-AWS. בנוסף, קנדיס נלהבת להדריך דורות עתידיים של טכנולוגים ולהציג נשים בטכנולוגיה באמצעות תוכנית AWS She Builds Tech Skills.
טראק דו הוא אדריכל פתרונות ב-AWS. בתפקידו, Trac עובד עם לקוחות ארגוניים כדי לתמוך בהעברת הענן ויוזמות מודרניזציה של יישומים. הוא נלהב ללמוד את האתגרים של הלקוחות ולפתור אותם עם פתרונות חזקים וניתנים להרחבה באמצעות שירותי AWS. טראק מתגורר כיום בשיקגו עם אשתו ושלושת בנים. הוא חובב תעופה גדול ובתהליך של השלמת רישיון הטייס הפרטי שלו.
- הפצת תוכן ויחסי ציבור מופעל על ידי SEO. קבל הגברה היום.
- PlatoAiStream. Web3 Data Intelligence. הידע מוגבר. גישה כאן.
- הטבעת העתיד עם אדריאן אשלי. גישה כאן.
- קנה ומכירה של מניות בחברות PRE-IPO עם PREIPO®. גישה כאן.
- מקור: https://aws.amazon.com/blogs/machine-learning/introducing-an-image-to-speech-generative-ai-application-using-amazon-sagemaker-and-hugging-face/
- :יש ל
- :הוא
- :לֹא
- $ למעלה
- 100
- 2022
- 7
- a
- אודות
- מֵעַל
- גישה
- דיוק
- מדויק
- השגתי
- להוסיף
- בנוסף
- יועץ
- לאחר
- AI
- שירותי AI
- AI / ML
- סיוע
- תעשיות
- להתיר
- מאפשר
- לאורך
- כְּבָר
- גם
- חלופה
- אמזון בעברית
- שער API של אמזון
- אמזון להתבונן
- אמזון
- אמזון SageMaker
- טקסטורה באמזון
- אמזון שירותי אינטרנט
- an
- ניתוחים
- ו
- כל
- API
- האפליקציה
- בקשה
- החל
- ארכיטקטורה
- ARE
- מלאכותי
- בינה מלאכותית
- AS
- הערכה
- At
- אודיו
- כּוֹכָב הַשַׁחַר
- סמכות
- מחברים
- באופן אוטומטי
- אוטומציה
- זמין
- תעופה
- AWS
- פונקציות שלב AWS
- בחזרה
- קצה אחורי
- מבוסס
- BE
- כי
- הופך להיות
- היה
- מאחור
- להלן
- הטבות
- הטוב ביותר
- שיטות עבודה מומלצות
- גָדוֹל
- שחור
- בלוג
- אריזה מקורית
- דפדפן
- לִבנוֹת
- בונה
- עסקים
- אבל
- by
- נקרא
- קוראים
- שיחות
- חדר
- CAN
- יכולות
- כיתובים
- מקרים
- חָתוּל
- סלבריטאים
- האתגרים
- שינויים
- לבדוק
- בדיקות
- שיקגו
- בחר
- חַג הַמוֹלָד
- ברור
- ענן
- איך
- מגיע
- קהילה
- לְהַשְׁווֹת
- תואם
- מַשׁלִים
- לִהַבִין
- לחשב
- כנס
- שיקולים
- מורכב
- תוכן
- לִשְׁלוֹט
- בקרות
- יכול
- לִיצוֹר
- יוצר
- יוצרים
- יצירה
- אשראי
- CSS
- כיום
- לקוחות
- נתונים
- מדע נתונים
- תאריכים
- יְוֹם
- מופגן
- לפרוס
- פרס
- לתאר
- מְתוּאָר
- תיאור
- עיצוב
- מְפוֹרָט
- זוהה
- איתור
- מכשיר
- התקנים
- מְנַהֵל
- נָדוֹן
- do
- מסמך
- מסמכים
- עושה
- כֶּלֶב
- עושה
- יעילות
- יעיל
- סוף
- נקודת קצה
- מנוע
- לְהַבטִיחַ
- מִפְעָל
- נלהב
- נלהב
- סביבה
- שגיאה
- שגיאות
- במיוחד
- אֲפִילוּ
- מצוין
- תפוגה
- היכרות
- אקספרס
- עיניים
- פָּנִים
- פנים
- פנים
- זיהוי פנים
- הוגן
- מהר יותר
- מאפיין
- תכונות
- שלח
- למלא
- ממולא
- ראשון
- קוֹמָה
- להתמקד
- מרוכז
- לעקוב
- הבא
- בעד
- פוּרמָט
- צורות
- מצא
- מסגרת
- החל מ-
- חזית
- פונקציה
- פונקציונלי
- פונקציות
- עתיד
- שער כניסה
- ליצור
- נוצר
- מייצר
- דור
- דורות
- גנרטטיבית
- AI Generative
- טוב
- מענקים
- ירוק
- קְבוּצָה
- ערבויות
- הדרכה
- מדריך
- מטפל
- טיפול
- יש
- he
- לִשְׁמוֹעַ
- לעזור
- עזרה
- עוזר
- לה
- גָבוֹהַ
- שֶׁלוֹ
- אימה
- אירח
- בית
- איך
- איך
- HTML
- HTTPS
- טבור
- i
- if
- אילינוי
- תמונה
- תמונות
- ליישם
- in
- כולל
- כולל
- עצמאי
- מידע
- מידע
- יוזמות
- קלט
- לשלב
- משולב
- מוֹדִיעִין
- אל תוך
- החדרה
- מעורר
- מעורב
- IT
- שקע
- JavaScript
- jpg
- מפתח
- שפה
- שפות
- גָדוֹל
- אס
- לאס וגאס
- חוקים
- לִלמוֹד
- למידה
- תנופה
- רישיון
- רישיונות
- חי
- מקומי
- מיקום
- ארוך
- נראה
- את
- אהבתי
- מכונה
- למידת מכונה
- לעשות
- רב
- אמצעים
- חונך
- חסר
- ML
- סלולרי
- מכשיר נייד
- מכשירים ניידים
- מודל
- מודלים
- לְחַדֵשׁ
- יותר
- יותר יעיל
- פה
- סרטים
- מספר
- שם
- הבא
- לילה
- לא
- אף
- מחברה
- מספר
- of
- רשמי
- on
- פעם
- ONE
- יחידות
- רק
- לפתוח
- קוד פתוח
- מבצע
- מבצעי
- אופטימיזציה
- or
- אחרים
- שלנו
- הַחוּצָה
- תוֹצָאָה
- בחוץ
- תפוקה
- יותר
- סקירה
- שֶׁלוֹ
- מקביל
- מסוים
- שותפות
- חלקים
- צד
- לוהט
- אֲנָשִׁים
- לְבַצֵעַ
- ביצועים
- תקופה
- אדם
- טלפון
- תמונה
- תמונות
- טַיָס
- פלטפורמה
- אפלטון
- מודיעין אפלטון
- אפלטון נתונים
- משחק
- משחק
- אנא
- חיבור
- בריכה
- חלק
- אפשרי
- הודעה
- פרקטיקות
- קודם
- יְסוֹדִי
- פְּרָטִי
- תהליך
- תהליך
- הפקה
- תָכְנִית
- פּרוֹיֶקט
- לספק
- מספק
- מתן
- למטרות
- איכות
- RE
- חומר עיוני
- הקוראים
- מוכן
- זמן אמת
- טעם
- הכרה
- להכיר
- Red
- מופחת
- תקנון
- קָשׁוּר
- מאגר
- נדרש
- תוצאה
- חָסוֹן
- תפקיד
- חֶדֶר
- כללי
- ריצה
- בעל חכמים
- חיסכון
- להרחבה
- סצינה
- מדע
- מסך
- קוראי מסך
- Sdk
- חיפוש
- מנוע חיפוש
- שְׁנִיָה
- סעיף
- לבטח
- לִרְאוֹת
- שליחה
- לחצני מצוקה לפנסיונרים
- נשלח
- SEO
- ללא שרת
- שירותים
- שיתוף
- היא
- צריך
- לראווה
- הראה
- הראה
- הופעות
- דומה
- פָּשׁוּט
- בפשטות
- אתר
- מיומנויות
- הם
- להאט
- קטן יותר
- So
- פִּתָרוֹן
- פתרונות
- לפתור
- פותר
- כמה
- לדבר
- ספציפי
- נאום
- הוצאה
- תקנים
- מדינה
- שלב
- צעדים
- עוד
- מאוחסן
- חנויות
- אסטרטגיות
- כזה
- מַתְאִים
- תמיכה
- תומך
- חֲתוּלָה
- שולחן
- לקחת
- נטילת
- המשימות
- משימות
- טק
- טכני
- טכנולוגים
- טכנולוגיה
- זמני
- מונחים
- טקסט לדיבור
- מֵאֲשֶׁר
- זֶה
- השמיים
- המדינה
- שֶׁלָהֶם
- אותם
- אז
- שם.
- הֵם
- שְׁלִישִׁי
- צד שלישי
- זֶה
- שְׁלוֹשָׁה
- דרך
- זמן
- ל
- לקראת
- לעקוב
- רכבת
- מְאוּמָן
- להעביר
- נָכוֹן
- להבין
- הבנה
- מאוחד
- ייחודי
- על
- כתובת האתר
- להשתמש
- מְשׁוּמָשׁ
- משתמש
- משתמשים
- באמצעות
- מנוצל
- ניצול
- מגוון
- שונים
- VEGAS
- גרסה
- וִידֵאוֹ
- וידאו
- לצפיה
- קול
- היה
- דֶרֶך..
- we
- אינטרנט
- שירותי אינטרנט
- אתר
- טוֹב
- מה
- מתי
- אשר
- בזמן
- לבן
- למה
- רעיה
- יצטרך
- עם
- בתוך
- לְלֹא
- אשה
- נשים
- נשים בטכנולוגיה
- עובד
- עובד
- היה
- אתה
- עצמך
- זפירנט