קריאת המילה המודפסת פותחת עולם של מידע, דמיון ויצירתיות. עם זאת, ספרים ומסמכים סרוקים עשויים להיות קשים לצרוך עבור אנשים עם לקויות ראייה ולקויי למידה. בנוסף, יש אנשים שמעדיפים להאזין לתוכן מבוסס טקסט לעומת לקרוא אותו. פתרון מסמך לדיבור מרחיב את טווח ההגעה של תוכן דיגיטלי על ידי מתן קול לתוכן טקסט. יש לו שימושים במגזרי תעשייה שונים, כגון:
- בידור- אתה יכול ליצור ספרי שמע משלך.
- חינוך - תלמידים יכולים להמיר את הערות ההרצאה שלהם לדיבור ולגשת אליהם בכל מקום.
- טיפול בחולים - הוראות המינון ואמצעי הזהירות הן בדרך כלל בגופנים קטנים וקשים לקריאה. בעזרת פתרון זה, תוכל לצלם תמונה, להמיר לדיבור ולהקשיב להוראות על מנת למנוע נזק אפשרי.
פתרון המסמך לדיבור ממיר ספרים סרוקים או מסמכים שצולמו בטלפון נייד או במכשיר כף יד אוטומטית לדיבור. פתרון זה מרחיב את היכולות של אמזון פולי. אנחנו לחלץ טקסט ממסמכים סרוקים באמצעות טקסטורה באמזון, ולאחר מכן המר את ה טקסט לדיבור באמצעות אמזון פולי. יתרונות הפתרון כוללים ניידות וחופש למשתמש בתוספת יכולות למידה משופרות עבור קוראים מוקדמים.
הרעיון מקורו בהארי פן, אחת הפעילויות האהובות על הורה-ילד של מחבר הבלוג - קריאת ספרים. "הבן שלי נהנה מספרי סיפורים, אבל הוא צעיר מכדי לקרוא בעצמו. אני אוהב לקרוא לו, אבל לפעמים אני צריך לעבוד או לטפל בעבודות הבית. זה עורר רעיון לבנות פתרון מסמך לדיבור שיוכל לקרוא לו כשאני עסוק".
סקירה כללית של הפיתרון
הפתרון הוא ארכיטקטורה ללא שרת מונעת אירועים המשתמשת בשירותי בינה מלאכותית של אמזון כדי להמיר מסמכים סרוקים לדיבור. Amazon Textract ואמזון פולי שייכים לשכבה העליונה ביותר של ערימת הלמידה המכונה של AWS (ML). שירותים אלו מאפשרים למפתחים להוסיף בקלות אינטליגנציה לכל אפליקציה ללא ידע מוקדם ב-ML.
Amazon Textract הוא שירות ML המחלץ אוטומטית טקסט, כתב יד ונתונים ממסמכים סרוקים. זה חורג מזיהוי תווים אופטי פשוט (OCR) לזהות, להבין ולחלץ נתונים מטפסים וטבלאות. Amazon Textract משתמשת ב-ML כדי לקרוא ולעבד כל סוג של מסמך, תוך חילוץ מדויק של טקסט, כתב יד, טבלאות ונתונים אחרים ללא כל מאמץ ידני.
אמזון פולי הוא שירות טקסט לדיבור שהופך טקסט לדיבור אמיתי, המאפשר לך ליצור יישומים שמדברים ולבנות קטגוריות חדשות לגמרי של מוצרים התומכים בדיבור. אמזון פולי משתמשת בטכנולוגיות למידה עמוקה מתקדמות כדי לסנתז דיבור שנשמע כמו קול אנושי.
ישנם יתרונות משמעותיים בשימוש בשירותי בינה מלאכותית של אמזון:
- הם לוקחים מעט מאמץ; אתה יכול לשלב ממשקי API אלה בכל יישום
- הם מציעים פתרונות ניתנים להרחבה וחסכוניים ביותר
- הארגון שלך יכול להעביר את המיקוד שלו מפיתוח מודלים מותאמים אישית לתוצאות עסקיות
הפתרון משתמש גם שער API של אמזון כדי לעמוד במהירות ממשקי API שממשק המשתמש באינטרנט יכול להפעיל כדי לבצע פעולות כמו העלאת מסמכים והמרת מסמכים סרוקים לדיבור. API Gateway מספק דרך ניתנת להרחבה ליצור, לפרסם ולתחזק ממשקי API מאובטחים. בפתרון זה, אנו משתמשים גם בתמיכה ב-API Gateway WebSocket כדי ליצור חיבור מתמשך בין ממשק המשתמש לאינטרנט ל-backend, כך שה-backend יכול להמשיך לשלוח עדכוני התקדמות למשתמש בזמן אמת.
אנו משתמשים AWS למבדה פונקציות להפעלת משרות א-סינכרוניות של Amazon Textract ו- Amazon Polly. Lambda הוא שירות מחשוב זמין וניתן להרחבה המאפשר לך להריץ קוד מבלי לספק משאבים.
אנו משתמשים ב- פונקציות שלב AWS מכונת מצב לתזמור שתי פונקציות למבדה מקבילות - אחת למתן טקסט והשנייה לאחסון טקסט שירות אחסון פשוט של אמזון (אמזון S3). Step Functions הוא שירות תזמור ללא שרת להגדרת זרימות עבודה של יישומים כסדרה של שלבים מונעי אירועים.
ארכיטקטורה וקוד
כפי שתואר בסעיף הקודם, אנו משתמשים בשני שירותי AI מפתח, Amazon Textract ו-Amazon Polly, כדי לבנות פתרון המרת מסמכים לדיבור. שירות נוסף שלא נגענו בו הוא AWS להגביר. Amplify מאפשרת למפתחים חזיתיים לבנות במהירות אפליקציות אינטרנט וטלפון נייד הניתנות להרחבה, מלאות. עם Amplify, אתה יכול להגדיר בקלות קצה אחורי, לחבר אליו אפליקציה בתוך דקות ולהגדיל ללא מאמץ. אנו משתמשים ב- Amplify כדי לארח ממשק משתמש אינטרנטי המאפשר למשתמשים להעלות את המסמכים הסרוקים שלהם.
אתה יכול גם להשתמש בממשק המשתמש שלך ללא Amplify. כאשר אנו צוללים לעומק הפתרון הזה, אנו מראים כיצד ניתן להשתמש בכל יישום לקוח כדי להתחבר ל-backend כדי להמיר מסמכים לדיבור - כל עוד הם תומכים בממשקי API של REST ו-WebSocket. ממשק המשתמש של האינטרנט כאן הוא פשוט כדי להדגים תכונות מפתח של פתרון זה. נכון לכתיבת שורות אלה, הפתרון תומך בפורמטים של קלט JPEG, PNG ו-PDF, ובשפה האנגלית.
התרשים הבא ממחיש את ארכיטקטורת הפתרונות.
אנו עוברים דרך הארכיטקטורה הזו על ידי ביצוע הנתיב של בקשת משתמש בודדת:
- המשתמש מבקר בממשק המשתמש של האינטרנט המתארח ב- Amplify. קוד ממשק המשתמש הוא
index.html
הקובץclient
תיקיה של מאגר הקודים. - המשתמש בוחר קובץ JPG, PDF או PNG להעלאה באמצעות ממשק המשתמש של האינטרנט.
- המשתמש יוזם את המר והפעל אודיו תהליך מממשק המשתמש של האינטרנט, אשר מעלה את קובץ הקלט לדלי S3, דרך REST API המתארח ב-API Gateway.
- כשההעלאה תושלם, ההמרה של מסמך לדיבור מתחילה כתהליך רקע:
- במהלך ההמרה, לקוח האינטרנט שומר על חיבור WebSocket מתמשך עם שער ה-API. זה מאפשר לתהליכי הקצה האחורי (פונקציות Lambda) לשלוח ברציפות עדכוני התקדמות ללקוח האינטרנט.
- הבקשה עוברת דרך ה-API Gateway ומפעילה את פונקציית Lambda
convert-images-to-text
. פונקציה זו קוראת ל- Amazon Textract באופן אסינכרוני כדי להמיר את המסמך לטקסט. - כאשר ההמרה של תמונה לטקסט הושלמה, Amazon Textract שולחת הודעה אל שירות התראה פשוט של אמזון (Amazon SNS).
- ההודעה מפעילה את פונקציית Lambda
on-textract-ready
, שמתניע מכונת מצב Step Functions. - מכונת המדינה מתזמרת את השלבים הבאים:
- הוא מריץ את פונקציית Lambda
retrieve-text
להשיג את הטקסט המומר מאמזון Textract. - לאחר מכן הוא מריץ פונקציות למבדה
moderate-text
וstore-text
במקביל.moderate-text
מפסיק עיבוד נוסף כאשר מתגלות מילים לא רצויות, וstore-text
מאחסן עותק של הטקסט שהומר לדלי S3. - לאחר השלמת השלבים המקבילים, מכונת המצב מפעילה את פונקציית Lambda
convert-text-to-audio
, אשר מפעיל את Amazon Polly באופן אסינכרוני עם הטקסט שהומר, להמרת דיבור. מכונת המצב מסתיימת לאחר שלב זה.
- הוא מריץ את פונקציית Lambda
- בדומה ל-Amazon Textract, אמזון פולי שולחת הודעה לאמזון SNS כאשר העבודה מסתיימת. ההודעה מפעילה את פונקציית Lambda
on-polly-ready
, ששולח הודעה סופית לממשק המשתמש של האינטרנט יחד עם המיקום של Amazon S3 של קובץ השמע שהומר.
- ממשק המשתמש של האינטרנט מוריד את קובץ האודיו הסופי שהומר מאמזון S3 דרך REST API, ולאחר מכן מנגן אותו עבור המשתמש.
- האפליקציה משתמשת ב-an אמזון דינמו טבלה למעקב אחר מידע על עבודה כגון מזהה משרה של Amazon Textract, מזהה משרה של Amazon Polly ועוד.
הקוד מתארח ב- GitHub ונפרס באמצעות ערכת פיתוח ענן AWS (AWS CDK), מסגרת פיתוח תוכנה בקוד פתוח להגדרת משאבי יישומי ענן באמצעות שפות תכנות מוכרות. AWS CDK מספקת משאבים באופן שניתן לחזור עליו AWS CloudFormation.
תנאים מוקדמים
התנאי המקדים היחיד לפריסת פתרון זה הוא חשבון AWS.
פרוס את הפתרון
השלבים הבאים מפרטים כיצד לפרוס את האפליקציה:
- היכנס לחשבון AWS שלך.
- על AWS Cloud9 מסוף, פתח סביבה קיימת או בחר צור סביבה כדי ליצור אחד חדש.
- ב-AWS Cloud9 IDE שלך, ב- חלון בתפריט, בחר טרמינל חדש לפתוח מסוף.
כל השלבים הבאים מתבצעים באותו מסוף.
- שכפל את מאגר git והיכנס לספריית הפרויקט:
- צור סביבה וירטואלית של Python:
- לאחר השלמת תהליך ה-Init והסביבה הוירטואלית נוצרה, השתמש בשלב הבא כדי להפעיל את הסביבה הוירטואלית שלך:
- לאחר הפעלת הסביבה הוירטואלית, התקן את התלות הנדרשת:
- כעת אתה יכול לסנתז את תבניות CloudFormation מקוד AWS CDK:
- פרוס את אפליקציית AWS CDK ולכידת פלטי AWS CDK הדרושים מאוחר יותר:
עליך לאשר שינויים לפריסה עבור כל מחסנית. אתה יכול לבדוק את התקדמות יצירת הערימה במסוף AWS Cloud Formation.
- כדי לבקר בלקוח האינטרנט, הפעל את הפקודה הבאה ובצע את הפלט שלה כדי להתחיל בפריסה חזיתית ולהשתמש בלקוח האינטרנט:
דברים מרכזיים שיש לשים לב אליהם:
- השמיים
extract-cdk-outputs.py
סקריפט מדפיס את כתובת האתר של ממשק המשתמש באינטרנט. הסקריפט גם מדפיס מחרוזות של שם הדלי S3, נקודת הקצה של ה-API של הקובץ ונקודת הקצה של ה-API של ההמרה, שיש להגדיר בממשק האינטרנט לפני העלאת מסמך. - אתה יכול להגדיר את רשימת המילים הבלתי רצויות במשתנה ב-
moderate-text
פונקצית למבדה.
השתמש באפליקציה
השלבים הבאים מדגימים כיצד להשתמש באפליקציה דרך ממשק המשתמש האינטרנטי.
- לאחר השלב האחרון של הפריסה, מלא את השדות עבור שם דלי S3, נקודת קצה של קובץ, ו נקודת קצה המרה בממשק המשתמש של האינטרנט.
- בחרו בחר קובץ כדי להעלות קובץ קלט.
- בחרו המר והפעל אודיו.
ממשק המשתמש של האינטרנט מציג את התקדמות ההמרה המתמשכת.
ממשק המשתמש של האינטרנט מנגן את האודיו באופן אוטומטי כאשר ההמרה הושלמה.
לנקות את
הפעל את הפקודה הבאה כדי למחוק את כל המשאבים ולהימנע מחיובים עתידיים:
סיכום
בפוסט זה, הדגמנו פתרון לפריסה מהירה של אפליקציית המרת מסמכים לדיבור באמצעות שני שירותי AI רבי עוצמה: Amazon Textract ו- Amazon Polly. הראינו איך הפתרון עובד וסיפקנו הדרכה מפורטת של הקוד ושלבי הפריסה. פתרון זה נועד להיות ארכיטקטורת ייחוס או התחלה מהירה שתוכל לשפר עוד יותר. יש לציין, אתה יכול להוסיף תמיכה לשפות אנושיות נוספות, להוסיף תור לאגירת בקשות נכנסות ולאמת משתמשים.
כפי שנדון בפוסט זה, אנו רואים מקרי שימוש מרובים עבור פתרון זה על פני ענפי תעשייה שונים. נסה זאת וספר לנו כיצד זה פתר את מקרה השימוש שלך על ידי השארת משוב בקטע ההערות. אתה יכול לגשת למשאבים עבור הפתרון ב- מאגר GitHub של מסמך לדיבור.
הפניות
מידע נוסף זמין במשאבים הבאים:
- מדריך למפתחי טקסטורה של אמזון
- מדריך למפתחים של אמזון פולי
- עבודה עם ממשקי API של WebSocket
- ספריית AWS CDK Construct
- AWS Amplify Construct Library
על הכותבים
הארי פן הוא ארכיטקט פתרונות ISV בשירותי האינטרנט של אמזון שבסיסו באזור מפרץ סן פרנסיסקו, שם הוא עוזר לחברות תוכנה להשיג את המטרות העסקיות שלהן על ידי בניית מערכות IT מעוצבות היטב. הוא אוהב לבלות את זמנו הפנוי עם משפחתו, כמו גם לשחק טניס, לתכנת בהאסקל ולטייל.
Cהייטרה מאתור הוא אדריכל פתרונות ראשי ב-AWS. היא מדריכה שותפים ולקוחות בבניית פתרונות מדרגיים, אמינים, מאובטחים וחסכוניים ביותר ב-AWS. בזמנה הפנוי היא נהנית לקרוא, יוגה ולבלות עם בנותיה.
- Coinsmart. בורסת הביטקוין והקריפטו הטובה באירופה.
- Platoblockchain. Web3 Metaverse Intelligence. ידע מוגבר. גישה חופשית.
- CryptoHawk. רדאר אלטקוין. ניסיון חינם.
- מקור: https://aws.amazon.com/blogs/machine-learning/increase-your-content-reach-with-automated-document-to-speech-conversion-using-amazon-ai-services/
- "
- &
- 10
- 100
- 7
- 9
- גישה
- חֶשְׁבּוֹן
- לרוחב
- פעילויות
- תוספת
- נוסף
- מתקדם
- יתרונות
- AI
- שירותי AI
- תעשיות
- מאפשר
- אמזון בעברית
- אמזון שירותי אינטרנט
- בְּכָל מָקוֹם
- API
- ממשקי API
- בקשה
- יישומים
- אפליקציות
- ארכיטקטורה
- AREA
- אודיו
- אוטומטי
- זמין
- AWS
- רקע
- מִפרָץ
- הטבות
- מעבר
- בלוג
- ספרים
- גבול
- לִבנוֹת
- בִּניָן
- עסקים
- יכולות
- ללכוד
- מקרים
- CD
- חיובים
- בחרו
- ענן
- קוד
- סִמוּל
- הערות
- חברות
- לחשב
- לְחַבֵּר
- הקשר
- קונסול
- לצרוך
- תוכן
- המרה
- עלות תועלת
- יכול
- לִיצוֹר
- נוצר
- יצירה
- מנהג
- לקוחות
- נתונים
- להפגין
- מופגן
- לפרוס
- פרס
- פריסה
- מְתוּאָר
- להרוס
- פרט
- מְפוֹרָט
- זוהה
- מפתח
- מפתחים
- צעצועי התפתחות
- מכשיר
- אחר
- קשה
- דיגיטלי
- מסמכים
- הורדות
- מוקדם
- בקלות
- מאמץ
- נקודת קצה
- אנגלית
- זן
- סביבה
- להקים
- קיימים
- תמציות
- משפחה
- תכונות
- מָשׁוֹב
- שדות
- להתמקד
- לעקוב
- הבא
- צורות
- מסגרת
- פרנסיסקו
- חופש
- מלא
- פונקציה
- נוסף
- עתיד
- Git
- GitHub
- נתינה
- שערים
- מדריך
- עוזר
- כאן
- מאוד
- אירח
- בית
- איך
- איך
- HTTPS
- בן אנוש
- רעיון
- לזהות
- דִמיוֹן
- לכלול
- להגדיל
- תעשייה
- מידע
- קלט
- להתקין
- לשלב
- מוֹדִיעִין
- IT
- עבודה
- מקומות תעסוקה
- מפתח
- ידע
- שפה
- שפות
- למידה
- רשימה
- קְצָת
- מיקום
- ארוך
- אהבה
- מכונה
- למידת מכונה
- לתחזק
- דרך
- מדריך ל
- ML
- סלולרי
- טלפון סלולרי
- ניידות
- מודלים
- יותר
- מספר
- נוֹרמָלִי
- הערות
- הודעה
- הַצָעָה
- מתמשך
- לפתוח
- נפתח
- תפעול
- תזמור
- להזמין
- ארגון
- אחר
- שֶׁלוֹ
- שותפים
- אֲנָשִׁים
- תמונה
- לְשַׂחֵק
- משחק
- פוטנציאל
- חזק
- קודם
- מנהל
- תהליך
- תהליכים
- תהליך
- מוצרים
- תכנות
- שפות תכנות
- פּרוֹיֶקט
- מספק
- לפרסם
- מָהִיר
- מהירות
- לְהַגִיעַ
- הקוראים
- קריאה
- מאגר
- לבקש
- בקשות
- נדרש
- דרישות
- משאבים
- REST
- הפעלה
- סן
- סן פרנסיסקו
- להרחבה
- סולם
- מגזרים
- לבטח
- סדרה
- ללא שרת
- שרות
- שירותים
- סט
- משמרת
- משמעותי
- פָּשׁוּט
- קטן
- So
- תוכנה
- פיתוח תוכנה
- מוצק
- פִּתָרוֹן
- פתרונות
- כמה
- שלה
- הוצאה
- לערום
- התחלה
- התחלות
- מדינה
- אחסון
- חנות
- חנויות
- תמיכה
- תומך
- מערכות
- לדבר
- טכנולוגיות
- תבניות
- מסוף
- דרך
- זמן
- גָבוֹהַ בִּיוֹתֵר
- לעקוב
- נסיעה
- בדרך כלל
- ui
- להבין
- עדכונים
- us
- להשתמש
- משתמשים
- נגד
- וירטואלי
- חזון
- קול
- אינטרנט
- שירותי אינטרנט
- בתוך
- לְלֹא
- מילים
- תיק עבודות
- עובד
- עוֹלָם
- כתיבה