تفتح قراءة الكلمة المطبوعة عالمًا من المعلومات والخيال والإبداع. ومع ذلك ، قد يكون من الصعب على الأشخاص الذين يعانون من إعاقة بصرية أو صعوبات التعلم استهلاك الكتب والوثائق الممسوحة ضوئيًا. بالإضافة إلى ذلك ، يفضل بعض الأشخاص الاستماع إلى المحتوى المستند إلى النص بدلاً من قراءته. يعمل حل تحويل المستندات إلى كلام على توسيع نطاق وصول المحتوى الرقمي من خلال منح المحتوى النصي صوتًا. لها استخدامات في مختلف القطاعات الصناعية ، مثل:
- ترفيه- يمكنك إنشاء الكتب الصوتية الخاصة بك.
- التعليم - يمكن للطلاب تحويل ملاحظات المحاضرات إلى كلام والوصول إليها في أي مكان.
- رعاية المرضى - عادة ما تكون تعليمات الجرعات والاحتياطات في خطوط صغيرة ويصعب قراءتها. باستخدام هذا الحل ، يمكنك التقاط صورة وتحويلها إلى كلام والاستماع إلى التعليمات لتجنب أي ضرر محتمل.
يعمل حل تحويل المستندات إلى كلام على تحويل الكتب الممسوحة ضوئيًا أو المستندات المأخوذة على هاتف محمول أو جهاز محمول يدويًا إلى كلام تلقائيًا. هذا الحل يوسع من قدرات الأمازون بولي. نحن استخراج النص من المستندات الممسوحة ضوئيًا باستخدام ملفات أمازون تيكستراك، ثم قم بتحويل ملف النص إلى كلام باستخدام أمازون بولي. تشمل مزايا الحل التنقل والحرية للمستخدم بالإضافة إلى إمكانات التعلم المحسنة للقراء الأوائل.
نشأت الفكرة من Harry Pan ، أحد الأنشطة المفضلة بين الآباء والأطفال - قراءة الكتب. "ابني يستمتع بقصص القصص ، لكنه أصغر من أن يقرأ بمفرده. أحب القراءة له ، لكن في بعض الأحيان أحتاج إلى العمل أو الاعتناء بالأعمال المنزلية. أثار هذا فكرة لبناء حل لتحويل المستند إلى كلام يمكن أن يقرأ له عندما كنت مشغولاً ".
نظرة عامة على الحل
الحل عبارة عن بنية بدون خادم تعتمد على الأحداث وتستخدم خدمات Amazon AI لتحويل المستندات الممسوحة ضوئيًا إلى كلام. تنتمي Amazon Textract و Amazon Polly إلى الطبقة العليا من حزمة التعلم الآلي (ML) في AWS. تتيح هذه الخدمات للمطورين إضافة معلومات بسهولة إلى أي تطبيق دون معرفة مسبقة بتعلم الآلة.
Amazon Textract هي خدمة تعلّم آلي تستخرج النص والكتابة اليدوية والبيانات تلقائيًا من المستندات الممسوحة ضوئيًا. يتجاوز التعرف الضوئي على الحروف (OCR) للتعرف على البيانات وفهمها واستخراجها من النماذج والجداول. تستخدم Amazon Textract ML لقراءة أي نوع من المستندات ومعالجتها ، واستخراج النص والكتابة اليدوية والجداول والبيانات الأخرى بدقة دون أي جهد يدوي.
Amazon Polly هي خدمة تحويل النص إلى كلام التي تحول النص إلى كلام نابض بالحياة ، مما يسمح لك بإنشاء تطبيقات تتحدث وإنشاء فئات جديدة تمامًا من المنتجات التي تدعم الكلام. تستخدم Amazon Polly تقنيات التعلم العميق المتقدمة لتجميع الكلام الذي يبدو وكأنه صوت بشري.
هناك مزايا كبيرة لاستخدام خدمات Amazon AI:
- يأخذون القليل من الجهد. يمكنك دمج واجهات برمجة التطبيقات هذه في أي تطبيق
- أنها توفر حلول قابلة للتطوير وفعالة من حيث التكلفة
- يمكن لمؤسستك أن تحول تركيزها من تطوير النماذج المخصصة إلى نتائج الأعمال
الحل يستخدم أيضا بوابة أمازون API للوقوف بسرعة على واجهات برمجة التطبيقات التي يمكن أن تستدعيها واجهة مستخدم الويب لتنفيذ عمليات مثل تحميل المستندات وتحويل المستندات الممسوحة ضوئيًا إلى كلام. توفر API Gateway طريقة قابلة للتطوير لإنشاء واجهات برمجة تطبيقات آمنة ونشرها وصيانتها. في هذا الحل ، نستخدم أيضًا دعم API Gateway WebSocket لإنشاء اتصال دائم بين واجهة مستخدم الويب والواجهة الخلفية ، بحيث يمكن للواجهة الخلفية الاستمرار في إرسال تحديثات التقدم إلى المستخدم في الوقت الفعلي.
نستخدم AWS لامدا وظائف لتشغيل وظائف Amazon Textract و Amazon Polly غير المتزامنة. Lambda هي خدمة حوسبة عالية التوفر وقابلة للتطوير تتيح لك تشغيل التعليمات البرمجية دون توفير الموارد.
نحن نستخدم ملف وظائف خطوة AWS آلة الحالة لتنسيق وظيفتين متوازيتين من وظائف Lambda - إحداهما لتعديل النص والأخرى لتخزين النص فيه خدمة تخزين أمازون البسيطة (أمازون S3). Step Functions هي خدمة التزامن بدون خادم لتعريف سير عمل التطبيق كسلسلة من الخطوات التي تحركها الأحداث.
العمارة والكود
كما هو موضح في القسم السابق ، نستخدم خدمتين أساسيتين من خدمات الذكاء الاصطناعي ، وهما Amazon Textract و Amazon Polly ، لبناء حل لتحويل المستندات إلى كلام. إحدى الخدمات الإضافية التي لم نتطرق إليها هي تضخيم AWS. يسمح Amplify لمطوري الواجهة الأمامية بإنشاء تطبيقات ويب وتطبيقات محمولة قابلة للتوسيع وكاملة بسرعة. باستخدام Amplify ، يمكنك بسهولة تكوين واجهة خلفية ، وتوصيل أحد التطبيقات بها في غضون دقائق ، وتوسيع نطاقها بسهولة. نستخدم Amplify لاستضافة واجهة مستخدم ويب تتيح للمستخدمين تحميل مستنداتهم الممسوحة ضوئيًا.
يمكنك أيضًا استخدام واجهة المستخدم الخاصة بك بدون Amplify. بينما نتعمق في هذا الحل ، نوضح كيف يمكنك استخدام أي تطبيق عميل للاتصال بالواجهة الخلفية لتحويل المستندات إلى كلام - طالما أنها تدعم واجهات برمجة تطبيقات REST و WebSocket. واجهة مستخدم الويب هنا هي ببساطة لتوضيح الميزات الرئيسية لهذا الحل. حتى كتابة هذه السطور ، يدعم الحل تنسيقات إدخال JPEG و PNG و PDF واللغة الإنجليزية.
يوضح الرسم البياني التالي بنية الحل.
نسير عبر هذه البنية باتباع مسار طلب مستخدم واحد:
- يزور المستخدم واجهة مستخدم الويب المستضافة على Amplify. رمز واجهة المستخدم هو
index.html
ملف فيclient
مجلد مستودع التعليمات البرمجية. - يختار المستخدم ملف JPG أو PDF أو PNG للتحميل باستخدام واجهة مستخدم الويب.
- يبدأ المستخدم ملف تحويل وتشغيل الصوت عملية من واجهة مستخدم الويب ، والتي تقوم بتحميل ملف الإدخال إلى حاوية S3 ، من خلال واجهة برمجة تطبيقات REST المستضافة على بوابة API.
- عند اكتمال التحميل ، يبدأ تحويل المستند إلى كلام كعملية خلفية:
- أثناء التحويل ، يحتفظ عميل الويب باتصال WebSocket مستمر مع بوابة API. يسمح هذا لعمليات الواجهة الخلفية (وظائف Lambda) بإرسال تحديثات التقدم باستمرار إلى عميل الويب.
- يمر الطلب عبر بوابة API ويقوم بتشغيل وظيفة Lambda
convert-images-to-text
. تستدعي هذه الوظيفة Amazon Textract بشكل غير متزامن لتحويل المستند إلى نص. - عند اكتمال التحويل من صورة إلى نص ، يرسل Amazon Textract إشعارًا إلى خدمة إعلام أمازون البسيطة (أمازون SNS).
- يقوم الإخطار بتشغيل وظيفة Lambda
on-textract-ready
، والتي تنطلق من آلة حالة Step Functions. - تقوم آلة الدولة بتنسيق الخطوات التالية:
- يقوم بتشغيل وظيفة Lambda
retrieve-text
للحصول على النص المحول من Amazon Textract. - ثم يقوم بتشغيل وظائف Lambda
moderate-text
وstore-text
بالتوازي.moderate-text
يوقف المعالجة الإضافية عند اكتشاف كلمات غير مرغوب فيها ، وstore-text
يخزن نسخة من النص المحول إلى حاوية S3. - بعد اكتمال الخطوات المتوازية ، تقوم آلة الحالة بتشغيل وظيفة Lambda
convert-text-to-audio
، الذي يستدعي Amazon Polly بشكل غير متزامن مع النص المحول ، لتحويل الكلام. تنتهي آلة الحالة بعد هذه الخطوة.
- يقوم بتشغيل وظيفة Lambda
- على غرار Amazon Textract ، يرسل Amazon Polly إشعارًا إلى Amazon SNS عند انتهاء المهمة. يقوم الإخطار بتشغيل وظيفة Lambda
on-polly-ready
، والتي ترسل رسالة أخيرة إلى واجهة مستخدم الويب بالإضافة إلى موقع Amazon S3 لملف الصوت المحول.
- تقوم واجهة مستخدم الويب بتنزيل الملف الصوتي المحول النهائي من Amazon S3 عبر واجهة برمجة تطبيقات REST ، ثم تقوم بتشغيله للمستخدم.
- يستخدم التطبيق ملف الأمازون DynamoDB جدول لتتبع معلومات الوظيفة مثل معرف وظيفة Amazon Textract ومعرف وظيفة Amazon Polly والمزيد.
الرمز مستضاف على GitHub جيثب: ويتم نشرها باستخدام مجموعة تطوير سحابة AWS (AWS CDK) ، إطار عمل لتطوير البرمجيات مفتوح المصدر لتحديد موارد التطبيقات السحابية باستخدام لغات البرمجة المألوفة. توفر AWS CDK الموارد بطريقة قابلة للتكرار من خلال تكوين سحابة AWS.
المتطلبات الأساسية المسبقة
الشرط الأساسي الوحيد لنشر هذا الحل هو حساب AWS.
انشر الحل
توضح الخطوات التالية بالتفصيل كيفية نشر التطبيق:
- قم بتسجيل الدخول إلى حساب AWS الخاص بك.
- على سحابة AWS 9 وحدة التحكم ، افتح بيئة موجودة ، أو اختر خلق البيئة لإنشاء واحدة جديدة.
- في AWS Cloud9 IDE الخاص بك ، على ملف نافذة القائمة، اختر مبنى جديد لفتح المحطة.
تتم جميع الخطوات التالية في نفس الجهاز.
- استنساخ مستودع git وادخل إلى دليل المشروع:
- أنشئ بيئة افتراضية بلغة Python:
- بعد اكتمال عملية init وإنشاء البيئة الافتراضية ، استخدم الخطوة التالية لتنشيط بيئتك الافتراضية:
- بعد تنشيط البيئة الافتراضية ، قم بتثبيت التبعيات المطلوبة:
- يمكنك الآن تجميع قوالب CloudFormation من كود AWS CDK:
- انشر تطبيق AWS CDK واحصل على مخرجات AWS CDK المطلوبة لاحقًا:
يجب عليك تأكيد التغييرات التي سيتم نشرها لكل مكدس. يمكنك التحقق من تقدم إنشاء المكدس على وحدة تحكم AWS Cloud Formation.
- لزيارة عميل الويب ، قم بتشغيل الأمر التالي واتبع مخرجاته لبدء نشر الواجهة الأمامية واستخدام عميل الويب:
الأشياء الأساسية التي يجب ملاحظتها:
- •
extract-cdk-outputs.py
يقوم البرنامج النصي بطباعة عنوان URL لواجهة مستخدم الويب. يقوم البرنامج النصي أيضًا بطباعة سلاسل من اسم حاوية S3 ونقطة نهاية واجهة برمجة التطبيقات للملف ونقطة نهاية واجهة برمجة التطبيقات للتحويل ، والتي يلزم تعيينها على واجهة مستخدم الويب قبل تحميل مستند. - يمكنك ضبط قائمة الكلمات غير المرغوب فيها في المتغير في ملف
moderate-text
دالة لامدا.
استخدم التطبيق
توضح الخطوات التالية كيفية استخدام التطبيق عبر واجهة مستخدم الويب.
- باتباع الخطوة الأخيرة للنشر ، قم بملء الحقول الخاصة بـ اسم الجرافة S3, نقطة نهاية الملفو نقطة نهاية التحويل في واجهة مستخدم الويب.
- اختار اختر ملف لتحميل ملف الإدخال.
- اختار تحويل وتشغيل الصوت.
تعرض واجهة مستخدم الويب التقدم المحرز في التحويل المستمر.
تقوم واجهة مستخدم الويب بتشغيل الصوت تلقائيًا عند اكتمال التحويل.
تنظيف
قم بتشغيل الأمر التالي لحذف جميع الموارد وتجنب تكبد رسوم مستقبلية:
وفي الختام
في هذا المنشور ، أظهرنا حلاً لنشر تطبيق تحويل المستندات إلى كلام سريعًا باستخدام خدمتين قويتين من خدمات الذكاء الاصطناعي: Amazon Textract و Amazon Polly. أظهرنا كيف يعمل الحل وقدمنا شرحًا تفصيليًا للشفرة وخطوات النشر. يُقصد بهذا الحل أن يكون بنية مرجعية أو بداية سريعة يمكنك تحسينها بشكل أكبر. وتجدر الإشارة إلى أنه يمكنك إضافة دعم لمزيد من اللغات البشرية ، وإضافة قائمة انتظار لتخزين الطلبات الواردة مؤقتًا ، ومصادقة المستخدمين.
كما تمت مناقشته في هذا المنشور ، نرى حالات استخدام متعددة لهذا الحل عبر قطاعات الصناعة المختلفة. جربها وأخبرنا كيف أدى ذلك إلى حل حالة الاستخدام من خلال ترك التعليقات في قسم التعليقات. يمكنك الوصول إلى موارد الحل في ملف المستند إلى مستودع جيثب الكلام.
مراجع حسابات
يتوفر مزيد من المعلومات في المصادر التالية:
- دليل مطور Amazon Textract
- دليل مطور Amazon Polly
- العمل مع واجهات برمجة تطبيقات WebSocket
- مكتبة إنشاء AWS CDK
- AWS تضخيم بناء المكتبة
حول المؤلف
هاري بان هو مهندس حلول ISV في Amazon Web Services ومقرها في منطقة خليج سان فرانسيسكو ، حيث يساعد شركات البرمجيات على تحقيق أهداف أعمالها من خلال بناء أنظمة تكنولوجيا معلومات جيدة التصميم. يحب قضاء أوقات فراغه مع عائلته ، فضلاً عن لعب التنس والترميز في Haskell والسفر.
Cهيترا ماثور هو مهندس حلول رئيسي في AWS. إنها توجه الشركاء والعملاء في بناء حلول قابلة للتطوير وموثوقة وآمنة وفعالة من حيث التكلفة على AWS. في أوقات فراغها ، تستمتع بالقراءة وممارسة اليوجا وقضاء الوقت مع بناتها.
- كوينسمارت. أفضل بورصة للبيتكوين والعملات المشفرة في أوروبا.
- بلاتوبلوكشين. Web3 Metaverse Intelligence. تضخيم المعرفة. دخول مجاني.
- كريبتوهوك. الرادار. تجربة مجانية.
- المصدر: https://aws.amazon.com/blogs/machine-learning/increase-your-content-reach-with-automated-document-to-speech-conversion-using-amazon-ai-services/
- "
- &
- 10
- 100
- 7
- 9
- الوصول
- حسابي
- في
- أنشطة
- إضافة
- إضافي
- متقدم
- مزايا
- AI
- خدمات الذكاء الاصطناعي
- الكل
- السماح
- أمازون
- أمازون ويب سيرفيسز
- في أى مكان
- API
- واجهات برمجة التطبيقات
- تطبيق
- التطبيقات
- التطبيقات
- هندسة معمارية
- المنطقة
- سمعي
- الآلي
- متاح
- AWS
- خلفية
- خليج
- الفوائد
- Beyond
- المدونة
- كُتُب
- الحدود
- نساعدك في بناء
- ابني
- الأعمال
- قدرات
- أسر
- الحالات
- CD
- اسعارنا محددة من قبل وزارة العمل
- اختار
- سحابة
- الكود
- البرمجة
- تعليقات
- الشركات
- إحصاء
- التواصل
- صلة
- كنسولات
- تستهلك
- محتوى
- تحويل
- فعاله من حيث التكلفه
- استطاع
- خلق
- خلق
- خلق
- على
- العملاء
- البيانات
- شرح
- تظاهر
- نشر
- نشر
- نشر
- وصف
- هدم
- التفاصيل
- مفصلة
- الكشف عن
- المطور
- المطورين
- التطوير التجاري
- جهاز
- مختلف
- صعبة
- رقمي
- وثائق
- التنزيلات
- في وقت مبكر
- بسهولة
- جهد
- نقطة النهاية
- انجليزي
- أدخل
- البيئة
- إنشاء
- القائمة
- مقتطفات
- للعائلات
- المميزات
- ردود الفعل
- مجال
- تركز
- اتباع
- متابعيك
- أشكال
- الإطار
- فرانسيسكو
- حرية
- بالإضافة إلى
- وظيفة
- إضافي
- مستقبل
- بوابة
- GitHub جيثب:
- إعطاء
- الأهداف
- دليل
- يساعد
- هنا
- جدا
- استضافت
- منزلي
- كيفية
- كيفية
- HTTPS
- الانسان
- فكرة
- تحديد
- خيال
- تتضمن
- القيمة الاسمية
- العالمية
- معلومات
- إدخال
- تثبيت
- دمج
- رؤيتنا
- IT
- وظيفة
- المشــاريــع
- القفل
- المعرفة
- لغة
- اللغات
- تعلم
- قائمة
- القليل
- موقع
- طويل
- حب
- آلة
- آلة التعلم
- المحافظة
- أسلوب
- كتيب
- ML
- الجوال
- الهاتف المحمول
- التنقل
- عارضات ازياء
- الأكثر من ذلك
- متعدد
- عادي
- ملاحظة
- إعلام
- عرض
- جارية
- جاكيت
- يفتح
- عمليات
- تزامن
- طلب
- منظمة
- أخرى
- الخاصة
- شركاء
- مجتمع
- صورة
- بلايستشن
- لعب
- محتمل
- قوي
- سابق
- رئيسي
- عملية المعالجة
- العمليات
- معالجة
- المنتجات
- برمجة وتطوير
- لغات البرمجة
- تنفيذ المشاريع
- ويوفر
- نشر
- سريع
- بسرعة
- الوصول
- القراء
- نادي القراءة
- مستودع
- طلب
- طلبات
- مطلوب
- المتطلبات الأساسية
- الموارد
- REST
- يجري
- سان
- سان فرانسيسكو
- تحجيم
- حجم
- قطاعات
- تأمين
- مسلسلات
- Serverless
- الخدمة
- خدماتنا
- طقم
- نقل
- هام
- الاشارات
- صغير
- So
- تطبيقات الكمبيوتر
- تطوير البرمجيات
- الصلبة
- حل
- الحلول
- بعض
- هي
- الإنفاق
- كومة
- بداية
- يبدأ
- الولايه او المحافظه
- تخزين
- متجر
- فروعنا
- الدعم
- الدعم
- أنظمة
- حديث
- التكنولوجيا
- النماذج
- محطة
- عبر
- الوقت
- أعلى
- مسار
- السفر
- عادة
- ui
- فهم
- آخر التحديثات
- us
- تستخدم
- المستخدمين
- مقابل
- افتراضي
- رؤيتنا
- صوت
- الويب
- خدمات ويب
- في غضون
- بدون
- كلمات
- للعمل
- أعمال
- العالم
- جاري الكتابة