يأتي فقدان البصر بأشكال مختلفة. بالنسبة للبعض ، إنه منذ الولادة ، بالنسبة للآخرين ، إنه هبوط بطيء بمرور الوقت والذي يأتي مع العديد من تواريخ انتهاء الصلاحية: اليوم الذي لا يمكنك فيه رؤية الصور أو التعرف على نفسك أو وجوه أحبائك أو حتى قراءة بريدك. في مدونتنا السابقة تمكين المعاقين بصريًا لسماع المستندات باستخدام Amazon Textract و Amazon Polly، أظهرنا لك تطبيق Text to Speech المسمى "اقرأ لي". لقد قطعت إمكانية الوصول شوطًا طويلاً ، ولكن ماذا عن الصور؟
في مؤتمر AWS re: Invent لعام 2022 في لاس فيغاس ، أظهرنا ذلك "صِف لي" في AWS Builders 'Fair ، وهو موقع ويب يساعد ضعاف البصر على فهم الصور من خلال شرح الصورة والتعرف على الوجه وتحويل النص إلى كلام ، وهي تقنية نشير إليها باسم "صورة إلى كلام". من خلال استخدام خدمات متعددة للذكاء الاصطناعي / تعلم الآلة ، تنشئ "وصف لي" شرحًا لصورة إدخال وستقرأها مرة أخرى بصوت واضح وطبيعي في مجموعة متنوعة من اللغات واللهجات.
في منشور المدونة هذا ، نوجهك عبر بنية الحلول وراء "صِف بالنسبة لي" ، واعتبارات التصميم الخاصة بحلنا.
حل نظرة عامة
يُظهر الهيكل المرجعي التالي سير عمل مستخدم يلتقط صورة بهاتف ويشغل ملف MP3 لتعليق الصورة.
يتضمن سير العمل الخطوات التالية ،
- تضخيم AWS يوزع تطبيق الويب
- • أمازون كوجنيتو يمنح تجمع الهوية وصولاً مؤقتًا إلى الأمازون S3 دلو.
- يقوم المستخدم بتحميل ملف صورة إلى الأمازون S3 دلو باستخدام أوس SDK من خلال تطبيق الويب.
- يستدعي تطبيق الويب DescriptionForMe خدمات AI الخلفية عن طريق إرسال ملف الأمازون S3 كائن مفتاح في الحمولة إلى بوابة أمازون API
- بوابة أمازون API ينشئ مثيلاً وظائف خطوة AWS سير العمل. تقوم آلة الدولة بتنسيق خدمات الذكاء الاصطناعي / التعلم الآلي (AI / ML) الأمازون إعادة الاعتراف, الأمازون SageMaker, أمازون تيكستراك, ترجمة أمازون, و الأمازون بولي استخدام أوس لامدا الوظائف.
- • وظائف خطوة AWS workflow يُنشئ ملفًا صوتيًا كمخرج ويخزنه في الأمازون S3 بتنسيق MP3.
- عنوان URL موقّع مسبقًا مع موقع ملف الصوت المخزن فيه الأمازون S3 إلى متصفح المستخدم من خلال بوابة أمازون API. يقوم الجهاز المحمول للمستخدم بتشغيل الملف الصوتي باستخدام عنوان URL الموقع مسبقًا.
تجول الحل
في هذا القسم ، نركز على اعتبارات التصميم لسبب اختيارنا
- معالجة موازية داخل وظائف خطوة AWS سير العمل
- تسلسل موحد لتسلسل نموذج التعلم الآلي المدربين مسبقًا OFA (واحد للجميع) من وجه يعانق إلى الأمازون SageMaker لتعليق الصورة
- الأمازون إعادة الاعتراف للتعرف على الوجه
للحصول على نظرة عامة أكثر تفصيلاً عن سبب اختيارنا للبنية بدون خادم ، وسير العمل المتزامن ، وسير عمل وظائف الخطوات السريعة ، والبنية بدون رأس والفوائد المكتسبة ، يرجى قراءة منشور المدونة السابق تمكين المعاقين بصريًا لسماع المستندات باستخدام Amazon Textract و Amazon Polly.
المعالجة المتوازية
أدى استخدام المعالجة المتوازية ضمن سير عمل وظائف الخطوة إلى تقليل وقت الحوسبة بنسبة تصل إلى 48٪. بمجرد تحميل المستخدم للصورة إلى حاوية S3 ، تُنشئ Amazon API Gateway سير عمل AWS Step Functions. ثم تقوم وظائف Lambda الثلاث التالية بمعالجة الصورة داخل سير عمل Step Functions بالتوازي.
- تم استدعاء أول دالة Lambda
describe_image
يحلل الصورة باستخدام نموذج OFA_IMAGE_CAPTION مستضاف على نقطة نهاية في الوقت الحقيقي من SageMaker لتوفير شرح للصورة. - تم استدعاء دالة Lambda الثانية
describe_faces
يتحقق أولاً مما إذا كانت هناك وجوه تستخدم Amazon Rekognition واجهة برمجة تطبيقات اكتشاف الوجوه، وإذا كان هذا صحيحًا ، فإنه يستدعي واجهة برمجة تطبيقات مقارنة الوجوه. والسبب في ذلك هو أن "مقارنة الوجوه" ستظهر خطأ إذا لم يتم العثور على وجوه في الصورة. كما أن استدعاء Detect Faces أولاً أسرع من مجرد تشغيل مقارنة الوجوه ومعالجة الأخطاء ، لذا بالنسبة للصور التي لا تحتوي على وجوه ، سيكون وقت المعالجة أسرع. - تم استدعاء وظيفة Lambda الثالثة
extract_text
يتعامل مع تحويل النص إلى كلام باستخدام Amazon Textract و Amazon Comprehend.
يعد تنفيذ وظائف Lambda بالتتابع مناسبًا ، ولكن الطريقة الأسرع والأكثر كفاءة للقيام بذلك هي من خلال المعالجة المتوازية. يوضح الجدول التالي وقت الحساب المحفوظ لثلاث صور نموذجية.
صورة | مجتمع | الوقت المتسلسل | الوقت الموازي | توفير الوقت (٪) | شرح |
0 | 1869ms | 1702ms | 8% | قطة منفوشة تلتف في سرير أبيض رقيق. | |
1 | 4277ms | 2197ms | 48% | امرأة ترتدي بلوزة خضراء وسترة سوداء تبتسم للكاميرا. أتعرف على شخص واحد: كانبو. | |
4 | 6603ms | 3904ms | 40% | أشخاص يقفون أمام مناطق الأمازون. أتعرف على 3 أشخاص: كانبو وجاك وأيمن. |
صورة توضيحية
Hugging Face عبارة عن مجتمع مفتوح المصدر ومنصة أساسية لعلوم البيانات تتيح للمستخدمين مشاركة نماذج التعلم الآلي وبنائها وتدريبها ونشرها. بعد استكشاف النماذج المتوفرة في محور نموذج Hugging Face ، اخترنا استخدام نموذج OFA لأنه كما وصفه المؤلفون ، فهو "إطار عمل لا أدري للمهام ولا يعتمد على الأسلوب الذي يدعم شمولية المهام".
يعد OFA خطوة نحو "One For All" ، حيث إنه نموذج موحد متعدد الوسائط مدرب مسبقًا يمكنه الانتقال إلى عدد من المهام النهائية بشكل فعال. بينما يدعم نموذج OFA العديد من المهام بما في ذلك التأريض البصري وفهم اللغة وتوليد الصور ، فقد استخدمنا نموذج OFA لتعليق الصور في مشروع Description For Me لإجراء جزء من الصورة إلى نص من التطبيق. تحقق من المستودع الرسمي لـ OFA (ICML 2022) ، ورقة للتعرف على البنى والمهام والطرائق الموحدة لـ OFA من خلال إطار عمل تعليمي بسيط من التسلسل إلى التسلسل.
لدمج OFA في تطبيقنا ، قمنا باستنساخ الريبو من Hugging Face ووضعنا النموذج في حاويات لنشره في نقطة نهاية SageMaker. ال دفتر ملاحظات في هذا الريبو هو دليل ممتاز لنشر نموذج OFA الكبير في دفتر Jupyter في SageMaker. بعد تخزين البرنامج النصي للاستدلال في حاويات ، يكون النموذج جاهزًا للنشر خلف نقطة نهاية SageMaker كما هو موضح في SageMaker توثيق. بمجرد نشر النموذج ، قم بإنشاء نقطة نهاية HTTPS والتي يمكن دمجها مع وظيفة lambda "description_image" التي تحلل الصورة لإنشاء التسمية التوضيحية للصورة. لقد نشرنا نموذج OFA الصغير لأنه نموذج أصغر ويمكن نشره في فترة زمنية أقصر مع تحقيق أداء مماثل.
فيما يلي أمثلة لمحتوى صورة إلى كلام تم إنشاؤه بواسطة "صِف بالنسبة لي":
الشفق القطبي ، أو الأضواء الشمالية ، يملأ سماء الليل فوق صورة ظلية لمنزل ..
كلب ينام على بطانية حمراء على أرضية خشبية بجانب حقيبة مفتوحة مليئة بالألعاب ..
قطة منفوشة تلتف في سرير أبيض رقيق.
التعرف على الوجه
توفر Amazon Rekognition Image ملف كشف الوجوه عملية تبحث عن ميزات الوجه الرئيسية مثل العينين والأنف والفم لاكتشاف الوجوه في صورة الإدخال. في حلنا ، نستفيد من هذه الوظيفة لاكتشاف أي أشخاص في صورة الإدخال. إذا تم الكشف عن شخص ما ، فإننا نستخدم قارن الوجوه عملية لمقارنة الوجه في الصورة المدخلة بالوجوه التي تم تدريب "وصف لي" معها ووصف الشخص بالاسم. لقد اخترنا استخدام Rekognition لاكتشاف الوجه نظرًا للدقة العالية ومدى سهولة الاندماج في تطبيقنا مع الإمكانات الجاهزة.
مجموعة من الأشخاص يقفون لالتقاط صورة في غرفة. أتعرف على 4 أشخاص: جاك ، كانبو ، ألاك ، وتراك. كان هناك نص موجود في الصورة أيضًا. يقرأ: AWS re: Invent
حالات الاستخدام المحتمل
إنشاء نص بديل لصور الويب
يجب أن تحتوي جميع الصور الموجودة على موقع الويب على نص بديل حتى تتمكن برامج قراءة الشاشة من التحدث بها إلى ضعاف البصر. إنها أيضًا جيدة لتحسين محركات البحث (SEO). يمكن أن يستغرق إنشاء تسميات توضيحية بديلة وقتًا طويلاً حيث يتم تكليف مؤلف الإعلانات بتوفيرها في مستند تصميم. يمكن لواجهة برمجة تطبيقات Description For Me إنشاء نص بديل للصور تلقائيًا. يمكن استخدامه أيضًا كمكوِّن إضافي للمتصفح لإضافة تسمية توضيحية للصورة تلقائيًا إلى الصور التي تفتقد إلى نص بديل على أي موقع ويب.
الوصف الصوتي للفيديو
يوفر الوصف الصوتي مسارًا للسرد لمحتوى الفيديو لمساعدة ضعاف البصر على متابعة الأفلام. عندما تصبح تسمية توضيحية للصورة أكثر قوة ودقة ، يمكن أن يكون سير العمل الذي يتضمن إنشاء مسار صوتي بناءً على أوصاف الأجزاء الرئيسية للمشهد ممكنًا. يمكن لـ Amazon Rekognition بالفعل اكتشاف تغييرات المشهد والشعارات وتسلسل الائتمان واكتشاف المشاهير. ستسمح النسخة المستقبلية من الوصف بأتمتة هذه الميزة الرئيسية للأفلام ومقاطع الفيديو.
وفي الختام
في هذا المنشور ، ناقشنا كيفية استخدام خدمات AWS ، بما في ذلك الذكاء الاصطناعي والخدمات التي لا تحتاج إلى خادم ، لمساعدة ضعاف البصر على رؤية الصور. يمكنك معرفة المزيد عن مشروع وصف لي واستخدامه من خلال زيارة descriptioneforme.com. تعرف على المزيد حول الميزات الفريدة لـ الأمازون SageMaker, Amazon Rekognition و شراكة AWS مع Hugging Face.
إخلاء مسؤولية نموذج ML لطرف ثالث للتوجيه
هذا الدليل هو لأغراض إعلامية فقط. لا يزال يتعين عليك إجراء التقييم المستقل الخاص بك ، واتخاذ التدابير لضمان امتثالك لممارسات ومعايير مراقبة الجودة الخاصة بك ، والقواعد والقوانين واللوائح والتراخيص وشروط الاستخدام المحلية التي تنطبق عليك وعلى المحتوى الخاص بك و نموذج التعلم الآلي للجهة الخارجية المشار إليه في هذا الدليل. لا تملك AWS أي سيطرة أو سلطة على نموذج التعلم الآلي للجهة الخارجية المشار إليه في هذا الدليل ، ولا تقدم أي إقرارات أو ضمانات بأن نموذج التعلم الآلي الخاص بطرف ثالث آمن أو خالي من الفيروسات أو جاهز للعمل أو متوافق مع بيئة الإنتاج الخاصة بك والمعايير. لا تقدم AWS أي إقرارات أو ضمانات أو ضمانات بأن أي معلومات واردة في هذا التوجيه ستؤدي إلى نتيجة أو نتيجة معينة.
حول المؤلف
جاك ماركيتي هو مهندس حلول أقدم في AWS ويركز على مساعدة العملاء في تحديث وتنفيذ البنى القائمة على الأحداث بدون خادم. جاك كفيف قانونيًا ويقيم في شيكاغو مع زوجته إيرين والقط مينو. وهو أيضًا كاتب سيناريو ومخرج يركز بشكل أساسي على أفلام عيد الميلاد والرعب. عرض فيلم جاك في موقعه صفحة IMDb.
ألاك إسوارداس هو مهندس حلول أول في AWS ومقره في شيكاغو ، إلينوي. إنها شغوفة بمساعدة العملاء في تصميم البنى السحابية باستخدام خدمات AWS لحل تحديات الأعمال. Alak متحمس لاستخدام SageMaker لحل مجموعة متنوعة من حالات استخدام ML لعملاء AWS. عندما لا تعمل ، تستمتع Alak بقضاء الوقت مع بناتها واستكشاف الأماكن الخارجية مع كلابها.
كانديس بوهانون هو مهندس حلول أقدم مقره في مينيابوليس ، مينيسوتا. في هذا الدور ، يعمل Kandyce كمستشار تقني لعملاء AWS أثناء قيامهم بتحديث استراتيجيات التكنولوجيا خاصة المتعلقة بالبيانات و DevOps لتنفيذ أفضل الممارسات في AWS. بالإضافة إلى ذلك ، Kandyce شغوفة بتوجيه الأجيال القادمة من التقنيين وعرض النساء في مجال التكنولوجيا من خلال برنامج AWS She Builds Tech Skills.
تراك دو هو مهندس حلول في AWS. في دوره ، يعمل Trac مع عملاء المؤسسات لدعم عمليات الترحيل إلى السحابة ومبادرات تحديث التطبيقات. إنه متحمس لتعلم تحديات العملاء وحلها بحلول قوية وقابلة للتطوير باستخدام خدمات AWS. يعيش تراك حاليًا في شيكاغو مع زوجته وثلاثة أولاد. إنه متحمس كبير للطيران وهو في طور إكمال رخصة طيار خاص.
- محتوى مدعوم من تحسين محركات البحث وتوزيع العلاقات العامة. تضخيم اليوم.
- أفلاطونايستريم. ذكاء بيانات Web3. تضخيم المعرفة. الوصول هنا.
- سك المستقبل مع أدرين أشلي. الوصول هنا.
- شراء وبيع الأسهم في شركات ما قبل الاكتتاب مع PREIPO®. الوصول هنا.
- المصدر https://aws.amazon.com/blogs/machine-learning/introducing-an-image-to-speech-generative-ai-application-using-amazon-sagemaker-and-hugging-face/
- :لديها
- :يكون
- :ليس
- $ UP
- 100
- 2022
- 7
- a
- من نحن
- فوق
- الوصول
- دقة
- دقيق
- تحقيق
- تضيف
- وبالإضافة إلى ذلك
- المستشار
- بعد
- AI
- خدمات الذكاء الاصطناعي
- AI / ML
- مساعدة
- الكل
- السماح
- يسمح
- على طول
- سابقا
- أيضا
- البديل
- أمازون
- بوابة أمازون API
- فهم الأمازون
- الأمازون إعادة الاعتراف
- الأمازون SageMaker
- أمازون تيكستراك
- أمازون ويب سيرفيسز
- an
- تحليل
- و
- أي وقت
- API
- التطبيق
- تطبيق
- التقديم
- هندسة معمارية
- هي
- مصطنع
- الذكاء الاصطناعي
- AS
- التقييم المناسبين
- At
- سمعي
- فجر
- السلطة
- الكتاب
- تلقائيا
- أتمتة
- متاح
- طيران
- AWS
- وظائف خطوة AWS
- الى الخلف
- الخلفية
- على أساس
- BE
- لان
- يصبح
- كان
- وراء
- أقل من
- الفوائد
- أفضل
- أفضل الممارسات
- كبير
- اسود
- المدونة
- صندوق
- المتصفح
- نساعدك في بناء
- يبني
- الأعمال
- لكن
- by
- تسمى
- دعوة
- دعوات
- وكاميرا
- CAN
- قدرات
- تعليق
- الحالات
- قط
- شهرة
- التحديات
- التغييرات
- التحقق
- الشيكات
- شيكاغو
- اختار
- عيد الميلاد
- واضح
- سحابة
- تأتي
- يأتي
- مجتمع
- قارن
- متوافق
- الانتهاء
- فهم
- إحصاء
- مؤتمر
- الاعتبارات
- تتكون
- محتوى
- مراقبة
- ضوابط
- استطاع
- خلق
- يخلق
- خلق
- خلق
- ائتمان
- CSS
- حاليا
- العملاء
- البيانات
- علم البيانات
- تمور
- يوم
- تظاهر
- نشر
- نشر
- وصف
- وصف
- وصف
- تصميم
- مفصلة
- الكشف عن
- كشف
- جهاز
- الأجهزة
- مدير المدارس
- ناقش
- do
- وثيقة
- وثائق
- هل
- كلب
- فعل
- على نحو فعال
- فعال
- النهاية
- نقطة النهاية
- محرك
- ضمان
- مشروع
- متحمس
- متحمس
- البيئة
- خطأ
- أخطاء
- خاصة
- حتى
- ممتاز
- الانتهاء
- استكشاف
- التعبير
- العيون
- الوجه
- وجوه
- تجميل الوجه
- التعرف على الوجه
- عادل
- أسرع
- الميزات
- المميزات
- قم بتقديم
- شغل
- معبأ
- الاسم الأول
- منتجات الأرضيات
- تركز
- ركز
- اتباع
- متابعيك
- في حالة
- شكل
- أشكال
- وجدت
- الإطار
- تبدأ من
- جبهة
- وظيفة
- وظيفة
- وظائف
- مستقبل
- بوابة
- توليد
- ولدت
- يولد
- جيل
- أجيال
- توليدي
- الذكاء الاصطناعي التوليدي
- خير
- منح
- أخضر
- تجمع
- ضمانات
- توجيه
- توجيه
- مقابض
- معالجة
- يملك
- he
- سماع
- مساعدة
- مساعدة
- يساعد
- لها
- مرتفع
- له
- رعب
- استضافت
- منـزل
- كيفية
- كيفية
- HTML
- HTTPS
- محور
- i
- if
- إلينوي
- صورة
- صور
- تنفيذ
- in
- يشمل
- بما فيه
- مستقل
- معلومات
- معلوماتية
- المبادرات
- إدخال
- دمج
- المتكاملة
- رؤيتنا
- إلى
- إدخال
- يتضرع
- تنطوي
- IT
- رافعة
- جافا سكريبت
- JPG
- القفل
- لغة
- اللغات
- كبير
- LAS
- لاس فيغاس
- القوانين
- تعلم
- تعلم
- الرافعة المالية
- حقوق الملكية الفكرية
- التراخيص
- حياة
- محلي
- موقع
- طويل
- تبدو
- خسارة
- أحب
- آلة
- آلة التعلم
- جعل
- كثير
- الإجراءات
- التوجيه
- مفقود
- ML
- الجوال
- الجهاز المحمول
- أجهزة محمولة
- نموذج
- عارضات ازياء
- تحديث
- الأكثر من ذلك
- أكثر فعالية
- فم
- أفلام
- متعدد
- الاسم
- التالي
- ليل
- لا
- أنف
- مفكرة
- عدد
- of
- رسمي
- on
- مرة
- ONE
- منها
- فقط
- جاكيت
- المصدر المفتوح
- عملية
- تشغيل
- التحسين
- or
- أخرى
- لنا
- خارج
- نتيجة
- في الهواء الطلق
- الناتج
- على مدى
- نظرة عامة
- الخاصة
- موازية
- خاص
- الشراكة
- أجزاء
- حفلة
- عاطفي
- مجتمع
- نفذ
- أداء
- فترة
- شخص
- للهواتف
- صورة
- لوحات حائط
- طيار
- المنصة
- أفلاطون
- الذكاء افلاطون البيانات
- أفلاطون داتا
- لعب
- يلعب
- من فضلك
- المساعد
- تجمع
- جزء
- ممكن
- منشور
- الممارسات
- سابق
- ابتدائي
- خاص
- عملية المعالجة
- معالجة
- الإنتــاج
- البرنامج
- تنفيذ المشاريع
- تزود
- ويوفر
- توفير
- أغراض
- جودة
- RE
- عرض
- القراء
- استعداد
- في الوقت الحقيقي
- سبب
- اعتراف
- الاعتراف
- أحمر
- عقار مخفض
- قوانين
- ذات صلة
- مستودع
- مطلوب
- نتيجة
- قوي
- النوع
- غرفة
- القواعد
- تشغيل
- sagemaker
- مدخرات
- تحجيم
- مشهد
- علوم
- شاشة
- قارئات الشاشة
- الإستراحة
- بحث
- محرك البحث
- الثاني
- القسم
- تأمين
- انظر تعريف
- إرسال
- كبير
- أرسلت
- SEO
- Serverless
- خدماتنا
- مشاركة
- هي
- ينبغي
- التفضيل
- أظهرت
- أظهرت
- يظهر
- مماثل
- الاشارات
- ببساطة
- الموقع
- مهارات
- سماء
- بطيء
- الأصغر
- So
- حل
- الحلول
- حل
- حل
- بعض
- تحدث
- محدد
- خطاب
- الإنفاق
- المعايير
- الولايه او المحافظه
- خطوة
- خطوات
- لا يزال
- تخزين
- فروعنا
- استراتيجيات
- هذه
- مناسب
- الدعم
- الدعم
- مبرقع
- جدول
- أخذ
- مع الأخذ
- مهمة
- المهام
- التكنولوجيا
- تقني
- التكنولوجيين
- تكنولوجيا
- مؤقت
- سياسة الحجب وتقييد الوصول
- النص إلى كلام
- من
- أن
- •
- الدولة
- من مشاركة
- منهم
- then
- هناك.
- هم
- الثالث
- طرف ثالث
- ثلاثة
- عبر
- الوقت
- إلى
- نحو
- مسار
- قطار
- متدرب
- تحويل
- صحيح
- فهم
- فهم
- موحد
- فريد من نوعه
- بناء على
- URL
- تستخدم
- مستعمل
- مستخدم
- المستخدمين
- استخدام
- تستخدم
- استخدام
- تشكيلة
- مختلف
- VEGAS
- الإصدار
- فيديو
- مقاطع فيديو
- المزيد
- صوت
- وكان
- طريق..
- we
- الويب
- خدمات ويب
- الموقع الإلكتروني
- حسن
- ابحث عن
- متى
- التي
- في حين
- أبيض
- لماذا
- زوجة
- سوف
- مع
- في غضون
- بدون
- امرأة
- نسائي
- المرأة فى مجال التكنولوجيا
- عامل
- أعمال
- سوف
- أنت
- حل متجر العقارات الشامل الخاص بك في جورجيا
- نفسك
- زفيرنت