تقديم تطبيق AI Generative AI لتحويل صورة إلى كلام باستخدام Amazon SageMaker و Hugging Face | خدمات أمازون ويب

تقديم تطبيق AI Generative AI لتحويل صورة إلى كلام باستخدام Amazon SageMaker و Hugging Face | خدمات أمازون ويب

يأتي فقدان البصر بأشكال مختلفة. بالنسبة للبعض ، إنه منذ الولادة ، بالنسبة للآخرين ، إنه هبوط بطيء بمرور الوقت والذي يأتي مع العديد من تواريخ انتهاء الصلاحية: اليوم الذي لا يمكنك فيه رؤية الصور أو التعرف على نفسك أو وجوه أحبائك أو حتى قراءة بريدك. في مدونتنا السابقة تمكين المعاقين بصريًا لسماع المستندات باستخدام Amazon Textract و Amazon Polly، أظهرنا لك تطبيق Text to Speech المسمى "اقرأ لي". لقد قطعت إمكانية الوصول شوطًا طويلاً ، ولكن ماذا عن الصور؟

في مؤتمر AWS re: Invent لعام 2022 في لاس فيغاس ، أظهرنا ذلك "صِف لي" في AWS Builders 'Fair ، وهو موقع ويب يساعد ضعاف البصر على فهم الصور من خلال شرح الصورة والتعرف على الوجه وتحويل النص إلى كلام ، وهي تقنية نشير إليها باسم "صورة إلى كلام". من خلال استخدام خدمات متعددة للذكاء الاصطناعي / تعلم الآلة ، تنشئ "وصف لي" شرحًا لصورة إدخال وستقرأها مرة أخرى بصوت واضح وطبيعي في مجموعة متنوعة من اللغات واللهجات.

في منشور المدونة هذا ، نوجهك عبر بنية الحلول وراء "صِف بالنسبة لي" ، واعتبارات التصميم الخاصة بحلنا.

حل نظرة عامة

يُظهر الهيكل المرجعي التالي سير عمل مستخدم يلتقط صورة بهاتف ويشغل ملف MP3 لتعليق الصورة.

العمارة المرجعية للحل الموصوف.

يتضمن سير العمل الخطوات التالية ،

  1. تضخيم AWS يوزع تطبيق الويب
  2. أمازون كوجنيتو يمنح تجمع الهوية وصولاً مؤقتًا إلى الأمازون S3 دلو.
  3. يقوم المستخدم بتحميل ملف صورة إلى الأمازون S3 دلو باستخدام أوس SDK من خلال تطبيق الويب.
  4. يستدعي تطبيق الويب DescriptionForMe خدمات AI الخلفية عن طريق إرسال ملف الأمازون S3 كائن مفتاح في الحمولة إلى بوابة أمازون API
  5. بوابة أمازون API ينشئ مثيلاً وظائف خطوة AWS سير العمل. تقوم آلة الدولة بتنسيق خدمات الذكاء الاصطناعي / التعلم الآلي (AI / ML) الأمازون إعادة الاعتراف, الأمازون SageMakerأمازون تيكستراك, ترجمة أمازون, و الأمازون بولي  استخدام أوس لامدا الوظائف.
  6. وظائف خطوة AWS workflow يُنشئ ملفًا صوتيًا كمخرج ويخزنه في الأمازون S3 بتنسيق MP3.
  7. عنوان URL موقّع مسبقًا مع موقع ملف الصوت المخزن فيه الأمازون S3 إلى متصفح المستخدم من خلال بوابة أمازون API. يقوم الجهاز المحمول للمستخدم بتشغيل الملف الصوتي باستخدام عنوان URL الموقع مسبقًا.

تجول الحل

في هذا القسم ، نركز على اعتبارات التصميم لسبب اختيارنا

  1. معالجة موازية داخل وظائف خطوة AWS سير العمل
  2. تسلسل موحد لتسلسل نموذج التعلم الآلي المدربين مسبقًا OFA (واحد للجميع) من وجه يعانق إلى الأمازون SageMaker لتعليق الصورة
  3. الأمازون إعادة الاعتراف للتعرف على الوجه

للحصول على نظرة عامة أكثر تفصيلاً عن سبب اختيارنا للبنية بدون خادم ، وسير العمل المتزامن ، وسير عمل وظائف الخطوات السريعة ، والبنية بدون رأس والفوائد المكتسبة ، يرجى قراءة منشور المدونة السابق تمكين المعاقين بصريًا لسماع المستندات باستخدام Amazon Textract و Amazon Polly

المعالجة المتوازية

أدى استخدام المعالجة المتوازية ضمن سير عمل وظائف الخطوة إلى تقليل وقت الحوسبة بنسبة تصل إلى 48٪. بمجرد تحميل المستخدم للصورة إلى حاوية S3 ، تُنشئ Amazon API Gateway سير عمل AWS Step Functions. ثم تقوم وظائف Lambda الثلاث التالية بمعالجة الصورة داخل سير عمل Step Functions بالتوازي.

  • تم استدعاء أول دالة Lambda describe_image يحلل الصورة باستخدام نموذج OFA_IMAGE_CAPTION مستضاف على نقطة نهاية في الوقت الحقيقي من SageMaker لتوفير شرح للصورة.
  • تم استدعاء دالة Lambda الثانية describe_faces يتحقق أولاً مما إذا كانت هناك وجوه تستخدم Amazon Rekognition واجهة برمجة تطبيقات اكتشاف الوجوه، وإذا كان هذا صحيحًا ، فإنه يستدعي واجهة برمجة تطبيقات مقارنة الوجوه. والسبب في ذلك هو أن "مقارنة الوجوه" ستظهر خطأ إذا لم يتم العثور على وجوه في الصورة. كما أن استدعاء Detect Faces أولاً أسرع من مجرد تشغيل مقارنة الوجوه ومعالجة الأخطاء ، لذا بالنسبة للصور التي لا تحتوي على وجوه ، سيكون وقت المعالجة أسرع.
  • تم استدعاء وظيفة Lambda الثالثة extract_text يتعامل مع تحويل النص إلى كلام باستخدام Amazon Textract و Amazon Comprehend.

يعد تنفيذ وظائف Lambda بالتتابع مناسبًا ، ولكن الطريقة الأسرع والأكثر كفاءة للقيام بذلك هي من خلال المعالجة المتوازية. يوضح الجدول التالي وقت الحساب المحفوظ لثلاث صور نموذجية.

صورة مجتمع الوقت المتسلسل الوقت الموازي توفير الوقت (٪) شرح
تقديم تطبيق الذكاء الاصطناعي التوليدي لتحويل الصورة إلى كلام باستخدام Amazon SageMaker وHugging Face | أمازون ويب سيرفيسز PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية. 0 1869ms 1702ms 8% قطة منفوشة تلتف في سرير أبيض رقيق.
تقديم تطبيق الذكاء الاصطناعي التوليدي لتحويل الصورة إلى كلام باستخدام Amazon SageMaker وHugging Face | أمازون ويب سيرفيسز PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية. 1 4277ms 2197ms 48% امرأة ترتدي بلوزة خضراء وسترة سوداء تبتسم للكاميرا. أتعرف على شخص واحد: كانبو.
تقديم تطبيق الذكاء الاصطناعي التوليدي لتحويل الصورة إلى كلام باستخدام Amazon SageMaker وHugging Face | أمازون ويب سيرفيسز PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية. 4 6603ms 3904ms 40% أشخاص يقفون أمام مناطق الأمازون. أتعرف على 3 أشخاص: كانبو وجاك وأيمن.

صورة توضيحية

Hugging Face عبارة عن مجتمع مفتوح المصدر ومنصة أساسية لعلوم البيانات تتيح للمستخدمين مشاركة نماذج التعلم الآلي وبنائها وتدريبها ونشرها. بعد استكشاف النماذج المتوفرة في محور نموذج Hugging Face ، اخترنا استخدام نموذج OFA لأنه كما وصفه المؤلفون ، فهو "إطار عمل لا أدري للمهام ولا يعتمد على الأسلوب الذي يدعم شمولية المهام".

يعد OFA خطوة نحو "One For All" ، حيث إنه نموذج موحد متعدد الوسائط مدرب مسبقًا يمكنه الانتقال إلى عدد من المهام النهائية بشكل فعال. بينما يدعم نموذج OFA العديد من المهام بما في ذلك التأريض البصري وفهم اللغة وتوليد الصور ، فقد استخدمنا نموذج OFA لتعليق الصور في مشروع Description For Me لإجراء جزء من الصورة إلى نص من التطبيق. تحقق من المستودع الرسمي لـ OFA (ICML 2022) ، ورقة للتعرف على البنى والمهام والطرائق الموحدة لـ OFA من خلال إطار عمل تعليمي بسيط من التسلسل إلى التسلسل.

لدمج OFA في تطبيقنا ، قمنا باستنساخ الريبو من Hugging Face ووضعنا النموذج في حاويات لنشره في نقطة نهاية SageMaker. ال دفتر ملاحظات في هذا الريبو هو دليل ممتاز لنشر نموذج OFA الكبير في دفتر Jupyter في SageMaker. بعد تخزين البرنامج النصي للاستدلال في حاويات ، يكون النموذج جاهزًا للنشر خلف نقطة نهاية SageMaker كما هو موضح في SageMaker توثيق. بمجرد نشر النموذج ، قم بإنشاء نقطة نهاية HTTPS والتي يمكن دمجها مع وظيفة lambda "description_image" التي تحلل الصورة لإنشاء التسمية التوضيحية للصورة. لقد نشرنا نموذج OFA الصغير لأنه نموذج أصغر ويمكن نشره في فترة زمنية أقصر مع تحقيق أداء مماثل.

فيما يلي أمثلة لمحتوى صورة إلى كلام تم إنشاؤه بواسطة "صِف بالنسبة لي":

الشفق القطبي ، أو الأضواء الشمالية ، يملأ سماء الليل فوق صورة ظلية لمنزل ..

الشفق القطبي ، أو الأضواء الشمالية ، يملأ سماء الليل فوق صورة ظلية لمنزل ..

كلب ينام على بطانية حمراء على أرضية خشبية بجانب حقيبة مفتوحة مليئة بالألعاب ..

كلب ينام على بطانية حمراء على أرضية خشبية بجانب حقيبة مفتوحة مليئة بالألعاب ..

قطة منفوشة تلتف في سرير أبيض رقيق.

قطة منفوشة تلتف في سرير أبيض رقيق.

التعرف على الوجه

توفر Amazon Rekognition Image ملف كشف الوجوه عملية تبحث عن ميزات الوجه الرئيسية مثل العينين والأنف والفم لاكتشاف الوجوه في صورة الإدخال. في حلنا ، نستفيد من هذه الوظيفة لاكتشاف أي أشخاص في صورة الإدخال. إذا تم الكشف عن شخص ما ، فإننا نستخدم قارن الوجوه عملية لمقارنة الوجه في الصورة المدخلة بالوجوه التي تم تدريب "وصف لي" معها ووصف الشخص بالاسم. لقد اخترنا استخدام Rekognition لاكتشاف الوجه نظرًا للدقة العالية ومدى سهولة الاندماج في تطبيقنا مع الإمكانات الجاهزة.

مجموعة من الأشخاص يقفون لالتقاط صورة في غرفة. أتعرف على 4 أشخاص: جاك ، كانبو ، ألاك ، وتراك. كان هناك نص موجود في الصورة أيضًا. يقرأ: AWS re: Invent

مجموعة من الأشخاص يقفون لالتقاط صورة في غرفة. أتعرف على 4 أشخاص: جاك ، كانبو ، ألاك ، وتراك. كان هناك نص موجود في الصورة أيضًا. يقرأ: AWS re: Invent

حالات الاستخدام المحتمل

إنشاء نص بديل لصور الويب

يجب أن تحتوي جميع الصور الموجودة على موقع الويب على نص بديل حتى تتمكن برامج قراءة الشاشة من التحدث بها إلى ضعاف البصر. إنها أيضًا جيدة لتحسين محركات البحث (SEO). يمكن أن يستغرق إنشاء تسميات توضيحية بديلة وقتًا طويلاً حيث يتم تكليف مؤلف الإعلانات بتوفيرها في مستند تصميم. يمكن لواجهة برمجة تطبيقات Description For Me إنشاء نص بديل للصور تلقائيًا. يمكن استخدامه أيضًا كمكوِّن إضافي للمتصفح لإضافة تسمية توضيحية للصورة تلقائيًا إلى الصور التي تفتقد إلى نص بديل على أي موقع ويب.

الوصف الصوتي للفيديو

يوفر الوصف الصوتي مسارًا للسرد لمحتوى الفيديو لمساعدة ضعاف البصر على متابعة الأفلام. عندما تصبح تسمية توضيحية للصورة أكثر قوة ودقة ، يمكن أن يكون سير العمل الذي يتضمن إنشاء مسار صوتي بناءً على أوصاف الأجزاء الرئيسية للمشهد ممكنًا. يمكن لـ Amazon Rekognition بالفعل اكتشاف تغييرات المشهد والشعارات وتسلسل الائتمان واكتشاف المشاهير. ستسمح النسخة المستقبلية من الوصف بأتمتة هذه الميزة الرئيسية للأفلام ومقاطع الفيديو.

وفي الختام

في هذا المنشور ، ناقشنا كيفية استخدام خدمات AWS ، بما في ذلك الذكاء الاصطناعي والخدمات التي لا تحتاج إلى خادم ، لمساعدة ضعاف البصر على رؤية الصور. يمكنك معرفة المزيد عن مشروع وصف لي واستخدامه من خلال زيارة descriptioneforme.com. تعرف على المزيد حول الميزات الفريدة لـ الأمازون SageMakerAmazon Rekognition و شراكة AWS مع Hugging Face.

إخلاء مسؤولية نموذج ML لطرف ثالث للتوجيه

هذا الدليل هو لأغراض إعلامية فقط. لا يزال يتعين عليك إجراء التقييم المستقل الخاص بك ، واتخاذ التدابير لضمان امتثالك لممارسات ومعايير مراقبة الجودة الخاصة بك ، والقواعد والقوانين واللوائح والتراخيص وشروط الاستخدام المحلية التي تنطبق عليك وعلى المحتوى الخاص بك و نموذج التعلم الآلي للجهة الخارجية المشار إليه في هذا الدليل. لا تملك AWS أي سيطرة أو سلطة على نموذج التعلم الآلي للجهة الخارجية المشار إليه في هذا الدليل ، ولا تقدم أي إقرارات أو ضمانات بأن نموذج التعلم الآلي الخاص بطرف ثالث آمن أو خالي من الفيروسات أو جاهز للعمل أو متوافق مع بيئة الإنتاج الخاصة بك والمعايير. لا تقدم AWS أي إقرارات أو ضمانات أو ضمانات بأن أي معلومات واردة في هذا التوجيه ستؤدي إلى نتيجة أو نتيجة معينة.


حول المؤلف

جاك ماركيتيجاك ماركيتي هو مهندس حلول أقدم في AWS ويركز على مساعدة العملاء في تحديث وتنفيذ البنى القائمة على الأحداث بدون خادم. جاك كفيف قانونيًا ويقيم في شيكاغو مع زوجته إيرين والقط مينو. وهو أيضًا كاتب سيناريو ومخرج يركز بشكل أساسي على أفلام عيد الميلاد والرعب. عرض فيلم جاك في موقعه صفحة IMDb.

ألاك إسوارداسألاك إسوارداس هو مهندس حلول أول في AWS ومقره في شيكاغو ، إلينوي. إنها شغوفة بمساعدة العملاء في تصميم البنى السحابية باستخدام خدمات AWS لحل تحديات الأعمال. Alak متحمس لاستخدام SageMaker لحل مجموعة متنوعة من حالات استخدام ML لعملاء AWS. عندما لا تعمل ، تستمتع Alak بقضاء الوقت مع بناتها واستكشاف الأماكن الخارجية مع كلابها.

كانديس بوهانونكانديس بوهانون هو مهندس حلول أقدم مقره في مينيابوليس ، مينيسوتا. في هذا الدور ، يعمل Kandyce كمستشار تقني لعملاء AWS أثناء قيامهم بتحديث استراتيجيات التكنولوجيا خاصة المتعلقة بالبيانات و DevOps لتنفيذ أفضل الممارسات في AWS. بالإضافة إلى ذلك ، Kandyce شغوفة بتوجيه الأجيال القادمة من التقنيين وعرض النساء في مجال التكنولوجيا من خلال برنامج AWS She Builds Tech Skills.

تراك دوتراك دو هو مهندس حلول في AWS. في دوره ، يعمل Trac مع عملاء المؤسسات لدعم عمليات الترحيل إلى السحابة ومبادرات تحديث التطبيقات. إنه متحمس لتعلم تحديات العملاء وحلها بحلول قوية وقابلة للتطوير باستخدام خدمات AWS. يعيش تراك حاليًا في شيكاغو مع زوجته وثلاثة أولاد. إنه متحمس كبير للطيران وهو في طور إكمال رخصة طيار خاص.

الطابع الزمني:

اكثر من التعلم الآلي من AWS