Amazon SageMaker और Hugging Face का उपयोग करके इमेज-टू-स्पीच जनरेटिव AI एप्लिकेशन पेश करना | अमेज़न वेब सेवाएँ

Amazon SageMaker और Hugging Face का उपयोग करके इमेज-टू-स्पीच जनरेटिव AI एप्लिकेशन पेश करना | अमेज़न वेब सेवाएँ

दृष्टि हानि विभिन्न रूपों में आती है। कुछ के लिए, यह जन्म से है, दूसरों के लिए, यह समय के साथ एक धीमी गति से वंश है जो कई समाप्ति तिथियों के साथ आता है: जिस दिन आप चित्र नहीं देख सकते हैं, अपने आप को पहचान सकते हैं, या अपने प्रियजनों को चेहरे या यहां तक ​​कि अपना मेल पढ़ सकते हैं। हमारे पिछले ब्लॉगपोस्ट में अमेज़ॅन टेक्सट्रैक्ट और अमेज़ॅन पोली का उपयोग करके नेत्रहीनों को दस्तावेज़ सुनने में सक्षम करें, हमने आपको अपना टेक्स्ट टू स्पीच एप्लिकेशन दिखाया "मेरे लिए पढ़ें"। अभिगम्यता एक लंबा सफर तय कर चुकी है, लेकिन छवियों के बारे में क्या?

2022 AWS re:लास वेगास में आविष्कार सम्मेलन में, हमने प्रदर्शन किया "मेरे लिए वर्णन करें" एडब्ल्यूएस बिल्डर्स फेयर में, एक ऐसी वेबसाइट जो छवि कैप्शन, चेहरे की पहचान और टेक्स्ट-टू-स्पीच के माध्यम से दृष्टिहीन लोगों को छवियों को समझने में मदद करती है, एक ऐसी तकनीक जिसे हम "इमेज टू स्पीच" कहते हैं। कई एआई/एमएल सेवाओं के उपयोग के माध्यम से, "डिस्क्राइब फॉर मी" एक इनपुट छवि का कैप्शन उत्पन्न करता है और इसे विभिन्न भाषाओं और बोलियों में एक स्पष्ट, प्राकृतिक-ध्वनि वाली आवाज में वापस पढ़ेगा।

इस ब्लॉग पोस्ट में हम आपको "डिस्क्राइब फॉर मी" के पीछे के सॉल्यूशन आर्किटेक्चर और हमारे समाधान के डिजाइन के बारे में बताते हैं।

समाधान अवलोकन

निम्नलिखित संदर्भ आर्किटेक्चर एक उपयोगकर्ता के फ़ोन से तस्वीर लेने और छवि को कैप्शन देने का एक एमपी3 चलाने के कार्यप्रवाह को दिखाता है।

वर्णित समाधान के लिए संदर्भ वास्तुकला।

वर्कफ़्लो में नीचे दिए गए चरण शामिल हैं,

  1. AWS प्रवर्धित करें उपयोगकर्ताओं के मोबाइल उपकरणों को समाप्त करने के लिए HTML, जावास्क्रिप्ट और CSS से मिलकर डिस्क्राइबफोरमी वेब ऐप वितरित करता है।
  2. RSI अमेज़ॅन कॉग्निटो पहचान पूल के लिए अस्थायी पहुँच प्रदान करता है अमेज़न S3 बाल्टी।
  3. उपयोगकर्ता एक छवि फ़ाइल को अपलोड करता है अमेज़न S3 बाल्टी का उपयोग AWS एसडीके वेब ऐप के माध्यम से।
  4. डिस्क्राइबफोरमी वेब ऐप बैकएंड एआई सेवाओं को भेजकर इनवॉइस करता है अमेज़न S3 पेलोड में वस्तु कुंजी अमेज़ॅन एपीआई गेटवे
  5. अमेज़ॅन एपीआई गेटवे तत्काल एक AWS स्टेप फ़ंक्शंस कार्यप्रवाह। स्टेट मशीन आर्टिफिशियल इंटेलिजेंस/मशीन लर्निंग (एआई/एमएल) सेवाओं को ऑर्केस्ट्रेट करती है अमेज़ॅन रेकग्निशन, अमेज़न SageMakerअमेज़न टेक्सट्रेक, अमेज़न अनुवाद, और अमेज़ॅन पोली  का उपयोग एडब्ल्यूएस लैम्ब्डा कार्य करता है.
  6. RSI AWS स्टेप फ़ंक्शंस वर्कफ़्लो आउटपुट के रूप में एक ऑडियो फ़ाइल बनाता है और इसे स्टोर करता है अमेज़न S3 एमपी3 प्रारूप में।
  7. एक पूर्व-हस्ताक्षरित URL जिसमें संग्रहीत ऑडियो फ़ाइल का स्थान है अमेज़न S3 के माध्यम से उपयोगकर्ता के ब्राउज़र पर वापस भेजा जाता है अमेज़ॅन एपीआई गेटवे. उपयोगकर्ता का मोबाइल उपकरण पूर्व-हस्ताक्षरित URL का उपयोग करके ऑडियो फ़ाइल चलाता है।

समाधान पूर्वाभ्यास

इस खंड में, हम डिजाइन के विचारों पर ध्यान केंद्रित करते हैं कि हमने क्यों चुना

  1. एक के भीतर समानांतर प्रसंस्करण AWS स्टेप फ़ंक्शंस वर्कफ़्लो
  2. एकीकृत अनुक्रम-से-अनुक्रम पूर्व-प्रशिक्षित मशीन लर्निंग मॉडल OFA (वन फॉर ऑल)। गले लगना सेवा मेरे अमेज़न SageMaker छवि कैप्शन के लिए
  3. अमेज़ॅन रेकग्निशन चेहरे की पहचान के लिए

हमने सर्वर रहित आर्किटेक्चर, सिंक्रोनस वर्कफ़्लो, एक्सप्रेस स्टेप फ़ंक्शंस वर्कफ़्लो, हेडलेस आर्किटेक्चर और प्राप्त लाभों के बारे में अधिक विस्तृत अवलोकन के लिए, कृपया हमारे पिछले ब्लॉग पोस्ट को पढ़ें। अमेज़ॅन टेक्सट्रैक्ट और अमेज़ॅन पोली का उपयोग करके नेत्रहीनों को दस्तावेज़ सुनने में सक्षम करें

समानांतर प्रसंस्करण

स्टेप फंक्शंस वर्कफ़्लो के भीतर समानांतर प्रसंस्करण का उपयोग करने से गणना समय 48% तक कम हो जाता है। एक बार जब उपयोगकर्ता छवि को S3 बकेट में अपलोड कर देता है, तो Amazon API गेटवे एक AWS स्टेप फंक्शंस वर्कफ़्लो को तुरंत चालू कर देता है। फिर नीचे दिए गए तीन लैम्ब्डा फ़ंक्शंस इमेज को स्टेप फ़ंक्शंस वर्कफ़्लो के भीतर समानांतर में प्रोसेस करते हैं।

  • पहला लैम्ब्डा फंक्शन कॉल किया गया describe_image का उपयोग करके छवि का विश्लेषण करता है OFA_IMAGE_CAPTION मॉडल इमेज कैप्शन प्रदान करने के लिए SageMaker रीयल-टाइम एंडपॉइंट पर होस्ट किया गया।
  • दूसरा लैम्ब्डा समारोह कहा जाता है describe_faces पहले जाँचता है कि क्या Amazon Recognition's का उपयोग करने वाले चेहरे हैं चेहरे एपीआई का पता लगाएं, और अगर सही है, तो यह चेहरे की तुलना करें API को कॉल करता है। इसका कारण यह है कि अगर छवि में कोई चेहरा नहीं मिलता है तो तुलना चेहरे एक त्रुटि फेंक देंगे। साथ ही, केवल चेहरे की तुलना करें चलाने और त्रुटियों को संभालने की तुलना में पहले चेहरे का पता लगाएं को कॉल करना तेज़ है, इसलिए बिना चेहरे वाली छवियों के लिए, संसाधन समय तेज़ होगा।
  • तीसरा लैम्ब्डा फ़ंक्शन कहा जाता है extract_text Amazon Textract, और Amazon Comprehend का उपयोग करके टेक्स्ट-टू-स्पीच को हैंडल करता है।

उत्तराधिकार में लैम्ब्डा कार्यों को निष्पादित करना उपयुक्त है, लेकिन ऐसा करने का तेज़, अधिक कुशल तरीका समांतर प्रसंस्करण के माध्यम से है। निम्न तालिका तीन नमूना छवियों के लिए सहेजे गए गणना समय को दर्शाती है।

छवि स्टाफ़ अनुक्रमिक समय समानांतर समय समय की बचत (%) शीर्षक
अमेज़ॅन सेजमेकर और हगिंग फेस का उपयोग करके एक इमेज-टू-स्पीच जेनरेटिव एआई एप्लिकेशन पेश करना | अमेज़ॅन वेब सेवाएँ प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ. 0 1869ms 1702ms 8% एक भुनी बिल्ली एक भुलक्कड़ सफेद बिस्तर में दुबकी हुई थी।
अमेज़ॅन सेजमेकर और हगिंग फेस का उपयोग करके एक इमेज-टू-स्पीच जेनरेटिव एआई एप्लिकेशन पेश करना | अमेज़ॅन वेब सेवाएँ प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ. 1 4277ms 2197ms 48% तक हरे ब्लाउज़ और काले कार्डिगन में एक महिला कैमरे को देखकर मुस्कुरा रही है। मैं एक व्यक्ति को पहचानता हूं: कानबो।
अमेज़ॅन सेजमेकर और हगिंग फेस का उपयोग करके एक इमेज-टू-स्पीच जेनरेटिव एआई एप्लिकेशन पेश करना | अमेज़ॅन वेब सेवाएँ प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ. 4 6603ms 3904ms 40% तक Amazon Spheres के सामने खड़े लोग। मैं 3 लोगों को पहचानता हूं: कानबो, जैक और अयमान।

तस्वीर का शीर्षक

हगिंग फेस एक ओपन-सोर्स कम्युनिटी और डेटा साइंस प्लेटफॉर्म है जो उपयोगकर्ताओं को मशीन लर्निंग मॉडल को साझा करने, बनाने, प्रशिक्षित करने और तैनात करने की अनुमति देता है। हगिंग फेस मॉडल हब में उपलब्ध मॉडलों की खोज करने के बाद, हमने इसका उपयोग करना चुना ओएफए मॉडल क्योंकि जैसा कि लेखकों द्वारा वर्णित किया गया है, यह "एक कार्य-अज्ञेयवादी और तौर-तरीके-अज्ञेयवादी ढांचा है जो कार्य व्यापकता का समर्थन करता है"।

ओएफए "वन फॉर ऑल" की ओर एक कदम है, क्योंकि यह एक एकीकृत मल्टीमॉडल पूर्व-प्रशिक्षित मॉडल है जो कई डाउनस्ट्रीम कार्यों को प्रभावी ढंग से स्थानांतरित कर सकता है। जबकि OFA मॉडल विज़ुअल ग्राउंडिंग, भाषा समझ और छवि निर्माण सहित कई कार्यों का समर्थन करता है, हमने इसका उपयोग किया इमेज कैप्शनिंग के लिए ओएफए मॉडल डिस्क्राइब फॉर मी प्रोजेक्ट में एप्लिकेशन के इमेज टू टेक्स्ट हिस्से को निष्पादित करने के लिए। OFA (ICML 2022) की आधिकारिक रिपॉजिटरी देखें, काग़ज़ एक सरल अनुक्रम-से-अनुक्रम सीखने की रूपरेखा के माध्यम से ओएफए की एकीकृत वास्तुकला, कार्य और तौर-तरीकों के बारे में जानने के लिए।

हमारे आवेदन में ओएफए को एकीकृत करने के लिए हमने हगिंग फेस से रेपो को क्लोन किया और मॉडल को एक सैजमेकर एंडपॉइंट पर तैनात करने के लिए कंटेनरीकृत किया।  इस रेपो में नोटबुक SageMaker में Jupyter नोटबुक में OFA के बड़े मॉडल को तैनात करने के लिए एक उत्कृष्ट मार्गदर्शिका है। आपकी अनुमान स्क्रिप्ट को कंटेनराइज़ करने के बाद, मॉडल SageMaker समापन बिंदु के पीछे तैनात होने के लिए तैयार है जैसा कि SageMaker में वर्णित है दस्तावेज़ीकरण. एक बार जब मॉडल तैनात हो जाता है, तो एक HTTPS समापन बिंदु बनाएं जिसे "describe_image" लैम्ब्डा फ़ंक्शन के साथ एकीकृत किया जा सकता है जो छवि कैप्शन बनाने के लिए छवि का विश्लेषण करता है। हमने ओएफए छोटे मॉडल को तैनात किया क्योंकि यह एक छोटा मॉडल है और समान प्रदर्शन प्राप्त करते हुए कम समय में तैनात किया जा सकता है।

"डिस्क्राइब फॉर मी" द्वारा उत्पन्न इमेज टू स्पीच सामग्री के उदाहरण नीचे दिखाए गए हैं:

ऑरोरा बोरेलिस, या उत्तरी रोशनी, रात के आकाश को एक घर के सिल्हूट के ऊपर भर देती है।

ऑरोरा बोरेलिस, या उत्तरी रोशनी, रात के आकाश को एक घर के सिल्हूट के ऊपर भर देती है।

एक कुत्ता सख्त लकड़ी के फर्श पर एक लाल कंबल पर सोता है, खिलौनों से भरे एक खुले सूटकेस के बगल में..

एक कुत्ता सख्त लकड़ी के फर्श पर एक लाल कंबल पर सोता है, खिलौनों से भरे एक खुले सूटकेस के बगल में..

एक भुनी बिल्ली एक भुलक्कड़ सफेद बिस्तर में दुबकी हुई थी।

एक भुनी बिल्ली एक भुलक्कड़ सफेद बिस्तर में दुबकी हुई थी।

चेहरे की पहचान

Amazon Recognition Image प्रदान करता है पता लगाने की जगह ऑपरेशन जो एक इनपुट छवि में चेहरों का पता लगाने के लिए प्रमुख चेहरे की विशेषताओं जैसे कि आंखें, नाक और मुंह की तलाश करता है। हमारे समाधान में हम इनपुट छवि में किसी भी व्यक्ति का पता लगाने के लिए इस कार्यक्षमता का लाभ उठाते हैं। यदि किसी व्यक्ति का पता चलता है, तो हम उसका उपयोग करते हैं चेहरे की तुलना करें ऑपरेशन इनपुट छवि में चेहरे की तुलना उन चेहरों से करने के लिए जिनके साथ "डिस्क्राइब फॉर मी" प्रशिक्षित किया गया है और नाम से व्यक्ति का वर्णन करता है। हमने चेहरे की पहचान के लिए रिकॉग्निशन का उपयोग करना चुना क्योंकि उच्च सटीकता और आउट ऑफ द बॉक्स क्षमताओं के साथ इसे हमारे एप्लिकेशन में एकीकृत करना कितना आसान था।

एक कमरे में तस्वीर खिंचवाते लोगों का समूह। मैं 4 लोगों को पहचानता हूं: जैक, कानबो, अलक और ट्रैक। तस्वीर में टेक्स्ट भी मिला था। इसमें लिखा है: AWS re: Invent

एक कमरे में तस्वीर खिंचवाते लोगों का समूह। मैं 4 लोगों को पहचानता हूं: जैक, कानबो, अलक और ट्रैक। तस्वीर में टेक्स्ट भी मिला था। इसमें लिखा है: AWS re: Invent

संभावित उपयोग के मामले

वेब इमेज के लिए वैकल्पिक टेक्स्ट जेनरेशन

एक वेब साइट पर सभी छवियों के लिए एक वैकल्पिक पाठ होना आवश्यक है ताकि स्क्रीन रीडर उन्हें नेत्रहीनों से बोल सकें। यह सर्च इंजन ऑप्टिमाइजेशन (SEO) के लिए भी अच्छा है। ऑल्ट कैप्शन बनाने में समय लग सकता है क्योंकि एक कॉपीराइटर को उन्हें एक डिज़ाइन दस्तावेज़ के भीतर उपलब्ध कराने का काम सौंपा जाता है। डिस्क्रिप्शन फॉर मी एपीआई स्वचालित रूप से छवियों के लिए ऑल्ट-टेक्स्ट उत्पन्न कर सकता है। किसी भी वेबसाइट पर ऑल्ट टेक्स्ट गुम होने वाली इमेज में स्वचालित रूप से इमेज कैप्शन जोड़ने के लिए इसे ब्राउज़र प्लगइन के रूप में भी इस्तेमाल किया जा सकता है।

वीडियो के लिए ऑडियो विवरण

ऑडियो विवरण वीडियो सामग्री के लिए एक कथन ट्रैक प्रदान करता है ताकि नेत्रहीनों को फिल्मों के साथ अनुसरण करने में मदद मिल सके। जैसे-जैसे छवि शीर्षक अधिक मजबूत और सटीक होता जाता है, दृश्य के प्रमुख भागों के विवरण के आधार पर एक ऑडियो ट्रैक के निर्माण से जुड़ा एक कार्यप्रवाह संभव हो सकता है। अमेज़ॅन रिकॉग्निशन पहले से ही दृश्य परिवर्तन, लोगो और क्रेडिट अनुक्रम और सेलिब्रिटी पहचान का पता लगा सकता है। वर्णन का भविष्य संस्करण फिल्मों और वीडियो के लिए इस प्रमुख विशेषता को स्वचालित करने की अनुमति देगा।

निष्कर्ष

इस पोस्ट में, हमने एआई और सर्वर रहित सेवाओं सहित एडब्ल्यूएस सेवाओं का उपयोग करने के बारे में चर्चा की, जिससे नेत्रहीनों को छवियों को देखने में मदद मिल सके। आप डिस्क्राइब फॉर मी प्रोजेक्ट के बारे में अधिक जान सकते हैं और विजिट करके इसका उपयोग कर सकते हैं descriptionforme.com. की अनूठी विशेषताओं के बारे में और जानें अमेज़न SageMakerअमेज़न मान्यता और हगिंग फेस के साथ AWS की साझेदारी.

मार्गदर्शन के लिए तृतीय पक्ष एमएल मॉडल अस्वीकरण

यह मार्गदर्शन केवल सूचनात्मक उद्देश्यों के लिए है। आपको अभी भी अपना स्वतंत्र मूल्यांकन करना चाहिए, और यह सुनिश्चित करने के लिए उपाय करना चाहिए कि आप अपने स्वयं के विशिष्ट गुणवत्ता नियंत्रण प्रथाओं और मानकों, और स्थानीय नियमों, कानूनों, विनियमों, लाइसेंसों और उपयोग की शर्तों का पालन करते हैं जो आप पर, आपकी सामग्री पर लागू होते हैं, और इस मार्गदर्शन में संदर्भित तृतीय-पक्ष मशीन लर्निंग मॉडल। इस मार्गदर्शन में संदर्भित तृतीय-पक्ष मशीन लर्निंग मॉडल पर AWS का कोई नियंत्रण या अधिकार नहीं है, और कोई प्रतिनिधित्व या वारंटी नहीं देता है कि तृतीय-पक्ष मशीन लर्निंग मॉडल सुरक्षित, वायरस-मुक्त, परिचालन या आपके उत्पादन वातावरण के अनुकूल है। और मानक। AWS कोई अभ्यावेदन, वारंटी या गारंटी नहीं देता है कि इस मार्गदर्शन में किसी भी जानकारी के परिणामस्वरूप कोई विशेष परिणाम या परिणाम होगा।


लेखक के बारे में

जैक मार्चेटीजैक मार्चेटी AWS में एक वरिष्ठ समाधान वास्तुकार है, जो ग्राहकों को सर्वर रहित, इवेंट-संचालित आर्किटेक्चर को आधुनिक बनाने और लागू करने में मदद करने पर केंद्रित है। जैक कानूनी रूप से अंधा है और शिकागो में अपनी पत्नी एरिन और बिल्ली मिनौ के साथ रहता है। वह एक पटकथा लेखक और निर्देशक भी हैं, जिनका प्राथमिक फोकस क्रिसमस फिल्मों और हॉरर पर है। जैक की फिल्मोग्राफी देखें IMDb पेज.

अलक ईश्वरदासअलक ईश्वरदास शिकागो, इलिनोइस में स्थित AWS में एक वरिष्ठ समाधान वास्तुकार हैं। वह ग्राहकों को व्यावसायिक चुनौतियों को हल करने के लिए AWS सेवाओं का उपयोग करके क्लाउड आर्किटेक्चर डिज़ाइन करने में मदद करने के बारे में भावुक हैं। अलक AWS ग्राहकों के लिए विभिन्न प्रकार के ML उपयोग मामलों को हल करने के लिए SageMaker का उपयोग करने को लेकर उत्साहित हैं। जब वह काम नहीं कर रही होती है, तो अलक अपनी बेटियों के साथ समय बिताना और अपने कुत्तों के साथ बाहर घूमना पसंद करती है।

कैंडीस बोहनोनकैंडीस बोहनोन मिनियापोलिस, एमएन में स्थित एक वरिष्ठ समाधान वास्तुकार है। इस भूमिका में, कैंडीस एडब्ल्यूएस ग्राहकों के तकनीकी सलाहकार के रूप में काम करता है क्योंकि वे एडब्ल्यूएस में सर्वोत्तम प्रथाओं को लागू करने के लिए विशेष रूप से डेटा और DevOps से संबंधित प्रौद्योगिकी रणनीतियों का आधुनिकीकरण करते हैं। इसके अतिरिक्त, कैंडिस प्रौद्योगिकीविदों की भावी पीढ़ियों को सलाह देने और एडब्ल्यूएस शी बिल्ड्स टेक स्किल्स प्रोग्राम के माध्यम से प्रौद्योगिकी में महिलाओं को प्रदर्शित करने के बारे में भावुक है।

ट्रैक करोट्रैक करो एडब्ल्यूएस में समाधान वास्तुकार हैं। अपनी भूमिका में, ट्रैक उद्यम ग्राहकों के साथ उनके क्लाउड माइग्रेशन और एप्लिकेशन आधुनिकीकरण पहलों का समर्थन करने के लिए काम करता है। वह ग्राहकों की चुनौतियों को सीखने और उन्हें AWS सेवाओं का उपयोग करके मजबूत और स्केलेबल समाधानों के साथ हल करने के बारे में भावुक हैं। ट्रैक वर्तमान में अपनी पत्नी और 3 लड़कों के साथ शिकागो में रहता है। वह एक बड़े विमानन उत्साही हैं और अपना निजी पायलट लाइसेंस पूरा करने की प्रक्रिया में हैं।

समय टिकट:

से अधिक AWS मशीन लर्निंग

स्लीपमे कैसे वास्तविक समय में नींद की गुणवत्ता को अधिकतम करने के लिए स्वचालित तापमान नियंत्रण के लिए अमेज़ॅन सैजमेकर का उपयोग करता है

स्रोत नोड: 1834364
समय टिकट: 10 मई 2023