अमेज़ॅन सेजमेकर और हगिंग फेस का उपयोग करके एक इमेज-टू-स्पीच जेनरेटिव एआई एप्लिकेशन का परिचय

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

दृष्टि हानि विभिन्न रूपों में आती है। कुछ के लिए, यह जन्म से है, दूसरों के लिए, यह समय के साथ एक धीमी गति से वंश है जो कई समाप्ति तिथियों के साथ आता है: जिस दिन आप चित्र नहीं देख सकते हैं, अपने आप को पहचान सकते हैं, या अपने प्रियजनों को चेहरे या यहां तक कि अपना मेल पढ़ सकते हैं। हमारे पिछले ब्लॉगपोस्ट में अमेज़ॅन टेक्सट्रैक्ट और अमेज़ॅन पोली का उपयोग करके नेत्रहीनों को दस्तावेज़ सुनने में सक्षम करें, हमने आपको अपना टेक्स्ट टू स्पीच एप्लिकेशन दिखाया "मेरे लिए पढ़ें"। अभिगम्यता एक लंबा सफर तय कर चुकी है, लेकिन छवियों के बारे में क्या?

2022 AWS re:लास वेगास में आविष्कार सम्मेलन में, हमने प्रदर्शन किया "मेरे लिए वर्णन करें" एडब्ल्यूएस बिल्डर्स फेयर में, एक ऐसी वेबसाइट जो छवि कैप्शन, चेहरे की पहचान और टेक्स्ट-टू-स्पीच के माध्यम से दृष्टिहीन लोगों को छवियों को समझने में मदद करती है, एक ऐसी तकनीक जिसे हम "इमेज टू स्पीच" कहते हैं। कई एआई/एमएल सेवाओं के उपयोग के माध्यम से, "डिस्क्राइब फॉर मी" एक इनपुट छवि का कैप्शन उत्पन्न करता है और इसे विभिन्न भाषाओं और बोलियों में एक स्पष्ट, प्राकृतिक-ध्वनि वाली आवाज में वापस पढ़ेगा।

इस ब्लॉग पोस्ट में हम आपको "डिस्क्राइब फॉर मी" के पीछे के सॉल्यूशन आर्किटेक्चर और हमारे समाधान के डिजाइन के बारे में बताते हैं।

समाधान अवलोकन

निम्नलिखित संदर्भ आर्किटेक्चर एक उपयोगकर्ता के फ़ोन से तस्वीर लेने और छवि को कैप्शन देने का एक एमपी3 चलाने के कार्यप्रवाह को दिखाता है।

वर्णित समाधान के लिए संदर्भ वास्तुकला।

वर्कफ़्लो में नीचे दिए गए चरण शामिल हैं,

AWS प्रवर्धित करें उपयोगकर्ताओं के मोबाइल उपकरणों को समाप्त करने के लिए HTML, जावास्क्रिप्ट और CSS से मिलकर डिस्क्राइबफोरमी वेब ऐप वितरित करता है।
RSI अमेज़ॅन कॉग्निटो पहचान पूल के लिए अस्थायी पहुँच प्रदान करता है अमेज़न S3 बाल्टी।
उपयोगकर्ता एक छवि फ़ाइल को अपलोड करता है अमेज़न S3 बाल्टी का उपयोग AWS एसडीके वेब ऐप के माध्यम से।
डिस्क्राइबफोरमी वेब ऐप बैकएंड एआई सेवाओं को भेजकर इनवॉइस करता है अमेज़न S3 पेलोड में वस्तु कुंजी अमेज़ॅन एपीआई गेटवे
अमेज़ॅन एपीआई गेटवे तत्काल एक AWS स्टेप फ़ंक्शंस कार्यप्रवाह। स्टेट मशीन आर्टिफिशियल इंटेलिजेंस/मशीन लर्निंग (एआई/एमएल) सेवाओं को ऑर्केस्ट्रेट करती है अमेज़ॅन रेकग्निशन, अमेज़न SageMaker, अमेज़न टेक्सट्रेक, अमेज़न अनुवाद, और अमेज़ॅन पोली का उपयोग एडब्ल्यूएस लैम्ब्डा कार्य करता है.
RSI AWS स्टेप फ़ंक्शंस वर्कफ़्लो आउटपुट के रूप में एक ऑडियो फ़ाइल बनाता है और इसे स्टोर करता है अमेज़न S3 एमपी3 प्रारूप में।
एक पूर्व-हस्ताक्षरित URL जिसमें संग्रहीत ऑडियो फ़ाइल का स्थान है अमेज़न S3 के माध्यम से उपयोगकर्ता के ब्राउज़र पर वापस भेजा जाता है अमेज़ॅन एपीआई गेटवे. उपयोगकर्ता का मोबाइल उपकरण पूर्व-हस्ताक्षरित URL का उपयोग करके ऑडियो फ़ाइल चलाता है।

समाधान पूर्वाभ्यास

इस खंड में, हम डिजाइन के विचारों पर ध्यान केंद्रित करते हैं कि हमने क्यों चुना

एक के भीतर समानांतर प्रसंस्करण AWS स्टेप फ़ंक्शंस वर्कफ़्लो
एकीकृत अनुक्रम-से-अनुक्रम पूर्व-प्रशिक्षित मशीन लर्निंग मॉडल OFA (वन फॉर ऑल)। गले लगना सेवा मेरे अमेज़न SageMaker छवि कैप्शन के लिए
अमेज़ॅन रेकग्निशन चेहरे की पहचान के लिए

हमने सर्वर रहित आर्किटेक्चर, सिंक्रोनस वर्कफ़्लो, एक्सप्रेस स्टेप फ़ंक्शंस वर्कफ़्लो, हेडलेस आर्किटेक्चर और प्राप्त लाभों के बारे में अधिक विस्तृत अवलोकन के लिए, कृपया हमारे पिछले ब्लॉग पोस्ट को पढ़ें। अमेज़ॅन टेक्सट्रैक्ट और अमेज़ॅन पोली का उपयोग करके नेत्रहीनों को दस्तावेज़ सुनने में सक्षम करें.

समानांतर प्रसंस्करण

स्टेप फंक्शंस वर्कफ़्लो के भीतर समानांतर प्रसंस्करण का उपयोग करने से गणना समय 48% तक कम हो जाता है। एक बार जब उपयोगकर्ता छवि को S3 बकेट में अपलोड कर देता है, तो Amazon API गेटवे एक AWS स्टेप फंक्शंस वर्कफ़्लो को तुरंत चालू कर देता है। फिर नीचे दिए गए तीन लैम्ब्डा फ़ंक्शंस इमेज को स्टेप फ़ंक्शंस वर्कफ़्लो के भीतर समानांतर में प्रोसेस करते हैं।

पहला लैम्ब्डा फंक्शन कॉल किया गया describe_image का उपयोग करके छवि का विश्लेषण करता है OFA_IMAGE_CAPTION मॉडल इमेज कैप्शन प्रदान करने के लिए SageMaker रीयल-टाइम एंडपॉइंट पर होस्ट किया गया।
दूसरा लैम्ब्डा समारोह कहा जाता है describe_faces पहले जाँचता है कि क्या Amazon Recognition's का उपयोग करने वाले चेहरे हैं चेहरे एपीआई का पता लगाएं, और अगर सही है, तो यह चेहरे की तुलना करें API को कॉल करता है। इसका कारण यह है कि अगर छवि में कोई चेहरा नहीं मिलता है तो तुलना चेहरे एक त्रुटि फेंक देंगे। साथ ही, केवल चेहरे की तुलना करें चलाने और त्रुटियों को संभालने की तुलना में पहले चेहरे का पता लगाएं को कॉल करना तेज़ है, इसलिए बिना चेहरे वाली छवियों के लिए, संसाधन समय तेज़ होगा।
तीसरा लैम्ब्डा फ़ंक्शन कहा जाता है extract_text Amazon Textract, और Amazon Comprehend का उपयोग करके टेक्स्ट-टू-स्पीच को हैंडल करता है।

उत्तराधिकार में लैम्ब्डा कार्यों को निष्पादित करना उपयुक्त है, लेकिन ऐसा करने का तेज़, अधिक कुशल तरीका समांतर प्रसंस्करण के माध्यम से है। निम्न तालिका तीन नमूना छवियों के लिए सहेजे गए गणना समय को दर्शाती है।

छवि	स्टाफ़	अनुक्रमिक समय	समानांतर समय	समय की बचत (%)	शीर्षक
	0	1869ms	1702ms	8%	एक भुनी बिल्ली एक भुलक्कड़ सफेद बिस्तर में दुबकी हुई थी।
	1	4277ms	2197ms	48% तक	हरे ब्लाउज़ और काले कार्डिगन में एक महिला कैमरे को देखकर मुस्कुरा रही है। मैं एक व्यक्ति को पहचानता हूं: कानबो।
	4	6603ms	3904ms	40% तक	Amazon Spheres के सामने खड़े लोग। मैं 3 लोगों को पहचानता हूं: कानबो, जैक और अयमान।

तस्वीर का शीर्षक

हगिंग फेस एक ओपन-सोर्स कम्युनिटी और डेटा साइंस प्लेटफॉर्म है जो उपयोगकर्ताओं को मशीन लर्निंग मॉडल को साझा करने, बनाने, प्रशिक्षित करने और तैनात करने की अनुमति देता है। हगिंग फेस मॉडल हब में उपलब्ध मॉडलों की खोज करने के बाद, हमने इसका उपयोग करना चुना ओएफए मॉडल क्योंकि जैसा कि लेखकों द्वारा वर्णित किया गया है, यह "एक कार्य-अज्ञेयवादी और तौर-तरीके-अज्ञेयवादी ढांचा है जो कार्य व्यापकता का समर्थन करता है"।

ओएफए "वन फॉर ऑल" की ओर एक कदम है, क्योंकि यह एक एकीकृत मल्टीमॉडल पूर्व-प्रशिक्षित मॉडल है जो कई डाउनस्ट्रीम कार्यों को प्रभावी ढंग से स्थानांतरित कर सकता है। जबकि OFA मॉडल विज़ुअल ग्राउंडिंग, भाषा समझ और छवि निर्माण सहित कई कार्यों का समर्थन करता है, हमने इसका उपयोग किया इमेज कैप्शनिंग के लिए ओएफए मॉडल डिस्क्राइब फॉर मी प्रोजेक्ट में एप्लिकेशन के इमेज टू टेक्स्ट हिस्से को निष्पादित करने के लिए। OFA (ICML 2022) की आधिकारिक रिपॉजिटरी देखें, काग़ज़ एक सरल अनुक्रम-से-अनुक्रम सीखने की रूपरेखा के माध्यम से ओएफए की एकीकृत वास्तुकला, कार्य और तौर-तरीकों के बारे में जानने के लिए।

हमारे आवेदन में ओएफए को एकीकृत करने के लिए हमने हगिंग फेस से रेपो को क्लोन किया और मॉडल को एक सैजमेकर एंडपॉइंट पर तैनात करने के लिए कंटेनरीकृत किया। इस रेपो में नोटबुक SageMaker में Jupyter नोटबुक में OFA के बड़े मॉडल को तैनात करने के लिए एक उत्कृष्ट मार्गदर्शिका है। आपकी अनुमान स्क्रिप्ट को कंटेनराइज़ करने के बाद, मॉडल SageMaker समापन बिंदु के पीछे तैनात होने के लिए तैयार है जैसा कि SageMaker में वर्णित है दस्तावेज़ीकरण. एक बार जब मॉडल तैनात हो जाता है, तो एक HTTPS समापन बिंदु बनाएं जिसे "describe_image" लैम्ब्डा फ़ंक्शन के साथ एकीकृत किया जा सकता है जो छवि कैप्शन बनाने के लिए छवि का विश्लेषण करता है। हमने ओएफए छोटे मॉडल को तैनात किया क्योंकि यह एक छोटा मॉडल है और समान प्रदर्शन प्राप्त करते हुए कम समय में तैनात किया जा सकता है।

"डिस्क्राइब फॉर मी" द्वारा उत्पन्न इमेज टू स्पीच सामग्री के उदाहरण नीचे दिखाए गए हैं:

ऑरोरा बोरेलिस, या उत्तरी रोशनी, रात के आकाश को एक घर के सिल्हूट के ऊपर भर देती है।

ऑरोरा बोरेलिस, या उत्तरी रोशनी, रात के आकाश को एक घर के सिल्हूट के ऊपर भर देती है।

एक कुत्ता सख्त लकड़ी के फर्श पर एक लाल कंबल पर सोता है, खिलौनों से भरे एक खुले सूटकेस के बगल में..

एक कुत्ता सख्त लकड़ी के फर्श पर एक लाल कंबल पर सोता है, खिलौनों से भरे एक खुले सूटकेस के बगल में..

एक भुनी बिल्ली एक भुलक्कड़ सफेद बिस्तर में दुबकी हुई थी।

चेहरे की पहचान

Amazon Recognition Image प्रदान करता है पता लगाने की जगह ऑपरेशन जो एक इनपुट छवि में चेहरों का पता लगाने के लिए प्रमुख चेहरे की विशेषताओं जैसे कि आंखें, नाक और मुंह की तलाश करता है। हमारे समाधान में हम इनपुट छवि में किसी भी व्यक्ति का पता लगाने के लिए इस कार्यक्षमता का लाभ उठाते हैं। यदि किसी व्यक्ति का पता चलता है, तो हम उसका उपयोग करते हैं चेहरे की तुलना करें ऑपरेशन इनपुट छवि में चेहरे की तुलना उन चेहरों से करने के लिए जिनके साथ "डिस्क्राइब फॉर मी" प्रशिक्षित किया गया है और नाम से व्यक्ति का वर्णन करता है। हमने चेहरे की पहचान के लिए रिकॉग्निशन का उपयोग करना चुना क्योंकि उच्च सटीकता और आउट ऑफ द बॉक्स क्षमताओं के साथ इसे हमारे एप्लिकेशन में एकीकृत करना कितना आसान था।

एक कमरे में तस्वीर खिंचवाते लोगों का समूह। मैं 4 लोगों को पहचानता हूं: जैक, कानबो, अलक और ट्रैक। तस्वीर में टेक्स्ट भी मिला था। इसमें लिखा है: AWS re: Invent

एक कमरे में तस्वीर खिंचवाते लोगों का समूह। मैं 4 लोगों को पहचानता हूं: जैक, कानबो, अलक और ट्रैक। तस्वीर में टेक्स्ट भी मिला था। इसमें लिखा है: AWS re: Invent

संभावित उपयोग के मामले

वेब इमेज के लिए वैकल्पिक टेक्स्ट जेनरेशन

एक वेब साइट पर सभी छवियों के लिए एक वैकल्पिक पाठ होना आवश्यक है ताकि स्क्रीन रीडर उन्हें नेत्रहीनों से बोल सकें। यह सर्च इंजन ऑप्टिमाइजेशन (SEO) के लिए भी अच्छा है। ऑल्ट कैप्शन बनाने में समय लग सकता है क्योंकि एक कॉपीराइटर को उन्हें एक डिज़ाइन दस्तावेज़ के भीतर उपलब्ध कराने का काम सौंपा जाता है। डिस्क्रिप्शन फॉर मी एपीआई स्वचालित रूप से छवियों के लिए ऑल्ट-टेक्स्ट उत्पन्न कर सकता है। किसी भी वेबसाइट पर ऑल्ट टेक्स्ट गुम होने वाली इमेज में स्वचालित रूप से इमेज कैप्शन जोड़ने के लिए इसे ब्राउज़र प्लगइन के रूप में भी इस्तेमाल किया जा सकता है।

वीडियो के लिए ऑडियो विवरण

ऑडियो विवरण वीडियो सामग्री के लिए एक कथन ट्रैक प्रदान करता है ताकि नेत्रहीनों को फिल्मों के साथ अनुसरण करने में मदद मिल सके। जैसे-जैसे छवि शीर्षक अधिक मजबूत और सटीक होता जाता है, दृश्य के प्रमुख भागों के विवरण के आधार पर एक ऑडियो ट्रैक के निर्माण से जुड़ा एक कार्यप्रवाह संभव हो सकता है। अमेज़ॅन रिकॉग्निशन पहले से ही दृश्य परिवर्तन, लोगो और क्रेडिट अनुक्रम और सेलिब्रिटी पहचान का पता लगा सकता है। वर्णन का भविष्य संस्करण फिल्मों और वीडियो के लिए इस प्रमुख विशेषता को स्वचालित करने की अनुमति देगा।

निष्कर्ष

इस पोस्ट में, हमने एआई और सर्वर रहित सेवाओं सहित एडब्ल्यूएस सेवाओं का उपयोग करने के बारे में चर्चा की, जिससे नेत्रहीनों को छवियों को देखने में मदद मिल सके। आप डिस्क्राइब फॉर मी प्रोजेक्ट के बारे में अधिक जान सकते हैं और विजिट करके इसका उपयोग कर सकते हैं descriptionforme.com. की अनूठी विशेषताओं के बारे में और जानें अमेज़न SageMaker, अमेज़न मान्यता और हगिंग फेस के साथ AWS की साझेदारी.

मार्गदर्शन के लिए तृतीय पक्ष एमएल मॉडल अस्वीकरण

यह मार्गदर्शन केवल सूचनात्मक उद्देश्यों के लिए है। आपको अभी भी अपना स्वतंत्र मूल्यांकन करना चाहिए, और यह सुनिश्चित करने के लिए उपाय करना चाहिए कि आप अपने स्वयं के विशिष्ट गुणवत्ता नियंत्रण प्रथाओं और मानकों, और स्थानीय नियमों, कानूनों, विनियमों, लाइसेंसों और उपयोग की शर्तों का पालन करते हैं जो आप पर, आपकी सामग्री पर लागू होते हैं, और इस मार्गदर्शन में संदर्भित तृतीय-पक्ष मशीन लर्निंग मॉडल। इस मार्गदर्शन में संदर्भित तृतीय-पक्ष मशीन लर्निंग मॉडल पर AWS का कोई नियंत्रण या अधिकार नहीं है, और कोई प्रतिनिधित्व या वारंटी नहीं देता है कि तृतीय-पक्ष मशीन लर्निंग मॉडल सुरक्षित, वायरस-मुक्त, परिचालन या आपके उत्पादन वातावरण के अनुकूल है। और मानक। AWS कोई अभ्यावेदन, वारंटी या गारंटी नहीं देता है कि इस मार्गदर्शन में किसी भी जानकारी के परिणामस्वरूप कोई विशेष परिणाम या परिणाम होगा।

लेखक के बारे में

जैक मार्चेटी AWS में एक वरिष्ठ समाधान वास्तुकार है, जो ग्राहकों को सर्वर रहित, इवेंट-संचालित आर्किटेक्चर को आधुनिक बनाने और लागू करने में मदद करने पर केंद्रित है। जैक कानूनी रूप से अंधा है और शिकागो में अपनी पत्नी एरिन और बिल्ली मिनौ के साथ रहता है। वह एक पटकथा लेखक और निर्देशक भी हैं, जिनका प्राथमिक फोकस क्रिसमस फिल्मों और हॉरर पर है। जैक की फिल्मोग्राफी देखें IMDb पेज.

अलक ईश्वरदास शिकागो, इलिनोइस में स्थित AWS में एक वरिष्ठ समाधान वास्तुकार हैं। वह ग्राहकों को व्यावसायिक चुनौतियों को हल करने के लिए AWS सेवाओं का उपयोग करके क्लाउड आर्किटेक्चर डिज़ाइन करने में मदद करने के बारे में भावुक हैं। अलक AWS ग्राहकों के लिए विभिन्न प्रकार के ML उपयोग मामलों को हल करने के लिए SageMaker का उपयोग करने को लेकर उत्साहित हैं। जब वह काम नहीं कर रही होती है, तो अलक अपनी बेटियों के साथ समय बिताना और अपने कुत्तों के साथ बाहर घूमना पसंद करती है।

कैंडीस बोहनोन मिनियापोलिस, एमएन में स्थित एक वरिष्ठ समाधान वास्तुकार है। इस भूमिका में, कैंडीस एडब्ल्यूएस ग्राहकों के तकनीकी सलाहकार के रूप में काम करता है क्योंकि वे एडब्ल्यूएस में सर्वोत्तम प्रथाओं को लागू करने के लिए विशेष रूप से डेटा और DevOps से संबंधित प्रौद्योगिकी रणनीतियों का आधुनिकीकरण करते हैं। इसके अतिरिक्त, कैंडिस प्रौद्योगिकीविदों की भावी पीढ़ियों को सलाह देने और एडब्ल्यूएस शी बिल्ड्स टेक स्किल्स प्रोग्राम के माध्यम से प्रौद्योगिकी में महिलाओं को प्रदर्शित करने के बारे में भावुक है।

ट्रैक करो एडब्ल्यूएस में समाधान वास्तुकार हैं। अपनी भूमिका में, ट्रैक उद्यम ग्राहकों के साथ उनके क्लाउड माइग्रेशन और एप्लिकेशन आधुनिकीकरण पहलों का समर्थन करने के लिए काम करता है। वह ग्राहकों की चुनौतियों को सीखने और उन्हें AWS सेवाओं का उपयोग करके मजबूत और स्केलेबल समाधानों के साथ हल करने के बारे में भावुक हैं। ट्रैक वर्तमान में अपनी पत्नी और 3 लड़कों के साथ शिकागो में रहता है। वह एक बड़े विमानन उत्साही हैं और अपना निजी पायलट लाइसेंस पूरा करने की प्रक्रिया में हैं।

एसईओ संचालित सामग्री और पीआर वितरण। आज ही प्रवर्धित हो जाओ।
प्लेटोआईस्ट्रीम। Web3 डेटा इंटेलिजेंस। ज्ञान प्रवर्धित। यहां पहुंचें।
मिंटिंग द फ्यूचर डब्ल्यू एड्रिएन एशले। यहां पहुंचें।
PREIPO® के साथ PRE-IPO कंपनियों में शेयर खरीदें और बेचें। यहां पहुंचें।
स्रोत: https://aws.amazon.com/blogs/machine-learning/introducing-an-image-to-speech-generative-ai-application-using-amazon-sagemaker-and-hugging-face/

समय टिकट: 19 मई 2023

समय टिकट: अगस्त 8, 2022

2022H2 अमेज़न टेक्सट्रैक्ट लॉन्च सारांश

स्रोत क्लस्टर:

AWS मशीन लर्निंग

स्रोत नोड: 1780360

समय टिकट: दिसम्बर 29, 2022

सेजमेकर डिस्ट्रीब्यूशन अब अमेज़न सेजमेकर स्टूडियो पर उपलब्ध है अमेज़न वेब सेवाएँ

स्रोत क्लस्टर:

AWS मशीन लर्निंग

स्रोत नोड: 1870500

समय टिकट: अगस्त 2, 2023

प्लेटो द्वारा पुनर्प्रकाशित

Amazon S3 ऑब्जेक्ट लैम्ब्डा के साथ ML प्रीप्रोसेसिंग की लागत और जटिलता को कम करें

पेश है MLOps के लिए Amazon Comprehend फ़्लाइव्हील

पंडों के उपयोगकर्ता-परिभाषित कार्य अब अमेज़न सेजमेकर डेटा रैंगलर में उपलब्ध हैं

लागत-कुशल, उच्च-प्रदर्शन AI अनुमान के लिए Amazon EC2 DL2q उदाहरण अब आम तौर पर उपलब्ध है | अमेज़न वेब सेवाएँ

अमेज़ॅन सेजमेकर कैनवास क्विक बिल्ड के साथ एक टाइम सीरीज़ फोरकास्टिंग मॉडल को तेज़ी से प्रशिक्षित करें

DJLServing और DeepSpeed मॉडल के समानांतर अनुमान का उपयोग करके Amazon SageMaker पर बड़े मॉडल परिनियोजित करें

अमेज़ॅन सेजमेकर एज मैनेजर और एडब्ल्यूएस आईओटी ग्रीनग्रास के साथ किनारे पर एमएलओप्स

2022H2 अमेज़न टेक्सट्रैक्ट लॉन्च सारांश

हमारे बारे में

ऊर्ध्वाधर खोज और ऐ

मंच

जुड़े रहें

लेखा