जैसे-जैसे हम डिजिटल युग में गहराई से उतरते हैं, मशीन की समझ को बढ़ाने में मल्टीमॉडलिटी मॉडल का विकास महत्वपूर्ण हो गया है। ये मॉडल टेक्स्ट और छवियों जैसे विभिन्न डेटा रूपों में सामग्री को संसाधित और उत्पन्न करते हैं। इन मॉडलों की एक प्रमुख विशेषता उनकी छवि-से-पाठ क्षमताएं हैं, जिन्होंने छवि कैप्शनिंग और दृश्य प्रश्न उत्तर जैसे कार्यों में उल्लेखनीय दक्षता दिखाई है।
छवियों को पाठ में अनुवाद करके, हम दृश्य डेटा में निहित जानकारी के भंडार को अनलॉक और उपयोग करते हैं। उदाहरण के लिए, ईकॉमर्स में, इमेज-टू-टेक्स्ट छवियों के आधार पर उत्पाद वर्गीकरण को स्वचालित कर सकता है, जिससे खोज दक्षता और सटीकता बढ़ जाती है। इसी तरह, यह स्वचालित फोटो विवरण तैयार करने में सहायता कर सकता है, ऐसी जानकारी प्रदान कर सकता है जो उत्पाद शीर्षक या विवरण में शामिल नहीं हो सकती है, जिससे उपयोगकर्ता अनुभव में सुधार हो सकता है।
इस पोस्ट में, हम लोकप्रिय मल्टीमोडैलिटी मॉडल का अवलोकन प्रदान करते हैं। हम यह भी प्रदर्शित करते हैं कि इन पूर्व-प्रशिक्षित मॉडलों को कैसे तैनात किया जाए अमेज़न SageMaker. इसके अलावा, हम इन मॉडलों के विविध अनुप्रयोगों पर चर्चा करते हैं, विशेष रूप से कई वास्तविक दुनिया के परिदृश्यों पर ध्यान केंद्रित करते हैं, जैसे ईकॉमर्स के लिए शून्य-शॉट टैग और एट्रिब्यूशन पीढ़ी और छवियों से स्वचालित प्रॉम्प्ट पीढ़ी।
मल्टीमॉडैलिटी मॉडल की पृष्ठभूमि
मशीन लर्निंग (एमएल) मॉडल ने प्राकृतिक भाषा प्रसंस्करण (एनएलपी) और कंप्यूटर विज़न जैसे क्षेत्रों में महत्वपूर्ण प्रगति हासिल की है, जहां मॉडल डेटा के एकल स्रोत से सामग्री का विश्लेषण और निर्माण करने में मानव जैसा प्रदर्शन प्रदर्शित कर सकते हैं। हाल ही में, मल्टीमॉडैलिटी मॉडल के विकास पर ध्यान बढ़ रहा है, जो विभिन्न तौर-तरीकों में सामग्री को संसाधित करने और उत्पन्न करने में सक्षम हैं। दृष्टि और भाषा नेटवर्क के संलयन जैसे इन मॉडलों ने विविध स्रोतों और तौर-तरीकों से जानकारी को एकीकृत करने की अपनी क्षमता के कारण प्रमुखता प्राप्त की है, जिससे उनकी समझ और अभिव्यक्ति क्षमताओं में वृद्धि हुई है।
इस अनुभाग में, हम दो लोकप्रिय मल्टीमोडैलिटी मॉडल का अवलोकन प्रदान करते हैं: सीएलआईपी (विरोधाभासी भाषा-छवि पूर्व-प्रशिक्षण) और बीएलआईपी (बूटस्ट्रैपिंग भाषा-छवि पूर्व-प्रशिक्षण).
क्लिप मॉडल
सीएलआईपी एक मल्टी-मोडल विज़न और भाषा मॉडल है, जिसका उपयोग छवि-पाठ समानता और शून्य-शॉट छवि वर्गीकरण के लिए किया जा सकता है। सीएलआईपी को इंटरनेट पर सार्वजनिक रूप से उपलब्ध विभिन्न स्रोतों से एकत्र किए गए 400 मिलियन छवि-पाठ जोड़े के डेटासेट पर प्रशिक्षित किया गया है। मॉडल आर्किटेक्चर में एक छवि एनकोडर और एक टेक्स्ट एनकोडर शामिल है, जैसा कि निम्नलिखित चित्र में दिखाया गया है।
प्रशिक्षण के दौरान, एक इमेज फ़ीचर वेक्टर और टेक्स्ट फ़ीचर वेक्टर प्राप्त करने के लिए एक छवि और संबंधित टेक्स्ट स्निपेट को एनकोडर के माध्यम से फीड किया जाता है। लक्ष्य यह है कि मिलान किए गए जोड़े के लिए छवि और पाठ सुविधाओं में उच्च कोसाइन समानता हो, जबकि बेमेल जोड़े के लिए सुविधाओं में कम समानता हो। यह एक विपरीत हानि के माध्यम से किया जाता है। इस विरोधाभासी पूर्व-प्रशिक्षण के परिणामस्वरूप एनकोडर बनते हैं जो छवियों और पाठ को एक सामान्य एम्बेडिंग स्थान पर मैप करते हैं जहां शब्दार्थ संरेखित होते हैं।
एनकोडर का उपयोग डाउनस्ट्रीम कार्यों के लिए शून्य-शॉट ट्रांसफर सीखने के लिए किया जा सकता है। अनुमान के समय, छवि और पाठ पूर्व-प्रशिक्षित एनकोडर अपने संबंधित इनपुट को संसाधित करता है और इसे एक उच्च-आयामी वेक्टर प्रतिनिधित्व, या एक में बदल देता है। embedding. फिर छवि और पाठ की एम्बेडिंग की तुलना उनकी समानता निर्धारित करने के लिए की जाती है, जैसे कोसाइन समानता। टेक्स्ट प्रॉम्प्ट (छवि वर्ग, श्रेणियां, या टैग) जिनकी एम्बेडिंग छवि एम्बेडिंग के सबसे समान है (उदाहरण के लिए, सबसे छोटी दूरी है) को सबसे अधिक प्रासंगिक माना जाता है, और छवि को तदनुसार वर्गीकृत किया जाता है।
बीएलआईपी मॉडल
एक अन्य लोकप्रिय मल्टीमोडैलिटी मॉडल BLIP है। यह एक नए मॉडल आर्किटेक्चर का परिचय देता है जो विविध दृष्टि-भाषा कार्यों को अपनाने में सक्षम है और शोर वाले वेब डेटा से सीखने के लिए एक अद्वितीय डेटासेट बूटस्ट्रैपिंग तकनीक का उपयोग करता है। बीएलआईपी आर्किटेक्चर में एक छवि एनकोडर और टेक्स्ट एनकोडर शामिल है: छवि-ग्राउंडेड टेक्स्ट एनकोडर दृश्य जानकारी को टेक्स्ट एनकोडर के ट्रांसफार्मर ब्लॉक में इंजेक्ट करता है, और छवि-ग्राउंडेड टेक्स्ट डिकोडर दृश्य जानकारी को ट्रांसफार्मर डिकोडर ब्लॉक में शामिल करता है। इस वास्तुकला के साथ, बीएलआईपी दृष्टि-भाषा कार्यों के एक स्पेक्ट्रम में उत्कृष्ट प्रदर्शन प्रदर्शित करता है जिसमें छवि-आधारित खोज और सामग्री निर्माण से लेकर इंटरैक्टिव दृश्य संवाद प्रणालियों तक दृश्य और भाषाई जानकारी का संलयन शामिल है। पिछली पोस्ट में, हमने एक प्रस्ताव रखा था BLIP मॉडल पर आधारित सामग्री मॉडरेशन समाधान जिसने कंप्यूटर विज़न यूनिमॉडल एमएल दृष्टिकोण का उपयोग करके कई चुनौतियों का समाधान किया।
केस 1 का उपयोग करें: ईकॉमर्स प्लेटफ़ॉर्म के लिए ज़ीरो-शॉट टैग या विशेषता निर्माण
ईकॉमर्स प्लेटफ़ॉर्म विचारों, उत्पादों और सेवाओं से भरे गतिशील बाज़ार के रूप में कार्य करते हैं। सूचीबद्ध लाखों उत्पादों के साथ, प्रभावी छँटाई और वर्गीकरण एक महत्वपूर्ण चुनौती है। यहीं पर ऑटो-टैगिंग और विशेषता निर्माण की शक्ति अपने आप में आती है। एमएल और एनएलपी जैसी उन्नत प्रौद्योगिकियों का उपयोग करके, ये स्वचालित प्रक्रियाएं ईकॉमर्स प्लेटफार्मों के संचालन में क्रांति ला सकती हैं।
ऑटो-टैगिंग या विशेषता निर्माण का एक प्रमुख लाभ इसकी खोज क्षमता को बढ़ाने की क्षमता में निहित है। सटीक रूप से टैग किए गए उत्पाद ग्राहकों को तेजी से और कुशलता से मिल सकते हैं। उदाहरण के लिए, यदि कोई ग्राहक सामने लोगो के साथ "कॉटन क्रू नेक टी-शर्ट" खोज रहा है, तो ऑटो-टैगिंग और विशेषता पीढ़ी खोज इंजन को उन उत्पादों को इंगित करने में सक्षम बनाती है जो न केवल व्यापक "टी-शर्ट" श्रेणी से मेल खाते हैं, बल्कि "कॉटन" और "क्रू नेक" की विशिष्ट विशेषताएं भी। यह सटीक मिलान अधिक व्यक्तिगत खरीदारी अनुभव प्रदान कर सकता है और ग्राहकों की संतुष्टि को बढ़ा सकता है। इसके अलावा, ऑटो-जेनरेटेड टैग या विशेषताएँ उत्पाद अनुशंसा एल्गोरिदम में काफी सुधार कर सकती हैं। उत्पाद विशेषताओं की गहरी समझ के साथ, सिस्टम ग्राहकों को अधिक प्रासंगिक उत्पाद सुझा सकता है, जिससे खरीदारी की संभावना बढ़ जाती है और ग्राहकों की संतुष्टि बढ़ जाती है।
सीएलआईपी टैग या विशेषता निर्माण की प्रक्रिया को स्वचालित करने के लिए एक आशाजनक समाधान प्रदान करता है। यह इनपुट के रूप में एक उत्पाद छवि और विवरण या टैग की एक सूची लेता है, प्रत्येक टैग के लिए एक वेक्टर प्रतिनिधित्व या एम्बेडिंग उत्पन्न करता है। ये एम्बेडिंग एक उच्च-आयामी स्थान में मौजूद हैं, उनकी सापेक्ष दूरी और दिशाएं इनपुट के बीच अर्थ संबंधी संबंधों को दर्शाती हैं। सीएलआईपी को इन सार्थक एम्बेडिंग को समाहित करने के लिए बड़े पैमाने पर छवि-पाठ जोड़े पर पूर्व-प्रशिक्षित किया गया है। यदि कोई टैग या विशेषता किसी छवि का सटीक वर्णन करती है, तो उनकी एम्बेडिंग इस स्थान में अपेक्षाकृत करीब होनी चाहिए। संबंधित टैग या विशेषताएँ उत्पन्न करने के लिए, संभावित टैग की एक सूची CLIP मॉडल के टेक्स्ट भाग में इनपुट की जा सकती है, और परिणामी एम्बेडिंग संग्रहीत की जा सकती है। आदर्श रूप से, यह सूची विस्तृत होनी चाहिए, जिसमें ईकॉमर्स प्लेटफॉर्म पर उत्पादों से संबंधित सभी संभावित श्रेणियां और विशेषताएं शामिल हों। निम्नलिखित चित्र कुछ उदाहरण दिखाता है.
सेजमेकर पर सीएलआईपी मॉडल को तैनात करने के लिए, आप निम्नलिखित नोटबुक का अनुसरण कर सकते हैं गीथहब रेपो. हम पूर्व-निर्मित सेजमेकर का उपयोग करते हैं बड़े मॉडल अनुमान (एलएमआई) कंटेनर मॉडल को तैनात करने के लिए. एलएमआई कंटेनर का उपयोग करें डीजेएल सर्विंग अनुमान के लिए अपने मॉडल की सेवा के लिए। सेजमेकर पर बड़े मॉडलों की मेजबानी के बारे में अधिक जानने के लिए, देखें DJLServing और DeepSpeed मॉडल के समानांतर अनुमान का उपयोग करके Amazon SageMaker पर बड़े मॉडल परिनियोजित करें और Amazon SageMaker पर FasterTransformer का उपयोग करके बड़े मॉडलों को उच्च प्रदर्शन पर तैनात करें.
इस उदाहरण में, हम फ़ाइलें प्रदान करते हैं serving.properties
, model.py
, तथा requirements.txt
मॉडल कलाकृतियाँ तैयार करना और उन्हें टारबॉल फ़ाइल में संग्रहीत करना।
serving.properties
कॉन्फ़िगरेशन फ़ाइल है जिसका उपयोग डीजेएल सर्विंग को यह इंगित करने के लिए किया जा सकता है कि आप किस मॉडल समानांतरीकरण और अनुमान अनुकूलन लाइब्रेरी का उपयोग करना चाहते हैं। अपनी आवश्यकता के आधार पर, आप उचित कॉन्फ़िगरेशन सेट कर सकते हैं। कॉन्फ़िगरेशन विकल्पों और विस्तृत सूची पर अधिक विवरण के लिए, देखें कॉन्फ़िगरेशन और सेटिंग्स.model.py
वह स्क्रिप्ट है जो सेवा के लिए किसी भी अनुरोध को संभालती है।requirements.txt
वह टेक्स्ट फ़ाइल है जिसमें स्थापित करने के लिए कोई अतिरिक्त पिप व्हील शामिल है।
यदि आप मॉडल डाउनलोड करना चाहते हैं गले लगना सीधे, आप सेट कर सकते हैं option.model_id
में पैरामीटर serving.properties
मॉडल रिपॉजिटरी के अंदर होस्ट किए गए पूर्व-प्रशिक्षित मॉडल की मॉडल आईडी के रूप में फ़ाइल करें हगिंगफेस.को. कंटेनर परिनियोजन समय के दौरान संबंधित मॉडल को डाउनलोड करने के लिए इस मॉडल आईडी का उपयोग करता है। यदि आप सेट करते हैं model_id
एक को अमेज़न सरल भंडारण सेवा (अमेज़ॅन एस3) यूआरएल, डीजेएल अमेज़ॅन एस3 से मॉडल कलाकृतियों को डाउनलोड करेगा और स्वैप करेगा model_id
मॉडल कलाकृतियों के वास्तविक स्थान पर। अपनी स्क्रिप्ट में, आप पूर्व-प्रशिक्षित मॉडल को लोड करने के लिए इस मान को इंगित कर सकते हैं। हमारे उदाहरण में, हम बाद वाले विकल्प का उपयोग करते हैं, क्योंकि एलएमआई कंटेनर का उपयोग होता है s5cmd अमेज़ॅन S3 से डेटा डाउनलोड करने के लिए, जो तैनाती के दौरान मॉडल लोड करते समय गति को काफी कम कर देता है। निम्नलिखित कोड देखें:
में model.py स्क्रिप्ट, हम प्रॉपर्टी फ़ाइल में प्रदान की गई मॉडल आईडी का उपयोग करके मॉडल पथ लोड करते हैं:
मॉडल कलाकृतियाँ तैयार होने और अमेज़न S3 पर अपलोड होने के बाद, आप कोड की कुछ पंक्तियों के साथ CLIP मॉडल को SageMaker होस्टिंग पर तैनात कर सकते हैं:
जब समापन बिंदु सेवा में होता है, तो आप लेबल संभावनाओं को उत्पन्न करने के लिए इनपुट प्रॉम्प्ट के रूप में एक इनपुट छवि और लेबल की एक सूची के साथ समापन बिंदु को लागू कर सकते हैं:
केस 2 का उपयोग करें: छवियों से स्वचालित संकेत पीढ़ी
मल्टीमॉडैलिटी मॉडल का उपयोग करने वाला एक अभिनव अनुप्रयोग एक छवि से सूचनात्मक संकेत उत्पन्न करना है। जेनरेटिव एआई में, ए शीघ्र किसी भाषा मॉडल या अन्य जनरेटिव मॉडल को दिए गए इनपुट को संदर्भित करता है ताकि यह निर्देश दिया जा सके कि किस प्रकार की सामग्री या प्रतिक्रिया वांछित है। संकेत अनिवार्य रूप से एक प्रारंभिक बिंदु या निर्देशों का एक सेट है जो मॉडल की पीढ़ी प्रक्रिया का मार्गदर्शन करता है। यह एक वाक्य, प्रश्न, आंशिक पाठ या किसी भी इनपुट का रूप ले सकता है जो मॉडल को संदर्भ या वांछित आउटपुट बताता है। सटीकता और प्रासंगिकता के साथ उच्च गुणवत्ता वाली छवियां बनाने में एक अच्छी तरह से तैयार किए गए प्रॉम्प्ट का चुनाव महत्वपूर्ण है। शीघ्र इंजीनियरिंग किसी भाषा मॉडल से वांछित प्रतिक्रिया प्राप्त करने के लिए पाठ्य इनपुट को अनुकूलित करने या तैयार करने की प्रक्रिया है, जिसमें अक्सर शब्दांकन, प्रारूप या संदर्भ समायोजन शामिल होता है।
छवि निर्माण के लिए त्वरित इंजीनियरिंग निम्नलिखित सहित कई चुनौतियाँ पेश करती है:
- दृश्य अवधारणाओं को सटीक रूप से परिभाषित करना - दृश्य अवधारणाओं को शब्दों में वर्णित करना कभी-कभी सटीक या अस्पष्ट हो सकता है, जिससे वांछित सटीक छवि व्यक्त करना मुश्किल हो जाता है। पाठ्य संकेतों के माध्यम से जटिल विवरण या जटिल दृश्यों को कैप्चर करना सीधा नहीं हो सकता है।
- वांछित शैलियों को प्रभावी ढंग से निर्दिष्ट करना - विशिष्ट शैलीगत प्राथमिकताओं, जैसे मूड, रंग पैलेट, या कलात्मक शैली, को केवल पाठ के माध्यम से संप्रेषित करना चुनौतीपूर्ण हो सकता है। मॉडल के लिए अमूर्त सौंदर्य संबंधी अवधारणाओं को ठोस निर्देशों में अनुवाद करना मुश्किल हो सकता है।
- मॉडल को ओवरलोड करने से रोकने के लिए जटिलता को संतुलित करना - विस्तृत संकेत मॉडल को भ्रमित कर सकते हैं या जानकारी के साथ इसे ओवरलोड कर सकते हैं, जिससे उत्पन्न आउटपुट प्रभावित हो सकता है। पर्याप्त मार्गदर्शन प्रदान करने और अत्यधिक जटिलता से बचने के बीच सही संतुलन बनाना आवश्यक है।
इसलिए, छवि निर्माण के लिए प्रभावी संकेत तैयार करने में समय लगता है, जिसके लिए सटीकता और रचनात्मकता के बीच सही संतुलन बनाने के लिए पुनरावृत्त प्रयोग और शोधन की आवश्यकता होती है, जिससे यह एक संसाधन-गहन कार्य बन जाता है जो मानव विशेषज्ञता पर बहुत अधिक निर्भर करता है।
RSI सीएलआईपी पूछताछकर्ता छवियों के लिए एक स्वचालित प्रॉम्प्ट इंजीनियरिंग उपकरण है जो किसी दी गई छवि से मेल खाने के लिए टेक्स्ट प्रॉम्प्ट को अनुकूलित करने के लिए CLIP और BLIP को जोड़ता है। आप परिणामी संकेतों का उपयोग टेक्स्ट-टू-इमेज मॉडल जैसे के साथ कर सकते हैं स्थिर प्रसार बढ़िया कला बनाने के लिए. सीएलआईपी इंटररोगेटर द्वारा बनाए गए संकेत छवि का एक व्यापक विवरण प्रदान करते हैं, जिसमें न केवल इसके मूल तत्व बल्कि कलात्मक शैली, छवि के पीछे की संभावित प्रेरणा, वह माध्यम जहां छवि हो सकती थी या इस्तेमाल की जा सकती थी, और उससे भी आगे शामिल है। आप तैनाती प्रक्रिया को कारगर बनाने के लिए सेजमेकर पर सीएलआईपी इंटररोगेटर समाधान को आसानी से तैनात कर सकते हैं, और पूरी तरह से प्रबंधित सेवा द्वारा प्रदान की गई स्केलेबिलिटी, लागत-दक्षता और मजबूत सुरक्षा का लाभ उठा सकते हैं। निम्नलिखित आरेख इस समाधान का प्रवाह तर्क दिखाता है।
आप निम्नलिखित का उपयोग कर सकते हैं नोटबुक सेजमेकर पर सीएलआईपी इंटररोगेटर समाधान तैनात करने के लिए। इसी तरह, सीएलआईपी मॉडल होस्टिंग के लिए, हम डीजेएल सर्विंग का उपयोग करके सेजमेकर पर समाधान होस्ट करने के लिए सेजमेकर एलएमआई कंटेनर का उपयोग करते हैं। इस उदाहरण में, हमने मॉडल कलाकृतियों के साथ एक अतिरिक्त इनपुट फ़ाइल प्रदान की है जो सेजमेकर एंडपॉइंट पर तैनात मॉडल को निर्दिष्ट करती है। आप कैप्शन मॉडल नाम और क्लिप मॉडल नाम को पास करके अलग-अलग CLIP या BLIP मॉडल चुन सकते हैं model_name.json
निम्नलिखित कोड के साथ फ़ाइल बनाई गई:
अनुमान लिपि model.py
इसमें एक हैंडल फ़ंक्शन शामिल है जिसे डीजेएल सर्विंग इस फ़ंक्शन को लागू करके आपके अनुरोध को चलाएगा। इस प्रवेश बिंदु स्क्रिप्ट को तैयार करने के लिए, हमने मूल से कोड अपनाया clip_interrogator.py फ़ाइल बनाई और सेजमेकर होस्टिंग पर डीजेएल सर्विंग के साथ काम करने के लिए इसे संशोधित किया। एक अद्यतन बीएलआईपी मॉडल की लोडिंग है। बीएलआईपी और सीएलआईपी मॉडल इसके माध्यम से लोड किए जाते हैं load_caption_model()
और load_clip_model()
इंटररोगेटर ऑब्जेक्ट के आरंभीकरण के दौरान कार्य करें। बीएलआईपी मॉडल को लोड करने के लिए, हमने सबसे पहले हगिंग फेस से मॉडल कलाकृतियों को डाउनलोड किया और उन्हें लक्ष्य मूल्य के रूप में अमेज़ॅन एस 3 पर अपलोड किया। model_id
गुण फ़ाइल में. ऐसा इसलिए है क्योंकि BLIP मॉडल एक बड़ी फ़ाइल हो सकती है, जैसे कि ब्लिप2-ऑप्ट-2.7बी मॉडल, जिसका आकार 15 जीबी से अधिक है। मॉडल परिनियोजन के दौरान हगिंग फेस से मॉडल डाउनलोड करने पर एंडपॉइंट निर्माण के लिए अधिक समय की आवश्यकता होगी। इसलिए, हम इंगित करते हैं model_id
BLIP3 मॉडल के Amazon S2 स्थान पर जाएं और गुण फ़ाइल में निर्दिष्ट मॉडल पथ से मॉडल को लोड करें। ध्यान दें कि, तैनाती के दौरान, मॉडल पथ को स्थानीय कंटेनर पथ पर बदल दिया जाएगा जहां मॉडल कलाकृतियों को अमेज़ॅन एस 3 स्थान से डीजेएल सर्विंग द्वारा डाउनलोड किया गया था। निम्नलिखित कोड देखें:
चूँकि CLIP मॉडल आकार में बहुत बड़ा नहीं है, इसलिए हम इसका उपयोग करते हैं open_clip
मॉडल को सीधे हगिंग फेस से लोड करने के लिए, जो मूल के समान है clip_interrogator
कार्यान्वयन:
हम सेजमेकर एंडपॉइंट पर सीएलआईपी इंटररोगेटर समाधान को तैनात करने के लिए समान कोड का उपयोग करते हैं और संकेत प्राप्त करने के लिए इनपुट छवि के साथ एंडपॉइंट को आमंत्रित करते हैं जिसका उपयोग समान छवियों को उत्पन्न करने के लिए किया जा सकता है।
आइए निम्नलिखित छवि को एक उदाहरण के रूप में लें। सेजमेकर पर तैनात सीएलआईपी इंटररोगेटर एंडपॉइंट का उपयोग करके, यह निम्नलिखित पाठ विवरण उत्पन्न करता है: croissant on a plate, pexels contest winner, aspect ratio 16:9, cgsocietywlop, 8 h, golden cracks, the artist has used bright, picture of a loft in morning, object features, stylized border, pastry, french emperor.
हम सीएलआईपी इंटररोगेटर समाधान को स्थिर प्रसार और त्वरित इंजीनियरिंग तकनीकों के साथ जोड़ सकते हैं - रचनात्मक संभावनाओं का एक नया आयाम उभरता है। यह एकीकरण हमें न केवल पाठ के साथ छवियों का वर्णन करने की अनुमति देता है, बल्कि मूल छवियों में हेरफेर करने और विविध विविधताएं उत्पन्न करने की भी अनुमति देता है। स्थिर प्रसार उत्पन्न आउटपुट को पुनरावृत्त रूप से परिष्कृत करके नियंत्रित छवि संश्लेषण सुनिश्चित करता है, और रणनीतिक त्वरित इंजीनियरिंग वांछित परिणामों के लिए पीढ़ी प्रक्रिया का मार्गदर्शन करती है।
में नोटबुक का दूसरा भाग, हम स्थिर प्रसार मॉडल के साथ छवियों को पुनर्स्थापित करने के लिए त्वरित इंजीनियरिंग का उपयोग करने के चरणों का विवरण देते हैं (स्थिर प्रसार एक्सएल 1.0). हम उपयोग करते हैं स्थिरता एआई एसडीके AWS पर इस मॉडल की सदस्यता लेने के बाद सेजमेकर जम्पस्टार्ट से इस मॉडल को तैनात करने के लिए बाजार. क्योंकि यह छवि निर्माण के लिए एक नया और बेहतर संस्करण है स्थिरता एआई, हम मूल इनपुट छवि के आधार पर उच्च गुणवत्ता वाली छवियां प्राप्त कर सकते हैं। इसके अतिरिक्त, यदि हम पूर्ववर्ती विवरण के उपसर्ग लगाते हैं और किसी ज्ञात कलाकार और उसके किसी काम का उल्लेख करते हुए एक अतिरिक्त संकेत जोड़ते हैं, तो हमें पुन: स्टाइलिंग के साथ आश्चर्यजनक परिणाम मिलते हैं। निम्न छवि प्रॉम्प्ट का उपयोग करती है: This scene is a Van Gogh painting with The Starry Night style, croissant on a plate, pexels contest winner, aspect ratio 16:9, cgsocietywlop, 8 h, golden cracks, the artist has used bright, picture of a loft in morning, object features, stylized border, pastry, french emperor.
निम्न छवि प्रॉम्प्ट का उपयोग करती है: This scene is a Hokusai painting with The Great Wave off Kanagawa style, croissant on a plate, pexels contest winner, aspect ratio 16:9, cgsocietywlop, 8 h, golden cracks, the artist has used bright, picture of a loft in morning, object features, stylized border, pastry, french emperor.
निष्कर्ष
सीएलआईपी और बीएलआईपी जैसे मल्टीमॉडलिटी मॉडल का उद्भव और उनके अनुप्रयोग छवि-से-पाठ रूपांतरण के परिदृश्य को तेजी से बदल रहे हैं। दृश्य और अर्थ संबंधी जानकारी के बीच अंतर को पाटते हुए, वे हमें दृश्य डेटा की विशाल क्षमता को अनलॉक करने और इसे उन तरीकों से उपयोग करने के लिए उपकरण प्रदान कर रहे हैं जो पहले अकल्पनीय थे।
इस पोस्ट में, हमने मल्टीमॉडैलिटी मॉडल के विभिन्न अनुप्रयोगों का वर्णन किया है। इनमें स्वचालित टैगिंग और वर्गीकरण के माध्यम से ईकॉमर्स प्लेटफार्मों में खोज की दक्षता और सटीकता को बढ़ाने से लेकर स्टेबल डिफ्यूजन जैसे टेक्स्ट-टू-इमेज मॉडल के लिए संकेतों की पीढ़ी तक शामिल हैं। ये एप्लिकेशन अद्वितीय और आकर्षक सामग्री बनाने के लिए नए क्षितिज खोलते हैं। हम आपको सेजमेकर पर विभिन्न मल्टीमॉडैलिटी मॉडल की खोज करके और अधिक जानने और एक ऐसा समाधान बनाने के लिए प्रोत्साहित करते हैं जो आपके व्यवसाय के लिए अभिनव हो।
लेखक के बारे में
यानवेई कुई, पीएचडी, AWS में एक वरिष्ठ मशीन लर्निंग स्पेशलिस्ट सॉल्यूशंस आर्किटेक्ट हैं। उन्होंने IRISA (रिसर्च इंस्टीट्यूट ऑफ कंप्यूटर साइंस एंड रैंडम सिस्टम्स) में मशीन लर्निंग रिसर्च शुरू किया, और उनके पास कंप्यूटर विज़न, प्राकृतिक भाषा प्रसंस्करण और ऑनलाइन उपयोगकर्ता व्यवहार भविष्यवाणी में एआई-संचालित औद्योगिक अनुप्रयोगों के निर्माण का कई वर्षों का अनुभव है। AWS में, वह अपनी डोमेन विशेषज्ञता साझा करते हैं और ग्राहकों को व्यावसायिक संभावनाओं को अनलॉक करने और बड़े पैमाने पर मशीन लर्निंग के साथ कार्रवाई योग्य परिणाम प्राप्त करने में मदद करते हैं। काम के अलावा, उन्हें पढ़ना और यात्रा करना पसंद है।
रघु रमेश अमेज़ॅन सेजमेकर सर्विस टीम के साथ एक वरिष्ठ एमएल सॉल्यूशंस आर्किटेक्ट हैं। वह ग्राहकों को बड़े पैमाने पर एमएल उत्पादन कार्यभार को सेजमेकर में बनाने, तैनात करने और स्थानांतरित करने में मदद करने पर ध्यान केंद्रित करता है। वह मशीन लर्निंग, एआई और कंप्यूटर विज़न डोमेन में माहिर हैं और उनके पास यूटी डलास से कंप्यूटर साइंस में मास्टर डिग्री है। अपने खाली समय में उन्हें यात्रा करना और फोटोग्राफी करना पसंद है।
सैम एडवर्ड्स, AWS सिडनी में एक क्लाउड इंजीनियर (AI/ML) है जो मशीन लर्निंग और Amazon SageMaker में विशेषज्ञता रखता है। वह ग्राहकों को मशीन लर्निंग वर्कफ़्लो से संबंधित मुद्दों को हल करने और उनके लिए नए समाधान बनाने में मदद करने का शौक रखते हैं। काम के अलावा, उन्हें रैकेट खेल खेलना और यात्रा करना पसंद है।
मेलानी ली, पीएचडी, सिडनी, ऑस्ट्रेलिया में स्थित AWS में एक वरिष्ठ AI/ML विशेषज्ञ TAM हैं। वह एडब्ल्यूएस पर अत्याधुनिक एआई/एमएल टूल का उपयोग करके उद्यम ग्राहकों को समाधान बनाने में मदद करती है और सर्वोत्तम प्रथाओं के साथ एमएल समाधानों को तैयार करने और लागू करने पर मार्गदर्शन प्रदान करती है। अपने खाली समय में, वह प्रकृति का पता लगाना और परिवार और दोस्तों के साथ समय बिताना पसंद करती हैं।
गॉर्डन वांग AWS में एक वरिष्ठ AI/ML विशेषज्ञ TAM हैं। वह कई उद्योगों में एआई/एमएल सर्वोत्तम प्रथाओं के साथ रणनीतिक ग्राहकों का समर्थन करता है। उन्हें कंप्यूटर विज़न, एनएलपी, जेनरेटिव एआई और एमएलओपीएस का शौक है। अपने खाली समय में उन्हें दौड़ना और लंबी पैदल यात्रा करना पसंद है।
धवल पटेल AWS में प्रिंसिपल मशीन लर्निंग आर्किटेक्ट हैं। उन्होंने वितरित कंप्यूटिंग और आर्टिफिशियल इंटेलिजेंस से संबंधित समस्याओं पर बड़े उद्यमों से लेकर मध्यम आकार के स्टार्टअप तक के संगठनों के साथ काम किया है। वह एनएलपी और कंप्यूटर विज़न डोमेन सहित डीप लर्निंग पर ध्यान केंद्रित करता है। वह ग्राहकों को सेजमेकर पर उच्च प्रदर्शन मॉडल अनुमान प्राप्त करने में मदद करता है।
- एसईओ संचालित सामग्री और पीआर वितरण। आज ही प्रवर्धित हो जाओ।
- प्लेटोडेटा.नेटवर्क वर्टिकल जेनरेटिव एआई। स्वयं को शक्तिवान बनाएं। यहां पहुंचें।
- प्लेटोआईस्ट्रीम। Web3 इंटेलिजेंस। ज्ञान प्रवर्धित। यहां पहुंचें।
- प्लेटोईएसजी. कार्बन, क्लीनटेक, ऊर्जा, पर्यावरण, सौर, कचरा प्रबंधन। यहां पहुंचें।
- प्लेटोहेल्थ। बायोटेक और क्लिनिकल परीक्षण इंटेलिजेंस। यहां पहुंचें।
- स्रोत: https://aws.amazon.com/blogs/machine-learning/build-an-image-to-text-generative-ai-application-using-multimodality-models-on-amazon-sagemaker/
- :हैस
- :है
- :नहीं
- :कहाँ
- 1
- 10
- 100
- 12
- 15% तक
- 16
- 400
- 7
- 8
- 9
- 97
- a
- क्षमता
- About
- अमूर्त
- तदनुसार
- शुद्धता
- सही रूप में
- पाना
- हासिल
- के पार
- वास्तविक
- जोड़ना
- अतिरिक्त
- इसके अतिरिक्त
- संबोधित
- समायोजन
- दत्तक
- उन्नत
- प्रगति
- लाभ
- प्रभावित करने वाले
- बाद
- AI
- ऐ संचालित
- ऐ / एमएल
- एल्गोरिदम
- गठबंधन
- सब
- की अनुमति देता है
- अकेला
- भी
- अद्भुत
- वीरांगना
- अमेज़न SageMaker
- अमेज़ॅन वेब सेवा
- an
- का विश्लेषण
- और
- कोई
- आवेदन
- अनुप्रयोगों
- दृष्टिकोण
- उपयुक्त
- स्थापत्य
- हैं
- कला
- कृत्रिम
- कृत्रिम बुद्धिमत्ता
- कलाकार
- कलात्मक
- AS
- पहलू
- सहायता
- At
- ध्यान
- विशेषताओं
- ऑस्ट्रेलिया
- को स्वचालित रूप से
- स्वचालित
- स्वचालित
- स्वचालित
- उपलब्ध
- से बचने
- एडब्ल्यूएस
- शेष
- आधारित
- BE
- क्योंकि
- किया गया
- व्यवहार
- पीछे
- लाभ
- BEST
- सर्वोत्तम प्रथाओं
- बेहतर
- के बीच
- परे
- बड़ा
- खंड
- परिवर्तन
- बढ़ावा
- सीमा
- ब्रिजिंग
- उज्ज्वल
- व्यापक
- निर्माण
- इमारत
- व्यापार
- लेकिन
- by
- कर सकते हैं
- पा सकते हैं
- क्षमताओं
- सक्षम
- कैप्चरिंग
- मामला
- कैट
- श्रेणियाँ
- वर्ग
- बिल्ली की
- चुनौती
- चुनौतियों
- चुनौतीपूर्ण
- चुनाव
- चुनें
- कक्षाएं
- वर्गीकरण
- वर्गीकृत
- समापन
- बादल
- कोड
- रंग
- गठबंधन
- जोड़ती
- आता है
- सामान्य
- संवाद स्थापित
- तुलना
- जटिल
- जटिलता
- व्यापक
- कंप्यूटर
- कम्प्यूटर साइंस
- Computer Vision
- कंप्यूटिंग
- अवधारणाओं
- विन्यास
- माना
- होते हैं
- निहित
- कंटेनर
- कंटेनरों
- शामिल हैं
- सामग्री
- सामग्री पीढ़ी
- प्रसंग
- नियंत्रित
- रूपांतरण
- ठंडा
- इसी
- सका
- कवर
- बनाना
- बनाया
- बनाना
- निर्माण
- क्रिएटिव
- रचनात्मकता
- महत्वपूर्ण
- क्रॉस
- ग्राहक
- ग्राहक संतुष्टि
- ग्राहक
- डलास
- तिथि
- गहरा
- ध्यान लगा के पढ़ना या सीखना
- और गहरा
- डिग्री
- गड्ढा
- दिखाना
- दर्शाता
- निर्भर करता है
- तैनात
- तैनात
- तैनाती
- वर्णन
- विवरण
- वांछित
- विस्तार
- विवरण
- निर्धारित करना
- विकास
- युक्ति
- बातचीत
- विभिन्न
- मुश्किल
- प्रसार
- डिजिटल
- आयाम
- सीधे
- चर्चा करना
- दूरी
- वितरित
- वितरित अभिकलन
- कई
- डोमेन
- डोमेन
- किया
- डाउनलोड
- ड्राइव
- दो
- दौरान
- गतिशील
- से प्रत्येक
- आसानी
- ई-कॉमर्स
- प्रभावी
- दक्षता
- कुशलता
- विस्तृत
- तत्व
- अन्य
- embedding
- उद्भव
- उभर रहे हैं
- रोजगार
- सक्षम
- प्रोत्साहित करना
- endpoint
- मनोहन
- इंजन
- इंजीनियर
- अभियांत्रिकी
- बढ़ाना
- बढ़ाने
- सुनिश्चित
- उद्यम
- उद्यम
- प्रविष्टि
- युग
- आवश्यक
- अनिवार्य
- उदाहरण
- उदाहरण
- एक्ज़िबिट
- मौजूद
- अनुभव
- विशेषज्ञता
- का पता लगाने
- तलाश
- अभिव्यक्ति
- चेहरा
- की सुविधा
- परिवार
- Feature
- विशेषताएं
- फेड
- कुछ
- फ़ील्ड
- आकृति
- पट्टिका
- फ़ाइलें
- प्रथम
- प्रवाह
- केंद्रित
- ध्यान केंद्रित
- का पालन करें
- निम्नलिखित
- के लिए
- प्रपत्र
- प्रारूप
- रूपों
- पाया
- मुक्त
- फ्रेंच
- मित्रों
- से
- सामने
- पूरी तरह से
- समारोह
- मौलिक
- आगे
- और भी
- संलयन
- प्राप्त की
- अन्तर
- उत्पन्न
- उत्पन्न
- उत्पन्न करता है
- सृजन
- पीढ़ी
- उत्पादक
- जनरेटिव एआई
- मिल
- दी
- लक्ष्य
- सुनहरा
- महान
- मार्गदर्शन
- मार्गदर्शिकाएँ
- संभालना
- हैंडल
- साज़
- दोहन
- है
- he
- भारी
- मदद
- मदद करता है
- उसे
- हाई
- उच्च गुणवत्ता
- उसके
- रखती है
- क्षितिज
- मेजबान
- मेजबानी
- होस्टिंग
- कैसे
- How To
- एचटीएमएल
- http
- HTTPS
- मानव
- ID
- आदर्श
- विचारों
- if
- की छवि
- छवि वर्गीकरण
- छवियों
- कार्यान्वयन
- कार्यान्वयन
- आयात
- में सुधार
- में सुधार लाने
- in
- शामिल
- शामिल
- सहित
- बढ़ती
- संकेत मिलता है
- औद्योगिक
- उद्योगों
- करें-
- जानकारीपूर्ण
- अभिनव
- निवेश
- निविष्टियां
- अंदर
- प्रेरणा
- स्थापित
- उदाहरण
- संस्थान
- निर्देश
- एकीकृत
- एकीकरण
- बुद्धि
- इंटरैक्टिव
- इंटरनेट
- में
- द्वारा प्रस्तुत
- शामिल करना
- शामिल
- मुद्दों
- IT
- आईटी इस
- जेपीजी
- JSON
- कुंजी
- जानने वाला
- लेबल
- लेबल
- परिदृश्य
- भाषा
- बड़ा
- बड़े उद्यम
- नेतृत्व
- जानें
- सीख रहा हूँ
- Li
- पुस्तकालयों
- झूठ
- पसंद
- संभावना
- पंक्तियां
- सूची
- सूचीबद्ध
- भार
- लोड हो रहा है
- स्थानीय
- स्थान
- तर्क
- प्रतीक चिन्ह
- बंद
- प्यार करता है
- निम्न
- मशीन
- यंत्र अधिगम
- बनाना
- निर्माण
- कामयाब
- बहुत
- नक्शा
- बाजारों
- मास्टर की
- मैच
- मिलान किया
- मिलान
- सार्थक
- मध्यम
- केवल
- हो सकता है
- विस्थापित
- दस लाख
- लाखों
- ML
- एमएलओपीएस
- आदर्श
- मॉडल
- संयम
- संशोधित
- अधिक
- और भी
- सुबह
- अधिकांश
- विभिन्न
- नाम
- प्राकृतिक
- प्राकृतिक भाषा संसाधन
- प्रकृति
- आवश्यकता
- नेटवर्क
- नया
- नए क्षितिज
- रात
- NLP
- कोई नहीं
- नोटबुक
- उपन्यास
- वस्तु
- of
- बंद
- प्रस्ताव
- ऑफर
- अक्सर
- on
- ONE
- ऑनलाइन
- केवल
- खुला
- संचालन
- इष्टतमीकरण
- ऑप्टिमाइज़ करें
- के अनुकूलन के
- विकल्प
- ऑप्शंस
- or
- संगठनों
- मूल
- OS
- अन्य
- हमारी
- परिणामों
- उत्पादन
- बाहर
- बकाया
- सिंहावलोकन
- भारी
- अपना
- पेंटिंग
- जोड़ा
- जोड़े
- पैलेट
- समानांतर
- प्राचल
- भाग
- विशेष रूप से
- पासिंग
- आवेशपूर्ण
- पथ
- प्रदर्शन
- निजीकृत
- पीएचडी
- फ़ोटो
- फ़ोटोग्राफ़ी
- चित्र
- केंद्रीय
- मंच
- प्लेटफार्म
- प्लेटो
- प्लेटो डेटा इंटेलिजेंस
- प्लेटोडाटा
- खेल
- प्लग
- बिन्दु
- लोकप्रिय
- बन गया है
- संभावनाओं
- पद
- संभावित
- क्षमता
- बिजली
- प्रथाओं
- ठीक
- शुद्धता
- भविष्यवाणी
- वरीयताओं
- तैयार करना
- तैयार
- को रोकने के
- पिछला
- पहले से
- प्रिंसिपल
- समस्याओं
- प्रक्रिया
- प्रक्रियाओं
- प्रसंस्करण
- एस्ट्रो मॉल
- उत्पादन
- उत्पाद
- शोहरत
- होनहार
- गुण
- संपत्ति
- प्रस्तावित
- प्रदान करना
- बशर्ते
- प्रदान करता है
- प्रदान कर
- सार्वजनिक रूप से
- खरीद
- प्रश्न
- बिना सोचे समझे
- रेंज
- लेकर
- तेजी
- अनुपात
- पढ़ना
- असली दुनिया
- हाल ही में
- सिफारिश
- कम कर देता है
- उल्लेख
- संदर्भित करता है
- रिफाइनिंग
- दर्शाती
- क्षेत्र
- सम्बंधित
- रिश्ते
- सापेक्ष
- अपेक्षाकृत
- प्रासंगिकता
- प्रासंगिक
- असाधारण
- कोष
- प्रतिनिधित्व
- का अनुरोध
- अनुरोधों
- की आवश्यकता होती है
- की आवश्यकता होती है
- अनुसंधान
- गहन संसाधन
- कि
- प्रतिक्रिया
- प्रतिक्रियाएं
- जिसके परिणामस्वरूप
- परिणाम
- वापसी
- क्रांतिकारी बदलाव
- सही
- मजबूत
- रन
- दौड़ना
- sagemaker
- वही
- संतोष
- अनुमापकता
- स्केल
- परिदृश्यों
- दृश्य
- दृश्यों
- विज्ञान
- लिपि
- Search
- search engine
- खोज
- अनुभाग
- सुरक्षा
- देखना
- स्व
- अर्थ विज्ञान
- वरिष्ठ
- वाक्य
- सेवा
- सेवा
- सेवाएँ
- सेवारत
- सेट
- कई
- शेयरों
- वह
- खरीदारी
- चाहिए
- दिखाया
- दिखाता है
- महत्वपूर्ण
- काफी
- समान
- उसी प्रकार
- सरल
- एक
- आकार
- टुकड़ा
- समाधान
- समाधान ढूंढे
- हल
- कुछ
- कभी कभी
- स्रोत
- सूत्रों का कहना है
- अंतरिक्ष
- विशेषज्ञ
- विशेषीकृत
- माहिर
- विशिष्ट
- विनिर्दिष्ट
- स्पेक्ट्रम
- गति
- बिताना
- खेल-कूद
- स्थिर
- तारों से जड़ा
- शुरू
- शुरुआत में
- स्टार्टअप
- राज्य के-the-कला
- कदम
- भंडारण
- की दुकान
- संग्रहित
- सरल
- सामरिक
- सुवीही
- हड़ताल
- अंदाज
- काफी हद तक
- ऐसा
- पर्याप्त
- सुझाव
- समर्थन करता है
- विनिमय
- तेजी से
- सिडनी
- प्रणाली
- सिस्टम
- टैग
- लेना
- लेता है
- लक्ष्य
- कार्य
- कार्य
- टीम
- तकनीक
- टेक्नोलॉजीज
- टेम्पलेट
- टेक्स्ट
- शाब्दिक
- से
- कि
- RSI
- परिदृश्य
- लेकिन हाल ही
- उन
- फिर
- वहाँ।
- जिसके चलते
- इसलिये
- इन
- वे
- इसका
- यहाँ
- पहर
- खिताब
- सेवा मेरे
- साधन
- उपकरण
- की ओर
- प्रशिक्षित
- प्रशिक्षण
- स्थानांतरण
- ट्रांसफार्मर
- बदलने
- रूपांतरण
- यात्रा का
- दो
- टाइप
- समझ
- अकल्पनीय
- अद्वितीय
- अनलॉक
- अपडेट
- अपलोड की गई
- यूआरएल
- us
- उपयोग
- प्रयुक्त
- उपयोगकर्ता
- उपयोगकर्ता अनुभव
- का उपयोग करता है
- का उपयोग
- मूल्य
- विविधता
- विभिन्न
- व्यापक
- संस्करण
- बहुत
- के माध्यम से
- दृष्टि
- W
- करना चाहते हैं
- लहर
- तरीके
- we
- धन
- वेब
- वेब सेवाओं
- थे
- क्या
- कब
- कौन कौन से
- जब
- पूरा का पूरा
- किसका
- मर्जी
- विजेता
- साथ में
- शब्दों
- शब्द
- काम
- काम किया
- workflows
- कार्य
- होगा
- साल
- आप
- आपका
- जेफिरनेट