अमेज़ॅन सेजमेकर पर मल्टीमॉडैलिटी मॉडल का उपयोग करके एक इमेज-टू-टेक्स्ट जेनरेटिव एआई एप्लिकेशन बनाएं

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

जैसे-जैसे हम डिजिटल युग में गहराई से उतरते हैं, मशीन की समझ को बढ़ाने में मल्टीमॉडलिटी मॉडल का विकास महत्वपूर्ण हो गया है। ये मॉडल टेक्स्ट और छवियों जैसे विभिन्न डेटा रूपों में सामग्री को संसाधित और उत्पन्न करते हैं। इन मॉडलों की एक प्रमुख विशेषता उनकी छवि-से-पाठ क्षमताएं हैं, जिन्होंने छवि कैप्शनिंग और दृश्य प्रश्न उत्तर जैसे कार्यों में उल्लेखनीय दक्षता दिखाई है।

छवियों को पाठ में अनुवाद करके, हम दृश्य डेटा में निहित जानकारी के भंडार को अनलॉक और उपयोग करते हैं। उदाहरण के लिए, ईकॉमर्स में, इमेज-टू-टेक्स्ट छवियों के आधार पर उत्पाद वर्गीकरण को स्वचालित कर सकता है, जिससे खोज दक्षता और सटीकता बढ़ जाती है। इसी तरह, यह स्वचालित फोटो विवरण तैयार करने में सहायता कर सकता है, ऐसी जानकारी प्रदान कर सकता है जो उत्पाद शीर्षक या विवरण में शामिल नहीं हो सकती है, जिससे उपयोगकर्ता अनुभव में सुधार हो सकता है।

इस पोस्ट में, हम लोकप्रिय मल्टीमोडैलिटी मॉडल का अवलोकन प्रदान करते हैं। हम यह भी प्रदर्शित करते हैं कि इन पूर्व-प्रशिक्षित मॉडलों को कैसे तैनात किया जाए अमेज़न SageMaker. इसके अलावा, हम इन मॉडलों के विविध अनुप्रयोगों पर चर्चा करते हैं, विशेष रूप से कई वास्तविक दुनिया के परिदृश्यों पर ध्यान केंद्रित करते हैं, जैसे ईकॉमर्स के लिए शून्य-शॉट टैग और एट्रिब्यूशन पीढ़ी और छवियों से स्वचालित प्रॉम्प्ट पीढ़ी।

मल्टीमॉडैलिटी मॉडल की पृष्ठभूमि

मशीन लर्निंग (एमएल) मॉडल ने प्राकृतिक भाषा प्रसंस्करण (एनएलपी) और कंप्यूटर विज़न जैसे क्षेत्रों में महत्वपूर्ण प्रगति हासिल की है, जहां मॉडल डेटा के एकल स्रोत से सामग्री का विश्लेषण और निर्माण करने में मानव जैसा प्रदर्शन प्रदर्शित कर सकते हैं। हाल ही में, मल्टीमॉडैलिटी मॉडल के विकास पर ध्यान बढ़ रहा है, जो विभिन्न तौर-तरीकों में सामग्री को संसाधित करने और उत्पन्न करने में सक्षम हैं। दृष्टि और भाषा नेटवर्क के संलयन जैसे इन मॉडलों ने विविध स्रोतों और तौर-तरीकों से जानकारी को एकीकृत करने की अपनी क्षमता के कारण प्रमुखता प्राप्त की है, जिससे उनकी समझ और अभिव्यक्ति क्षमताओं में वृद्धि हुई है।

इस अनुभाग में, हम दो लोकप्रिय मल्टीमोडैलिटी मॉडल का अवलोकन प्रदान करते हैं: सीएलआईपी (विरोधाभासी भाषा-छवि पूर्व-प्रशिक्षण) और बीएलआईपी (बूटस्ट्रैपिंग भाषा-छवि पूर्व-प्रशिक्षण).

क्लिप मॉडल

सीएलआईपी एक मल्टी-मोडल विज़न और भाषा मॉडल है, जिसका उपयोग छवि-पाठ समानता और शून्य-शॉट छवि वर्गीकरण के लिए किया जा सकता है। सीएलआईपी को इंटरनेट पर सार्वजनिक रूप से उपलब्ध विभिन्न स्रोतों से एकत्र किए गए 400 मिलियन छवि-पाठ जोड़े के डेटासेट पर प्रशिक्षित किया गया है। मॉडल आर्किटेक्चर में एक छवि एनकोडर और एक टेक्स्ट एनकोडर शामिल है, जैसा कि निम्नलिखित चित्र में दिखाया गया है।

Amazon SageMaker | पर मल्टीमॉडैलिटी मॉडल का उपयोग करके एक इमेज-टू-टेक्स्ट जेनरेटिव AI एप्लिकेशन बनाएं अमेज़ॅन वेब सेवाएँ प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ.

प्रशिक्षण के दौरान, एक इमेज फ़ीचर वेक्टर और टेक्स्ट फ़ीचर वेक्टर प्राप्त करने के लिए एक छवि और संबंधित टेक्स्ट स्निपेट को एनकोडर के माध्यम से फीड किया जाता है। लक्ष्य यह है कि मिलान किए गए जोड़े के लिए छवि और पाठ सुविधाओं में उच्च कोसाइन समानता हो, जबकि बेमेल जोड़े के लिए सुविधाओं में कम समानता हो। यह एक विपरीत हानि के माध्यम से किया जाता है। इस विरोधाभासी पूर्व-प्रशिक्षण के परिणामस्वरूप एनकोडर बनते हैं जो छवियों और पाठ को एक सामान्य एम्बेडिंग स्थान पर मैप करते हैं जहां शब्दार्थ संरेखित होते हैं।

एनकोडर का उपयोग डाउनस्ट्रीम कार्यों के लिए शून्य-शॉट ट्रांसफर सीखने के लिए किया जा सकता है। अनुमान के समय, छवि और पाठ पूर्व-प्रशिक्षित एनकोडर अपने संबंधित इनपुट को संसाधित करता है और इसे एक उच्च-आयामी वेक्टर प्रतिनिधित्व, या एक में बदल देता है। embedding. फिर छवि और पाठ की एम्बेडिंग की तुलना उनकी समानता निर्धारित करने के लिए की जाती है, जैसे कोसाइन समानता। टेक्स्ट प्रॉम्प्ट (छवि वर्ग, श्रेणियां, या टैग) जिनकी एम्बेडिंग छवि एम्बेडिंग के सबसे समान है (उदाहरण के लिए, सबसे छोटी दूरी है) को सबसे अधिक प्रासंगिक माना जाता है, और छवि को तदनुसार वर्गीकृत किया जाता है।

बीएलआईपी मॉडल

एक अन्य लोकप्रिय मल्टीमोडैलिटी मॉडल BLIP है। यह एक नए मॉडल आर्किटेक्चर का परिचय देता है जो विविध दृष्टि-भाषा कार्यों को अपनाने में सक्षम है और शोर वाले वेब डेटा से सीखने के लिए एक अद्वितीय डेटासेट बूटस्ट्रैपिंग तकनीक का उपयोग करता है। बीएलआईपी आर्किटेक्चर में एक छवि एनकोडर और टेक्स्ट एनकोडर शामिल है: छवि-ग्राउंडेड टेक्स्ट एनकोडर दृश्य जानकारी को टेक्स्ट एनकोडर के ट्रांसफार्मर ब्लॉक में इंजेक्ट करता है, और छवि-ग्राउंडेड टेक्स्ट डिकोडर दृश्य जानकारी को ट्रांसफार्मर डिकोडर ब्लॉक में शामिल करता है। इस वास्तुकला के साथ, बीएलआईपी दृष्टि-भाषा कार्यों के एक स्पेक्ट्रम में उत्कृष्ट प्रदर्शन प्रदर्शित करता है जिसमें छवि-आधारित खोज और सामग्री निर्माण से लेकर इंटरैक्टिव दृश्य संवाद प्रणालियों तक दृश्य और भाषाई जानकारी का संलयन शामिल है। पिछली पोस्ट में, हमने एक प्रस्ताव रखा था BLIP मॉडल पर आधारित सामग्री मॉडरेशन समाधान जिसने कंप्यूटर विज़न यूनिमॉडल एमएल दृष्टिकोण का उपयोग करके कई चुनौतियों का समाधान किया।

केस 1 का उपयोग करें: ईकॉमर्स प्लेटफ़ॉर्म के लिए ज़ीरो-शॉट टैग या विशेषता निर्माण

ईकॉमर्स प्लेटफ़ॉर्म विचारों, उत्पादों और सेवाओं से भरे गतिशील बाज़ार के रूप में कार्य करते हैं। सूचीबद्ध लाखों उत्पादों के साथ, प्रभावी छँटाई और वर्गीकरण एक महत्वपूर्ण चुनौती है। यहीं पर ऑटो-टैगिंग और विशेषता निर्माण की शक्ति अपने आप में आती है। एमएल और एनएलपी जैसी उन्नत प्रौद्योगिकियों का उपयोग करके, ये स्वचालित प्रक्रियाएं ईकॉमर्स प्लेटफार्मों के संचालन में क्रांति ला सकती हैं।

ऑटो-टैगिंग या विशेषता निर्माण का एक प्रमुख लाभ इसकी खोज क्षमता को बढ़ाने की क्षमता में निहित है। सटीक रूप से टैग किए गए उत्पाद ग्राहकों को तेजी से और कुशलता से मिल सकते हैं। उदाहरण के लिए, यदि कोई ग्राहक सामने लोगो के साथ "कॉटन क्रू नेक टी-शर्ट" खोज रहा है, तो ऑटो-टैगिंग और विशेषता पीढ़ी खोज इंजन को उन उत्पादों को इंगित करने में सक्षम बनाती है जो न केवल व्यापक "टी-शर्ट" श्रेणी से मेल खाते हैं, बल्कि "कॉटन" और "क्रू नेक" की विशिष्ट विशेषताएं भी। यह सटीक मिलान अधिक व्यक्तिगत खरीदारी अनुभव प्रदान कर सकता है और ग्राहकों की संतुष्टि को बढ़ा सकता है। इसके अलावा, ऑटो-जेनरेटेड टैग या विशेषताएँ उत्पाद अनुशंसा एल्गोरिदम में काफी सुधार कर सकती हैं। उत्पाद विशेषताओं की गहरी समझ के साथ, सिस्टम ग्राहकों को अधिक प्रासंगिक उत्पाद सुझा सकता है, जिससे खरीदारी की संभावना बढ़ जाती है और ग्राहकों की संतुष्टि बढ़ जाती है।

सीएलआईपी टैग या विशेषता निर्माण की प्रक्रिया को स्वचालित करने के लिए एक आशाजनक समाधान प्रदान करता है। यह इनपुट के रूप में एक उत्पाद छवि और विवरण या टैग की एक सूची लेता है, प्रत्येक टैग के लिए एक वेक्टर प्रतिनिधित्व या एम्बेडिंग उत्पन्न करता है। ये एम्बेडिंग एक उच्च-आयामी स्थान में मौजूद हैं, उनकी सापेक्ष दूरी और दिशाएं इनपुट के बीच अर्थ संबंधी संबंधों को दर्शाती हैं। सीएलआईपी को इन सार्थक एम्बेडिंग को समाहित करने के लिए बड़े पैमाने पर छवि-पाठ जोड़े पर पूर्व-प्रशिक्षित किया गया है। यदि कोई टैग या विशेषता किसी छवि का सटीक वर्णन करती है, तो उनकी एम्बेडिंग इस स्थान में अपेक्षाकृत करीब होनी चाहिए। संबंधित टैग या विशेषताएँ उत्पन्न करने के लिए, संभावित टैग की एक सूची CLIP मॉडल के टेक्स्ट भाग में इनपुट की जा सकती है, और परिणामी एम्बेडिंग संग्रहीत की जा सकती है। आदर्श रूप से, यह सूची विस्तृत होनी चाहिए, जिसमें ईकॉमर्स प्लेटफॉर्म पर उत्पादों से संबंधित सभी संभावित श्रेणियां और विशेषताएं शामिल हों। निम्नलिखित चित्र कुछ उदाहरण दिखाता है.

सेजमेकर पर सीएलआईपी मॉडल को तैनात करने के लिए, आप निम्नलिखित नोटबुक का अनुसरण कर सकते हैं गीथहब रेपो. हम पूर्व-निर्मित सेजमेकर का उपयोग करते हैं बड़े मॉडल अनुमान (एलएमआई) कंटेनर मॉडल को तैनात करने के लिए. एलएमआई कंटेनर का उपयोग करें डीजेएल सर्विंग अनुमान के लिए अपने मॉडल की सेवा के लिए। सेजमेकर पर बड़े मॉडलों की मेजबानी के बारे में अधिक जानने के लिए, देखें DJLServing और DeepSpeed मॉडल के समानांतर अनुमान का उपयोग करके Amazon SageMaker पर बड़े मॉडल परिनियोजित करें और Amazon SageMaker पर FasterTransformer का उपयोग करके बड़े मॉडलों को उच्च प्रदर्शन पर तैनात करें.

इस उदाहरण में, हम फ़ाइलें प्रदान करते हैं serving.properties, model.py, तथा requirements.txt मॉडल कलाकृतियाँ तैयार करना और उन्हें टारबॉल फ़ाइल में संग्रहीत करना।

serving.properties कॉन्फ़िगरेशन फ़ाइल है जिसका उपयोग डीजेएल सर्विंग को यह इंगित करने के लिए किया जा सकता है कि आप किस मॉडल समानांतरीकरण और अनुमान अनुकूलन लाइब्रेरी का उपयोग करना चाहते हैं। अपनी आवश्यकता के आधार पर, आप उचित कॉन्फ़िगरेशन सेट कर सकते हैं। कॉन्फ़िगरेशन विकल्पों और विस्तृत सूची पर अधिक विवरण के लिए, देखें कॉन्फ़िगरेशन और सेटिंग्स.
model.py वह स्क्रिप्ट है जो सेवा के लिए किसी भी अनुरोध को संभालती है।
requirements.txt वह टेक्स्ट फ़ाइल है जिसमें स्थापित करने के लिए कोई अतिरिक्त पिप व्हील शामिल है।

यदि आप मॉडल डाउनलोड करना चाहते हैं गले लगना सीधे, आप सेट कर सकते हैं option.model_id में पैरामीटर serving.properties मॉडल रिपॉजिटरी के अंदर होस्ट किए गए पूर्व-प्रशिक्षित मॉडल की मॉडल आईडी के रूप में फ़ाइल करें हगिंगफेस.को. कंटेनर परिनियोजन समय के दौरान संबंधित मॉडल को डाउनलोड करने के लिए इस मॉडल आईडी का उपयोग करता है। यदि आप सेट करते हैं model_id एक को अमेज़न सरल भंडारण सेवा (अमेज़ॅन एस3) यूआरएल, डीजेएल अमेज़ॅन एस3 से मॉडल कलाकृतियों को डाउनलोड करेगा और स्वैप करेगा model_id मॉडल कलाकृतियों के वास्तविक स्थान पर। अपनी स्क्रिप्ट में, आप पूर्व-प्रशिक्षित मॉडल को लोड करने के लिए इस मान को इंगित कर सकते हैं। हमारे उदाहरण में, हम बाद वाले विकल्प का उपयोग करते हैं, क्योंकि एलएमआई कंटेनर का उपयोग होता है s5cmd अमेज़ॅन S3 से डेटा डाउनलोड करने के लिए, जो तैनाती के दौरान मॉडल लोड करते समय गति को काफी कम कर देता है। निम्नलिखित कोड देखें:

# we plug in the appropriate model location into our `serving.properties` file based on the region in which this notebook is running template = jinja_env.from_string(Path("clip/serving.properties").open().read()) Path("clip/serving.properties").open("w").write( template.render(s3url=pretrained_model_location) ) !pygmentize clip/serving.properties | cat -n

में model.py स्क्रिप्ट, हम प्रॉपर्टी फ़ाइल में प्रदान की गई मॉडल आईडी का उपयोग करके मॉडल पथ लोड करते हैं:

def load_clip_model(self, properties): if self.config.caption_model is None: model_path = properties["model_id"] ... ... print(f'model path: {model_path}') model = CLIPModel.from_pretrained(model_path, cache_dir="/tmp",) self.caption_processor = CLIPProcessor.from_pretrained(model_path)

मॉडल कलाकृतियाँ तैयार होने और अमेज़न S3 पर अपलोड होने के बाद, आप कोड की कुछ पंक्तियों के साथ CLIP मॉडल को SageMaker होस्टिंग पर तैनात कर सकते हैं:

from sagemaker.model import Model model = Model( image_uri=inference_image_uri, model_data=s3_code_artifact, role=role, name=model_name,
) model.deploy( initial_instance_count=1, instance_type="ml.g5.2xlarge", endpoint_name=endpoint_name
)

जब समापन बिंदु सेवा में होता है, तो आप लेबल संभावनाओं को उत्पन्न करने के लिए इनपुट प्रॉम्प्ट के रूप में एक इनपुट छवि और लेबल की एक सूची के साथ समापन बिंदु को लागू कर सकते हैं:

def encode_image(img_file): with open(img_file, "rb") as image_file: img_str = base64.b64encode(image_file.read()) base64_string = img_str.decode("latin1") return base64_string def run_inference(endpoint_name, inputs): response = smr_client.invoke_endpoint( EndpointName=endpoint_name, Body=json.dumps(inputs) ) return response["Body"].read().decode('utf-8') base64_string = encode_image(test_image)
inputs = {"image": base64_string, "prompt": ["a photo of cats", "a photo of dogs"]}
output = run_inference(endpoint_name, inputs)
print(json.loads(output)[0])

केस 2 का उपयोग करें: छवियों से स्वचालित संकेत पीढ़ी

मल्टीमॉडैलिटी मॉडल का उपयोग करने वाला एक अभिनव अनुप्रयोग एक छवि से सूचनात्मक संकेत उत्पन्न करना है। जेनरेटिव एआई में, ए शीघ्र किसी भाषा मॉडल या अन्य जनरेटिव मॉडल को दिए गए इनपुट को संदर्भित करता है ताकि यह निर्देश दिया जा सके कि किस प्रकार की सामग्री या प्रतिक्रिया वांछित है। संकेत अनिवार्य रूप से एक प्रारंभिक बिंदु या निर्देशों का एक सेट है जो मॉडल की पीढ़ी प्रक्रिया का मार्गदर्शन करता है। यह एक वाक्य, प्रश्न, आंशिक पाठ या किसी भी इनपुट का रूप ले सकता है जो मॉडल को संदर्भ या वांछित आउटपुट बताता है। सटीकता और प्रासंगिकता के साथ उच्च गुणवत्ता वाली छवियां बनाने में एक अच्छी तरह से तैयार किए गए प्रॉम्प्ट का चुनाव महत्वपूर्ण है। शीघ्र इंजीनियरिंग किसी भाषा मॉडल से वांछित प्रतिक्रिया प्राप्त करने के लिए पाठ्य इनपुट को अनुकूलित करने या तैयार करने की प्रक्रिया है, जिसमें अक्सर शब्दांकन, प्रारूप या संदर्भ समायोजन शामिल होता है।

छवि निर्माण के लिए त्वरित इंजीनियरिंग निम्नलिखित सहित कई चुनौतियाँ पेश करती है:

दृश्य अवधारणाओं को सटीक रूप से परिभाषित करना - दृश्य अवधारणाओं को शब्दों में वर्णित करना कभी-कभी सटीक या अस्पष्ट हो सकता है, जिससे वांछित सटीक छवि व्यक्त करना मुश्किल हो जाता है। पाठ्य संकेतों के माध्यम से जटिल विवरण या जटिल दृश्यों को कैप्चर करना सीधा नहीं हो सकता है।
वांछित शैलियों को प्रभावी ढंग से निर्दिष्ट करना - विशिष्ट शैलीगत प्राथमिकताओं, जैसे मूड, रंग पैलेट, या कलात्मक शैली, को केवल पाठ के माध्यम से संप्रेषित करना चुनौतीपूर्ण हो सकता है। मॉडल के लिए अमूर्त सौंदर्य संबंधी अवधारणाओं को ठोस निर्देशों में अनुवाद करना मुश्किल हो सकता है।
मॉडल को ओवरलोड करने से रोकने के लिए जटिलता को संतुलित करना - विस्तृत संकेत मॉडल को भ्रमित कर सकते हैं या जानकारी के साथ इसे ओवरलोड कर सकते हैं, जिससे उत्पन्न आउटपुट प्रभावित हो सकता है। पर्याप्त मार्गदर्शन प्रदान करने और अत्यधिक जटिलता से बचने के बीच सही संतुलन बनाना आवश्यक है।

इसलिए, छवि निर्माण के लिए प्रभावी संकेत तैयार करने में समय लगता है, जिसके लिए सटीकता और रचनात्मकता के बीच सही संतुलन बनाने के लिए पुनरावृत्त प्रयोग और शोधन की आवश्यकता होती है, जिससे यह एक संसाधन-गहन कार्य बन जाता है जो मानव विशेषज्ञता पर बहुत अधिक निर्भर करता है।

RSI सीएलआईपी पूछताछकर्ता छवियों के लिए एक स्वचालित प्रॉम्प्ट इंजीनियरिंग उपकरण है जो किसी दी गई छवि से मेल खाने के लिए टेक्स्ट प्रॉम्प्ट को अनुकूलित करने के लिए CLIP और BLIP को जोड़ता है। आप परिणामी संकेतों का उपयोग टेक्स्ट-टू-इमेज मॉडल जैसे के साथ कर सकते हैं स्थिर प्रसार बढ़िया कला बनाने के लिए. सीएलआईपी इंटररोगेटर द्वारा बनाए गए संकेत छवि का एक व्यापक विवरण प्रदान करते हैं, जिसमें न केवल इसके मूल तत्व बल्कि कलात्मक शैली, छवि के पीछे की संभावित प्रेरणा, वह माध्यम जहां छवि हो सकती थी या इस्तेमाल की जा सकती थी, और उससे भी आगे शामिल है। आप तैनाती प्रक्रिया को कारगर बनाने के लिए सेजमेकर पर सीएलआईपी इंटररोगेटर समाधान को आसानी से तैनात कर सकते हैं, और पूरी तरह से प्रबंधित सेवा द्वारा प्रदान की गई स्केलेबिलिटी, लागत-दक्षता और मजबूत सुरक्षा का लाभ उठा सकते हैं। निम्नलिखित आरेख इस समाधान का प्रवाह तर्क दिखाता है।

आप निम्नलिखित का उपयोग कर सकते हैं नोटबुक सेजमेकर पर सीएलआईपी इंटररोगेटर समाधान तैनात करने के लिए। इसी तरह, सीएलआईपी मॉडल होस्टिंग के लिए, हम डीजेएल सर्विंग का उपयोग करके सेजमेकर पर समाधान होस्ट करने के लिए सेजमेकर एलएमआई कंटेनर का उपयोग करते हैं। इस उदाहरण में, हमने मॉडल कलाकृतियों के साथ एक अतिरिक्त इनपुट फ़ाइल प्रदान की है जो सेजमेकर एंडपॉइंट पर तैनात मॉडल को निर्दिष्ट करती है। आप कैप्शन मॉडल नाम और क्लिप मॉडल नाम को पास करके अलग-अलग CLIP या BLIP मॉडल चुन सकते हैं model_name.json निम्नलिखित कोड के साथ फ़ाइल बनाई गई:

model_names = { "caption_model_name":'blip2-2.7b', #@param ["blip-base", "blip-large", "git-large-coco"] "clip_model_name":'ViT-L-14/openai' #@param ["ViT-L-14/openai", "ViT-H-14/laion2b_s32b_b79k"]
}
with open("clipinterrogator/model_name.json",'w') as file: json.dump(model_names, file)

अनुमान लिपि model.py इसमें एक हैंडल फ़ंक्शन शामिल है जिसे डीजेएल सर्विंग इस फ़ंक्शन को लागू करके आपके अनुरोध को चलाएगा। इस प्रवेश बिंदु स्क्रिप्ट को तैयार करने के लिए, हमने मूल से कोड अपनाया clip_interrogator.py फ़ाइल बनाई और सेजमेकर होस्टिंग पर डीजेएल सर्विंग के साथ काम करने के लिए इसे संशोधित किया। एक अद्यतन बीएलआईपी मॉडल की लोडिंग है। बीएलआईपी और सीएलआईपी मॉडल इसके माध्यम से लोड किए जाते हैं load_caption_model() और load_clip_model() इंटररोगेटर ऑब्जेक्ट के आरंभीकरण के दौरान कार्य करें। बीएलआईपी मॉडल को लोड करने के लिए, हमने सबसे पहले हगिंग फेस से मॉडल कलाकृतियों को डाउनलोड किया और उन्हें लक्ष्य मूल्य के रूप में अमेज़ॅन एस 3 पर अपलोड किया। model_id गुण फ़ाइल में. ऐसा इसलिए है क्योंकि BLIP मॉडल एक बड़ी फ़ाइल हो सकती है, जैसे कि ब्लिप2-ऑप्ट-2.7बी मॉडल, जिसका आकार 15 जीबी से अधिक है। मॉडल परिनियोजन के दौरान हगिंग फेस से मॉडल डाउनलोड करने पर एंडपॉइंट निर्माण के लिए अधिक समय की आवश्यकता होगी। इसलिए, हम इंगित करते हैं model_id BLIP3 मॉडल के Amazon S2 स्थान पर जाएं और गुण फ़ाइल में निर्दिष्ट मॉडल पथ से मॉडल को लोड करें। ध्यान दें कि, तैनाती के दौरान, मॉडल पथ को स्थानीय कंटेनर पथ पर बदल दिया जाएगा जहां मॉडल कलाकृतियों को अमेज़ॅन एस 3 स्थान से डीजेएल सर्विंग द्वारा डाउनलोड किया गया था। निम्नलिखित कोड देखें:

if "model_id" in properties and any(os.listdir(properties["model_id"])): model_path = properties["model_id"] ... ... caption_model = Blip2ForConditionalGeneration.from_pretrained(model_path, torch_dtype=self.dtype)

चूँकि CLIP मॉडल आकार में बहुत बड़ा नहीं है, इसलिए हम इसका उपयोग करते हैं open_clip मॉडल को सीधे हगिंग फेस से लोड करने के लिए, जो मूल के समान है clip_interrogator कार्यान्वयन:

self.clip_model, _, self.clip_preprocess = open_clip.create_model_and_transforms( clip_model_name, pretrained=clip_model_pretrained_name, precision='fp16' if config.device == 'cuda' else 'fp32', device=config.device, jit=False, cache_dir=config.clip_model_path
)

हम सेजमेकर एंडपॉइंट पर सीएलआईपी इंटररोगेटर समाधान को तैनात करने के लिए समान कोड का उपयोग करते हैं और संकेत प्राप्त करने के लिए इनपुट छवि के साथ एंडपॉइंट को आमंत्रित करते हैं जिसका उपयोग समान छवियों को उत्पन्न करने के लिए किया जा सकता है।

आइए निम्नलिखित छवि को एक उदाहरण के रूप में लें। सेजमेकर पर तैनात सीएलआईपी इंटररोगेटर एंडपॉइंट का उपयोग करके, यह निम्नलिखित पाठ विवरण उत्पन्न करता है: croissant on a plate, pexels contest winner, aspect ratio 16:9, cgsocietywlop, 8 h, golden cracks, the artist has used bright, picture of a loft in morning, object features, stylized border, pastry, french emperor.

हम सीएलआईपी इंटररोगेटर समाधान को स्थिर प्रसार और त्वरित इंजीनियरिंग तकनीकों के साथ जोड़ सकते हैं - रचनात्मक संभावनाओं का एक नया आयाम उभरता है। यह एकीकरण हमें न केवल पाठ के साथ छवियों का वर्णन करने की अनुमति देता है, बल्कि मूल छवियों में हेरफेर करने और विविध विविधताएं उत्पन्न करने की भी अनुमति देता है। स्थिर प्रसार उत्पन्न आउटपुट को पुनरावृत्त रूप से परिष्कृत करके नियंत्रित छवि संश्लेषण सुनिश्चित करता है, और रणनीतिक त्वरित इंजीनियरिंग वांछित परिणामों के लिए पीढ़ी प्रक्रिया का मार्गदर्शन करती है।

में नोटबुक का दूसरा भाग, हम स्थिर प्रसार मॉडल के साथ छवियों को पुनर्स्थापित करने के लिए त्वरित इंजीनियरिंग का उपयोग करने के चरणों का विवरण देते हैं (स्थिर प्रसार एक्सएल 1.0). हम उपयोग करते हैं स्थिरता एआई एसडीके AWS पर इस मॉडल की सदस्यता लेने के बाद सेजमेकर जम्पस्टार्ट से इस मॉडल को तैनात करने के लिए बाजार. क्योंकि यह छवि निर्माण के लिए एक नया और बेहतर संस्करण है स्थिरता एआई, हम मूल इनपुट छवि के आधार पर उच्च गुणवत्ता वाली छवियां प्राप्त कर सकते हैं। इसके अतिरिक्त, यदि हम पूर्ववर्ती विवरण के उपसर्ग लगाते हैं और किसी ज्ञात कलाकार और उसके किसी काम का उल्लेख करते हुए एक अतिरिक्त संकेत जोड़ते हैं, तो हमें पुन: स्टाइलिंग के साथ आश्चर्यजनक परिणाम मिलते हैं। निम्न छवि प्रॉम्प्ट का उपयोग करती है: This scene is a Van Gogh painting with The Starry Night style, croissant on a plate, pexels contest winner, aspect ratio 16:9, cgsocietywlop, 8 h, golden cracks, the artist has used bright, picture of a loft in morning, object features, stylized border, pastry, french emperor.

निम्न छवि प्रॉम्प्ट का उपयोग करती है: This scene is a Hokusai painting with The Great Wave off Kanagawa style, croissant on a plate, pexels contest winner, aspect ratio 16:9, cgsocietywlop, 8 h, golden cracks, the artist has used bright, picture of a loft in morning, object features, stylized border, pastry, french emperor.

निष्कर्ष

सीएलआईपी और बीएलआईपी जैसे मल्टीमॉडलिटी मॉडल का उद्भव और उनके अनुप्रयोग छवि-से-पाठ रूपांतरण के परिदृश्य को तेजी से बदल रहे हैं। दृश्य और अर्थ संबंधी जानकारी के बीच अंतर को पाटते हुए, वे हमें दृश्य डेटा की विशाल क्षमता को अनलॉक करने और इसे उन तरीकों से उपयोग करने के लिए उपकरण प्रदान कर रहे हैं जो पहले अकल्पनीय थे।

इस पोस्ट में, हमने मल्टीमॉडैलिटी मॉडल के विभिन्न अनुप्रयोगों का वर्णन किया है। इनमें स्वचालित टैगिंग और वर्गीकरण के माध्यम से ईकॉमर्स प्लेटफार्मों में खोज की दक्षता और सटीकता को बढ़ाने से लेकर स्टेबल डिफ्यूजन जैसे टेक्स्ट-टू-इमेज मॉडल के लिए संकेतों की पीढ़ी तक शामिल हैं। ये एप्लिकेशन अद्वितीय और आकर्षक सामग्री बनाने के लिए नए क्षितिज खोलते हैं। हम आपको सेजमेकर पर विभिन्न मल्टीमॉडैलिटी मॉडल की खोज करके और अधिक जानने और एक ऐसा समाधान बनाने के लिए प्रोत्साहित करते हैं जो आपके व्यवसाय के लिए अभिनव हो।

लेखक के बारे में

Amazon SageMaker | पर मल्टीमॉडैलिटी मॉडल का उपयोग करके एक इमेज-टू-टेक्स्ट जेनरेटिव AI एप्लिकेशन बनाएं अमेज़ॅन वेब सेवाएँ प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ. यानवेई कुई, पीएचडी, AWS में एक वरिष्ठ मशीन लर्निंग स्पेशलिस्ट सॉल्यूशंस आर्किटेक्ट हैं। उन्होंने IRISA (रिसर्च इंस्टीट्यूट ऑफ कंप्यूटर साइंस एंड रैंडम सिस्टम्स) में मशीन लर्निंग रिसर्च शुरू किया, और उनके पास कंप्यूटर विज़न, प्राकृतिक भाषा प्रसंस्करण और ऑनलाइन उपयोगकर्ता व्यवहार भविष्यवाणी में एआई-संचालित औद्योगिक अनुप्रयोगों के निर्माण का कई वर्षों का अनुभव है। AWS में, वह अपनी डोमेन विशेषज्ञता साझा करते हैं और ग्राहकों को व्यावसायिक संभावनाओं को अनलॉक करने और बड़े पैमाने पर मशीन लर्निंग के साथ कार्रवाई योग्य परिणाम प्राप्त करने में मदद करते हैं। काम के अलावा, उन्हें पढ़ना और यात्रा करना पसंद है।

Amazon SageMaker | पर मल्टीमॉडैलिटी मॉडल का उपयोग करके एक इमेज-टू-टेक्स्ट जेनरेटिव AI एप्लिकेशन बनाएं अमेज़ॅन वेब सेवाएँ प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ. रघु रमेश अमेज़ॅन सेजमेकर सर्विस टीम के साथ एक वरिष्ठ एमएल सॉल्यूशंस आर्किटेक्ट हैं। वह ग्राहकों को बड़े पैमाने पर एमएल उत्पादन कार्यभार को सेजमेकर में बनाने, तैनात करने और स्थानांतरित करने में मदद करने पर ध्यान केंद्रित करता है। वह मशीन लर्निंग, एआई और कंप्यूटर विज़न डोमेन में माहिर हैं और उनके पास यूटी डलास से कंप्यूटर साइंस में मास्टर डिग्री है। अपने खाली समय में उन्हें यात्रा करना और फोटोग्राफी करना पसंद है।

Amazon SageMaker | पर मल्टीमॉडैलिटी मॉडल का उपयोग करके एक इमेज-टू-टेक्स्ट जेनरेटिव AI एप्लिकेशन बनाएं अमेज़ॅन वेब सेवाएँ प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ. सैम एडवर्ड्स, AWS सिडनी में एक क्लाउड इंजीनियर (AI/ML) है जो मशीन लर्निंग और Amazon SageMaker में विशेषज्ञता रखता है। वह ग्राहकों को मशीन लर्निंग वर्कफ़्लो से संबंधित मुद्दों को हल करने और उनके लिए नए समाधान बनाने में मदद करने का शौक रखते हैं। काम के अलावा, उन्हें रैकेट खेल खेलना और यात्रा करना पसंद है।

Amazon SageMaker | पर मल्टीमॉडैलिटी मॉडल का उपयोग करके एक इमेज-टू-टेक्स्ट जेनरेटिव AI एप्लिकेशन बनाएं अमेज़ॅन वेब सेवाएँ प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ. मेलानी ली, पीएचडी, सिडनी, ऑस्ट्रेलिया में स्थित AWS में एक वरिष्ठ AI/ML विशेषज्ञ TAM हैं। वह एडब्ल्यूएस पर अत्याधुनिक एआई/एमएल टूल का उपयोग करके उद्यम ग्राहकों को समाधान बनाने में मदद करती है और सर्वोत्तम प्रथाओं के साथ एमएल समाधानों को तैयार करने और लागू करने पर मार्गदर्शन प्रदान करती है। अपने खाली समय में, वह प्रकृति का पता लगाना और परिवार और दोस्तों के साथ समय बिताना पसंद करती हैं।

Amazon SageMaker | पर मल्टीमॉडैलिटी मॉडल का उपयोग करके एक इमेज-टू-टेक्स्ट जेनरेटिव AI एप्लिकेशन बनाएं अमेज़ॅन वेब सेवाएँ प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ. गॉर्डन वांग AWS में एक वरिष्ठ AI/ML विशेषज्ञ TAM हैं। वह कई उद्योगों में एआई/एमएल सर्वोत्तम प्रथाओं के साथ रणनीतिक ग्राहकों का समर्थन करता है। उन्हें कंप्यूटर विज़न, एनएलपी, जेनरेटिव एआई और एमएलओपीएस का शौक है। अपने खाली समय में उन्हें दौड़ना और लंबी पैदल यात्रा करना पसंद है।

Amazon SageMaker | पर मल्टीमॉडैलिटी मॉडल का उपयोग करके एक इमेज-टू-टेक्स्ट जेनरेटिव AI एप्लिकेशन बनाएं अमेज़ॅन वेब सेवाएँ प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ. धवल पटेल AWS में प्रिंसिपल मशीन लर्निंग आर्किटेक्ट हैं। उन्होंने वितरित कंप्यूटिंग और आर्टिफिशियल इंटेलिजेंस से संबंधित समस्याओं पर बड़े उद्यमों से लेकर मध्यम आकार के स्टार्टअप तक के संगठनों के साथ काम किया है। वह एनएलपी और कंप्यूटर विज़न डोमेन सहित डीप लर्निंग पर ध्यान केंद्रित करता है। वह ग्राहकों को सेजमेकर पर उच्च प्रदर्शन मॉडल अनुमान प्राप्त करने में मदद करता है।