जैसे ही GDPR (जनरल डेटा प्रोटेक्शन रेगुलेशन, 2017) जैसे नए डेटा गोपनीयता नियम लागू हुए हैं, ग्राहकों पर नए नियमों का पालन करते हुए मीडिया परिसंपत्तियों का मुद्रीकरण करने का दबाव बढ़ रहा है। गोपनीयता नियमों का सम्मान करते हुए मीडिया का मुद्रीकरण करने के लिए इंटरनेट पैमाने पर पाठ, चित्र, वीडियो और ऑडियो फ़ाइलों जैसी संपत्तियों से स्वचालित रूप से बारीक मेटाडेटा निकालने की क्षमता की आवश्यकता होती है। इसके लिए मीडिया परिसंपत्तियों को उद्योग वर्गीकरण के लिए एक स्केलेबल तरीके की भी आवश्यकता होती है जो सामग्री की खोज और मुद्रीकरण की सुविधा प्रदान करते हैं। यह उपयोग मामला विज्ञापन उद्योग के लिए विशेष रूप से महत्वपूर्ण है क्योंकि डेटा गोपनीयता नियम तृतीय-पक्ष कुकीज़ का उपयोग करके व्यवहारिक लक्ष्यीकरण से एक बदलाव का कारण बनते हैं।
तृतीय पक्ष कुकीज़ वेब उपयोगकर्ताओं के लिए वैयक्तिकृत विज्ञापनों को सक्षम करने में सहायता करते हैं, और विज्ञापनदाताओं को उनके इच्छित दर्शकों तक पहुंचने की अनुमति देते हैं। तृतीय-पक्ष कुकी के बिना विज्ञापन दिखाने का एक पारंपरिक समाधान प्रासंगिक विज्ञापन है, जो पृष्ठों पर प्रकाशित सामग्री के आधार पर विज्ञापनों को वेबपृष्ठों पर रखता है। हालांकि, प्रासंगिक विज्ञापन बड़े पैमाने पर मीडिया संपत्तियों से संदर्भ निकालने की चुनौती पेश करता है, और इसी तरह संपत्ति का मुद्रीकरण करने के लिए उस संदर्भ का उपयोग करता है।
इस पोस्ट में, हम चर्चा करते हैं कि आप एक मशीन लर्निंग (एमएल) समाधान कैसे बना सकते हैं जिसे हम डिजिटल सामग्री से संदर्भ निकालने के लिए प्रासंगिक इंटेलिजेंस टैक्सोनॉमी मैपर (सीआईटीएम) कहते हैं और मूल्य उत्पन्न करने के लिए इसे मानक टैक्सोनॉमी में मैप करते हैं। यद्यपि हम इस समाधान को प्रासंगिक विज्ञापन पर लागू करते हैं, आप इसका उपयोग अन्य उपयोग मामलों को हल करने के लिए कर सकते हैं। उदाहरण के लिए, शिक्षा प्रौद्योगिकी कंपनियां इसका उपयोग अपनी सामग्री को उद्योग वर्गीकरण में मैप करने के लिए कर सकती हैं ताकि अनुकूली सीखने की सुविधा मिल सके जो छात्रों की व्यक्तिगत जरूरतों के आधार पर व्यक्तिगत सीखने के अनुभव प्रदान करता है।
समाधान अवलोकन
समाधान में दो घटक शामिल हैं: AWS मीडिया इंटेलिजेंस (एडब्ल्यूएस एमआई) वेब पेजों पर सामग्री से संदर्भ निष्कर्षण के लिए क्षमताएं, और उद्योग वर्गीकरण के लिए सामग्री के बुद्धिमान मानचित्रण के लिए सीआईटीएम। आप समाधान तक पहुंच सकते हैं कोड रिपॉजिटरी हम इसके घटकों को कैसे लागू करते हैं, इस बारे में विस्तृत जानकारी के लिए।
AWS मीडिया इंटेलिजेंस
एडब्ल्यूएस एमआई क्षमताएं मेटाडेटा के स्वचालित निष्कर्षण को सक्षम करती हैं जो एक वेबपेज की सामग्री की प्रासंगिक समझ प्रदान करती है। डाउनस्ट्रीम प्रोसेसिंग में उपयोग के लिए टेक्स्ट, वीडियो, इमेज और ऑडियो फाइलों से स्वचालित रूप से मेटाडेटा उत्पन्न करने के लिए आप कंप्यूटर विज़न, स्पीच टू टेक्स्ट और प्राकृतिक भाषा प्रसंस्करण (एनएलपी) जैसी एमएल तकनीकों को जोड़ सकते हैं। प्रबंधित एआई सेवाएं जैसे अमेज़ॅन रेकग्निशन, Amazon Transcribe, Amazon Comprehend, तथा अमेज़न टेक्सट्रेक एपीआई कॉल का उपयोग करके इन एमएल तकनीकों को सुलभ बनाएं। यह खरोंच से एमएल मॉडल को प्रशिक्षित करने और बनाने के लिए आवश्यक ओवरहेड को समाप्त करता है। इस पोस्ट में, आप देखते हैं कि मीडिया इंटेलिजेंस के लिए Amazon Comprehend और Amazon Rekognition का उपयोग कैसे बड़े पैमाने पर मेटाडेटा निष्कर्षण को सक्षम बनाता है।
प्रासंगिक खुफिया वर्गीकरण मैपर
मीडिया सामग्री से मेटाडेटा निकालने के बाद, आपको प्रासंगिक लक्ष्यीकरण को सुविधाजनक बनाने के लिए उस मेटाडेटा को एक उद्योग वर्गीकरण में मैप करने का एक तरीका चाहिए। ऐसा करने के लिए, आप कॉन्टेक्स्टुअल इंटेलिजेंस टैक्सोनॉमी मैपर (CITM) का निर्माण करते हैं, जो हगिंग फेस से BERT वाक्य ट्रांसफार्मर द्वारा संचालित होता है।
BERT वाक्य ट्रांसफार्मर CITM को प्रासंगिक रूप से संबंधित कीवर्ड के साथ वेब सामग्री को वर्गीकृत करने में सक्षम बनाता है। उदाहरण के लिए, यह उद्योग वर्गीकरण के कीवर्ड के साथ स्वस्थ जीवन के बारे में एक वेब लेख को वर्गीकृत कर सकता है, जैसे कि "स्वस्थ खाना बनाना और भोजन करना," "दौड़ना और टहलना," और बहुत कुछ, लिखे गए पाठ और लेख के भीतर उपयोग की गई छवियों के आधार पर। CITM आपके मानदंड के आधार पर आपकी विज्ञापन बोली प्रक्रिया के लिए उपयोग की जाने वाली मैप की गई टैक्सोनॉमी शर्तों को चुनने की क्षमता भी प्रदान करता है।
निम्नलिखित चित्र CITM के साथ वास्तुकला के वैचारिक दृष्टिकोण को दर्शाता है।
IAB (इंटरएक्टिव एडवरटाइजिंग ब्यूरो) कंटेंट टैक्सोनॉमी
इस पोस्ट के लिए, हम का उपयोग करें आईएबी टेक लैब की सामग्री वर्गीकरण प्रासंगिक विज्ञापन उपयोग के मामले के लिए उद्योग मानक वर्गीकरण के रूप में। डिज़ाइन के अनुसार, IAB वर्गीकरण सामग्री निर्माताओं को उनकी सामग्री का अधिक सटीक वर्णन करने में मदद करता है, और यह प्रोग्रामेटिक विज्ञापन प्रक्रिया में सभी पक्षों के लिए एक सामान्य भाषा प्रदान करता है। एक सामान्य शब्दावली का उपयोग महत्वपूर्ण है क्योंकि उपयोगकर्ता द्वारा देखे जाने वाले वेबपेज के लिए विज्ञापनों का चयन मिलीसेकंड के भीतर होना चाहिए। आईएबी वर्गीकरण विभिन्न स्रोतों से सामग्री को वर्गीकृत करने के लिए एक मानकीकृत तरीके के रूप में कार्य करता है, जबकि एक उद्योग प्रोटोकॉल भी है जो वास्तविक समय बोली-प्रक्रिया प्लेटफॉर्म विज्ञापन चयन के लिए उपयोग करता है। इसकी एक पदानुक्रमित संरचना है, जो विज्ञापनदाताओं के लिए वर्गीकरण शर्तों और उन्नत संदर्भ की ग्रैन्युलैरिटी प्रदान करती है।
समाधान कार्यप्रवाह
निम्न आरेख समाधान वर्कफ़्लो दिखाता है।
निम्नानुसार कदम हैं:
- अमेज़न सरल भंडारण सेवा (अमेज़ॅन S3) IAB सामग्री वर्गीकरण और निकाली गई वेब सामग्री को संग्रहीत करता है।
- अमेज़ॅन कॉम्प्रिहेंड लेखों के संग्रह से सामान्य विषयों को निकालने के लिए विषय मॉडलिंग करता है।
- अमेज़न मान्यता ऑब्जेक्ट लेबल API छवियों में लेबल का पता लगाता है।
- CITM एक मानक वर्गीकरण के लिए सामग्री को मैप करता है।
- वैकल्पिक रूप से, आप मेटाडेटा स्टोर में सामग्री को टैक्सोनॉमी मैपिंग में स्टोर कर सकते हैं।
निम्नलिखित अनुभागों में, हम प्रत्येक चरण के बारे में विस्तार से चलते हैं।
Amazon S3 IAB सामग्री वर्गीकरण और निकाली गई वेब सामग्री को संग्रहीत करता है
हम वेब लेखों के संग्रह से निकाले गए पाठ और छवियों को एक S3 बकेट में संग्रहीत करते हैं। हम IAB सामग्री वर्गीकरण भी संग्रहीत करते हैं। पहले कदम के रूप में, हम संयुक्त टैक्सोनॉमी शर्तों को बनाने के लिए टैक्सोनॉमी पर विभिन्न स्तरों को जोड़ते हैं। यह दृष्टिकोण टैक्सोनॉमी की पदानुक्रमित संरचना को बनाए रखने में मदद करता है जब BERT वाक्य ट्रांसफार्मर प्रत्येक कीवर्ड के लिए एम्बेडिंग बनाता है। निम्नलिखित कोड देखें:
निम्नलिखित आरेख संयुक्त स्तरों के साथ IAB संदर्भ वर्गीकरण को दर्शाता है।
अमेज़ॅन कॉम्प्रिहेंड लेखों के संग्रह से सामान्य विषयों को निकालने के लिए विषय मॉडलिंग करता है
अमेज़ॅन कॉम्प्रिहेंड विषय मॉडलिंग एपीआई के साथ, आप लेटेंट डिरिचलेट आवंटन (एलडीए) मॉडल का उपयोग करके सभी लेख ग्रंथों का विश्लेषण करते हैं। मॉडल कॉर्पस में प्रत्येक लेख की जांच करता है और संदर्भ और आवृत्ति के आधार पर कीवर्ड को उसी विषय में समूहित करता है जिसमें वे लेखों के पूरे संग्रह में दिखाई देते हैं। यह सुनिश्चित करने के लिए कि LDA मॉडल अत्यधिक सुसंगत विषयों का पता लगाता है, आप Amazon Comprehend API को कॉल करने से पहले एक प्रीप्रोसेसिंग चरण करते हैं। आप का उपयोग कर सकते हैं जेन्सिम लाइब्रेरी का लेखों या पाठ फ़ाइलों के संग्रह से पता लगाने के लिए विषयों की इष्टतम संख्या निर्धारित करने के लिए कोहेरेंस मॉडल। निम्नलिखित कोड देखें:
विषयों की इष्टतम संख्या प्राप्त करने के बाद, आप उस मान का उपयोग अमेज़ॅन कॉम्प्रिहेंड विषय मॉडलिंग कार्य के लिए करते हैं। Amazon Comprehend में NumberOfTopics पैरामीटर के लिए अलग-अलग मान प्रदान करना स्टार्टटॉपिक्स डिटेक्शनजॉब ऑपरेशन परिणाम प्रत्येक विषय समूह में रखे गए खोजशब्दों के वितरण में भिन्नता के रूप में होता है। NumberOfTopics पैरामीटर के लिए एक अनुकूलित मान उन विषयों की संख्या का प्रतिनिधित्व करता है जो उच्च प्रासंगिक प्रासंगिकता वाले कीवर्ड का सबसे सुसंगत समूह प्रदान करते हैं। आप Amazon Comprehend से विषय मॉडलिंग आउटपुट को Amazon S3 में इसके रॉ फॉर्मेट में स्टोर कर सकते हैं।
Amazon Rekognition ऑब्जेक्ट लेबल API छवियों में लेबल का पता लगाता है
आप सभी वेबपृष्ठों से निकाली गई प्रत्येक छवि का विश्लेषण करते हैं अमेज़ॅन रिकॉग्निशन डिटेक्टलेबल ऑपरेशन. प्रत्येक छवि के लिए, ऑपरेशन छवि के भीतर पाए गए सभी लेबलों के साथ एक JSON प्रतिक्रिया प्रदान करता है, प्रत्येक के लिए एक आत्मविश्वास स्कोर के साथ। हमारे उपयोग के मामले में, हम मनमाने ढंग से अगले चरण में उपयोग करने के लिए ऑब्जेक्ट लेबल के लिए सीमा के रूप में 60% या उससे अधिक के विश्वास स्कोर का चयन करते हैं। आप ऑब्जेक्ट लेबल को उनके कच्चे प्रारूप में Amazon S3 में संग्रहीत करते हैं। निम्नलिखित कोड देखें:
CITM सामग्री को एक मानक वर्गीकरण में मैप करता है
सीआईटीएम आईएबी वर्गीकरण पर खोजशब्दों के साथ निकाले गए सामग्री मेटाडेटा (पाठ और छवियों से लेबल से विषय) की तुलना करता है, और फिर सामग्री मेटाडेटा को टैक्सोनॉमी से कीवर्ड से मैप करता है जो शब्दार्थ से संबंधित हैं। इस कार्य के लिए, CITM निम्नलिखित तीन चरणों को पूरा करता है:
- हगिंग फेस के बीईआरटी वाक्य ट्रांसफॉर्मर का उपयोग करके सामग्री वर्गीकरण, विषय कीवर्ड और छवि लेबल के लिए तंत्रिका एम्बेडिंग उत्पन्न करें। हम वाक्य ट्रांसफार्मर मॉडल तक पहुँचते हैं अमेज़न SageMaker. इस पोस्ट में, हम उपयोग करते हैं पैराफ्रेज़-मिनीएलएम-एल6-वी2 मॉडल, जो कीवर्ड और लेबल को 384 आयामी घने वेक्टर स्थान पर मैप करता है।
- टैक्सोनॉमी कीवर्ड और विषय कीवर्ड के बीच उनके एम्बेडिंग का उपयोग करके कोसाइन समानता स्कोर की गणना करें। यह टैक्सोनॉमी कीवर्ड और इमेज ऑब्जेक्ट लेबल के बीच कोसाइन समानता की भी गणना करता है। हम सामग्री मेटाडेटा और टैक्सोनॉमी के बीच शब्दार्थ समान मिलान खोजने के लिए एक स्कोरिंग तंत्र के रूप में कोसाइन समानता का उपयोग करते हैं। निम्नलिखित कोड देखें:
- समानता स्कोर के साथ युग्मों की पहचान करें जो उपयोगकर्ता द्वारा परिभाषित सीमा से ऊपर हैं और सामग्री वर्गीकरण पर शब्दार्थ से संबंधित कीवर्ड के लिए सामग्री को मैप करने के लिए उनका उपयोग करें। हमारे परीक्षण में, हम उन सभी खोजशब्दों का चयन करते हैं जिनका कोसाइन समानता स्कोर 0.5 या अधिक है। निम्नलिखित कोड देखें:
इंटरनेट-स्केल भाषा प्रतिनिधित्व (जैसे कि इस उपयोग के मामले में) के साथ काम करते समय एक आम चुनौती यह है कि आपको एक ऐसे मॉडल की आवश्यकता होती है जो अधिकांश सामग्री को फिट कर सके- इस मामले में, अंग्रेजी भाषा के शब्द। हगिंग फेस के बीईआरटी ट्रांसफॉर्मर को एक दूसरे के संबंध में शब्दों के अर्थपूर्ण अर्थ का प्रतिनिधित्व करने के लिए अंग्रेजी भाषा में विकिपीडिया पदों के एक बड़े कोष का उपयोग करके पूर्व-प्रशिक्षित किया गया है। आप विषय कीवर्ड, इमेज लेबल और टैक्सोनॉमी कीवर्ड के अपने विशिष्ट डेटासेट का उपयोग करके पूर्व-प्रशिक्षित मॉडल को फाइन-ट्यून करते हैं। जब आप सभी एम्बेडिंग को एक ही फीचर स्पेस में रखते हैं और उनकी कल्पना करते हैं, तो आप देखते हैं कि BERT तार्किक रूप से शब्दों के बीच सिमेंटिक समानता का प्रतिनिधित्व करता है।
निम्नलिखित उदाहरण BERT का उपयोग करते हुए वैक्टर के रूप में दर्शाए गए ऑटोमोटिव वर्ग के लिए IAB सामग्री वर्गीकरण कीवर्ड की कल्पना करता है। BERT ऑटोमोटिव कीवर्ड्स को टैक्सोनॉमी से शब्दार्थ समान शब्दों के करीब रखता है।
फीचर वैक्टर CITM को एक ही फीचर स्पेस में मेटाडेटा लेबल और टैक्सोनॉमी कीवर्ड की तुलना करने की अनुमति देता है। इस फीचर स्पेस में, CITM टैक्सोनॉमी कीवर्ड के लिए प्रत्येक फीचर वेक्टर और टॉपिक कीवर्ड के लिए प्रत्येक फीचर वेक्टर के बीच कोसाइन समानता की गणना करता है। एक अलग चरण में, CITM इमेज लेबल के लिए टैक्सोनॉमी फीचर वैक्टर और फीचर वैक्टर की तुलना करता है। 1 के निकटतम कोसाइन स्कोर वाले पेयरिंग को शब्दार्थ रूप से समान के रूप में पहचाना जाता है। ध्यान दें कि एक पेयरिंग या तो एक विषय कीवर्ड और एक टैक्सोनॉमी कीवर्ड, या एक ऑब्जेक्ट लेबल और एक टैक्सोनॉमी कीवर्ड हो सकता है।
निम्नलिखित स्क्रीनशॉट बीईआरटी एम्बेडिंग के साथ गणना की गई कोसाइन समानता का उपयोग करके विषय कीवर्ड और टैक्सोनॉमी कीवर्ड की उदाहरण जोड़ी दिखाता है।
सामग्री को टैक्सोनॉमी कीवर्ड से मैप करने के लिए, CITM कोसाइन स्कोर वाले पेयरिंग से कीवर्ड का चयन करता है जो उपयोगकर्ता द्वारा परिभाषित सीमा को पूरा करते हैं। ये वे कीवर्ड हैं जिनका उपयोग वेबपेज की इन्वेंट्री के लिए विज्ञापनों का चयन करने के लिए रीयल-टाइम बिडिंग प्लेटफॉर्म पर किया जाएगा। परिणाम टैक्सोनॉमी के लिए ऑनलाइन सामग्री का एक समृद्ध मानचित्रण है।
वैकल्पिक रूप से सामग्री को मेटाडेटा स्टोर में टैक्सोनॉमी मैपिंग में संग्रहीत करें
सीआईटीएम से प्रासंगिक रूप से समान वर्गीकरण शर्तों की पहचान करने के बाद, आपको इस जानकारी तक पहुंचने के लिए कम-विलंबता एपीआई के लिए एक रास्ता चाहिए। विज्ञापनों के लिए प्रोग्रामेटिक बिडिंग में, कम प्रतिक्रिया समय और उच्च समवर्ती सामग्री के मुद्रीकरण में महत्वपूर्ण भूमिका निभाते हैं। बोली अनुरोधों को समृद्ध करने के लिए आवश्यक होने पर अतिरिक्त मेटाडेटा को समायोजित करने के लिए डेटा स्टोर के लिए स्कीमा को लचीला होना चाहिए। अमेज़ॅन डायनेमोडीबी ऐसी सेवा के लिए डेटा एक्सेस पैटर्न और परिचालन आवश्यकताओं से मेल खा सकता है।
निष्कर्ष
इस पोस्ट में, आपने सीखा कि प्रासंगिक इंटेलिजेंस टैक्सोनॉमी मैपर (CITM) का उपयोग करके टैक्सोनॉमी-आधारित प्रासंगिक लक्ष्यीकरण समाधान कैसे बनाया जाता है। आपने अपने मीडिया एसेट से बारीक मेटाडेटा निकालने के लिए Amazon Comprehend और Amazon Rekognition का उपयोग करना सीखा. फिर, CITM का उपयोग करके आपने प्रासंगिक रूप से संबंधित विज्ञापनों के लिए प्रोग्रामेटिक विज्ञापन बोली-प्रक्रिया को सुविधाजनक बनाने के लिए एसेट को एक उद्योग मानक टैक्सोनॉमी में मैप किया। आप इस ढांचे को अन्य उपयोग के मामलों में लागू कर सकते हैं जिनके लिए मौजूदा मीडिया संपत्तियों के मूल्य को बढ़ाने के लिए मानक वर्गीकरण के उपयोग की आवश्यकता होती है।
CITM के साथ प्रयोग करने के लिए, आप इसका उपयोग कर सकते हैं कोड रिपॉजिटरी और इसे अपनी पसंद के टेक्स्ट और इमेज डेटासेट के साथ उपयोग करें।
हम इस पोस्ट में पेश किए गए समाधान घटकों के बारे में अधिक जानने की सलाह देते हैं। के बारे में और जानें AWS मीडिया इंटेलिजेंस मीडिया सामग्री से मेटाडेटा निकालने के लिए। इसके अलावा, उपयोग करने के तरीके के बारे में और जानें Amazon SageMaker का उपयोग करके NLP के लिए हगिंग फेस मॉडल.
लेखक के बारे में
अरामाइड कीहिन्दे मशीन लर्निंग और एआई में एडब्ल्यूएस में सीनियर पार्टनर सॉल्यूशन आर्किटेक्ट हैं। उनकी करियर यात्रा ने कई उद्योगों में बिजनेस इंटेलिजेंस और एडवांस्ड एनालिटिक्स के क्षेत्रों में विस्तार किया है। वह भागीदारों को एडब्ल्यूएस एआई/एमएल सेवाओं के साथ समाधान बनाने में सक्षम बनाने के लिए काम करती है जो ग्राहकों को नवाचार के लिए जरूरतों की पूर्ति करती है। उसे एआई और रचनात्मक क्षेत्रों के प्रतिच्छेदन का निर्माण करने और अपने परिवार के साथ समय बिताने का भी आनंद मिलता है।
अनुज गुप्ता एक प्रिंसिपल सॉल्यूशंस आर्किटेक्ट है जो हाइपर-ग्रोथ कंपनियों के साथ उनकी क्लाउड नेटिव यात्रा पर काम कर रहा है। उन्हें चुनौतीपूर्ण समस्याओं को हल करने के लिए प्रौद्योगिकी का उपयोग करने का शौक है और उन्होंने ग्राहकों के साथ अत्यधिक वितरित और कम विलंबता अनुप्रयोगों के निर्माण के लिए काम किया है। वह ओपन-सोर्स सर्वरलेस और मशीन लर्निंग सॉल्यूशंस में योगदान देता है। काम के अलावा, उन्हें अपने परिवार के साथ यात्रा करना और कविताएँ और दार्शनिक ब्लॉग लिखना पसंद है।
- AI
- ai कला
- ऐ कला जनरेटर
- ऐ रोबोट
- Amazon Comprehend
- अमेज़ॅन रेकग्निशन
- अमेज़न SageMaker
- कृत्रिम बुद्धिमत्ता
- कृत्रिम बुद्धिमत्ता प्रमाणन
- बैंकिंग में आर्टिफिशियल इंटेलिजेंस
- आर्टिफिशियल इंटेलिजेंस रोबोट
- आर्टिफिशियल इंटेलिजेंस रोबोट
- कृत्रिम बुद्धि सॉफ्टवेयर
- AWS मशीन लर्निंग
- blockchain
- ब्लॉकचेन सम्मेलन एआई
- कॉइनजीनियस
- संवादी कृत्रिम बुद्धिमत्ता
- क्रिप्टो सम्मेलन एआई
- दल-ए
- ध्यान लगा के पढ़ना या सीखना
- इसे गूगल करें
- यंत्र अधिगम
- विपणन विज्ञापन
- प्लेटो
- प्लेटो एआई
- प्लेटो डेटा इंटेलिजेंस
- प्लेटो गेम
- प्लेटोडाटा
- प्लेटोगेमिंग
- स्केल एआई
- वाक्यविन्यास
- तकनीकी
- वैचारिक नेतृत्व
- जेफिरनेट