AWS मीडिया इंटेलिजेंस और हगिंग फेस का उपयोग करके टैक्सोनॉमी-आधारित प्रासंगिक लक्ष्यीकरण बनाएं BERT

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

जैसे ही GDPR (जनरल डेटा प्रोटेक्शन रेगुलेशन, 2017) जैसे नए डेटा गोपनीयता नियम लागू हुए हैं, ग्राहकों पर नए नियमों का पालन करते हुए मीडिया परिसंपत्तियों का मुद्रीकरण करने का दबाव बढ़ रहा है। गोपनीयता नियमों का सम्मान करते हुए मीडिया का मुद्रीकरण करने के लिए इंटरनेट पैमाने पर पाठ, चित्र, वीडियो और ऑडियो फ़ाइलों जैसी संपत्तियों से स्वचालित रूप से बारीक मेटाडेटा निकालने की क्षमता की आवश्यकता होती है। इसके लिए मीडिया परिसंपत्तियों को उद्योग वर्गीकरण के लिए एक स्केलेबल तरीके की भी आवश्यकता होती है जो सामग्री की खोज और मुद्रीकरण की सुविधा प्रदान करते हैं। यह उपयोग मामला विज्ञापन उद्योग के लिए विशेष रूप से महत्वपूर्ण है क्योंकि डेटा गोपनीयता नियम तृतीय-पक्ष कुकीज़ का उपयोग करके व्यवहारिक लक्ष्यीकरण से एक बदलाव का कारण बनते हैं।

तृतीय पक्ष कुकीज़ वेब उपयोगकर्ताओं के लिए वैयक्तिकृत विज्ञापनों को सक्षम करने में सहायता करते हैं, और विज्ञापनदाताओं को उनके इच्छित दर्शकों तक पहुंचने की अनुमति देते हैं। तृतीय-पक्ष कुकी के बिना विज्ञापन दिखाने का एक पारंपरिक समाधान प्रासंगिक विज्ञापन है, जो पृष्ठों पर प्रकाशित सामग्री के आधार पर विज्ञापनों को वेबपृष्ठों पर रखता है। हालांकि, प्रासंगिक विज्ञापन बड़े पैमाने पर मीडिया संपत्तियों से संदर्भ निकालने की चुनौती पेश करता है, और इसी तरह संपत्ति का मुद्रीकरण करने के लिए उस संदर्भ का उपयोग करता है।

इस पोस्ट में, हम चर्चा करते हैं कि आप एक मशीन लर्निंग (एमएल) समाधान कैसे बना सकते हैं जिसे हम डिजिटल सामग्री से संदर्भ निकालने के लिए प्रासंगिक इंटेलिजेंस टैक्सोनॉमी मैपर (सीआईटीएम) कहते हैं और मूल्य उत्पन्न करने के लिए इसे मानक टैक्सोनॉमी में मैप करते हैं। यद्यपि हम इस समाधान को प्रासंगिक विज्ञापन पर लागू करते हैं, आप इसका उपयोग अन्य उपयोग मामलों को हल करने के लिए कर सकते हैं। उदाहरण के लिए, शिक्षा प्रौद्योगिकी कंपनियां इसका उपयोग अपनी सामग्री को उद्योग वर्गीकरण में मैप करने के लिए कर सकती हैं ताकि अनुकूली सीखने की सुविधा मिल सके जो छात्रों की व्यक्तिगत जरूरतों के आधार पर व्यक्तिगत सीखने के अनुभव प्रदान करता है।

समाधान अवलोकन

समाधान में दो घटक शामिल हैं: AWS मीडिया इंटेलिजेंस (एडब्ल्यूएस एमआई) वेब पेजों पर सामग्री से संदर्भ निष्कर्षण के लिए क्षमताएं, और उद्योग वर्गीकरण के लिए सामग्री के बुद्धिमान मानचित्रण के लिए सीआईटीएम। आप समाधान तक पहुंच सकते हैं कोड रिपॉजिटरी हम इसके घटकों को कैसे लागू करते हैं, इस बारे में विस्तृत जानकारी के लिए।

AWS मीडिया इंटेलिजेंस

एडब्ल्यूएस एमआई क्षमताएं मेटाडेटा के स्वचालित निष्कर्षण को सक्षम करती हैं जो एक वेबपेज की सामग्री की प्रासंगिक समझ प्रदान करती है। डाउनस्ट्रीम प्रोसेसिंग में उपयोग के लिए टेक्स्ट, वीडियो, इमेज और ऑडियो फाइलों से स्वचालित रूप से मेटाडेटा उत्पन्न करने के लिए आप कंप्यूटर विज़न, स्पीच टू टेक्स्ट और प्राकृतिक भाषा प्रसंस्करण (एनएलपी) जैसी एमएल तकनीकों को जोड़ सकते हैं। प्रबंधित एआई सेवाएं जैसे अमेज़ॅन रेकग्निशन, Amazon Transcribe, Amazon Comprehend, तथा अमेज़न टेक्सट्रेक एपीआई कॉल का उपयोग करके इन एमएल तकनीकों को सुलभ बनाएं। यह खरोंच से एमएल मॉडल को प्रशिक्षित करने और बनाने के लिए आवश्यक ओवरहेड को समाप्त करता है। इस पोस्ट में, आप देखते हैं कि मीडिया इंटेलिजेंस के लिए Amazon Comprehend और Amazon Rekognition का उपयोग कैसे बड़े पैमाने पर मेटाडेटा निष्कर्षण को सक्षम बनाता है।

प्रासंगिक खुफिया वर्गीकरण मैपर

मीडिया सामग्री से मेटाडेटा निकालने के बाद, आपको प्रासंगिक लक्ष्यीकरण को सुविधाजनक बनाने के लिए उस मेटाडेटा को एक उद्योग वर्गीकरण में मैप करने का एक तरीका चाहिए। ऐसा करने के लिए, आप कॉन्टेक्स्टुअल इंटेलिजेंस टैक्सोनॉमी मैपर (CITM) का निर्माण करते हैं, जो हगिंग फेस से BERT वाक्य ट्रांसफार्मर द्वारा संचालित होता है।

BERT वाक्य ट्रांसफार्मर CITM को प्रासंगिक रूप से संबंधित कीवर्ड के साथ वेब सामग्री को वर्गीकृत करने में सक्षम बनाता है। उदाहरण के लिए, यह उद्योग वर्गीकरण के कीवर्ड के साथ स्वस्थ जीवन के बारे में एक वेब लेख को वर्गीकृत कर सकता है, जैसे कि "स्वस्थ खाना बनाना और भोजन करना," "दौड़ना और टहलना," और बहुत कुछ, लिखे गए पाठ और लेख के भीतर उपयोग की गई छवियों के आधार पर। CITM आपके मानदंड के आधार पर आपकी विज्ञापन बोली प्रक्रिया के लिए उपयोग की जाने वाली मैप की गई टैक्सोनॉमी शर्तों को चुनने की क्षमता भी प्रदान करता है।

निम्नलिखित चित्र CITM के साथ वास्तुकला के वैचारिक दृष्टिकोण को दर्शाता है।

IAB (इंटरएक्टिव एडवरटाइजिंग ब्यूरो) कंटेंट टैक्सोनॉमी

इस पोस्ट के लिए, हम का उपयोग करें आईएबी टेक लैब की सामग्री वर्गीकरण प्रासंगिक विज्ञापन उपयोग के मामले के लिए उद्योग मानक वर्गीकरण के रूप में। डिज़ाइन के अनुसार, IAB वर्गीकरण सामग्री निर्माताओं को उनकी सामग्री का अधिक सटीक वर्णन करने में मदद करता है, और यह प्रोग्रामेटिक विज्ञापन प्रक्रिया में सभी पक्षों के लिए एक सामान्य भाषा प्रदान करता है। एक सामान्य शब्दावली का उपयोग महत्वपूर्ण है क्योंकि उपयोगकर्ता द्वारा देखे जाने वाले वेबपेज के लिए विज्ञापनों का चयन मिलीसेकंड के भीतर होना चाहिए। आईएबी वर्गीकरण विभिन्न स्रोतों से सामग्री को वर्गीकृत करने के लिए एक मानकीकृत तरीके के रूप में कार्य करता है, जबकि एक उद्योग प्रोटोकॉल भी है जो वास्तविक समय बोली-प्रक्रिया प्लेटफॉर्म विज्ञापन चयन के लिए उपयोग करता है। इसकी एक पदानुक्रमित संरचना है, जो विज्ञापनदाताओं के लिए वर्गीकरण शर्तों और उन्नत संदर्भ की ग्रैन्युलैरिटी प्रदान करती है।

समाधान कार्यप्रवाह

निम्न आरेख समाधान वर्कफ़्लो दिखाता है।

CITM समाधान overivew

निम्नानुसार कदम हैं:

अमेज़न सरल भंडारण सेवा (अमेज़ॅन S3) IAB सामग्री वर्गीकरण और निकाली गई वेब सामग्री को संग्रहीत करता है।
अमेज़ॅन कॉम्प्रिहेंड लेखों के संग्रह से सामान्य विषयों को निकालने के लिए विषय मॉडलिंग करता है।
अमेज़न मान्यता ऑब्जेक्ट लेबल API छवियों में लेबल का पता लगाता है।
CITM एक मानक वर्गीकरण के लिए सामग्री को मैप करता है।
वैकल्पिक रूप से, आप मेटाडेटा स्टोर में सामग्री को टैक्सोनॉमी मैपिंग में स्टोर कर सकते हैं।

निम्नलिखित अनुभागों में, हम प्रत्येक चरण के बारे में विस्तार से चलते हैं।

Amazon S3 IAB सामग्री वर्गीकरण और निकाली गई वेब सामग्री को संग्रहीत करता है

हम वेब लेखों के संग्रह से निकाले गए पाठ और छवियों को एक S3 बकेट में संग्रहीत करते हैं। हम IAB सामग्री वर्गीकरण भी संग्रहीत करते हैं। पहले कदम के रूप में, हम संयुक्त टैक्सोनॉमी शर्तों को बनाने के लिए टैक्सोनॉमी पर विभिन्न स्तरों को जोड़ते हैं। यह दृष्टिकोण टैक्सोनॉमी की पदानुक्रमित संरचना को बनाए रखने में मदद करता है जब BERT वाक्य ट्रांसफार्मर प्रत्येक कीवर्ड के लिए एम्बेडिंग बनाता है। निम्नलिखित कोड देखें:

def prepare_taxonomy(taxonomy_df):
    
    """
    Concatenate IAB Tech Lab content taxonomy tiers and prepare keywords for BERT embedding. 
    Use this function as-is if using the IAB Content Taxonomy
    
    Parameters (input):
    ----------
    taxonomy_df : Content taxonomy dataframe

    Returns (output):
    -------
    df_clean : Content taxonomy with tiers in the taxonomy concatenated
    keyword_list: List of concatenated content taxonomy keywords
    ids: List of ids for the content taxonomy keywords
    """
    
    df = taxonomy_df[['Unique ID ','Parent','Name','Tier 1','Tier 2','Tier 3']] 
    df_str = df.astype({"Unique ID ": 'str', "Parent": 'str', "Tier 1": 'str', "Tier 2": 'str', "Tier 3": 'str'})
    df_clean = df_str.replace('nan','')
    
    #create a column that concatenates all tiers for each taxonomy keyword
    df_clean['combined']=df_clean[df_clean.columns[2:6]].apply(lambda x: ' '.join(x.dropna().astype(str)),axis=1)
    
    #turn taxonomy keyords to list of strings a prep for encoding with BERT sentence transformer
    keyword_list=df_clean['combined'].to_list()
                       
    #get list of taxonomy ids
    ids = df_clean['Unique ID '].to_list()                  
            
    return df_clean, keyword_list, ids

taxonomy_df, taxonomy_terms, taxonomy_ids = prepare_taxonomy(read_taxonomy)

निम्नलिखित आरेख संयुक्त स्तरों के साथ IAB संदर्भ वर्गीकरण को दर्शाता है।

समेकित स्तरों के साथ आईएबी सामग्री वर्गीकरण

अमेज़ॅन कॉम्प्रिहेंड लेखों के संग्रह से सामान्य विषयों को निकालने के लिए विषय मॉडलिंग करता है

अमेज़ॅन कॉम्प्रिहेंड विषय मॉडलिंग एपीआई के साथ, आप लेटेंट डिरिचलेट आवंटन (एलडीए) मॉडल का उपयोग करके सभी लेख ग्रंथों का विश्लेषण करते हैं। मॉडल कॉर्पस में प्रत्येक लेख की जांच करता है और संदर्भ और आवृत्ति के आधार पर कीवर्ड को उसी विषय में समूहित करता है जिसमें वे लेखों के पूरे संग्रह में दिखाई देते हैं। यह सुनिश्चित करने के लिए कि LDA मॉडल अत्यधिक सुसंगत विषयों का पता लगाता है, आप Amazon Comprehend API को कॉल करने से पहले एक प्रीप्रोसेसिंग चरण करते हैं। आप का उपयोग कर सकते हैं जेन्सिम लाइब्रेरी का लेखों या पाठ फ़ाइलों के संग्रह से पता लगाने के लिए विषयों की इष्टतम संख्या निर्धारित करने के लिए कोहेरेंस मॉडल। निम्नलिखित कोड देखें:

def compute_coherence_scores(dictionary, corpus, texts, limit, start=2, step=3):
    """
    Compute coherence scores for various number of topics for your topic model. 
    Adjust the parameters below based on your data

    Parameters (input):
    ----------
    dictionary : Gensim dictionary created earlier from input texts
    corpus : Gensim corpus created earlier from input texts
    texts : List of input texts
    limit : The maximum number of topics to test. Amazon Comprehend can detect up to 100 topics in a collection

    Returns (output):
    -------
    models : List of LDA topic models
    coherence_scores : Coherence values corresponding to the LDA model with respective number of topics
    """
    coherence_scores = []
    models = []
    for num_topics in range(start, limit, step):
        model = gensim.models.LdaMulticore(corpus=corpus, num_topics=num_topics, id2word=id2word)
        models.append(model)
        coherencemodel = CoherenceModel(model=model, texts=corpus_words, dictionary=id2word, coherence='c_v')
        coherence_scores.append(coherencemodel.get_coherence())

    return models, coherence_scores

models, coherence_scores = compute_coherence_scores(dictionary=id2word, corpus=corpus_tdf, texts=corpus_words, start=2, limit=100, step=3)

विषयों की इष्टतम संख्या प्राप्त करने के बाद, आप उस मान का उपयोग अमेज़ॅन कॉम्प्रिहेंड विषय मॉडलिंग कार्य के लिए करते हैं। Amazon Comprehend में NumberOfTopics पैरामीटर के लिए अलग-अलग मान प्रदान करना स्टार्टटॉपिक्स डिटेक्शनजॉब ऑपरेशन परिणाम प्रत्येक विषय समूह में रखे गए खोजशब्दों के वितरण में भिन्नता के रूप में होता है। NumberOfTopics पैरामीटर के लिए एक अनुकूलित मान उन विषयों की संख्या का प्रतिनिधित्व करता है जो उच्च प्रासंगिक प्रासंगिकता वाले कीवर्ड का सबसे सुसंगत समूह प्रदान करते हैं। आप Amazon Comprehend से विषय मॉडलिंग आउटपुट को Amazon S3 में इसके रॉ फॉर्मेट में स्टोर कर सकते हैं।

Amazon Rekognition ऑब्जेक्ट लेबल API छवियों में लेबल का पता लगाता है

आप सभी वेबपृष्ठों से निकाली गई प्रत्येक छवि का विश्लेषण करते हैं अमेज़ॅन रिकॉग्निशन डिटेक्टलेबल ऑपरेशन. प्रत्येक छवि के लिए, ऑपरेशन छवि के भीतर पाए गए सभी लेबलों के साथ एक JSON प्रतिक्रिया प्रदान करता है, प्रत्येक के लिए एक आत्मविश्वास स्कोर के साथ। हमारे उपयोग के मामले में, हम मनमाने ढंग से अगले चरण में उपयोग करने के लिए ऑब्जेक्ट लेबल के लिए सीमा के रूप में 60% या उससे अधिक के विश्वास स्कोर का चयन करते हैं। आप ऑब्जेक्ट लेबल को उनके कच्चे प्रारूप में Amazon S3 में संग्रहीत करते हैं। निम्नलिखित कोड देखें:

"""
Create a function to extract object labels from a given image using Amazon Rekognition
"""

def get_image_labels(image_loc):
    labels = []
    with fs.open(image_loc, "rb") as im:
        response = rekognition_client.detect_labels(Image={"Bytes": im.read()})
    
    for label in response["Labels"]:
        if label["Confidence"] >= 60:   #change to desired confidence score threshold, value between [0,100]:
            object_label = label["Name"]
            labels.append(object_label)
    return labels

CITM सामग्री को एक मानक वर्गीकरण में मैप करता है

सीआईटीएम आईएबी वर्गीकरण पर खोजशब्दों के साथ निकाले गए सामग्री मेटाडेटा (पाठ और छवियों से लेबल से विषय) की तुलना करता है, और फिर सामग्री मेटाडेटा को टैक्सोनॉमी से कीवर्ड से मैप करता है जो शब्दार्थ से संबंधित हैं। इस कार्य के लिए, CITM निम्नलिखित तीन चरणों को पूरा करता है:

हगिंग फेस के बीईआरटी वाक्य ट्रांसफॉर्मर का उपयोग करके सामग्री वर्गीकरण, विषय कीवर्ड और छवि लेबल के लिए तंत्रिका एम्बेडिंग उत्पन्न करें। हम वाक्य ट्रांसफार्मर मॉडल तक पहुँचते हैं अमेज़न SageMaker. इस पोस्ट में, हम उपयोग करते हैं पैराफ्रेज़-मिनीएलएम-एल6-वी2 मॉडल, जो कीवर्ड और लेबल को 384 आयामी घने वेक्टर स्थान पर मैप करता है।
टैक्सोनॉमी कीवर्ड और विषय कीवर्ड के बीच उनके एम्बेडिंग का उपयोग करके कोसाइन समानता स्कोर की गणना करें। यह टैक्सोनॉमी कीवर्ड और इमेज ऑब्जेक्ट लेबल के बीच कोसाइन समानता की भी गणना करता है। हम सामग्री मेटाडेटा और टैक्सोनॉमी के बीच शब्दार्थ समान मिलान खोजने के लिए एक स्कोरिंग तंत्र के रूप में कोसाइन समानता का उपयोग करते हैं। निम्नलिखित कोड देखें:

def compute_similarity(entity_embeddings, entity_terms, taxonomy_embeddings, taxonomy_terms):
    """
    Compute cosine scores between entity embeddings and taxonomy embeddings
    
    Parameters (input):
    ----------
    entity_embeddings : Embeddings for either topic keywords from Amazon Comprehend or image labels from Amazon Rekognition
    entity_terms : Terms for topic keywords or image labels
    taxonomy_embeddings : Embeddings for the content taxonomy
    taxonomy_terms : Terms for the taxonomy keywords

    Returns (output):
    -------
    mapping_df : Dataframe that matches each entity keyword to each taxonomy keyword and their cosine similarity score
    """
    
    #calculate cosine score, pairing each entity embedding with each taxonomy keyword embedding
    cosine_scores = util.pytorch_cos_sim(entity_embeddings, taxonomy_embeddings)
    pairs = []
    for i in range(len(cosine_scores)-1):
        for j in range(0, cosine_scores.shape[1]):
            pairs.append({'index': [i, j], 'score': cosine_scores[i][j]})
    
    #Sort cosine similarity scores in decreasing order
    pairs = sorted(pairs, key=lambda x: x['score'], reverse=True)
    rows = []
    for pair in pairs:
        i, j = pair['index']
        rows.append([entity_terms[i], taxonomy_terms[j], pair['score']])
    
    #move sorted values to a dataframe
    mapping_df= pd.DataFrame(rows, columns=["term", "taxonomy_keyword","cosine_similarity"])
    mapping_df['cosine_similarity'] = mapping_df['cosine_similarity'].astype('float')
    mapping_df= mapping_df.sort_values(by=['term','cosine_similarity'], ascending=False)
    drop_dups= mapping_df.drop_duplicates(subset=['term'], keep='first')
    mapping_df = drop_dups.sort_values(by=['cosine_similarity'], ascending=False).reset_index(drop=True)
    return mapping_df
                                               
#compute cosine_similairty score between topic keywords and content taxonomy keywords using BERT embeddings                                               
text_taxonomy_mapping=compute_similarity(keyword_embeddings, topic_keywords, taxonomy_embeddings, taxonomy_terms)

समानता स्कोर के साथ युग्मों की पहचान करें जो उपयोगकर्ता द्वारा परिभाषित सीमा से ऊपर हैं और सामग्री वर्गीकरण पर शब्दार्थ से संबंधित कीवर्ड के लिए सामग्री को मैप करने के लिए उनका उपयोग करें। हमारे परीक्षण में, हम उन सभी खोजशब्दों का चयन करते हैं जिनका कोसाइन समानता स्कोर 0.5 या अधिक है। निम्नलिखित कोड देखें:

#merge text and image keywords mapped to content taxonomy
rtb_keywords=pd.concat([text_taxonomy_mapping[["term","taxonomy_keyword","cosine_similarity"]],image_taxonomy_mapping]).sort_values(by='cosine_similarity',ascending=False).reset_index(drop=True)

#select keywords with a cosine_similarity score greater than your desired threshold ( the value should be from 0 to 1)
rtb_keywords[rtb_keywords["cosine_similarity"]> 50] # change to desired threshold for cosine score, value between [0,100]:

इंटरनेट-स्केल भाषा प्रतिनिधित्व (जैसे कि इस उपयोग के मामले में) के साथ काम करते समय एक आम चुनौती यह है कि आपको एक ऐसे मॉडल की आवश्यकता होती है जो अधिकांश सामग्री को फिट कर सके- इस मामले में, अंग्रेजी भाषा के शब्द। हगिंग फेस के बीईआरटी ट्रांसफॉर्मर को एक दूसरे के संबंध में शब्दों के अर्थपूर्ण अर्थ का प्रतिनिधित्व करने के लिए अंग्रेजी भाषा में विकिपीडिया पदों के एक बड़े कोष का उपयोग करके पूर्व-प्रशिक्षित किया गया है। आप विषय कीवर्ड, इमेज लेबल और टैक्सोनॉमी कीवर्ड के अपने विशिष्ट डेटासेट का उपयोग करके पूर्व-प्रशिक्षित मॉडल को फाइन-ट्यून करते हैं। जब आप सभी एम्बेडिंग को एक ही फीचर स्पेस में रखते हैं और उनकी कल्पना करते हैं, तो आप देखते हैं कि BERT तार्किक रूप से शब्दों के बीच सिमेंटिक समानता का प्रतिनिधित्व करता है।

निम्नलिखित उदाहरण BERT का उपयोग करते हुए वैक्टर के रूप में दर्शाए गए ऑटोमोटिव वर्ग के लिए IAB सामग्री वर्गीकरण कीवर्ड की कल्पना करता है। BERT ऑटोमोटिव कीवर्ड्स को टैक्सोनॉमी से शब्दार्थ समान शब्दों के करीब रखता है।

टैक्सोनॉमी कीवर्ड के लिए BERT एम्बेडिंग का विज़ुअलाइज़ेशन

फीचर वैक्टर CITM को एक ही फीचर स्पेस में मेटाडेटा लेबल और टैक्सोनॉमी कीवर्ड की तुलना करने की अनुमति देता है। इस फीचर स्पेस में, CITM टैक्सोनॉमी कीवर्ड के लिए प्रत्येक फीचर वेक्टर और टॉपिक कीवर्ड के लिए प्रत्येक फीचर वेक्टर के बीच कोसाइन समानता की गणना करता है। एक अलग चरण में, CITM इमेज लेबल के लिए टैक्सोनॉमी फीचर वैक्टर और फीचर वैक्टर की तुलना करता है। 1 के निकटतम कोसाइन स्कोर वाले पेयरिंग को शब्दार्थ रूप से समान के रूप में पहचाना जाता है। ध्यान दें कि एक पेयरिंग या तो एक विषय कीवर्ड और एक टैक्सोनॉमी कीवर्ड, या एक ऑब्जेक्ट लेबल और एक टैक्सोनॉमी कीवर्ड हो सकता है।

निम्नलिखित स्क्रीनशॉट बीईआरटी एम्बेडिंग के साथ गणना की गई कोसाइन समानता का उपयोग करके विषय कीवर्ड और टैक्सोनॉमी कीवर्ड की उदाहरण जोड़ी दिखाता है।

टैक्सोनॉमी कीवर्ड पेयरिंग का विषय

सामग्री को टैक्सोनॉमी कीवर्ड से मैप करने के लिए, CITM कोसाइन स्कोर वाले पेयरिंग से कीवर्ड का चयन करता है जो उपयोगकर्ता द्वारा परिभाषित सीमा को पूरा करते हैं। ये वे कीवर्ड हैं जिनका उपयोग वेबपेज की इन्वेंट्री के लिए विज्ञापनों का चयन करने के लिए रीयल-टाइम बिडिंग प्लेटफॉर्म पर किया जाएगा। परिणाम टैक्सोनॉमी के लिए ऑनलाइन सामग्री का एक समृद्ध मानचित्रण है।

वैकल्पिक रूप से सामग्री को मेटाडेटा स्टोर में टैक्सोनॉमी मैपिंग में संग्रहीत करें

सीआईटीएम से प्रासंगिक रूप से समान वर्गीकरण शर्तों की पहचान करने के बाद, आपको इस जानकारी तक पहुंचने के लिए कम-विलंबता एपीआई के लिए एक रास्ता चाहिए। विज्ञापनों के लिए प्रोग्रामेटिक बिडिंग में, कम प्रतिक्रिया समय और उच्च समवर्ती सामग्री के मुद्रीकरण में महत्वपूर्ण भूमिका निभाते हैं। बोली अनुरोधों को समृद्ध करने के लिए आवश्यक होने पर अतिरिक्त मेटाडेटा को समायोजित करने के लिए डेटा स्टोर के लिए स्कीमा को लचीला होना चाहिए। अमेज़ॅन डायनेमोडीबी ऐसी सेवा के लिए डेटा एक्सेस पैटर्न और परिचालन आवश्यकताओं से मेल खा सकता है।

निष्कर्ष

इस पोस्ट में, आपने सीखा कि प्रासंगिक इंटेलिजेंस टैक्सोनॉमी मैपर (CITM) का उपयोग करके टैक्सोनॉमी-आधारित प्रासंगिक लक्ष्यीकरण समाधान कैसे बनाया जाता है। आपने अपने मीडिया एसेट से बारीक मेटाडेटा निकालने के लिए Amazon Comprehend और Amazon Rekognition का उपयोग करना सीखा. फिर, CITM का उपयोग करके आपने प्रासंगिक रूप से संबंधित विज्ञापनों के लिए प्रोग्रामेटिक विज्ञापन बोली-प्रक्रिया को सुविधाजनक बनाने के लिए एसेट को एक उद्योग मानक टैक्सोनॉमी में मैप किया। आप इस ढांचे को अन्य उपयोग के मामलों में लागू कर सकते हैं जिनके लिए मौजूदा मीडिया संपत्तियों के मूल्य को बढ़ाने के लिए मानक वर्गीकरण के उपयोग की आवश्यकता होती है।

CITM के साथ प्रयोग करने के लिए, आप इसका उपयोग कर सकते हैं कोड रिपॉजिटरी और इसे अपनी पसंद के टेक्स्ट और इमेज डेटासेट के साथ उपयोग करें।

हम इस पोस्ट में पेश किए गए समाधान घटकों के बारे में अधिक जानने की सलाह देते हैं। के बारे में और जानें AWS मीडिया इंटेलिजेंस मीडिया सामग्री से मेटाडेटा निकालने के लिए। इसके अलावा, उपयोग करने के तरीके के बारे में और जानें Amazon SageMaker का उपयोग करके NLP के लिए हगिंग फेस मॉडल.

लेखक के बारे में

अरामाइड कीहिन्दे मशीन लर्निंग और एआई में एडब्ल्यूएस में सीनियर पार्टनर सॉल्यूशन आर्किटेक्ट हैं। उनकी करियर यात्रा ने कई उद्योगों में बिजनेस इंटेलिजेंस और एडवांस्ड एनालिटिक्स के क्षेत्रों में विस्तार किया है। वह भागीदारों को एडब्ल्यूएस एआई/एमएल सेवाओं के साथ समाधान बनाने में सक्षम बनाने के लिए काम करती है जो ग्राहकों को नवाचार के लिए जरूरतों की पूर्ति करती है। उसे एआई और रचनात्मक क्षेत्रों के प्रतिच्छेदन का निर्माण करने और अपने परिवार के साथ समय बिताने का भी आनंद मिलता है।

अनुज गुप्ता एक प्रिंसिपल सॉल्यूशंस आर्किटेक्ट है जो हाइपर-ग्रोथ कंपनियों के साथ उनकी क्लाउड नेटिव यात्रा पर काम कर रहा है। उन्हें चुनौतीपूर्ण समस्याओं को हल करने के लिए प्रौद्योगिकी का उपयोग करने का शौक है और उन्होंने ग्राहकों के साथ अत्यधिक वितरित और कम विलंबता अनुप्रयोगों के निर्माण के लिए काम किया है। वह ओपन-सोर्स सर्वरलेस और मशीन लर्निंग सॉल्यूशंस में योगदान देता है। काम के अलावा, उन्हें अपने परिवार के साथ यात्रा करना और कविताएँ और दार्शनिक ब्लॉग लिखना पसंद है।

समय टिकट: जुलाई 20, 2022जुलाई 20, 2022

समय टिकट: नवम्बर 2, 2022

AWS मीडिया इंटेलिजेंस और हगिंग फेस का उपयोग करके टैक्सोनॉमी-आधारित प्रासंगिक लक्ष्यीकरण बनाएं BERT

प्लेटो द्वारा पुनर्प्रकाशित

समाधान अवलोकन

AWS मीडिया इंटेलिजेंस

प्रासंगिक खुफिया वर्गीकरण मैपर

IAB (इंटरएक्टिव एडवरटाइजिंग ब्यूरो) कंटेंट टैक्सोनॉमी

समाधान कार्यप्रवाह

Amazon S3 IAB सामग्री वर्गीकरण और निकाली गई वेब सामग्री को संग्रहीत करता है

अमेज़ॅन कॉम्प्रिहेंड लेखों के संग्रह से सामान्य विषयों को निकालने के लिए विषय मॉडलिंग करता है

Amazon Rekognition ऑब्जेक्ट लेबल API छवियों में लेबल का पता लगाता है

CITM सामग्री को एक मानक वर्गीकरण में मैप करता है

वैकल्पिक रूप से सामग्री को मेटाडेटा स्टोर में टैक्सोनॉमी मैपिंग में संग्रहीत करें

निष्कर्ष

लेखक के बारे में

से अधिक AWS मशीन लर्निंग

अमेज़ॅन बेडरॉक | के साथ अलीडा को ग्राहकों की प्रतिक्रिया की गहरी समझ प्राप्त होती है अमेज़न वेब सेवाएँ

Amazon SageMaker पर बिना किसी कोड के जोखिम प्रबंधन मशीन लर्निंग वर्कफ़्लो बनाएं

अमेज़ॅन ट्रांसक्राइब के साथ सीखने के परिणामों को बेहतर बनाने के लिए बोंगो लर्न रीयल-टाइम फीडबैक प्रदान करता है

MLOps वर्कफ़्लोज़ को आसानी से स्वचालित करने के लिए Amazon SageMaker पाइपलाइनों के भीतर से सीधे Amazon SageMaker Autopilot प्रयोग लॉन्च करें

Amazon Textract के साथ डेटा निष्कर्षण और दस्तावेज़ प्रसंस्करण में सुधार करें

हमारे बारे में

ऊर्ध्वाधर खोज और ऐ

मंच

जुड़े रहें

लेखा