Build Taxonomy-based Contextual Targeting Using AWS Media Intelligence And Hugging Face BERT

প্লেটো দ্বারা প্রকাশিত

অনুসরণকারী: 0

যেহেতু GDPR (General Data Protection Regulation, 2017) এর মতো নতুন ডেটা গোপনীয়তা প্রবিধান কার্যকর হয়েছে, গ্রাহকরা নতুন নিয়ম মেনে চলার সময় মিডিয়া সম্পদ নগদীকরণের চাপের মধ্যে রয়েছে৷ গোপনীয়তা বিধি মেনে চলার সময় মিডিয়া নগদীকরণের জন্য ইন্টারনেট স্কেলে পাঠ্য, ছবি, ভিডিও এবং অডিও ফাইলের মতো সম্পদ থেকে স্বয়ংক্রিয়ভাবে দানাদার মেটাডেটা বের করার ক্ষমতা প্রয়োজন। এটি শিল্প ট্যাক্সোনমিতে মিডিয়া সম্পদ ম্যাপ করার জন্য একটি মাপযোগ্য উপায় প্রয়োজন যা সামগ্রীর আবিষ্কার এবং নগদীকরণের সুবিধা দেয়। এই ব্যবহারের ক্ষেত্রে বিজ্ঞাপন শিল্পের জন্য বিশেষভাবে তাৎপর্যপূর্ণ কারণ ডেটা গোপনীয়তা নিয়মগুলি তৃতীয় পক্ষের কুকি ব্যবহার করে আচরণগত লক্ষ্যবস্তু থেকে সরে আসে।

তৃতীয় পক্ষের কুকি ওয়েব ব্যবহারকারীদের জন্য ব্যক্তিগতকৃত বিজ্ঞাপন সক্ষম করতে সহায়তা করে এবং বিজ্ঞাপনদাতাদের তাদের অভিপ্রেত দর্শকদের কাছে পৌঁছানোর অনুমতি দেয়। তৃতীয় পক্ষের কুকিজ ছাড়াই বিজ্ঞাপন পরিবেশনের একটি ঐতিহ্যগত সমাধান হল প্রাসঙ্গিক বিজ্ঞাপন, যা পৃষ্ঠাগুলিতে প্রকাশিত বিষয়বস্তুর উপর ভিত্তি করে ওয়েবপৃষ্ঠাগুলিতে বিজ্ঞাপন দেয়৷ যাইহোক, প্রাসঙ্গিক বিজ্ঞাপন স্কেল মিডিয়া সম্পদ থেকে প্রসঙ্গ নিষ্কাশন চ্যালেঞ্জ, এবং একইভাবে সম্পদ নগদীকরণ করতে সেই প্রসঙ্গ ব্যবহার করে.

এই পোস্টে, আমরা আলোচনা করব কিভাবে আপনি একটি মেশিন লার্নিং (ML) সমাধান তৈরি করতে পারেন যাকে আমরা বলি কনটেক্সচুয়াল ইন্টেলিজেন্স ট্যাক্সোনমি ম্যাপার (CITM) ডিজিটাল বিষয়বস্তু থেকে প্রসঙ্গ বের করার জন্য এবং মান তৈরি করার জন্য মান তৈরি করতে মান শ্রেণীকরণে ম্যাপ করতে। যদিও আমরা এই সমাধানটি প্রাসঙ্গিক বিজ্ঞাপনে প্রয়োগ করি, আপনি অন্যান্য ব্যবহারের ক্ষেত্রে এটি ব্যবহার করতে পারেন। উদাহরণ স্বরূপ, শিক্ষা প্রযুক্তি কোম্পানিগুলি তাদের বিষয়বস্তুকে শিল্প শ্রেণীকরণে মানচিত্র তৈরি করতে ব্যবহার করতে পারে যাতে অভিযোজিত শিক্ষার সুবিধা হয় যা শিক্ষার্থীদের ব্যক্তিগত প্রয়োজনের উপর ভিত্তি করে ব্যক্তিগতকৃত শিক্ষার অভিজ্ঞতা প্রদান করে।

সমাধান ওভারভিউ

সমাধান দুটি উপাদান নিয়ে গঠিত: এডাব্লুএস মিডিয়া ইন্টেলিজেন্স (AWS MI) ওয়েব পৃষ্ঠাগুলির বিষয়বস্তু থেকে প্রসঙ্গ নিষ্কাশনের ক্ষমতা এবং শিল্প শ্রেণীবিভাগে সামগ্রীর বুদ্ধিমান ম্যাপিংয়ের জন্য CITM। আপনি সমাধান এর অ্যাক্সেস করতে পারেন কোড সংগ্রহস্থল আমরা কীভাবে এর উপাদানগুলি বাস্তবায়ন করি তার একটি বিশদ দৃশ্যের জন্য।

এডাব্লুএস মিডিয়া ইন্টেলিজেন্স

AWS MI ক্ষমতাগুলি মেটাডেটার স্বয়ংক্রিয় নিষ্কাশন সক্ষম করে যা একটি ওয়েবপৃষ্ঠার বিষয়বস্তু সম্পর্কে প্রাসঙ্গিক বোঝা প্রদান করে। ডাউনস্ট্রিম প্রসেসিং-এ ব্যবহারের জন্য টেক্সট, ভিডিও, ছবি এবং অডিও ফাইল থেকে স্বয়ংক্রিয়ভাবে মেটাডেটা তৈরি করতে আপনি কম্পিউটার ভিশন, স্পিচ টু টেক্সট এবং ন্যাচারাল ল্যাঙ্গুয়েজ প্রসেসিং (NLP) এর মতো ML কৌশলগুলিকে একত্রিত করতে পারেন। পরিচালিত এআই পরিষেবাগুলি যেমন আমাজন রেকোনিশন, আমাজন ট্রান্সক্রাইব, অ্যামাজন সমঝোতা, এবং অ্যামাজন টেক্সট্র্যাক API কল ব্যবহার করে এই ML কৌশলগুলিকে অ্যাক্সেসযোগ্য করে তুলুন। এটি স্ক্র্যাচ থেকে এমএল মডেলগুলিকে প্রশিক্ষণ এবং তৈরি করার জন্য প্রয়োজনীয় ওভারহেডকে সরিয়ে দেয়। এই পোস্টে, আপনি দেখতে পাচ্ছেন কিভাবে মিডিয়া বুদ্ধিমত্তার জন্য Amazon Comprehend এবং Amazon Recognition ব্যবহার করে স্কেলে মেটাডেটা নিষ্কাশন সক্ষম করে।

কনটেক্সচুয়াল ইন্টেলিজেন্স ট্যাক্সোনমি ম্যাপার

আপনি মিডিয়া বিষয়বস্তু থেকে মেটাডেটা বের করার পরে, প্রাসঙ্গিক টার্গেটিং সহজতর করার জন্য আপনার সেই মেটাডেটাকে একটি শিল্প শ্রেণীবিভাগে ম্যাপ করার একটি উপায় প্রয়োজন। এটি করার জন্য, আপনি কনটেক্সচুয়াল ইন্টেলিজেন্স ট্যাক্সোনমি ম্যাপার (সিআইটিএম) তৈরি করেন, যা হাগিং ফেস থেকে একটি BERT বাক্য ট্রান্সফরমার দ্বারা চালিত হয়।

BERT বাক্য ট্রান্সফরমার CITM-কে প্রাসঙ্গিকভাবে সম্পর্কিত কীওয়ার্ডের সাথে ওয়েব বিষয়বস্তু শ্রেণীবদ্ধ করতে সক্ষম করে। উদাহরণস্বরূপ, এটি শিল্প শ্রেণীবিন্যাস থেকে কীওয়ার্ড সহ স্বাস্থ্যকর জীবনযাপন সম্পর্কে একটি ওয়েব নিবন্ধকে শ্রেণীবদ্ধ করতে পারে, যেমন "স্বাস্থ্যকর রান্না এবং খাওয়া", "দৌড়ানো এবং জগিং" এবং আরও অনেক কিছু, লেখা পাঠ্য এবং নিবন্ধের মধ্যে ব্যবহৃত চিত্রগুলির উপর ভিত্তি করে। CITM আপনার মানদণ্ডের উপর ভিত্তি করে আপনার বিজ্ঞাপন বিডিং প্রক্রিয়ার জন্য ব্যবহার করার জন্য ম্যাপ করা শ্রেণীবিন্যাস শর্তাবলী চয়ন করার ক্ষমতা প্রদান করে।

নিম্নলিখিত চিত্রটি CITM-এর সাথে স্থাপত্যের ধারণাগত দৃষ্টিভঙ্গি তুলে ধরে।

আইএবি (ইন্টারেক্টিভ অ্যাডভার্টাইজিং ব্যুরো) বিষয়বস্তু শ্রেণীবিন্যাস

এই পোস্টের জন্য, আমরা আইএবি টেক ল্যাবের বিষয়বস্তু শ্রেণীবিন্যাস প্রাসঙ্গিক বিজ্ঞাপন ব্যবহারের ক্ষেত্রে শিল্পের মান শ্রেণীবিন্যাস হিসাবে। ডিজাইনের মাধ্যমে, IAB শ্রেণীবিন্যাস কন্টেন্ট নির্মাতাদের আরও সঠিকভাবে তাদের বিষয়বস্তু বর্ণনা করতে সাহায্য করে এবং এটি প্রোগ্রামেটিক বিজ্ঞাপন প্রক্রিয়ার সব পক্ষের জন্য একটি সাধারণ ভাষা প্রদান করে। একটি সাধারণ পরিভাষা ব্যবহার করা অত্যন্ত গুরুত্বপূর্ণ কারণ একজন ব্যবহারকারী যে ওয়েবপৃষ্ঠাটি দেখেন তার জন্য বিজ্ঞাপন নির্বাচন মিলিসেকেন্ডের মধ্যে ঘটতে হবে। IAB শ্রেণীবিন্যাস বিভিন্ন উত্স থেকে সামগ্রীকে শ্রেণীবদ্ধ করার একটি প্রমিত উপায় হিসাবে কাজ করে এবং সেইসঙ্গে একটি শিল্প প্রোটোকল যা রিয়েল-টাইম বিডিং প্ল্যাটফর্ম বিজ্ঞাপন নির্বাচনের জন্য ব্যবহার করে। এটির একটি অনুক্রমিক কাঠামো রয়েছে, যা বিজ্ঞাপনদাতাদের জন্য শ্রেণিবিন্যাস শর্তাবলী এবং উন্নত প্রসঙ্গ প্রদান করে।

সমাধান কর্মপ্রবাহ

নিম্নলিখিত চিত্রটি সমাধানের কার্যপ্রবাহকে চিত্রিত করে।

CITM সমাধান সংক্ষিপ্ত

নিম্নরূপ পদক্ষেপ:

আমাজন সিম্পল স্টোরেজ সার্ভিস (Amazon S3) IAB বিষয়বস্তু শ্রেণীবিন্যাস এবং বের করা ওয়েব সামগ্রী সংরক্ষণ করে।
Amazon Comprehend নিবন্ধের সংগ্রহ থেকে সাধারণ থিমগুলি বের করতে টপিক মডেলিং করে।
আমাজন স্বীকৃতি অবজেক্ট লেবেল API ছবিতে লেবেল সনাক্ত করে।
CITM কন্টেন্ট ম্যাপ করে একটি স্ট্যান্ডার্ড শ্রেণীবিন্যাস।
ঐচ্ছিকভাবে, আপনি একটি মেটাডেটা স্টোরে ট্যাক্সোনমি ম্যাপিং-এ সামগ্রী সংরক্ষণ করতে পারেন।

নিম্নলিখিত বিভাগে, আমরা বিস্তারিতভাবে প্রতিটি ধাপের মধ্য দিয়ে হাঁটা.

Amazon S3 IAB কন্টেন্ট শ্রেণীবিন্যাস এবং এক্সট্রাক্ট করা ওয়েব কন্টেন্ট সঞ্চয় করে

আমরা একটি S3 বালতিতে ওয়েব নিবন্ধগুলির সংগ্রহ থেকে নিষ্কাশিত পাঠ্য এবং চিত্রগুলি সংরক্ষণ করি৷ এছাড়াও আমরা IAB বিষয়বস্তুর শ্রেণীবিন্যাস সংরক্ষণ করি। প্রথম ধাপ হিসেবে, আমরা সম্মিলিত শ্রেণীবিন্যাস পদ তৈরি করতে শ্রেণীবিন্যাস সংক্রান্ত বিভিন্ন স্তরকে একত্রিত করি। যখন BERT বাক্য ট্রান্সফরমার প্রতিটি কীওয়ার্ডের জন্য এমবেডিং তৈরি করে তখন এই পদ্ধতিটি শ্রেণীবিন্যাস শ্রেণীবিন্যাস কাঠামো বজায় রাখতে সাহায্য করে। নিম্নলিখিত কোড দেখুন:

def prepare_taxonomy(taxonomy_df):
    
    """
    Concatenate IAB Tech Lab content taxonomy tiers and prepare keywords for BERT embedding. 
    Use this function as-is if using the IAB Content Taxonomy
    
    Parameters (input):
    ----------
    taxonomy_df : Content taxonomy dataframe

    Returns (output):
    -------
    df_clean : Content taxonomy with tiers in the taxonomy concatenated
    keyword_list: List of concatenated content taxonomy keywords
    ids: List of ids for the content taxonomy keywords
    """
    
    df = taxonomy_df[['Unique ID ','Parent','Name','Tier 1','Tier 2','Tier 3']] 
    df_str = df.astype({"Unique ID ": 'str', "Parent": 'str', "Tier 1": 'str', "Tier 2": 'str', "Tier 3": 'str'})
    df_clean = df_str.replace('nan','')
    
    #create a column that concatenates all tiers for each taxonomy keyword
    df_clean['combined']=df_clean[df_clean.columns[2:6]].apply(lambda x: ' '.join(x.dropna().astype(str)),axis=1)
    
    #turn taxonomy keyords to list of strings a prep for encoding with BERT sentence transformer
    keyword_list=df_clean['combined'].to_list()
                       
    #get list of taxonomy ids
    ids = df_clean['Unique ID '].to_list()                  
            
    return df_clean, keyword_list, ids

taxonomy_df, taxonomy_terms, taxonomy_ids = prepare_taxonomy(read_taxonomy)

নিম্নলিখিত চিত্রটি সম্মিলিত স্তরগুলির সাথে IAB প্রসঙ্গ শ্রেণীবিন্যাসকে চিত্রিত করে৷

সংহত স্তর সহ IAB বিষয়বস্তু শ্রেণীবিন্যাস

Amazon Comprehend নিবন্ধের সংগ্রহ থেকে সাধারণ থিমগুলি বের করতে টপিক মডেলিং করে

Amazon Comprehend টপিক মডেলিং API এর সাথে, আপনি Latent Dirichlet Allocation (LDA) মডেল ব্যবহার করে সমস্ত নিবন্ধ পাঠ্য বিশ্লেষণ করেন। মডেলটি কর্পাসের প্রতিটি নিবন্ধ পরীক্ষা করে এবং প্রসঙ্গ এবং ফ্রিকোয়েন্সির উপর ভিত্তি করে একই বিষয়ে কীওয়ার্ডগুলিকে গোষ্ঠীভুক্ত করে যেটি নিবন্ধগুলির সমগ্র সংগ্রহ জুড়ে প্রদর্শিত হয়। LDA মডেলটি অত্যন্ত সুসংগত বিষয় সনাক্ত করে তা নিশ্চিত করতে, আপনি Amazon Comprehend API কল করার আগে একটি প্রিপ্রসেসিং ধাপ সম্পাদন করুন৷ আপনি ব্যবহার করতে পারেন জেনসিম লাইব্রেরি নিবন্ধ বা পাঠ্য ফাইলের সংগ্রহ থেকে সনাক্ত করার জন্য সর্বোত্তম সংখ্যক বিষয় নির্ধারণ করতে CoherenceModel। নিম্নলিখিত কোড দেখুন:

def compute_coherence_scores(dictionary, corpus, texts, limit, start=2, step=3):
    """
    Compute coherence scores for various number of topics for your topic model. 
    Adjust the parameters below based on your data

    Parameters (input):
    ----------
    dictionary : Gensim dictionary created earlier from input texts
    corpus : Gensim corpus created earlier from input texts
    texts : List of input texts
    limit : The maximum number of topics to test. Amazon Comprehend can detect up to 100 topics in a collection

    Returns (output):
    -------
    models : List of LDA topic models
    coherence_scores : Coherence values corresponding to the LDA model with respective number of topics
    """
    coherence_scores = []
    models = []
    for num_topics in range(start, limit, step):
        model = gensim.models.LdaMulticore(corpus=corpus, num_topics=num_topics, id2word=id2word)
        models.append(model)
        coherencemodel = CoherenceModel(model=model, texts=corpus_words, dictionary=id2word, coherence='c_v')
        coherence_scores.append(coherencemodel.get_coherence())

    return models, coherence_scores

models, coherence_scores = compute_coherence_scores(dictionary=id2word, corpus=corpus_tdf, texts=corpus_words, start=2, limit=100, step=3)

আপনি সর্বোত্তম সংখ্যক বিষয় পাওয়ার পরে, আপনি Amazon Comprehend টপিক মডেলিং কাজের জন্য সেই মানটি ব্যবহার করবেন। Amazon Comprehend-এ NumberOfTopics প্যারামিটারের জন্য বিভিন্ন মান প্রদান করা স্টার্টটপিক্স ডিটেকশন জব অপারেশন প্রতিটি টপিক গ্রুপে স্থাপিত কীওয়ার্ডের বন্টনে একটি পরিবর্তনের ফলে। NumberOfTopics প্যারামিটারের জন্য একটি অপ্টিমাইজ করা মান এমন বিষয়গুলির সংখ্যাকে প্রতিনিধিত্ব করে যা উচ্চতর প্রাসঙ্গিক প্রাসঙ্গিকতার সাথে কীওয়ার্ডগুলির সবচেয়ে সুসংগত গ্রুপিং প্রদান করে। আপনি Amazon Comprehend থেকে টপিক মডেলিং আউটপুটটি Amazon S3-এ এর কাঁচা বিন্যাসে সংরক্ষণ করতে পারেন।

Amazon Recognition অবজেক্ট লেবেল API ছবিতে লেবেল সনাক্ত করে

আপনি ব্যবহার করে সমস্ত ওয়েবপৃষ্ঠা থেকে নিষ্কাশিত প্রতিটি ছবি বিশ্লেষণ Amazon Recognition DetectLabels অপারেশন. প্রতিটি চিত্রের জন্য, অপারেশনটি চিত্রের মধ্যে সনাক্ত করা সমস্ত লেবেল সহ একটি JSON প্রতিক্রিয়া প্রদান করে, প্রতিটির জন্য একটি আত্মবিশ্বাসের স্কোর সহ। আমাদের ব্যবহারের ক্ষেত্রে, আমরা পরের ধাপে অবজেক্ট লেবেল ব্যবহারের জন্য থ্রেশহোল্ড হিসাবে ইচ্ছামত 60% বা তার বেশি একটি আত্মবিশ্বাসের স্কোর নির্বাচন করি। আপনি Amazon S3 এ তাদের কাঁচা বিন্যাসে অবজেক্ট লেবেল সংরক্ষণ করেন। নিম্নলিখিত কোড দেখুন:

"""
Create a function to extract object labels from a given image using Amazon Rekognition
"""

def get_image_labels(image_loc):
    labels = []
    with fs.open(image_loc, "rb") as im:
        response = rekognition_client.detect_labels(Image={"Bytes": im.read()})
    
    for label in response["Labels"]:
        if label["Confidence"] >= 60:   #change to desired confidence score threshold, value between [0,100]:
            object_label = label["Name"]
            labels.append(object_label)
    return labels

CITM কন্টেন্ট ম্যাপ করে একটি স্ট্যান্ডার্ড শ্রেণীবিন্যাস

CITM এক্সট্র্যাক্ট করা কন্টেন্ট মেটাডেটা (টেক্সট থেকে টপিকস এবং ইমেজ থেকে লেবেল) আইএবি ট্যাক্সোনমিতে কীওয়ার্ডের সাথে তুলনা করে, এবং তারপর কন্টেন্ট মেটাডেটা ম্যাপ করে ট্যাক্সোনমি থেকে শব্দার্থগতভাবে সম্পর্কিত কীওয়ার্ডে। এই কাজের জন্য, CITM নিম্নলিখিত তিনটি ধাপ সম্পন্ন করে:

Hugging Face এর BERT বাক্য ট্রান্সফরমার ব্যবহার করে বিষয়বস্তু শ্রেণীবিন্যাস, বিষয় কীওয়ার্ড এবং চিত্র লেবেলের জন্য নিউরাল এম্বেডিং তৈরি করুন। আমরা থেকে বাক্য ট্রান্সফরমার মডেল অ্যাক্সেস আমাজন সেজমেকার. এই পোস্টে, আমরা ব্যবহার প্যারাফ্রেজ-MiniLM-L6-v2 মডেল, যা একটি 384 মাত্রিক ঘন ভেক্টর স্পেসে কীওয়ার্ড এবং লেবেল ম্যাপ করে।
ট্যাক্সোনমি কীওয়ার্ড এবং টপিক কীওয়ার্ডের এম্বেডিং ব্যবহার করে কোসাইন সাদৃশ্য স্কোর গণনা করুন। এটি ট্যাক্সোনমি কীওয়ার্ড এবং ইমেজ অবজেক্ট লেবেলের মধ্যে কোসাইন সাদৃশ্যও গণনা করে। আমরা বিষয়বস্তু মেটাডেটা এবং শ্রেণীবিন্যাস মধ্যে শব্দার্থগতভাবে একই মিল খুঁজে পেতে একটি স্কোরিং প্রক্রিয়া হিসাবে কোসাইন সাদৃশ্য ব্যবহার করি। নিম্নলিখিত কোড দেখুন:

def compute_similarity(entity_embeddings, entity_terms, taxonomy_embeddings, taxonomy_terms):
    """
    Compute cosine scores between entity embeddings and taxonomy embeddings
    
    Parameters (input):
    ----------
    entity_embeddings : Embeddings for either topic keywords from Amazon Comprehend or image labels from Amazon Rekognition
    entity_terms : Terms for topic keywords or image labels
    taxonomy_embeddings : Embeddings for the content taxonomy
    taxonomy_terms : Terms for the taxonomy keywords

    Returns (output):
    -------
    mapping_df : Dataframe that matches each entity keyword to each taxonomy keyword and their cosine similarity score
    """
    
    #calculate cosine score, pairing each entity embedding with each taxonomy keyword embedding
    cosine_scores = util.pytorch_cos_sim(entity_embeddings, taxonomy_embeddings)
    pairs = []
    for i in range(len(cosine_scores)-1):
        for j in range(0, cosine_scores.shape[1]):
            pairs.append({'index': [i, j], 'score': cosine_scores[i][j]})
    
    #Sort cosine similarity scores in decreasing order
    pairs = sorted(pairs, key=lambda x: x['score'], reverse=True)
    rows = []
    for pair in pairs:
        i, j = pair['index']
        rows.append([entity_terms[i], taxonomy_terms[j], pair['score']])
    
    #move sorted values to a dataframe
    mapping_df= pd.DataFrame(rows, columns=["term", "taxonomy_keyword","cosine_similarity"])
    mapping_df['cosine_similarity'] = mapping_df['cosine_similarity'].astype('float')
    mapping_df= mapping_df.sort_values(by=['term','cosine_similarity'], ascending=False)
    drop_dups= mapping_df.drop_duplicates(subset=['term'], keep='first')
    mapping_df = drop_dups.sort_values(by=['cosine_similarity'], ascending=False).reset_index(drop=True)
    return mapping_df
                                               
#compute cosine_similairty score between topic keywords and content taxonomy keywords using BERT embeddings                                               
text_taxonomy_mapping=compute_similarity(keyword_embeddings, topic_keywords, taxonomy_embeddings, taxonomy_terms)

ব্যবহারকারী-সংজ্ঞায়িত থ্রেশহোল্ডের উপরে থাকা সাদৃশ্য স্কোরগুলির সাথে পেয়ারিংগুলি সনাক্ত করুন এবং বিষয়বস্তু শ্রেণিবিন্যাসে শব্দার্থগতভাবে সম্পর্কিত কীওয়ার্ডগুলিতে সামগ্রী ম্যাপ করতে সেগুলি ব্যবহার করুন৷ আমাদের পরীক্ষায়, আমরা পেয়ারিং থেকে এমন সব কীওয়ার্ড নির্বাচন করি যেগুলোর কোসাইন সাদৃশ্য স্কোর 0.5 বা তার বেশি। নিম্নলিখিত কোড দেখুন:

#merge text and image keywords mapped to content taxonomy
rtb_keywords=pd.concat([text_taxonomy_mapping[["term","taxonomy_keyword","cosine_similarity"]],image_taxonomy_mapping]).sort_values(by='cosine_similarity',ascending=False).reset_index(drop=True)

#select keywords with a cosine_similarity score greater than your desired threshold ( the value should be from 0 to 1)
rtb_keywords[rtb_keywords["cosine_similarity"]> 50] # change to desired threshold for cosine score, value between [0,100]:

ইন্টারনেট-স্কেল ভাষার উপস্থাপনা নিয়ে কাজ করার সময় একটি সাধারণ চ্যালেঞ্জ হল (যেমন এই ব্যবহারের ক্ষেত্রে) আপনার এমন একটি মডেল প্রয়োজন যা বেশিরভাগ বিষয়বস্তুর সাথে মানানসই হতে পারে—এই ক্ষেত্রে, ইংরেজি ভাষার শব্দ। আলিঙ্গন মুখের BERT ট্রান্সফরমারকে ইংরেজি ভাষায় উইকিপিডিয়া পোস্টের একটি বৃহৎ কর্পাস ব্যবহার করে একে অপরের সাথে সম্পর্কিত শব্দের শব্দার্থিক অর্থ উপস্থাপনের জন্য পূর্ব-প্রশিক্ষিত করা হয়েছে। আপনি টপিক কীওয়ার্ড, ইমেজ লেবেল এবং শ্রেণীবিন্যাস কীওয়ার্ডের আপনার নির্দিষ্ট ডেটাসেট ব্যবহার করে প্রাক-প্রশিক্ষিত মডেলটি সূক্ষ্ম-টিউন করেন। আপনি যখন সমস্ত এম্বেডিংগুলিকে একই বৈশিষ্ট্যের জায়গায় রাখেন এবং সেগুলিকে কল্পনা করেন, তখন আপনি দেখতে পান যে BERT যুক্তিগতভাবে পদগুলির মধ্যে শব্দার্থিক সাদৃশ্যকে উপস্থাপন করে৷

নিম্নলিখিত উদাহরণটি BERT ব্যবহার করে ভেক্টর হিসাবে উপস্থাপিত অটোমোটিভ শ্রেণীর জন্য IAB বিষয়বস্তু শ্রেণীবিন্যাস কীওয়ার্ডগুলিকে কল্পনা করে৷ BERT শ্রেণীবিন্যাস থেকে অটোমোটিভ কীওয়ার্ডগুলিকে শব্দার্থগতভাবে অনুরূপ পদের কাছাকাছি রাখে।

শ্রেণীবিন্যাস কীওয়ার্ডের জন্য BERT এম্বেডিংয়ের ভিজ্যুয়ালাইজেশন

বৈশিষ্ট্য ভেক্টরগুলি CITM-কে একই বৈশিষ্ট্যের জায়গায় মেটাডেটা লেবেল এবং শ্রেণীবিন্যাস কীওয়ার্ডগুলির তুলনা করার অনুমতি দেয়। এই ফিচার স্পেসে, CITM ট্যাক্সোনমি কীওয়ার্ডের জন্য প্রতিটি ফিচার ভেক্টর এবং টপিক কীওয়ার্ডের জন্য প্রতিটি ফিচার ভেক্টরের মধ্যে কোসাইন সাদৃশ্য গণনা করে। একটি পৃথক ধাপে, CITM চিত্র লেবেলের জন্য শ্রেণীবিন্যাস বৈশিষ্ট্য ভেক্টর এবং বৈশিষ্ট্য ভেক্টরের তুলনা করে। 1-এর কাছাকাছি কোসাইন স্কোরের সাথে পেয়ারিংগুলিকে শব্দার্থগতভাবে অনুরূপ হিসাবে চিহ্নিত করা হয়। মনে রাখবেন যে একটি পেয়ারিং হয় একটি বিষয় কীওয়ার্ড এবং একটি শ্রেণীবিন্যাস কীওয়ার্ড, অথবা একটি অবজেক্ট লেবেল এবং একটি শ্রেণীবিন্যাস কীওয়ার্ড হতে পারে।

নিম্নলিখিত স্ক্রিনশটটি BERT এম্বেডিংয়ের সাথে গণনা করা কোসাইন সাদৃশ্য ব্যবহার করে টপিক কীওয়ার্ড এবং শ্রেণীবিন্যাস কীওয়ার্ডের জোড়ার উদাহরণ দেখায়।

শ্রেণীবিন্যাস কীওয়ার্ড জোড়ার বিষয়

শ্রেণীবিন্যাস কীওয়ার্ডে বিষয়বস্তু ম্যাপ করতে, CITM কোসাইন স্কোরগুলির সাথে পেয়ারিং থেকে কীওয়ার্ড নির্বাচন করে যা ব্যবহারকারী-সংজ্ঞায়িত থ্রেশহোল্ড পূরণ করে। এইগুলি হল সেই কীওয়ার্ডগুলি যেগুলি রিয়েল-টাইম বিডিং প্ল্যাটফর্মগুলিতে ওয়েবপৃষ্ঠার ইনভেন্টরির জন্য বিজ্ঞাপনগুলি নির্বাচন করতে ব্যবহার করা হবে৷ ফলাফল শ্রেণীবিন্যাস অনলাইন বিষয়বস্তু একটি সমৃদ্ধ ম্যাপিং.

ঐচ্ছিকভাবে একটি মেটাডেটা স্টোরে ট্যাক্সোনমি ম্যাপিং-এ সামগ্রী সঞ্চয় করুন

আপনি CITM থেকে প্রাসঙ্গিকভাবে অনুরূপ শ্রেণীবিন্যাস শর্তাবলী সনাক্ত করার পরে, এই তথ্য অ্যাক্সেস করার জন্য আপনার কম-বিলম্বিত APIগুলির জন্য একটি উপায় প্রয়োজন৷ বিজ্ঞাপনের জন্য প্রোগ্রাম্যাটিক বিডিংয়ে, কম প্রতিক্রিয়ার সময় এবং উচ্চ সঙ্গতি বিষয়বস্তু নগদীকরণে গুরুত্বপূর্ণ ভূমিকা পালন করে। বিড অনুরোধ সমৃদ্ধ করার প্রয়োজন হলে অতিরিক্ত মেটাডেটা মিটমাট করার জন্য ডেটা স্টোরের স্কিমাকে নমনীয় হতে হবে। আমাজন ডায়নামোডিবি এই ধরনের পরিষেবার জন্য ডেটা অ্যাক্সেস প্যাটার্ন এবং অপারেশনাল প্রয়োজনীয়তার সাথে মেলে।

উপসংহার

এই পোস্টে, আপনি শিখেছেন কিভাবে কনটেক্সচুয়াল ইন্টেলিজেন্স ট্যাক্সোনমি ম্যাপার (CITM) ব্যবহার করে একটি শ্রেণীবিন্যাস-ভিত্তিক প্রাসঙ্গিক টার্গেটিং সমাধান তৈরি করতে হয়। আপনি আপনার মিডিয়া সম্পদ থেকে দানাদার মেটাডেটা বের করতে Amazon Comprehend এবং Amazon Recognition ব্যবহার করতে শিখেছেন। তারপরে, CITM ব্যবহার করে আপনি প্রাসঙ্গিকভাবে সম্পর্কিত বিজ্ঞাপনগুলির জন্য প্রোগ্রাম্যাটিক বিজ্ঞাপন বিডিংয়ের সুবিধার্থে একটি শিল্প মানক শ্রেণীবিভাগে সম্পদগুলি ম্যাপ করেছেন৷ আপনি এই কাঠামোটি অন্যান্য ব্যবহারের ক্ষেত্রে প্রয়োগ করতে পারেন যেগুলির জন্য বিদ্যমান মিডিয়া সম্পদের মান বাড়ানোর জন্য একটি আদর্শ শ্রেণীবিন্যাস ব্যবহার করা প্রয়োজন।

CITM নিয়ে পরীক্ষা করতে, আপনি এটি অ্যাক্সেস করতে পারেন কোড সংগ্রহস্থল এবং আপনার পছন্দের একটি পাঠ্য এবং চিত্র ডেটাসেটের সাথে এটি ব্যবহার করুন।

আমরা এই পোস্টে প্রবর্তিত সমাধান উপাদান সম্পর্কে আরও শিখতে সুপারিশ করি। সম্পর্কে আরো আবিষ্কার করুন এডাব্লুএস মিডিয়া ইন্টেলিজেন্স মিডিয়া সামগ্রী থেকে মেটাডেটা বের করতে। এছাড়াও, কীভাবে ব্যবহার করবেন সে সম্পর্কে আরও জানুন অ্যামাজন সেজমেকার ব্যবহার করে এনএলপির জন্য আলিঙ্গন করা ফেস মডেল.

লেখক সম্পর্কে

আরামাইড কেহিন্দে মেশিন লার্নিং এবং এআই-এ AWS-এর একজন সিনিয়র পার্টনার সলিউশন আর্কিটেক্ট। তার কর্মজীবনের যাত্রা একাধিক শিল্প জুড়ে বিজনেস ইন্টেলিজেন্স এবং অ্যাডভান্সড অ্যানালিটিক্সের ক্ষেত্রগুলিকে বিস্তৃত করেছে। তিনি AWS AI/ML পরিষেবাগুলির সাথে সমাধান তৈরি করতে অংশীদারদের সক্ষম করার জন্য কাজ করেন যা গ্রাহকদের উদ্ভাবনের জন্য প্রয়োজনীয়তা পূরণ করে৷ তিনি এআই এবং সৃজনশীল অঙ্গনের সংযোগস্থল তৈরি করা এবং তার পরিবারের সাথে সময় কাটাতে উপভোগ করেন।

অনুজ গুপ্ত একজন প্রিন্সিপাল সলিউশন আর্কিটেক্ট যিনি হাইপার-গ্রোথ কোম্পানির সাথে তাদের ক্লাউড নেটিভ যাত্রায় কাজ করছেন। তিনি চ্যালেঞ্জিং সমস্যা সমাধানের জন্য প্রযুক্তি ব্যবহার সম্পর্কে উত্সাহী এবং উচ্চ বিতরণ করা এবং কম বিলম্বিত অ্যাপ্লিকেশন তৈরি করতে গ্রাহকদের সাথে কাজ করেছেন। তিনি ওপেন সোর্স সার্ভারলেস এবং মেশিন লার্নিং সমাধানে অবদান রাখেন। কাজের বাইরে, তিনি তার পরিবারের সাথে ভ্রমণ করতে এবং কবিতা এবং দার্শনিক ব্লগ লিখতে পছন্দ করেন।

সময় স্ট্যাম্প: জুলাই 20, 2022জুলাই 20, 2022

সময় স্ট্যাম্প: নভেম্বর 2, 2022

AWS Media Intelligence এবং Hugging Face BERT ব্যবহার করে শ্রেণীবিন্যাস-ভিত্তিক প্রাসঙ্গিক টার্গেটিং তৈরি করুন

প্লেটো দ্বারা প্রকাশিত

সমাধান ওভারভিউ

এডাব্লুএস মিডিয়া ইন্টেলিজেন্স

কনটেক্সচুয়াল ইন্টেলিজেন্স ট্যাক্সোনমি ম্যাপার

আইএবি (ইন্টারেক্টিভ অ্যাডভার্টাইজিং ব্যুরো) বিষয়বস্তু শ্রেণীবিন্যাস

সমাধান কর্মপ্রবাহ

Amazon S3 IAB কন্টেন্ট শ্রেণীবিন্যাস এবং এক্সট্রাক্ট করা ওয়েব কন্টেন্ট সঞ্চয় করে

Amazon Comprehend নিবন্ধের সংগ্রহ থেকে সাধারণ থিমগুলি বের করতে টপিক মডেলিং করে

Amazon Recognition অবজেক্ট লেবেল API ছবিতে লেবেল সনাক্ত করে

CITM কন্টেন্ট ম্যাপ করে একটি স্ট্যান্ডার্ড শ্রেণীবিন্যাস

ঐচ্ছিকভাবে একটি মেটাডেটা স্টোরে ট্যাক্সোনমি ম্যাপিং-এ সামগ্রী সঞ্চয় করুন

উপসংহার

লেখক সম্পর্কে

থেকে আরো এডাব্লুএস মেশিন লার্নিং

আলিদা অ্যামাজন বেডরকের সাথে গ্রাহকদের প্রতিক্রিয়া সম্পর্কে গভীর উপলব্ধি অর্জন করে | আমাজন ওয়েব সার্ভিসেস

কোনো কোড ছাড়াই Amazon SageMaker-এ রিস্ক ম্যানেজমেন্ট মেশিন লার্নিং ওয়ার্কফ্লো তৈরি করুন

Amazon Transcribe এর মাধ্যমে শেখার ফলাফল উন্নত করতে Bongo Learn রিয়েল-টাইম প্রতিক্রিয়া প্রদান করে

অ্যামাজন টেক্সট্র্যাক্টের সাথে ডেটা নিষ্কাশন এবং নথি প্রক্রিয়াকরণ উন্নত করুন

আমাদের সম্পর্কে

উল্লম্ব অনুসন্ধান এবং আই

প্ল্যাটফর্ম

যোগাযোগ রেখো

হিসাব