สร้างการกำหนดเป้าหมายตามบริบทตามอนุกรมวิธานโดยใช้ AWS Media Intelligence และกอดใบหน้า BERT

เผยแพร่ซ้ำโดยเพลโต

ผู้ติดตาม: 0

เนื่องจากกฎระเบียบด้านความเป็นส่วนตัวของข้อมูลใหม่ เช่น GDPR (กฎระเบียบให้ความคุ้มครองข้อมูลส่วนบุคคลของผู้บริโภค พ.ศ. 2017) มีผลบังคับใช้ ลูกค้าจึงอยู่ภายใต้แรงกดดันที่เพิ่มขึ้นในการสร้างรายได้จากสินทรัพย์สื่อในขณะที่ปฏิบัติตามกฎใหม่ การสร้างรายได้จากสื่อโดยเคารพกฎความเป็นส่วนตัวนั้นต้องการความสามารถในการดึงข้อมูลเมตาแบบละเอียดจากเนื้อหา เช่น ข้อความ รูปภาพ วิดีโอ และไฟล์เสียงในระดับอินเทอร์เน็ตโดยอัตโนมัติ นอกจากนี้ยังต้องการวิธีที่ปรับขนาดได้ในการทำแผนที่สินทรัพย์สื่อกับการจัดหมวดหมู่อุตสาหกรรมที่อำนวยความสะดวกในการค้นพบและสร้างรายได้จากเนื้อหา กรณีการใช้งานนี้มีความสำคัญอย่างยิ่งสำหรับอุตสาหกรรมการโฆษณา เนื่องจากกฎความเป็นส่วนตัวของข้อมูลทำให้เกิดการเปลี่ยนแปลงจากการกำหนดเป้าหมายตามพฤติกรรมโดยใช้คุกกี้ของบุคคลที่สาม

Third-party Cookies ช่วยเปิดใช้งานโฆษณาส่วนบุคคลสำหรับผู้ใช้เว็บ และอนุญาตให้ผู้โฆษณาเข้าถึงกลุ่มเป้าหมายที่ต้องการ โซลูชันดั้งเดิมในการแสดงโฆษณาโดยไม่มีคุกกี้ของบุคคลที่สามคือการโฆษณาตามบริบท ซึ่งวางโฆษณาบนหน้าเว็บตามเนื้อหาที่เผยแพร่บนหน้าเว็บ อย่างไรก็ตาม การโฆษณาตามบริบททำให้เกิดความท้าทายในการดึงบริบทออกจากเนื้อหาสื่อตามขนาด และในทำนองเดียวกันการใช้บริบทนั้นเพื่อสร้างรายได้จากเนื้อหา

ในโพสต์นี้ เราจะพูดถึงวิธีที่คุณสามารถสร้างโซลูชันการเรียนรู้ของเครื่อง (ML) ที่เราเรียกว่า Contextual Intelligence Taxonomy Mapper (CITM) เพื่อดึงบริบทจากเนื้อหาดิจิทัลและจับคู่กับอนุกรมวิธานมาตรฐานเพื่อสร้างมูลค่า แม้ว่าเราจะใช้โซลูชันนี้กับการโฆษณาตามบริบท แต่คุณสามารถใช้โซลูชันนี้เพื่อแก้ไขกรณีการใช้งานอื่นๆ ได้ ตัวอย่างเช่น บริษัทเทคโนโลยีการศึกษาสามารถใช้เพื่อแมปเนื้อหาของตนกับอนุกรมวิธานของอุตสาหกรรม เพื่ออำนวยความสะดวกในการเรียนรู้แบบปรับตัวที่มอบประสบการณ์การเรียนรู้ส่วนบุคคลตามความต้องการของนักเรียนแต่ละคน

ภาพรวมโซลูชัน

การแก้ปัญหาประกอบด้วยสององค์ประกอบ: AWS Media Intelligence ความสามารถ (AWS MI) สำหรับการดึงบริบทจากเนื้อหาบนหน้าเว็บ และ CITM สำหรับการแมปเนื้อหาอย่างชาญฉลาดกับการจัดหมวดหมู่อุตสาหกรรม คุณสามารถเข้าถึงโซลูชันของ ที่เก็บรหัส สำหรับมุมมองโดยละเอียดเกี่ยวกับวิธีที่เราใช้ส่วนประกอบต่างๆ

AWS Media Intelligence

ความสามารถของ AWS MI ช่วยให้สามารถดึงข้อมูลเมตาโดยอัตโนมัติซึ่งให้ความเข้าใจตามบริบทของเนื้อหาของหน้าเว็บ คุณสามารถรวมเทคนิค ML เช่น คอมพิวเตอร์วิทัศน์ คำพูดเป็นข้อความ และการประมวลผลภาษาธรรมชาติ (NLP) เพื่อสร้างข้อมูลเมตาจากข้อความ วิดีโอ รูปภาพ และไฟล์เสียงโดยอัตโนมัติเพื่อใช้ในการประมวลผลดาวน์สตรีม บริการ AI ที่มีการจัดการเช่น ความหมายของ Amazon, ถอดความจากอเมซอน, เข้าใจ Amazonและ Amazon Text ทำให้สามารถเข้าถึงเทคนิค ML เหล่านี้ได้โดยใช้การเรียก API ซึ่งจะช่วยขจัดค่าใช้จ่ายที่จำเป็นในการฝึกและสร้างแบบจำลอง ML ตั้งแต่เริ่มต้น ในโพสต์นี้ คุณจะเห็นว่าการใช้ Amazon Comprehend และ Amazon Rekognition สำหรับข่าวกรองสื่อช่วยให้สามารถดึงข้อมูลเมตาตามขนาดได้อย่างไร

ผู้จัดทำแผนที่อนุกรมวิธานข่าวกรองตามบริบท

หลังจากที่คุณดึงข้อมูลเมตาออกจากเนื้อหาสื่อ คุณต้องมีวิธีแมปข้อมูลเมตานั้นกับอนุกรมวิธานอุตสาหกรรมเพื่ออำนวยความสะดวกในการกำหนดเป้าหมายตามบริบท ในการทำเช่นนี้ คุณต้องสร้าง Contextual Intelligence Taxonomy Mapper (CITM) ซึ่งขับเคลื่อนโดยตัวแปลงประโยค BERT จาก Hugging Face

ตัวแปลงประโยคของ BERT ช่วยให้ CITM สามารถจัดหมวดหมู่เนื้อหาเว็บด้วยคำหลักที่เกี่ยวข้องตามบริบท ตัวอย่างเช่น สามารถจัดหมวดหมู่บทความบนเว็บเกี่ยวกับการใช้ชีวิตอย่างมีสุขภาพด้วยคำหลักจากอนุกรมวิธานอุตสาหกรรม เช่น “การทำอาหารและการรับประทานอาหารเพื่อสุขภาพ” “การวิ่งและจ็อกกิ้ง” และอื่นๆ ตามข้อความที่เขียนและรูปภาพที่ใช้ในบทความ CITM ยังให้ความสามารถในการเลือกเงื่อนไขการจัดหมวดหมู่ที่แมปเพื่อใช้สำหรับกระบวนการเสนอราคาโฆษณาของคุณตามเกณฑ์ของคุณ

แผนภาพต่อไปนี้แสดงมุมมองแนวคิดของสถาปัตยกรรมด้วย CITM

IAB (สำนักโฆษณาเชิงโต้ตอบ) การจัดหมวดหมู่เนื้อหา

สำหรับโพสต์นี้เราใช้ อนุกรมวิธานเนื้อหาของ IAB Tech Lab เป็นอนุกรมวิธานมาตรฐานอุตสาหกรรมสำหรับกรณีการใช้งานโฆษณาตามบริบท ด้วยการออกแบบ การจัดหมวดหมู่ของ IAB ช่วยให้ผู้สร้างเนื้อหาอธิบายเนื้อหาของตนได้แม่นยำยิ่งขึ้น และให้ภาษาทั่วไปสำหรับทุกฝ่ายในกระบวนการโฆษณาแบบเป็นโปรแกรม การใช้คำศัพท์ทั่วไปเป็นสิ่งสำคัญ เนื่องจากการเลือกโฆษณาสำหรับหน้าเว็บที่ผู้ใช้เข้าชมจะต้องเกิดขึ้นภายในเสี้ยววินาที การจัดหมวดหมู่ IAB ทำหน้าที่เป็นมาตรฐานในการจัดหมวดหมู่เนื้อหาจากแหล่งต่างๆ ในขณะที่ยังเป็นโปรโตคอลของอุตสาหกรรมที่แพลตฟอร์มการเสนอราคาแบบเรียลไทม์ใช้สำหรับการเลือกโฆษณา มีโครงสร้างแบบลำดับชั้น ซึ่งให้รายละเอียดเกี่ยวกับข้อกำหนดการจัดหมวดหมู่และบริบทที่ได้รับการปรับปรุงสำหรับผู้โฆษณา

เวิร์กโฟลว์โซลูชัน

ไดอะแกรมต่อไปนี้แสดงเวิร์กโฟลว์โซลูชัน

ภาพรวมของโซลูชัน CITM

ขั้นตอนมีดังนี้:

บริการจัดเก็บข้อมูลอย่างง่ายของ Amazon (Amazon S3) เก็บอนุกรมวิธานเนื้อหา IAB และแยกเนื้อหาเว็บ
Amazon Comprehend ดำเนินการสร้างโมเดลหัวข้อเพื่อแยกธีมทั่วไปออกจากคอลเล็กชันบทความ
การรับรู้ของอเมซอน ป้ายกำกับวัตถุ API ตรวจจับป้ายกำกับในภาพ
CITM จับคู่เนื้อหากับอนุกรมวิธานมาตรฐาน
คุณสามารถจัดเก็บเนื้อหาในการแมปอนุกรมวิธานในที่เก็บข้อมูลเมตาได้

ในหัวข้อต่อไปนี้ เราจะอธิบายแต่ละขั้นตอนโดยละเอียด

Amazon S3 จัดเก็บอนุกรมวิธานเนื้อหา IAB และแยกเนื้อหาเว็บ

เราเก็บข้อความและรูปภาพที่แยกจากชุดบทความบนเว็บในบัคเก็ต S3 นอกจากนี้เรายังจัดเก็บอนุกรมวิธานเนื้อหา IAB ในขั้นแรก เราเชื่อมโยงระดับต่างๆ กับอนุกรมวิธานเพื่อสร้างเงื่อนไขการจัดหมวดหมู่แบบรวม วิธีนี้ช่วยรักษาโครงสร้างลำดับชั้นของอนุกรมวิธานเมื่อตัวแปลงประโยคของ BERT สร้างการฝังสำหรับแต่ละคีย์เวิร์ด ดูรหัสต่อไปนี้:

def prepare_taxonomy(taxonomy_df):
    
    """
    Concatenate IAB Tech Lab content taxonomy tiers and prepare keywords for BERT embedding. 
    Use this function as-is if using the IAB Content Taxonomy
    
    Parameters (input):
    ----------
    taxonomy_df : Content taxonomy dataframe

    Returns (output):
    -------
    df_clean : Content taxonomy with tiers in the taxonomy concatenated
    keyword_list: List of concatenated content taxonomy keywords
    ids: List of ids for the content taxonomy keywords
    """
    
    df = taxonomy_df[['Unique ID ','Parent','Name','Tier 1','Tier 2','Tier 3']] 
    df_str = df.astype({"Unique ID ": 'str', "Parent": 'str', "Tier 1": 'str', "Tier 2": 'str', "Tier 3": 'str'})
    df_clean = df_str.replace('nan','')
    
    #create a column that concatenates all tiers for each taxonomy keyword
    df_clean['combined']=df_clean[df_clean.columns[2:6]].apply(lambda x: ' '.join(x.dropna().astype(str)),axis=1)
    
    #turn taxonomy keyords to list of strings a prep for encoding with BERT sentence transformer
    keyword_list=df_clean['combined'].to_list()
                       
    #get list of taxonomy ids
    ids = df_clean['Unique ID '].to_list()                  
            
    return df_clean, keyword_list, ids

taxonomy_df, taxonomy_terms, taxonomy_ids = prepare_taxonomy(read_taxonomy)

ไดอะแกรมต่อไปนี้แสดงอนุกรมวิธานบริบท IAB ที่มีระดับรวมกัน

อนุกรมวิธานเนื้อหา IAB พร้อมระดับที่ต่อกัน

Amazon Comprehend ดำเนินการสร้างโมเดลหัวข้อเพื่อแยกธีมทั่วไปออกจากคอลเล็กชันบทความ

ด้วย API การสร้างแบบจำลองหัวข้อ Amazon Comprehend คุณสามารถวิเคราะห์ข้อความบทความทั้งหมดโดยใช้แบบจำลอง Latent Dirichlet Allocation (LDA) โมเดลนี้จะตรวจสอบแต่ละบทความในคลังข้อมูลและจัดกลุ่มคำหลักในหัวข้อเดียวกันตามบริบทและความถี่ที่ปรากฏในบทความทั้งหมด เพื่อให้แน่ใจว่าโมเดล LDA ตรวจพบหัวข้อที่มีความสอดคล้องกันสูง คุณดำเนินการขั้นตอนการประมวลผลล่วงหน้าก่อนที่จะเรียกใช้ Amazon Comprehend API คุณสามารถใช้ ห้องสมุดเกนซิม CoherenceModel เพื่อกำหนดจำนวนหัวข้อที่เหมาะสมที่สุดที่จะตรวจจับจากการรวบรวมบทความหรือไฟล์ข้อความ ดูรหัสต่อไปนี้:

def compute_coherence_scores(dictionary, corpus, texts, limit, start=2, step=3):
    """
    Compute coherence scores for various number of topics for your topic model. 
    Adjust the parameters below based on your data

    Parameters (input):
    ----------
    dictionary : Gensim dictionary created earlier from input texts
    corpus : Gensim corpus created earlier from input texts
    texts : List of input texts
    limit : The maximum number of topics to test. Amazon Comprehend can detect up to 100 topics in a collection

    Returns (output):
    -------
    models : List of LDA topic models
    coherence_scores : Coherence values corresponding to the LDA model with respective number of topics
    """
    coherence_scores = []
    models = []
    for num_topics in range(start, limit, step):
        model = gensim.models.LdaMulticore(corpus=corpus, num_topics=num_topics, id2word=id2word)
        models.append(model)
        coherencemodel = CoherenceModel(model=model, texts=corpus_words, dictionary=id2word, coherence='c_v')
        coherence_scores.append(coherencemodel.get_coherence())

    return models, coherence_scores

models, coherence_scores = compute_coherence_scores(dictionary=id2word, corpus=corpus_tdf, texts=corpus_words, start=2, limit=100, step=3)

หลังจากที่คุณได้รับจำนวนหัวข้อที่เหมาะสมที่สุดแล้ว คุณจะใช้ค่านั้นสำหรับงานสร้างแบบจำลองหัวข้อของ Amazon Comprehend การระบุค่าต่างๆ สำหรับพารามิเตอร์ NumberOfTopics ใน Amazon Comprehend การทำงานของ StartTopicsDetectionJob ส่งผลให้เกิดรูปแบบการกระจายของคำหลักในแต่ละกลุ่มหัวข้อ ค่าที่ปรับให้เหมาะสมที่สุดสำหรับพารามิเตอร์ NumberOfTopics แสดงถึงจำนวนหัวข้อที่ให้การจัดกลุ่มคำหลักที่สอดคล้องกันมากที่สุดโดยมีความเกี่ยวข้องตามบริบทที่สูงขึ้น คุณสามารถจัดเก็บเอาต์พุตการสร้างแบบจำลองหัวข้อจาก Amazon Comprehend ในรูปแบบดิบใน Amazon S3

API ป้ายกำกับอ็อบเจ็กต์ Amazon Rekognition ตรวจจับป้ายกำกับในรูปภาพ

คุณวิเคราะห์แต่ละภาพที่ดึงมาจากหน้าเว็บทั้งหมดโดยใช้ การทำงานของ Amazon Rekognition DetectLabels. สำหรับแต่ละรูปภาพ การดำเนินการให้การตอบสนอง JSON พร้อมป้ายกำกับทั้งหมดที่ตรวจพบภายในรูปภาพ ควบคู่ไปกับคะแนนความมั่นใจสำหรับแต่ละรายการ สำหรับกรณีการใช้งานของเรา เราสุ่มเลือกคะแนนความเชื่อมั่น 60% หรือสูงกว่าเป็นเกณฑ์สำหรับป้ายกำกับออบเจ็กต์ที่จะใช้ในขั้นตอนต่อไป คุณจัดเก็บป้ายกำกับอ็อบเจ็กต์ในรูปแบบดิบใน Amazon S3 ดูรหัสต่อไปนี้:

"""
Create a function to extract object labels from a given image using Amazon Rekognition
"""

def get_image_labels(image_loc):
    labels = []
    with fs.open(image_loc, "rb") as im:
        response = rekognition_client.detect_labels(Image={"Bytes": im.read()})
    
    for label in response["Labels"]:
        if label["Confidence"] >= 60:   #change to desired confidence score threshold, value between [0,100]:
            object_label = label["Name"]
            labels.append(object_label)
    return labels

CITM จับคู่เนื้อหากับอนุกรมวิธานมาตรฐาน

CITM เปรียบเทียบข้อมูลเมตาของเนื้อหาที่แยกออกมา (หัวข้อจากข้อความและป้ายกำกับจากรูปภาพ) กับคีย์เวิร์ดในอนุกรมวิธาน IAB จากนั้นแมปข้อมูลเมตาของเนื้อหากับคีย์เวิร์ดจากการจัดหมวดหมู่ที่เกี่ยวข้องทางความหมาย สำหรับงานนี้ CITM ดำเนินการสามขั้นตอนต่อไปนี้:

สร้างการฝังประสาทสำหรับการจัดหมวดหมู่เนื้อหา คำหลักของหัวข้อ และป้ายกำกับรูปภาพโดยใช้ตัวแปลงประโยค BERT ของ Hugging Face เราเข้าถึงรูปแบบประโยคหม้อแปลงจาก อเมซอน SageMaker. ในโพสต์นี้เราใช้ ถอดความ-MiniLM-L6-v2 โมเดล ซึ่งจับคู่คำหลักและป้ายกำกับกับพื้นที่เวกเตอร์หนาแน่น 384 มิติ
คำนวณคะแนนความคล้ายคลึงกันของโคไซน์ระหว่างคีย์เวิร์ดอนุกรมวิธานและคีย์เวิร์ดของหัวข้อโดยใช้การฝัง นอกจากนี้ยังคำนวณความคล้ายคลึงของโคไซน์ระหว่างคีย์เวิร์ดอนุกรมวิธานและป้ายกำกับออบเจ็กต์รูปภาพ เราใช้ความคล้ายคลึงของโคไซน์เป็นกลไกการให้คะแนนเพื่อค้นหาการจับคู่ที่มีความหมายคล้ายกันระหว่างข้อมูลเมตาของเนื้อหาและการจัดหมวดหมู่ ดูรหัสต่อไปนี้:

def compute_similarity(entity_embeddings, entity_terms, taxonomy_embeddings, taxonomy_terms):
    """
    Compute cosine scores between entity embeddings and taxonomy embeddings
    
    Parameters (input):
    ----------
    entity_embeddings : Embeddings for either topic keywords from Amazon Comprehend or image labels from Amazon Rekognition
    entity_terms : Terms for topic keywords or image labels
    taxonomy_embeddings : Embeddings for the content taxonomy
    taxonomy_terms : Terms for the taxonomy keywords

    Returns (output):
    -------
    mapping_df : Dataframe that matches each entity keyword to each taxonomy keyword and their cosine similarity score
    """
    
    #calculate cosine score, pairing each entity embedding with each taxonomy keyword embedding
    cosine_scores = util.pytorch_cos_sim(entity_embeddings, taxonomy_embeddings)
    pairs = []
    for i in range(len(cosine_scores)-1):
        for j in range(0, cosine_scores.shape[1]):
            pairs.append({'index': [i, j], 'score': cosine_scores[i][j]})
    
    #Sort cosine similarity scores in decreasing order
    pairs = sorted(pairs, key=lambda x: x['score'], reverse=True)
    rows = []
    for pair in pairs:
        i, j = pair['index']
        rows.append([entity_terms[i], taxonomy_terms[j], pair['score']])
    
    #move sorted values to a dataframe
    mapping_df= pd.DataFrame(rows, columns=["term", "taxonomy_keyword","cosine_similarity"])
    mapping_df['cosine_similarity'] = mapping_df['cosine_similarity'].astype('float')
    mapping_df= mapping_df.sort_values(by=['term','cosine_similarity'], ascending=False)
    drop_dups= mapping_df.drop_duplicates(subset=['term'], keep='first')
    mapping_df = drop_dups.sort_values(by=['cosine_similarity'], ascending=False).reset_index(drop=True)
    return mapping_df
                                               
#compute cosine_similairty score between topic keywords and content taxonomy keywords using BERT embeddings                                               
text_taxonomy_mapping=compute_similarity(keyword_embeddings, topic_keywords, taxonomy_embeddings, taxonomy_terms)

ระบุการจับคู่ที่มีคะแนนความคล้ายคลึงกันซึ่งสูงกว่าเกณฑ์ที่ผู้ใช้กำหนด และใช้เพื่อจับคู่เนื้อหากับคำหลักที่เกี่ยวข้องทางความหมายในการจัดหมวดหมู่เนื้อหา ในการทดสอบของเรา เราเลือกคำหลักทั้งหมดจากการจับคู่ที่มีคะแนนความคล้ายคลึงโคไซน์เท่ากับ 0.5 หรือสูงกว่า ดูรหัสต่อไปนี้:

#merge text and image keywords mapped to content taxonomy
rtb_keywords=pd.concat([text_taxonomy_mapping[["term","taxonomy_keyword","cosine_similarity"]],image_taxonomy_mapping]).sort_values(by='cosine_similarity',ascending=False).reset_index(drop=True)

#select keywords with a cosine_similarity score greater than your desired threshold ( the value should be from 0 to 1)
rtb_keywords[rtb_keywords["cosine_similarity"]> 50] # change to desired threshold for cosine score, value between [0,100]:

ความท้าทายทั่วไปเมื่อทำงานกับการแสดงภาษาในระดับอินเทอร์เน็ต (เช่น ในกรณีการใช้งานนี้) คือคุณต้องมีโมเดลที่พอดีกับเนื้อหาส่วนใหญ่ ในกรณีนี้คือคำในภาษาอังกฤษ หม้อแปลง BERT ของ Hugging Face ได้รับการฝึกอบรมล่วงหน้าโดยใช้คลังบทความขนาดใหญ่ของบทความ Wikipedia ในภาษาอังกฤษเพื่อแสดงความหมายเชิงความหมายของคำที่สัมพันธ์กัน คุณปรับแต่งโมเดลที่ฝึกไว้ล่วงหน้าโดยใช้ชุดข้อมูลเฉพาะของคำสำคัญหัวข้อ ป้ายชื่อรูปภาพ และคำสำคัญอนุกรมวิธาน เมื่อคุณวางการฝังทั้งหมดในพื้นที่คุณลักษณะเดียวกันและเห็นภาพ คุณจะเห็นว่า BERT แสดงถึงความคล้ายคลึงกันทางความหมายระหว่างคำต่างๆ

ตัวอย่างต่อไปนี้แสดงภาพคีย์เวิร์ดอนุกรมวิธานของเนื้อหา IAB สำหรับคลาส Automotive ที่แสดงเป็นเวกเตอร์โดยใช้ BERT BERT วางคำสำคัญเกี่ยวกับยานยนต์จากอนุกรมวิธานใกล้กับคำที่มีความหมายใกล้เคียงกัน

การแสดงภาพการฝัง BERT สำหรับคีย์เวิร์ดอนุกรมวิธาน

เวกเตอร์คุณลักษณะอนุญาตให้ CITM เปรียบเทียบป้ายกำกับข้อมูลเมตาและคีย์เวิร์ดอนุกรมวิธานในพื้นที่คุณลักษณะเดียวกัน ในพื้นที่คุณลักษณะนี้ CITM จะคำนวณความคล้ายคลึงของโคไซน์ระหว่างเวกเตอร์คุณลักษณะแต่ละรายการสำหรับคีย์เวิร์ดอนุกรมวิธานและเวกเตอร์คุณลักษณะแต่ละรายการสำหรับคีย์เวิร์ดของหัวข้อ ในขั้นตอนที่แยกต่างหาก CITM จะเปรียบเทียบเวกเตอร์คุณลักษณะการจัดหมวดหมู่และเวกเตอร์คุณลักษณะสำหรับป้ายกำกับรูปภาพ การจับคู่ที่มีคะแนนโคไซน์ที่ใกล้เคียงที่สุดกับ 1 จะถูกระบุว่ามีความคล้ายคลึงกัน โปรดทราบว่าการจับคู่อาจเป็นคีย์เวิร์ดของหัวข้อและคีย์เวิร์ดอนุกรมวิธาน หรือป้ายกำกับออบเจ็กต์และคีย์เวิร์ดอนุกรมวิธาน

ภาพหน้าจอต่อไปนี้แสดงตัวอย่างการจับคู่ของคำหลักในหัวข้อและคำหลักอนุกรมวิธานโดยใช้ความคล้ายคลึงของโคไซน์ที่คำนวณด้วยการฝัง BERT

หัวข้อการจับคู่คำหลักอนุกรมวิธาน

ในการแมปเนื้อหากับคีย์เวิร์ดการจัดหมวดหมู่ CITM จะเลือกคีย์เวิร์ดจากการจับคู่กับคะแนนโคไซน์ที่ตรงตามเกณฑ์ที่ผู้ใช้กำหนด นี่คือคำหลักที่จะใช้บนแพลตฟอร์มการเสนอราคาแบบเรียลไทม์เพื่อเลือกโฆษณาสำหรับพื้นที่โฆษณาของหน้าเว็บ ผลที่ได้คือการจับคู่เนื้อหาออนไลน์กับอนุกรมวิธานที่หลากหลาย

เลือกจัดเก็บเนื้อหาไปยังการแมปอนุกรมวิธานในที่เก็บข้อมูลเมตา

หลังจากที่คุณระบุคำศัพท์อนุกรมวิธานที่คล้ายคลึงกันตามบริบทจาก CITM แล้ว คุณต้องมีวิธีสำหรับ API ที่มีความหน่วงต่ำในการเข้าถึงข้อมูลนี้ ในการเสนอราคาแบบเป็นโปรแกรมสำหรับโฆษณา เวลาตอบสนองต่ำและการทำงานพร้อมกันสูงมีบทบาทสำคัญในการสร้างรายได้จากเนื้อหา สคีมาสำหรับพื้นที่เก็บข้อมูลต้องมีความยืดหยุ่นเพื่อรองรับข้อมูลเมตาเพิ่มเติมเมื่อจำเป็นเพื่อเพิ่มคุณภาพคำขอราคาเสนอ อเมซอน ไดนาโมดีบี สามารถจับคู่รูปแบบการเข้าถึงข้อมูลและข้อกำหนดการปฏิบัติงานสำหรับบริการดังกล่าวได้

สรุป

ในโพสต์นี้ คุณได้เรียนรู้วิธีสร้างโซลูชันการกำหนดเป้าหมายตามบริบทตามอนุกรมวิธานโดยใช้ Contextual Intelligence Taxonomy Mapper (CITM) คุณได้เรียนรู้วิธีใช้ Amazon Comprehend และ Amazon Rekognition เพื่อดึงข้อมูลเมตาแบบละเอียดจากเนื้อหาสื่อของคุณ จากนั้น เมื่อใช้ CITM คุณจะจับคู่เนื้อหากับการจัดหมวดหมู่มาตรฐานอุตสาหกรรมเพื่ออำนวยความสะดวกในการเสนอราคาโฆษณาแบบเป็นโปรแกรมสำหรับโฆษณาที่เกี่ยวข้องตามบริบท คุณสามารถใช้เฟรมเวิร์กนี้กับกรณีการใช้งานอื่นๆ ที่ต้องใช้อนุกรมวิธานมาตรฐานเพื่อเพิ่มมูลค่าของสินทรัพย์สื่อที่มีอยู่

หากต้องการทดลองกับ CITM คุณสามารถเข้าถึง ที่เก็บรหัส และใช้กับชุดข้อมูลข้อความและรูปภาพที่คุณเลือก

เราขอแนะนำให้เรียนรู้เพิ่มเติมเกี่ยวกับส่วนประกอบโซลูชันที่แนะนำในโพสต์นี้ ดูข้อมูลเพิ่มเติมเกี่ยวกับ AWS Media Intelligence เพื่อดึงข้อมูลเมตาจากเนื้อหาสื่อ เรียนรู้เพิ่มเติมเกี่ยวกับวิธีใช้ กอดโมเดลใบหน้าสำหรับ NLP โดยใช้ Amazon SageMaker.

เกี่ยวกับผู้เขียน

อะราไมด์ เคฮินเด เป็น Sr. Partner Solution Architect ที่ AWS ในการเรียนรู้ของเครื่องและ AI เส้นทางอาชีพของเธอครอบคลุมพื้นที่ของ Business Intelligence และ Advanced Analytics ในหลากหลายอุตสาหกรรม เธอทำงานเพื่อให้คู่ค้าสามารถสร้างโซลูชันด้วยบริการ AWS AI/ML ที่ตอบสนองความต้องการของลูกค้าในด้านนวัตกรรม เธอยังสนุกกับการสร้างจุดตัดของ AI และเวทีที่สร้างสรรค์ และใช้เวลาอยู่กับครอบครัวของเธอ

อนุจคุปตะ เป็นสถาปนิก Principal Solutions Architect ที่ทำงานร่วมกับบริษัทที่มีการเติบโตอย่างรวดเร็วบนเส้นทางคลาวด์เนทีฟ เขาหลงใหลในการใช้เทคโนโลยีเพื่อแก้ปัญหาที่ท้าทาย และได้ทำงานร่วมกับลูกค้าเพื่อสร้างแอปพลิเคชันที่มีการกระจายสูงและมีความหน่วงต่ำ เขาสนับสนุนโซลูชันโอเพ่นซอร์ส Serverless และ Machine Learning นอกที่ทำงาน เขาชอบท่องเที่ยวกับครอบครัวและเขียนบทกวีและบล็อกเชิงปรัชญา

ประทับเวลา: กรกฎาคม 20, 2022กรกฎาคม 20, 2022

ประทับเวลา: พฤศจิกายน 2, 2022

สร้างการกำหนดเป้าหมายตามบริบทตามอนุกรมวิธานโดยใช้ AWS Media Intelligence และ Hugging Face BERT

เผยแพร่ซ้ำโดยเพลโต

ภาพรวมโซลูชัน

AWS Media Intelligence

ผู้จัดทำแผนที่อนุกรมวิธานข่าวกรองตามบริบท

IAB (สำนักโฆษณาเชิงโต้ตอบ) การจัดหมวดหมู่เนื้อหา

เวิร์กโฟลว์โซลูชัน

Amazon S3 จัดเก็บอนุกรมวิธานเนื้อหา IAB และแยกเนื้อหาเว็บ

Amazon Comprehend ดำเนินการสร้างโมเดลหัวข้อเพื่อแยกธีมทั่วไปออกจากคอลเล็กชันบทความ

API ป้ายกำกับอ็อบเจ็กต์ Amazon Rekognition ตรวจจับป้ายกำกับในรูปภาพ

CITM จับคู่เนื้อหากับอนุกรมวิธานมาตรฐาน

เลือกจัดเก็บเนื้อหาไปยังการแมปอนุกรมวิธานในที่เก็บข้อมูลเมตา

สรุป

เกี่ยวกับผู้เขียน

เพิ่มเติมจาก AWS Machine Learning AWS

Alida เข้าใจความคิดเห็นของลูกค้าอย่างลึกซึ้งยิ่งขึ้นด้วย Amazon Bedrock | อเมซอนเว็บเซอร์วิส

สร้างเวิร์กโฟลว์แมชชีนเลิร์นนิงสำหรับการจัดการความเสี่ยงบน Amazon SageMaker โดยไม่ต้องใช้โค้ด

Bongo Learn ให้ข้อเสนอแนะแบบเรียลไทม์เพื่อปรับปรุงผลลัพธ์การเรียนรู้ด้วย Amazon Transcribe

เปิดใช้การทดสอบ Amazon SageMaker Autopilot โดยตรงจากภายใน Amazon SageMaker Pipelines เพื่อทำให้เวิร์กโฟลว์ MLOps เป็นอัตโนมัติได้อย่างง่ายดาย

ปรับปรุงการดึงข้อมูลและการประมวลผลเอกสารด้วย Amazon Texttract

เกี่ยวกับเรา

การค้นหาแนวตั้ง & Ai

ระบบปฏิบัติการ

การติดต่อ

ลงชื่อเข้าใช้