Build Taxonomy-based Contextual Targeting Using AWS Media Intelligence And Hugging Face BERT

بازنشر افلاطون

دنبال: 0

با اجرایی شدن مقررات جدید حفظ حریم خصوصی داده ها مانند GDPR (مقررات عمومی حفاظت از داده ها، 2017)، مشتریان تحت فشار فزاینده ای برای کسب درآمد از دارایی های رسانه ای هستند و در عین حال از قوانین جدید تبعیت می کنند. کسب درآمد از رسانه با رعایت مقررات حفظ حریم خصوصی مستلزم توانایی استخراج خودکار فراداده های گرانول از دارایی هایی مانند متن، تصاویر، ویدئو و فایل های صوتی در مقیاس اینترنت است. همچنین نیاز به روشی مقیاس‌پذیر برای نگاشت دارایی‌های رسانه به طبقه‌بندی‌های صنعتی دارد که کشف و کسب درآمد از محتوا را تسهیل می‌کند. این مورد استفاده به‌ویژه برای صنعت تبلیغات مهم است زیرا قوانین حفظ حریم خصوصی داده‌ها باعث تغییر هدف‌گیری رفتاری با استفاده از کوکی‌های شخص ثالث می‌شود.

کوکی های شخص ثالث به فعال کردن تبلیغات شخصی برای کاربران وب کمک می کند و به تبلیغ کنندگان اجازه می دهد به مخاطبان مورد نظر خود دسترسی پیدا کنند. یک راه حل سنتی برای ارائه تبلیغات بدون کوکی های شخص ثالث، تبلیغات متنی است که تبلیغات را بر اساس محتوای منتشر شده در صفحات در صفحات وب قرار می دهد. با این حال، تبلیغات متنی چالش استخراج زمینه از دارایی های رسانه در مقیاس، و همچنین استفاده از آن زمینه برای کسب درآمد از دارایی ها را ایجاد می کند.

در این پست، در مورد اینکه چگونه می‌توانید یک راه‌حل یادگیری ماشینی (ML) بسازید که ما آن را به نام Contextual Intelligence Taxonomy Mapper (CITM) می‌نامیم تا زمینه را از محتوای دیجیتال استخراج کرده و آن را به طبقه‌بندی استاندارد به منظور ایجاد ارزش ترسیم کنید. اگرچه ما این راه حل را برای تبلیغات متنی اعمال می کنیم، اما شما می توانید از آن برای حل سایر موارد استفاده استفاده کنید. برای مثال، شرکت‌های فناوری آموزشی می‌توانند از آن برای ترسیم محتوای خود به طبقه‌بندی‌های صنعت استفاده کنند تا یادگیری تطبیقی را تسهیل کنند که تجربیات یادگیری شخصی‌شده را بر اساس نیازهای فردی دانش‌آموزان ارائه می‌دهد.

بررسی اجمالی راه حل

راه حل شامل دو جزء است: هوش رسانه ای AWS قابلیت‌های (AWS MI) برای استخراج زمینه از محتوا در صفحات وب و CITM برای نگاشت هوشمند محتوا به طبقه‌بندی صنعت. می توانید به راه حل ها دسترسی داشته باشید مخزن کد برای مشاهده دقیق نحوه اجرای اجزای آن.

هوش رسانه ای AWS

قابلیت‌های AWS MI استخراج خودکار متادیتا را امکان‌پذیر می‌سازد که درک متنی محتوای صفحه وب را فراهم می‌کند. می‌توانید تکنیک‌های ML مانند بینایی رایانه، گفتار به متن، و پردازش زبان طبیعی (NLP) را ترکیب کنید تا به‌طور خودکار متادیتا را از متن، ویدیو، تصاویر و فایل‌های صوتی برای استفاده در پردازش پایین‌دست تولید کنید. خدمات هوش مصنوعی مدیریت شده مانند شناسایی آمازون, آمازون رونوشت, درک آمازونو متن آمازون این تکنیک های ML را با استفاده از فراخوانی های API در دسترس قرار دهید. این امر سربار مورد نیاز برای آموزش و ساخت مدل های ML را از ابتدا حذف می کند. در این پست، می بینید که چگونه استفاده از Amazon Comprehend و Amazon Rekognition برای هوش رسانه ای استخراج ابرداده را در مقیاس ممکن می کند.

نقشه‌بردار طبقه‌بندی هوش زمینه‌ای

پس از استخراج فراداده از محتوای رسانه‌ای، به راهی برای نگاشت آن ابرداده به طبقه‌بندی صنعت نیاز دارید تا هدف‌گیری متنی را تسهیل کنید. برای انجام این کار، نقشه‌بردار طبقه‌بندی هوش متنی (CITM) را می‌سازید که توسط یک ترانسفورماتور جمله BERT از Hugging Face تغذیه می‌شود.

مبدل جمله BERT CITM را قادر می سازد تا محتوای وب را با کلمات کلیدی مرتبط با زمینه طبقه بندی کند. به عنوان مثال، می تواند یک مقاله وب در مورد زندگی سالم را با کلمات کلیدی از طبقه بندی صنعت، مانند «آشپزی و غذا خوردن سالم»، «دویدن و دویدن» و موارد دیگر، بر اساس متن نوشته شده و تصاویر استفاده شده در مقاله، دسته بندی کند. CITM همچنین امکان انتخاب شرایط طبقه بندی نقشه برداری شده را برای استفاده در فرآیند مناقصه تبلیغاتی بر اساس معیارهای شما فراهم می کند.

نمودار زیر نمای مفهومی معماری با CITM را نشان می دهد.

طبقه بندی محتوای IAB (اداره تبلیغات تعاملی).

برای این پست از طبقه بندی محتوای آزمایشگاه فناوری IAB به عنوان طبقه بندی استاندارد صنعت برای مورد استفاده از تبلیغات متنی. با طراحی، طبقه بندی IAB به سازندگان محتوا کمک می کند تا محتوای خود را با دقت بیشتری توصیف کنند و زبان مشترکی را برای همه طرفین در فرآیند تبلیغات برنامه ای فراهم می کند. استفاده از یک اصطلاح رایج بسیار مهم است زیرا انتخاب تبلیغات برای صفحه وب که کاربر از آن بازدید می کند باید در چند میلی ثانیه انجام شود. طبقه بندی IAB به عنوان یک روش استاندارد برای طبقه بندی محتوا از منابع مختلف عمل می کند و در عین حال یک پروتکل صنعتی است که پلتفرم های پیشنهادی بلادرنگ برای انتخاب آگهی از آن استفاده می کنند. این یک ساختار سلسله مراتبی دارد که جزئیاتی از اصطلاحات طبقه بندی و زمینه بهبود یافته را برای تبلیغ کنندگان فراهم می کند.

گردش کار راه حل

نمودار زیر گردش کار راه حل را نشان می دهد.

راه حل CITM overivew

مراحل زیر است:

سرویس ذخیره سازی ساده آمازون (Amazon S3) طبقه بندی محتوای IAB و محتوای وب استخراج شده را ذخیره می کند.
Amazon Comprehend مدل سازی موضوع را برای استخراج مضامین رایج از مجموعه مقالات انجام می دهد.
شناخت آمازون API برچسب شی برچسب ها را در تصاویر تشخیص می دهد.
CITM محتوا را به یک طبقه بندی استاندارد نگاشت می کند.
به صورت اختیاری، می توانید محتوا را برای نگاشت طبقه بندی در یک فروشگاه ابرداده ذخیره کنید.

در بخش‌های بعدی، هر مرحله را با جزئیات مرور می‌کنیم.

آمازون S3 طبقه بندی محتوای IAB و محتوای وب استخراج شده را ذخیره می کند

ما متن و تصاویر استخراج شده از مجموعه ای از مقالات وب را در یک سطل S3 ذخیره می کنیم. ما همچنین طبقه بندی محتوای IAB را ذخیره می کنیم. به عنوان اولین قدم، ما لایه‌های مختلف را در طبقه‌بندی برای ایجاد اصطلاحات طبقه‌بندی ترکیبی به هم متصل می‌کنیم. این رویکرد به حفظ ساختار سلسله مراتبی تاکسونومی کمک می کند زمانی که ترانسفورماتور جمله BERT جاسازی هایی را برای هر کلمه کلیدی ایجاد می کند. کد زیر را ببینید:

def prepare_taxonomy(taxonomy_df):
    
    """
    Concatenate IAB Tech Lab content taxonomy tiers and prepare keywords for BERT embedding. 
    Use this function as-is if using the IAB Content Taxonomy
    
    Parameters (input):
    ----------
    taxonomy_df : Content taxonomy dataframe

    Returns (output):
    -------
    df_clean : Content taxonomy with tiers in the taxonomy concatenated
    keyword_list: List of concatenated content taxonomy keywords
    ids: List of ids for the content taxonomy keywords
    """
    
    df = taxonomy_df[['Unique ID ','Parent','Name','Tier 1','Tier 2','Tier 3']] 
    df_str = df.astype({"Unique ID ": 'str', "Parent": 'str', "Tier 1": 'str', "Tier 2": 'str', "Tier 3": 'str'})
    df_clean = df_str.replace('nan','')
    
    #create a column that concatenates all tiers for each taxonomy keyword
    df_clean['combined']=df_clean[df_clean.columns[2:6]].apply(lambda x: ' '.join(x.dropna().astype(str)),axis=1)
    
    #turn taxonomy keyords to list of strings a prep for encoding with BERT sentence transformer
    keyword_list=df_clean['combined'].to_list()
                       
    #get list of taxonomy ids
    ids = df_clean['Unique ID '].to_list()                  
            
    return df_clean, keyword_list, ids

taxonomy_df, taxonomy_terms, taxonomy_ids = prepare_taxonomy(read_taxonomy)

نمودار زیر طبقه بندی بافت IAB را با لایه های ترکیبی نشان می دهد.

طبقه بندی محتوای IAB با لایه های به هم پیوسته

Amazon Comprehend مدل سازی موضوع را برای استخراج مضامین رایج از مجموعه مقالات انجام می دهد

با استفاده از API مدل‌سازی موضوع آمازون Comprehend، تمام متون مقاله را با استفاده از مدل تخصیص دیریکله پنهان (LDA) تجزیه و تحلیل می‌کنید. این مدل هر مقاله را در مجموعه بررسی می‌کند و کلمات کلیدی را بر اساس زمینه و فراوانی که در کل مجموعه مقالات ظاهر می‌شوند در یک موضوع گروه‌بندی می‌کند. برای اطمینان از اینکه مدل LDA موضوعات بسیار منسجم را تشخیص می دهد، قبل از فراخوانی Amazon Comprehend API یک مرحله پیش پردازش را انجام می دهید. می توانید استفاده کنید کتابخانه جنسیم CoherenceModel برای تعیین تعداد بهینه موضوعات برای شناسایی از مجموعه مقالات یا فایل های متنی. کد زیر را ببینید:

def compute_coherence_scores(dictionary, corpus, texts, limit, start=2, step=3):
    """
    Compute coherence scores for various number of topics for your topic model. 
    Adjust the parameters below based on your data

    Parameters (input):
    ----------
    dictionary : Gensim dictionary created earlier from input texts
    corpus : Gensim corpus created earlier from input texts
    texts : List of input texts
    limit : The maximum number of topics to test. Amazon Comprehend can detect up to 100 topics in a collection

    Returns (output):
    -------
    models : List of LDA topic models
    coherence_scores : Coherence values corresponding to the LDA model with respective number of topics
    """
    coherence_scores = []
    models = []
    for num_topics in range(start, limit, step):
        model = gensim.models.LdaMulticore(corpus=corpus, num_topics=num_topics, id2word=id2word)
        models.append(model)
        coherencemodel = CoherenceModel(model=model, texts=corpus_words, dictionary=id2word, coherence='c_v')
        coherence_scores.append(coherencemodel.get_coherence())

    return models, coherence_scores

models, coherence_scores = compute_coherence_scores(dictionary=id2word, corpus=corpus_tdf, texts=corpus_words, start=2, limit=100, step=3)

پس از به دست آوردن تعداد بهینه موضوعات، از آن مقدار برای کار مدل سازی موضوع آمازون Comprehend استفاده می کنید. ارائه مقادیر مختلف برای پارامتر NumberOfTopics در آمازون Comprehend عملیات StartTopicsDetectionJob منجر به تغییر در توزیع کلمات کلیدی قرار داده شده در هر گروه موضوعی می شود. یک مقدار بهینه برای پارامتر NumberOfTopics تعداد موضوعاتی را نشان می‌دهد که منسجم‌ترین گروه‌بندی کلمات کلیدی را با ارتباط متنی بالاتر ارائه می‌کنند. می‌توانید خروجی مدل‌سازی موضوع از Amazon Comprehend را در قالب خام آن در Amazon S3 ذخیره کنید.

API برچسب شی آمازون Rekognition برچسب ها را در تصاویر تشخیص می دهد

شما هر تصویر استخراج شده از تمام صفحات وب را با استفاده از عملکرد آمازون Rekognition DetectLabels. برای هر تصویر، این عملیات یک پاسخ JSON با تمام برچسب های شناسایی شده در تصویر، همراه با یک امتیاز اطمینان برای هر یک ارائه می دهد. برای مورد استفاده خود، امتیاز اطمینان 60% یا بالاتر را به‌عنوان آستانه برای استفاده از برچسب‌های شی در مرحله بعد انتخاب می‌کنیم. شما برچسب های اشیاء را در قالب خام آنها در آمازون S3 ذخیره می کنید. کد زیر را ببینید:

"""
Create a function to extract object labels from a given image using Amazon Rekognition
"""

def get_image_labels(image_loc):
    labels = []
    with fs.open(image_loc, "rb") as im:
        response = rekognition_client.detect_labels(Image={"Bytes": im.read()})
    
    for label in response["Labels"]:
        if label["Confidence"] >= 60:   #change to desired confidence score threshold, value between [0,100]:
            object_label = label["Name"]
            labels.append(object_label)
    return labels

CITM محتوا را به یک طبقه بندی استاندارد نگاشت می کند

CITM فراداده های محتوای استخراج شده (موضوعات از متن و برچسب ها از تصاویر) را با کلمات کلیدی در طبقه بندی IAB مقایسه می کند، و سپس ابرداده محتوا را به کلمات کلیدی از طبقه بندی که از نظر معنایی مرتبط هستند نگاشت می کند. برای این کار، CITM سه مرحله زیر را تکمیل می کند:

با استفاده از ترانسفورماتور جمله BERT Hugging Face، جاسازی‌های عصبی را برای طبقه‌بندی محتوا، کلمات کلیدی موضوع و برچسب‌های تصویر ایجاد کنید. ما به مدل ترانسفورماتور جمله از آمازون SageMaker. در این پست از ترجمه-MiniLM-L6-v2 مدلی که کلمات کلیدی و برچسب ها را به یک فضای برداری متراکم 384 بعدی نگاشت می کند.
امتیاز شباهت کسینوس بین کلمات کلیدی طبقه بندی و کلیدواژه های موضوعی را با استفاده از جاسازی آنها محاسبه کنید. همچنین شباهت کسینوس بین کلمات کلیدی طبقه بندی و برچسب های شیء تصویر را محاسبه می کند. ما از شباهت کسینوس به عنوان مکانیزم امتیازدهی برای یافتن تطابق معنایی مشابه بین ابرداده محتوا و طبقه بندی استفاده می کنیم. کد زیر را ببینید:

def compute_similarity(entity_embeddings, entity_terms, taxonomy_embeddings, taxonomy_terms):
    """
    Compute cosine scores between entity embeddings and taxonomy embeddings
    
    Parameters (input):
    ----------
    entity_embeddings : Embeddings for either topic keywords from Amazon Comprehend or image labels from Amazon Rekognition
    entity_terms : Terms for topic keywords or image labels
    taxonomy_embeddings : Embeddings for the content taxonomy
    taxonomy_terms : Terms for the taxonomy keywords

    Returns (output):
    -------
    mapping_df : Dataframe that matches each entity keyword to each taxonomy keyword and their cosine similarity score
    """
    
    #calculate cosine score, pairing each entity embedding with each taxonomy keyword embedding
    cosine_scores = util.pytorch_cos_sim(entity_embeddings, taxonomy_embeddings)
    pairs = []
    for i in range(len(cosine_scores)-1):
        for j in range(0, cosine_scores.shape[1]):
            pairs.append({'index': [i, j], 'score': cosine_scores[i][j]})
    
    #Sort cosine similarity scores in decreasing order
    pairs = sorted(pairs, key=lambda x: x['score'], reverse=True)
    rows = []
    for pair in pairs:
        i, j = pair['index']
        rows.append([entity_terms[i], taxonomy_terms[j], pair['score']])
    
    #move sorted values to a dataframe
    mapping_df= pd.DataFrame(rows, columns=["term", "taxonomy_keyword","cosine_similarity"])
    mapping_df['cosine_similarity'] = mapping_df['cosine_similarity'].astype('float')
    mapping_df= mapping_df.sort_values(by=['term','cosine_similarity'], ascending=False)
    drop_dups= mapping_df.drop_duplicates(subset=['term'], keep='first')
    mapping_df = drop_dups.sort_values(by=['cosine_similarity'], ascending=False).reset_index(drop=True)
    return mapping_df
                                               
#compute cosine_similairty score between topic keywords and content taxonomy keywords using BERT embeddings                                               
text_taxonomy_mapping=compute_similarity(keyword_embeddings, topic_keywords, taxonomy_embeddings, taxonomy_terms)

جفت‌هایی را با امتیاز شباهت که بالاتر از آستانه تعریف‌شده توسط کاربر هستند شناسایی کنید و از آنها برای نگاشت محتوا به کلمات کلیدی مرتبط معنایی در طبقه‌بندی محتوا استفاده کنید. در آزمون ما، همه کلمات کلیدی را از جفت هایی که دارای امتیاز شباهت کسینوس 0.5 یا بالاتر هستند، انتخاب می کنیم. کد زیر را ببینید:

#merge text and image keywords mapped to content taxonomy
rtb_keywords=pd.concat([text_taxonomy_mapping[["term","taxonomy_keyword","cosine_similarity"]],image_taxonomy_mapping]).sort_values(by='cosine_similarity',ascending=False).reset_index(drop=True)

#select keywords with a cosine_similarity score greater than your desired threshold ( the value should be from 0 to 1)
rtb_keywords[rtb_keywords["cosine_similarity"]> 50] # change to desired threshold for cosine score, value between [0,100]:

یک چالش رایج هنگام کار با نمایش زبان در مقیاس اینترنت (مانند این مورد استفاده) این است که شما به مدلی نیاز دارید که بتواند بیشتر محتوا را در نظر بگیرد - در این مورد، کلمات در زبان انگلیسی. ترانسفورماتور BERT Hugging Face با استفاده از مجموعه بزرگی از پست‌های ویکی‌پدیا به زبان انگلیسی برای نشان دادن معنای معنایی کلمات در رابطه با یکدیگر از قبل آموزش داده شده است. شما مدل از پیش آموزش‌دیده‌شده را با استفاده از مجموعه داده‌های خاص خود از کلمات کلیدی موضوع، برچسب‌های تصویر، و کلمات کلیدی طبقه‌بندی به‌خوبی تنظیم می‌کنید. وقتی همه جاسازی ها را در یک فضای ویژگی قرار می دهید و آنها را تجسم می کنید، می بینید که BERT به طور منطقی شباهت معنایی بین اصطلاحات را نشان می دهد.

مثال زیر کلمات کلیدی طبقه بندی محتوای IAB را برای کلاس Automotive که به صورت بردار با استفاده از BERT نشان داده شده اند را به تصویر می کشد. BERT کلمات کلیدی Automotive را از طبقه بندی به اصطلاحات معنایی مشابه نزدیک می کند.

تجسم تعبیه‌های BERT برای کلمات کلیدی طبقه‌بندی

بردارهای ویژگی به CITM اجازه می‌دهند تا برچسب‌های ابرداده و کلمات کلیدی طبقه‌بندی را در همان فضای ویژگی مقایسه کند. در این فضای ویژگی، CITM شباهت کسینوس بین هر بردار ویژگی برای کلمات کلیدی طبقه بندی و هر بردار ویژگی برای کلمات کلیدی موضوعی را محاسبه می کند. در یک مرحله جداگانه، CITM بردارهای ویژگی طبقه بندی و بردارهای ویژگی را برای برچسب های تصویر مقایسه می کند. جفت‌هایی با امتیاز کسینوس نزدیک به 1 از نظر معنایی مشابه هستند. توجه داشته باشید که یک جفت می تواند یک کلمه کلیدی موضوعی و یک کلمه کلیدی طبقه بندی یا یک برچسب شی و یک کلمه کلیدی طبقه بندی باشد.

اسکرین شات زیر جفت‌های مثالی از کلیدواژه‌های موضوعی و کلیدواژه‌های طبقه‌بندی را با استفاده از شباهت کسینوس محاسبه‌شده با تعبیه‌های BERT نشان می‌دهد.

موضوع تا طبقه بندی جفت کلمات کلیدی

برای نگاشت محتوا به کلمات کلیدی طبقه بندی، CITM کلمات کلیدی را از جفت شدن با امتیاز کسینوس انتخاب می کند که یک آستانه تعریف شده توسط کاربر را برآورده می کند. اینها کلمات کلیدی هستند که در پلتفرم های مناقصه بلادرنگ برای انتخاب تبلیغات موجودی صفحه وب استفاده می شوند. نتیجه یک نقشه برداری غنی از محتوای آنلاین به طبقه بندی است.

به صورت اختیاری محتوا را برای نگاشت طبقه بندی در یک فروشگاه ابرداده ذخیره کنید

پس از اینکه اصطلاحات طبقه بندی مشابه متنی را از CITM شناسایی کردید، به راهی برای دسترسی APIهای کم تاخیر به این اطلاعات نیاز دارید. در مناقصه برنامه‌ریزی شده برای تبلیغات، زمان پاسخ‌دهی کم و همزمانی بالا نقش مهمی در کسب درآمد از محتوا دارد. طرح ذخیره داده باید انعطاف پذیر باشد تا در صورت نیاز برای غنی سازی درخواست های پیشنهادی، ابرداده های اضافی را در خود جای دهد. آمازون DynamoDB می تواند با الگوهای دسترسی به داده ها و الزامات عملیاتی چنین سرویسی مطابقت داشته باشد.

نتیجه

در این پست، نحوه ایجاد یک راه حل هدف‌یابی متنی مبتنی بر طبقه‌بندی را با استفاده از نقشه‌بردار طبقه‌بندی هوش زمینه‌ای (CITM) یاد گرفتید. شما یاد گرفتید که چگونه از Amazon Comprehend و Amazon Rekognition برای استخراج ابرداده های گرانول از دارایی های رسانه خود استفاده کنید. سپس، با استفاده از CITM، دارایی‌ها را به یک طبقه‌بندی استاندارد صنعتی نگاشت کردید تا مناقصه تبلیغات برنامه‌ریزی شده برای تبلیغات مرتبط با زمینه را تسهیل کنید. شما می توانید این چارچوب را برای موارد استفاده دیگر که نیاز به استفاده از طبقه بندی استاندارد برای افزایش ارزش دارایی های رسانه ای موجود دارند، اعمال کنید.

برای آزمایش CITM، می توانید به آن دسترسی داشته باشید مخزن کد و از آن با مجموعه داده متنی و تصویری مورد نظر خود استفاده کنید.

توصیه می کنیم در مورد اجزای راه حل معرفی شده در این پست بیشتر بدانید. بیشتر در مورد کشف کنید هوش رسانه ای AWS برای استخراج ابرداده از محتوای رسانه. همچنین، در مورد نحوه استفاده بیشتر بیاموزید مدل‌های صورت در آغوش گرفتن برای NLP با استفاده از Amazon SageMaker.

درباره نویسنده

آرامیده کهنده یک معمار راه حل شریک در AWS در یادگیری ماشین و هوش مصنوعی است. سفر شغلی او حوزه‌های هوش تجاری و تجزیه و تحلیل پیشرفته در صنایع مختلف را در برگرفته است. او تلاش می کند تا شرکای خود را قادر سازد راه حل هایی با خدمات AWS AI/ML بسازند که نیازهای مشتریان را برای نوآوری برآورده کند. او همچنین از ساختن محل تقاطع هوش مصنوعی و عرصه های خلاقانه و گذراندن وقت با خانواده اش لذت می برد.

آنوج گوپتا یک معمار راه حل اصلی است که با شرکت های با رشد بیش از حد در سفر بومی ابر خود کار می کند. او علاقه زیادی به استفاده از فناوری برای حل مشکلات چالش برانگیز دارد و با مشتریان برای ساخت برنامه های کاربردی بسیار توزیع شده و تاخیر کم کار کرده است. او به راه‌حل‌های بدون سرور و یادگیری ماشین منبع باز کمک می‌کند. خارج از کار، او عاشق سفر با خانواده و نوشتن شعر و وبلاگ های فلسفی است.

تمبر زمان: ژوئیه 20، 2022ژوئیه 20، 2022

تمبر زمان: فوریه 28، 2024

با استفاده از AWS Media Intelligence و Hugging Face BERT هدف‌گیری متنی مبتنی بر طبقه‌بندی بسازید.

بازنشر افلاطون

بررسی اجمالی راه حل

هوش رسانه ای AWS

نقشه‌بردار طبقه‌بندی هوش زمینه‌ای

طبقه بندی محتوای IAB (اداره تبلیغات تعاملی).

گردش کار راه حل

آمازون S3 طبقه بندی محتوای IAB و محتوای وب استخراج شده را ذخیره می کند

Amazon Comprehend مدل سازی موضوع را برای استخراج مضامین رایج از مجموعه مقالات انجام می دهد

API برچسب شی آمازون Rekognition برچسب ها را در تصاویر تشخیص می دهد

CITM محتوا را به یک طبقه بندی استاندارد نگاشت می کند

به صورت اختیاری محتوا را برای نگاشت طبقه بندی در یک فروشگاه ابرداده ذخیره کنید

نتیجه

درباره نویسنده

بیشتر از آموزش ماشین AWS

ساخت و آموزش مدل های ML با استفاده از معماری مش داده در AWS: قسمت 2

ویژگی های جدید برای Amazon SageMaker Pipelines و Amazon SageMaker SDK

پروژه های Jira خود را با رابط ابری Amazon Kendra Jira به طور هوشمند جستجو کنید

چگونه OCX Cognition با استفاده از AWS Step Functions و Amazon SageMaker زمان توسعه مدل ML را از هفته ها به روزها و زمان به روز رسانی مدل را از روز به زمان واقعی کاهش داد | خدمات وب آمازون

کانکتور به روز شده ServiceNow (V2) برای Amazon Kendra را اعلام کرد

مقیاس آموزش هوش مصنوعی و استنتاج برای کشف دارو از طریق Amazon EKS و Karpenter | خدمات وب آمازون

AWS و Mistral AI متعهد به دموکراتیک کردن هوش مصنوعی مولد با همکاری تقویت شده هستند | خدمات وب آمازون

درباره‌ ما

جستجوی عمودی و هوش مصنوعی

سکو

همیشه در ارتباط ماندن

حساب