Δημιουργήστε στόχευση με βάση τα συμφραζόμενα με χρήση της νοημοσύνης πολυμέσων AWS και του Hugging Face BERT

Αναδημοσίευση από τον Πλάτωνα

Ακολουθούν: 0

Καθώς τέθηκαν σε ισχύ νέοι κανονισμοί περί απορρήτου δεδομένων, όπως ο GDPR (Γενικός Κανονισμός Προστασίας Δεδομένων, 2017), οι πελάτες δέχονται αυξημένη πίεση για τη δημιουργία εσόδων από περιουσιακά στοιχεία πολυμέσων, ενώ συμμορφώνονται με τους νέους κανόνες. Η δημιουργία εσόδων από μέσα με ταυτόχρονη τήρηση των κανονισμών απορρήτου απαιτεί τη δυνατότητα αυτόματης εξαγωγής αναλυτικών μεταδεδομένων από στοιχεία όπως κείμενο, εικόνες, βίντεο και αρχεία ήχου σε κλίμακα Διαδικτύου. Απαιτεί επίσης έναν επεκτάσιμο τρόπο χαρτογράφησης των περιουσιακών στοιχείων μέσων σε ταξινομήσεις του κλάδου που διευκολύνουν την ανακάλυψη και τη δημιουργία εσόδων από το περιεχόμενο. Αυτή η περίπτωση χρήσης είναι ιδιαίτερα σημαντική για τη διαφημιστική βιομηχανία, καθώς οι κανόνες απορρήτου δεδομένων προκαλούν μετατόπιση από τη στόχευση συμπεριφοράς χρησιμοποιώντας cookie τρίτων.

Μπισκότα τρίτων κατασκευαστών βοηθούν στην ενεργοποίηση εξατομικευμένων διαφημίσεων για χρήστες ιστού και επιτρέπουν στους διαφημιστές να προσεγγίσουν το κοινό για το οποίο προορίζονται. Μια παραδοσιακή λύση για την προβολή διαφημίσεων χωρίς cookie τρίτων είναι η διαφήμιση με βάση τα συμφραζόμενα, η οποία τοποθετεί διαφημίσεις σε ιστοσελίδες με βάση το περιεχόμενο που δημοσιεύεται στις σελίδες. Ωστόσο, η διαφήμιση με βάση τα συμφραζόμενα θέτει την πρόκληση της εξαγωγής πλαισίου από στοιχεία μέσων σε κλίμακα, και ομοίως τη χρήση αυτού του πλαισίου για τη δημιουργία εσόδων από τα στοιχεία.

Σε αυτήν την ανάρτηση, συζητάμε πώς μπορείτε να δημιουργήσετε μια λύση μηχανικής μάθησης (ML) που ονομάζουμε Contextual Intelligence Taxonomy Mapper (CITM) για να εξαγάγετε το πλαίσιο από το ψηφιακό περιεχόμενο και να το αντιστοιχίσετε σε τυπικές ταξινομίες προκειμένου να δημιουργήσετε αξία. Αν και εφαρμόζουμε αυτήν τη λύση στη διαφήμιση με βάση τα συμφραζόμενα, μπορείτε να τη χρησιμοποιήσετε για να επιλύσετε άλλες περιπτώσεις χρήσης. Για παράδειγμα, οι εταιρείες τεχνολογίας εκπαίδευσης μπορούν να το χρησιμοποιήσουν για να χαρτογραφήσουν το περιεχόμενό τους στις ταξινομίες του κλάδου, προκειμένου να διευκολύνουν την προσαρμοστική μάθηση που προσφέρει εξατομικευμένες μαθησιακές εμπειρίες με βάση τις ατομικές ανάγκες των μαθητών.

Επισκόπηση λύσεων

Η λύση αποτελείται από δύο συστατικά: Ευφυΐα μέσων AWS Δυνατότητες (AWS MI) για εξαγωγή περιβάλλοντος από περιεχόμενο σε ιστοσελίδες και CITM για έξυπνη αντιστοίχιση περιεχομένου σε μια ταξινόμηση βιομηχανίας. Μπορείτε να αποκτήσετε πρόσβαση στη λύση αποθετήριο κώδικα για μια λεπτομερή εικόνα του τρόπου με τον οποίο υλοποιούμε τα στοιχεία του.

Ευφυΐα μέσων AWS

Οι δυνατότητες AWS MI επιτρέπουν την αυτόματη εξαγωγή μεταδεδομένων που παρέχει κατανόηση των συμφραζομένων του περιεχομένου μιας ιστοσελίδας. Μπορείτε να συνδυάσετε τεχνικές ML όπως όραση υπολογιστή, ομιλία σε κείμενο και επεξεργασία φυσικής γλώσσας (NLP) για να δημιουργήσετε αυτόματα μεταδεδομένα από κείμενο, βίντεο, εικόνες και αρχεία ήχου για χρήση σε επεξεργασία κατάντη. Υπηρεσίες διαχείρισης τεχνητής νοημοσύνης όπως Αναγνώριση Amazon, Μεταγραφή Amazon, Κατανοήστε το Amazon, να Textract Amazon Κάντε αυτές τις τεχνικές ML προσβάσιμες χρησιμοποιώντας κλήσεις API. Αυτό εξαλείφει τα γενικά έξοδα που απαιτούνται για την εκπαίδευση και την κατασκευή μοντέλων ML από την αρχή. Σε αυτήν την ανάρτηση, βλέπετε πώς η χρήση του Amazon Comprehend και του Amazon Rekognition για ευφυΐα πολυμέσων επιτρέπει την εξαγωγή μεταδεδομένων σε κλίμακα.

Contextual Intelligence Taxonomy Mapper

Αφού εξαγάγετε μεταδεδομένα από περιεχόμενο πολυμέσων, χρειάζεστε έναν τρόπο να αντιστοιχίσετε αυτά τα μεταδεδομένα σε μια ταξινόμηση κλάδου, προκειμένου να διευκολυνθεί η στόχευση με βάση τα συμφραζόμενα. Για να το κάνετε αυτό, δημιουργείτε το Contextual Intelligence Taxonomy Mapper (CITM), το οποίο τροφοδοτείται από έναν μετασχηματιστή προτάσεων BERT από το Hugging Face.

Ο μετασχηματιστής προτάσεων BERT επιτρέπει στο CITM να κατηγοριοποιεί το περιεχόμενο ιστού με λέξεις-κλειδιά που σχετίζονται με τα συμφραζόμενα. Για παράδειγμα, μπορεί να κατηγοριοποιήσει ένα άρθρο στον ιστό σχετικά με την υγιεινή ζωή με λέξεις-κλειδιά από την ταξινόμηση του κλάδου, όπως «Υγιεινή μαγειρική και διατροφή», «Τρέξεμα και τζόκινγκ» και άλλα, με βάση το κείμενο που γράφτηκε και τις εικόνες που χρησιμοποιούνται στο άρθρο. Το CITM παρέχει επίσης τη δυνατότητα επιλογής των αντιστοιχισμένων όρων ταξινόμησης που θα χρησιμοποιηθούν για τη διαδικασία υποβολής προσφορών διαφημίσεων βάσει των κριτηρίων σας.

Το παρακάτω διάγραμμα απεικονίζει την εννοιολογική άποψη της αρχιτεκτονικής με CITM.

Η Ταξινόμηση Περιεχομένου IAB (Interactive Advertising Bureau).

Για αυτήν την ανάρτηση, χρησιμοποιούμε το Ταξινόμηση περιεχομένου του IAB Tech Lab ως η τυπική ταξινόμηση του κλάδου για την περίπτωση χρήσης διαφήμισης με βάση τα συμφραζόμενα. Σχεδιαστικά, η ταξινόμηση IAB βοηθά τους δημιουργούς περιεχομένου να περιγράφουν με μεγαλύτερη ακρίβεια το περιεχόμενό τους και παρέχει μια κοινή γλώσσα για όλα τα μέρη στη διαδικασία διαφήμισης μέσω προγραμματισμού. Η χρήση μιας κοινής ορολογίας είναι ζωτικής σημασίας επειδή η επιλογή των διαφημίσεων για μια ιστοσελίδα που επισκέπτεται ένας χρήστης πρέπει να γίνει μέσα σε χιλιοστά του δευτερολέπτου. Η ταξινόμηση του IAB χρησιμεύει ως ένας τυποποιημένος τρόπος για την κατηγοριοποίηση περιεχομένου από διάφορες πηγές, ενώ είναι επίσης ένα πρωτόκολλο βιομηχανίας που χρησιμοποιούν οι πλατφόρμες υποβολής προσφορών σε πραγματικό χρόνο για την επιλογή διαφημίσεων. Έχει μια ιεραρχική δομή, η οποία παρέχει ευαισθησία των όρων ταξινόμησης και βελτιωμένο πλαίσιο για τους διαφημιστές.

Ροή εργασιών λύσης

Το παρακάτω διάγραμμα απεικονίζει τη ροή εργασιών επίλυσης.

Υπερβολική λύση CITM

Τα βήματα είναι τα εξής:

Απλή υπηρεσία αποθήκευσης Amazon (Amazon S3) αποθηκεύει την ταξινόμηση περιεχομένου IAB και το εξαγόμενο περιεχόμενο ιστού.
Το Amazon Comprehend εκτελεί μοντελοποίηση θεμάτων για να εξάγει κοινά θέματα από τη συλλογή άρθρων.
Η Αναγνώριση του Αμαζονίου API ετικέτας αντικειμένου ανιχνεύει ετικέτες σε εικόνες.
Το CITM αντιστοιχίζει το περιεχόμενο σε μια τυπική ταξινόμηση.
Προαιρετικά, μπορείτε να αποθηκεύσετε περιεχόμενο σε χαρτογράφηση ταξινόμησης σε ένα κατάστημα μεταδεδομένων.

Στις επόμενες ενότητες, περιγράφουμε κάθε βήμα λεπτομερώς.

Το Amazon S3 αποθηκεύει την ταξινόμηση περιεχομένου IAB και το εξαγόμενο περιεχόμενο ιστού

Αποθηκεύουμε εξαγόμενο κείμενο και εικόνες από μια συλλογή άρθρων ιστού σε έναν κάδο S3. Αποθηκεύουμε επίσης την ταξινόμηση περιεχομένου IAB. Ως πρώτο βήμα, συνενώνουμε διαφορετικές βαθμίδες στην ταξινόμηση για να δημιουργήσουμε συνδυασμένους όρους ταξινόμησης. Αυτή η προσέγγιση βοηθά στη διατήρηση της ιεραρχικής δομής της ταξινόμησης όταν ο μετασχηματιστής προτάσεων BERT δημιουργεί ενσωματώσεις για κάθε λέξη-κλειδί. Δείτε τον παρακάτω κώδικα:

def prepare_taxonomy(taxonomy_df):
    
    """
    Concatenate IAB Tech Lab content taxonomy tiers and prepare keywords for BERT embedding. 
    Use this function as-is if using the IAB Content Taxonomy
    
    Parameters (input):
    ----------
    taxonomy_df : Content taxonomy dataframe

    Returns (output):
    -------
    df_clean : Content taxonomy with tiers in the taxonomy concatenated
    keyword_list: List of concatenated content taxonomy keywords
    ids: List of ids for the content taxonomy keywords
    """
    
    df = taxonomy_df[['Unique ID ','Parent','Name','Tier 1','Tier 2','Tier 3']] 
    df_str = df.astype({"Unique ID ": 'str', "Parent": 'str', "Tier 1": 'str', "Tier 2": 'str', "Tier 3": 'str'})
    df_clean = df_str.replace('nan','')
    
    #create a column that concatenates all tiers for each taxonomy keyword
    df_clean['combined']=df_clean[df_clean.columns[2:6]].apply(lambda x: ' '.join(x.dropna().astype(str)),axis=1)
    
    #turn taxonomy keyords to list of strings a prep for encoding with BERT sentence transformer
    keyword_list=df_clean['combined'].to_list()
                       
    #get list of taxonomy ids
    ids = df_clean['Unique ID '].to_list()                  
            
    return df_clean, keyword_list, ids

taxonomy_df, taxonomy_terms, taxonomy_ids = prepare_taxonomy(read_taxonomy)

Το παρακάτω διάγραμμα απεικονίζει την ταξινόμηση του πλαισίου IAB με συνδυασμένες βαθμίδες.

Ταξινόμηση Περιεχομένου IAB με συνδυασμένες βαθμίδες

Το Amazon Comprehend εκτελεί μοντελοποίηση θεμάτων για να εξάγει κοινά θέματα από τη συλλογή άρθρων

Με το API μοντελοποίησης θεμάτων Amazon Comprehend, αναλύετε όλα τα κείμενα των άρθρων χρησιμοποιώντας το μοντέλο Latent Dirichlet Allocation (LDA). Το μοντέλο εξετάζει κάθε άρθρο στο σώμα και ομαδοποιεί τις λέξεις-κλειδιά στο ίδιο θέμα με βάση το πλαίσιο και τη συχνότητα στην οποία εμφανίζονται σε ολόκληρη τη συλλογή των άρθρων. Για να διασφαλίσετε ότι το μοντέλο LDA εντοπίζει θέματα με υψηλή συνοχή, εκτελείτε ένα βήμα προεπεξεργασίας πριν καλέσετε το Amazon Comprehend API. Μπορείτε να χρησιμοποιήσετε το της βιβλιοθήκης gensim CoherenceModel για τον καθορισμό του βέλτιστου αριθμού θεμάτων προς ανίχνευση από τη συλλογή άρθρων ή αρχείων κειμένου. Δείτε τον παρακάτω κώδικα:

def compute_coherence_scores(dictionary, corpus, texts, limit, start=2, step=3):
    """
    Compute coherence scores for various number of topics for your topic model. 
    Adjust the parameters below based on your data

    Parameters (input):
    ----------
    dictionary : Gensim dictionary created earlier from input texts
    corpus : Gensim corpus created earlier from input texts
    texts : List of input texts
    limit : The maximum number of topics to test. Amazon Comprehend can detect up to 100 topics in a collection

    Returns (output):
    -------
    models : List of LDA topic models
    coherence_scores : Coherence values corresponding to the LDA model with respective number of topics
    """
    coherence_scores = []
    models = []
    for num_topics in range(start, limit, step):
        model = gensim.models.LdaMulticore(corpus=corpus, num_topics=num_topics, id2word=id2word)
        models.append(model)
        coherencemodel = CoherenceModel(model=model, texts=corpus_words, dictionary=id2word, coherence='c_v')
        coherence_scores.append(coherencemodel.get_coherence())

    return models, coherence_scores

models, coherence_scores = compute_coherence_scores(dictionary=id2word, corpus=corpus_tdf, texts=corpus_words, start=2, limit=100, step=3)

Αφού λάβετε τον βέλτιστο αριθμό θεμάτων, χρησιμοποιείτε αυτήν την τιμή για την εργασία μοντελοποίησης θεμάτων Amazon Comprehend. Παροχή διαφορετικών τιμών για την παράμετρο NumberOfTopics στο Amazon Comprehend Λειτουργία StartTopicsDetectionJob οδηγεί σε μια παραλλαγή στην κατανομή των λέξεων-κλειδιών που τοποθετούνται σε κάθε θεματική ομάδα. Μια βελτιστοποιημένη τιμή για την παράμετρο NumberOfTopics αντιπροσωπεύει τον αριθμό των θεμάτων που παρέχουν την πιο συνεκτική ομαδοποίηση λέξεων-κλειδιών με υψηλότερη συνάφεια με τα συμφραζόμενα. Μπορείτε να αποθηκεύσετε την έξοδο μοντελοποίησης θέματος από το Amazon Comprehend σε ακατέργαστη μορφή στο Amazon S3.

Το API της ετικέτας αντικειμένου Amazon Rekognition ανιχνεύει ετικέτες σε εικόνες

Αναλύετε κάθε εικόνα που εξάγεται από όλες τις ιστοσελίδες χρησιμοποιώντας το Λειτουργία Amazon Rekognition DetectLabels. Για κάθε εικόνα, η λειτουργία παρέχει μια απόκριση JSON με όλες τις ετικέτες που ανιχνεύονται μέσα στην εικόνα, σε συνδυασμό με μια βαθμολογία εμπιστοσύνης για καθεμία. Για την περίπτωση χρήσης μας, επιλέγουμε αυθαίρετα μια βαθμολογία εμπιστοσύνης 60% ή υψηλότερη ως το όριο για τις ετικέτες αντικειμένων που θα χρησιμοποιηθούν στο επόμενο βήμα. Αποθηκεύετε ετικέτες αντικειμένων στην ακατέργαστη μορφή τους στο Amazon S3. Δείτε τον παρακάτω κώδικα:

"""
Create a function to extract object labels from a given image using Amazon Rekognition
"""

def get_image_labels(image_loc):
    labels = []
    with fs.open(image_loc, "rb") as im:
        response = rekognition_client.detect_labels(Image={"Bytes": im.read()})
    
    for label in response["Labels"]:
        if label["Confidence"] >= 60:   #change to desired confidence score threshold, value between [0,100]:
            object_label = label["Name"]
            labels.append(object_label)
    return labels

Το CITM αντιστοιχίζει το περιεχόμενο σε μια τυπική ταξινόμηση

Το CITM συγκρίνει τα εξαγόμενα μεταδεδομένα περιεχομένου (θέματα από κείμενο και ετικέτες από εικόνες) με λέξεις-κλειδιά στην ταξινόμηση του IAB και, στη συνέχεια, αντιστοιχίζει τα μεταδεδομένα περιεχομένου με λέξεις-κλειδιά από την ταξινόμηση που σχετίζονται σημασιολογικά. Για αυτήν την εργασία, το CITM ολοκληρώνει τα ακόλουθα τρία βήματα:

Δημιουργήστε νευρικές ενσωματώσεις για την ταξινόμηση περιεχομένου, λέξεις-κλειδιά θέματος και ετικέτες εικόνων χρησιμοποιώντας τον μετασχηματιστή προτάσεων BERT του Hugging Face. Έχουμε πρόσβαση στο μοντέλο μετασχηματιστή προτάσεων από Amazon Sage Maker. Σε αυτήν την ανάρτηση, χρησιμοποιούμε το παράφραση-MiniLM-L6-v2 μοντέλο, το οποίο αντιστοιχίζει λέξεις-κλειδιά και ετικέτες σε έναν πυκνό διανυσματικό χώρο 384 διαστάσεων.
Υπολογίστε τη βαθμολογία ομοιότητας συνημιτόνου μεταξύ λέξεων-κλειδιών ταξινόμησης και λέξεων-κλειδιών θέματος χρησιμοποιώντας τις ενσωματώσεις τους. Υπολογίζει επίσης την ομοιότητα συνημιτόνου μεταξύ των λέξεων-κλειδιών ταξινόμησης και των ετικετών αντικειμένων εικόνας. Χρησιμοποιούμε την ομοιότητα συνημιτόνου ως μηχανισμό βαθμολόγησης για να βρούμε σημασιολογικά παρόμοιες αντιστοιχίσεις μεταξύ των μεταδεδομένων περιεχομένου και της ταξινόμησης. Δείτε τον παρακάτω κώδικα:

def compute_similarity(entity_embeddings, entity_terms, taxonomy_embeddings, taxonomy_terms):
    """
    Compute cosine scores between entity embeddings and taxonomy embeddings
    
    Parameters (input):
    ----------
    entity_embeddings : Embeddings for either topic keywords from Amazon Comprehend or image labels from Amazon Rekognition
    entity_terms : Terms for topic keywords or image labels
    taxonomy_embeddings : Embeddings for the content taxonomy
    taxonomy_terms : Terms for the taxonomy keywords

    Returns (output):
    -------
    mapping_df : Dataframe that matches each entity keyword to each taxonomy keyword and their cosine similarity score
    """
    
    #calculate cosine score, pairing each entity embedding with each taxonomy keyword embedding
    cosine_scores = util.pytorch_cos_sim(entity_embeddings, taxonomy_embeddings)
    pairs = []
    for i in range(len(cosine_scores)-1):
        for j in range(0, cosine_scores.shape[1]):
            pairs.append({'index': [i, j], 'score': cosine_scores[i][j]})
    
    #Sort cosine similarity scores in decreasing order
    pairs = sorted(pairs, key=lambda x: x['score'], reverse=True)
    rows = []
    for pair in pairs:
        i, j = pair['index']
        rows.append([entity_terms[i], taxonomy_terms[j], pair['score']])
    
    #move sorted values to a dataframe
    mapping_df= pd.DataFrame(rows, columns=["term", "taxonomy_keyword","cosine_similarity"])
    mapping_df['cosine_similarity'] = mapping_df['cosine_similarity'].astype('float')
    mapping_df= mapping_df.sort_values(by=['term','cosine_similarity'], ascending=False)
    drop_dups= mapping_df.drop_duplicates(subset=['term'], keep='first')
    mapping_df = drop_dups.sort_values(by=['cosine_similarity'], ascending=False).reset_index(drop=True)
    return mapping_df
                                               
#compute cosine_similairty score between topic keywords and content taxonomy keywords using BERT embeddings                                               
text_taxonomy_mapping=compute_similarity(keyword_embeddings, topic_keywords, taxonomy_embeddings, taxonomy_terms)

Προσδιορίστε ζεύγη με βαθμολογίες ομοιότητας που είναι πάνω από ένα όριο που καθορίζεται από τον χρήστη και χρησιμοποιήστε τα για να αντιστοιχίσετε το περιεχόμενο σε σημασιολογικά σχετικές λέξεις-κλειδιά στην ταξινόμηση περιεχομένου. Στη δοκιμή μας, επιλέγουμε όλες τις λέξεις-κλειδιά από ζεύγη που έχουν βαθμολογία ομοιότητας συνημιτόνου 0.5 ή υψηλότερη. Δείτε τον παρακάτω κώδικα:

#merge text and image keywords mapped to content taxonomy
rtb_keywords=pd.concat([text_taxonomy_mapping[["term","taxonomy_keyword","cosine_similarity"]],image_taxonomy_mapping]).sort_values(by='cosine_similarity',ascending=False).reset_index(drop=True)

#select keywords with a cosine_similarity score greater than your desired threshold ( the value should be from 0 to 1)
rtb_keywords[rtb_keywords["cosine_similarity"]> 50] # change to desired threshold for cosine score, value between [0,100]:

Μια κοινή πρόκληση όταν εργάζεστε με αναπαράσταση γλώσσας σε κλίμακα Διαδικτύου (όπως σε αυτήν την περίπτωση χρήσης) είναι ότι χρειάζεστε ένα μοντέλο που να ταιριάζει στο μεγαλύτερο μέρος του περιεχομένου—σε αυτήν την περίπτωση, λέξεις στην αγγλική γλώσσα. Ο μετασχηματιστής BERT του Hugging Face έχει προεκπαιδευτεί χρησιμοποιώντας ένα μεγάλο σύνολο αναρτήσεων της Wikipedia στην αγγλική γλώσσα για να αναπαραστήσει τη σημασιολογική σημασία των λέξεων σε σχέση μεταξύ τους. Ρυθμίζετε με ακρίβεια το προεκπαιδευμένο μοντέλο χρησιμοποιώντας το συγκεκριμένο σύνολο λέξεων-κλειδιών θέματος, ετικετών εικόνων και λέξεων-κλειδιών ταξινόμησης. Όταν τοποθετείτε όλες τις ενσωματώσεις στον ίδιο χώρο χαρακτηριστικών και τις οπτικοποιείτε, βλέπετε ότι το BERT αντιπροσωπεύει λογικά τη σημασιολογική ομοιότητα μεταξύ των όρων.

Το ακόλουθο παράδειγμα απεικονίζει λέξεις-κλειδιά ταξινόμησης περιεχομένου IAB για την κατηγορία Automotive που αντιπροσωπεύονται ως διανύσματα χρησιμοποιώντας BERT. Το BERT τοποθετεί τις λέξεις-κλειδιά Automotive από την ταξινόμηση κοντά σε σημασιολογικά παρόμοιους όρους.

Οπτικοποίηση ενσωματώσεων BERT για λέξεις-κλειδιά ταξινόμησης

Τα διανύσματα χαρακτηριστικών επιτρέπουν στο CITM να συγκρίνει τις ετικέτες μεταδεδομένων και τις λέξεις-κλειδιά ταξινόμησης στον ίδιο χώρο χαρακτηριστικών. Σε αυτόν τον χώρο χαρακτηριστικών, το CITM υπολογίζει την ομοιότητα συνημιτόνου μεταξύ κάθε διανύσματος χαρακτηριστικών για λέξεις-κλειδιά ταξινόμησης και κάθε διανύσματος χαρακτηριστικών για λέξεις-κλειδιά θέματος. Σε ένα ξεχωριστό βήμα, το CITM συγκρίνει διανύσματα χαρακτηριστικών ταξινόμησης και διανύσματα χαρακτηριστικών για ετικέτες εικόνας. Τα ζεύγη με συνημίτονο βαθμολογίες πλησιέστερα στο 1 προσδιορίζονται ως σημασιολογικά παρόμοια. Σημειώστε ότι μια σύζευξη μπορεί να είναι είτε μια λέξη-κλειδί θέματος και μια λέξη-κλειδί ταξινόμησης, είτε μια ετικέτα αντικειμένου και μια λέξη-κλειδί ταξινόμησης.

Το ακόλουθο στιγμιότυπο οθόνης δείχνει παραδείγματα ζευγών θεματικών λέξεων-κλειδιών και λέξεων-κλειδιών ταξινόμησης χρησιμοποιώντας ομοιότητα συνημιτόνου που υπολογίζεται με ενσωματώσεις BERT.

Ζεύγη λέξεων-κλειδιών θέματος στην ταξινόμηση

Για να αντιστοιχίσει το περιεχόμενο σε λέξεις-κλειδιά ταξινόμησης, το CITM επιλέγει λέξεις-κλειδιά από ζεύξεις με συνημίτονο που πληρούν ένα όριο που καθορίζεται από τον χρήστη. Αυτές είναι οι λέξεις-κλειδιά που θα χρησιμοποιηθούν σε πλατφόρμες υποβολής προσφορών σε πραγματικό χρόνο για την επιλογή διαφημίσεων για το απόθεμα της ιστοσελίδας. Το αποτέλεσμα είναι μια πλούσια αντιστοίχιση διαδικτυακού περιεχομένου στην ταξινόμηση.

Προαιρετικά αποθηκεύστε περιεχόμενο σε χαρτογράφηση ταξινόμησης σε χώρο αποθήκευσης μεταδεδομένων

Αφού προσδιορίσετε παρόμοιους όρους ταξινόμησης με βάση τα συμφραζόμενα από το CITM, χρειάζεστε έναν τρόπο πρόσβασης σε αυτές τις πληροφορίες από τα API χαμηλής καθυστέρησης. Στην υποβολή προσφορών μέσω προγραμματισμού για διαφημίσεις, ο χαμηλός χρόνος απόκρισης και η υψηλή συγχρονικότητα παίζουν σημαντικό ρόλο στη δημιουργία εσόδων από το περιεχόμενο. Το σχήμα για το χώρο αποθήκευσης δεδομένων πρέπει να είναι ευέλικτο για να φιλοξενεί πρόσθετα μεταδεδομένα όταν χρειάζεται για τον εμπλουτισμό των αιτημάτων προσφοράς. Amazon DynamoDB μπορεί να ταιριάζει με τα πρότυπα πρόσβασης δεδομένων και τις λειτουργικές απαιτήσεις για μια τέτοια υπηρεσία.

Συμπέρασμα

Σε αυτήν την ανάρτηση, μάθατε πώς να δημιουργείτε μια λύση στόχευσης με βάση τα συμφραζόμενα με βάση την ταξινόμηση χρησιμοποιώντας το Contextual Intelligence Taxonomy Mapper (CITM). Μάθατε πώς να χρησιμοποιείτε το Amazon Comprehend και το Amazon Rekognition για να εξαγάγετε αναλυτικά μεταδεδομένα από τα στοιχεία πολυμέσων σας. Στη συνέχεια, χρησιμοποιώντας το CITM αντιστοιχίσατε τα στοιχεία σε μια τυπική ταξινόμηση του κλάδου για να διευκολύνετε την υποβολή προσφορών διαφημίσεων μέσω προγραμματισμού για διαφημίσεις που σχετίζονται με τα συμφραζόμενα. Μπορείτε να εφαρμόσετε αυτό το πλαίσιο σε άλλες περιπτώσεις χρήσης που απαιτούν τη χρήση μιας τυπικής ταξινόμησης για τη βελτίωση της αξίας των υπαρχόντων στοιχείων μέσων.

Για να πειραματιστείτε με το CITM, μπορείτε να αποκτήσετε πρόσβαση σε αυτό αποθετήριο κώδικα και χρησιμοποιήστε το με ένα σύνολο δεδομένων κειμένου και εικόνας της επιλογής σας.

Συνιστούμε να μάθετε περισσότερα σχετικά με τα στοιχεία λύσης που παρουσιάζονται σε αυτήν την ανάρτηση. Ανακαλύψτε περισσότερα για Ευφυΐα μέσων AWS για εξαγωγή μεταδεδομένων από περιεχόμενο πολυμέσων. Επίσης, μάθετε περισσότερα σχετικά με τον τρόπο χρήσης Hugging Face μοντέλα για NLP χρησιμοποιώντας το Amazon SageMaker.

Σχετικά με τους Συγγραφείς

Αραμίδη Κεχιντέ είναι Sr. Partner Solution Architect στο AWS in Machine Learning and AI. Το ταξίδι της σταδιοδρομίας της καλύπτει τους τομείς της Business Intelligence και του Advanced Analytics σε πολλούς κλάδους. Εργάζεται για να επιτρέψει στους συνεργάτες να δημιουργήσουν λύσεις με υπηρεσίες AWS AI/ML που εξυπηρετούν τις ανάγκες των πελατών για καινοτομία. Της αρέσει επίσης να χτίζει τη διασταύρωση της τεχνητής νοημοσύνης και τις δημιουργικές αρένες και να περνά χρόνο με την οικογένειά της.

Anuj Gupta είναι ένας αρχιτέκτονας Principal Solutions που συνεργάζεται με εταιρείες υπερ-ανάπτυξης στο ταξίδι τους στο cloud. Είναι παθιασμένος με τη χρήση της τεχνολογίας για την επίλυση δύσκολων προβλημάτων και έχει συνεργαστεί με πελάτες για τη δημιουργία εφαρμογών υψηλής διανομής και χαμηλής καθυστέρησης. Συμβάλλει σε λύσεις ανοιχτού κώδικα χωρίς διακομιστή και μηχανικής μάθησης. Εκτός δουλειάς, του αρέσει να ταξιδεύει με την οικογένειά του και να γράφει ποιήματα και φιλοσοφικά ιστολόγια.

Σφραγίδα ώρας: Ιούλιος 20, 2022Ιούλιος 20, 2022

Σφραγίδα ώρας: 2 Νοεμβρίου 2022

Δημιουργήστε στόχευση με βάση την ταξινόμηση με βάση τα συμφραζόμενα χρησιμοποιώντας το AWS Media Intelligence και το Hugging Face BERT

Αναδημοσίευση από τον Πλάτωνα

Επισκόπηση λύσεων

Ευφυΐα μέσων AWS

Contextual Intelligence Taxonomy Mapper

Η Ταξινόμηση Περιεχομένου IAB (Interactive Advertising Bureau).

Ροή εργασιών λύσης

Το Amazon S3 αποθηκεύει την ταξινόμηση περιεχομένου IAB και το εξαγόμενο περιεχόμενο ιστού

Το Amazon Comprehend εκτελεί μοντελοποίηση θεμάτων για να εξάγει κοινά θέματα από τη συλλογή άρθρων

Το API της ετικέτας αντικειμένου Amazon Rekognition ανιχνεύει ετικέτες σε εικόνες

Το CITM αντιστοιχίζει το περιεχόμενο σε μια τυπική ταξινόμηση

Προαιρετικά αποθηκεύστε περιεχόμενο σε χαρτογράφηση ταξινόμησης σε χώρο αποθήκευσης μεταδεδομένων

Συμπέρασμα

Σχετικά με τους Συγγραφείς

Περισσότερα από Μηχανική εκμάθηση AWS

Η Alida αποκτά βαθύτερη κατανόηση των σχολίων των πελατών με το Amazon Bedrock | Υπηρεσίες Ιστού της Amazon

Δημιουργήστε μια ροή εργασιών μηχανικής εκμάθησης διαχείρισης κινδύνου στο Amazon SageMaker χωρίς κώδικα

Το Bongo Learn παρέχει σχόλια σε πραγματικό χρόνο για τη βελτίωση των μαθησιακών αποτελεσμάτων με το Amazon Transcribe

Εκκινήστε τα πειράματα Amazon SageMaker Autopilot απευθείας από τους αγωγούς Amazon SageMaker για να αυτοματοποιήσετε εύκολα τις ροές εργασίας MLOps

Βελτιώστε την εξαγωγή δεδομένων και την επεξεργασία εγγράφων με το Amazon Textract

Σχετικά με μας

Κάθετη αναζήτηση & Ai

Πλατφόρμα

Μείνετε συνδεδεμένοι

Λογαριασμός