Textklassifizierung für Online-Gespräche mit maschinellem Lernen auf AWS

Neuauflage von Plato

Verfolger: 0

Online-Gespräche sind im modernen Leben allgegenwärtig und umfassen Branchen von Videospielen bis hin zur Telekommunikation. Dies hat zu einem exponentiellen Wachstum der Menge an Online-Gesprächsdaten geführt, was zur Entwicklung modernster Systeme zur Verarbeitung natürlicher Sprache (NLP) wie Chatbots und Modellen zur Erzeugung natürlicher Sprache (NLG) beigetragen hat. Im Laufe der Zeit haben sich auch verschiedene NLP-Techniken zur Textanalyse entwickelt. Dies erfordert die Anforderung eines vollständig verwalteten Dienstes, der mithilfe von API-Aufrufen in Anwendungen integriert werden kann, ohne dass umfangreiches Fachwissen im Bereich maschinelles Lernen (ML) erforderlich ist. AWS bietet vortrainierte AWS-KI-Services wie z Amazon verstehen, das NLP-Anwendungsfälle wie Klassifizierung, Textzusammenfassung, Entitätserkennung und mehr effektiv handhaben kann, um Erkenntnisse aus Text zu gewinnen.

Darüber hinaus haben Online-Gespräche zu einem weit verbreiteten Phänomen des nicht-traditionellen Sprachgebrauchs geführt. Herkömmliche NLP-Techniken schneiden bei diesen Textdaten aufgrund der sich ständig weiterentwickelnden und domänenspezifischen Vokabeln, die auf verschiedenen Plattformen vorhanden sind, sowie der erheblichen lexikalischen Abweichungen von Wörtern vom richtigen Englisch, entweder versehentlich oder absichtlich als Form eines gegnerischen Angriffs, oft schlecht ab .

In diesem Beitrag beschreiben wir mehrere ML-Ansätze für die Textklassifizierung von Online-Gesprächen mit Tools und Diensten, die auf AWS verfügbar sind.

Voraussetzungen:

Bevor Sie tief in diesen Anwendungsfall eintauchen, erfüllen Sie bitte die folgenden Voraussetzungen:

Richten Sie ein AWS-Konto und Erstellen Sie einen IAM-Benutzer.
Richten Sie die AWS-CLI und AWS-SDKs.
(Optional) Richten Sie Ihre ein Cloud9 IDE-Umgebung.

Datensatz

Für diesen Beitrag verwenden wir die Jigsaw Unbeabsichtigte Verzerrung im Datensatz zur Toxizitätsklassifizierung, ein Maßstab für das spezifische Problem der Toxizitätseinstufung in Online-Gesprächen. Der Datensatz enthält Toxizitätsetiketten sowie mehrere Untergruppenattribute wie obszön, Identitätsangriff, Beleidigung, Bedrohung und sexuell eindeutig. Beschriftungen werden als Bruchwerte bereitgestellt, die den Anteil menschlicher Annotatoren darstellen, die glaubten, dass das Attribut auf einen bestimmten Textabschnitt angewendet wird, was selten einstimmig ist. Zum Generieren von binären Labels (z. B. giftig oder nicht toxisch) wird ein Schwellenwert von 0.5 auf die Teilwerte angewendet, und Kommentare mit Werten über dem Schwellenwert werden als positive Klasse für dieses Label behandelt.

Teilworteinbettung und RNNs

Für unseren ersten Modellierungsansatz verwenden wir eine Kombination aus Teilworteinbettung und rekurrenten neuronalen Netzen (RNNs), um Textklassifizierungsmodelle zu trainieren. Teilworteinbettungen wurden eingeführt von Bojanowskiet al. im Jahr 2017 als eine Verbesserung gegenüber früheren Einbettungsverfahren auf Wortebene. Herkömmliche Word2Vec-Skip-Gram-Modelle werden darauf trainiert, eine statische Vektordarstellung eines Zielworts zu lernen, die den Kontext dieses Worts optimal vorhersagt. Teilwortmodelle hingegen stellen jedes Zielwort als eine Tasche von Zeichen-N-Grammen dar, aus denen das Wort besteht, wobei ein N-Gramm aus einem Satz von n aufeinanderfolgenden Zeichen besteht. Diese Methode ermöglicht es dem Einbettungsmodell, die zugrunde liegende Morphologie verwandter Wörter im Korpus besser darzustellen, sowie die Berechnung von Einbettungen für neuartige Wörter außerhalb des Vokabulars (OOV). Dies ist besonders wichtig im Zusammenhang mit Online-Gesprächen, einem Problembereich, in dem Benutzer häufig Wörter falsch schreiben (manchmal absichtlich, um der Erkennung zu entgehen) und außerdem ein einzigartiges, sich ständig weiterentwickelndes Vokabular verwenden, das möglicherweise nicht von einem allgemeinen Trainingskorpus erfasst wird.

Amazon Sage Maker erleichtert das Trainieren und Optimieren eines unbeaufsichtigten Subword-Einbettungsmodells auf Ihrem eigenen Korpus domänenspezifischer Textdaten mit dem integrierten BlazingText-Algorithmus. Wir können auch vorhandene Allzweckmodelle herunterladen, die mit großen Datensätzen von Online-Text trainiert wurden, wie z. B. die folgenden Englischsprachige Modelle sind direkt bei fastText erhältlich. Führen Sie in Ihrer SageMaker-Notebook-Instance einfach Folgendes aus, um ein vortrainiertes fastText-Modell herunterzuladen:

!wget -O vectors.zip https://dl.fbaipublicfiles.com/fasttext/vectors-english/crawl-300d-2M-subword.zip

Unabhängig davon, ob Sie Ihre eigenen Einbettungen mit BlazingText trainiert oder ein vortrainiertes Modell heruntergeladen haben, das Ergebnis ist eine gezippte Modellbinärdatei, die Sie mit der Gensim-Bibliothek verwenden können, um ein bestimmtes Zielwort als Vektor basierend auf seinen Teilwörtern einzubetten:

# Imports
import os
from zipfile import ZipFile
from gensim.models.fasttext import load_facebook_vectors # Unzip the model binary into 'dir_path'
with ZipFile('vectors.zip', 'r') as zipObj: zipObj.extractall(path=<dir_path_name>) # Load embedding model into memory
embed_model = load_facebook_vectors(os.path.join(<dir_path_name>, 'vectors.bin')) # Compute embedding vector for 'word'
word_embedding = embed_model[word]

Nachdem wir ein bestimmtes Textsegment vorverarbeitet haben, können wir diesen Ansatz verwenden, um eine Vektordarstellung für jedes der konstituierenden Wörter (durch Leerzeichen getrennt) zu generieren. Anschließend verwenden wir SageMaker und ein Deep-Learning-Framework wie PyTorch, um ein angepasstes RNN mit einem binären oder Multilabel-Klassifizierungsziel zu trainieren, um vorherzusagen, ob der Text toxisch ist oder nicht, und den spezifischen Subtyp der Toxizität basierend auf gekennzeichneten Trainingsbeispielen.

Um Ihren vorverarbeiteten Text hochzuladen Amazon Simple Storage-Service (Amazon S3) verwenden Sie den folgenden Code:

import boto3
s3 = boto3.client('s3') bucket = <bucket_name>
prefix = <prefix_name> s3.upload_file('train.pkl', bucket, os.path.join(prefix, 'train/train.pkl'))
s3.upload_file('valid.pkl', bucket, os.path.join(prefix, 'valid/valid.pkl'))
s3.upload_file('test.pkl', bucket, os.path.join(prefix, 'test/test.pkl'))

Um ein skalierbares Multi-GPU-Modelltraining mit SageMaker zu initiieren, geben Sie den folgenden Code ein:

import sagemaker
sess = sagemaker.Session()
role = iam.get_role(RoleName= ‘AmazonSageMakerFullAccess’)['Role']['Arn'] from sagemaker.pytorch import PyTorch # hyperparameters, which are passed into the training job
hyperparameters = { 'epochs': 20, # Maximum number of epochs to train model 'train-batch-size': 128, # Training batch size (No. sentences) 'eval-batch-size': 1024, # Evaluation batch size (No. sentences) 'embed-size': 300, # Vector dimension of word embeddings (Must match embedding model) 'lstm-hidden-size': 200, # Number of neurons in LSTM hidden layer 'lstm-num-layers': 2, # Number of stacked LSTM layers 'proj-size': 100, # Number of neurons in intermediate projection layer 'num-targets': len(<list_of_label_names>), # Number of targets for classification 'class-weight': ' '.join([str(c) for c in <list_of_weights_per_class>]), # Weight to apply to each target during training 'total-length':<max_number_of_words_per_sentence>, 'metric-for-best-model': 'ap_score_weighted', # Metric on which to select the best model
} # create the Estimator
pytorch_estimator = PyTorch( entry_point='train.py', source_dir=<source_dir_path>, instance_type=<train_instance_type>, volume_size=200, instance_count=1, role=role, framework_version='1.6.0’, py_version='py36', hyperparameters=hyperparameters, metric_definitions=[ {'Name': 'validation:accuracy', 'Regex': 'eval_accuracy = (.*?);'}, {'Name': 'validation:f1-micro', 'Regex': 'eval_f1_score_micro = (.*?);'}, {'Name': 'validation:f1-macro', 'Regex': 'eval_f1_score_macro = (.*?);'}, {'Name': 'validation:f1-weighted', 'Regex': 'eval_f1_score_weighted = (.*?);'}, {'Name': 'validation:ap-micro', 'Regex': 'eval_ap_score_micro = (.*?);'}, {'Name': 'validation:ap-macro', 'Regex': 'eval_ap_score_macro = (.*?);'}, {'Name': 'validation:ap-weighted', 'Regex': 'eval_ap_score_weighted = (.*?);'}, {'Name': 'validation:auc-micro', 'Regex': 'eval_auc_score_micro = (.*?);'}, {'Name': 'validation:auc-macro', 'Regex': 'eval_auc_score_macro = (.*?);'}, {'Name': 'validation:auc-weighted', 'Regex': 'eval_auc_score_weighted = (.*?);'} ]
) pytorch_estimator.fit( { 'train': 's3://<bucket_name>/<prefix_name>/train', 'valid': 's3://<bucket_name>/<prefix_name>/valid', 'test': 's3://<bucket_name>/<prefix_name>/test' }
)

Innerhalb definieren wir ein PyTorch-Dataset, das von verwendet wird train.py um die Textdaten für das Training und die Evaluierung des Modells aufzubereiten:

def pad_matrix(m: torch.Tensor, max_len: int =100)-> tuple[int, torch.Tensor] : """Pads an embedding matrix to a specified maximum length.""" if m.ndim == 1: m = m.reshape(1, -1) mask = np.ones_like(m) if m.shape[0] > max_len: m = m[:max_len, :] mask = mask[:max_len, :] else: m = np.pad(m, ((0, max_len - m.shape[0]), (0,0))) mask = np.pad(mask, ((0, max_len - mask.shape[0]), (0,0))) return m, mask class EmbeddingDataset(Dataset: torch.utils.data.Dataset): """PyTorch dataset representing pretrained sentence embeddings, masks, and labels.""" def __init__(self, text: str, labels: int, max_len: int=100): self.text = text self.labels = labels self.max_len = max_len def __len__(self) -> int: return len(self.labels) def __getitem__(self, idx: int) -> dict: e = embed_line(self.text[idx]) length = e.shape[0] m, mask = pad_matrix(e, max_len=self.max_len) item = {} item['embeddings'] = torch.from_numpy(m) item['mask'] = torch.from_numpy(mask) item['labels'] = torch.tensor(self.labels[idx]) if length > self.max_len: item['lengths'] = torch.tensor(self.max_len) else: item['lengths'] = torch.tensor(length) return item

Beachten Sie, dass dieser Code davon ausgeht, dass die vectors.zip Datei mit Ihren FastText- oder BlazingText-Einbettungen gespeichert .

Darüber hinaus können Sie vortrainierte FastText-Modelle ganz einfach selbst auf Live-SageMaker-Endpunkten bereitstellen, um Einbettungsvektoren für die Verwendung in relevanten Aufgaben auf Wortebene im Handumdrehen zu berechnen. Siehe Folgendes GitHub-Beispiel für weitere Informationen an.

Transformatoren mit umarmendem Gesicht

Für unseren zweiten Modellierungsansatz gehen wir zur Verwendung von Transformern über, die in diesem Artikel vorgestellt wurden Aufmerksamkeit ist alles was Sie brauchen. Transformer sind Deep-Learning-Modelle, die entwickelt wurden, um die Fallstricke von RNNs bewusst zu vermeiden, indem sie sich auf einen Selbstaufmerksamkeitsmechanismus verlassen, um globale Abhängigkeiten zwischen Eingabe und Ausgabe zu ziehen. Die Transformer-Modellarchitektur ermöglicht eine deutlich bessere Parallelisierung und kann in relativ kurzer Trainingszeit eine hohe Leistung erzielen.

Aufbauend auf dem Erfolg von Transformers, BERT, vorgestellt in der Zeitung BERT: Vorschulung von tiefen bidirektionalen Transformatoren für das Sprachverständnis, bidirektionales Vortraining für die Sprachdarstellung hinzugefügt. Inspiriert von der Cloze-Aufgabe ist BERT mit maskierter Sprachmodellierung (MLM) vortrainiert, bei der das Modell lernt, die ursprünglichen Wörter für zufällig maskierte Token wiederherzustellen. Das BERT-Modell ist auch auf die Aufgabe zur Vorhersage des nächsten Satzes (NSP) vortrainiert, um vorherzusagen, ob zwei Sätze in der richtigen Lesereihenfolge sind. Seit seiner Einführung im Jahr 2018 werden BERT und seine Variationen häufig für Textklassifizierungsaufgaben verwendet.

Unsere Lösung verwendet eine Variante von BERT namens RoBERTa, die in der Zeitung vorgestellt wurde RoBERTa: Ein robust optimierter BERT-Pretraining-Ansatz. RoBERTa verbessert die BERT-Leistung bei einer Vielzahl von Aufgaben in natürlicher Sprache weiter durch optimiertes Modelltraining, einschließlich längerer Trainingsmodelle auf einem 10-mal größeren Korpus, Verwendung optimierter Hyperparameter, dynamischer zufälliger Maskierung, Entfernung der NSP-Aufgabe und mehr.

Unsere RoBERTa-basierten Modelle verwenden die Umarmen von Gesichtstransformatoren Library, ein beliebtes Open-Source-Python-Framework, das qualitativ hochwertige Implementierungen aller Arten von hochmodernen Transformer-Modellen für eine Vielzahl von NLP-Aufgaben bereitstellt. Hugging Face ist eine Partnerschaft mit AWS eingegangen damit Sie Transformer-Modelle auf SageMaker einfach trainieren und bereitstellen können. Diese Funktionalität ist über verfügbar Hugging Face AWS Deep Learning Container-Bilder, die die Transformers-, Tokenizers- und Datasets-Bibliotheken umfassen, sowie eine optimierte Integration mit SageMaker für Modelltraining und Inferenz.

In unserer Implementierung erben wir das RoBERTa-Architektur-Backbone vom Hugging Face Transformers-Framework und verwenden SageMaker, um unser eigenes Textklassifizierungsmodell, das wir RoBERTox nennen, zu trainieren und bereitzustellen. RoBERTox verwendet Byte Pair Encoding (BPE), eingeführt in Neuronale maschinelle Übersetzung seltener Wörter mit Teilworteinheiten, um Eingabetext in Teilwortdarstellungen zu zerlegen. Wir können dann unsere Modelle und Tokenizer mit den Jigsaw-Daten oder einem großen domänenspezifischen Korpus (z. B. den Chatprotokollen eines bestimmten Spiels) trainieren und sie für eine benutzerdefinierte Textklassifizierung verwenden. Wir definieren unsere benutzerdefinierte Klassifizierungsmodellklasse im folgenden Code:

class RoBERToxForSequenceClassification(CustomLossMixIn, RobertaPreTrainedModel): _keys_to_ignore_on_load_missing = [r"position_ids"] def __init__(self, config: PretrainedConfig, *inputs, **kwargs): """Initialize the RoBERToxForSequenceClassification instance Parameters ---------- config : PretrainedConfig num_labels : Optional[int] if not None, overwrite the default classification head in pretrained model. mode : Optional[str] 'MULTI_CLASS', 'MULTI_LABEL' or "REGRESSION". Used to determine loss class_weight : Optional[List[float]] If not None, add class weight to BCEWithLogitsLoss or CrossEntropyLoss """ super().__init__(config, *inputs, **kwargs) # Define model architecture self.roberta = RobertaModel(self.config, add_pooling_layer=False) self.classifier = RobertaClassificationHead(self.config) self.init_weights() @modeling_roberta.add_start_docstrings_to_model_forward( modeling_roberta.ROBERTA_INPUTS_DOCSTRING.format("batch_size, sequence_length") ) @modeling_roberta.add_code_sample_docstrings( tokenizer_class=modeling_roberta._TOKENIZER_FOR_DOC, checkpoint=modeling_roberta._CHECKPOINT_FOR_DOC, output_type=SequenceClassifierOutput, config_class=modeling_roberta._CONFIG_FOR_DOC, ) def forward( self, input_ids: torch.Tensor = None, attention_mask: torch.Tensor = None, token_type_ids: torch.Tensor = None, position_ids: torch.Tensor =None, head_mask: torch.Tensor =None, inputs_embeds: torch.Tensor =None, labels: torch.Tensor =None, output_attentions: torch.Tensor =None, output_hidden_states: torch.Tensor =None, return_dict: bool =None, sample_weights: torch.Tensor =None, ) -> : dict: """Forward pass to return loss, logits, ... Returns -------- output : SequenceClassifierOutput has those keys: loss, logits, hidden states, attentions """ return_dict = return_dict or self.config.use_return_dict outputs = self.roberta( input_ids, attention_mask=attention_mask, token_type_ids=token_type_ids, position_ids=position_ids, head_mask=head_mask, inputs_embeds=inputs_embeds, output_attentions=output_attentions, output_hidden_states=output_hidden_states, return_dict=return_dict, ) sequence_output = outputs[0] # [CLS] embedding logits = self.classifier(sequence_output) loss = self.compute_loss(logits, labels, sample_weights=sample_weights) if not return_dict: output = (logits,) + outputs[2:] return ((loss,) + output) if loss is not None else output return SequenceClassifierOutput( loss=loss, logits=logits, hidden_states=outputs.hidden_states, attentions=outputs.attentions, ) def compute_loss(self, logits: torch.Tensor, labels: torch.Tensor, sample_weights: Optional[torch.Tensor] = None) -> torch.FloatTensor: return super().compute_loss(logits, labels, sample_weights)

Vor dem Training bereiten wir unsere Textdaten und Etiketten mit der Datensatzbibliothek von Hugging Face vor und laden das Ergebnis in Amazon S3 hoch:

from datasets import Dataset
import multiprocessing data_train = Dataset.from_pandas(df_train)
… tokenizer = <instantiated_huggingface_tokenizer> def preprocess_function(examples: examples) -> torch.Tensor: result = tokenizer(examples["text"], padding="max_length", max_length=128, truncation=True) return result num_proc = multiprocessing.cpu_count()
print("Number of CPUs =", num_proc) data_train = data_train.map( preprocess_function, batched=True, load_from_cache_file=False, num_proc=num_proc
)
… import botocore
from datasets.filesystems import S3FileSystem s3_session = botocore.session.Session() # create S3FileSystem instance with s3_session
s3 = S3FileSystem(session=s3_session) # saves encoded_dataset to your s3 bucket
data_train.save_to_disk(f's3://<bucket_name>/<prefix_name>/train', fs=s3)
…

Wir initiieren das Training des Modells auf ähnliche Weise wie beim RNN:

import sagemaker
sess = sagemaker.Session()
role = sagemaker.get_execution_role()
from sagemaker.huggingface import HuggingFace # hyperparameters, which are passed into the training job
hyperparameters = { 'model-name': <huggingface_base_model_name>, 'epochs': 10, 'train-batch-size': 32, 'eval-batch-size': 64, 'num-labels': len(<list_of_label_names>), 'class-weight': ' '.join([str(c) for c in <list_of_class_weights>]), 'metric-for-best-model': 'ap_score_weighted', 'save-total-limit': 1,
} # create the Estimator
huggingface_estimator = HuggingFace( entry_point='train.py', source_dir=<source_dir_path>, instance_type=<train_instance_type>, instance_count=1, role=role, transformers_version='4.6.1', pytorch_version='1.7.1', py_version='py36', hyperparameters=hyperparameters, metric_definitions=[ {'Name': 'validation:accuracy', 'Regex': 'eval_accuracy = (.*?);'}, {'Name': 'validation:f1-micro', 'Regex': 'eval_f1_score_micro = (.*?);'}, {'Name': 'validation:f1-macro', 'Regex': 'eval_f1_score_macro = (.*?);'}, {'Name': 'validation:f1-weighted', 'Regex': 'eval_f1_score_weighted = (.*?);'}, {'Name': 'validation:ap-micro', 'Regex': 'eval_ap_score_micro = (.*?);'}, {'Name': 'validation:ap-macro', 'Regex': 'eval_ap_score_macro = (.*?);'}, {'Name': 'validation:ap-weighted', 'Regex': 'eval_ap_score_weighted = (.*?);'}, {'Name': 'validation:auc-micro', 'Regex': 'eval_auc_score_micro = (.*?);'}, {'Name': 'validation:auc-macro', 'Regex': 'eval_auc_score_macro = (.*?);'}, {'Name': 'validation:auc-weighted', 'Regex': 'eval_auc_score_weighted = (.*?);'} ]
) huggingface_estimator.fit( { 'train': 's3://<bucket_name>/<prefix_name>/train', 'valid': 's3://<bucket_name>/<prefix_name>/valid', 'test': 's3://<bucket_name>/<prefix_name>/test'
)

Schließlich veranschaulicht das folgende Python-Code-Snippet den Prozess der Bereitstellung von RoBERTox über einen Live-SageMaker-Endpunkt für die Echtzeit-Textklassifizierung für eine JSON-Anfrage:

from sagemaker.huggingface import HuggingFaceModel
from sagemaker import get_execution_role
from sagemaker.predictor import Predictor
from sagemaker.serializers import JSONSerializer
from sagemaker.deserializers import JSONDeserializer class Classifier(Predictor): def __init__(self, endpoint_name, sagemaker_session): super().__init__(endpoint_name, sagemaker_session, serializer=JSONSerializer(), deserializer=JSONDeserializer()) hf_model = HuggingFaceModel( role=get_execution_role(), model_data=<s3_model_and_tokenizer.tar.gz>, entry_point="inference.py", transformers_version="4.6.1", pytorch_version="1.7.1", py_version="py36", predictor_cls=Classifier
) predictor = hf_model.deploy(instance_type=<deploy_instance_type>, initial_instance_count=1)

Bewertung der Modellleistung: Jigsaw-Datensatz für unbeabsichtigte Verzerrungen

Die folgende Tabelle enthält Leistungsmetriken für Modelle, die anhand von Daten aus dem Kaggle-Wettbewerb Jigsaw Unintended Bias in Toxicity Detection trainiert und bewertet wurden. Wir haben Modelle für drei verschiedene, aber miteinander verbundene Aufgaben trainiert:

Binärer Fall – Das Modell wurde mit dem vollständigen Trainingsdatensatz trainiert, um die toxicity nur Etikett
Feinkörniges Gehäuse – Die Teilmenge der Trainingsdaten, für die toxicity>=0.5 wurde verwendet, um andere Kennzeichnungen für Toxizitätssubtypen vorherzusagen (obscene, threat, insult, identity_attack, sexual_explicit)
Multitasking-Fall – Der vollständige Trainingsdatensatz wurde verwendet, um alle sechs Labels gleichzeitig vorherzusagen

Wir haben RNN- und RoBERTa-Modelle für jede dieser drei Aufgaben trainiert, indem wir die von Jigsaw bereitgestellten fraktionalen Labels verwendet haben, die dem Anteil der Kommentatoren entsprechen, die das Label für den Text geeignet hielten, sowie mit binären Labels in Kombination mit Klassengewichtungen im Netzwerk verlustfunktion. Im binären Etikettierungsschema wurden die Anteile auf 0.5 für jedes verfügbare Etikett festgelegt (1, wenn Etikett>=0.5, sonst 0), und die Modellverlustfunktionen wurden basierend auf den relativen Anteilen jedes binären Etiketts im Trainingsdatensatz gewichtet. In allen Fällen haben wir festgestellt, dass die direkte Verwendung der Bruchbezeichnungen zur besten Leistung führte, was auf den Mehrwert der Informationen hinweist, die dem Grad der Übereinstimmung zwischen den Kommentatoren innewohnen.

Wir zeigen zwei Modellmetriken: die durchschnittliche Präzision (AP), die eine Zusammenfassung der Präzisions-Recall-Kurve liefert, indem das gewichtete Mittel der Präzisionswerte berechnet wird, die bei jedem Klassifizierungsschwellenwert erreicht werden, und die Fläche unter der Receiver Operating Characteristic Curve (AUC). , das die Modellleistung über Klassifizierungsschwellenwerte hinweg in Bezug auf die True-Positive-Rate und die False-Positive-Rate aggregiert. Beachten Sie, dass die True-Klasse für eine bestimmte Textinstanz in der Testmenge dem entspricht, ob der True-Anteil größer oder gleich 0.5 ist (1, wenn Label>=0.5, andernfalls 0).

.	Teilworteinbettung + RNN	Roberta
.	Bruchetiketten	Binäre Labels + Klassengewichtung	Bruchetiketten	Binäre Labels + Klassengewichtung
Binär	AP=0.746, AUC = 0.966	AP = 0.730, AUC = 0.963	AP = 0.758, AUC = 0.966	AP = 0.747, AUC = 0.963
Feinkörnig	AP = 0.906, AUC = 0.909	AP = 0.850, AUC = 0.851	AP = 0.913, AUC = 0.913	AP = 0.911, AUC = 0.912
Multitask	AP=0.721, AUC = 0.972	AP = 0.535, AUC = 0.907	AP = 0.740, AUC = 0.972	AP = 0.711, AUC = 0.961

Zusammenfassung

In diesem Beitrag haben wir zwei Ansätze zur Textklassifizierung für Online-Gespräche mit AWS ML-Services vorgestellt. Sie können diese Lösungen auf Online-Kommunikationsplattformen verallgemeinern, wobei Branchen wie Spiele besonders wahrscheinlich von einer verbesserten Fähigkeit zur Erkennung schädlicher Inhalte profitieren werden. In zukünftigen Beiträgen planen wir, eine End-to-End-Architektur für die nahtlose Bereitstellung von Modellen in Ihrem AWS-Konto weiter zu diskutieren.

Wenn Sie dabei helfen möchten, die Verwendung von ML in Ihren Produkten und Prozessen zu beschleunigen, wenden Sie sich bitte an die Amazon ML-Lösungslabor.

Über die Autoren

Textklassifizierung für Online-Gespräche mit maschinellem Lernen auf AWS PlatoBlockchain Data Intelligence. Vertikale Suche. Ai. Ryan Marke ist Data Scientist im Amazon Machine Learning Solutions Lab. Er verfügt über besondere Erfahrung in der Anwendung von maschinellem Lernen auf Probleme im Gesundheitswesen und in den Biowissenschaften und liest in seiner Freizeit gerne Geschichte und Science-Fiction.

Surav Bhabesh ist Data Scientist im Amazon ML Solutions Lab. Er entwickelt KI/ML-Lösungen für AWS-Kunden aus verschiedenen Branchen. Sein Spezialgebiet ist Natural Language Processing (NLP) und er beschäftigt sich leidenschaftlich mit Deep Learning. Außerhalb der Arbeit liest er gerne Bücher und reist.

Liutong Zhou ist Applied Scientist im Amazon ML Solutions Lab. Er entwickelt maßgeschneiderte KI/ML-Lösungen für AWS-Kunden aus verschiedenen Branchen. Er ist auf Natural Language Processing (NLP) spezialisiert und hat eine Leidenschaft für multimodales Deep Learning. Er ist ein lyrischer Tenor und singt außerhalb der Arbeit gerne Opern.

Sia Gholami ist Senior Data Scientist im Amazon ML Solutions Lab, wo er KI/ML-Lösungen für Kunden aus verschiedenen Branchen entwickelt. Seine Leidenschaft gilt Natural Language Processing (NLP) und Deep Learning. Außerhalb der Arbeit verbringt Sia gerne Zeit in der Natur und spielt Tennis.

Daniel Horowitz ist Applied AI Science Manager. Er leitet ein Team von Wissenschaftlern im Amazon ML Solutions Lab, das daran arbeitet, Kundenprobleme zu lösen und die Cloud-Akzeptanz mit ML voranzutreiben.

Zeitstempel: 29. Juni 2022

Zeitstempel: 23. Juni 2022

Textklassifizierung für Online-Gespräche mit maschinellem Lernen auf AWS

Neuauflage von Plato

Voraussetzungen:

Datensatz

Teilworteinbettung und RNNs

Transformatoren mit umarmendem Gesicht

Bewertung der Modellleistung: Jigsaw-Datensatz für unbeabsichtigte Verzerrungen

Zusammenfassung

Über die Autoren

Mehr von AWS Maschinelles Lernen

Intelligente Dokumentenverarbeitung mit AWS AI-Services: Teil 1

Hosten Sie Hugging Face Transformer-Modelle mit Amazon SageMaker Serverless Inference

Verteiltes Training mit Amazon EKS und Torch Distributed Elastic

Exafunction unterstützt AWS Inferentia, um das beste Preis-Leistungs-Verhältnis für Machine-Learning-Inferenz zu erzielen

Das in Amazon SageMaker integrierte LightGBM bietet jetzt verteiltes Training mit Dask

Neue erweiterte Datenformatunterstützung in Amazon Kendra

Optimieren Sie Hyperparameter mit Amazon SageMaker Automatic Model Tuning

Über uns

Vertikale Suche & Ai

Plattform

Bleiben Sie in Verbindung

Konto