Tekstklassifisering for nettsamtaler med maskinlæring på AWS

Publisert av Platon

Følgere: 0

Nettsamtaler er allestedsnærværende i det moderne liv, og spenner over bransjer fra videospill til telekommunikasjon. Dette har ført til en eksponentiell vekst i mengden av nettbaserte samtaledata, noe som har hjulpet i utviklingen av toppmoderne NLP-systemer (naturlig språkbehandling) som chatbots og modeller for generering av naturlig språk (NLG). Over tid har ulike NLP-teknikker for tekstanalyse også utviklet seg. Dette nødvendiggjør kravet om en fullstendig administrert tjeneste som kan integreres i applikasjoner ved hjelp av API-kall uten behov for omfattende maskinlæringskompetanse (ML). AWS tilbyr ferdigtrente AWS AI-tjenester som Amazon Comprehend, som effektivt kan håndtere NLP-brukstilfeller som involverer klassifisering, tekstoppsummering, enhetsgjenkjenning og mer for å samle inn innsikt fra tekst.

I tillegg har nettsamtaler ført til et utbredt fenomen med utradisjonell bruk av språk. Tradisjonelle NLP-teknikker gir ofte dårlige resultater på disse tekstdataene på grunn av de stadig utviklende og domenespesifikke vokabularene som finnes innenfor forskjellige plattformer, samt de betydelige leksikalske avvikene til ord fra riktig engelsk, enten ved et uhell eller med vilje som en form for motstandsangrep .

I dette innlegget beskriver vi flere ML-tilnærminger for tekstklassifisering av nettsamtaler med verktøy og tjenester tilgjengelig på AWS.

Forutsetninger

Før du dykker dypt inn i denne brukssaken, må du fullføre følgende forutsetninger:

Sett opp en AWS-konto og opprette en IAM-bruker.
Sett opp AWS CLI og AWS SDK-er.
(Valgfritt) Konfigurer din Cloud9 IDE-miljø.

datasett

For dette innlegget bruker vi Jigsaw Unintended Bias in Toxicity Classification dataset, en målestokk for det spesifikke problemet med klassifisering av toksisitet i nettsamtaler. Datasettet gir toksisitetsetiketter så vel som flere undergruppeattributter som uanstendig, identitetsangrep, fornærmelse, trussel og seksuelt eksplisitt. Etiketter er gitt som brøkverdier, som representerer andelen av menneskelige kommentatorer som trodde at attributtet ble brukt på et gitt tekststykke, som sjelden er enstemmig. For å generere binære etiketter (for eksempel giftige eller ikke-giftige), brukes en terskel på 0.5 på brøkverdiene, og kommentarer med verdier høyere enn terskelen behandles som den positive klassen for den etiketten.

Innebygging av underord og RNN-er

For vår første modelleringstilnærming bruker vi en kombinasjon av innbygging av underord og tilbakevendende nevrale nettverk (RNN) for å trene tekstklassifiseringsmodeller. Innebygging av underord ble introdusert av Bojanowski et al. i 2017 som en forbedring av tidligere innebyggingsmetoder på ordnivå. Tradisjonelle Word2Vec skip-gram-modeller er opplært til å lære en statisk vektorrepresentasjon av et målord som optimalt forutsier ordets kontekst. Underordsmodeller, derimot, representerer hvert målord som en pose med tegnet n-gram som utgjør ordet, der et n-gram er sammensatt av et sett med n påfølgende tegn. Denne metoden gjør det mulig for innebyggingsmodellen å bedre representere den underliggende morfologien til beslektede ord i korpuset, så vel som beregningen av innebygginger for nye ord utenfor vokabularet (OOV). Dette er spesielt viktig i sammenheng med nettsamtaler, et problemområde der brukere ofte staver ord feil (noen ganger med vilje for å unngå gjenkjenning) og også bruker et unikt, stadig utviklende ordforråd som kanskje ikke fanges opp av et generelt treningskorpus.

Amazon SageMaker gjør det enkelt å trene og optimalisere en uovervåket innbyggingsmodell for underord på ditt eget korpus av domenespesifikke tekstdata med den innebygde BlazingText-algoritme. Vi kan også laste ned eksisterende generelle modeller som er trent på store datasett med netttekst, for eksempel følgende Engelskspråklige modeller tilgjengelig direkte fra fastText. Fra SageMaker bærbare instans, kjør ganske enkelt følgende for å laste ned en forhåndsopplært fastText-modell:

!wget -O vectors.zip https://dl.fbaipublicfiles.com/fasttext/vectors-english/crawl-300d-2M-subword.zip

Enten du har trent dine egne innebygginger med BlazingText eller lastet ned en forhåndstrent modell, er resultatet en zippet modellbinær som du kan bruke med gensim-biblioteket for å bygge inn et gitt målord som en vektor basert på dets konstituerende underord:

# Imports
import os
from zipfile import ZipFile
from gensim.models.fasttext import load_facebook_vectors # Unzip the model binary into 'dir_path'
with ZipFile('vectors.zip', 'r') as zipObj: zipObj.extractall(path=<dir_path_name>) # Load embedding model into memory
embed_model = load_facebook_vectors(os.path.join(<dir_path_name>, 'vectors.bin')) # Compute embedding vector for 'word'
word_embedding = embed_model[word]

Etter at vi har forhåndsbehandlet et gitt tekstsegment, kan vi bruke denne tilnærmingen til å generere en vektorrepresentasjon for hvert av de konstituerende ordene (adskilt med mellomrom). Vi bruker deretter SageMaker og et rammeverk for dyp læring som PyTorch for å trene et tilpasset RNN med et binært eller multilabel klassifiseringsmål for å forutsi om teksten er giftig eller ikke og den spesifikke undertypen av toksisitet basert på merkede treningseksempler.

For å laste opp din forhåndsbehandlede tekst til Amazon enkel lagringstjeneste (Amazon S3), bruk følgende kode:

import boto3
s3 = boto3.client('s3') bucket = <bucket_name>
prefix = <prefix_name> s3.upload_file('train.pkl', bucket, os.path.join(prefix, 'train/train.pkl'))
s3.upload_file('valid.pkl', bucket, os.path.join(prefix, 'valid/valid.pkl'))
s3.upload_file('test.pkl', bucket, os.path.join(prefix, 'test/test.pkl'))

For å starte skalerbar multi-GPU-modellopplæring med SageMaker, skriv inn følgende kode:

import sagemaker
sess = sagemaker.Session()
role = iam.get_role(RoleName= ‘AmazonSageMakerFullAccess’)['Role']['Arn'] from sagemaker.pytorch import PyTorch # hyperparameters, which are passed into the training job
hyperparameters = { 'epochs': 20, # Maximum number of epochs to train model 'train-batch-size': 128, # Training batch size (No. sentences) 'eval-batch-size': 1024, # Evaluation batch size (No. sentences) 'embed-size': 300, # Vector dimension of word embeddings (Must match embedding model) 'lstm-hidden-size': 200, # Number of neurons in LSTM hidden layer 'lstm-num-layers': 2, # Number of stacked LSTM layers 'proj-size': 100, # Number of neurons in intermediate projection layer 'num-targets': len(<list_of_label_names>), # Number of targets for classification 'class-weight': ' '.join([str(c) for c in <list_of_weights_per_class>]), # Weight to apply to each target during training 'total-length':<max_number_of_words_per_sentence>, 'metric-for-best-model': 'ap_score_weighted', # Metric on which to select the best model
} # create the Estimator
pytorch_estimator = PyTorch( entry_point='train.py', source_dir=<source_dir_path>, instance_type=<train_instance_type>, volume_size=200, instance_count=1, role=role, framework_version='1.6.0’, py_version='py36', hyperparameters=hyperparameters, metric_definitions=[ {'Name': 'validation:accuracy', 'Regex': 'eval_accuracy = (.*?);'}, {'Name': 'validation:f1-micro', 'Regex': 'eval_f1_score_micro = (.*?);'}, {'Name': 'validation:f1-macro', 'Regex': 'eval_f1_score_macro = (.*?);'}, {'Name': 'validation:f1-weighted', 'Regex': 'eval_f1_score_weighted = (.*?);'}, {'Name': 'validation:ap-micro', 'Regex': 'eval_ap_score_micro = (.*?);'}, {'Name': 'validation:ap-macro', 'Regex': 'eval_ap_score_macro = (.*?);'}, {'Name': 'validation:ap-weighted', 'Regex': 'eval_ap_score_weighted = (.*?);'}, {'Name': 'validation:auc-micro', 'Regex': 'eval_auc_score_micro = (.*?);'}, {'Name': 'validation:auc-macro', 'Regex': 'eval_auc_score_macro = (.*?);'}, {'Name': 'validation:auc-weighted', 'Regex': 'eval_auc_score_weighted = (.*?);'} ]
) pytorch_estimator.fit( { 'train': 's3://<bucket_name>/<prefix_name>/train', 'valid': 's3://<bucket_name>/<prefix_name>/valid', 'test': 's3://<bucket_name>/<prefix_name>/test' }
)

Innen , definerer vi et PyTorch-datasett som brukes av train.py å forberede tekstdataene for opplæring og evaluering av modellen:

def pad_matrix(m: torch.Tensor, max_len: int =100)-> tuple[int, torch.Tensor] : """Pads an embedding matrix to a specified maximum length.""" if m.ndim == 1: m = m.reshape(1, -1) mask = np.ones_like(m) if m.shape[0] > max_len: m = m[:max_len, :] mask = mask[:max_len, :] else: m = np.pad(m, ((0, max_len - m.shape[0]), (0,0))) mask = np.pad(mask, ((0, max_len - mask.shape[0]), (0,0))) return m, mask class EmbeddingDataset(Dataset: torch.utils.data.Dataset): """PyTorch dataset representing pretrained sentence embeddings, masks, and labels.""" def __init__(self, text: str, labels: int, max_len: int=100): self.text = text self.labels = labels self.max_len = max_len def __len__(self) -> int: return len(self.labels) def __getitem__(self, idx: int) -> dict: e = embed_line(self.text[idx]) length = e.shape[0] m, mask = pad_matrix(e, max_len=self.max_len) item = {} item['embeddings'] = torch.from_numpy(m) item['mask'] = torch.from_numpy(mask) item['labels'] = torch.tensor(self.labels[idx]) if length > self.max_len: item['lengths'] = torch.tensor(self.max_len) else: item['lengths'] = torch.tensor(length) return item

Merk at denne koden forutser at vectors.zip filen som inneholder fastText- eller BlazingText-innbyggingene dine vil bli lagret i .

I tillegg kan du enkelt distribuere forhåndstrente fastText-modeller på egen hånd til levende SageMaker-endepunkter for å beregne innebyggingsvektorer på farten for bruk i relevante oppgaver på ordnivå. Se følgende GitHub eksempel for mer informasjon.

Transformatorer med klemende ansikt

For vår andre modelleringstilnærming går vi over til bruken av Transformers, introdusert i papiret Oppmerksomhet er alt du trenger. Transformatorer er dyplæringsmodeller designet for bevisst å unngå fallgruvene til RNN-er ved å stole på en selvoppmerksomhetsmekanisme for å trekke globale avhengigheter mellom input og output. Transformer-modellarkitekturen tillater betydelig bedre parallellisering og kan oppnå høy ytelse på relativt kort treningstid.

Bygget på suksessen til Transformers, BERT, introdusert i avisen BERT: Fortrening av Deep Bidirectional Transformers for Language Understanding, lagt til toveis foropplæring for språkrepresentasjon. Inspirert av Cloze-oppgaven er BERT forhåndsopplært med maskert språkmodellering (MLM), der modellen lærer å gjenopprette de originale ordene for tilfeldig maskerte tokens. BERT-modellen er også forhåndstrent på den neste setningsprediksjonsoppgaven (NSP) for å forutsi om to setninger er i riktig leserekkefølge. Siden innkomsten i 2018 har BERT og dens varianter blitt mye brukt i tekstklassifiseringsoppgaver.

Vår løsning bruker en variant av BERT kjent som RoBERTa, som ble introdusert i papiret RoBERTa: En Robust Optimized BERT Pretraining Approach. ROBERTa forbedrer BERT-ytelsen ytterligere på en rekke naturlige språkoppgaver ved å optimalisere modelltrening, inkludert treningsmodeller lengre på et 10 ganger større korpus, ved å bruke optimaliserte hyperparametre, dynamisk tilfeldig maskering, fjerning av NSP-oppgaven og mer.

Våre RobERTa-baserte modeller bruker Klemme ansikts-transformatorer library, som er et populært Python-rammeverk med åpen kildekode som gir høykvalitetsimplementeringer av alle slags toppmoderne transformatormodeller for en rekke NLP-oppgaver. Hugging Face har inngått samarbeid med AWS slik at du enkelt kan trene og distribuere Transformer-modeller på SageMaker. Denne funksjonaliteten er tilgjengelig gjennom Hugging Face AWS Deep Learning Container-bilder, som inkluderer bibliotekene Transformers, Tokenizers og Datasett, og optimalisert integrasjon med SageMaker for modelltrening og inferens.

I implementeringen vår arver vi RoBERTa-arkitektur-ryggraden fra Hugging Face Transformers-rammeverket og bruker SageMaker til å trene og distribuere vår egen tekstklassifiseringsmodell, som vi kaller RoBERTox. RobERTox bruker byte-parkoding (BPE), introdusert i Nevral maskinoversettelse av sjeldne ord med underordsenheter, for å tokenisere inndatatekst til representasjoner av underord. Vi kan deretter trene våre modeller og tokenizere på Jigsaw-dataene eller et hvilket som helst stort domenespesifikk korpus (som chat-loggene fra et spesifikt spill) og bruke dem til tilpasset tekstklassifisering. Vi definerer vår egendefinerte klassifiseringsmodellklasse i følgende kode:

class RoBERToxForSequenceClassification(CustomLossMixIn, RobertaPreTrainedModel): _keys_to_ignore_on_load_missing = [r"position_ids"] def __init__(self, config: PretrainedConfig, *inputs, **kwargs): """Initialize the RoBERToxForSequenceClassification instance Parameters ---------- config : PretrainedConfig num_labels : Optional[int] if not None, overwrite the default classification head in pretrained model. mode : Optional[str] 'MULTI_CLASS', 'MULTI_LABEL' or "REGRESSION". Used to determine loss class_weight : Optional[List[float]] If not None, add class weight to BCEWithLogitsLoss or CrossEntropyLoss """ super().__init__(config, *inputs, **kwargs) # Define model architecture self.roberta = RobertaModel(self.config, add_pooling_layer=False) self.classifier = RobertaClassificationHead(self.config) self.init_weights() @modeling_roberta.add_start_docstrings_to_model_forward( modeling_roberta.ROBERTA_INPUTS_DOCSTRING.format("batch_size, sequence_length") ) @modeling_roberta.add_code_sample_docstrings( tokenizer_class=modeling_roberta._TOKENIZER_FOR_DOC, checkpoint=modeling_roberta._CHECKPOINT_FOR_DOC, output_type=SequenceClassifierOutput, config_class=modeling_roberta._CONFIG_FOR_DOC, ) def forward( self, input_ids: torch.Tensor = None, attention_mask: torch.Tensor = None, token_type_ids: torch.Tensor = None, position_ids: torch.Tensor =None, head_mask: torch.Tensor =None, inputs_embeds: torch.Tensor =None, labels: torch.Tensor =None, output_attentions: torch.Tensor =None, output_hidden_states: torch.Tensor =None, return_dict: bool =None, sample_weights: torch.Tensor =None, ) -> : dict: """Forward pass to return loss, logits, ... Returns -------- output : SequenceClassifierOutput has those keys: loss, logits, hidden states, attentions """ return_dict = return_dict or self.config.use_return_dict outputs = self.roberta( input_ids, attention_mask=attention_mask, token_type_ids=token_type_ids, position_ids=position_ids, head_mask=head_mask, inputs_embeds=inputs_embeds, output_attentions=output_attentions, output_hidden_states=output_hidden_states, return_dict=return_dict, ) sequence_output = outputs[0] # [CLS] embedding logits = self.classifier(sequence_output) loss = self.compute_loss(logits, labels, sample_weights=sample_weights) if not return_dict: output = (logits,) + outputs[2:] return ((loss,) + output) if loss is not None else output return SequenceClassifierOutput( loss=loss, logits=logits, hidden_states=outputs.hidden_states, attentions=outputs.attentions, ) def compute_loss(self, logits: torch.Tensor, labels: torch.Tensor, sample_weights: Optional[torch.Tensor] = None) -> torch.FloatTensor: return super().compute_loss(logits, labels, sample_weights)

Før trening forbereder vi tekstdata og etiketter ved hjelp av Hugging Faces datasettbibliotek og laster opp resultatet til Amazon S3:

from datasets import Dataset
import multiprocessing data_train = Dataset.from_pandas(df_train)
… tokenizer = <instantiated_huggingface_tokenizer> def preprocess_function(examples: examples) -> torch.Tensor: result = tokenizer(examples["text"], padding="max_length", max_length=128, truncation=True) return result num_proc = multiprocessing.cpu_count()
print("Number of CPUs =", num_proc) data_train = data_train.map( preprocess_function, batched=True, load_from_cache_file=False, num_proc=num_proc
)
… import botocore
from datasets.filesystems import S3FileSystem s3_session = botocore.session.Session() # create S3FileSystem instance with s3_session
s3 = S3FileSystem(session=s3_session) # saves encoded_dataset to your s3 bucket
data_train.save_to_disk(f's3://<bucket_name>/<prefix_name>/train', fs=s3)
…

Vi starter opplæring av modellen på lignende måte som RNN:

import sagemaker
sess = sagemaker.Session()
role = sagemaker.get_execution_role()
from sagemaker.huggingface import HuggingFace # hyperparameters, which are passed into the training job
hyperparameters = { 'model-name': <huggingface_base_model_name>, 'epochs': 10, 'train-batch-size': 32, 'eval-batch-size': 64, 'num-labels': len(<list_of_label_names>), 'class-weight': ' '.join([str(c) for c in <list_of_class_weights>]), 'metric-for-best-model': 'ap_score_weighted', 'save-total-limit': 1,
} # create the Estimator
huggingface_estimator = HuggingFace( entry_point='train.py', source_dir=<source_dir_path>, instance_type=<train_instance_type>, instance_count=1, role=role, transformers_version='4.6.1', pytorch_version='1.7.1', py_version='py36', hyperparameters=hyperparameters, metric_definitions=[ {'Name': 'validation:accuracy', 'Regex': 'eval_accuracy = (.*?);'}, {'Name': 'validation:f1-micro', 'Regex': 'eval_f1_score_micro = (.*?);'}, {'Name': 'validation:f1-macro', 'Regex': 'eval_f1_score_macro = (.*?);'}, {'Name': 'validation:f1-weighted', 'Regex': 'eval_f1_score_weighted = (.*?);'}, {'Name': 'validation:ap-micro', 'Regex': 'eval_ap_score_micro = (.*?);'}, {'Name': 'validation:ap-macro', 'Regex': 'eval_ap_score_macro = (.*?);'}, {'Name': 'validation:ap-weighted', 'Regex': 'eval_ap_score_weighted = (.*?);'}, {'Name': 'validation:auc-micro', 'Regex': 'eval_auc_score_micro = (.*?);'}, {'Name': 'validation:auc-macro', 'Regex': 'eval_auc_score_macro = (.*?);'}, {'Name': 'validation:auc-weighted', 'Regex': 'eval_auc_score_weighted = (.*?);'} ]
) huggingface_estimator.fit( { 'train': 's3://<bucket_name>/<prefix_name>/train', 'valid': 's3://<bucket_name>/<prefix_name>/valid', 'test': 's3://<bucket_name>/<prefix_name>/test'
)

Til slutt illustrerer følgende Python-kodebit prosessen med å betjene RobERTox via et live SageMaker-endepunkt for sanntidstekstklassifisering for en JSON-forespørsel:

from sagemaker.huggingface import HuggingFaceModel
from sagemaker import get_execution_role
from sagemaker.predictor import Predictor
from sagemaker.serializers import JSONSerializer
from sagemaker.deserializers import JSONDeserializer class Classifier(Predictor): def __init__(self, endpoint_name, sagemaker_session): super().__init__(endpoint_name, sagemaker_session, serializer=JSONSerializer(), deserializer=JSONDeserializer()) hf_model = HuggingFaceModel( role=get_execution_role(), model_data=<s3_model_and_tokenizer.tar.gz>, entry_point="inference.py", transformers_version="4.6.1", pytorch_version="1.7.1", py_version="py36", predictor_cls=Classifier
) predictor = hf_model.deploy(instance_type=<deploy_instance_type>, initial_instance_count=1)

Evaluering av modellytelse: Jigsaw utilsiktet bias-datasett

Følgende tabell inneholder ytelsesmålinger for modeller som er trent og evaluert på data fra Jigsaw Unintended Bias in Toxicity Detection Kaggle-konkurransen. Vi trente modeller for tre forskjellige, men sammenhengende oppgaver:

Binært tilfelle – Modellen ble trent på hele treningsdatasettet for å forutsi toxicity bare etikett
Finkornet sak – Delmengden av treningsdataene som toxicity>=0.5 ble brukt til å forutsi andre toksisitetssubtypeetiketter (obscene, threat, insult, identity_attack, sexual_explicit)
Multitask sak – Det fullstendige treningsdatasettet ble brukt til å forutsi alle seks etikettene samtidig

Vi trente RNN- og RobERTa-modeller for hver av disse tre oppgavene ved å bruke brøketikettene fra Jigsaw, som tilsvarer andelen annotatorer som mente etiketten var passende for teksten, samt med binære etiketter kombinert med klassevekter i nettverket tapsfunksjon. I det binære merkeskjemaet ble proporsjonene satt til 0.5 for hver tilgjengelig etikett (1 hvis etikett>=0.5, ellers 0), og modelltapfunksjonene ble vektet basert på de relative proporsjonene til hver binær etikett i treningsdatasettet. I alle tilfeller fant vi ut at bruk av brøketikettene direkte resulterte i den beste ytelsen, noe som indikerer merverdien av informasjonen som ligger i graden av samsvar mellom annotatorer.

Vi viser to modellberegninger: gjennomsnittlig presisjon (AP), som gir en oppsummering av presisjonsgjenkallingskurven ved å beregne det vektede gjennomsnittet av presisjonsverdiene oppnådd ved hver klassifiseringsterskel, og arealet under mottakerdriftskarakteristikken (AUC) , som aggregerer modellytelse på tvers av klassifiseringsterskler med hensyn til sann positiv rate og falsk positiv rate. Merk at den sanne klassen for en gitt tekstforekomst i testsettet tilsvarer om den sanne andelen er større enn eller lik 0.5 (1 hvis etikett>=0.5, ellers 0).

.	Innebygging av underord + RNN	ROBERTA
.	Brøketiketter	Binære etiketter + Klassevekting	Brøketiketter	Binære etiketter + Klassevekting
Binary	AP=0.746, AUC=0.966	AP=0.730, AUC=0.963	AP=0.758, AUC=0.966	AP=0.747, AUC=0.963
Finkornet	AP=0.906, AUC=0.909	AP=0.850, AUC=0.851	AP=0.913, AUC=0.913	AP=0.911, AUC=0.912
Multitask	AP=0.721, AUC=0.972	AP=0.535, AUC=0.907	AP=0.740, AUC=0.972	AP=0.711, AUC=0.961

konklusjonen

I dette innlegget presenterte vi to tekstklassifiseringstilnærminger for nettsamtaler ved bruk av AWS ML-tjenester. Du kan generalisere disse løsningene på tvers av nettbaserte kommunikasjonsplattformer, med bransjer som spilling spesielt sannsynlig å dra nytte av forbedret evne til å oppdage skadelig innhold. I fremtidige innlegg planlegger vi å diskutere en ende-til-ende-arkitektur for sømløs distribusjon av modeller til AWS-kontoen din.

Hvis du vil ha hjelp til å akselerere bruken av ML i produktene og prosessene dine, kan du kontakte Amazon ML Solutions Lab.

Om forfatterne

Tekstklassifisering for nettsamtaler med maskinlæring på AWS PlatoBlockchain Data Intelligence. Vertikalt søk. Ai. Ryan Brand er datavitenskapsmann i Amazon Machine Learning Solutions Lab. Han har spesifikk erfaring med å anvende maskinlæring på problemer innen helsetjenester og biovitenskap, og på fritiden liker han å lese historie og science fiction.

Sourav Bhabesh er dataforsker ved Amazon ML Solutions Lab. Han utvikler AI/ML-løsninger for AWS-kunder på tvers av ulike bransjer. Spesialiteten hans er Natural Language Processing (NLP) og brenner for dyp læring. Utenom jobben liker han å lese bøker og reise.

Liutong Zhou er en Applied Scientist ved Amazon ML Solutions Lab. Han bygger skreddersydde AI/ML-løsninger for AWS-kunder på tvers av ulike bransjer. Han spesialiserer seg på Natural Language Processing (NLP) og brenner for multimodal dyplæring. Han er en lyrisk tenor og liker å synge operaer utenom jobben.

Sia Gholami er senior dataforsker ved Amazon ML Solutions Lab, hvor han bygger AI/ML-løsninger for kunder på tvers av ulike bransjer. Han brenner for naturlig språkbehandling (NLP) og dyp læring. Utenom jobben liker Sia å tilbringe tid i naturen og spille tennis.

Daniel Horowitz er en Applied AI Science Manager. Han leder et team av forskere på Amazon ML Solutions Lab som jobber med å løse kundeproblemer og drive skyadopsjon med ML.

Tidstempel: Juni 29, 2022

Tidstempel: Juni 23, 2022

Tekstklassifisering for nettsamtaler med maskinlæring på AWS

Publisert av Platon

Forutsetninger

datasett

Innebygging av underord og RNN-er

Transformatorer med klemende ansikt

Evaluering av modellytelse: Jigsaw utilsiktet bias-datasett

konklusjonen

Om forfatterne

Mer fra AWS maskinlæring

Intelligent dokumentbehandling med AWS AI-tjenester: Del 1

Vær vert for Hugging Face-transformatormodeller som bruker Amazon SageMaker Serverless Inference

Distribuert trening med Amazon EKS og Torch Distributed Elastic

Exafunction støtter AWS Inferentia for å låse opp den beste prisytelsen for maskinlæringsslutning

Amazon SageMaker innebygde LightGBM tilbyr nå distribuert opplæring ved hjelp av Dask

Ny utvidet dataformatstøtte i Amazon Kendra

Optimaliser hyperparametre med Amazon SageMaker Automatic Model Tuning

Om Oss

Vertikal søk og Ai

Plattform

Hold kontakten

Logg inn