Tekstklassificering til onlinesamtaler med maskinlæring på AWS

Genudgivet af Platon

Abonnenter: 0

Onlinesamtaler er allestedsnærværende i det moderne liv, der spænder over industrier fra videospil til telekommunikation. Dette har ført til en eksponentiel vækst i mængden af online samtaledata, hvilket har hjulpet i udviklingen af avancerede NLP-systemer (natural language processing) som chatbots og natural language generation (NLG) modeller. Over tid har forskellige NLP-teknikker til tekstanalyse også udviklet sig. Dette nødvendiggør kravet om en fuldt administreret service, der kan integreres i applikationer ved hjælp af API-kald uden behov for omfattende maskinlæringsekspertise (ML). AWS tilbyder forudtrænede AWS AI-tjenester som Amazon Comprehend, som effektivt kan håndtere NLP-brugssager, der involverer klassificering, tekstresumé, enhedsgenkendelse og mere for at indsamle indsigt fra tekst.

Derudover har onlinesamtaler ført til et udbredt fænomen med ikke-traditionel sprogbrug. Traditionelle NLP-teknikker klarer sig ofte dårligt på disse tekstdata på grund af de konstant udviklende og domænespecifikke ordforråd, der findes inden for forskellige platforme, såvel som de betydelige leksikalske afvigelser af ord fra korrekt engelsk, enten ved et uheld eller bevidst som en form for modstridende angreb .

I dette indlæg beskriver vi flere ML-tilgange til tekstklassificering af onlinesamtaler med værktøjer og tjenester tilgængelige på AWS.

Forudsætninger

Inden du dykker dybt ned i denne use case, bedes du udfylde følgende forudsætninger:

Opret en AWS-konto , oprette en IAM-bruger.
Indstil AWS CLI , AWS SDK'er.
(Valgfrit) Konfigurer din Cloud9 IDE-miljø.

datasæt

Til dette indlæg bruger vi Jigsaw Unintended Bias in Toxicity Classification-datasæt, et benchmark for det specifikke problem med klassificering af toksicitet i onlinesamtaler. Datasættet indeholder toksicitetsetiketter såvel som adskillige undergruppeattributter såsom obskønt, identitetsangreb, fornærmelse, trussel og seksuelt eksplicit. Etiketter er angivet som brøkværdier, som repræsenterer andelen af menneskelige annotatorer, der mente, at attributten blev anvendt på et givet stykke tekst, hvilket sjældent er enstemmigt. For at generere binære mærker (f.eks. giftige eller ikke-toksiske) anvendes en tærskel på 0.5 til brøkværdierne, og kommentarer med værdier, der er større end tærsklen, behandles som den positive klasse for den pågældende etiket.

Indlejring af underord og RNN'er

Til vores første modelleringstilgang bruger vi en kombination af indlejring af underord og tilbagevendende neurale netværk (RNN'er) til at træne tekstklassificeringsmodeller. Indlejringer af underord blev introduceret af Bojanowski et al. i 2017 som en forbedring af tidligere indlejringsmetoder på ordniveau. Traditionelle Word2Vec skip-gram-modeller er trænet til at lære en statisk vektorrepræsentation af et målord, der optimalt forudsiger ordets kontekst. Underordsmodeller repræsenterer på den anden side hvert målord som en pose af tegnet n-gram, der udgør ordet, hvor et n-gram er sammensat af et sæt af n på hinanden følgende tegn. Denne metode giver mulighed for, at indlejringsmodellen bedre repræsenterer den underliggende morfologi af relaterede ord i korpus såvel som beregningen af indlejringer for nye ord uden for ordforråd (OOV). Dette er især vigtigt i forbindelse med onlinesamtaler, et problemområde, hvor brugere ofte staver ord forkert (nogle gange med vilje for at undgå opdagelse) og også bruger et unikt, konstant udviklende ordforråd, som måske ikke fanges af et generelt træningskorpus.

Amazon SageMaker gør det nemt at træne og optimere en uovervåget indlejringsmodel for underord på dit eget korpus af domænespecifikke tekstdata med den indbyggede BlazingText algoritme. Vi kan også downloade eksisterende modeller til generelle formål, der er trænet på store datasæt af online tekst, såsom følgende Engelsksprogede modeller tilgængelige direkte fra fastText. Fra din SageMaker notebook-instans skal du blot køre følgende for at downloade en forudtrænet fastText-model:

!wget -O vectors.zip https://dl.fbaipublicfiles.com/fasttext/vectors-english/crawl-300d-2M-subword.zip

Uanset om du har trænet dine egne indlejringer med BlazingText eller downloadet en fortrænet model, er resultatet en zippet modelbinær, som du kan bruge med gensim-biblioteket til at indlejre et givet målord som en vektor baseret på dets konstituerende underord:

# Imports
import os
from zipfile import ZipFile
from gensim.models.fasttext import load_facebook_vectors # Unzip the model binary into 'dir_path'
with ZipFile('vectors.zip', 'r') as zipObj: zipObj.extractall(path=<dir_path_name>) # Load embedding model into memory
embed_model = load_facebook_vectors(os.path.join(<dir_path_name>, 'vectors.bin')) # Compute embedding vector for 'word'
word_embedding = embed_model[word]

Efter at vi har forbehandlet et givent tekstsegment, kan vi bruge denne tilgang til at generere en vektorrepræsentation for hvert af de konstituerende ord (adskilt med mellemrum). Vi bruger derefter SageMaker og en deep learning-ramme som PyTorch til at træne en tilpasset RNN med et binært eller multilabel klassifikationsmål for at forudsige, om teksten er giftig eller ej, og den specifikke undertype af toksicitet baseret på mærkede træningseksempler.

For at uploade din forbehandlede tekst til Amazon Simple Storage Service (Amazon S3), brug følgende kode:

import boto3
s3 = boto3.client('s3') bucket = <bucket_name>
prefix = <prefix_name> s3.upload_file('train.pkl', bucket, os.path.join(prefix, 'train/train.pkl'))
s3.upload_file('valid.pkl', bucket, os.path.join(prefix, 'valid/valid.pkl'))
s3.upload_file('test.pkl', bucket, os.path.join(prefix, 'test/test.pkl'))

Indtast følgende kode for at starte skalerbar multi-GPU-modeltræning med SageMaker:

import sagemaker
sess = sagemaker.Session()
role = iam.get_role(RoleName= ‘AmazonSageMakerFullAccess’)['Role']['Arn'] from sagemaker.pytorch import PyTorch # hyperparameters, which are passed into the training job
hyperparameters = { 'epochs': 20, # Maximum number of epochs to train model 'train-batch-size': 128, # Training batch size (No. sentences) 'eval-batch-size': 1024, # Evaluation batch size (No. sentences) 'embed-size': 300, # Vector dimension of word embeddings (Must match embedding model) 'lstm-hidden-size': 200, # Number of neurons in LSTM hidden layer 'lstm-num-layers': 2, # Number of stacked LSTM layers 'proj-size': 100, # Number of neurons in intermediate projection layer 'num-targets': len(<list_of_label_names>), # Number of targets for classification 'class-weight': ' '.join([str(c) for c in <list_of_weights_per_class>]), # Weight to apply to each target during training 'total-length':<max_number_of_words_per_sentence>, 'metric-for-best-model': 'ap_score_weighted', # Metric on which to select the best model
} # create the Estimator
pytorch_estimator = PyTorch( entry_point='train.py', source_dir=<source_dir_path>, instance_type=<train_instance_type>, volume_size=200, instance_count=1, role=role, framework_version='1.6.0’, py_version='py36', hyperparameters=hyperparameters, metric_definitions=[ {'Name': 'validation:accuracy', 'Regex': 'eval_accuracy = (.*?);'}, {'Name': 'validation:f1-micro', 'Regex': 'eval_f1_score_micro = (.*?);'}, {'Name': 'validation:f1-macro', 'Regex': 'eval_f1_score_macro = (.*?);'}, {'Name': 'validation:f1-weighted', 'Regex': 'eval_f1_score_weighted = (.*?);'}, {'Name': 'validation:ap-micro', 'Regex': 'eval_ap_score_micro = (.*?);'}, {'Name': 'validation:ap-macro', 'Regex': 'eval_ap_score_macro = (.*?);'}, {'Name': 'validation:ap-weighted', 'Regex': 'eval_ap_score_weighted = (.*?);'}, {'Name': 'validation:auc-micro', 'Regex': 'eval_auc_score_micro = (.*?);'}, {'Name': 'validation:auc-macro', 'Regex': 'eval_auc_score_macro = (.*?);'}, {'Name': 'validation:auc-weighted', 'Regex': 'eval_auc_score_weighted = (.*?);'} ]
) pytorch_estimator.fit( { 'train': 's3://<bucket_name>/<prefix_name>/train', 'valid': 's3://<bucket_name>/<prefix_name>/valid', 'test': 's3://<bucket_name>/<prefix_name>/test' }
)

Inden for , definerer vi et PyTorch-datasæt, der bruges af train.py at forberede tekstdataene til træning og evaluering af modellen:

def pad_matrix(m: torch.Tensor, max_len: int =100)-> tuple[int, torch.Tensor] : """Pads an embedding matrix to a specified maximum length.""" if m.ndim == 1: m = m.reshape(1, -1) mask = np.ones_like(m) if m.shape[0] > max_len: m = m[:max_len, :] mask = mask[:max_len, :] else: m = np.pad(m, ((0, max_len - m.shape[0]), (0,0))) mask = np.pad(mask, ((0, max_len - mask.shape[0]), (0,0))) return m, mask class EmbeddingDataset(Dataset: torch.utils.data.Dataset): """PyTorch dataset representing pretrained sentence embeddings, masks, and labels.""" def __init__(self, text: str, labels: int, max_len: int=100): self.text = text self.labels = labels self.max_len = max_len def __len__(self) -> int: return len(self.labels) def __getitem__(self, idx: int) -> dict: e = embed_line(self.text[idx]) length = e.shape[0] m, mask = pad_matrix(e, max_len=self.max_len) item = {} item['embeddings'] = torch.from_numpy(m) item['mask'] = torch.from_numpy(mask) item['labels'] = torch.tensor(self.labels[idx]) if length > self.max_len: item['lengths'] = torch.tensor(self.max_len) else: item['lengths'] = torch.tensor(length) return item

Bemærk, at denne kode forudser, at vectors.zip fil, der indeholder dine fastText- eller BlazingText-indlejringer, vil blive gemt i .

Derudover kan du nemt implementere forudtrænede fastText-modeller på egen hånd til levende SageMaker-slutpunkter til at beregne indlejringsvektorer på farten til brug i relevante opgaver på ordniveau. Se følgende GitHub eksempel for flere detaljer.

Transformere med kramende ansigt

For vores anden modelleringstilgang går vi over til brugen af Transformers, introduceret i papiret Opmærksomhed er alt hvad du behøver. Transformere er deep learning-modeller designet til bevidst at undgå faldgruberne ved RNN'er ved at stole på en selvopmærksomhedsmekanisme til at tegne globale afhængigheder mellem input og output. Transformer-modelarkitekturen giver mulighed for væsentlig bedre parallelisering og kan opnå høj ydeevne på relativt kort træningstid.

Bygget på succesen med Transformers, BERT, introduceret i avisen BERT: Fortræning af dybe tovejstransformere til sprogforståelse, tilføjet tovejs fortræning til sprogrepræsentation. Inspireret af Cloze-opgaven er BERT fortrænet med masked language modeling (MLM), hvor modellen lærer at gendanne de originale ord for tilfældigt maskerede tokens. BERT-modellen er også fortrænet på den næste sætningsforudsigelse (NSP) opgave til at forudsige, om to sætninger er i korrekt læserækkefølge. Siden dets fremkomst i 2018 har BERT og dets variationer været meget brugt i tekstklassificeringsopgaver.

Vores løsning bruger en variant af BERT kendt som RoBERTa, som blev introduceret i papiret ROBERTa: En robust optimeret BERT-fortræningstilgang. ROBERTa forbedrer yderligere BERT-ydeevnen på en række naturlige sprogopgaver ved at optimere modeltræning, herunder træning af modeller længere på et 10 gange større korpus, ved hjælp af optimerede hyperparametre, dynamisk tilfældig maskering, fjernelse af NSP-opgaven og mere.

Vores RobERTa-baserede modeller bruger Krammede ansigtstransformere bibliotek, som er en populær open source Python-ramme, der giver højkvalitetsimplementeringer af alle slags avancerede Transformer-modeller til en række NLP-opgaver. Hugging Face har indgået partnerskab med AWS så du nemt kan træne og implementere Transformer-modeller på SageMaker. Denne funktionalitet er tilgængelig via Hugging Face AWS Deep Learning Container billeder, som omfatter bibliotekerne Transformers, Tokenizers og Datasæt og optimeret integration med SageMaker til modeltræning og inferens.

I vores implementering arver vi RoBERTa-arkitektur-rygraden fra Hugging Face Transformers-rammeværket og bruger SageMaker til at træne og implementere vores egen tekstklassificeringsmodel, som vi kalder RoBERTox. RobERTox bruger byte par kodning (BPE), introduceret i Neural maskinoversættelse af sjældne ord med underordsenheder, for at tokenisere inputtekst til underordsrepræsentationer. Vi kan derefter træne vores modeller og tokenizere på Jigsaw-dataene eller et hvilket som helst stort domænespecifikt korpus (såsom chatlogs fra et specifikt spil) og bruge dem til tilpasset tekstklassificering. Vi definerer vores tilpassede klassifikationsmodelklasse i følgende kode:

class RoBERToxForSequenceClassification(CustomLossMixIn, RobertaPreTrainedModel): _keys_to_ignore_on_load_missing = [r"position_ids"] def __init__(self, config: PretrainedConfig, *inputs, **kwargs): """Initialize the RoBERToxForSequenceClassification instance Parameters ---------- config : PretrainedConfig num_labels : Optional[int] if not None, overwrite the default classification head in pretrained model. mode : Optional[str] 'MULTI_CLASS', 'MULTI_LABEL' or "REGRESSION". Used to determine loss class_weight : Optional[List[float]] If not None, add class weight to BCEWithLogitsLoss or CrossEntropyLoss """ super().__init__(config, *inputs, **kwargs) # Define model architecture self.roberta = RobertaModel(self.config, add_pooling_layer=False) self.classifier = RobertaClassificationHead(self.config) self.init_weights() @modeling_roberta.add_start_docstrings_to_model_forward( modeling_roberta.ROBERTA_INPUTS_DOCSTRING.format("batch_size, sequence_length") ) @modeling_roberta.add_code_sample_docstrings( tokenizer_class=modeling_roberta._TOKENIZER_FOR_DOC, checkpoint=modeling_roberta._CHECKPOINT_FOR_DOC, output_type=SequenceClassifierOutput, config_class=modeling_roberta._CONFIG_FOR_DOC, ) def forward( self, input_ids: torch.Tensor = None, attention_mask: torch.Tensor = None, token_type_ids: torch.Tensor = None, position_ids: torch.Tensor =None, head_mask: torch.Tensor =None, inputs_embeds: torch.Tensor =None, labels: torch.Tensor =None, output_attentions: torch.Tensor =None, output_hidden_states: torch.Tensor =None, return_dict: bool =None, sample_weights: torch.Tensor =None, ) -> : dict: """Forward pass to return loss, logits, ... Returns -------- output : SequenceClassifierOutput has those keys: loss, logits, hidden states, attentions """ return_dict = return_dict or self.config.use_return_dict outputs = self.roberta( input_ids, attention_mask=attention_mask, token_type_ids=token_type_ids, position_ids=position_ids, head_mask=head_mask, inputs_embeds=inputs_embeds, output_attentions=output_attentions, output_hidden_states=output_hidden_states, return_dict=return_dict, ) sequence_output = outputs[0] # [CLS] embedding logits = self.classifier(sequence_output) loss = self.compute_loss(logits, labels, sample_weights=sample_weights) if not return_dict: output = (logits,) + outputs[2:] return ((loss,) + output) if loss is not None else output return SequenceClassifierOutput( loss=loss, logits=logits, hidden_states=outputs.hidden_states, attentions=outputs.attentions, ) def compute_loss(self, logits: torch.Tensor, labels: torch.Tensor, sample_weights: Optional[torch.Tensor] = None) -> torch.FloatTensor: return super().compute_loss(logits, labels, sample_weights)

Før træning forbereder vi vores tekstdata og etiketter ved hjælp af Hugging Faces datasætbibliotek og uploader resultatet til Amazon S3:

from datasets import Dataset
import multiprocessing data_train = Dataset.from_pandas(df_train)
… tokenizer = <instantiated_huggingface_tokenizer> def preprocess_function(examples: examples) -> torch.Tensor: result = tokenizer(examples["text"], padding="max_length", max_length=128, truncation=True) return result num_proc = multiprocessing.cpu_count()
print("Number of CPUs =", num_proc) data_train = data_train.map( preprocess_function, batched=True, load_from_cache_file=False, num_proc=num_proc
)
… import botocore
from datasets.filesystems import S3FileSystem s3_session = botocore.session.Session() # create S3FileSystem instance with s3_session
s3 = S3FileSystem(session=s3_session) # saves encoded_dataset to your s3 bucket
data_train.save_to_disk(f's3://<bucket_name>/<prefix_name>/train', fs=s3)
…

Vi starter træning af modellen på samme måde som RNN:

import sagemaker
sess = sagemaker.Session()
role = sagemaker.get_execution_role()
from sagemaker.huggingface import HuggingFace # hyperparameters, which are passed into the training job
hyperparameters = { 'model-name': <huggingface_base_model_name>, 'epochs': 10, 'train-batch-size': 32, 'eval-batch-size': 64, 'num-labels': len(<list_of_label_names>), 'class-weight': ' '.join([str(c) for c in <list_of_class_weights>]), 'metric-for-best-model': 'ap_score_weighted', 'save-total-limit': 1,
} # create the Estimator
huggingface_estimator = HuggingFace( entry_point='train.py', source_dir=<source_dir_path>, instance_type=<train_instance_type>, instance_count=1, role=role, transformers_version='4.6.1', pytorch_version='1.7.1', py_version='py36', hyperparameters=hyperparameters, metric_definitions=[ {'Name': 'validation:accuracy', 'Regex': 'eval_accuracy = (.*?);'}, {'Name': 'validation:f1-micro', 'Regex': 'eval_f1_score_micro = (.*?);'}, {'Name': 'validation:f1-macro', 'Regex': 'eval_f1_score_macro = (.*?);'}, {'Name': 'validation:f1-weighted', 'Regex': 'eval_f1_score_weighted = (.*?);'}, {'Name': 'validation:ap-micro', 'Regex': 'eval_ap_score_micro = (.*?);'}, {'Name': 'validation:ap-macro', 'Regex': 'eval_ap_score_macro = (.*?);'}, {'Name': 'validation:ap-weighted', 'Regex': 'eval_ap_score_weighted = (.*?);'}, {'Name': 'validation:auc-micro', 'Regex': 'eval_auc_score_micro = (.*?);'}, {'Name': 'validation:auc-macro', 'Regex': 'eval_auc_score_macro = (.*?);'}, {'Name': 'validation:auc-weighted', 'Regex': 'eval_auc_score_weighted = (.*?);'} ]
) huggingface_estimator.fit( { 'train': 's3://<bucket_name>/<prefix_name>/train', 'valid': 's3://<bucket_name>/<prefix_name>/valid', 'test': 's3://<bucket_name>/<prefix_name>/test'
)

Endelig illustrerer følgende Python-kodestykke processen med at betjene RobERTox via et live SageMaker-slutpunkt til realtidstekstklassificering for en JSON-anmodning:

from sagemaker.huggingface import HuggingFaceModel
from sagemaker import get_execution_role
from sagemaker.predictor import Predictor
from sagemaker.serializers import JSONSerializer
from sagemaker.deserializers import JSONDeserializer class Classifier(Predictor): def __init__(self, endpoint_name, sagemaker_session): super().__init__(endpoint_name, sagemaker_session, serializer=JSONSerializer(), deserializer=JSONDeserializer()) hf_model = HuggingFaceModel( role=get_execution_role(), model_data=<s3_model_and_tokenizer.tar.gz>, entry_point="inference.py", transformers_version="4.6.1", pytorch_version="1.7.1", py_version="py36", predictor_cls=Classifier
) predictor = hf_model.deploy(instance_type=<deploy_instance_type>, initial_instance_count=1)

Evaluering af modellens ydeevne: Jigsaw utilsigtet bias-datasæt

Følgende tabel indeholder præstationsmålinger for modeller, der er trænet og evalueret på data fra Jigsaw Unintended Bias in Toxicity Detection Kaggle-konkurrencen. Vi trænede modeller til tre forskellige, men indbyrdes forbundne opgaver:

Binær sag – Modellen blev trænet på det fulde træningsdatasæt til at forudsige toxicity kun mærke
Finkornet sag – Den delmængde af træningsdata, for hvilken toxicity>=0.5 blev brugt til at forudsige andre toksicitetssubtypemærker (obscene, threat, insult, identity_attack, sexual_explicit)
Multitask case – Det fulde træningsdatasæt blev brugt til at forudsige alle seks etiketter samtidigt

Vi trænede RNN- og RobERTa-modeller til hver af disse tre opgaver ved hjælp af de stiksavsleverede brøketiketter, som svarer til andelen af annotatorer, der mente, at etiketten var passende til teksten, samt med binære etiketter kombineret med klassevægte i netværket tabsfunktion. I det binære mærkningsskema blev proportionerne sat til 0.5 for hver tilgængelig etiket (1 hvis etiket>=0.5, ellers 0), og modeltabsfunktionerne blev vægtet baseret på de relative andele af hver binær etiket i træningsdatasættet. I alle tilfælde fandt vi ud af, at brugen af brøketiketterne direkte resulterede i den bedste ydeevne, hvilket indikerer merværdien af de oplysninger, der er iboende i graden af overensstemmelse mellem annotatorer.

Vi viser to modelmetrikker: gennemsnitspræcisionen (AP), som giver en oversigt over præcisions-genkaldelseskurven ved at beregne det vægtede gennemsnit af præcisionsværdierne opnået ved hver klassificeringstærskel, og arealet under modtagerens driftskarakteristikkurve (AUC) , som aggregerer modellens ydeevne på tværs af klassifikationstærskler med hensyn til den sande positive rate og falsk positive rate. Bemærk, at den sande klasse for en given tekstforekomst i testsættet svarer til, om den sande andel er større end eller lig med 0.5 (1 hvis label>=0.5, ellers 0).

.	Indlejring af underord + RNN	ROBERTA
.	Fraktionelle etiketter	Binære etiketter + Klassevægtning	Fraktionelle etiketter	Binære etiketter + Klassevægtning
Binary	AP=0.746, AUC=0.966	AP=0.730, AUC=0.963	AP=0.758, AUC=0.966	AP=0.747, AUC=0.963
Finkornet	AP=0.906, AUC=0.909	AP=0.850, AUC=0.851	AP=0.913, AUC=0.913	AP=0.911, AUC=0.912
Multitask	AP=0.721, AUC=0.972	AP=0.535, AUC=0.907	AP=0.740, AUC=0.972	AP=0.711, AUC=0.961

Konklusion

I dette indlæg præsenterede vi to tekstklassificeringstilgange til onlinesamtaler ved hjælp af AWS ML-tjenester. Du kan generalisere disse løsninger på tværs af online kommunikationsplatforme, hvor industrier som spil er særligt tilbøjelige til at drage fordel af forbedret evne til at opdage skadeligt indhold. I fremtidige indlæg planlægger vi yderligere at diskutere en ende-til-ende-arkitektur til problemfri implementering af modeller på din AWS-konto.

Hvis du gerne vil have hjælp til at fremskynde din brug af ML i dine produkter og processer, så kontakt venligst Amazon ML Solutions Lab.

Om forfatterne

Tekstklassificering til onlinesamtaler med maskinlæring på AWS PlatoBlockchain Data Intelligence. Lodret søgning. Ai. Ryan Brand er dataforsker i Amazon Machine Learning Solutions Lab. Han har specifik erfaring med at anvende maskinlæring på problemer inden for sundhedsvæsenet og biovidenskaberne, og i sin fritid nyder han at læse historie og science fiction.

Sourav Bhabesh er dataforsker ved Amazon ML Solutions Lab. Han udvikler AI/ML-løsninger til AWS-kunder på tværs af forskellige brancher. Hans speciale er Natural Language Processing (NLP) og brænder for dyb læring. Uden for arbejdet holder han af at læse bøger og rejse.

Liutong Zhou er en anvendt videnskabsmand ved Amazon ML Solutions Lab. Han bygger skræddersyede AI/ML-løsninger til AWS-kunder på tværs af forskellige brancher. Han har specialiseret sig i Natural Language Processing (NLP) og brænder for multimodal deep learning. Han er en lyrisk tenor og nyder at synge operaer uden for arbejdet.

Sia Gholami er Senior Data Scientist hos Amazon ML Solutions Lab, hvor han bygger AI/ML-løsninger til kunder på tværs af forskellige brancher. Han brænder for naturlig sprogbehandling (NLP) og deep learning. Uden for arbejdet nyder Sia at tilbringe tid i naturen og spille tennis.

Daniel Horowitz er en Applied AI Science Manager. Han leder et team af forskere på Amazon ML Solutions Lab, der arbejder på at løse kundeproblemer og drive cloud-adoption med ML.

Tidsstempel: 29. Juni, 2022

Tidsstempel: Juni 23, 2022

Tekstklassificering til onlinesamtaler med maskinlæring på AWS

Genudgivet af Platon

Forudsætninger

datasæt

Indlejring af underord og RNN'er

Transformere med kramende ansigt

Evaluering af modellens ydeevne: Jigsaw utilsigtet bias-datasæt

Konklusion

Om forfatterne

Mere fra AWS maskinindlæring

Intelligent dokumentbehandling med AWS AI-tjenester: Del 1

Vær vært for Hugging Face-transformermodeller ved hjælp af Amazon SageMaker Serverless Inference

Distribueret træning med Amazon EKS og Torch Distributed Elastic

Exafunction understøtter AWS Inferentia for at låse op for den bedste prisydelse til maskinlæringsslutning

Amazon SageMaker indbyggede LightGBM tilbyder nu distribueret træning ved hjælp af Dask

Ny udvidet dataformatunderstøttelse i Amazon Kendra

Optimer hyperparametre med Amazon SageMaker Automatic Model Tuning

Om os

Vertikal søgning & Ai

perron

Stay Connected

Konto