Tekstclassificatie voor online gesprekken met machine learning op AWS

Heruitgegeven door Plato

volgers: 0

Online gesprekken zijn alomtegenwoordig in het moderne leven, in sectoren van videogames tot telecommunicatie. Dit heeft geleid tot een exponentiële groei van de hoeveelheid online gespreksgegevens, wat heeft bijgedragen aan de ontwikkeling van state-of-the-art natural language processing (NLP)-systemen zoals chatbots en natural language generation (NLG)-modellen. In de loop van de tijd zijn er ook verschillende NLP-technieken voor tekstanalyse ontwikkeld. Dit vereist de vereiste van een volledig beheerde service die kan worden geïntegreerd in applicaties met behulp van API-aanroepen zonder de noodzaak van uitgebreide machine learning (ML)-expertise. AWS biedt vooraf getrainde AWS AI-services zoals: Amazon begrijpt het, die NLP-gebruikscasussen effectief aankan met classificatie, tekstsamenvattingen, entiteitsherkenning en meer om inzichten uit tekst te verzamelen.

Bovendien hebben online gesprekken geleid tot een wijdverbreid fenomeen van niet-traditioneel taalgebruik. Traditionele NLP-technieken presteren vaak slecht op deze tekstgegevens vanwege de voortdurend evoluerende en domeinspecifieke vocabulaires die binnen verschillende platforms bestaan, evenals de aanzienlijke lexicale afwijkingen van woorden van het juiste Engels, hetzij per ongeluk of opzettelijk als een vorm van vijandige aanval .

In dit bericht beschrijven we meerdere ML-benaderingen voor tekstclassificatie van online gesprekken met tools en services die beschikbaar zijn op AWS.

Voorwaarden

Voordat u diep in deze use-case duikt, moet u aan de volgende vereisten voldoen:

Stel een AWS-account en maak een IAM-gebruiker aan.
Stel de AWS CLI en AWS SDK's.
(Optioneel) Stel uw . in Cloud9 IDE-omgeving.

dataset

Voor dit bericht gebruiken we de Jigsaw Onbedoelde bias in dataset voor toxiciteitsclassificatie, een benchmark voor het specifieke probleem van classificatie van toxiciteit in online gesprekken. De dataset biedt toxiciteitslabels en verschillende subgroepkenmerken zoals obsceen, identiteitsaanval, belediging, bedreiging en seksueel expliciet. Labels worden geleverd als fractionele waarden, die het aandeel menselijke annotators vertegenwoordigen die geloofden dat het attribuut op een bepaald stuk tekst werd toegepast, die zelden unaniem zijn. Voor het genereren van binaire labels (bijvoorbeeld toxisch of niet-toxisch), wordt een drempelwaarde van 0.5 toegepast op de fractionele waarden, en opmerkingen met waarden die groter zijn dan de drempelwaarde worden behandeld als de positieve klasse voor dat label.

Inbedding van subwoorden en RNN's

Voor onze eerste modelleringsaanpak gebruiken we een combinatie van subwoordinbedding en terugkerende neurale netwerken (RNN's) om tekstclassificatiemodellen te trainen. Inbedding van subwoorden is geïntroduceerd door Bojanowski et al. in 2017 als een verbetering ten opzichte van eerdere inbeddingsmethoden op woordniveau. Traditionele Word2Vec skip-gram modellen zijn getraind om een statische vectorrepresentatie van een doelwoord te leren die de context van dat woord optimaal voorspelt. Subwoordmodellen daarentegen stellen elk doelwoord voor als een zak met de karakters n-grammen waaruit het woord bestaat, waarbij een n-gram is samengesteld uit een set van n opeenvolgende karakters. Deze methode zorgt ervoor dat het inbeddingsmodel de onderliggende morfologie van verwante woorden in het corpus beter weergeeft, evenals de berekening van inbeddingen voor nieuwe woorden die buiten de woordenschat vallen. Dit is vooral belangrijk in de context van online gesprekken, een probleemruimte waarin gebruikers vaak woorden verkeerd spellen (soms opzettelijk om detectie te ontwijken) en ook een unieke, voortdurend evoluerende woordenschat gebruiken die misschien niet wordt vastgelegd door een algemeen trainingscorpus.

Amazon Sage Maker maakt het gemakkelijk om een onbewaakt model voor het insluiten van subwoorden op uw eigen corpus van domeinspecifieke tekstgegevens te trainen en te optimaliseren met de ingebouwde BlazingText-algoritme. We kunnen ook bestaande modellen voor algemene doeleinden downloaden die zijn getraind op grote datasets met online tekst, zoals de volgende: Engelstalige modellen direct beschikbaar bij fastText. Voer vanuit uw SageMaker-notebookinstantie het volgende uit om een vooraf getraind fastText-model te downloaden:

!wget -O vectors.zip https://dl.fbaipublicfiles.com/fasttext/vectors-english/crawl-300d-2M-subword.zip

Of je nu je eigen inbeddingen hebt getraind met BlazingText of een vooraf getraind model hebt gedownload, het resultaat is een binair gecomprimeerd model dat je met de gensim-bibliotheek kunt gebruiken om een bepaald doelwoord in te sluiten als een vector op basis van de samenstellende subwoorden:

# Imports
import os
from zipfile import ZipFile
from gensim.models.fasttext import load_facebook_vectors # Unzip the model binary into 'dir_path'
with ZipFile('vectors.zip', 'r') as zipObj: zipObj.extractall(path=<dir_path_name>) # Load embedding model into memory
embed_model = load_facebook_vectors(os.path.join(<dir_path_name>, 'vectors.bin')) # Compute embedding vector for 'word'
word_embedding = embed_model[word]

Nadat we een bepaald tekstsegment hebben voorbewerkt, kunnen we deze benadering gebruiken om een vectorrepresentatie te genereren voor elk van de samenstellende woorden (gescheiden door spaties). Vervolgens gebruiken we SageMaker en een diepgaand leerraamwerk zoals PyTorch om een aangepaste RNN te trainen met een binaire of multilabel classificatiedoelstelling om te voorspellen of de tekst giftig is of niet en het specifieke subtype van toxiciteit op basis van gelabelde trainingsvoorbeelden.

Om uw voorbewerkte tekst te uploaden naar: Amazon eenvoudige opslagservice (Amazon S3), gebruik de volgende code:

import boto3
s3 = boto3.client('s3') bucket = <bucket_name>
prefix = <prefix_name> s3.upload_file('train.pkl', bucket, os.path.join(prefix, 'train/train.pkl'))
s3.upload_file('valid.pkl', bucket, os.path.join(prefix, 'valid/valid.pkl'))
s3.upload_file('test.pkl', bucket, os.path.join(prefix, 'test/test.pkl'))

Voer de volgende code in om schaalbare, multi-GPU-modeltraining met SageMaker te starten:

import sagemaker
sess = sagemaker.Session()
role = iam.get_role(RoleName= ‘AmazonSageMakerFullAccess’)['Role']['Arn'] from sagemaker.pytorch import PyTorch # hyperparameters, which are passed into the training job
hyperparameters = { 'epochs': 20, # Maximum number of epochs to train model 'train-batch-size': 128, # Training batch size (No. sentences) 'eval-batch-size': 1024, # Evaluation batch size (No. sentences) 'embed-size': 300, # Vector dimension of word embeddings (Must match embedding model) 'lstm-hidden-size': 200, # Number of neurons in LSTM hidden layer 'lstm-num-layers': 2, # Number of stacked LSTM layers 'proj-size': 100, # Number of neurons in intermediate projection layer 'num-targets': len(<list_of_label_names>), # Number of targets for classification 'class-weight': ' '.join([str(c) for c in <list_of_weights_per_class>]), # Weight to apply to each target during training 'total-length':<max_number_of_words_per_sentence>, 'metric-for-best-model': 'ap_score_weighted', # Metric on which to select the best model
} # create the Estimator
pytorch_estimator = PyTorch( entry_point='train.py', source_dir=<source_dir_path>, instance_type=<train_instance_type>, volume_size=200, instance_count=1, role=role, framework_version='1.6.0’, py_version='py36', hyperparameters=hyperparameters, metric_definitions=[ {'Name': 'validation:accuracy', 'Regex': 'eval_accuracy = (.*?);'}, {'Name': 'validation:f1-micro', 'Regex': 'eval_f1_score_micro = (.*?);'}, {'Name': 'validation:f1-macro', 'Regex': 'eval_f1_score_macro = (.*?);'}, {'Name': 'validation:f1-weighted', 'Regex': 'eval_f1_score_weighted = (.*?);'}, {'Name': 'validation:ap-micro', 'Regex': 'eval_ap_score_micro = (.*?);'}, {'Name': 'validation:ap-macro', 'Regex': 'eval_ap_score_macro = (.*?);'}, {'Name': 'validation:ap-weighted', 'Regex': 'eval_ap_score_weighted = (.*?);'}, {'Name': 'validation:auc-micro', 'Regex': 'eval_auc_score_micro = (.*?);'}, {'Name': 'validation:auc-macro', 'Regex': 'eval_auc_score_macro = (.*?);'}, {'Name': 'validation:auc-weighted', 'Regex': 'eval_auc_score_weighted = (.*?);'} ]
) pytorch_estimator.fit( { 'train': 's3://<bucket_name>/<prefix_name>/train', 'valid': 's3://<bucket_name>/<prefix_name>/valid', 'test': 's3://<bucket_name>/<prefix_name>/test' }
)

Binnen , definiëren we een PyTorch-gegevensset die wordt gebruikt door: train.py om de tekstgegevens voor te bereiden voor training en evaluatie van het model:

def pad_matrix(m: torch.Tensor, max_len: int =100)-> tuple[int, torch.Tensor] : """Pads an embedding matrix to a specified maximum length.""" if m.ndim == 1: m = m.reshape(1, -1) mask = np.ones_like(m) if m.shape[0] > max_len: m = m[:max_len, :] mask = mask[:max_len, :] else: m = np.pad(m, ((0, max_len - m.shape[0]), (0,0))) mask = np.pad(mask, ((0, max_len - mask.shape[0]), (0,0))) return m, mask class EmbeddingDataset(Dataset: torch.utils.data.Dataset): """PyTorch dataset representing pretrained sentence embeddings, masks, and labels.""" def __init__(self, text: str, labels: int, max_len: int=100): self.text = text self.labels = labels self.max_len = max_len def __len__(self) -> int: return len(self.labels) def __getitem__(self, idx: int) -> dict: e = embed_line(self.text[idx]) length = e.shape[0] m, mask = pad_matrix(e, max_len=self.max_len) item = {} item['embeddings'] = torch.from_numpy(m) item['mask'] = torch.from_numpy(mask) item['labels'] = torch.tensor(self.labels[idx]) if length > self.max_len: item['lengths'] = torch.tensor(self.max_len) else: item['lengths'] = torch.tensor(length) return item

Merk op dat deze code anticipeert dat de vectors.zip bestand met uw fastText- of BlazingText-inbeddingen wordt opgeslagen in .

Bovendien kunt u eenvoudig vooraf getrainde fastText-modellen op zichzelf implementeren om SageMaker-eindpunten te gebruiken om insluitingsvectoren on-the-fly te berekenen voor gebruik in relevante taken op woordniveau. Zie het volgende: GitHub-voorbeeld voor meer details.

Transformatoren met knuffelend gezicht

Voor onze tweede modelleringsaanpak gaan we over op het gebruik van Transformers, geïntroduceerd in de paper Aandacht is alles wat je nodig hebt. Transformers zijn deep learning-modellen die zijn ontworpen om opzettelijk de valkuilen van RNN's te vermijden door te vertrouwen op een zelfaandachtsmechanisme om wereldwijde afhankelijkheden te trekken tussen input en output. De Transformer-modelarchitectuur zorgt voor een aanzienlijk betere parallellisatie en kan hoge prestaties behalen in relatief korte trainingstijd.

Gebouwd op het succes van Transformers, BERT, geïntroduceerd in de krant BERT: Pre-training van Deep Bidirectional Transformers for Language Understanding, toegevoegde bidirectionele pre-training voor taalrepresentatie. Geïnspireerd door de Cloze-taak, is BERT vooraf getraind met gemaskeerde taalmodellering (MLM), waarbij het model leert de originele woorden voor willekeurig gemaskeerde tokens te herstellen. Het BERT-model is ook voorgetraind op de volgende zin voorspelling (NSP) taak om te voorspellen of twee zinnen in de juiste leesvolgorde staan. Sinds de komst in 2018 worden BERT en zijn variaties veel gebruikt in tekstclassificatietaken.

Onze oplossing maakt gebruik van een variant van BERT, bekend als RoBERTa, die in de krant werd geïntroduceerd RoBERTa: een robuust geoptimaliseerde BERT-vooropleiding. RoBERTa verbetert de BERT-prestaties op een verscheidenheid aan natuurlijke taaltaken verder door geoptimaliseerde modeltraining, inclusief trainingsmodellen die langer zijn op een 10 keer groter groter corpus, met behulp van geoptimaliseerde hyperparameters, dynamische willekeurige maskering, het verwijderen van de NSP-taak en meer.

Onze op RoBERTa gebaseerde modellen gebruiken de Face Transformers knuffelen bibliotheek, een populair open-source Python-framework dat hoogwaardige implementaties biedt van allerlei geavanceerde Transformer-modellen voor een verscheidenheid aan NLP-taken. Hugging Face werkt samen met AWS zodat u gemakkelijk Transformer-modellen kunt trainen en implementeren op SageMaker. Deze functionaliteit is beschikbaar via: Hugging Face AWS Deep Learning Container-afbeeldingen, waaronder de Transformers, Tokenizers en Datasets-bibliotheken, en geoptimaliseerde integratie met SageMaker voor modeltraining en inferentie.

In onze implementatie nemen we de RoBERTa-architectuurruggengraat over van het Hugging Face Transformers-framework en gebruiken we SageMaker om ons eigen tekstclassificatiemodel te trainen en te implementeren, dat we RoBERTox noemen. RoBERTox maakt gebruik van byte pair-codering (BPE), geïntroduceerd in Neurale machinevertaling van zeldzame woorden met subwoordeenheden, om invoertekst te tokeniseren in subwoordrepresentaties. We kunnen dan onze modellen en tokenizers trainen op de Jigsaw-gegevens of een groot domeinspecifiek corpus (zoals de chatlogboeken van een specifiek spel) en ze gebruiken voor aangepaste tekstclassificatie. We definiëren onze aangepaste classificatiemodelklasse in de volgende code:

class RoBERToxForSequenceClassification(CustomLossMixIn, RobertaPreTrainedModel): _keys_to_ignore_on_load_missing = [r"position_ids"] def __init__(self, config: PretrainedConfig, *inputs, **kwargs): """Initialize the RoBERToxForSequenceClassification instance Parameters ---------- config : PretrainedConfig num_labels : Optional[int] if not None, overwrite the default classification head in pretrained model. mode : Optional[str] 'MULTI_CLASS', 'MULTI_LABEL' or "REGRESSION". Used to determine loss class_weight : Optional[List[float]] If not None, add class weight to BCEWithLogitsLoss or CrossEntropyLoss """ super().__init__(config, *inputs, **kwargs) # Define model architecture self.roberta = RobertaModel(self.config, add_pooling_layer=False) self.classifier = RobertaClassificationHead(self.config) self.init_weights() @modeling_roberta.add_start_docstrings_to_model_forward( modeling_roberta.ROBERTA_INPUTS_DOCSTRING.format("batch_size, sequence_length") ) @modeling_roberta.add_code_sample_docstrings( tokenizer_class=modeling_roberta._TOKENIZER_FOR_DOC, checkpoint=modeling_roberta._CHECKPOINT_FOR_DOC, output_type=SequenceClassifierOutput, config_class=modeling_roberta._CONFIG_FOR_DOC, ) def forward( self, input_ids: torch.Tensor = None, attention_mask: torch.Tensor = None, token_type_ids: torch.Tensor = None, position_ids: torch.Tensor =None, head_mask: torch.Tensor =None, inputs_embeds: torch.Tensor =None, labels: torch.Tensor =None, output_attentions: torch.Tensor =None, output_hidden_states: torch.Tensor =None, return_dict: bool =None, sample_weights: torch.Tensor =None, ) -> : dict: """Forward pass to return loss, logits, ... Returns -------- output : SequenceClassifierOutput has those keys: loss, logits, hidden states, attentions """ return_dict = return_dict or self.config.use_return_dict outputs = self.roberta( input_ids, attention_mask=attention_mask, token_type_ids=token_type_ids, position_ids=position_ids, head_mask=head_mask, inputs_embeds=inputs_embeds, output_attentions=output_attentions, output_hidden_states=output_hidden_states, return_dict=return_dict, ) sequence_output = outputs[0] # [CLS] embedding logits = self.classifier(sequence_output) loss = self.compute_loss(logits, labels, sample_weights=sample_weights) if not return_dict: output = (logits,) + outputs[2:] return ((loss,) + output) if loss is not None else output return SequenceClassifierOutput( loss=loss, logits=logits, hidden_states=outputs.hidden_states, attentions=outputs.attentions, ) def compute_loss(self, logits: torch.Tensor, labels: torch.Tensor, sample_weights: Optional[torch.Tensor] = None) -> torch.FloatTensor: return super().compute_loss(logits, labels, sample_weights)

Voor de training bereiden we onze tekstgegevens en labels voor met behulp van de datasetsbibliotheek van Hugging Face en uploaden het resultaat naar Amazon S3:

from datasets import Dataset
import multiprocessing data_train = Dataset.from_pandas(df_train)
… tokenizer = <instantiated_huggingface_tokenizer> def preprocess_function(examples: examples) -> torch.Tensor: result = tokenizer(examples["text"], padding="max_length", max_length=128, truncation=True) return result num_proc = multiprocessing.cpu_count()
print("Number of CPUs =", num_proc) data_train = data_train.map( preprocess_function, batched=True, load_from_cache_file=False, num_proc=num_proc
)
… import botocore
from datasets.filesystems import S3FileSystem s3_session = botocore.session.Session() # create S3FileSystem instance with s3_session
s3 = S3FileSystem(session=s3_session) # saves encoded_dataset to your s3 bucket
data_train.save_to_disk(f's3://<bucket_name>/<prefix_name>/train', fs=s3)
…

We starten de training van het model op een vergelijkbare manier als de RNN:

import sagemaker
sess = sagemaker.Session()
role = sagemaker.get_execution_role()
from sagemaker.huggingface import HuggingFace # hyperparameters, which are passed into the training job
hyperparameters = { 'model-name': <huggingface_base_model_name>, 'epochs': 10, 'train-batch-size': 32, 'eval-batch-size': 64, 'num-labels': len(<list_of_label_names>), 'class-weight': ' '.join([str(c) for c in <list_of_class_weights>]), 'metric-for-best-model': 'ap_score_weighted', 'save-total-limit': 1,
} # create the Estimator
huggingface_estimator = HuggingFace( entry_point='train.py', source_dir=<source_dir_path>, instance_type=<train_instance_type>, instance_count=1, role=role, transformers_version='4.6.1', pytorch_version='1.7.1', py_version='py36', hyperparameters=hyperparameters, metric_definitions=[ {'Name': 'validation:accuracy', 'Regex': 'eval_accuracy = (.*?);'}, {'Name': 'validation:f1-micro', 'Regex': 'eval_f1_score_micro = (.*?);'}, {'Name': 'validation:f1-macro', 'Regex': 'eval_f1_score_macro = (.*?);'}, {'Name': 'validation:f1-weighted', 'Regex': 'eval_f1_score_weighted = (.*?);'}, {'Name': 'validation:ap-micro', 'Regex': 'eval_ap_score_micro = (.*?);'}, {'Name': 'validation:ap-macro', 'Regex': 'eval_ap_score_macro = (.*?);'}, {'Name': 'validation:ap-weighted', 'Regex': 'eval_ap_score_weighted = (.*?);'}, {'Name': 'validation:auc-micro', 'Regex': 'eval_auc_score_micro = (.*?);'}, {'Name': 'validation:auc-macro', 'Regex': 'eval_auc_score_macro = (.*?);'}, {'Name': 'validation:auc-weighted', 'Regex': 'eval_auc_score_weighted = (.*?);'} ]
) huggingface_estimator.fit( { 'train': 's3://<bucket_name>/<prefix_name>/train', 'valid': 's3://<bucket_name>/<prefix_name>/valid', 'test': 's3://<bucket_name>/<prefix_name>/test'
)

Ten slotte illustreert het volgende Python-codefragment het proces van het bedienen van RoBERTox via een live SageMaker-eindpunt voor realtime tekstclassificatie voor een JSON-verzoek:

from sagemaker.huggingface import HuggingFaceModel
from sagemaker import get_execution_role
from sagemaker.predictor import Predictor
from sagemaker.serializers import JSONSerializer
from sagemaker.deserializers import JSONDeserializer class Classifier(Predictor): def __init__(self, endpoint_name, sagemaker_session): super().__init__(endpoint_name, sagemaker_session, serializer=JSONSerializer(), deserializer=JSONDeserializer()) hf_model = HuggingFaceModel( role=get_execution_role(), model_data=<s3_model_and_tokenizer.tar.gz>, entry_point="inference.py", transformers_version="4.6.1", pytorch_version="1.7.1", py_version="py36", predictor_cls=Classifier
) predictor = hf_model.deploy(instance_type=<deploy_instance_type>, initial_instance_count=1)

Evaluatie van modelprestaties: onbedoelde bias-dataset puzzelen

De volgende tabel bevat prestatiestatistieken voor modellen die zijn getraind en geëvalueerd op basis van gegevens van de Jigsaw Unintended Bias in Toxicity Detection Kaggle-competitie. We hebben modellen getraind voor drie verschillende, maar onderling samenhangende taken:

Binair geval – Het model is getraind op de volledige trainingsdataset om de toxicity alleen labelen
Fijnkorrelige behuizing – De subset van de trainingsgegevens waarvoor toxicity>=0.5 werd gebruikt om andere toxiciteitssubtypelabels te voorspellen (obscene, threat, insult, identity_attack, sexual_explicit)
Multitask-koffer – De volledige trainingsdataset werd gebruikt om alle zes labels tegelijkertijd te voorspellen

We hebben RNN- en RoBERTa-modellen getraind voor elk van deze drie taken met behulp van de door Jigsaw geleverde fractionele labels, die overeenkomen met het aandeel annotators die dachten dat het label geschikt was voor de tekst, evenals met binaire labels gecombineerd met klassegewichten in het netwerk verlies functie. In het binaire labelschema werden de verhoudingen gedrempeld op 0.5 voor elk beschikbaar label (1 als label> = 0.5, anders 0), en de modelverliesfuncties werden gewogen op basis van de relatieve verhoudingen van elk binair label in de trainingsgegevensset. In alle gevallen vonden we dat het gebruik van fractionele labels direct de beste prestaties opleverde, wat de toegevoegde waarde aangeeft van de informatie die inherent is aan de mate van overeenstemming tussen annotators.

We geven twee modelstatistieken weer: de gemiddelde precisie (AP), die een samenvatting geeft van de precisie-herinneringscurve door het gewogen gemiddelde te berekenen van de precisiewaarden die zijn bereikt bij elke classificatiedrempel, en het gebied onder de receiver operating karakteristieke curve (AUC) , die modelprestaties verzamelt over classificatiedrempels met betrekking tot het percentage echte positieve en valse positieven. Merk op dat de ware klasse voor een gegeven tekstinstantie in de testset overeenkomt met of de ware verhouding groter is dan of gelijk is aan 0.5 (1 als label>=0.5, anders 0).

.	Inbedding van subwoorden + RNN	RoBERTa
.	Fractionele labels	Binaire labels + Klasse-weging	Fractionele labels	Binaire labels + Klasse-weging
binair	AP=0.746, AUC=0.966	AP=0.730, AUC=0.963	AP=0.758, AUC=0.966	AP=0.747, AUC=0.963
Fijn gemalen	AP=0.906, AUC=0.909	AP=0.850, AUC=0.851	AP=0.913, AUC=0.913	AP=0.911, AUC=0.912
Multitask	AP=0.721, AUC=0.972	AP=0.535, AUC=0.907	AP=0.740, AUC=0.972	AP=0.711, AUC=0.961

Conclusie

In dit bericht hebben we twee benaderingen voor tekstclassificatie gepresenteerd voor online gesprekken met behulp van AWS ML-services. U kunt deze oplossingen veralgemenen over online communicatieplatforms, waarbij bedrijfstakken zoals gaming waarschijnlijk zullen profiteren van een verbeterd vermogen om schadelijke inhoud te detecteren. In toekomstige berichten zijn we van plan om een end-to-end-architectuur verder te bespreken voor naadloze implementatie van modellen in uw AWS-account.

Als u hulp nodig heeft bij het versnellen van uw gebruik van ML in uw producten en processen, neem dan contact op met de Amazon ML Solutions-lab.

Over de auteurs

Tekstclassificatie voor online gesprekken met machine learning op AWS PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai. Ryan merk is een datawetenschapper in het Amazon Machine Learning Solutions Lab. Hij heeft specifieke ervaring met het toepassen van machine learning op problemen in de gezondheidszorg en de levenswetenschappen, en in zijn vrije tijd leest hij graag geschiedenis en sciencefiction.

Sourav Bhabesh is een datawetenschapper bij het Amazon ML Solutions Lab. Hij ontwikkelt AI/ML-oplossingen voor AWS-klanten in verschillende sectoren. Zijn specialiteit is Natural Language Processing (NLP) en is gepassioneerd door deep learning. Naast zijn werk houdt hij van boeken lezen en reizen.

Liutong Zhou is een Applied Scientist bij het Amazon ML Solutions Lab. Hij bouwt op maat gemaakte AI/ML-oplossingen voor AWS-klanten in verschillende sectoren. Hij is gespecialiseerd in Natural Language Processing (NLP) en is gepassioneerd door multimodaal deep learning. Hij is een lyrische tenor en geniet van het zingen van opera's buiten het werk.

Sia Gholami is Senior Data Scientist bij het Amazon ML Solutions Lab, waar hij AI/ML-oplossingen bouwt voor klanten in verschillende sectoren. Hij is gepassioneerd door natuurlijke taalverwerking (NLP) en deep learning. Naast haar werk brengt Sia graag tijd door in de natuur en speelt ze graag tennis.

Daniël Horowitz is een Applied AI Science Manager. Hij leidt een team van wetenschappers in het Amazon ML Solutions Lab dat werkt aan het oplossen van klantproblemen en het stimuleren van cloudadoptie met ML.

Tijdstempel: 29 June 2022

Tijdstempel: Juni 23, 2022

Tekstclassificatie voor online gesprekken met machine learning op AWS

Heruitgegeven door Plato

Voorwaarden

dataset

Inbedding van subwoorden en RNN's

Transformatoren met knuffelend gezicht

Evaluatie van modelprestaties: onbedoelde bias-dataset puzzelen

Conclusie

Over de auteurs

Meer van AWS-machine learning

Intelligente documentverwerking met AWS AI-services: deel 1

Host Hugging Face-transformatormodellen die Amazon SageMaker Serverless Inference gebruiken

Gedistribueerde training met Amazon EKS en Torch Distributed Elastic

Exafunction ondersteunt AWS Inferentia om de beste prijsprestaties voor machine learning-inferentie te ontgrendelen

Amazon SageMaker ingebouwde LightGBM biedt nu gedistribueerde training met behulp van Dask

Nieuwe uitgebreide ondersteuning voor gegevensindelingen in Amazon Kendra

Optimaliseer hyperparameters met Amazon SageMaker Automatic Model Tuning

Over Ons

Verticaal zoeken & Ai

Platform

Blijf verbonden

Account