Text Classification For Online Conversations With Machine Learning On AWS

Republicat de Platon

Urmaritori: 0

Conversațiile online sunt omniprezente în viața modernă, cuprinzând industrii de la jocuri video la telecomunicații. Acest lucru a condus la o creștere exponențială a cantității de date de conversație online, ceea ce a ajutat la dezvoltarea sistemelor de procesare a limbajului natural (NLP) de ultimă generație, cum ar fi chatbot-urile și modelele de generare a limbajului natural (NLG). De-a lungul timpului, au evoluat și diverse tehnici NLP pentru analiza textului. Acest lucru necesită cerința unui serviciu complet gestionat care poate fi integrat în aplicații folosind apeluri API fără a fi nevoie de o experiență extinsă de învățare automată (ML). AWS oferă servicii AWS AI pre-instruite, cum ar fi Amazon Comprehend, care poate gestiona eficient cazurile de utilizare a NLP care implică clasificare, rezumare a textului, recunoaștere a entităților și multe altele pentru a aduna informații din text.

În plus, conversațiile online au dus la un fenomen larg răspândit de utilizare netradițională a limbii. Tehnicile NLP tradiționale au adesea rezultate slabe pe aceste date text din cauza vocabularelor în continuă evoluție și specifice domeniului care există în diferite platforme, precum și abaterilor lexicale semnificative ale cuvintelor din limba engleză corectă, fie accidental, fie intenționat, ca formă de atac adversar. .

În această postare, descriem mai multe abordări ML pentru clasificarea text a conversațiilor online cu instrumente și servicii disponibile pe AWS.

Cerințe preliminare

Înainte de a vă aprofunda în acest caz de utilizare, vă rugăm să completați următoarele cerințe preliminare:

Configurați un Cont AWS și creați un utilizator IAM.
Configurați AWS CLI și SDK-uri AWS.
(Opțional) Configurați Mediul Cloud9 IDE.

Setul de date

Pentru această postare, folosim Jigsaw Bias neintenționat în setul de date de clasificare a toxicității, un etalon pentru problema specifică a clasificării toxicității în conversațiile online. Setul de date oferă etichete de toxicitate, precum și câteva atribute ale subgrupurilor, cum ar fi obscen, atac de identitate, insultă, amenințare și explicit sexual. Etichetele sunt furnizate ca valori fracționale, care reprezintă proporția de adnotatori umani care au crezut că atributul este aplicat unei anumite porțiuni de text, care sunt rareori unanimi. Pentru a genera etichete binare (de exemplu, toxice sau netoxice), se aplică un prag de 0.5 valorilor fracționale, iar comentariile cu valori mai mari decât pragul sunt tratate ca o clasă pozitivă pentru acea etichetă.

Încorporarea subcuvinților și RNN-uri

Pentru prima noastră abordare de modelare, folosim o combinație de încorporare a subcuvinților și rețele neuronale recurente (RNN) pentru a antrena modele de clasificare a textului. Înglobările de subcuvinte au fost introduse de Bojanowski și colab. în 2017 ca o îmbunătățire față de metodele anterioare de încorporare la nivel de cuvânt. Modelele tradiționale de skip-gram Word2Vec sunt antrenate pentru a învăța o reprezentare vectorială statică a unui cuvânt țintă care prezice în mod optim contextul cuvântului respectiv. Modelele de subcuvinte, pe de altă parte, reprezintă fiecare cuvânt țintă ca o pungă de caractere n-grame care alcătuiesc cuvântul, unde un n-gramă este compus dintr-un set de n caractere consecutive. Această metodă permite modelului de încorporare să reprezinte mai bine morfologia de bază a cuvintelor înrudite în corpus, precum și calculul înglobărilor pentru cuvinte noi, în afara vocabularului (OOV). Acest lucru este deosebit de important în contextul conversațiilor online, un spațiu cu probleme în care utilizatorii scriu adesea greșit cuvintele (uneori intenționat pentru a evita detectarea) și folosesc, de asemenea, un vocabular unic, în continuă evoluție, care s-ar putea să nu fie captat de un corpus general de instruire.

Amazon SageMaker facilitează antrenarea și optimizarea unui model de încorporare a subcuvintelor nesupravegheat în propriul corpus de date text specifice domeniului, cu ajutorul încorporat Algoritmul BlazingText. De asemenea, putem descărca modele existente de uz general instruite pe seturi mari de date de text online, cum ar fi următoarele Modele în limba engleză disponibile direct din fastText. Din instanța de blocnotes SageMaker, pur și simplu rulați următoarele pentru a descărca un model fastText preantrenat:

!wget -O vectors.zip https://dl.fbaipublicfiles.com/fasttext/vectors-english/crawl-300d-2M-subword.zip

Indiferent dacă v-ați antrenat propriile înglobări cu BlazingText sau ați descărcat un model preantrenat, rezultatul este un model binar zip pe care îl puteți utiliza cu biblioteca gensim pentru a încorpora un anumit cuvânt țintă ca vector pe baza subcuvintelor sale constitutive:

# Imports
import os
from zipfile import ZipFile
from gensim.models.fasttext import load_facebook_vectors # Unzip the model binary into 'dir_path'
with ZipFile('vectors.zip', 'r') as zipObj: zipObj.extractall(path=<dir_path_name>) # Load embedding model into memory
embed_model = load_facebook_vectors(os.path.join(<dir_path_name>, 'vectors.bin')) # Compute embedding vector for 'word'
word_embedding = embed_model[word]

După ce preprocesăm un anumit segment de text, putem folosi această abordare pentru a genera o reprezentare vectorială pentru fiecare dintre cuvintele constitutive (separate prin spații). Apoi folosim SageMaker și un cadru de învățare profundă, cum ar fi PyTorch, pentru a antrena un RNN personalizat cu un obiectiv de clasificare binar sau cu mai multe etichete pentru a prezice dacă textul este toxic sau nu și subtipul specific de toxicitate pe baza exemplelor de antrenament etichetate.

Pentru a încărca textul preprocesat în Serviciul Amazon de stocare simplă (Amazon S3), utilizați următorul cod:

import boto3
s3 = boto3.client('s3') bucket = <bucket_name>
prefix = <prefix_name> s3.upload_file('train.pkl', bucket, os.path.join(prefix, 'train/train.pkl'))
s3.upload_file('valid.pkl', bucket, os.path.join(prefix, 'valid/valid.pkl'))
s3.upload_file('test.pkl', bucket, os.path.join(prefix, 'test/test.pkl'))

Pentru a iniția instruirea modelelor scalabile, multi-GPU cu SageMaker, introduceți următorul cod:

import sagemaker
sess = sagemaker.Session()
role = iam.get_role(RoleName= ‘AmazonSageMakerFullAccess’)['Role']['Arn'] from sagemaker.pytorch import PyTorch # hyperparameters, which are passed into the training job
hyperparameters = { 'epochs': 20, # Maximum number of epochs to train model 'train-batch-size': 128, # Training batch size (No. sentences) 'eval-batch-size': 1024, # Evaluation batch size (No. sentences) 'embed-size': 300, # Vector dimension of word embeddings (Must match embedding model) 'lstm-hidden-size': 200, # Number of neurons in LSTM hidden layer 'lstm-num-layers': 2, # Number of stacked LSTM layers 'proj-size': 100, # Number of neurons in intermediate projection layer 'num-targets': len(<list_of_label_names>), # Number of targets for classification 'class-weight': ' '.join([str(c) for c in <list_of_weights_per_class>]), # Weight to apply to each target during training 'total-length':<max_number_of_words_per_sentence>, 'metric-for-best-model': 'ap_score_weighted', # Metric on which to select the best model
} # create the Estimator
pytorch_estimator = PyTorch( entry_point='train.py', source_dir=<source_dir_path>, instance_type=<train_instance_type>, volume_size=200, instance_count=1, role=role, framework_version='1.6.0’, py_version='py36', hyperparameters=hyperparameters, metric_definitions=[ {'Name': 'validation:accuracy', 'Regex': 'eval_accuracy = (.*?);'}, {'Name': 'validation:f1-micro', 'Regex': 'eval_f1_score_micro = (.*?);'}, {'Name': 'validation:f1-macro', 'Regex': 'eval_f1_score_macro = (.*?);'}, {'Name': 'validation:f1-weighted', 'Regex': 'eval_f1_score_weighted = (.*?);'}, {'Name': 'validation:ap-micro', 'Regex': 'eval_ap_score_micro = (.*?);'}, {'Name': 'validation:ap-macro', 'Regex': 'eval_ap_score_macro = (.*?);'}, {'Name': 'validation:ap-weighted', 'Regex': 'eval_ap_score_weighted = (.*?);'}, {'Name': 'validation:auc-micro', 'Regex': 'eval_auc_score_micro = (.*?);'}, {'Name': 'validation:auc-macro', 'Regex': 'eval_auc_score_macro = (.*?);'}, {'Name': 'validation:auc-weighted', 'Regex': 'eval_auc_score_weighted = (.*?);'} ]
) pytorch_estimator.fit( { 'train': 's3://<bucket_name>/<prefix_name>/train', 'valid': 's3://<bucket_name>/<prefix_name>/valid', 'test': 's3://<bucket_name>/<prefix_name>/test' }
)

În , definim un set de date PyTorch care este utilizat de train.py pentru a pregăti datele text pentru instruirea și evaluarea modelului:

def pad_matrix(m: torch.Tensor, max_len: int =100)-> tuple[int, torch.Tensor] : """Pads an embedding matrix to a specified maximum length.""" if m.ndim == 1: m = m.reshape(1, -1) mask = np.ones_like(m) if m.shape[0] > max_len: m = m[:max_len, :] mask = mask[:max_len, :] else: m = np.pad(m, ((0, max_len - m.shape[0]), (0,0))) mask = np.pad(mask, ((0, max_len - mask.shape[0]), (0,0))) return m, mask class EmbeddingDataset(Dataset: torch.utils.data.Dataset): """PyTorch dataset representing pretrained sentence embeddings, masks, and labels.""" def __init__(self, text: str, labels: int, max_len: int=100): self.text = text self.labels = labels self.max_len = max_len def __len__(self) -> int: return len(self.labels) def __getitem__(self, idx: int) -> dict: e = embed_line(self.text[idx]) length = e.shape[0] m, mask = pad_matrix(e, max_len=self.max_len) item = {} item['embeddings'] = torch.from_numpy(m) item['mask'] = torch.from_numpy(mask) item['labels'] = torch.tensor(self.labels[idx]) if length > self.max_len: item['lengths'] = torch.tensor(self.max_len) else: item['lengths'] = torch.tensor(length) return item

Rețineți că acest cod anticipează că vectors.zip fișierul care conține înglobările dvs. fastText sau BlazingText va fi stocat .

În plus, puteți implementa cu ușurință modele fastText preantrenate pe cont propriu pentru punctele finale SageMaker pentru a calcula din mers vectori de încorporare pentru a fi utilizate în sarcini relevante la nivel de cuvânt. Vezi următoarele Exemplu GitHub pentru mai multe detalii.

Transformers cu față îmbrățișată

Pentru a doua noastră abordare de modelare, trecem la utilizarea Transformers, introdus în lucrare Atenția este tot ce aveți nevoie. Transformatoarele sunt modele de învățare profundă concepute pentru a evita în mod deliberat capcanele RNN-urilor, bazându-se pe un mecanism de auto-atenție pentru a atrage dependențe globale între intrare și ieșire. Arhitectura modelului Transformer permite o paralelizare semnificativ mai bună și poate obține performanțe ridicate într-un timp de antrenament relativ scurt.

Construit pe succesul Transformers, BERT, introdus în lucrare OART: Pre-instruire a transformatoarelor bidirecționale profunde pentru înțelegerea limbajului, a adăugat pre-instruire bidirecțională pentru reprezentarea limbii. Inspirat de sarcina Cloze, BERT este pre-antrenat cu modelarea limbajului mascat (MLM), în care modelul învață să recupereze cuvintele originale pentru jetoane mascate aleatoriu. Modelul BERT este, de asemenea, preantrenat pentru sarcina de predicție a următoarei propoziții (NSP) pentru a prezice dacă două propoziții sunt în ordinea corectă de citire. De la apariția sa în 2018, BERT și variațiile sale au fost utilizate pe scară largă în sarcinile de clasificare a textului.

Soluția noastră folosește o variantă a BERT cunoscută sub numele de RoBERTa, care a fost introdusă în lucrare ROBERTa: O abordare de preformare BERT optimizată robust. RoBERTa îmbunătățește și mai mult performanța BERT pentru o varietate de sarcini în limbaj natural prin antrenamentul optimizat al modelului, inclusiv modele de antrenament mai lungi pe un corp de 10 ori mai mare, folosind hiperparametri optimizați, mascarea dinamică aleatorie, eliminarea sarcinii NSP și multe altele.

Modelele noastre bazate pe Roberta folosesc Hugging Face Transformers bibliotecă, care este un cadru popular Python open-source care oferă implementări de înaltă calitate pentru tot felul de modele Transformer de ultimă generație pentru o varietate de sarcini NLP. Hugging Face a încheiat un parteneriat cu AWS pentru a vă permite să antrenați și să implementați cu ușurință modele Transformer pe SageMaker. Această funcționalitate este disponibilă prin Imaginile containerului AWS Deep Learning Hugging Face, care includ bibliotecile Transformers, Tokenizers și Datasets și integrare optimizată cu SageMaker pentru formarea modelului și inferență.

În implementarea noastră, moștenim coloana vertebrală a arhitecturii RoBERTa din cadrul Hugging Face Transformers și folosim SageMaker pentru a antrena și a implementa propriul nostru model de clasificare a textului, pe care îl numim RoBERTox. RoBERTox utilizează codificarea perechilor de octeți (BPE), introdusă în Traducere automată neuronală a cuvintelor rare cu unități de subcuvânt, pentru a tokeniza textul introdus în reprezentări subcuvinte. Ne putem antrena apoi modelele și tokenizatoarele cu privire la datele Jigsaw sau orice corpus mare specific unui domeniu (cum ar fi jurnalele de chat dintr-un anumit joc) și le putem folosi pentru clasificarea textului personalizată. Definim clasa noastră de model personalizat de clasificare în următorul cod:

class RoBERToxForSequenceClassification(CustomLossMixIn, RobertaPreTrainedModel): _keys_to_ignore_on_load_missing = [r"position_ids"] def __init__(self, config: PretrainedConfig, *inputs, **kwargs): """Initialize the RoBERToxForSequenceClassification instance Parameters ---------- config : PretrainedConfig num_labels : Optional[int] if not None, overwrite the default classification head in pretrained model. mode : Optional[str] 'MULTI_CLASS', 'MULTI_LABEL' or "REGRESSION". Used to determine loss class_weight : Optional[List[float]] If not None, add class weight to BCEWithLogitsLoss or CrossEntropyLoss """ super().__init__(config, *inputs, **kwargs) # Define model architecture self.roberta = RobertaModel(self.config, add_pooling_layer=False) self.classifier = RobertaClassificationHead(self.config) self.init_weights() @modeling_roberta.add_start_docstrings_to_model_forward( modeling_roberta.ROBERTA_INPUTS_DOCSTRING.format("batch_size, sequence_length") ) @modeling_roberta.add_code_sample_docstrings( tokenizer_class=modeling_roberta._TOKENIZER_FOR_DOC, checkpoint=modeling_roberta._CHECKPOINT_FOR_DOC, output_type=SequenceClassifierOutput, config_class=modeling_roberta._CONFIG_FOR_DOC, ) def forward( self, input_ids: torch.Tensor = None, attention_mask: torch.Tensor = None, token_type_ids: torch.Tensor = None, position_ids: torch.Tensor =None, head_mask: torch.Tensor =None, inputs_embeds: torch.Tensor =None, labels: torch.Tensor =None, output_attentions: torch.Tensor =None, output_hidden_states: torch.Tensor =None, return_dict: bool =None, sample_weights: torch.Tensor =None, ) -> : dict: """Forward pass to return loss, logits, ... Returns -------- output : SequenceClassifierOutput has those keys: loss, logits, hidden states, attentions """ return_dict = return_dict or self.config.use_return_dict outputs = self.roberta( input_ids, attention_mask=attention_mask, token_type_ids=token_type_ids, position_ids=position_ids, head_mask=head_mask, inputs_embeds=inputs_embeds, output_attentions=output_attentions, output_hidden_states=output_hidden_states, return_dict=return_dict, ) sequence_output = outputs[0] # [CLS] embedding logits = self.classifier(sequence_output) loss = self.compute_loss(logits, labels, sample_weights=sample_weights) if not return_dict: output = (logits,) + outputs[2:] return ((loss,) + output) if loss is not None else output return SequenceClassifierOutput( loss=loss, logits=logits, hidden_states=outputs.hidden_states, attentions=outputs.attentions, ) def compute_loss(self, logits: torch.Tensor, labels: torch.Tensor, sample_weights: Optional[torch.Tensor] = None) -> torch.FloatTensor: return super().compute_loss(logits, labels, sample_weights)

Înainte de antrenament, ne pregătim datele text și etichetele folosind biblioteca de seturi de date Hugging Face și încărcăm rezultatul pe Amazon S3:

from datasets import Dataset
import multiprocessing data_train = Dataset.from_pandas(df_train)
… tokenizer = <instantiated_huggingface_tokenizer> def preprocess_function(examples: examples) -> torch.Tensor: result = tokenizer(examples["text"], padding="max_length", max_length=128, truncation=True) return result num_proc = multiprocessing.cpu_count()
print("Number of CPUs =", num_proc) data_train = data_train.map( preprocess_function, batched=True, load_from_cache_file=False, num_proc=num_proc
)
… import botocore
from datasets.filesystems import S3FileSystem s3_session = botocore.session.Session() # create S3FileSystem instance with s3_session
s3 = S3FileSystem(session=s3_session) # saves encoded_dataset to your s3 bucket
data_train.save_to_disk(f's3://<bucket_name>/<prefix_name>/train', fs=s3)
…

Initiem antrenamentul modelului intr-un mod similar cu RNN:

import sagemaker
sess = sagemaker.Session()
role = sagemaker.get_execution_role()
from sagemaker.huggingface import HuggingFace # hyperparameters, which are passed into the training job
hyperparameters = { 'model-name': <huggingface_base_model_name>, 'epochs': 10, 'train-batch-size': 32, 'eval-batch-size': 64, 'num-labels': len(<list_of_label_names>), 'class-weight': ' '.join([str(c) for c in <list_of_class_weights>]), 'metric-for-best-model': 'ap_score_weighted', 'save-total-limit': 1,
} # create the Estimator
huggingface_estimator = HuggingFace( entry_point='train.py', source_dir=<source_dir_path>, instance_type=<train_instance_type>, instance_count=1, role=role, transformers_version='4.6.1', pytorch_version='1.7.1', py_version='py36', hyperparameters=hyperparameters, metric_definitions=[ {'Name': 'validation:accuracy', 'Regex': 'eval_accuracy = (.*?);'}, {'Name': 'validation:f1-micro', 'Regex': 'eval_f1_score_micro = (.*?);'}, {'Name': 'validation:f1-macro', 'Regex': 'eval_f1_score_macro = (.*?);'}, {'Name': 'validation:f1-weighted', 'Regex': 'eval_f1_score_weighted = (.*?);'}, {'Name': 'validation:ap-micro', 'Regex': 'eval_ap_score_micro = (.*?);'}, {'Name': 'validation:ap-macro', 'Regex': 'eval_ap_score_macro = (.*?);'}, {'Name': 'validation:ap-weighted', 'Regex': 'eval_ap_score_weighted = (.*?);'}, {'Name': 'validation:auc-micro', 'Regex': 'eval_auc_score_micro = (.*?);'}, {'Name': 'validation:auc-macro', 'Regex': 'eval_auc_score_macro = (.*?);'}, {'Name': 'validation:auc-weighted', 'Regex': 'eval_auc_score_weighted = (.*?);'} ]
) huggingface_estimator.fit( { 'train': 's3://<bucket_name>/<prefix_name>/train', 'valid': 's3://<bucket_name>/<prefix_name>/valid', 'test': 's3://<bucket_name>/<prefix_name>/test'
)

În cele din urmă, următorul fragment de cod Python ilustrează procesul de servire a RoBERTox prin intermediul unui punct final SageMaker live pentru clasificarea textului în timp real pentru o solicitare JSON:

from sagemaker.huggingface import HuggingFaceModel
from sagemaker import get_execution_role
from sagemaker.predictor import Predictor
from sagemaker.serializers import JSONSerializer
from sagemaker.deserializers import JSONDeserializer class Classifier(Predictor): def __init__(self, endpoint_name, sagemaker_session): super().__init__(endpoint_name, sagemaker_session, serializer=JSONSerializer(), deserializer=JSONDeserializer()) hf_model = HuggingFaceModel( role=get_execution_role(), model_data=<s3_model_and_tokenizer.tar.gz>, entry_point="inference.py", transformers_version="4.6.1", pytorch_version="1.7.1", py_version="py36", predictor_cls=Classifier
) predictor = hf_model.deploy(instance_type=<deploy_instance_type>, initial_instance_count=1)

Evaluarea performanței modelului: set de date de părtinire neintenționată Jigsaw

Următorul tabel conține valori de performanță pentru modelele antrenate și evaluate pe baza datelor din competiția Jigsaw Unintended Bias in Toxicity Detection Kaggle. Am antrenat modele pentru trei sarcini diferite, dar interdependente:

Caz binar – Modelul a fost antrenat pe setul de date de antrenament complet pentru a prezice toxicity numai eticheta
Carcasă cu granulație fină – Subsetul de date de antrenament pentru care toxicity>=0.5 a fost folosit pentru a prezice alte etichete de subtip de toxicitate (obscene, threat, insult, identity_attack, sexual_explicit)
Caz multitask – Setul complet de date de antrenament a fost folosit pentru a prezice toate cele șase etichete simultan

Am antrenat modele RNN și RoBERTa pentru fiecare dintre aceste trei sarcini folosind etichetele fracționale furnizate de Jigsaw, care corespund proporției de adnotatori care au considerat că eticheta este potrivită pentru text, precum și cu etichete binare combinate cu greutățile clasei din rețea. funcția de pierdere. În schema de etichetare binară, proporțiile au fost pragizate la 0.5 pentru fiecare etichetă disponibilă (1 dacă etichetă>=0.5, 0 în caz contrar), iar funcțiile de pierdere a modelului au fost ponderate pe baza proporțiilor relative ale fiecărei etichete binare din setul de date de antrenament. În toate cazurile, am constatat că utilizarea etichetelor fracționale a rezultat direct la cea mai bună performanță, indicând valoarea adăugată a informațiilor inerentă gradului de acord între adnotatori.

Afișăm două valori ale modelului: precizia medie (AP), care oferă un rezumat al curbei de precizie-rechemare prin calculul mediei ponderate a valorilor de precizie atinse la fiecare prag de clasificare și aria de sub curba caracteristică de funcționare a receptorului (AUC) , care cumulează performanța modelului în cadrul pragurilor de clasificare în raport cu rata pozitivă adevărată și rata pozitivă fals. Rețineți că clasa adevărată pentru o anumită instanță de text din setul de testare corespunde dacă proporția reală este mai mare sau egală cu 0.5 (1 dacă etichetă>=0.5, 0 în caz contrar).

.	Încorporare subcuvânt + RNN	ROBERTa
.	Etichete fracționate	Etichete binare + ponderare de clasă	Etichete fracționate	Etichete binare + ponderare de clasă
Binar	AP=0.746, AUC=0.966	AP=0.730, AUC=0.963	AP=0.758, AUC=0.966	AP=0.747, AUC=0.963
Granulație fină	AP=0.906, AUC=0.909	AP=0.850, AUC=0.851	AP=0.913, AUC=0.913	AP=0.911, AUC=0.912
Multitask	AP=0.721, AUC=0.972	AP=0.535, AUC=0.907	AP=0.740, AUC=0.972	AP=0.711, AUC=0.961

Concluzie

În această postare, am prezentat două abordări de clasificare a textului pentru conversațiile online folosind serviciile AWS ML. Puteți generaliza aceste soluții pe platformele de comunicare online, industriile precum jocurile de noroc deosebit de probabil să beneficieze de capacitatea îmbunătățită de a detecta conținut dăunător. În postările viitoare, intenționăm să discutăm în continuare despre o arhitectură end-to-end pentru implementarea fără probleme a modelelor în contul dvs. AWS.

Dacă doriți ajutor pentru accelerarea utilizării ML în produsele și procesele dvs., vă rugăm să contactați Laboratorul Amazon ML Solutions.

Despre Autori

Clasificarea textului pentru conversațiile online cu învățare automată pe AWS PlatoBlockchain Data Intelligence. Căutare verticală. Ai. Ryan Brand este Data Scientist în cadrul Amazon Machine Learning Solutions Lab. Are o experiență specifică în aplicarea învățării automate la problemele din domeniul sănătății și științele vieții, iar în timpul liber îi place să citească istorie și science fiction.

Sourav Bhabesh este Data Scientist la Amazon ML Solutions Lab. El dezvoltă soluții AI/ML pentru clienții AWS din diverse industrii. Specialitatea sa este Procesarea limbajului natural (NLP) și este pasionat de deep learning. În afara serviciului, îi place să citească cărți și să călătorească.

Liutong Zhou este un om de știință aplicat la Amazon ML Solutions Lab. El creează soluții AI/ML personalizate pentru clienții AWS din diverse industrii. El este specializat în procesarea limbajului natural (NLP) și este pasionat de învățarea profundă multimodală. Este tenor liric și îi place să cânte opere în afara serviciului.

Sia Gholami este Senior Data Scientist la Amazon ML Solutions Lab, unde creează soluții AI/ML pentru clienți din diverse industrii. Este pasionat de procesarea limbajului natural (NLP) și de învățare profundă. În afara serviciului, Siei îi place să petreacă timpul în natură și să joace tenis.

Daniel Horowitz este un manager de știință aplicată AI. El conduce o echipă de oameni de știință din Amazon ML Solutions Lab care lucrează pentru a rezolva problemele clienților și pentru a stimula adoptarea cloud cu ML.

Timestamp-ul: 29 Iunie, 2022

Timestamp-ul: Iunie 23, 2022

Clasificarea textului pentru conversațiile online cu învățare automată pe AWS

Republicat de Platon

Cerințe preliminare

Setul de date

Încorporarea subcuvinților și RNN-uri

Transformers cu față îmbrățișată

Evaluarea performanței modelului: set de date de părtinire neintenționată Jigsaw

Concluzie

Despre Autori

Mai mult de la Învățare automată AWS

Procesarea inteligentă a documentelor cu serviciile AWS AI: Partea 1

Găzduiește modele de transformatoare Hugging Face folosind Amazon SageMaker Serverless Inference

Instruire distribuită cu Amazon EKS și Torch Distributed Elastic

Exafunction acceptă AWS Inferentia pentru a debloca cele mai bune performanțe de preț pentru inferența învățării automate

Amazon SageMaker LightGBM încorporat oferă acum instruire distribuită folosind Dask

Noul suport extins pentru format de date în Amazon Kendra

Optimizați hiperparametrii cu Amazon SageMaker Automatic Model Tuning

Despre noi

Căutare verticală și Ai

Platformă

Rămâneți conectat

Cont