Classification de texte pour les conversations en ligne avec l'apprentissage automatique sur AWS

Republié par Platon

Suiveurs: 0

Les conversations en ligne sont omniprésentes dans la vie moderne, couvrant des secteurs allant des jeux vidéo aux télécommunications. Cela a conduit à une croissance exponentielle de la quantité de données de conversation en ligne, ce qui a contribué au développement de systèmes de traitement du langage naturel (NLP) à la pointe de la technologie, tels que les chatbots et les modèles de génération de langage naturel (NLG). Au fil du temps, diverses techniques de PNL pour l'analyse de texte ont également évolué. Cela nécessite l'exigence d'un service entièrement géré qui peut être intégré dans des applications à l'aide d'appels d'API sans avoir besoin d'une expertise approfondie en apprentissage automatique (ML). AWS propose des services d'IA AWS préformés tels que Amazon comprendre, qui peut gérer efficacement les cas d'utilisation de la PNL impliquant la classification, la synthèse de texte, la reconnaissance d'entités, etc. pour recueillir des informations à partir de texte.

De plus, les conversations en ligne ont conduit à un phénomène répandu d'utilisation non traditionnelle de la langue. Les techniques traditionnelles de PNL fonctionnent souvent mal sur ces données textuelles en raison des vocabulaires en constante évolution et spécifiques au domaine qui existent sur différentes plates-formes, ainsi que des déviations lexicales importantes des mots par rapport à l'anglais approprié, soit par accident, soit intentionnellement comme une forme d'attaque contradictoire. .

Dans cet article, nous décrivons plusieurs approches ML pour la classification textuelle des conversations en ligne avec les outils et services disponibles sur AWS.

Pré-requis

Avant d'approfondir ce cas d'utilisation, veuillez remplir les conditions préalables suivantes :

Mettre en place un Compte AWS ainsi que créer un utilisateur IAM.
Mettre en place le CLI AWS ainsi que SDK AWS.
(Facultatif) Configurez votre Environnement IDE Cloud9.

Ensemble de données

Pour cet article, nous utilisons le Jigsaw Biais involontaires dans l'ensemble de données de classification de la toxicité, une référence pour le problème spécifique de la classification de la toxicité dans les conversations en ligne. L'ensemble de données fournit des étiquettes de toxicité ainsi que plusieurs attributs de sous-groupes tels que obscène, attaque d'identité, insulte, menace et sexuellement explicite. Les étiquettes sont fournies sous forme de valeurs fractionnaires, qui représentent la proportion d'annotateurs humains qui croyaient que l'attribut s'appliquait à un morceau de texte donné, qui sont rarement unanimes. Pour générer des étiquettes binaires (par exemple, toxique ou non toxique), un seuil de 0.5 est appliqué aux valeurs fractionnaires, et les commentaires avec des valeurs supérieures au seuil sont traités comme la classe positive pour cette étiquette.

Incorporation de sous-mots et RNN

Pour notre première approche de modélisation, nous utilisons une combinaison d'incorporation de sous-mots et de réseaux de neurones récurrents (RNN) pour former des modèles de classification de texte. Les intégrations de sous-mots ont été introduites par Bojanowski et al. en 2017 comme une amélioration par rapport aux méthodes précédentes d'intégration au niveau du mot. Les modèles de saut de gramme Word2Vec traditionnels sont formés pour apprendre une représentation vectorielle statique d'un mot cible qui prédit de manière optimale le contexte de ce mot. Les modèles de sous-mots, quant à eux, représentent chaque mot cible comme un sac de n-grammes de caractères qui composent le mot, où un n-gramme est composé d'un ensemble de n caractères consécutifs. Cette méthode permet au modèle d'incorporation de mieux représenter la morphologie sous-jacente des mots apparentés dans le corpus ainsi que le calcul des incorporations pour les nouveaux mots hors vocabulaire (OOV). Ceci est particulièrement important dans le contexte des conversations en ligne, un espace problématique dans lequel les utilisateurs mal orthographient souvent les mots (parfois intentionnellement pour échapper à la détection) et utilisent également un vocabulaire unique en constante évolution qui pourrait ne pas être capturé par un corpus de formation général.

Amazon Sage Maker facilite la formation et l'optimisation d'un modèle d'intégration de sous-mots non supervisé sur votre propre corpus de données textuelles spécifiques à un domaine avec la fonction intégrée Algorithme BlazingText. Nous pouvons également télécharger des modèles à usage général existants formés sur de grands ensembles de données de texte en ligne, tels que les suivants Modèles en anglais disponibles directement à partir de fastText. À partir de votre instance de bloc-notes SageMaker, exécutez simplement ce qui suit pour télécharger un modèle fastText pré-entraîné :

!wget -O vectors.zip https://dl.fbaipublicfiles.com/fasttext/vectors-english/crawl-300d-2M-subword.zip

Que vous ayez entraîné vos propres incorporations avec BlazingText ou téléchargé un modèle pré-entraîné, le résultat est un modèle binaire compressé que vous pouvez utiliser avec la bibliothèque gensim pour incorporer un mot cible donné en tant que vecteur basé sur ses sous-mots constitutifs :

# Imports
import os
from zipfile import ZipFile
from gensim.models.fasttext import load_facebook_vectors # Unzip the model binary into 'dir_path'
with ZipFile('vectors.zip', 'r') as zipObj: zipObj.extractall(path=<dir_path_name>) # Load embedding model into memory
embed_model = load_facebook_vectors(os.path.join(<dir_path_name>, 'vectors.bin')) # Compute embedding vector for 'word'
word_embedding = embed_model[word]

Après avoir prétraité un segment de texte donné, nous pouvons utiliser cette approche pour générer une représentation vectorielle pour chacun des mots constitutifs (séparés par des espaces). Nous utilisons ensuite SageMaker et un cadre d'apprentissage en profondeur tel que PyTorch pour former un RNN personnalisé avec un objectif de classification binaire ou multiétiquette pour prédire si le texte est toxique ou non et le sous-type spécifique de toxicité basé sur des exemples de formation étiquetés.

Pour télécharger votre texte prétraité sur Service de stockage simple Amazon (Amazon S3), utilisez le code suivant :

import boto3
s3 = boto3.client('s3') bucket = <bucket_name>
prefix = <prefix_name> s3.upload_file('train.pkl', bucket, os.path.join(prefix, 'train/train.pkl'))
s3.upload_file('valid.pkl', bucket, os.path.join(prefix, 'valid/valid.pkl'))
s3.upload_file('test.pkl', bucket, os.path.join(prefix, 'test/test.pkl'))

Pour lancer une formation de modèle multi-GPU évolutive avec SageMaker, saisissez le code suivant :

import sagemaker
sess = sagemaker.Session()
role = iam.get_role(RoleName= ‘AmazonSageMakerFullAccess’)['Role']['Arn'] from sagemaker.pytorch import PyTorch # hyperparameters, which are passed into the training job
hyperparameters = { 'epochs': 20, # Maximum number of epochs to train model 'train-batch-size': 128, # Training batch size (No. sentences) 'eval-batch-size': 1024, # Evaluation batch size (No. sentences) 'embed-size': 300, # Vector dimension of word embeddings (Must match embedding model) 'lstm-hidden-size': 200, # Number of neurons in LSTM hidden layer 'lstm-num-layers': 2, # Number of stacked LSTM layers 'proj-size': 100, # Number of neurons in intermediate projection layer 'num-targets': len(<list_of_label_names>), # Number of targets for classification 'class-weight': ' '.join([str(c) for c in <list_of_weights_per_class>]), # Weight to apply to each target during training 'total-length':<max_number_of_words_per_sentence>, 'metric-for-best-model': 'ap_score_weighted', # Metric on which to select the best model
} # create the Estimator
pytorch_estimator = PyTorch( entry_point='train.py', source_dir=<source_dir_path>, instance_type=<train_instance_type>, volume_size=200, instance_count=1, role=role, framework_version='1.6.0’, py_version='py36', hyperparameters=hyperparameters, metric_definitions=[ {'Name': 'validation:accuracy', 'Regex': 'eval_accuracy = (.*?);'}, {'Name': 'validation:f1-micro', 'Regex': 'eval_f1_score_micro = (.*?);'}, {'Name': 'validation:f1-macro', 'Regex': 'eval_f1_score_macro = (.*?);'}, {'Name': 'validation:f1-weighted', 'Regex': 'eval_f1_score_weighted = (.*?);'}, {'Name': 'validation:ap-micro', 'Regex': 'eval_ap_score_micro = (.*?);'}, {'Name': 'validation:ap-macro', 'Regex': 'eval_ap_score_macro = (.*?);'}, {'Name': 'validation:ap-weighted', 'Regex': 'eval_ap_score_weighted = (.*?);'}, {'Name': 'validation:auc-micro', 'Regex': 'eval_auc_score_micro = (.*?);'}, {'Name': 'validation:auc-macro', 'Regex': 'eval_auc_score_macro = (.*?);'}, {'Name': 'validation:auc-weighted', 'Regex': 'eval_auc_score_weighted = (.*?);'} ]
) pytorch_estimator.fit( { 'train': 's3://<bucket_name>/<prefix_name>/train', 'valid': 's3://<bucket_name>/<prefix_name>/valid', 'test': 's3://<bucket_name>/<prefix_name>/test' }
)

Dans , nous définissons un jeu de données PyTorch qui est utilisé par train.py pour préparer les données textuelles pour la formation et l'évaluation du modèle :

def pad_matrix(m: torch.Tensor, max_len: int =100)-> tuple[int, torch.Tensor] : """Pads an embedding matrix to a specified maximum length.""" if m.ndim == 1: m = m.reshape(1, -1) mask = np.ones_like(m) if m.shape[0] > max_len: m = m[:max_len, :] mask = mask[:max_len, :] else: m = np.pad(m, ((0, max_len - m.shape[0]), (0,0))) mask = np.pad(mask, ((0, max_len - mask.shape[0]), (0,0))) return m, mask class EmbeddingDataset(Dataset: torch.utils.data.Dataset): """PyTorch dataset representing pretrained sentence embeddings, masks, and labels.""" def __init__(self, text: str, labels: int, max_len: int=100): self.text = text self.labels = labels self.max_len = max_len def __len__(self) -> int: return len(self.labels) def __getitem__(self, idx: int) -> dict: e = embed_line(self.text[idx]) length = e.shape[0] m, mask = pad_matrix(e, max_len=self.max_len) item = {} item['embeddings'] = torch.from_numpy(m) item['mask'] = torch.from_numpy(mask) item['labels'] = torch.tensor(self.labels[idx]) if length > self.max_len: item['lengths'] = torch.tensor(self.max_len) else: item['lengths'] = torch.tensor(length) return item

Notez que ce code anticipe que le vectors.zip fichier contenant vos intégrations fastText ou BlazingText sera stocké dans .

De plus, vous pouvez facilement déployer seuls des modèles FastText pré-entraînés sur des points de terminaison SageMaker actifs pour calculer à la volée des vecteurs d'intégration à utiliser dans des tâches pertinentes au niveau du mot. Voir ce qui suit Exemple GitHub pour plus de détails.

Transformateurs avec visage étreignant

Pour notre deuxième approche de modélisation, nous passons à l'utilisation de Transformers, introduite dans l'article L'attention est tout ce dont vous avez besoin. Les transformateurs sont des modèles d'apprentissage en profondeur conçus pour éviter délibérément les pièges des RNN en s'appuyant sur un mécanisme d'auto-attention pour établir des dépendances globales entre l'entrée et la sortie. L'architecture du modèle Transformer permet une parallélisation nettement meilleure et peut atteindre des performances élevées en un temps de formation relativement court.

S'appuyant sur le succès de Transformers, BERT, présenté dans l'article BERT: Pré-formation de transformateurs bidirectionnels profonds pour la compréhension du langage, ajout d'une pré-formation bidirectionnelle pour la représentation du langage. Inspiré de la tâche Cloze, BERT est pré-formé avec la modélisation de langage masqué (MLM), dans laquelle le modèle apprend à récupérer les mots originaux pour des jetons masqués de manière aléatoire. Le modèle BERT est également pré-entraîné sur la tâche de prédiction de phrase suivante (NSP) pour prédire si deux phrases sont dans le bon ordre de lecture. Depuis son avènement en 2018, le BERT et ses variantes ont été largement utilisés dans les tâches de classification de texte.

Notre solution utilise une variante de BERT connue sous le nom de RoBERTa, qui a été introduite dans l'article RoBERTa: une approche de pré-formation BERT fortement optimisée. RoBERTa améliore encore les performances du BERT sur une variété de tâches en langage naturel grâce à une formation de modèle optimisée, y compris des modèles de formation plus longs sur un corpus 10 fois plus grand, en utilisant des hyperparamètres optimisés, un masquage aléatoire dynamique, la suppression de la tâche NSP, etc.

Nos modèles basés sur RoBERTa utilisent le Transformateurs de visage étreignant bibliothèque, qui est un framework Python open source populaire qui fournit des implémentations de haute qualité de toutes sortes de modèles Transformer de pointe pour une variété de tâches NLP. Hugging Face s'est associé à AWS pour vous permettre de former et de déployer facilement des modèles Transformer sur SageMaker. Cette fonctionnalité est disponible via Images du conteneur d'apprentissage en profondeur d'AWS, qui incluent les bibliothèques Transformers, Tokenizers et Datasets, et une intégration optimisée avec SageMaker pour la formation et l'inférence de modèles.

Dans notre implémentation, nous héritons de l'ossature de l'architecture RoBERTa du framework Hugging Face Transformers et utilisons SageMaker pour former et déployer notre propre modèle de classification de texte, que nous appelons RoBERTox. RoBERTox utilise le codage par paires d'octets (BPE), introduit dans Traduction automatique neuronale de mots rares avec des unités de sous-mots, pour segmenter le texte d'entrée en représentations de sous-mots. Nous pouvons ensuite former nos modèles et tokenizers sur les données Jigsaw ou sur tout corpus volumineux spécifique à un domaine (tel que les journaux de discussion d'un jeu spécifique) et les utiliser pour une classification de texte personnalisée. Nous définissons notre classe de modèle de classification personnalisée dans le code suivant :

class RoBERToxForSequenceClassification(CustomLossMixIn, RobertaPreTrainedModel): _keys_to_ignore_on_load_missing = [r"position_ids"] def __init__(self, config: PretrainedConfig, *inputs, **kwargs): """Initialize the RoBERToxForSequenceClassification instance Parameters ---------- config : PretrainedConfig num_labels : Optional[int] if not None, overwrite the default classification head in pretrained model. mode : Optional[str] 'MULTI_CLASS', 'MULTI_LABEL' or "REGRESSION". Used to determine loss class_weight : Optional[List[float]] If not None, add class weight to BCEWithLogitsLoss or CrossEntropyLoss """ super().__init__(config, *inputs, **kwargs) # Define model architecture self.roberta = RobertaModel(self.config, add_pooling_layer=False) self.classifier = RobertaClassificationHead(self.config) self.init_weights() @modeling_roberta.add_start_docstrings_to_model_forward( modeling_roberta.ROBERTA_INPUTS_DOCSTRING.format("batch_size, sequence_length") ) @modeling_roberta.add_code_sample_docstrings( tokenizer_class=modeling_roberta._TOKENIZER_FOR_DOC, checkpoint=modeling_roberta._CHECKPOINT_FOR_DOC, output_type=SequenceClassifierOutput, config_class=modeling_roberta._CONFIG_FOR_DOC, ) def forward( self, input_ids: torch.Tensor = None, attention_mask: torch.Tensor = None, token_type_ids: torch.Tensor = None, position_ids: torch.Tensor =None, head_mask: torch.Tensor =None, inputs_embeds: torch.Tensor =None, labels: torch.Tensor =None, output_attentions: torch.Tensor =None, output_hidden_states: torch.Tensor =None, return_dict: bool =None, sample_weights: torch.Tensor =None, ) -> : dict: """Forward pass to return loss, logits, ... Returns -------- output : SequenceClassifierOutput has those keys: loss, logits, hidden states, attentions """ return_dict = return_dict or self.config.use_return_dict outputs = self.roberta( input_ids, attention_mask=attention_mask, token_type_ids=token_type_ids, position_ids=position_ids, head_mask=head_mask, inputs_embeds=inputs_embeds, output_attentions=output_attentions, output_hidden_states=output_hidden_states, return_dict=return_dict, ) sequence_output = outputs[0] # [CLS] embedding logits = self.classifier(sequence_output) loss = self.compute_loss(logits, labels, sample_weights=sample_weights) if not return_dict: output = (logits,) + outputs[2:] return ((loss,) + output) if loss is not None else output return SequenceClassifierOutput( loss=loss, logits=logits, hidden_states=outputs.hidden_states, attentions=outputs.attentions, ) def compute_loss(self, logits: torch.Tensor, labels: torch.Tensor, sample_weights: Optional[torch.Tensor] = None) -> torch.FloatTensor: return super().compute_loss(logits, labels, sample_weights)

Avant la formation, nous préparons nos données textuelles et nos étiquettes à l'aide de la bibliothèque d'ensembles de données de Hugging Face et téléchargeons le résultat sur Amazon S3 :

from datasets import Dataset
import multiprocessing data_train = Dataset.from_pandas(df_train)
… tokenizer = <instantiated_huggingface_tokenizer> def preprocess_function(examples: examples) -> torch.Tensor: result = tokenizer(examples["text"], padding="max_length", max_length=128, truncation=True) return result num_proc = multiprocessing.cpu_count()
print("Number of CPUs =", num_proc) data_train = data_train.map( preprocess_function, batched=True, load_from_cache_file=False, num_proc=num_proc
)
… import botocore
from datasets.filesystems import S3FileSystem s3_session = botocore.session.Session() # create S3FileSystem instance with s3_session
s3 = S3FileSystem(session=s3_session) # saves encoded_dataset to your s3 bucket
data_train.save_to_disk(f's3://<bucket_name>/<prefix_name>/train', fs=s3)
…

Nous lançons la formation du modèle de la même manière que le RNN :

import sagemaker
sess = sagemaker.Session()
role = sagemaker.get_execution_role()
from sagemaker.huggingface import HuggingFace # hyperparameters, which are passed into the training job
hyperparameters = { 'model-name': <huggingface_base_model_name>, 'epochs': 10, 'train-batch-size': 32, 'eval-batch-size': 64, 'num-labels': len(<list_of_label_names>), 'class-weight': ' '.join([str(c) for c in <list_of_class_weights>]), 'metric-for-best-model': 'ap_score_weighted', 'save-total-limit': 1,
} # create the Estimator
huggingface_estimator = HuggingFace( entry_point='train.py', source_dir=<source_dir_path>, instance_type=<train_instance_type>, instance_count=1, role=role, transformers_version='4.6.1', pytorch_version='1.7.1', py_version='py36', hyperparameters=hyperparameters, metric_definitions=[ {'Name': 'validation:accuracy', 'Regex': 'eval_accuracy = (.*?);'}, {'Name': 'validation:f1-micro', 'Regex': 'eval_f1_score_micro = (.*?);'}, {'Name': 'validation:f1-macro', 'Regex': 'eval_f1_score_macro = (.*?);'}, {'Name': 'validation:f1-weighted', 'Regex': 'eval_f1_score_weighted = (.*?);'}, {'Name': 'validation:ap-micro', 'Regex': 'eval_ap_score_micro = (.*?);'}, {'Name': 'validation:ap-macro', 'Regex': 'eval_ap_score_macro = (.*?);'}, {'Name': 'validation:ap-weighted', 'Regex': 'eval_ap_score_weighted = (.*?);'}, {'Name': 'validation:auc-micro', 'Regex': 'eval_auc_score_micro = (.*?);'}, {'Name': 'validation:auc-macro', 'Regex': 'eval_auc_score_macro = (.*?);'}, {'Name': 'validation:auc-weighted', 'Regex': 'eval_auc_score_weighted = (.*?);'} ]
) huggingface_estimator.fit( { 'train': 's3://<bucket_name>/<prefix_name>/train', 'valid': 's3://<bucket_name>/<prefix_name>/valid', 'test': 's3://<bucket_name>/<prefix_name>/test'
)

Enfin, l'extrait de code Python suivant illustre le processus de diffusion de RoBERTox via un point de terminaison SageMaker en direct pour la classification de texte en temps réel pour une requête JSON :

from sagemaker.huggingface import HuggingFaceModel
from sagemaker import get_execution_role
from sagemaker.predictor import Predictor
from sagemaker.serializers import JSONSerializer
from sagemaker.deserializers import JSONDeserializer class Classifier(Predictor): def __init__(self, endpoint_name, sagemaker_session): super().__init__(endpoint_name, sagemaker_session, serializer=JSONSerializer(), deserializer=JSONDeserializer()) hf_model = HuggingFaceModel( role=get_execution_role(), model_data=<s3_model_and_tokenizer.tar.gz>, entry_point="inference.py", transformers_version="4.6.1", pytorch_version="1.7.1", py_version="py36", predictor_cls=Classifier
) predictor = hf_model.deploy(instance_type=<deploy_instance_type>, initial_instance_count=1)

Évaluation des performances du modèle : ensemble de données Jigsaw sur les biais involontaires

Le tableau suivant contient des métriques de performance pour les modèles entraînés et évalués sur les données du concours Jigsaw Unintended Bias in Toxicity Detection Kaggle. Nous avons formé des modèles pour trois tâches différentes mais interdépendantes :

Cas binaire – Le modèle a été entraîné sur l'ensemble de données d'entraînement complet pour prédire la toxicity étiquette seulement
Boîtier à grain fin – Le sous-ensemble des données d'apprentissage pour lequel toxicity>=0.5 a été utilisé pour prédire d'autres étiquettes de sous-types de toxicité (obscene, threat, insult, identity_attack, sexual_explicit)
Mallette multitâche – L'ensemble de données de formation complet a été utilisé pour prédire simultanément les six étiquettes

Nous avons formé les modèles RNN et RoBERTa pour chacune de ces trois tâches en utilisant les étiquettes fractionnaires fournies par Jigsaw, qui correspondent à la proportion d'annotateurs qui pensaient que l'étiquette était appropriée pour le texte, ainsi qu'avec des étiquettes binaires combinées avec des poids de classe dans le réseau. fonction de perte. Dans le schéma d'étiquetage binaire, les proportions ont été seuillées à 0.5 pour chaque étiquette disponible (1 si étiquette> = 0.5, 0 sinon), et les fonctions de perte du modèle ont été pondérées en fonction des proportions relatives de chaque étiquette binaire dans l'ensemble de données d'apprentissage. Dans tous les cas, nous avons constaté que l'utilisation directe des étiquettes fractionnaires entraînait les meilleures performances, indiquant la valeur ajoutée de l'information inhérente au degré d'accord entre les annotateurs.

Nous affichons deux métriques de modèle : la précision moyenne (AP), qui fournit un résumé de la courbe précision-rappel en calculant la moyenne pondérée des valeurs de précision obtenues à chaque seuil de classification, et l'aire sous la courbe caractéristique de fonctionnement du récepteur (AUC) , qui agrège les performances du modèle à travers les seuils de classification en ce qui concerne le taux de vrais positifs et le taux de faux positifs. Notez que la vraie classe pour une instance de texte donnée dans l'ensemble de test correspond au fait que la vraie proportion est supérieure ou égale à 0.5 (1 si label>=0.5, 0 sinon).

.	Incorporation de sous-mots + RNN	ROBERTa
.	Étiquettes fractionnaires	Étiquettes binaires + pondération de classe	Étiquettes fractionnaires	Étiquettes binaires + pondération de classe
binaire	PA=0.746, ASC = 0.966	PA = 0.730, ASC = 0.963	PA = 0.758, ASC = 0.966	PA = 0.747, ASC = 0.963
À grain fin	PA = 0.906, ASC = 0.909	PA = 0.850, ASC = 0.851	PA = 0.913, ASC = 0.913	PA = 0.911, ASC = 0.912
Multitâche	PA=0.721, ASC = 0.972	PA = 0.535, ASC = 0.907	PA = 0.740, ASC = 0.972	PA = 0.711, ASC = 0.961

Conclusion

Dans cet article, nous avons présenté deux approches de classification de texte pour les conversations en ligne à l'aide des services AWS ML. Vous pouvez généraliser ces solutions sur toutes les plateformes de communication en ligne, avec des industries telles que les jeux particulièrement susceptibles de bénéficier d'une meilleure capacité à détecter les contenus préjudiciables. Dans les prochains articles, nous prévoyons de discuter plus en détail d'une architecture de bout en bout pour un déploiement transparent des modèles dans votre compte AWS.

Si vous souhaitez de l'aide pour accélérer votre utilisation du ML dans vos produits et processus, veuillez contacter le Laboratoire de solutions Amazon ML.

À propos des auteurs

Classification de texte pour les conversations en ligne avec apprentissage automatique sur AWS PlatoBlockchain Data Intelligence. Recherche verticale. Aï. Marque Ryan est Data Scientist au sein du laboratoire de solutions Amazon Machine Learning. Il a une expérience spécifique de l'application de l'apprentissage automatique à des problèmes de santé et des sciences de la vie, et pendant son temps libre, il aime lire l'histoire et la science-fiction.

Sourav Bhabesh est Data Scientist au Amazon ML Solutions Lab. Il développe des solutions AI/ML pour les clients AWS dans divers secteurs. Sa spécialité est le traitement automatique du langage naturel (TAL) et il est passionné par l'apprentissage en profondeur. En dehors du travail, il aime lire et voyager.

Liutong Zhou est scientifique appliquée au Amazon ML Solutions Lab. Il crée des solutions d'IA/ML sur mesure pour les clients AWS dans divers secteurs. Il est spécialisé dans le traitement du langage naturel (TAL) et est passionné par l'apprentissage profond multimodal. Il est ténor lyrique et aime chanter des opéras en dehors du travail.

Sia Gholami est Senior Data Scientist au Amazon ML Solutions Lab, où il conçoit des solutions d'IA/ML pour des clients de divers secteurs. Il est passionné par le traitement du langage naturel (TAL) et l'apprentissage en profondeur. En dehors du travail, Sia aime passer du temps dans la nature et jouer au tennis.

Daniel Horowitz est un responsable des sciences appliquées de l'IA. Il dirige une équipe de scientifiques du laboratoire de solutions Amazon ML qui travaille à résoudre les problèmes des clients et à favoriser l'adoption du cloud avec ML.

Horodatage: Le 29 juin 2022

Horodatage: Le 23 juin 2022

Classification de texte pour les conversations en ligne avec machine learning sur AWS

Republié par Platon

Pré-requis

Ensemble de données

Incorporation de sous-mots et RNN

Transformateurs avec visage étreignant

Évaluation des performances du modèle : ensemble de données Jigsaw sur les biais involontaires

Conclusion

À propos des auteurs

Plus de Apprentissage automatique AWS

Traitement intelligent des documents avec les services d'AWS AI : 1ère partie

Modèles de transformateur Host Hugging Face à l'aide de l'inférence sans serveur Amazon SageMaker

Formation distribuée avec Amazon EKS et Torch Distributed Elastic

Exafunction prend en charge AWS Inferentia pour débloquer les meilleures performances de prix pour l'inférence d'apprentissage automatique

LightGBM intégré à Amazon SageMaker propose désormais une formation distribuée à l'aide de Dask

Prise en charge d'un nouveau format de données étendu dans Amazon Kendra

Optimisez les hyperparamètres avec Amazon SageMaker Automatic Model Tuning

À propos de nous

Recherche verticale et Ai

Plateforme

Restez à l'affût

Compte