Clasificación de texto para conversaciones en línea con aprendizaje automático en AWS

Reeditado por Platón

seguidores: 0

Las conversaciones en línea son omnipresentes en la vida moderna y abarcan industrias desde los videojuegos hasta las telecomunicaciones. Esto ha llevado a un crecimiento exponencial en la cantidad de datos de conversaciones en línea, lo que ha ayudado en el desarrollo de sistemas de procesamiento de lenguaje natural (NLP) de última generación como chatbots y modelos de generación de lenguaje natural (NLG). Con el tiempo, también han evolucionado varias técnicas de PNL para el análisis de textos. Esto requiere el requisito de un servicio completamente administrado que se pueda integrar en las aplicaciones mediante llamadas API sin la necesidad de una amplia experiencia en aprendizaje automático (ML). AWS ofrece servicios de IA de AWS preentrenados como Amazon Comprehend, que puede manejar con eficacia los casos de uso de NLP que involucran clasificación, resumen de texto, reconocimiento de entidades y más para recopilar información del texto.

Además, las conversaciones en línea han dado lugar a un fenómeno generalizado de uso no tradicional del lenguaje. Las técnicas tradicionales de PNL a menudo funcionan mal en estos datos de texto debido a los vocabularios específicos de dominio y en constante evolución que existen dentro de las diferentes plataformas, así como a las desviaciones léxicas significativas de las palabras del inglés correcto, ya sea por accidente o intencionalmente como una forma de ataque adversario. .

En esta publicación, describimos múltiples enfoques de ML para la clasificación de texto de conversaciones en línea con herramientas y servicios disponibles en AWS.

Requisitos previos

Antes de profundizar en este caso de uso, complete los siguientes requisitos previos:

Configurar un Cuenta de AWS y crear un usuario de IAM.
Configura el CLI de AWS y SDK de AWS.
(Opcional) Configure su Entorno IDE de Cloud9.

Conjunto de datos

Para esta publicación, usamos el Conjunto de datos de sesgo involuntario de Jigsaw en la clasificación de toxicidad, un referente para el problema específico de clasificación de toxicidad en conversaciones en línea. El conjunto de datos proporciona etiquetas de toxicidad, así como varios atributos de subgrupos, como obsceno, ataque de identidad, insulto, amenaza y sexualmente explícito. Las etiquetas se proporcionan como valores fraccionarios, que representan la proporción de anotadores humanos que creían que el atributo se aplicaba a un fragmento de texto determinado, que rara vez son unánimes. Para generar etiquetas binarias (por ejemplo, tóxico o no tóxico), se aplica un umbral de 0.5 a los valores fraccionarios y los comentarios con valores superiores al umbral se tratan como la clase positiva para esa etiqueta.

Incrustación de subpalabras y RNN

Para nuestro primer enfoque de modelado, usamos una combinación de incrustación de subpalabras y redes neuronales recurrentes (RNN) para entrenar modelos de clasificación de texto. Las incrustaciones de subpalabras fueron introducidas por Bojanowski et al. en 2017 como una mejora sobre los métodos de incrustación a nivel de palabra anteriores. Los modelos tradicionales de salto de gramo de Word2Vec están entrenados para aprender una representación vectorial estática de una palabra objetivo que predice de manera óptima el contexto de esa palabra. Los modelos de subpalabras, por otro lado, representan cada palabra objetivo como una bolsa de los n-gramas de caracteres que componen la palabra, donde un n-grama se compone de un conjunto de n caracteres consecutivos. Este método permite que el modelo de incrustación represente mejor la morfología subyacente de las palabras relacionadas en el corpus, así como el cálculo de incrustaciones para palabras novedosas fuera del vocabulario (OOV). Esto es particularmente importante en el contexto de las conversaciones en línea, un espacio problemático en el que los usuarios a menudo escriben mal las palabras (a veces intencionalmente para evadir la detección) y también usan un vocabulario único en constante evolución que podría no ser capturado por un corpus de capacitación general.

Amazon SageMaker facilita el entrenamiento y la optimización de un modelo de incrustación de subpalabras no supervisado en su propio corpus de datos de texto específicos del dominio con el integrado Algoritmo BlazingText. También podemos descargar modelos de propósito general existentes entrenados en grandes conjuntos de datos de texto en línea, como los siguientes Modelos en inglés disponibles directamente desde fastText. Desde la instancia de su notebook de SageMaker, simplemente ejecute lo siguiente para descargar un modelo de texto rápido previamente entrenado:

!wget -O vectors.zip https://dl.fbaipublicfiles.com/fasttext/vectors-english/crawl-300d-2M-subword.zip

Ya sea que haya entrenado sus propias incrustaciones con BlazingText o haya descargado un modelo previamente entrenado, el resultado es un modelo binario comprimido que puede usar con la biblioteca gensim para incrustar una palabra de destino dada como un vector basado en sus subpalabras constituyentes:

# Imports
import os
from zipfile import ZipFile
from gensim.models.fasttext import load_facebook_vectors # Unzip the model binary into 'dir_path'
with ZipFile('vectors.zip', 'r') as zipObj: zipObj.extractall(path=<dir_path_name>) # Load embedding model into memory
embed_model = load_facebook_vectors(os.path.join(<dir_path_name>, 'vectors.bin')) # Compute embedding vector for 'word'
word_embedding = embed_model[word]

Después de preprocesar un segmento de texto dado, podemos usar este enfoque para generar una representación vectorial para cada una de las palabras constituyentes (separadas por espacios). Luego usamos SageMaker y un marco de aprendizaje profundo como PyTorch para entrenar un RNN personalizado con un objetivo de clasificación binaria o multietiqueta para predecir si el texto es tóxico o no y el subtipo específico de toxicidad basado en ejemplos de entrenamiento etiquetados.

Para cargar su texto preprocesado a Servicio de almacenamiento simple de Amazon (Amazon S3), use el siguiente código:

import boto3
s3 = boto3.client('s3') bucket = <bucket_name>
prefix = <prefix_name> s3.upload_file('train.pkl', bucket, os.path.join(prefix, 'train/train.pkl'))
s3.upload_file('valid.pkl', bucket, os.path.join(prefix, 'valid/valid.pkl'))
s3.upload_file('test.pkl', bucket, os.path.join(prefix, 'test/test.pkl'))

Para iniciar el entrenamiento escalable del modelo multi-GPU con SageMaker, ingrese el siguiente código:

import sagemaker
sess = sagemaker.Session()
role = iam.get_role(RoleName= ‘AmazonSageMakerFullAccess’)['Role']['Arn'] from sagemaker.pytorch import PyTorch # hyperparameters, which are passed into the training job
hyperparameters = { 'epochs': 20, # Maximum number of epochs to train model 'train-batch-size': 128, # Training batch size (No. sentences) 'eval-batch-size': 1024, # Evaluation batch size (No. sentences) 'embed-size': 300, # Vector dimension of word embeddings (Must match embedding model) 'lstm-hidden-size': 200, # Number of neurons in LSTM hidden layer 'lstm-num-layers': 2, # Number of stacked LSTM layers 'proj-size': 100, # Number of neurons in intermediate projection layer 'num-targets': len(<list_of_label_names>), # Number of targets for classification 'class-weight': ' '.join([str(c) for c in <list_of_weights_per_class>]), # Weight to apply to each target during training 'total-length':<max_number_of_words_per_sentence>, 'metric-for-best-model': 'ap_score_weighted', # Metric on which to select the best model
} # create the Estimator
pytorch_estimator = PyTorch( entry_point='train.py', source_dir=<source_dir_path>, instance_type=<train_instance_type>, volume_size=200, instance_count=1, role=role, framework_version='1.6.0’, py_version='py36', hyperparameters=hyperparameters, metric_definitions=[ {'Name': 'validation:accuracy', 'Regex': 'eval_accuracy = (.*?);'}, {'Name': 'validation:f1-micro', 'Regex': 'eval_f1_score_micro = (.*?);'}, {'Name': 'validation:f1-macro', 'Regex': 'eval_f1_score_macro = (.*?);'}, {'Name': 'validation:f1-weighted', 'Regex': 'eval_f1_score_weighted = (.*?);'}, {'Name': 'validation:ap-micro', 'Regex': 'eval_ap_score_micro = (.*?);'}, {'Name': 'validation:ap-macro', 'Regex': 'eval_ap_score_macro = (.*?);'}, {'Name': 'validation:ap-weighted', 'Regex': 'eval_ap_score_weighted = (.*?);'}, {'Name': 'validation:auc-micro', 'Regex': 'eval_auc_score_micro = (.*?);'}, {'Name': 'validation:auc-macro', 'Regex': 'eval_auc_score_macro = (.*?);'}, {'Name': 'validation:auc-weighted', 'Regex': 'eval_auc_score_weighted = (.*?);'} ]
) pytorch_estimator.fit( { 'train': 's3://<bucket_name>/<prefix_name>/train', 'valid': 's3://<bucket_name>/<prefix_name>/valid', 'test': 's3://<bucket_name>/<prefix_name>/test' }
)

En un radio de , definimos un conjunto de datos PyTorch que es utilizado por train.py para preparar los datos de texto para el entrenamiento y la evaluación del modelo:

def pad_matrix(m: torch.Tensor, max_len: int =100)-> tuple[int, torch.Tensor] : """Pads an embedding matrix to a specified maximum length.""" if m.ndim == 1: m = m.reshape(1, -1) mask = np.ones_like(m) if m.shape[0] > max_len: m = m[:max_len, :] mask = mask[:max_len, :] else: m = np.pad(m, ((0, max_len - m.shape[0]), (0,0))) mask = np.pad(mask, ((0, max_len - mask.shape[0]), (0,0))) return m, mask class EmbeddingDataset(Dataset: torch.utils.data.Dataset): """PyTorch dataset representing pretrained sentence embeddings, masks, and labels.""" def __init__(self, text: str, labels: int, max_len: int=100): self.text = text self.labels = labels self.max_len = max_len def __len__(self) -> int: return len(self.labels) def __getitem__(self, idx: int) -> dict: e = embed_line(self.text[idx]) length = e.shape[0] m, mask = pad_matrix(e, max_len=self.max_len) item = {} item['embeddings'] = torch.from_numpy(m) item['mask'] = torch.from_numpy(mask) item['labels'] = torch.tensor(self.labels[idx]) if length > self.max_len: item['lengths'] = torch.tensor(self.max_len) else: item['lengths'] = torch.tensor(length) return item

Tenga en cuenta que este código prevé que el vectors.zip El archivo que contiene sus incrustaciones de fastText o BlazingText se almacenará en .

Además, puede implementar fácilmente modelos fastText preentrenados por sí solos para puntos finales de SageMaker en vivo para calcular vectores de incrustación sobre la marcha para usar en tareas relevantes a nivel de palabra. Ver lo siguiente Ejemplo de GitHub para más información.

Transformadores con cara de abrazo

Para nuestro segundo enfoque de modelado, hacemos la transición al uso de Transformers, presentado en el documento La atención es todo lo que necesitas. Los transformadores son modelos de aprendizaje profundo diseñados para evitar deliberadamente las trampas de los RNN al depender de un mecanismo de autoatención para generar dependencias globales entre la entrada y la salida. La arquitectura del modelo Transformer permite una paralelización significativamente mejor y puede lograr un alto rendimiento en un tiempo de entrenamiento relativamente corto.

Basado en el éxito de Transformers, BERT, presentado en el periódico BERT: pre-entrenamiento de transformadores bidireccionales profundos para la comprensión del lenguaje, agregó pre-entrenamiento bidireccional para la representación del lenguaje. Inspirado en la tarea Cloze, BERT está preentrenado con modelado de lenguaje enmascarado (MLM), en el que el modelo aprende a recuperar las palabras originales para tokens enmascarados aleatoriamente. El modelo BERT también está preentrenado en la tarea de predicción de la siguiente oración (NSP) para predecir si dos oraciones están en el orden de lectura correcto. Desde su aparición en 2018, BERT y sus variaciones se han utilizado ampliamente en tareas de clasificación de texto.

Nuestra solución utiliza una variante de BERT conocida como RoBERTa, que se presentó en el documento RoBERTa: un enfoque de preentrenamiento BERT robustamente optimizado. RoBERTa mejora aún más el rendimiento de BERT en una variedad de tareas de lenguaje natural mediante el entrenamiento optimizado de modelos, incluido el entrenamiento de modelos más largos en un corpus 10 veces más grande, el uso de hiperparámetros optimizados, el enmascaramiento aleatorio dinámico, la eliminación de la tarea NSP y más.

Nuestros modelos basados en RoBERTa utilizan el Transformadores de cara abrazados Library, que es un marco Python de código abierto popular que proporciona implementaciones de alta calidad de todo tipo de modelos de Transformer de última generación para una variedad de tareas de NLP. Hugging Face se ha asociado con AWS para permitirle entrenar e implementar fácilmente modelos de Transformer en SageMaker. Esta funcionalidad está disponible a través de Hugging Face Imágenes del contenedor de aprendizaje profundo de AWS, que incluyen las bibliotecas Transformers, Tokenizers y Datasets, y una integración optimizada con SageMaker para el entrenamiento y la inferencia de modelos.

En nuestra implementación, heredamos la columna vertebral de la arquitectura RoBERTa del marco Hugging Face Transformers y usamos SageMaker para entrenar e implementar nuestro propio modelo de clasificación de texto, al que llamamos RoBERTox. RoBERTox utiliza la codificación de pares de bytes (BPE), introducida en Traducción automática neuronal de palabras raras con unidades de subpalabras, para tokenizar el texto de entrada en representaciones de subpalabras. Luego, podemos entrenar nuestros modelos y tokenizadores en los datos de Jigsaw o cualquier corpus específico de un dominio grande (como los registros de chat de un juego específico) y usarlos para la clasificación de texto personalizada. Definimos nuestra clase de modelo de clasificación personalizada en el siguiente código:

class RoBERToxForSequenceClassification(CustomLossMixIn, RobertaPreTrainedModel): _keys_to_ignore_on_load_missing = [r"position_ids"] def __init__(self, config: PretrainedConfig, *inputs, **kwargs): """Initialize the RoBERToxForSequenceClassification instance Parameters ---------- config : PretrainedConfig num_labels : Optional[int] if not None, overwrite the default classification head in pretrained model. mode : Optional[str] 'MULTI_CLASS', 'MULTI_LABEL' or "REGRESSION". Used to determine loss class_weight : Optional[List[float]] If not None, add class weight to BCEWithLogitsLoss or CrossEntropyLoss """ super().__init__(config, *inputs, **kwargs) # Define model architecture self.roberta = RobertaModel(self.config, add_pooling_layer=False) self.classifier = RobertaClassificationHead(self.config) self.init_weights() @modeling_roberta.add_start_docstrings_to_model_forward( modeling_roberta.ROBERTA_INPUTS_DOCSTRING.format("batch_size, sequence_length") ) @modeling_roberta.add_code_sample_docstrings( tokenizer_class=modeling_roberta._TOKENIZER_FOR_DOC, checkpoint=modeling_roberta._CHECKPOINT_FOR_DOC, output_type=SequenceClassifierOutput, config_class=modeling_roberta._CONFIG_FOR_DOC, ) def forward( self, input_ids: torch.Tensor = None, attention_mask: torch.Tensor = None, token_type_ids: torch.Tensor = None, position_ids: torch.Tensor =None, head_mask: torch.Tensor =None, inputs_embeds: torch.Tensor =None, labels: torch.Tensor =None, output_attentions: torch.Tensor =None, output_hidden_states: torch.Tensor =None, return_dict: bool =None, sample_weights: torch.Tensor =None, ) -> : dict: """Forward pass to return loss, logits, ... Returns -------- output : SequenceClassifierOutput has those keys: loss, logits, hidden states, attentions """ return_dict = return_dict or self.config.use_return_dict outputs = self.roberta( input_ids, attention_mask=attention_mask, token_type_ids=token_type_ids, position_ids=position_ids, head_mask=head_mask, inputs_embeds=inputs_embeds, output_attentions=output_attentions, output_hidden_states=output_hidden_states, return_dict=return_dict, ) sequence_output = outputs[0] # [CLS] embedding logits = self.classifier(sequence_output) loss = self.compute_loss(logits, labels, sample_weights=sample_weights) if not return_dict: output = (logits,) + outputs[2:] return ((loss,) + output) if loss is not None else output return SequenceClassifierOutput( loss=loss, logits=logits, hidden_states=outputs.hidden_states, attentions=outputs.attentions, ) def compute_loss(self, logits: torch.Tensor, labels: torch.Tensor, sample_weights: Optional[torch.Tensor] = None) -> torch.FloatTensor: return super().compute_loss(logits, labels, sample_weights)

Antes del entrenamiento, preparamos nuestros datos de texto y etiquetas utilizando la biblioteca de conjuntos de datos de Hugging Face y subimos el resultado a Amazon S3:

from datasets import Dataset
import multiprocessing data_train = Dataset.from_pandas(df_train)
… tokenizer = <instantiated_huggingface_tokenizer> def preprocess_function(examples: examples) -> torch.Tensor: result = tokenizer(examples["text"], padding="max_length", max_length=128, truncation=True) return result num_proc = multiprocessing.cpu_count()
print("Number of CPUs =", num_proc) data_train = data_train.map( preprocess_function, batched=True, load_from_cache_file=False, num_proc=num_proc
)
… import botocore
from datasets.filesystems import S3FileSystem s3_session = botocore.session.Session() # create S3FileSystem instance with s3_session
s3 = S3FileSystem(session=s3_session) # saves encoded_dataset to your s3 bucket
data_train.save_to_disk(f's3://<bucket_name>/<prefix_name>/train', fs=s3)
…

Iniciamos el entrenamiento del modelo de manera similar a la RNN:

import sagemaker
sess = sagemaker.Session()
role = sagemaker.get_execution_role()
from sagemaker.huggingface import HuggingFace # hyperparameters, which are passed into the training job
hyperparameters = { 'model-name': <huggingface_base_model_name>, 'epochs': 10, 'train-batch-size': 32, 'eval-batch-size': 64, 'num-labels': len(<list_of_label_names>), 'class-weight': ' '.join([str(c) for c in <list_of_class_weights>]), 'metric-for-best-model': 'ap_score_weighted', 'save-total-limit': 1,
} # create the Estimator
huggingface_estimator = HuggingFace( entry_point='train.py', source_dir=<source_dir_path>, instance_type=<train_instance_type>, instance_count=1, role=role, transformers_version='4.6.1', pytorch_version='1.7.1', py_version='py36', hyperparameters=hyperparameters, metric_definitions=[ {'Name': 'validation:accuracy', 'Regex': 'eval_accuracy = (.*?);'}, {'Name': 'validation:f1-micro', 'Regex': 'eval_f1_score_micro = (.*?);'}, {'Name': 'validation:f1-macro', 'Regex': 'eval_f1_score_macro = (.*?);'}, {'Name': 'validation:f1-weighted', 'Regex': 'eval_f1_score_weighted = (.*?);'}, {'Name': 'validation:ap-micro', 'Regex': 'eval_ap_score_micro = (.*?);'}, {'Name': 'validation:ap-macro', 'Regex': 'eval_ap_score_macro = (.*?);'}, {'Name': 'validation:ap-weighted', 'Regex': 'eval_ap_score_weighted = (.*?);'}, {'Name': 'validation:auc-micro', 'Regex': 'eval_auc_score_micro = (.*?);'}, {'Name': 'validation:auc-macro', 'Regex': 'eval_auc_score_macro = (.*?);'}, {'Name': 'validation:auc-weighted', 'Regex': 'eval_auc_score_weighted = (.*?);'} ]
) huggingface_estimator.fit( { 'train': 's3://<bucket_name>/<prefix_name>/train', 'valid': 's3://<bucket_name>/<prefix_name>/valid', 'test': 's3://<bucket_name>/<prefix_name>/test'
)

Finalmente, el siguiente fragmento de código de Python ilustra el proceso de servir RoBERTox a través de un punto final de SageMaker en vivo para la clasificación de texto en tiempo real para una solicitud JSON:

from sagemaker.huggingface import HuggingFaceModel
from sagemaker import get_execution_role
from sagemaker.predictor import Predictor
from sagemaker.serializers import JSONSerializer
from sagemaker.deserializers import JSONDeserializer class Classifier(Predictor): def __init__(self, endpoint_name, sagemaker_session): super().__init__(endpoint_name, sagemaker_session, serializer=JSONSerializer(), deserializer=JSONDeserializer()) hf_model = HuggingFaceModel( role=get_execution_role(), model_data=<s3_model_and_tokenizer.tar.gz>, entry_point="inference.py", transformers_version="4.6.1", pytorch_version="1.7.1", py_version="py36", predictor_cls=Classifier
) predictor = hf_model.deploy(instance_type=<deploy_instance_type>, initial_instance_count=1)

Evaluación del rendimiento del modelo: conjunto de datos de sesgo no deseado de Jigsaw

La siguiente tabla contiene métricas de rendimiento para modelos entrenados y evaluados en datos de la competencia Jigsaw Unintended Bias in Toxicity Detection Kaggle. Entrenamos modelos para tres tareas diferentes pero interrelacionadas:

caso binario – El modelo se entrenó en el conjunto de datos de entrenamiento completo para predecir el toxicity solo etiqueta
Caso de grano fino – El subconjunto de los datos de entrenamiento para los cuales toxicity>=0.5 se utilizó para predecir otras etiquetas de subtipo de toxicidad (obscene, threat, insult, identity_attack, sexual_explicit)
Estuche multitarea – El conjunto de datos de entrenamiento completo se usó para predecir las seis etiquetas simultáneamente

Entrenamos modelos RNN y Roberta para cada una de estas tres tareas utilizando las etiquetas fraccionarias proporcionadas por Jigsaw, que corresponden a la proporción de anotadores que pensaron que la etiqueta era apropiada para el texto, así como con etiquetas binarias combinadas con pesos de clase en la red. función de pérdida. En el esquema de etiquetado binario, las proporciones se establecieron en un umbral de 0.5 para cada etiqueta disponible (1 si etiqueta >=0.5, 0 en caso contrario) y las funciones de pérdida del modelo se ponderaron en función de las proporciones relativas de cada etiqueta binaria en el conjunto de datos de entrenamiento. En todos los casos, encontramos que el uso directo de las etiquetas fraccionarias resultó en el mejor desempeño, indicando el valor agregado de la información inherente al grado de acuerdo entre los anotadores.

Mostramos dos métricas del modelo: la precisión promedio (AP), que proporciona un resumen de la curva de recuperación de precisión al calcular la media ponderada de los valores de precisión logrados en cada umbral de clasificación, y el área bajo la curva característica operativa del receptor (AUC) , que agrega el rendimiento del modelo a través de los umbrales de clasificación con respecto a la tasa de verdaderos positivos y la tasa de falsos positivos. Tenga en cuenta que la clase verdadera para una instancia de texto dada en el conjunto de prueba corresponde a si la proporción verdadera es mayor o igual a 0.5 (1 si etiqueta>=0.5, 0 en caso contrario).

.	Incrustación de subpalabras + RNN	roberta
.	Etiquetas fraccionarias	Etiquetas binarias + Ponderación de clase	Etiquetas fraccionarias	Etiquetas binarias + Ponderación de clase
Binario	PA=0.746, ABC=0.966	AP=0.730, AUC=0.963	AP=0.758, AUC=0.966	AP=0.747, AUC=0.963
De grano fino	AP=0.906, AUC=0.909	AP=0.850, AUC=0.851	AP=0.913, AUC=0.913	AP=0.911, AUC=0.912
Multitarea	PA=0.721, ABC=0.972	AP=0.535, AUC=0.907	AP=0.740, AUC=0.972	AP=0.711, AUC=0.961

Conclusión

En esta publicación, presentamos dos enfoques de clasificación de texto para conversaciones en línea utilizando los servicios de aprendizaje automático de AWS. Puede generalizar estas soluciones en todas las plataformas de comunicación en línea, con industrias como la de los juegos que probablemente se beneficiarán de una capacidad mejorada para detectar contenido dañino. En publicaciones futuras, planeamos analizar más a fondo una arquitectura de un extremo a otro para la implementación perfecta de modelos en su cuenta de AWS.

Si desea obtener ayuda para acelerar el uso de ML en sus productos y procesos, comuníquese con el Laboratorio de soluciones de Amazon ML.

Acerca de los autores

Clasificación de texto para conversaciones en línea con aprendizaje automático en AWS PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai. marca ryan es un científico de datos en el laboratorio de soluciones de aprendizaje automático de Amazon. Tiene experiencia específica en la aplicación del aprendizaje automático a problemas relacionados con la salud y las ciencias de la vida, y en su tiempo libre le gusta leer historia y ciencia ficción.

Sourav Bhabesh es científico de datos en Amazon ML Solutions Lab. Desarrolla soluciones de IA/ML para clientes de AWS en diversas industrias. Su especialidad es el procesamiento del lenguaje natural (PNL) y le apasiona el aprendizaje profundo. Fuera del trabajo le gusta leer libros y viajar.

Liutong Zhou es científico aplicado en Amazon ML Solutions Lab. Crea soluciones de inteligencia artificial/aprendizaje automático a medida para clientes de AWS en varios sectores. Se especializa en Procesamiento del lenguaje natural (NLP) y le apasiona el aprendizaje profundo multimodal. Es tenor lírico y disfruta cantando óperas fuera del trabajo.

Sia Gholami es un científico de datos sénior en Amazon ML Solutions Lab, donde crea soluciones de IA/ML para clientes de diversas industrias. Le apasiona el procesamiento del lenguaje natural (PNL) y el aprendizaje profundo. Fuera del trabajo, a Sia le gusta pasar tiempo en la naturaleza y jugar al tenis.

Daniel Horowitz es Gerente de Ciencias de IA Aplicada. Dirige un equipo de científicos en el laboratorio de soluciones de Amazon ML que trabaja para resolver los problemas de los clientes e impulsar la adopción de la nube con ML.

Sello de tiempo: Sábado, Junio 29, 2022

Sello de tiempo: 23 de junio de 2022

Clasificación de texto para conversaciones en línea con aprendizaje automático en AWS

Reeditado por Platón

Requisitos previos

Conjunto de datos

Incrustación de subpalabras y RNN

Transformadores con cara de abrazo

Evaluación del rendimiento del modelo: conjunto de datos de sesgo no deseado de Jigsaw

Conclusión

Acerca de los autores

Mas de Aprendizaje automático de AWS

Procesamiento inteligente de documentos con servicios de IA de AWS: Parte 1

Aloje modelos de transformador Hugging Face con Amazon SageMaker Serverless Inference

Capacitación distribuida con Amazon EKS y Torch Distributed Elastic

Exafunction es compatible con AWS Inferentia para desbloquear el mejor rendimiento de precio para la inferencia de aprendizaje automático

Amazon SageMaker integrado LightGBM ahora ofrece capacitación distribuida usando Dask

Nuevo soporte de formato de datos ampliado en Amazon Kendra

Optimice los hiperparámetros con Amazon SageMaker Automatic Model Tuning

Sobre Nosotros

Búsqueda vertical y Ai

Productos

Manténganse Conectados

Mi Cuenta