Phân loại văn bản cho cuộc trò chuyện trực tuyến với Machine Learning trên AWS

Được xuất bản lại bởi Plato

Người theo dõi: 0

Các cuộc trò chuyện trực tuyến phổ biến khắp nơi trong cuộc sống hiện đại, bao gồm các ngành từ trò chơi điện tử đến viễn thông. Điều này đã dẫn đến sự tăng trưởng theo cấp số nhân về lượng dữ liệu hội thoại trực tuyến, giúp phát triển các hệ thống xử lý ngôn ngữ tự nhiên (NLP) tiên tiến nhất như chatbot và mô hình tạo ngôn ngữ tự nhiên (NLG). Theo thời gian, các kỹ thuật NLP khác nhau để phân tích văn bản cũng đã phát triển. Điều này đặt ra yêu cầu đối với một dịch vụ được quản lý đầy đủ có thể được tích hợp vào các ứng dụng bằng cách sử dụng lệnh gọi API mà không cần chuyên môn sâu rộng về học máy (ML). AWS cung cấp các dịch vụ AWS AI được đào tạo trước như Amazon hiểu, có thể xử lý hiệu quả các trường hợp sử dụng NLP liên quan đến phân loại, tóm tắt văn bản, nhận dạng thực thể, v.v. để thu thập thông tin chi tiết từ văn bản.

Ngoài ra, các cuộc trò chuyện trực tuyến đã dẫn đến hiện tượng sử dụng ngôn ngữ phi truyền thống trên diện rộng. Các kỹ thuật NLP truyền thống thường hoạt động kém trên dữ liệu văn bản này do các từ vựng liên tục phát triển và theo miền cụ thể tồn tại trong các nền tảng khác nhau, cũng như sự sai lệch đáng kể về mặt từ vựng so với tiếng Anh thích hợp, do vô tình hoặc cố ý như một hình thức tấn công đối nghịch .

Trong bài đăng này, chúng tôi mô tả nhiều cách tiếp cận ML để phân loại văn bản của các cuộc trò chuyện trực tuyến bằng các công cụ và dịch vụ có sẵn trên AWS.

Điều kiện tiên quyết

Trước khi đi sâu vào trường hợp sử dụng này, vui lòng hoàn thành các điều kiện tiên quyết sau:

Thiết lập một Tài khoản AWS và tạo người dùng IAM.
Thiết lập AWSCLI và AWS SDK.
(Tùy chọn) Thiết lập Môi trường Cloud9 IDE.

Bộ dữ liệu

Đối với bài đăng này, chúng tôi sử dụng Ghép hình Thiên vị ngoài ý muốn trong tập dữ liệu phân loại độc tính, một điểm chuẩn cho vấn đề cụ thể về phân loại độ độc trong các cuộc trò chuyện trực tuyến. Tập dữ liệu cung cấp các nhãn độc tính cũng như một số thuộc tính nhóm con như khiêu dâm, tấn công danh tính, xúc phạm, đe dọa và khiêu dâm. Các nhãn được cung cấp dưới dạng giá trị phân số, đại diện cho tỷ lệ người chú thích con người tin rằng thuộc tính được áp dụng cho một đoạn văn bản nhất định, các giá trị này hiếm khi nhất trí. Để tạo các nhãn nhị phân (ví dụ: độc hại hoặc không độc hại), ngưỡng 0.5 được áp dụng cho các giá trị phân số và các nhận xét có giá trị lớn hơn ngưỡng được coi là lớp tích cực cho nhãn đó.

Nhúng từ khóa phụ và RNN

Đối với cách tiếp cận mô hình hóa đầu tiên của chúng tôi, chúng tôi sử dụng sự kết hợp giữa nhúng từ khóa con và mạng nơ-ron lặp lại (RNN) để đào tạo các mô hình phân loại văn bản. Nhúng từ khóa phụ được giới thiệu bởi Bojanowski và cộng sự. vào năm 2017 như một cải tiến so với các phương pháp nhúng cấp độ từ trước đó. Các mô hình bỏ qua Word2Vec truyền thống được đào tạo để học cách biểu diễn vectơ tĩnh của một từ đích để dự đoán ngữ cảnh của từ đó một cách tối ưu. Mặt khác, các mô hình từ khóa phụ thể hiện mỗi từ đích dưới dạng một túi chứa n-gram ký tự tạo nên từ đó, trong đó n-gram bao gồm một tập hợp n ký tự liên tiếp. Phương pháp này cho phép mô hình nhúng thể hiện tốt hơn hình thái cơ bản của các từ liên quan trong kho ngữ liệu cũng như tính toán cách nhúng cho các từ mới lạ, không thuộc từ vựng (OOV). Điều này đặc biệt quan trọng trong bối cảnh của các cuộc trò chuyện trực tuyến, một không gian có vấn đề trong đó người dùng thường viết sai chính tả các từ (đôi khi cố ý để tránh bị phát hiện) và cũng sử dụng một từ vựng duy nhất, liên tục phát triển mà có thể không nắm bắt được bằng ngữ liệu đào tạo chung.

Amazon SageMaker giúp dễ dàng đào tạo và tối ưu hóa mô hình nhúng từ khóa phụ không được giám sát trên kho dữ liệu văn bản theo miền cụ thể của riêng bạn với tính năng tích hợp sẵn Thuật toán BlazingText. Chúng tôi cũng có thể tải xuống các mô hình có mục đích chung hiện có được đào tạo trên bộ dữ liệu lớn của văn bản trực tuyến, chẳng hạn như sau Các mô hình ngôn ngữ tiếng Anh có sẵn trực tiếp từ fastText. Từ phiên bản sổ ghi chép SageMaker của bạn, chỉ cần chạy như sau để tải xuống mô hình fastText được đào tạo trước:

!wget -O vectors.zip https://dl.fbaipublicfiles.com/fasttext/vectors-english/crawl-300d-2M-subword.zip

Cho dù bạn đã đào tạo cách nhúng của riêng mình với BlazingText hay tải xuống một mô hình được đào tạo trước, kết quả là một tệp nhị phân mô hình nén mà bạn có thể sử dụng với thư viện gensim để nhúng một từ đích nhất định dưới dạng vectơ dựa trên các từ khóa con cấu thành của nó:

# Imports
import os
from zipfile import ZipFile
from gensim.models.fasttext import load_facebook_vectors # Unzip the model binary into 'dir_path'
with ZipFile('vectors.zip', 'r') as zipObj: zipObj.extractall(path=<dir_path_name>) # Load embedding model into memory
embed_model = load_facebook_vectors(os.path.join(<dir_path_name>, 'vectors.bin')) # Compute embedding vector for 'word'
word_embedding = embed_model[word]

Sau khi chúng tôi xử lý trước một đoạn văn bản nhất định, chúng tôi có thể sử dụng cách tiếp cận này để tạo biểu diễn vectơ cho mỗi từ cấu thành (được phân tách bằng dấu cách). Sau đó, chúng tôi sử dụng SageMaker và một khuôn khổ học tập sâu như PyTorch để đào tạo RNN tùy chỉnh với mục tiêu phân loại nhị phân hoặc đa nhãn để dự đoán liệu văn bản có độc hại hay không và loại độc tố phụ cụ thể dựa trên các ví dụ đào tạo được gắn nhãn.

Để tải văn bản đã xử lý trước của bạn lên Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3), sử dụng mã sau:

import boto3
s3 = boto3.client('s3') bucket = <bucket_name>
prefix = <prefix_name> s3.upload_file('train.pkl', bucket, os.path.join(prefix, 'train/train.pkl'))
s3.upload_file('valid.pkl', bucket, os.path.join(prefix, 'valid/valid.pkl'))
s3.upload_file('test.pkl', bucket, os.path.join(prefix, 'test/test.pkl'))

Để bắt đầu đào tạo mô hình đa GPU, có thể mở rộng với SageMaker, hãy nhập mã sau:

import sagemaker
sess = sagemaker.Session()
role = iam.get_role(RoleName= ‘AmazonSageMakerFullAccess’)['Role']['Arn'] from sagemaker.pytorch import PyTorch # hyperparameters, which are passed into the training job
hyperparameters = { 'epochs': 20, # Maximum number of epochs to train model 'train-batch-size': 128, # Training batch size (No. sentences) 'eval-batch-size': 1024, # Evaluation batch size (No. sentences) 'embed-size': 300, # Vector dimension of word embeddings (Must match embedding model) 'lstm-hidden-size': 200, # Number of neurons in LSTM hidden layer 'lstm-num-layers': 2, # Number of stacked LSTM layers 'proj-size': 100, # Number of neurons in intermediate projection layer 'num-targets': len(<list_of_label_names>), # Number of targets for classification 'class-weight': ' '.join([str(c) for c in <list_of_weights_per_class>]), # Weight to apply to each target during training 'total-length':<max_number_of_words_per_sentence>, 'metric-for-best-model': 'ap_score_weighted', # Metric on which to select the best model
} # create the Estimator
pytorch_estimator = PyTorch( entry_point='train.py', source_dir=<source_dir_path>, instance_type=<train_instance_type>, volume_size=200, instance_count=1, role=role, framework_version='1.6.0’, py_version='py36', hyperparameters=hyperparameters, metric_definitions=[ {'Name': 'validation:accuracy', 'Regex': 'eval_accuracy = (.*?);'}, {'Name': 'validation:f1-micro', 'Regex': 'eval_f1_score_micro = (.*?);'}, {'Name': 'validation:f1-macro', 'Regex': 'eval_f1_score_macro = (.*?);'}, {'Name': 'validation:f1-weighted', 'Regex': 'eval_f1_score_weighted = (.*?);'}, {'Name': 'validation:ap-micro', 'Regex': 'eval_ap_score_micro = (.*?);'}, {'Name': 'validation:ap-macro', 'Regex': 'eval_ap_score_macro = (.*?);'}, {'Name': 'validation:ap-weighted', 'Regex': 'eval_ap_score_weighted = (.*?);'}, {'Name': 'validation:auc-micro', 'Regex': 'eval_auc_score_micro = (.*?);'}, {'Name': 'validation:auc-macro', 'Regex': 'eval_auc_score_macro = (.*?);'}, {'Name': 'validation:auc-weighted', 'Regex': 'eval_auc_score_weighted = (.*?);'} ]
) pytorch_estimator.fit( { 'train': 's3://<bucket_name>/<prefix_name>/train', 'valid': 's3://<bucket_name>/<prefix_name>/valid', 'test': 's3://<bucket_name>/<prefix_name>/test' }
)

Trong thời hạn , chúng tôi xác định Tập dữ liệu PyTorch được sử dụng bởi train.py để chuẩn bị dữ liệu văn bản cho đào tạo và đánh giá mô hình:

def pad_matrix(m: torch.Tensor, max_len: int =100)-> tuple[int, torch.Tensor] : """Pads an embedding matrix to a specified maximum length.""" if m.ndim == 1: m = m.reshape(1, -1) mask = np.ones_like(m) if m.shape[0] > max_len: m = m[:max_len, :] mask = mask[:max_len, :] else: m = np.pad(m, ((0, max_len - m.shape[0]), (0,0))) mask = np.pad(mask, ((0, max_len - mask.shape[0]), (0,0))) return m, mask class EmbeddingDataset(Dataset: torch.utils.data.Dataset): """PyTorch dataset representing pretrained sentence embeddings, masks, and labels.""" def __init__(self, text: str, labels: int, max_len: int=100): self.text = text self.labels = labels self.max_len = max_len def __len__(self) -> int: return len(self.labels) def __getitem__(self, idx: int) -> dict: e = embed_line(self.text[idx]) length = e.shape[0] m, mask = pad_matrix(e, max_len=self.max_len) item = {} item['embeddings'] = torch.from_numpy(m) item['mask'] = torch.from_numpy(mask) item['labels'] = torch.tensor(self.labels[idx]) if length > self.max_len: item['lengths'] = torch.tensor(self.max_len) else: item['lengths'] = torch.tensor(length) return item

Lưu ý rằng mã này dự đoán rằng vectors.zip tệp chứa các nhúng fastText hoặc BlazingText của bạn sẽ được lưu trữ trong .

Ngoài ra, bạn có thể dễ dàng triển khai các mô hình fastText được đào tạo trước của riêng chúng cho các điểm cuối SageMaker trực tiếp để tính toán các vectơ nhúng một cách nhanh chóng để sử dụng trong các tác vụ cấp từ có liên quan. Xem phần sau Ví dụ về GitHub để biết thêm chi tiết.

Người vận chuyển với khuôn mặt ôm

Đối với cách tiếp cận mô hình hóa thứ hai, chúng tôi chuyển sang cách sử dụng Người máy biến hình, được giới thiệu trong bài báo Chú ý là tất cả những gì bạn cần. Máy biến áp là mô hình học sâu được thiết kế để cố ý tránh những cạm bẫy của RNN bằng cách dựa trên cơ chế tự chú ý để thu hút sự phụ thuộc toàn cầu giữa đầu vào và đầu ra. Kiến trúc mô hình Transformer cho phép song song tốt hơn đáng kể và có thể đạt được hiệu suất cao trong thời gian đào tạo tương đối ngắn.

Được xây dựng dựa trên thành công của Transformers, BERT, được giới thiệu trên báo BERT: Đào tạo trước về Máy biến áp hai chiều sâu để hiểu ngôn ngữ, đã thêm đào tạo trước hai chiều để trình bày ngôn ngữ. Lấy cảm hứng từ nhiệm vụ Cloze, BERT được đào tạo trước với mô hình ngôn ngữ được che giấu (MLM), trong đó mô hình học cách khôi phục các từ ban đầu cho các mã thông báo được che ngẫu nhiên. Mô hình BERT cũng được đào tạo trước về nhiệm vụ dự đoán câu tiếp theo (NSP) để dự đoán xem hai câu có đúng thứ tự đọc hay không. Kể từ khi ra đời vào năm 2018, BERT và các biến thể của nó đã được sử dụng rộng rãi trong các nhiệm vụ phân loại văn bản.

Giải pháp của chúng tôi sử dụng một biến thể của BERT được gọi là RoBERTa, đã được giới thiệu trong bài báo RoBERTa: Phương pháp tiếp cận tiền đào tạo BERT được tối ưu hóa mạnh mẽ. RoBERTa cải thiện hơn nữa hiệu suất BERT trên nhiều nhiệm vụ ngôn ngữ tự nhiên bằng cách đào tạo mô hình được tối ưu hóa, bao gồm đào tạo mô hình dài hơn trên kho ngữ liệu lớn hơn gấp 10 lần, sử dụng siêu tham số được tối ưu hóa, tạo mặt nạ ngẫu nhiên động, xóa tác vụ NSP, v.v.

Các mô hình dựa trên RoBERTa của chúng tôi sử dụng Người vận chuyển khuôn mặt ôm thư viện, là một khung Python nguồn mở phổ biến cung cấp các triển khai chất lượng cao của tất cả các loại mô hình Transformer hiện đại nhất cho nhiều tác vụ NLP khác nhau. Hugging Face đã hợp tác với AWS để cho phép bạn dễ dàng đào tạo và triển khai các mô hình Transformer trên SageMaker. Chức năng này có sẵn thông qua Hình ảnh vùng chứa học tập sâu AWS trên khuôn mặt, bao gồm các thư viện Transformers, Tokenizers và Datasets, và tích hợp được tối ưu hóa với SageMaker để đào tạo và suy luận mô hình.

Trong quá trình triển khai, chúng tôi kế thừa cấu trúc xương sống của RoBERTa từ khung Hugging Face Transformers và sử dụng SageMaker để đào tạo và triển khai mô hình phân loại văn bản của riêng chúng tôi, mà chúng tôi gọi là RoBERTox. RoBERTox sử dụng mã hóa cặp byte (BPE), được giới thiệu trong Dịch máy thần kinh của các từ hiếm với các đơn vị từ khóa phụ, để mã hóa văn bản đầu vào thành các biểu diễn từ khóa con. Sau đó, chúng tôi có thể đào tạo các mô hình và trình phân loại của mình trên dữ liệu Ghép hình hoặc bất kỳ kho dữ liệu lớn nào dành cho miền cụ thể (chẳng hạn như nhật ký trò chuyện từ một trò chơi cụ thể) và sử dụng chúng để phân loại văn bản tùy chỉnh. Chúng tôi xác định lớp mô hình phân loại tùy chỉnh của mình trong đoạn mã sau:

class RoBERToxForSequenceClassification(CustomLossMixIn, RobertaPreTrainedModel): _keys_to_ignore_on_load_missing = [r"position_ids"] def __init__(self, config: PretrainedConfig, *inputs, **kwargs): """Initialize the RoBERToxForSequenceClassification instance Parameters ---------- config : PretrainedConfig num_labels : Optional[int] if not None, overwrite the default classification head in pretrained model. mode : Optional[str] 'MULTI_CLASS', 'MULTI_LABEL' or "REGRESSION". Used to determine loss class_weight : Optional[List[float]] If not None, add class weight to BCEWithLogitsLoss or CrossEntropyLoss """ super().__init__(config, *inputs, **kwargs) # Define model architecture self.roberta = RobertaModel(self.config, add_pooling_layer=False) self.classifier = RobertaClassificationHead(self.config) self.init_weights() @modeling_roberta.add_start_docstrings_to_model_forward( modeling_roberta.ROBERTA_INPUTS_DOCSTRING.format("batch_size, sequence_length") ) @modeling_roberta.add_code_sample_docstrings( tokenizer_class=modeling_roberta._TOKENIZER_FOR_DOC, checkpoint=modeling_roberta._CHECKPOINT_FOR_DOC, output_type=SequenceClassifierOutput, config_class=modeling_roberta._CONFIG_FOR_DOC, ) def forward( self, input_ids: torch.Tensor = None, attention_mask: torch.Tensor = None, token_type_ids: torch.Tensor = None, position_ids: torch.Tensor =None, head_mask: torch.Tensor =None, inputs_embeds: torch.Tensor =None, labels: torch.Tensor =None, output_attentions: torch.Tensor =None, output_hidden_states: torch.Tensor =None, return_dict: bool =None, sample_weights: torch.Tensor =None, ) -> : dict: """Forward pass to return loss, logits, ... Returns -------- output : SequenceClassifierOutput has those keys: loss, logits, hidden states, attentions """ return_dict = return_dict or self.config.use_return_dict outputs = self.roberta( input_ids, attention_mask=attention_mask, token_type_ids=token_type_ids, position_ids=position_ids, head_mask=head_mask, inputs_embeds=inputs_embeds, output_attentions=output_attentions, output_hidden_states=output_hidden_states, return_dict=return_dict, ) sequence_output = outputs[0] # [CLS] embedding logits = self.classifier(sequence_output) loss = self.compute_loss(logits, labels, sample_weights=sample_weights) if not return_dict: output = (logits,) + outputs[2:] return ((loss,) + output) if loss is not None else output return SequenceClassifierOutput( loss=loss, logits=logits, hidden_states=outputs.hidden_states, attentions=outputs.attentions, ) def compute_loss(self, logits: torch.Tensor, labels: torch.Tensor, sample_weights: Optional[torch.Tensor] = None) -> torch.FloatTensor: return super().compute_loss(logits, labels, sample_weights)

Trước khi đào tạo, chúng tôi chuẩn bị dữ liệu văn bản và nhãn của mình bằng cách sử dụng thư viện bộ dữ liệu của Hugging Face và tải kết quả lên Amazon S3:

from datasets import Dataset
import multiprocessing data_train = Dataset.from_pandas(df_train)
… tokenizer = <instantiated_huggingface_tokenizer> def preprocess_function(examples: examples) -> torch.Tensor: result = tokenizer(examples["text"], padding="max_length", max_length=128, truncation=True) return result num_proc = multiprocessing.cpu_count()
print("Number of CPUs =", num_proc) data_train = data_train.map( preprocess_function, batched=True, load_from_cache_file=False, num_proc=num_proc
)
… import botocore
from datasets.filesystems import S3FileSystem s3_session = botocore.session.Session() # create S3FileSystem instance with s3_session
s3 = S3FileSystem(session=s3_session) # saves encoded_dataset to your s3 bucket
data_train.save_to_disk(f's3://<bucket_name>/<prefix_name>/train', fs=s3)
…

Chúng tôi bắt đầu đào tạo người mẫu theo cách tương tự như RNN:

import sagemaker
sess = sagemaker.Session()
role = sagemaker.get_execution_role()
from sagemaker.huggingface import HuggingFace # hyperparameters, which are passed into the training job
hyperparameters = { 'model-name': <huggingface_base_model_name>, 'epochs': 10, 'train-batch-size': 32, 'eval-batch-size': 64, 'num-labels': len(<list_of_label_names>), 'class-weight': ' '.join([str(c) for c in <list_of_class_weights>]), 'metric-for-best-model': 'ap_score_weighted', 'save-total-limit': 1,
} # create the Estimator
huggingface_estimator = HuggingFace( entry_point='train.py', source_dir=<source_dir_path>, instance_type=<train_instance_type>, instance_count=1, role=role, transformers_version='4.6.1', pytorch_version='1.7.1', py_version='py36', hyperparameters=hyperparameters, metric_definitions=[ {'Name': 'validation:accuracy', 'Regex': 'eval_accuracy = (.*?);'}, {'Name': 'validation:f1-micro', 'Regex': 'eval_f1_score_micro = (.*?);'}, {'Name': 'validation:f1-macro', 'Regex': 'eval_f1_score_macro = (.*?);'}, {'Name': 'validation:f1-weighted', 'Regex': 'eval_f1_score_weighted = (.*?);'}, {'Name': 'validation:ap-micro', 'Regex': 'eval_ap_score_micro = (.*?);'}, {'Name': 'validation:ap-macro', 'Regex': 'eval_ap_score_macro = (.*?);'}, {'Name': 'validation:ap-weighted', 'Regex': 'eval_ap_score_weighted = (.*?);'}, {'Name': 'validation:auc-micro', 'Regex': 'eval_auc_score_micro = (.*?);'}, {'Name': 'validation:auc-macro', 'Regex': 'eval_auc_score_macro = (.*?);'}, {'Name': 'validation:auc-weighted', 'Regex': 'eval_auc_score_weighted = (.*?);'} ]
) huggingface_estimator.fit( { 'train': 's3://<bucket_name>/<prefix_name>/train', 'valid': 's3://<bucket_name>/<prefix_name>/valid', 'test': 's3://<bucket_name>/<prefix_name>/test'
)

Cuối cùng, đoạn mã Python sau minh họa quá trình cung cấp RoBERTox thông qua điểm cuối SageMaker trực tiếp để phân loại văn bản theo thời gian thực cho một yêu cầu JSON:

from sagemaker.huggingface import HuggingFaceModel
from sagemaker import get_execution_role
from sagemaker.predictor import Predictor
from sagemaker.serializers import JSONSerializer
from sagemaker.deserializers import JSONDeserializer class Classifier(Predictor): def __init__(self, endpoint_name, sagemaker_session): super().__init__(endpoint_name, sagemaker_session, serializer=JSONSerializer(), deserializer=JSONDeserializer()) hf_model = HuggingFaceModel( role=get_execution_role(), model_data=<s3_model_and_tokenizer.tar.gz>, entry_point="inference.py", transformers_version="4.6.1", pytorch_version="1.7.1", py_version="py36", predictor_cls=Classifier
) predictor = hf_model.deploy(instance_type=<deploy_instance_type>, initial_instance_count=1)

Đánh giá hiệu suất mô hình: Ghép hình bộ dữ liệu thiên vị không mong muốn

Bảng sau đây chứa các chỉ số hiệu suất cho các mô hình được đào tạo và đánh giá dựa trên dữ liệu từ cuộc thi Ghép hình Thiên vị không mong muốn trong cuộc thi Kaggle Phát hiện Độc tính. Chúng tôi đã đào tạo các mô hình cho ba nhiệm vụ khác nhau nhưng có liên quan đến nhau:

Trường hợp nhị phân - Mô hình được đào tạo trên tập dữ liệu đào tạo đầy đủ để dự đoán toxicity chỉ nhãn
Trường hợp hạt mịn - Tập hợp con của dữ liệu đào tạo mà toxicity>=0.5 được sử dụng để dự đoán các nhãn phụ loại độc tính khác (obscene, threat, insult, identity_attack, sexual_explicit)
Trường hợp đa nhiệm - Tập dữ liệu đào tạo đầy đủ được sử dụng để dự đoán đồng thời cả sáu nhãn

Chúng tôi đã đào tạo các mô hình RNN và RoBERTa cho từng tác vụ trong số ba tác vụ này bằng cách sử dụng các nhãn phân số do Jigsaw cung cấp, tương ứng với tỷ lệ người chú thích cho rằng nhãn đó phù hợp với văn bản, cũng như với các nhãn nhị phân kết hợp với trọng số lớp trong mạng thiếu chức năng. Trong lược đồ gắn nhãn nhị phân, tỷ lệ được đặt ngưỡng là 0.5 cho mỗi nhãn có sẵn (1 nếu nhãn> = 0.5, nếu không) và các hàm giảm mô hình được tính trọng số dựa trên tỷ lệ tương đối của mỗi nhãn nhị phân trong tập dữ liệu đào tạo. Trong mọi trường hợp, chúng tôi nhận thấy rằng việc sử dụng các nhãn phân số trực tiếp dẫn đến hiệu suất tốt nhất, cho biết giá trị gia tăng của thông tin vốn có ở mức độ đồng ý giữa các trình chú thích.

Chúng tôi hiển thị hai số liệu của mô hình: độ chính xác trung bình (AP), cung cấp tóm tắt về đường cong thu hồi độ chính xác bằng cách tính giá trị trung bình có trọng số của các giá trị độ chụm đạt được ở mỗi ngưỡng phân loại và diện tích bên dưới đường cong đặc tính hoạt động của máy thu (AUC) , tổng hợp hiệu suất của mô hình qua các ngưỡng phân loại đối với tỷ lệ dương tính thực sự và tỷ lệ dương tính giả. Lưu ý rằng lớp true cho một phiên bản văn bản nhất định trong tập kiểm tra tương ứng với việc tỷ lệ true lớn hơn hoặc bằng 0.5 (1 nếu nhãn> = 0.5, nếu không).

.	Nhúng từ khóa phụ + RNN	roberta
.	Nhãn phân số	Nhãn nhị phân + Trọng số lớp	Nhãn phân số	Nhãn nhị phân + Trọng số lớp
Nhị phân	AP = 0.746, AUC = 0.966	AP = 0.730, AUC = 0.963	AP = 0.758, AUC = 0.966	AP = 0.747, AUC = 0.963
Hạt mịn	AP = 0.906, AUC = 0.909	AP = 0.850, AUC = 0.851	AP = 0.913, AUC = 0.913	AP = 0.911, AUC = 0.912
Đa nhiệm	AP = 0.721, AUC = 0.972	AP = 0.535, AUC = 0.907	AP = 0.740, AUC = 0.972	AP = 0.711, AUC = 0.961

Kết luận

Trong bài đăng này, chúng tôi đã trình bày hai cách tiếp cận phân loại văn bản cho các cuộc trò chuyện trực tuyến sử dụng dịch vụ AWS ML. Bạn có thể tổng quát hóa các giải pháp này trên các nền tảng truyền thông trực tuyến, với các ngành như trò chơi, đặc biệt có khả năng được hưởng lợi từ khả năng phát hiện nội dung có hại được cải thiện. Trong các bài đăng trong tương lai, chúng tôi dự định sẽ thảo luận thêm về kiến trúc end-to-end để triển khai liền mạch các mô hình vào tài khoản AWS của bạn.

Nếu bạn muốn được trợ giúp đẩy nhanh việc sử dụng ML trong các sản phẩm và quy trình của mình, vui lòng liên hệ với Phòng thí nghiệm giải pháp Amazon ML.

Về các tác giả

Phân loại văn bản cho các cuộc hội thoại trực tuyến bằng máy học trên AWS PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái. Ryan thương hiệu là Nhà khoa học dữ liệu trong Phòng thí nghiệm Giải pháp Máy học của Amazon. Anh ấy có kinh nghiệm cụ thể trong việc áp dụng máy học vào các vấn đề trong chăm sóc sức khỏe và khoa học đời sống, và trong thời gian rảnh rỗi, anh ấy thích đọc lịch sử và khoa học viễn tưởng.

Sourav Bhabesh là Nhà khoa học dữ liệu tại Phòng thí nghiệm Giải pháp ML của Amazon. Ông phát triển các giải pháp AI / ML cho khách hàng AWS trong nhiều ngành khác nhau. Chuyên môn của anh ấy là Xử lý ngôn ngữ tự nhiên (NLP) và rất đam mê học sâu. Ngoài công việc, anh ấy thích đọc sách và đi du lịch.

Lưu Đồng Chu là một nhà khoa học ứng dụng tại Amazon ML Solutions Lab. Anh ấy xây dựng các giải pháp AI / ML riêng cho khách hàng AWS trong nhiều ngành khác nhau. Anh ấy chuyên về Xử lý ngôn ngữ tự nhiên (NLP) và đam mê học sâu đa phương thức. Anh ấy là một giọng nam cao trữ tình và thích hát opera ngoài công việc.

Sia Gholami là Nhà khoa học dữ liệu cấp cao tại Phòng thí nghiệm giải pháp ML của Amazon, nơi ông xây dựng các giải pháp AI / ML cho khách hàng trong nhiều ngành khác nhau. Anh ấy đam mê xử lý ngôn ngữ tự nhiên (NLP) và học sâu. Ngoài công việc, Sia thích dành thời gian hòa mình vào thiên nhiên và chơi tennis.

Daniel Horowitz là một Giám đốc Khoa học AI Ứng dụng. Anh ấy dẫn đầu một nhóm các nhà khoa học trên Amazon ML Solutions Lab đang làm việc để giải quyết các vấn đề của khách hàng và thúc đẩy việc áp dụng đám mây với ML.

Dấu thời gian: 29 Tháng Sáu, 2022

Dấu thời gian: Tháng Sáu 23, 2022

Phân loại văn bản cho các cuộc trò chuyện trực tuyến với máy học trên AWS

Được xuất bản lại bởi Plato

Điều kiện tiên quyết

Bộ dữ liệu

Nhúng từ khóa phụ và RNN

Người vận chuyển với khuôn mặt ôm

Đánh giá hiệu suất mô hình: Ghép hình bộ dữ liệu thiên vị không mong muốn

Kết luận

Về các tác giả

Thêm từ Học máy AWS

Xử lý tài liệu thông minh với các dịch vụ AWS AI: Phần 1

Máy chủ Ôm khuôn mặt biến áp sử dụng Amazon SageMaker Serverless Inference

Đào tạo phân tán với Amazon EKS và Torch Distributed Elastic

Exafunction hỗ trợ AWS Inferentia để mở khóa hiệu suất giá tốt nhất cho suy luận máy học

LightGBM tích hợp của Amazon SageMaker hiện cung cấp đào tạo phân tán bằng Dask

Hỗ trợ định dạng dữ liệu mở rộng mới trong Amazon Kendra

Tối ưu hóa siêu đường kính với Amazon SageMaker Automatic Model Tuning

Về chúng tôi

Tìm kiếm dọc & Ai

Nền tảng

NHẬN THÔNG TIN

Tài khoản