AWS'de Makine Öğrenimi ile Çevrimiçi Görüşmeler İçin Metin Sınıflandırması

Plato tarafından yeniden yayınlandı

İzleyiciler: 0

Çevrimiçi sohbetler, video oyunlarından telekomünikasyona kadar endüstrileri kapsayan modern yaşamın her yerinde mevcuttur. Bu, sohbet robotları ve doğal dil oluşturma (NLG) modelleri gibi son teknoloji doğal dil işleme (NLP) sistemlerinin geliştirilmesine yardımcı olan çevrimiçi konuşma verilerinin miktarında üstel bir büyümeye yol açtı. Zamanla, metin analizi için çeşitli NLP teknikleri de gelişti. Bu, kapsamlı makine öğrenimi (ML) uzmanlığına ihtiyaç duymadan API çağrıları kullanılarak uygulamalara entegre edilebilen, tam olarak yönetilen bir hizmet gereksinimini gerektirir. AWS, aşağıdakiler gibi önceden eğitilmiş AWS AI hizmetleri sunar: Amazon Kavramak, metinden içgörü toplamak için sınıflandırma, metin özetleme, varlık tanıma ve daha fazlasını içeren NLP kullanım durumlarını etkili bir şekilde ele alabilir.

Ek olarak, çevrimiçi konuşmalar, dilin geleneksel olmayan kullanımı gibi yaygın bir fenomene yol açmıştır. Geleneksel NLP teknikleri, farklı platformlarda bulunan sürekli gelişen ve alana özgü kelime dağarcığının yanı sıra, yanlışlıkla veya kasıtlı olarak bir düşman saldırısı biçimi olarak kelimelerin doğru İngilizceden önemli sözcük sapmaları nedeniyle bu metin verileri üzerinde genellikle düşük performans gösterir. .

Bu yayında, AWS'de bulunan araçlar ve hizmetlerle çevrimiçi konuşmaların metin sınıflandırmasına yönelik birden çok makine öğrenimi yaklaşımını açıklıyoruz.

Önkoşullar

Bu kullanım senaryosunu derinlemesine incelemeden önce lütfen aşağıdaki ön koşulları tamamlayın:

Bir AWS hesabı ve bir IAM kullanıcısı oluştur.
Ayarla AWS CLI'si ve AWS SDK'ları.
(İsteğe bağlı) Cloud9 IDE ortamı.

Veri kümesi

Bu yazı için, Toksisite Sınıflandırması veri kümesinde Yapboz İstenmeyen Önyargı, çevrimiçi konuşmalarda toksisite sınıflandırmasının özel sorunu için bir kıyaslama. Veri seti, müstehcen, kimlik saldırısı, hakaret, tehdit ve müstehcenlik gibi çeşitli alt grup özelliklerinin yanı sıra toksisite etiketleri sağlar. Etiketler, belirli bir metin parçasına uygulanan özniteliğin nadiren oybirliğiyle uygulandığına inanan insan yorumcuların oranını temsil eden kesirli değerler olarak sağlanır. İkili etiketler (örneğin, toksik veya toksik olmayan) oluşturmak için kesirli değerlere 0.5'lik bir eşik uygulanır ve eşikten daha büyük değerlere sahip yorumlar bu etiket için pozitif sınıf olarak değerlendirilir.

Alt kelime yerleştirme ve RNN'ler

İlk modelleme yaklaşımımız için, metin sınıflandırma modellerini eğitmek için alt kelime yerleştirme ve tekrarlayan sinir ağlarının (RNN'ler) bir kombinasyonunu kullanıyoruz. Alt kelime yerleştirmeleri tarafından tanıtıldı Bojanowski ve ark. 2017'de önceki sözcük düzeyindeki gömme yöntemlerinde bir gelişme olarak. Geleneksel Word2Vec atlama gram modelleri, o kelimenin bağlamını en iyi şekilde tahmin eden bir hedef kelimenin statik vektör temsilini öğrenmek için eğitilir. Diğer yandan, alt kelime modelleri, her hedef kelimeyi, kelimeyi oluşturan n-gram karakterlerinin bir torbası olarak temsil eder; burada bir n-gram, bir dizi n ardışık karakterden oluşur. Bu yöntem, yerleştirme modelinin bütüncedeki ilgili kelimelerin altında yatan morfolojiyi daha iyi temsil etmesine ve yeni, kelime dağarcığında olmayan (OOV) kelimeler için yerleştirmelerin hesaplanmasına izin verir. Bu, kullanıcıların sıklıkla kelimeleri yanlış yazdığı (bazen kasıtlı olarak algılamadan kaçınmak için) ve ayrıca genel bir eğitim külliyatı tarafından yakalanamayan benzersiz, sürekli gelişen bir kelime dağarcığı kullandığı bir problem alanı olan çevrimiçi konuşmalar bağlamında özellikle önemlidir.

Amazon Adaçayı Yapıcı yerleşik olarak kendi etki alanına özgü metin verisi korpusunuz üzerinde denetimsiz bir alt sözcük yerleştirme modelini eğitmeyi ve optimize etmeyi kolaylaştırır. BlazingText algoritması. Ayrıca, aşağıdakiler gibi büyük çevrimiçi metin veri kümeleri üzerinde eğitilmiş mevcut genel amaçlı modelleri de indirebiliriz: İngilizce dil modelleri doğrudan fastText'ten edinilebilir. Önceden eğitilmiş bir fastText modelini indirmek için SageMaker not defteri örneğinizden aşağıdakileri çalıştırmanız yeterlidir:

!wget -O vectors.zip https://dl.fbaipublicfiles.com/fasttext/vectors-english/crawl-300d-2M-subword.zip

İster BlazingText ile kendi yerleştirmelerinizi eğitmiş olun, ister önceden eğitilmiş bir model indirmiş olun, sonuç, belirli bir hedef kelimeyi kurucu alt kelimelerine dayalı bir vektör olarak yerleştirmek için gensim kitaplığı ile kullanabileceğiniz sıkıştırılmış bir model ikili dosyasıdır:

# Imports
import os
from zipfile import ZipFile
from gensim.models.fasttext import load_facebook_vectors # Unzip the model binary into 'dir_path'
with ZipFile('vectors.zip', 'r') as zipObj: zipObj.extractall(path=<dir_path_name>) # Load embedding model into memory
embed_model = load_facebook_vectors(os.path.join(<dir_path_name>, 'vectors.bin')) # Compute embedding vector for 'word'
word_embedding = embed_model[word]

Belirli bir metin segmentini önceden işledikten sonra, bu yaklaşımı, kurucu kelimelerin her biri için (boşluklarla ayrılmış olarak) bir vektör temsili oluşturmak için kullanabiliriz. Daha sonra, metnin toksik olup olmadığını ve etiketli eğitim örneklerine dayalı olarak belirli bir toksisite alt tipini tahmin etmek için ikili veya çok etiketli sınıflandırma hedefiyle özelleştirilmiş bir RNN'yi eğitmek için SageMaker ve PyTorch gibi bir derin öğrenme çerçevesini kullanırız.

Önceden işlenmiş metninizi şuraya yüklemek için Amazon Basit Depolama Hizmeti (Amazon S3), aşağıdaki kodu kullanın:

import boto3
s3 = boto3.client('s3') bucket = <bucket_name>
prefix = <prefix_name> s3.upload_file('train.pkl', bucket, os.path.join(prefix, 'train/train.pkl'))
s3.upload_file('valid.pkl', bucket, os.path.join(prefix, 'valid/valid.pkl'))
s3.upload_file('test.pkl', bucket, os.path.join(prefix, 'test/test.pkl'))

SageMaker ile ölçeklenebilir, çoklu GPU model eğitimini başlatmak için aşağıdaki kodu girin:

import sagemaker
sess = sagemaker.Session()
role = iam.get_role(RoleName= ‘AmazonSageMakerFullAccess’)['Role']['Arn'] from sagemaker.pytorch import PyTorch # hyperparameters, which are passed into the training job
hyperparameters = { 'epochs': 20, # Maximum number of epochs to train model 'train-batch-size': 128, # Training batch size (No. sentences) 'eval-batch-size': 1024, # Evaluation batch size (No. sentences) 'embed-size': 300, # Vector dimension of word embeddings (Must match embedding model) 'lstm-hidden-size': 200, # Number of neurons in LSTM hidden layer 'lstm-num-layers': 2, # Number of stacked LSTM layers 'proj-size': 100, # Number of neurons in intermediate projection layer 'num-targets': len(<list_of_label_names>), # Number of targets for classification 'class-weight': ' '.join([str(c) for c in <list_of_weights_per_class>]), # Weight to apply to each target during training 'total-length':<max_number_of_words_per_sentence>, 'metric-for-best-model': 'ap_score_weighted', # Metric on which to select the best model
} # create the Estimator
pytorch_estimator = PyTorch( entry_point='train.py', source_dir=<source_dir_path>, instance_type=<train_instance_type>, volume_size=200, instance_count=1, role=role, framework_version='1.6.0’, py_version='py36', hyperparameters=hyperparameters, metric_definitions=[ {'Name': 'validation:accuracy', 'Regex': 'eval_accuracy = (.*?);'}, {'Name': 'validation:f1-micro', 'Regex': 'eval_f1_score_micro = (.*?);'}, {'Name': 'validation:f1-macro', 'Regex': 'eval_f1_score_macro = (.*?);'}, {'Name': 'validation:f1-weighted', 'Regex': 'eval_f1_score_weighted = (.*?);'}, {'Name': 'validation:ap-micro', 'Regex': 'eval_ap_score_micro = (.*?);'}, {'Name': 'validation:ap-macro', 'Regex': 'eval_ap_score_macro = (.*?);'}, {'Name': 'validation:ap-weighted', 'Regex': 'eval_ap_score_weighted = (.*?);'}, {'Name': 'validation:auc-micro', 'Regex': 'eval_auc_score_micro = (.*?);'}, {'Name': 'validation:auc-macro', 'Regex': 'eval_auc_score_macro = (.*?);'}, {'Name': 'validation:auc-weighted', 'Regex': 'eval_auc_score_weighted = (.*?);'} ]
) pytorch_estimator.fit( { 'train': 's3://<bucket_name>/<prefix_name>/train', 'valid': 's3://<bucket_name>/<prefix_name>/valid', 'test': 's3://<bucket_name>/<prefix_name>/test' }
)

Içinde tarafından kullanılan bir PyTorch Veri Kümesi tanımlarız. train.py modelin eğitimi ve değerlendirilmesi için metin verilerini hazırlamak için:

def pad_matrix(m: torch.Tensor, max_len: int =100)-> tuple[int, torch.Tensor] : """Pads an embedding matrix to a specified maximum length.""" if m.ndim == 1: m = m.reshape(1, -1) mask = np.ones_like(m) if m.shape[0] > max_len: m = m[:max_len, :] mask = mask[:max_len, :] else: m = np.pad(m, ((0, max_len - m.shape[0]), (0,0))) mask = np.pad(mask, ((0, max_len - mask.shape[0]), (0,0))) return m, mask class EmbeddingDataset(Dataset: torch.utils.data.Dataset): """PyTorch dataset representing pretrained sentence embeddings, masks, and labels.""" def __init__(self, text: str, labels: int, max_len: int=100): self.text = text self.labels = labels self.max_len = max_len def __len__(self) -> int: return len(self.labels) def __getitem__(self, idx: int) -> dict: e = embed_line(self.text[idx]) length = e.shape[0] m, mask = pad_matrix(e, max_len=self.max_len) item = {} item['embeddings'] = torch.from_numpy(m) item['mask'] = torch.from_numpy(mask) item['labels'] = torch.tensor(self.labels[idx]) if length > self.max_len: item['lengths'] = torch.tensor(self.max_len) else: item['lengths'] = torch.tensor(length) return item

Bu kodun aşağıdakileri öngördüğünü unutmayın: vectors.zip fastText veya BlazingText yerleştirmelerinizi içeren dosya, .

Ek olarak, ilgili sözcük düzeyindeki görevlerde kullanım için gömme vektörlerini anında hesaplamak için önceden eğitilmiş fastText modellerini canlı SageMaker uç noktalarına kolayca dağıtabilirsiniz. Aşağıdakilere bakın GitHub örneği daha fazla ayrıntı için.

Sarılma Yüzlü Transformatörler

İkinci modelleme yaklaşımımız için, makalede tanıtılan Transformers kullanımına geçiyoruz. Dikkat İhtiyacınız Olan Her Şey. Transformatörler, girdi ve çıktı arasında küresel bağımlılıklar çekmek için bir öz-dikkat mekanizmasına dayanarak RNN'lerin tuzaklarından kasten kaçınmak için tasarlanmış derin öğrenme modelleridir. Transformer model mimarisi, önemli ölçüde daha iyi paralelleştirmeye izin verir ve nispeten kısa eğitim süresinde yüksek performans elde edebilir.

Transformers'ın başarısı üzerine inşa edilen BERT, makalede tanıtılmıştır. BERT: Dil Anlayışı İçin Derin Çift Yönlü Transformatörlerin Ön Eğitimi, dil gösterimi için çift yönlü ön eğitim eklendi. Cloze görevinden ilham alan BERT, modelin rastgele maskelenmiş belirteçler için orijinal kelimeleri kurtarmayı öğrendiği maskeli dil modellemesi (MLM) ile önceden eğitilmiştir. BERT modeli ayrıca, iki cümlenin doğru okuma sırasında olup olmadığını tahmin etmek için bir sonraki cümle tahmini (NSP) görevi üzerinde önceden eğitilmiştir. BERT ve varyasyonları, 2018'deki ortaya çıkışından bu yana, metin sınıflandırma görevlerinde yaygın olarak kullanılmaktadır.

Çözümümüz, makalede tanıtılan RoBERTa olarak bilinen bir BERT çeşidini kullanır. RoBERTa: Sağlam Bir Şekilde Optimize Edilmiş BERT Ön Eğitim Yaklaşımı. RoBERTa, 10 kat daha büyük bir korpusta daha uzun eğitim modelleri, optimize edilmiş hiperparametreler kullanma, dinamik rastgele maskeleme, NSP görevini kaldırma ve daha fazlasını içeren optimize edilmiş model eğitimi ile çeşitli doğal dil görevlerinde BERT performansını daha da geliştirir.

RoBERTa tabanlı modellerimiz, Sarılma Yüz Transformatörleri Çeşitli NLP görevleri için her türden son teknoloji Transformer modellerinin yüksek kaliteli uygulamalarını sağlayan popüler bir açık kaynaklı Python çerçevesi olan kütüphane. Hugging Face, AWS ile ortaklık kurdu Transformer modellerini SageMaker üzerinde kolayca eğitmenizi ve dağıtmanızı sağlamak için. Bu işlevsellik aracılığıyla kullanılabilir Hugging Face AWS Deep Learning Container görüntüleriTransformers, Tokenizers ve Datasets kitaplıklarını içeren ve model eğitimi ve çıkarımı için SageMaker ile optimize edilmiş entegrasyon.

Uygulamamızda, RoBERTa mimarisi omurgasını Hugging Face Transformers çerçevesinden devralıyoruz ve RoBERTox olarak adlandırdığımız kendi metin sınıflandırma modelimizi eğitmek ve dağıtmak için SageMaker kullanıyoruz. RoBERTox, içinde tanıtılan bayt çifti kodlamasını (BPE) kullanır. Alt Kelime Birimleri ile Nadir Kelimelerin Sinir Makinesi Çevirisi, giriş metnini alt sözcük temsillerine dönüştürmek için. Daha sonra modellerimizi ve belirteçlerimizi Jigsaw verileri veya herhangi bir büyük etki alanına özgü yapı (belirli bir oyundan sohbet günlükleri gibi) üzerinde eğitebilir ve bunları özelleştirilmiş metin sınıflandırması için kullanabiliriz. Özel sınıflandırma modeli sınıfımızı aşağıdaki kodda tanımlıyoruz:

class RoBERToxForSequenceClassification(CustomLossMixIn, RobertaPreTrainedModel): _keys_to_ignore_on_load_missing = [r"position_ids"] def __init__(self, config: PretrainedConfig, *inputs, **kwargs): """Initialize the RoBERToxForSequenceClassification instance Parameters ---------- config : PretrainedConfig num_labels : Optional[int] if not None, overwrite the default classification head in pretrained model. mode : Optional[str] 'MULTI_CLASS', 'MULTI_LABEL' or "REGRESSION". Used to determine loss class_weight : Optional[List[float]] If not None, add class weight to BCEWithLogitsLoss or CrossEntropyLoss """ super().__init__(config, *inputs, **kwargs) # Define model architecture self.roberta = RobertaModel(self.config, add_pooling_layer=False) self.classifier = RobertaClassificationHead(self.config) self.init_weights() @modeling_roberta.add_start_docstrings_to_model_forward( modeling_roberta.ROBERTA_INPUTS_DOCSTRING.format("batch_size, sequence_length") ) @modeling_roberta.add_code_sample_docstrings( tokenizer_class=modeling_roberta._TOKENIZER_FOR_DOC, checkpoint=modeling_roberta._CHECKPOINT_FOR_DOC, output_type=SequenceClassifierOutput, config_class=modeling_roberta._CONFIG_FOR_DOC, ) def forward( self, input_ids: torch.Tensor = None, attention_mask: torch.Tensor = None, token_type_ids: torch.Tensor = None, position_ids: torch.Tensor =None, head_mask: torch.Tensor =None, inputs_embeds: torch.Tensor =None, labels: torch.Tensor =None, output_attentions: torch.Tensor =None, output_hidden_states: torch.Tensor =None, return_dict: bool =None, sample_weights: torch.Tensor =None, ) -> : dict: """Forward pass to return loss, logits, ... Returns -------- output : SequenceClassifierOutput has those keys: loss, logits, hidden states, attentions """ return_dict = return_dict or self.config.use_return_dict outputs = self.roberta( input_ids, attention_mask=attention_mask, token_type_ids=token_type_ids, position_ids=position_ids, head_mask=head_mask, inputs_embeds=inputs_embeds, output_attentions=output_attentions, output_hidden_states=output_hidden_states, return_dict=return_dict, ) sequence_output = outputs[0] # [CLS] embedding logits = self.classifier(sequence_output) loss = self.compute_loss(logits, labels, sample_weights=sample_weights) if not return_dict: output = (logits,) + outputs[2:] return ((loss,) + output) if loss is not None else output return SequenceClassifierOutput( loss=loss, logits=logits, hidden_states=outputs.hidden_states, attentions=outputs.attentions, ) def compute_loss(self, logits: torch.Tensor, labels: torch.Tensor, sample_weights: Optional[torch.Tensor] = None) -> torch.FloatTensor: return super().compute_loss(logits, labels, sample_weights)

Eğitimden önce Hugging Face'in veri kümeleri kitaplığını kullanarak metin verilerimizi ve etiketlerimizi hazırlıyoruz ve sonucu Amazon S3'e yüklüyoruz:

from datasets import Dataset
import multiprocessing data_train = Dataset.from_pandas(df_train)
… tokenizer = <instantiated_huggingface_tokenizer> def preprocess_function(examples: examples) -> torch.Tensor: result = tokenizer(examples["text"], padding="max_length", max_length=128, truncation=True) return result num_proc = multiprocessing.cpu_count()
print("Number of CPUs =", num_proc) data_train = data_train.map( preprocess_function, batched=True, load_from_cache_file=False, num_proc=num_proc
)
… import botocore
from datasets.filesystems import S3FileSystem s3_session = botocore.session.Session() # create S3FileSystem instance with s3_session
s3 = S3FileSystem(session=s3_session) # saves encoded_dataset to your s3 bucket
data_train.save_to_disk(f's3://<bucket_name>/<prefix_name>/train', fs=s3)
…

Modelin eğitimini RNN'ye benzer şekilde başlatıyoruz:

import sagemaker
sess = sagemaker.Session()
role = sagemaker.get_execution_role()
from sagemaker.huggingface import HuggingFace # hyperparameters, which are passed into the training job
hyperparameters = { 'model-name': <huggingface_base_model_name>, 'epochs': 10, 'train-batch-size': 32, 'eval-batch-size': 64, 'num-labels': len(<list_of_label_names>), 'class-weight': ' '.join([str(c) for c in <list_of_class_weights>]), 'metric-for-best-model': 'ap_score_weighted', 'save-total-limit': 1,
} # create the Estimator
huggingface_estimator = HuggingFace( entry_point='train.py', source_dir=<source_dir_path>, instance_type=<train_instance_type>, instance_count=1, role=role, transformers_version='4.6.1', pytorch_version='1.7.1', py_version='py36', hyperparameters=hyperparameters, metric_definitions=[ {'Name': 'validation:accuracy', 'Regex': 'eval_accuracy = (.*?);'}, {'Name': 'validation:f1-micro', 'Regex': 'eval_f1_score_micro = (.*?);'}, {'Name': 'validation:f1-macro', 'Regex': 'eval_f1_score_macro = (.*?);'}, {'Name': 'validation:f1-weighted', 'Regex': 'eval_f1_score_weighted = (.*?);'}, {'Name': 'validation:ap-micro', 'Regex': 'eval_ap_score_micro = (.*?);'}, {'Name': 'validation:ap-macro', 'Regex': 'eval_ap_score_macro = (.*?);'}, {'Name': 'validation:ap-weighted', 'Regex': 'eval_ap_score_weighted = (.*?);'}, {'Name': 'validation:auc-micro', 'Regex': 'eval_auc_score_micro = (.*?);'}, {'Name': 'validation:auc-macro', 'Regex': 'eval_auc_score_macro = (.*?);'}, {'Name': 'validation:auc-weighted', 'Regex': 'eval_auc_score_weighted = (.*?);'} ]
) huggingface_estimator.fit( { 'train': 's3://<bucket_name>/<prefix_name>/train', 'valid': 's3://<bucket_name>/<prefix_name>/valid', 'test': 's3://<bucket_name>/<prefix_name>/test'
)

Son olarak, aşağıdaki Python kod parçacığı, bir JSON isteği için gerçek zamanlı metin sınıflandırması için canlı bir SageMaker uç noktası aracılığıyla RoBERTox sunma sürecini gösterir:

from sagemaker.huggingface import HuggingFaceModel
from sagemaker import get_execution_role
from sagemaker.predictor import Predictor
from sagemaker.serializers import JSONSerializer
from sagemaker.deserializers import JSONDeserializer class Classifier(Predictor): def __init__(self, endpoint_name, sagemaker_session): super().__init__(endpoint_name, sagemaker_session, serializer=JSONSerializer(), deserializer=JSONDeserializer()) hf_model = HuggingFaceModel( role=get_execution_role(), model_data=<s3_model_and_tokenizer.tar.gz>, entry_point="inference.py", transformers_version="4.6.1", pytorch_version="1.7.1", py_version="py36", predictor_cls=Classifier
) predictor = hf_model.deploy(instance_type=<deploy_instance_type>, initial_instance_count=1)

Model performansının değerlendirilmesi: Yapboz istenmeyen önyargı veri seti

Aşağıdaki tablo, Zehirlilik Tespiti Kaggle yarışmasında Jigsaw İstenmeyen Önyargı verileri üzerinde eğitilen ve değerlendirilen modeller için performans ölçümlerini içerir. Modelleri üç farklı ancak birbiriyle ilişkili görev için eğittik:

ikili durum – Model, aşağıdakileri tahmin etmek için tam eğitim veri kümesi üzerinde eğitildi. toxicity sadece etiket
İnce taneli kasa – Hangi eğitim verilerinin alt kümesi toxicity>=0.5 diğer toksisite alt tipi etiketlerini tahmin etmek için kullanıldı (obscene, threat, insult, identity_attack, sexual_explicit)
çoklu görev vakası – Altı etiketi aynı anda tahmin etmek için tam eğitim veri seti kullanıldı

Bu üç görevin her biri için RNN ve RoBERTa modellerini, etiketin metin için uygun olduğunu düşünen ek açıklamaların oranına ve ağdaki sınıf ağırlıklarıyla birleştirilmiş ikili etiketlere karşılık gelen Jigsaw tarafından sağlanan kesirli etiketleri kullanarak eğittik. kayıp fonksiyonu. İkili etiketleme şemasında, oranlar mevcut her etiket için 0.5'te eşiklenmiştir (etiket>=1 ise 0.5, aksi takdirde 0) ve model kaybı işlevleri, eğitim veri kümesindeki her ikili etiketin göreli oranlarına dayalı olarak ağırlıklandırılmıştır. Her durumda, kesirli etiketleri kullanmanın doğrudan en iyi performansla sonuçlandığını ve açıklayıcılar arasındaki anlaşma derecesinde bulunan bilginin katma değerini gösterdiğini bulduk.

İki model metriği gösteriyoruz: her sınıflandırma eşiğinde elde edilen kesinlik değerlerinin ağırlıklı ortalamasını hesaplayarak kesinlik-geri çağırma eğrisinin bir özetini sağlayan ortalama kesinlik (AP) ve alıcı işletim karakteristik eğrisi (AUC) altındaki alan , model performansını gerçek pozitif orana ve yanlış pozitif orana göre sınıflandırma eşikleri arasında toplar. Test kümesindeki belirli bir metin örneği için doğru sınıfın, gerçek oranın 0.5'e eşit veya büyük olup olmadığına karşılık geldiğine dikkat edin (etiket>=1 ise 0.5, aksi takdirde 0).

.	Alt Kelime Gömme + RNN	roBERTa
.	kesirli etiketler	İkili etiketler + Sınıf ağırlığı	kesirli etiketler	İkili etiketler + Sınıf ağırlığı
İkili	AP=0.746, EAA=0.966	AP=0.730, EAA=0.963	AP=0.758, EAA=0.966	AP=0.747, EAA=0.963
ince taneli	AP=0.906, EAA=0.909	AP=0.850, EAA=0.851	AP=0.913, EAA=0.913	AP=0.911, EAA=0.912
Multitask	AP=0.721, EAA=0.972	AP=0.535, EAA=0.907	AP=0.740, EAA=0.972	AP=0.711, EAA=0.961

Sonuç

Bu gönderide, AWS ML hizmetlerini kullanan çevrimiçi konuşmalar için iki metin sınıflandırma yaklaşımı sunduk. Bu çözümleri çevrimiçi iletişim platformlarında genelleştirebilirsiniz; oyun gibi endüstriler özellikle zararlı içeriği tespit etme becerisinin geliştirilmesinden faydalanabilir. Gelecekteki gönderilerde, modellerin AWS hesabınıza sorunsuz bir şekilde dağıtılması için uçtan uca bir mimariyi daha ayrıntılı olarak ele almayı planlıyoruz.

Ürünlerinizde ve süreçlerinizde makine öğrenimi kullanımınızı hızlandırmak için yardıma ihtiyacınız varsa, lütfen şurayla iletişime geçin: Amazon ML Çözümleri Laboratuvarı.

Yazarlar Hakkında

AWS PlatoBlockchain Veri Zekası üzerinde makine öğrenimi ile çevrimiçi görüşmeler için metin sınıflandırması. Dikey Arama. Ai. Ryan Marka Amazon Makine Öğrenimi Çözümleri Laboratuvarı'nda Veri Bilimcisidir. Makine öğrenimini sağlık ve yaşam bilimlerindeki sorunlara uygulama konusunda özel deneyime sahiptir ve boş zamanlarında tarih ve bilim kurgu okumaktan hoşlanır.

sourav yenge Amazon ML Çözümleri Laboratuvarı'nda Veri Bilimcisidir. Çeşitli sektörlerdeki AWS müşterileri için AI/ML çözümleri geliştiriyor. Uzmanlık alanı Doğal Dil İşleme (NLP) ve derin öğrenme konusunda tutkulu. İş dışında kitap okumayı ve seyahat etmeyi sever.

Liutong Zhou Amazon ML Çözümleri Laboratuvarı'nda Uygulamalı Bilim Adamıdır. Çeşitli sektörlerdeki AWS müşterileri için özel yapay zeka/ML çözümleri geliştiriyor. Doğal Dil İşleme (NLP) konusunda uzmanlaşmıştır ve çok modlu derin öğrenme konusunda tutkuludur. O bir lirik tenor ve iş dışında operalar söylemekten hoşlanıyor.

Sia Gholami Çeşitli sektörlerdeki müşteriler için AI/ML çözümleri oluşturduğu Amazon ML Çözümleri Laboratuvarı'nda Kıdemli Veri Bilimcisi olarak görev yapmaktadır. Doğal dil işleme (NLP) ve derin öğrenme konusunda tutkulu. Sia, iş dışında doğada vakit geçirmeyi ve tenis oynamayı sever.

Daniel Horowitz Uygulamalı Yapay Zeka Bilim Yöneticisidir. Amazon ML Solutions Lab'de müşteri sorunlarını çözmek ve ML ile bulutun benimsenmesini sağlamak için çalışan bir bilim insanı ekibine liderlik ediyor.

Zaman Damgası: Haziran 29, 2022

Zaman Damgası: Haziran 23, 2022

AWS'de makine öğrenimi ile çevrimiçi görüşmeler için metin sınıflandırması

Plato tarafından yeniden yayınlandı

Önkoşullar

Veri kümesi

Alt kelime yerleştirme ve RNN'ler

Sarılma Yüzlü Transformatörler

Model performansının değerlendirilmesi: Yapboz istenmeyen önyargı veri seti

Sonuç

Yazarlar Hakkında

Den fazla AWS Makine Öğrenimi

AWS AI hizmetleriyle akıllı belge işleme: 1. Bölüm

Amazon SageMaker Sunucusuz Çıkarım kullanarak Hugging Face dönüştürücü modellerini barındırın

Amazon EKS ve Torch Distributed Elastic ile dağıtılmış eğitim

Exafunction, makine öğrenimi çıkarımı için en iyi fiyat performansını ortaya çıkarmak üzere AWS Inferentia'yı destekler

Amazon SageMaker yerleşik LightGBM artık Dask kullanarak dağıtılmış eğitim sunuyor

Amazon Kendra'da yeni genişletilmiş veri biçimi desteği

Amazon SageMaker Otomatik Model Ayarlama ile hiperparametreleri optimize edin

Hakkımızda

Dikey Arama ve Ai

Platform

Bağlı Kal

Hesap