Klasifikasi Teks Untuk Percakapan Online Dengan Pembelajaran Mesin Di AWS

Diterbitkan Ulang Oleh Plato

Followers: 0

Percakapan online ada di mana-mana dalam kehidupan modern, mulai dari industri video game hingga telekomunikasi. Hal ini telah menyebabkan pertumbuhan eksponensial dalam jumlah data percakapan online, yang telah membantu dalam pengembangan sistem pemrosesan bahasa alami (NLP) yang canggih seperti chatbots dan model generasi bahasa alami (NLG). Seiring waktu, berbagai teknik NLP untuk analisis teks juga telah berkembang. Ini memerlukan persyaratan untuk layanan terkelola sepenuhnya yang dapat diintegrasikan ke dalam aplikasi menggunakan panggilan API tanpa memerlukan keahlian machine learning (ML) yang ekstensif. AWS menawarkan layanan AI AWS terlatih seperti Amazon Comprehend, yang secara efektif dapat menangani kasus penggunaan NLP yang melibatkan klasifikasi, peringkasan teks, pengenalan entitas, dan lainnya untuk mengumpulkan wawasan dari teks.

Selain itu, percakapan online telah menyebabkan meluasnya fenomena penggunaan bahasa non-tradisional. Teknik NLP tradisional sering kali berkinerja buruk pada data teks ini karena kosakata khusus domain yang terus berkembang dan ada dalam platform yang berbeda, serta penyimpangan leksikal kata yang signifikan dari bahasa Inggris yang tepat, baik secara tidak sengaja atau sengaja sebagai bentuk serangan permusuhan. .

Dalam posting ini, kami menjelaskan beberapa pendekatan ML untuk klasifikasi teks percakapan online dengan alat dan layanan yang tersedia di AWS.

Prasyarat

Sebelum mendalami kasus penggunaan ini, harap selesaikan prasyarat berikut:

Siapkan Akun AWS dan buat pengguna IAM.
Siapkan AWS CLI dan SDK AWS.
(Opsional) Siapkan Lingkungan Cloud9 IDE.

Dataset

Untuk posting ini, kami menggunakan Jigsaw Bias yang Tidak Diinginkan dalam kumpulan data Klasifikasi Toksisitas, tolok ukur untuk masalah spesifik klasifikasi toksisitas dalam percakapan online. Dataset memberikan label toksisitas serta beberapa atribut subkelompok seperti cabul, serangan identitas, penghinaan, ancaman, dan eksplisit secara seksual. Label diberikan sebagai nilai pecahan, yang mewakili proporsi annotator manusia yang percaya bahwa atribut diterapkan pada bagian teks tertentu, yang jarang sekali. Untuk menghasilkan label biner (misalnya, beracun atau tidak beracun), ambang batas 0.5 diterapkan pada nilai pecahan, dan komentar dengan nilai lebih besar dari ambang batas diperlakukan sebagai kelas positif untuk label tersebut.

Penyematan subkata dan RNN

Untuk pendekatan pemodelan pertama kami, kami menggunakan kombinasi penyematan subkata dan jaringan saraf berulang (RNN) untuk melatih model klasifikasi teks. Penyematan subkata diperkenalkan oleh Bojanowski dkk. di 2017 sebagai peningkatan dari metode penyisipan tingkat kata sebelumnya. Model skip-gram Word2Vec tradisional dilatih untuk mempelajari representasi vektor statis dari kata target yang secara optimal memprediksi konteks kata itu. Model subkata, di sisi lain, mewakili setiap kata target sebagai kantong karakter n-gram yang membentuk kata, di mana n-gram terdiri dari sekumpulan n karakter berurutan. Metode ini memungkinkan model embedding untuk lebih mewakili morfologi yang mendasari kata-kata terkait dalam korpus serta perhitungan embeddings untuk kata-kata baru, out-of-vocabulary (OOV). Ini sangat penting dalam konteks percakapan online, ruang masalah di mana pengguna sering salah mengeja kata (kadang-kadang sengaja untuk menghindari deteksi) dan juga menggunakan kosa kata unik yang terus berkembang yang mungkin tidak ditangkap oleh korpus pelatihan umum.

Amazon SageMaker memudahkan untuk melatih dan mengoptimalkan model penyematan subkata tanpa pengawasan pada korpus data teks khusus domain Anda sendiri dengan built-in Algoritme BlazingText. Kami juga dapat mengunduh model tujuan umum yang ada yang dilatih pada kumpulan data teks online yang besar, seperti berikut ini: Model bahasa Inggris tersedia langsung dari fastText. Dari instans notebook SageMaker Anda, cukup jalankan yang berikut ini untuk mengunduh model fastText yang telah dilatih sebelumnya:

!wget -O vectors.zip https://dl.fbaipublicfiles.com/fasttext/vectors-english/crawl-300d-2M-subword.zip

Baik Anda telah melatih penyematan Anda sendiri dengan BlazingText atau mengunduh model yang telah dilatih sebelumnya, hasilnya adalah biner model zip yang dapat Anda gunakan dengan pustaka gensim untuk menyematkan kata target yang diberikan sebagai vektor berdasarkan subkata penyusunnya:

# Imports
import os
from zipfile import ZipFile
from gensim.models.fasttext import load_facebook_vectors # Unzip the model binary into 'dir_path'
with ZipFile('vectors.zip', 'r') as zipObj: zipObj.extractall(path=<dir_path_name>) # Load embedding model into memory
embed_model = load_facebook_vectors(os.path.join(<dir_path_name>, 'vectors.bin')) # Compute embedding vector for 'word'
word_embedding = embed_model[word]

Setelah melakukan praproses pada segmen teks tertentu, kita dapat menggunakan pendekatan ini untuk menghasilkan representasi vektor untuk setiap kata konstituen (yang dipisahkan oleh spasi). Kami kemudian menggunakan SageMaker dan kerangka kerja pembelajaran mendalam seperti PyTorch untuk melatih RNN yang disesuaikan dengan tujuan klasifikasi biner atau multilabel untuk memprediksi apakah teks beracun atau tidak dan sub-jenis toksisitas spesifik berdasarkan contoh pelatihan berlabel.

Untuk mengunggah teks praproses Anda ke Layanan Penyimpanan Sederhana Amazon (Amazon S3), gunakan kode berikut:

import boto3
s3 = boto3.client('s3') bucket = <bucket_name>
prefix = <prefix_name> s3.upload_file('train.pkl', bucket, os.path.join(prefix, 'train/train.pkl'))
s3.upload_file('valid.pkl', bucket, os.path.join(prefix, 'valid/valid.pkl'))
s3.upload_file('test.pkl', bucket, os.path.join(prefix, 'test/test.pkl'))

Untuk memulai pelatihan model multi-GPU yang skalabel dengan SageMaker, masukkan kode berikut:

import sagemaker
sess = sagemaker.Session()
role = iam.get_role(RoleName= ‘AmazonSageMakerFullAccess’)['Role']['Arn'] from sagemaker.pytorch import PyTorch # hyperparameters, which are passed into the training job
hyperparameters = { 'epochs': 20, # Maximum number of epochs to train model 'train-batch-size': 128, # Training batch size (No. sentences) 'eval-batch-size': 1024, # Evaluation batch size (No. sentences) 'embed-size': 300, # Vector dimension of word embeddings (Must match embedding model) 'lstm-hidden-size': 200, # Number of neurons in LSTM hidden layer 'lstm-num-layers': 2, # Number of stacked LSTM layers 'proj-size': 100, # Number of neurons in intermediate projection layer 'num-targets': len(<list_of_label_names>), # Number of targets for classification 'class-weight': ' '.join([str(c) for c in <list_of_weights_per_class>]), # Weight to apply to each target during training 'total-length':<max_number_of_words_per_sentence>, 'metric-for-best-model': 'ap_score_weighted', # Metric on which to select the best model
} # create the Estimator
pytorch_estimator = PyTorch( entry_point='train.py', source_dir=<source_dir_path>, instance_type=<train_instance_type>, volume_size=200, instance_count=1, role=role, framework_version='1.6.0’, py_version='py36', hyperparameters=hyperparameters, metric_definitions=[ {'Name': 'validation:accuracy', 'Regex': 'eval_accuracy = (.*?);'}, {'Name': 'validation:f1-micro', 'Regex': 'eval_f1_score_micro = (.*?);'}, {'Name': 'validation:f1-macro', 'Regex': 'eval_f1_score_macro = (.*?);'}, {'Name': 'validation:f1-weighted', 'Regex': 'eval_f1_score_weighted = (.*?);'}, {'Name': 'validation:ap-micro', 'Regex': 'eval_ap_score_micro = (.*?);'}, {'Name': 'validation:ap-macro', 'Regex': 'eval_ap_score_macro = (.*?);'}, {'Name': 'validation:ap-weighted', 'Regex': 'eval_ap_score_weighted = (.*?);'}, {'Name': 'validation:auc-micro', 'Regex': 'eval_auc_score_micro = (.*?);'}, {'Name': 'validation:auc-macro', 'Regex': 'eval_auc_score_macro = (.*?);'}, {'Name': 'validation:auc-weighted', 'Regex': 'eval_auc_score_weighted = (.*?);'} ]
) pytorch_estimator.fit( { 'train': 's3://<bucket_name>/<prefix_name>/train', 'valid': 's3://<bucket_name>/<prefix_name>/valid', 'test': 's3://<bucket_name>/<prefix_name>/test' }
)

Dalam , kami mendefinisikan Dataset PyTorch yang digunakan oleh train.py untuk menyiapkan data teks untuk pelatihan dan evaluasi model:

def pad_matrix(m: torch.Tensor, max_len: int =100)-> tuple[int, torch.Tensor] : """Pads an embedding matrix to a specified maximum length.""" if m.ndim == 1: m = m.reshape(1, -1) mask = np.ones_like(m) if m.shape[0] > max_len: m = m[:max_len, :] mask = mask[:max_len, :] else: m = np.pad(m, ((0, max_len - m.shape[0]), (0,0))) mask = np.pad(mask, ((0, max_len - mask.shape[0]), (0,0))) return m, mask class EmbeddingDataset(Dataset: torch.utils.data.Dataset): """PyTorch dataset representing pretrained sentence embeddings, masks, and labels.""" def __init__(self, text: str, labels: int, max_len: int=100): self.text = text self.labels = labels self.max_len = max_len def __len__(self) -> int: return len(self.labels) def __getitem__(self, idx: int) -> dict: e = embed_line(self.text[idx]) length = e.shape[0] m, mask = pad_matrix(e, max_len=self.max_len) item = {} item['embeddings'] = torch.from_numpy(m) item['mask'] = torch.from_numpy(mask) item['labels'] = torch.tensor(self.labels[idx]) if length > self.max_len: item['lengths'] = torch.tensor(self.max_len) else: item['lengths'] = torch.tensor(length) return item

Perhatikan bahwa kode ini mengantisipasi bahwa vectors.zip file yang berisi penyematan fastText atau BlazingText Anda akan disimpan di .

Selain itu, Anda dapat dengan mudah menerapkan model fastText yang telah dilatih sebelumnya sendiri ke titik akhir SageMaker langsung untuk menghitung vektor penyematan dengan cepat untuk digunakan dalam tugas tingkat kata yang relevan. Lihat berikut ini Contoh GitHub lebih lanjut.

Transformer dengan Wajah Memeluk

Untuk pendekatan pemodelan kedua kami, kami beralih ke penggunaan Transformers, yang diperkenalkan di makalah ini Perhatian Yang Anda Butuhkan. Transformer adalah model pembelajaran mendalam yang dirancang untuk secara sengaja menghindari jebakan RNN dengan mengandalkan mekanisme perhatian-diri untuk menarik ketergantungan global antara input dan output. Arsitektur model Transformer memungkinkan paralelisasi yang jauh lebih baik dan dapat mencapai kinerja tinggi dalam waktu pelatihan yang relatif singkat.

Dibangun di atas kesuksesan Transformers, BERT, diperkenalkan di koran BERT: Pra-pelatihan Transformers Dua Arah Dalam untuk Pemahaman Bahasa, menambahkan pra-pelatihan dua arah untuk representasi bahasa. Terinspirasi oleh tugas Cloze, BERT dilatih sebelumnya dengan pemodelan bahasa bertopeng (MLM), di mana model belajar untuk memulihkan kata-kata asli untuk token bertopeng secara acak. Model BERT juga dilatih pada tugas prediksi kalimat (NSP) berikutnya untuk memprediksi apakah dua kalimat berada dalam urutan bacaan yang benar. Sejak kemunculannya pada tahun 2018, BERT dan variasinya telah banyak digunakan dalam tugas klasifikasi teks.

Solusi kami menggunakan varian BERT yang dikenal sebagai RoBERTa, yang diperkenalkan di makalah RoBERTa: Pendekatan Pra-pelatihan BERT yang Dioptimalkan dengan Kuat. RoBERTa lebih lanjut meningkatkan kinerja BERT pada berbagai tugas bahasa alami dengan pelatihan model yang dioptimalkan, termasuk model pelatihan yang lebih lama pada korpus yang 10 kali lebih besar, menggunakan hyperparameter yang dioptimalkan, masking acak dinamis, menghapus tugas NSP, dan banyak lagi.

Model berbasis RoBERTa kami menggunakan Memeluk Transformer Wajah library, yang merupakan kerangka kerja Python open-source populer yang menyediakan implementasi berkualitas tinggi dari semua jenis model Transformer canggih untuk berbagai tugas NLP. Hugging Face telah bermitra dengan AWS untuk memungkinkan Anda melatih dan menerapkan model Transformer di SageMaker dengan mudah. Fungsi ini tersedia melalui Memeluk gambar Face AWS Deep Learning Container, yang mencakup perpustakaan Transformer, Tokenizer, dan Kumpulan Data, dan integrasi yang dioptimalkan dengan SageMaker untuk pelatihan model dan inferensi.

Dalam implementasi kami, kami mewarisi tulang punggung arsitektur RoBERTa dari kerangka Hugging Face Transformers dan menggunakan SageMaker untuk melatih dan menerapkan model klasifikasi teks kami sendiri, yang kami sebut RoBERTox. RoBERTox menggunakan pengkodean pasangan byte (BPE), diperkenalkan di Terjemahan Mesin Neural dari Kata Langka dengan Unit Subword, untuk menandai teks masukan menjadi representasi subkata. Kami kemudian dapat melatih model dan tokenizer kami pada data Jigsaw atau korpus khusus domain besar (seperti log obrolan dari game tertentu) dan menggunakannya untuk klasifikasi teks yang disesuaikan. Kami mendefinisikan kelas model klasifikasi kustom kami dalam kode berikut:

class RoBERToxForSequenceClassification(CustomLossMixIn, RobertaPreTrainedModel): _keys_to_ignore_on_load_missing = [r"position_ids"] def __init__(self, config: PretrainedConfig, *inputs, **kwargs): """Initialize the RoBERToxForSequenceClassification instance Parameters ---------- config : PretrainedConfig num_labels : Optional[int] if not None, overwrite the default classification head in pretrained model. mode : Optional[str] 'MULTI_CLASS', 'MULTI_LABEL' or "REGRESSION". Used to determine loss class_weight : Optional[List[float]] If not None, add class weight to BCEWithLogitsLoss or CrossEntropyLoss """ super().__init__(config, *inputs, **kwargs) # Define model architecture self.roberta = RobertaModel(self.config, add_pooling_layer=False) self.classifier = RobertaClassificationHead(self.config) self.init_weights() @modeling_roberta.add_start_docstrings_to_model_forward( modeling_roberta.ROBERTA_INPUTS_DOCSTRING.format("batch_size, sequence_length") ) @modeling_roberta.add_code_sample_docstrings( tokenizer_class=modeling_roberta._TOKENIZER_FOR_DOC, checkpoint=modeling_roberta._CHECKPOINT_FOR_DOC, output_type=SequenceClassifierOutput, config_class=modeling_roberta._CONFIG_FOR_DOC, ) def forward( self, input_ids: torch.Tensor = None, attention_mask: torch.Tensor = None, token_type_ids: torch.Tensor = None, position_ids: torch.Tensor =None, head_mask: torch.Tensor =None, inputs_embeds: torch.Tensor =None, labels: torch.Tensor =None, output_attentions: torch.Tensor =None, output_hidden_states: torch.Tensor =None, return_dict: bool =None, sample_weights: torch.Tensor =None, ) -> : dict: """Forward pass to return loss, logits, ... Returns -------- output : SequenceClassifierOutput has those keys: loss, logits, hidden states, attentions """ return_dict = return_dict or self.config.use_return_dict outputs = self.roberta( input_ids, attention_mask=attention_mask, token_type_ids=token_type_ids, position_ids=position_ids, head_mask=head_mask, inputs_embeds=inputs_embeds, output_attentions=output_attentions, output_hidden_states=output_hidden_states, return_dict=return_dict, ) sequence_output = outputs[0] # [CLS] embedding logits = self.classifier(sequence_output) loss = self.compute_loss(logits, labels, sample_weights=sample_weights) if not return_dict: output = (logits,) + outputs[2:] return ((loss,) + output) if loss is not None else output return SequenceClassifierOutput( loss=loss, logits=logits, hidden_states=outputs.hidden_states, attentions=outputs.attentions, ) def compute_loss(self, logits: torch.Tensor, labels: torch.Tensor, sample_weights: Optional[torch.Tensor] = None) -> torch.FloatTensor: return super().compute_loss(logits, labels, sample_weights)

Sebelum pelatihan, kami menyiapkan data teks dan label kami menggunakan pustaka dataset Hugging Face dan mengunggah hasilnya ke Amazon S3:

from datasets import Dataset
import multiprocessing data_train = Dataset.from_pandas(df_train)
… tokenizer = <instantiated_huggingface_tokenizer> def preprocess_function(examples: examples) -> torch.Tensor: result = tokenizer(examples["text"], padding="max_length", max_length=128, truncation=True) return result num_proc = multiprocessing.cpu_count()
print("Number of CPUs =", num_proc) data_train = data_train.map( preprocess_function, batched=True, load_from_cache_file=False, num_proc=num_proc
)
… import botocore
from datasets.filesystems import S3FileSystem s3_session = botocore.session.Session() # create S3FileSystem instance with s3_session
s3 = S3FileSystem(session=s3_session) # saves encoded_dataset to your s3 bucket
data_train.save_to_disk(f's3://<bucket_name>/<prefix_name>/train', fs=s3)
…

Kami memulai pelatihan model dengan cara yang mirip dengan RNN:

import sagemaker
sess = sagemaker.Session()
role = sagemaker.get_execution_role()
from sagemaker.huggingface import HuggingFace # hyperparameters, which are passed into the training job
hyperparameters = { 'model-name': <huggingface_base_model_name>, 'epochs': 10, 'train-batch-size': 32, 'eval-batch-size': 64, 'num-labels': len(<list_of_label_names>), 'class-weight': ' '.join([str(c) for c in <list_of_class_weights>]), 'metric-for-best-model': 'ap_score_weighted', 'save-total-limit': 1,
} # create the Estimator
huggingface_estimator = HuggingFace( entry_point='train.py', source_dir=<source_dir_path>, instance_type=<train_instance_type>, instance_count=1, role=role, transformers_version='4.6.1', pytorch_version='1.7.1', py_version='py36', hyperparameters=hyperparameters, metric_definitions=[ {'Name': 'validation:accuracy', 'Regex': 'eval_accuracy = (.*?);'}, {'Name': 'validation:f1-micro', 'Regex': 'eval_f1_score_micro = (.*?);'}, {'Name': 'validation:f1-macro', 'Regex': 'eval_f1_score_macro = (.*?);'}, {'Name': 'validation:f1-weighted', 'Regex': 'eval_f1_score_weighted = (.*?);'}, {'Name': 'validation:ap-micro', 'Regex': 'eval_ap_score_micro = (.*?);'}, {'Name': 'validation:ap-macro', 'Regex': 'eval_ap_score_macro = (.*?);'}, {'Name': 'validation:ap-weighted', 'Regex': 'eval_ap_score_weighted = (.*?);'}, {'Name': 'validation:auc-micro', 'Regex': 'eval_auc_score_micro = (.*?);'}, {'Name': 'validation:auc-macro', 'Regex': 'eval_auc_score_macro = (.*?);'}, {'Name': 'validation:auc-weighted', 'Regex': 'eval_auc_score_weighted = (.*?);'} ]
) huggingface_estimator.fit( { 'train': 's3://<bucket_name>/<prefix_name>/train', 'valid': 's3://<bucket_name>/<prefix_name>/valid', 'test': 's3://<bucket_name>/<prefix_name>/test'
)

Terakhir, cuplikan kode Python berikut mengilustrasikan proses penyajian RoBERTox melalui titik akhir SageMaker langsung untuk klasifikasi teks waktu nyata untuk permintaan JSON:

from sagemaker.huggingface import HuggingFaceModel
from sagemaker import get_execution_role
from sagemaker.predictor import Predictor
from sagemaker.serializers import JSONSerializer
from sagemaker.deserializers import JSONDeserializer class Classifier(Predictor): def __init__(self, endpoint_name, sagemaker_session): super().__init__(endpoint_name, sagemaker_session, serializer=JSONSerializer(), deserializer=JSONDeserializer()) hf_model = HuggingFaceModel( role=get_execution_role(), model_data=<s3_model_and_tokenizer.tar.gz>, entry_point="inference.py", transformers_version="4.6.1", pytorch_version="1.7.1", py_version="py36", predictor_cls=Classifier
) predictor = hf_model.deploy(instance_type=<deploy_instance_type>, initial_instance_count=1)

Evaluasi kinerja model: Jigsaw kumpulan data bias yang tidak diinginkan

Tabel berikut berisi metrik performa untuk model yang dilatih dan dievaluasi berdasarkan data dari kompetisi Jigsaw Unintended Bias in Toxicity Detection Kaggle. Kami melatih model untuk tiga tugas yang berbeda tetapi saling terkait:

Kasus biner – Model dilatih pada dataset pelatihan lengkap untuk memprediksi toxicity label saja
Kasus berbutir halus – Subset dari data pelatihan yang toxicity>=0.5 digunakan untuk memprediksi label sub-tipe toksisitas lainnya (obscene, threat, insult, identity_attack, sexual_explicit)
Kasus multitugas – Dataset pelatihan lengkap digunakan untuk memprediksi keenam label secara bersamaan

Kami melatih model RNN dan RoBERTa untuk masing-masing dari tiga tugas ini menggunakan label pecahan yang disediakan Jigsaw, yang sesuai dengan proporsi annotator yang menganggap label itu sesuai untuk teks, serta dengan label biner yang dikombinasikan dengan bobot kelas dalam jaringan fungsi kerugian. Dalam skema pelabelan biner, proporsi dibatasi pada 0.5 untuk setiap label yang tersedia (1 jika label>=0.5, 0 sebaliknya), dan fungsi kehilangan model dibobot berdasarkan proporsi relatif dari setiap label biner dalam dataset pelatihan. Dalam semua kasus, kami menemukan bahwa menggunakan label pecahan secara langsung menghasilkan kinerja terbaik, yang menunjukkan nilai tambah informasi yang melekat pada tingkat kesepakatan antara annotator.

Kami menampilkan dua metrik model: presisi rata-rata (AP), yang memberikan ringkasan kurva presisi-ulang dengan menghitung rata-rata tertimbang dari nilai presisi yang dicapai pada setiap ambang klasifikasi, dan area di bawah kurva karakteristik operasi penerima (AUC) , yang menggabungkan kinerja model di seluruh ambang klasifikasi sehubungan dengan tingkat positif benar dan tingkat positif palsu. Perhatikan bahwa kelas sebenarnya untuk contoh teks tertentu dalam set pengujian sesuai dengan apakah proporsi sebenarnya lebih besar dari atau sama dengan 0.5 (1 jika label>=0.5, 0 sebaliknya).

.	Penyematan Subkata + RNN	RobertTa
.	Label pecahan	Label biner + Pembobotan kelas	Label pecahan	Label biner + Pembobotan kelas
Biner	AP=0.746, AUC = 0.966	AP=0.730, AUC=0.963	AP=0.758, AUC=0.966	AP=0.747, AUC=0.963
berbutir halus	AP=0.906, AUC=0.909	AP=0.850, AUC=0.851	AP=0.913, AUC=0.913	AP=0.911, AUC=0.912
Multitask	AP=0.721, AUC = 0.972	AP=0.535, AUC=0.907	AP=0.740, AUC=0.972	AP=0.711, AUC=0.961

Kesimpulan

Dalam posting ini, kami menyajikan dua pendekatan klasifikasi teks untuk percakapan online menggunakan layanan AWS ML. Anda dapat menggeneralisasi solusi ini di seluruh platform komunikasi online, dengan industri seperti game yang kemungkinan besar akan mendapat manfaat dari peningkatan kemampuan untuk mendeteksi konten berbahaya. Di postingan mendatang, kami berencana untuk membahas lebih lanjut arsitektur ujung ke ujung untuk penerapan model yang mulus ke akun AWS Anda.

Jika Anda ingin membantu mempercepat penggunaan ML dalam produk dan proses Anda, harap hubungi Lab Solusi Amazon ML.

Tentang Penulis

Klasifikasi teks untuk percakapan online dengan pembelajaran mesin di AWS PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai. Ryan Merek adalah Ilmuwan Data di Lab Solusi Pembelajaran Mesin Amazon. Dia memiliki pengalaman khusus dalam menerapkan pembelajaran mesin pada masalah dalam perawatan kesehatan dan ilmu kehidupan, dan di waktu luangnya dia menikmati membaca sejarah dan fiksi ilmiah.

Sourav Bhabesh adalah Ilmuwan Data di Amazon ML Solutions Lab. Dia mengembangkan solusi AI/ML untuk pelanggan AWS di berbagai industri. Spesialisasinya adalah Natural Language Processing (NLP) dan sangat menyukai pembelajaran yang mendalam. Di luar pekerjaan dia suka membaca buku dan jalan-jalan.

Liutong Zhou adalah Ilmuwan Terapan di Amazon ML Solutions Lab. Dia membangun solusi AI/ML yang dipesan lebih dahulu untuk pelanggan AWS di berbagai industri. Dia berspesialisasi dalam Pemrosesan Bahasa Alami (NLP) dan bersemangat tentang pembelajaran mendalam multi-modal. Dia adalah seorang penyanyi tenor lirik dan suka menyanyi opera di luar pekerjaan.

Sia Gholami adalah Senior Data Scientist di Amazon ML Solutions Lab, tempat ia membangun solusi AI/ML untuk pelanggan di berbagai industri. Dia bersemangat tentang pemrosesan bahasa alami (NLP) dan pembelajaran mendalam. Di luar pekerjaan, Sia senang menghabiskan waktu di alam dan bermain tenis.

Daniel Horowitz adalah Manajer Sains AI Terapan. Dia memimpin tim ilmuwan di Amazon ML Solutions Lab yang bekerja untuk memecahkan masalah pelanggan dan mendorong adopsi cloud dengan ML.

Stempel Waktu: Juni 29, 2022

Stempel Waktu: Juni 23, 2022

Klasifikasi teks untuk percakapan online dengan pembelajaran mesin di AWS

Diterbitkan Ulang Oleh Plato

Prasyarat

Dataset

Penyematan subkata dan RNN

Transformer dengan Wajah Memeluk

Evaluasi kinerja model: Jigsaw kumpulan data bias yang tidak diinginkan

Kesimpulan

Tentang Penulis

Lebih dari Pembelajaran Mesin AWS

Pemrosesan dokumen cerdas dengan layanan AWS AI: Bagian 1

Host model transformator Hugging Face menggunakan Inferensi Tanpa Server Amazon SageMaker

Pelatihan terdistribusi dengan Amazon EKS dan Torch Distributed Elastic

Exafunction mendukung AWS Inferentia untuk membuka kinerja harga terbaik untuk inferensi pembelajaran mesin

LightGBM bawaan Amazon SageMaker kini menawarkan pelatihan terdistribusi menggunakan Dask

Dukungan format data baru yang diperluas di Amazon Kendra

Optimalkan hyperparameter dengan Amazon SageMaker Automatic Model Tuning

Tentang Kami

Pencarian Vertikal & Ai

Platform

Tetap Berhubung

Akun