طبقه بندی متن برای مکالمات آنلاین با یادگیری ماشین در AWS

بازنشر افلاطون

دنبال: 0

مکالمات آنلاین در زندگی مدرن همه جا وجود دارد و صنایع از بازی های ویدیویی گرفته تا ارتباطات از راه دور را در بر می گیرد. این منجر به رشد تصاعدی در میزان داده‌های مکالمه آنلاین شده است که به توسعه پیشرفته‌ترین سیستم‌های پردازش زبان طبیعی (NLP) مانند ربات‌های گفتگو و مدل‌های تولید زبان طبیعی (NLG) کمک کرده است. با گذشت زمان، تکنیک های مختلف NLP برای تجزیه و تحلیل متن نیز تکامل یافته است. این امر نیاز به یک سرویس کاملاً مدیریت شده را ضروری می کند که می تواند با استفاده از تماس های API بدون نیاز به تخصص گسترده یادگیری ماشین (ML) در برنامه ها ادغام شود. AWS خدمات AWS AI از پیش آموزش دیده را ارائه می دهد درک آمازون، که می تواند به طور موثر موارد استفاده از NLP شامل طبقه بندی، خلاصه سازی متن، شناسایی موجودیت و موارد دیگر را برای جمع آوری بینش از متن مدیریت کند.

علاوه بر این، مکالمات آنلاین منجر به پدیده گسترده ای از استفاده غیر سنتی از زبان شده است. تکنیک‌های NLP سنتی اغلب بر روی این داده‌های متنی ضعیف عمل می‌کنند، زیرا واژگان دائماً در حال تکامل و خاص دامنه‌ای که در پلتفرم‌های مختلف وجود دارد، و همچنین انحرافات واژگانی قابل توجه کلمات از انگلیسی مناسب، تصادفی یا عمداً به عنوان نوعی حمله خصمانه. .

در این پست، ما چندین رویکرد ML را برای طبقه‌بندی متن مکالمات آنلاین با ابزارها و خدمات موجود در AWS شرح می‌دهیم.

پیش نیازها

قبل از فرو رفتن عمیق در این مورد، لطفاً پیش نیازهای زیر را تکمیل کنید:

راه اندازی حساب AWS و یک کاربر IAM ایجاد کنید.
تنظیم کنید AWS CLI و SDK های AWS.
(اختیاری) خود را تنظیم کنید محیط Cloud9 IDE.

مجموعه داده

برای این پست از تعصب ناخواسته Jigsaw در مجموعه داده های طبقه بندی سموم، معیاری برای مشکل خاص طبقه بندی سمیت در مکالمات آنلاین. مجموعه داده برچسب‌های سمیت و همچنین چندین ویژگی زیرگروه مانند زشت، حمله هویت، توهین، تهدید و صریح جنسی را ارائه می‌کند. برچسب‌ها به‌عنوان مقادیر کسری ارائه می‌شوند، که نشان‌دهنده نسبت حاشیه‌نویس‌های انسانی هستند که معتقد بودند این ویژگی برای یک قطعه متن خاص اعمال می‌شود، که به ندرت متفق القول هستند. برای تولید برچسب‌های باینری (مثلاً سمی یا غیر سمی)، یک آستانه 0.5 برای مقادیر کسری اعمال می‌شود و نظرات با مقادیر بیشتر از آستانه به عنوان کلاس مثبت آن برچسب در نظر گرفته می‌شوند.

تعبیه زیر کلمه و RNN

برای اولین رویکرد مدل‌سازی، ما از ترکیبی از جاسازی زیرکلمه و شبکه‌های عصبی مکرر (RNN) برای آموزش مدل‌های طبقه‌بندی متن استفاده می‌کنیم. تعبیه‌های زیر کلمه توسط معرفی شدند بویانوفسکی و همکاران در سال 2017 به عنوان یک پیشرفت نسبت به روش های قبلی جاسازی در سطح کلمه. مدل‌های skip-gram سنتی Word2Vec برای یادگیری یک نمایش برداری ایستا از یک کلمه هدف که به طور بهینه زمینه آن کلمه را پیش‌بینی می‌کند، آموزش دیده‌اند. از سوی دیگر، مدل‌های فرعی، هر کلمه هدف را به صورت کیسه‌ای از کاراکترهای n-gram که کلمه را تشکیل می‌دهند، نشان می‌دهند که در آن یک n-gram از مجموعه‌ای از n کاراکتر متوالی تشکیل شده است. این روش به مدل جاسازی اجازه می‌دهد تا مورفولوژی زیربنایی کلمات مرتبط در مجموعه و همچنین محاسبه جاسازی‌ها را برای کلمات بدیع و خارج از واژگان (OOV) بهتر نشان دهد. این امر به ویژه در زمینه مکالمات آنلاین مهم است، فضای مشکلی که در آن کاربران اغلب کلمات را اشتباه املایی می کنند (گاهی عمداً برای فرار از تشخیص) و همچنین از واژگانی منحصر به فرد و دائماً در حال تکامل استفاده می کنند که ممکن است توسط یک مجموعه آموزشی عمومی قابل درک نباشد.

آمازون SageMaker آموزش و بهینه سازی یک مدل جاسازی زیرکلمه بدون نظارت بر روی مجموعه داده های متنی دامنه خاص خود را با استفاده از ابزار داخلی آسان می کند. الگوریتم BlazingText. همچنین می‌توانیم مدل‌های همه‌منظوره موجود را که بر روی مجموعه داده‌های بزرگ متن آنلاین آموزش داده شده‌اند، مانند موارد زیر دانلود کنیم مدل های زبان انگلیسی مستقیماً از fastText در دسترس هستند. از نمونه نوت بوک SageMaker خود، به سادگی موارد زیر را برای دانلود یک مدل fastText از پیش آموزش دیده اجرا کنید:

!wget -O vectors.zip https://dl.fbaipublicfiles.com/fasttext/vectors-english/crawl-300d-2M-subword.zip

چه تعبیه‌های خود را با BlazingText آموزش داده باشید یا یک مدل از پیش آموزش دیده دانلود کرده باشید، نتیجه یک مدل باینری فشرده است که می‌توانید با کتابخانه gensim برای جاسازی یک کلمه هدف به عنوان یک بردار بر اساس زیرکلمه‌های تشکیل دهنده آن استفاده کنید:

# Imports
import os
from zipfile import ZipFile
from gensim.models.fasttext import load_facebook_vectors # Unzip the model binary into 'dir_path'
with ZipFile('vectors.zip', 'r') as zipObj: zipObj.extractall(path=<dir_path_name>) # Load embedding model into memory
embed_model = load_facebook_vectors(os.path.join(<dir_path_name>, 'vectors.bin')) # Compute embedding vector for 'word'
word_embedding = embed_model[word]

بعد از اینکه بخش معینی از متن را پیش پردازش کردیم، می‌توانیم از این رویکرد برای تولید یک نمایش برداری برای هر یک از کلمات تشکیل‌دهنده (که با فاصله جدا شده‌اند) استفاده کنیم. سپس از SageMaker و یک چارچوب یادگیری عمیق مانند PyTorch برای آموزش یک RNN سفارشی با هدف طبقه‌بندی باینری یا چند برچسبی برای پیش‌بینی سمی بودن یا نبودن متن و نوع خاصی از سمیت بر اساس مثال‌های آموزشی برچسب‌گذاری شده استفاده می‌کنیم.

برای آپلود متن از پیش پردازش شده خود در سرویس ذخیره سازی ساده آمازون (Amazon S3)، از کد زیر استفاده کنید:

import boto3
s3 = boto3.client('s3') bucket = <bucket_name>
prefix = <prefix_name> s3.upload_file('train.pkl', bucket, os.path.join(prefix, 'train/train.pkl'))
s3.upload_file('valid.pkl', bucket, os.path.join(prefix, 'valid/valid.pkl'))
s3.upload_file('test.pkl', bucket, os.path.join(prefix, 'test/test.pkl'))

برای شروع آموزش مدل مقیاس پذیر و چند GPU با SageMaker، کد زیر را وارد کنید:

import sagemaker
sess = sagemaker.Session()
role = iam.get_role(RoleName= ‘AmazonSageMakerFullAccess’)['Role']['Arn'] from sagemaker.pytorch import PyTorch # hyperparameters, which are passed into the training job
hyperparameters = { 'epochs': 20, # Maximum number of epochs to train model 'train-batch-size': 128, # Training batch size (No. sentences) 'eval-batch-size': 1024, # Evaluation batch size (No. sentences) 'embed-size': 300, # Vector dimension of word embeddings (Must match embedding model) 'lstm-hidden-size': 200, # Number of neurons in LSTM hidden layer 'lstm-num-layers': 2, # Number of stacked LSTM layers 'proj-size': 100, # Number of neurons in intermediate projection layer 'num-targets': len(<list_of_label_names>), # Number of targets for classification 'class-weight': ' '.join([str(c) for c in <list_of_weights_per_class>]), # Weight to apply to each target during training 'total-length':<max_number_of_words_per_sentence>, 'metric-for-best-model': 'ap_score_weighted', # Metric on which to select the best model
} # create the Estimator
pytorch_estimator = PyTorch( entry_point='train.py', source_dir=<source_dir_path>, instance_type=<train_instance_type>, volume_size=200, instance_count=1, role=role, framework_version='1.6.0’, py_version='py36', hyperparameters=hyperparameters, metric_definitions=[ {'Name': 'validation:accuracy', 'Regex': 'eval_accuracy = (.*?);'}, {'Name': 'validation:f1-micro', 'Regex': 'eval_f1_score_micro = (.*?);'}, {'Name': 'validation:f1-macro', 'Regex': 'eval_f1_score_macro = (.*?);'}, {'Name': 'validation:f1-weighted', 'Regex': 'eval_f1_score_weighted = (.*?);'}, {'Name': 'validation:ap-micro', 'Regex': 'eval_ap_score_micro = (.*?);'}, {'Name': 'validation:ap-macro', 'Regex': 'eval_ap_score_macro = (.*?);'}, {'Name': 'validation:ap-weighted', 'Regex': 'eval_ap_score_weighted = (.*?);'}, {'Name': 'validation:auc-micro', 'Regex': 'eval_auc_score_micro = (.*?);'}, {'Name': 'validation:auc-macro', 'Regex': 'eval_auc_score_macro = (.*?);'}, {'Name': 'validation:auc-weighted', 'Regex': 'eval_auc_score_weighted = (.*?);'} ]
) pytorch_estimator.fit( { 'train': 's3://<bucket_name>/<prefix_name>/train', 'valid': 's3://<bucket_name>/<prefix_name>/valid', 'test': 's3://<bucket_name>/<prefix_name>/test' }
)

در داخل ، ما یک مجموعه داده PyTorch را تعریف می کنیم که توسط train.py برای آماده سازی داده های متنی برای آموزش و ارزیابی مدل:

def pad_matrix(m: torch.Tensor, max_len: int =100)-> tuple[int, torch.Tensor] : """Pads an embedding matrix to a specified maximum length.""" if m.ndim == 1: m = m.reshape(1, -1) mask = np.ones_like(m) if m.shape[0] > max_len: m = m[:max_len, :] mask = mask[:max_len, :] else: m = np.pad(m, ((0, max_len - m.shape[0]), (0,0))) mask = np.pad(mask, ((0, max_len - mask.shape[0]), (0,0))) return m, mask class EmbeddingDataset(Dataset: torch.utils.data.Dataset): """PyTorch dataset representing pretrained sentence embeddings, masks, and labels.""" def __init__(self, text: str, labels: int, max_len: int=100): self.text = text self.labels = labels self.max_len = max_len def __len__(self) -> int: return len(self.labels) def __getitem__(self, idx: int) -> dict: e = embed_line(self.text[idx]) length = e.shape[0] m, mask = pad_matrix(e, max_len=self.max_len) item = {} item['embeddings'] = torch.from_numpy(m) item['mask'] = torch.from_numpy(mask) item['labels'] = torch.tensor(self.labels[idx]) if length > self.max_len: item['lengths'] = torch.tensor(self.max_len) else: item['lengths'] = torch.tensor(length) return item

توجه داشته باشید که این کد پیش بینی می کند که vectors.zip فایل حاوی جاسازی های fastText یا BlazingText شما در آن ذخیره می شود .

علاوه بر این، می‌توانید به راحتی مدل‌های متن سریع آموزش‌دیده را به تنهایی در نقاط پایانی SageMaker برای محاسبه بردارهای جاسازی شده برای استفاده در وظایف مربوطه در سطح کلمه مستقر کنید. موارد زیر را ببینید نمونه GitHub برای جزئیات بیشتر.

ترانسفورماتور با صورت در آغوش گرفته

برای رویکرد مدل‌سازی دوم، ما به استفاده از ترانسفورماتورها که در مقاله معرفی شده‌اند، انتقال می‌دهیم توجه تنها چیزی است که نیاز دارید. ترانسفورماتورها مدل‌های یادگیری عمیقی هستند که برای اجتناب عمدی از دام‌های RNN با تکیه بر مکانیزم توجه به خود برای ایجاد وابستگی جهانی بین ورودی و خروجی طراحی شده‌اند. معماری مدل ترانسفورماتور امکان موازی سازی بسیار بهتری را فراهم می کند و می تواند در زمان آموزش نسبتاً کوتاه به عملکرد بالایی دست یابد.

ساخته شده بر اساس موفقیت ترانسفورماتور، BERT، معرفی شده در مقاله BERT: پیش آموزش ترانسفورماتورهای دو جهته عمیق برای درک زبان، پیش آموزش دو طرفه برای بازنمایی زبان اضافه شد. با الهام از کار Cloze، BERT با مدل‌سازی زبان ماسک‌شده (MLM) از قبل آموزش دیده است، که در آن مدل یاد می‌گیرد کلمات اصلی را برای نشانه‌های ماسک‌شده تصادفی بازیابی کند. مدل BERT همچنین در کار پیش‌بینی جمله بعدی (NSP) برای پیش‌بینی اینکه آیا دو جمله در ترتیب خواندن صحیح هستند، از قبل آموزش داده شده است. از زمان ظهور آن در سال 2018، BERT و تغییرات آن به طور گسترده در کارهای طبقه بندی متن استفاده شده است.

راه حل ما از یک نوع BERT به نام RoBERTa استفاده می کند که در مقاله معرفی شده است RoBERTa: رویکرد پیش‌آموزشی BERT بهینه شده قوی. RoBERTa عملکرد BERT را در انواع وظایف زبان طبیعی با آموزش مدل بهینه‌سازی شده، از جمله مدل‌های آموزشی طولانی‌تر روی مجموعه‌ای 10 برابر بزرگ‌تر، با استفاده از فراپارامترهای بهینه‌سازی شده، پوشاندن تصادفی پویا، حذف وظیفه NSP و موارد دیگر بهبود می‌بخشد.

مدل های مبتنی بر RoBERTa ما از این استفاده می کنند ترانسفورماتورهای صورت در آغوش کشیدن کتابخانه، که یک فریم ورک منبع باز محبوب پایتون است که پیاده سازی های با کیفیت بالا از انواع مدل های ترانسفورماتور پیشرفته را برای انواع وظایف NLP ارائه می دهد. Hugging Face با AWS شریک شده است به شما امکان می دهد تا به راحتی مدل های Transformer را در SageMaker آموزش و استقرار دهید. این قابلیت از طریق در دسترس است تصاویر کانتینر یادگیری عمیق AWS Face در آغوش کشیدهکه شامل کتابخانه های Transformers، Tokenizers و Datasets و ادغام بهینه شده با SageMaker برای آموزش مدل و استنتاج است.

در پیاده‌سازی، ما ستون اصلی معماری RoBERTa را از چارچوب Hugging Face Transformers به ارث برده‌ایم و از SageMaker برای آموزش و استقرار مدل طبقه‌بندی متن خودمان استفاده می‌کنیم، که ما آن را RoBERTox می‌نامیم. RoBERTox از رمزگذاری جفت بایت (BPE) استفاده می کند ترجمه ماشین عصبی کلمات نادر با واحدهای فرعی، برای تبدیل متن ورودی به نمایش زیرکلمه. سپس می‌توانیم مدل‌ها و توکنایزرهای خود را بر روی داده‌های Jigsaw یا هر مجموعه بزرگ دامنه خاص (مانند گزارش‌های چت از یک بازی خاص) آموزش دهیم و از آنها برای طبقه‌بندی متن سفارشی‌سازی شده استفاده کنیم. کلاس مدل طبقه بندی سفارشی خود را در کد زیر تعریف می کنیم:

class RoBERToxForSequenceClassification(CustomLossMixIn, RobertaPreTrainedModel): _keys_to_ignore_on_load_missing = [r"position_ids"] def __init__(self, config: PretrainedConfig, *inputs, **kwargs): """Initialize the RoBERToxForSequenceClassification instance Parameters ---------- config : PretrainedConfig num_labels : Optional[int] if not None, overwrite the default classification head in pretrained model. mode : Optional[str] 'MULTI_CLASS', 'MULTI_LABEL' or "REGRESSION". Used to determine loss class_weight : Optional[List[float]] If not None, add class weight to BCEWithLogitsLoss or CrossEntropyLoss """ super().__init__(config, *inputs, **kwargs) # Define model architecture self.roberta = RobertaModel(self.config, add_pooling_layer=False) self.classifier = RobertaClassificationHead(self.config) self.init_weights() @modeling_roberta.add_start_docstrings_to_model_forward( modeling_roberta.ROBERTA_INPUTS_DOCSTRING.format("batch_size, sequence_length") ) @modeling_roberta.add_code_sample_docstrings( tokenizer_class=modeling_roberta._TOKENIZER_FOR_DOC, checkpoint=modeling_roberta._CHECKPOINT_FOR_DOC, output_type=SequenceClassifierOutput, config_class=modeling_roberta._CONFIG_FOR_DOC, ) def forward( self, input_ids: torch.Tensor = None, attention_mask: torch.Tensor = None, token_type_ids: torch.Tensor = None, position_ids: torch.Tensor =None, head_mask: torch.Tensor =None, inputs_embeds: torch.Tensor =None, labels: torch.Tensor =None, output_attentions: torch.Tensor =None, output_hidden_states: torch.Tensor =None, return_dict: bool =None, sample_weights: torch.Tensor =None, ) -> : dict: """Forward pass to return loss, logits, ... Returns -------- output : SequenceClassifierOutput has those keys: loss, logits, hidden states, attentions """ return_dict = return_dict or self.config.use_return_dict outputs = self.roberta( input_ids, attention_mask=attention_mask, token_type_ids=token_type_ids, position_ids=position_ids, head_mask=head_mask, inputs_embeds=inputs_embeds, output_attentions=output_attentions, output_hidden_states=output_hidden_states, return_dict=return_dict, ) sequence_output = outputs[0] # [CLS] embedding logits = self.classifier(sequence_output) loss = self.compute_loss(logits, labels, sample_weights=sample_weights) if not return_dict: output = (logits,) + outputs[2:] return ((loss,) + output) if loss is not None else output return SequenceClassifierOutput( loss=loss, logits=logits, hidden_states=outputs.hidden_states, attentions=outputs.attentions, ) def compute_loss(self, logits: torch.Tensor, labels: torch.Tensor, sample_weights: Optional[torch.Tensor] = None) -> torch.FloatTensor: return super().compute_loss(logits, labels, sample_weights)

قبل از آموزش، داده‌های متنی و برچسب‌های خود را با استفاده از مجموعه داده‌های Hugging Face آماده می‌کنیم و نتیجه را در Amazon S3 آپلود می‌کنیم:

from datasets import Dataset
import multiprocessing data_train = Dataset.from_pandas(df_train)
… tokenizer = <instantiated_huggingface_tokenizer> def preprocess_function(examples: examples) -> torch.Tensor: result = tokenizer(examples["text"], padding="max_length", max_length=128, truncation=True) return result num_proc = multiprocessing.cpu_count()
print("Number of CPUs =", num_proc) data_train = data_train.map( preprocess_function, batched=True, load_from_cache_file=False, num_proc=num_proc
)
… import botocore
from datasets.filesystems import S3FileSystem s3_session = botocore.session.Session() # create S3FileSystem instance with s3_session
s3 = S3FileSystem(session=s3_session) # saves encoded_dataset to your s3 bucket
data_train.save_to_disk(f's3://<bucket_name>/<prefix_name>/train', fs=s3)
…

ما آموزش مدل را به روشی مشابه RNN آغاز می کنیم:

import sagemaker
sess = sagemaker.Session()
role = sagemaker.get_execution_role()
from sagemaker.huggingface import HuggingFace # hyperparameters, which are passed into the training job
hyperparameters = { 'model-name': <huggingface_base_model_name>, 'epochs': 10, 'train-batch-size': 32, 'eval-batch-size': 64, 'num-labels': len(<list_of_label_names>), 'class-weight': ' '.join([str(c) for c in <list_of_class_weights>]), 'metric-for-best-model': 'ap_score_weighted', 'save-total-limit': 1,
} # create the Estimator
huggingface_estimator = HuggingFace( entry_point='train.py', source_dir=<source_dir_path>, instance_type=<train_instance_type>, instance_count=1, role=role, transformers_version='4.6.1', pytorch_version='1.7.1', py_version='py36', hyperparameters=hyperparameters, metric_definitions=[ {'Name': 'validation:accuracy', 'Regex': 'eval_accuracy = (.*?);'}, {'Name': 'validation:f1-micro', 'Regex': 'eval_f1_score_micro = (.*?);'}, {'Name': 'validation:f1-macro', 'Regex': 'eval_f1_score_macro = (.*?);'}, {'Name': 'validation:f1-weighted', 'Regex': 'eval_f1_score_weighted = (.*?);'}, {'Name': 'validation:ap-micro', 'Regex': 'eval_ap_score_micro = (.*?);'}, {'Name': 'validation:ap-macro', 'Regex': 'eval_ap_score_macro = (.*?);'}, {'Name': 'validation:ap-weighted', 'Regex': 'eval_ap_score_weighted = (.*?);'}, {'Name': 'validation:auc-micro', 'Regex': 'eval_auc_score_micro = (.*?);'}, {'Name': 'validation:auc-macro', 'Regex': 'eval_auc_score_macro = (.*?);'}, {'Name': 'validation:auc-weighted', 'Regex': 'eval_auc_score_weighted = (.*?);'} ]
) huggingface_estimator.fit( { 'train': 's3://<bucket_name>/<prefix_name>/train', 'valid': 's3://<bucket_name>/<prefix_name>/valid', 'test': 's3://<bucket_name>/<prefix_name>/test'
)

در نهایت، قطعه کد پایتون زیر روند ارائه RoBERTox از طریق یک نقطه پایانی زنده SageMaker برای طبقه‌بندی متن بلادرنگ برای درخواست JSON را نشان می‌دهد:

from sagemaker.huggingface import HuggingFaceModel
from sagemaker import get_execution_role
from sagemaker.predictor import Predictor
from sagemaker.serializers import JSONSerializer
from sagemaker.deserializers import JSONDeserializer class Classifier(Predictor): def __init__(self, endpoint_name, sagemaker_session): super().__init__(endpoint_name, sagemaker_session, serializer=JSONSerializer(), deserializer=JSONDeserializer()) hf_model = HuggingFaceModel( role=get_execution_role(), model_data=<s3_model_and_tokenizer.tar.gz>, entry_point="inference.py", transformers_version="4.6.1", pytorch_version="1.7.1", py_version="py36", predictor_cls=Classifier
) predictor = hf_model.deploy(instance_type=<deploy_instance_type>, initial_instance_count=1)

ارزیابی عملکرد مدل: مجموعه داده تعصب ناخواسته منبت کاری اره مویی

جدول زیر شامل معیارهای عملکردی برای مدل‌های آموزش دیده و ارزیابی شده از داده‌های مسابقه Jigsaw Unintended Bias in Toxicity Detection Kaggle است. ما مدل هایی را برای سه کار متفاوت اما مرتبط با هم آموزش دادیم:

مورد باینری - مدل بر روی مجموعه داده آموزشی کامل آموزش داده شد تا پیش‌بینی شود toxicity فقط برچسب
مورد ریز دانه – زیر مجموعه داده های آموزشی که برای آن toxicity>=0.5 برای پیش‌بینی سایر برچسب‌های زیرنوع سمیت (obscene, threat, insult, identity_attack, sexual_explicit)
کیس چند وظیفه ای - مجموعه داده آموزش کامل برای پیش بینی هر شش برچسب به طور همزمان استفاده شد

ما مدل‌های RNN و RoBERTa را برای هر یک از این سه کار با استفاده از برچسب‌های کسری ارائه‌شده توسط Jigsaw آموزش دادیم، که با نسبت حاشیه‌نویس‌هایی که فکر می‌کردند برچسب برای متن مناسب است، و همچنین با برچسب‌های باینری همراه با وزن کلاس در شبکه مطابقت دارد. عملکرد از دست دادن در طرح برچسب‌گذاری باینری، نسبت‌ها در آستانه 0.5 برای هر برچسب موجود (1 در صورت برچسب> 0.5، 0 در غیر این صورت)، و توابع از دست دادن مدل بر اساس نسبت‌های نسبی هر برچسب باینری در مجموعه داده آموزشی وزن شدند. در همه موارد، ما دریافتیم که استفاده از برچسب‌های کسری مستقیماً منجر به بهترین عملکرد می‌شود، که نشان‌دهنده ارزش افزوده اطلاعات ذاتی در میزان توافق بین حاشیه‌نویس‌ها است.

ما دو معیار مدل را نشان می‌دهیم: دقت متوسط (AP)، که خلاصه‌ای از منحنی دقت-یادآوری را با محاسبه میانگین وزنی مقادیر دقت به‌دست‌آمده در هر آستانه طبقه‌بندی ارائه می‌کند، و ناحیه زیر منحنی مشخصه عملکرد گیرنده (AUC) ، که عملکرد مدل را در آستانه طبقه بندی با توجه به نرخ مثبت واقعی و نرخ مثبت کاذب جمع می کند. توجه داشته باشید که کلاس واقعی برای یک نمونه متن معین در مجموعه آزمایشی مربوط به بزرگتر یا مساوی بودن نسبت واقعی 0.5 است (1 اگر label>=0.5، 0 در غیر این صورت).

.	جاسازی زیر کلمه + RNN	روبرتا
.	برچسب های کسری	برچسب های باینری + وزن کلاس	برچسب های کسری	برچسب های باینری + وزن کلاس
دوتایی	AP=0.746، AUC=0.966	AP=0.730، AUC=0.963	AP=0.758، AUC=0.966	AP=0.747، AUC=0.963
ریزدانه	AP=0.906، AUC=0.909	AP=0.850، AUC=0.851	AP=0.913، AUC=0.913	AP=0.911، AUC=0.912
چند کاره هستند	AP=0.721، AUC=0.972	AP=0.535، AUC=0.907	AP=0.740، AUC=0.972	AP=0.711، AUC=0.961

نتیجه

در این پست، دو رویکرد طبقه‌بندی متن برای مکالمات آنلاین با استفاده از خدمات AWS ML ارائه کردیم. می‌توانید این راه‌حل‌ها را در سراسر پلتفرم‌های ارتباط آنلاین تعمیم دهید، با صنایعی مانند بازی‌ها که احتمالاً از توانایی بهبود یافته برای شناسایی محتوای مضر سود می‌برند. در پست‌های آینده، قصد داریم در مورد معماری سرتاسری برای استقرار یکپارچه مدل‌ها در حساب AWS شما بحث کنیم.

اگر برای تسریع استفاده از ML در محصولات و فرآیندهای خود کمک می‌خواهید، لطفاً با آن تماس بگیرید آزمایشگاه راه حل های آمازون ام ال.

درباره نویسنده

طبقه بندی متن برای مکالمات آنلاین با یادگیری ماشین در هوش داده پلاتوبلاک چین AWS. جستجوی عمودی Ai. رایان برند یک دانشمند داده در آزمایشگاه راه حل های یادگیری ماشین آمازون است. او تجربه خاصی در استفاده از یادگیری ماشینی برای مشکلات در مراقبت های بهداشتی و علوم زیستی دارد و در اوقات فراغت خود از خواندن تاریخ و داستان های علمی تخیلی لذت می برد.

سوراو بابش دانشمند داده در آزمایشگاه راه حل های آمازون ML است. او راه حل های AI/ML را برای مشتریان AWS در صنایع مختلف توسعه می دهد. تخصص او پردازش زبان طبیعی (NLP) است و علاقه زیادی به یادگیری عمیق دارد. در خارج از محل کار از خواندن کتاب و مسافرت لذت می برد.

لیوتنگ ژو یک دانشمند کاربردی در آزمایشگاه راه حل های آمازون ML است. او راه حل های سفارشی AI/ML را برای مشتریان AWS در صنایع مختلف می سازد. او در پردازش زبان طبیعی (NLP) تخصص دارد و علاقه زیادی به یادگیری عمیق چند وجهی دارد. او یک تنور غنایی است و از خواندن اپرا در خارج از محل کار لذت می برد.

سیا غلامی یک دانشمند ارشد داده در آزمایشگاه راه حل های آمازون ML است، جایی که راه حل های AI/ML را برای مشتریان در صنایع مختلف می سازد. او مشتاق پردازش زبان طبیعی (NLP) و یادگیری عمیق است. سیا خارج از محل کار از گذراندن وقت در طبیعت و بازی تنیس لذت می برد.

دانیل هوروویتز مدیر علوم هوش مصنوعی کاربردی است. او تیمی از دانشمندان را در آزمایشگاه راه حل‌های آمازون ML رهبری می‌کند که برای حل مشکلات مشتریان و تشویق پذیرش ابر با ML کار می‌کنند.

تمبر زمان: ژوئن 29، 2022

تمبر زمان: ژوئیه 29، 2022

طبقه بندی متن برای مکالمات آنلاین با یادگیری ماشین در AWS

بازنشر افلاطون

پیش نیازها

مجموعه داده

تعبیه زیر کلمه و RNN

ترانسفورماتور با صورت در آغوش گرفته

ارزیابی عملکرد مدل: مجموعه داده تعصب ناخواسته منبت کاری اره مویی

نتیجه

درباره نویسنده

بیشتر از آموزش ماشین AWS

تصمیم گیری هوشمند را با Amazon SageMaker Canvas و Amazon QuickSight فعال کنید

نوت بوک های خود را از هر محیط JupyterLab با استفاده از افزونه Amazon SageMaker JupyterLab برنامه ریزی کنید | خدمات وب آمازون

وایت پیپر: بهترین شیوه های یادگیری ماشین در مراقبت های بهداشتی و علوم زندگی

از AWS CDK برای استقرار تنظیمات چرخه حیات Amazon SageMaker Studio | استفاده کنید خدمات وب آمازون

ساخت و آموزش مدل های ML با استفاده از معماری مش داده در AWS: قسمت 2

درباره‌ ما

جستجوی عمودی و هوش مصنوعی

سکو

همیشه در ارتباط ماندن

حساب