تصنيف النص للمحادثات عبر الإنترنت باستخدام التعلم الآلي على AWS

أعاد نشره أفلاطون

المتابعون: 0

المحادثات عبر الإنترنت منتشرة في كل مكان في الحياة الحديثة ، وتشمل الصناعات من ألعاب الفيديو إلى الاتصالات السلكية واللاسلكية. وقد أدى ذلك إلى نمو هائل في كمية بيانات المحادثة عبر الإنترنت ، مما ساعد في تطوير أحدث أنظمة معالجة اللغة الطبيعية (NLP) مثل روبوتات المحادثة ونماذج توليد اللغة الطبيعية (NLG). بمرور الوقت ، تطورت أيضًا العديد من تقنيات البرمجة اللغوية العصبية لتحليل النص. وهذا يستلزم الحاجة إلى خدمة مُدارة بالكامل يمكن دمجها في التطبيقات باستخدام استدعاءات واجهة برمجة التطبيقات دون الحاجة إلى خبرة واسعة في التعلم الآلي (ML). تقدم AWS خدمات AWS AI المدربة مسبقًا مثل فهم الأمازون، والتي يمكنها التعامل بفعالية مع حالات استخدام البرمجة اللغوية العصبية التي تتضمن التصنيف وتلخيص النص والتعرف على الكيانات والمزيد لجمع الأفكار من النص.

بالإضافة إلى ذلك ، أدت المحادثات عبر الإنترنت إلى انتشار ظاهرة الاستخدام غير التقليدي للغة. غالبًا ما تؤدي تقنيات البرمجة اللغوية العصبية التقليدية أداءً ضعيفًا في هذه البيانات النصية نظرًا للتطور المستمر والمفردات الخاصة بالمجال الموجودة داخل منصات مختلفة ، بالإضافة إلى الانحرافات المعجمية الكبيرة للكلمات عن اللغة الإنجليزية الصحيحة ، إما عن طريق الصدفة أو عن قصد كشكل من أشكال الهجوم العدائي .

في هذا المنشور ، نصف مناهج ML متعددة لتصنيف النص للمحادثات عبر الإنترنت باستخدام الأدوات والخدمات المتاحة على AWS.

المتطلبات الأساسية المسبقة

قبل التعمق في حالة الاستخدام هذه ، يرجى إكمال المتطلبات الأساسية التالية:

قم بإعداد ملف حساب AWS و إنشاء مستخدم IAM.
إعداد AWS CLI و مجموعات AWS SDK.
(اختياري) قم بإعداد بيئة Cloud9 IDE.

بيانات

لهذا المنصب ، نستخدم بانوراما التحيز غير المقصود في مجموعة بيانات تصنيف السمية، وهو معيار للمشكلة المحددة لتصنيف السمية في المحادثات عبر الإنترنت. توفر مجموعة البيانات تسميات السمية بالإضافة إلى العديد من سمات المجموعات الفرعية مثل الفاحشة وهجوم الهوية والإهانة والتهديد والجنس الصريح. يتم توفير التسميات كقيم كسرية ، والتي تمثل نسبة المعلقين من البشر الذين اعتقدوا أن السمة مطبقة على جزء معين من النص ، والتي نادرًا ما تكون بالإجماع. لإنشاء ملصقات ثنائية (على سبيل المثال ، سامة أو غير سامة) ، يتم تطبيق حد 0.5 على القيم الكسرية ، ويتم التعامل مع التعليقات ذات القيم الأكبر من الحد على أنها فئة موجبة لذلك الملصق.

تضمين الكلمات الفرعية و RNNs

بالنسبة لنهج النمذجة الأول لدينا ، نستخدم مزيجًا من تضمين الكلمات الفرعية والشبكات العصبية المتكررة (RNNs) لتدريب نماذج تصنيف النص. تم تقديم حفلات الزفاف الفرعية بواسطة Bojanowski et al. في عام 2017 كتحسين على طرق التضمين السابقة على مستوى الكلمات. يتم تدريب نماذج Word2Vec للتخطي التقليدية لتعلم تمثيل متجه ثابت للكلمة المستهدفة التي تتنبأ بشكل مثالي بسياق هذه الكلمة. من ناحية أخرى ، تمثل نماذج الكلمات الفرعية كل كلمة مستهدفة كحقيبة من الحرف n-grams التي تتكون منها الكلمة ، حيث يتكون n-gram من مجموعة من الأحرف المتتالية n. تسمح هذه الطريقة لنموذج التضمين بتمثيل التشكل الأساسي للكلمات ذات الصلة في الجسم بشكل أفضل بالإضافة إلى حساب الزخارف للكلمات الجديدة غير المفردات (OOV). هذا مهم بشكل خاص في سياق المحادثات عبر الإنترنت ، وهي مساحة مشكلة غالبًا ما يخطئ فيها المستخدمون في تهجئة الكلمات (أحيانًا عن قصد لتجنب الاكتشاف) ويستخدمون أيضًا مفردات فريدة ومتطورة باستمرار قد لا يتم التقاطها بواسطة مجموعة تدريب عامة.

الأمازون SageMaker يجعل من السهل تدريب نموذج تضمين الكلمات الفرعية غير الخاضع للإشراف وتحسينه على مجموعة البيانات النصية الخاصة بالمجال باستخدام المحتوى المدمج خوارزمية BlazingText. يمكننا أيضًا تنزيل النماذج الحالية للأغراض العامة المُدرَّبة على مجموعات كبيرة من البيانات النصية عبر الإنترنت ، مثل ما يلي نماذج اللغة الإنجليزية متاحة مباشرة من fastText. من مثيل دفتر SageMaker الخاص بك ، ما عليك سوى تشغيل ما يلي لتنزيل نموذج نص سريع تم اختباره مسبقًا:

!wget -O vectors.zip https://dl.fbaipublicfiles.com/fasttext/vectors-english/crawl-300d-2M-subword.zip

سواء كنت قد دربت حفلات الزفاف الخاصة بك باستخدام BlazingText أو قمت بتنزيل نموذج تم اختباره مسبقًا ، فإن النتيجة هي نموذج ثنائي مضغوط يمكنك استخدامه مع مكتبة gensim لتضمين كلمة مستهدفة معينة كمتجه بناءً على الكلمات الفرعية المكونة لها:

# Imports
import os
from zipfile import ZipFile
from gensim.models.fasttext import load_facebook_vectors # Unzip the model binary into 'dir_path'
with ZipFile('vectors.zip', 'r') as zipObj: zipObj.extractall(path=<dir_path_name>) # Load embedding model into memory
embed_model = load_facebook_vectors(os.path.join(<dir_path_name>, 'vectors.bin')) # Compute embedding vector for 'word'
word_embedding = embed_model[word]

بعد أن نعالج مقطعًا معينًا من النص مسبقًا ، يمكننا استخدام هذا النهج لإنشاء تمثيل متجه لكل كلمة من الكلمات المكونة (مفصولة بمسافات). ثم نستخدم SageMaker وإطار عمل التعلم العميق مثل PyTorch لتدريب RNN مخصص مع هدف تصنيف ثنائي أو متعدد التسميات للتنبؤ بما إذا كان النص سامًا أم لا والنوع الفرعي المحدد للسمية بناءً على أمثلة التدريب المصنفة.

لتحميل النص المعالج مسبقًا إلى خدمة تخزين أمازون البسيطة (Amazon S3) ، استخدم الكود التالي:

import boto3
s3 = boto3.client('s3') bucket = <bucket_name>
prefix = <prefix_name> s3.upload_file('train.pkl', bucket, os.path.join(prefix, 'train/train.pkl'))
s3.upload_file('valid.pkl', bucket, os.path.join(prefix, 'valid/valid.pkl'))
s3.upload_file('test.pkl', bucket, os.path.join(prefix, 'test/test.pkl'))

لبدء تدريب نموذج قابل للتطوير متعدد وحدات معالجة الرسومات باستخدام SageMaker ، أدخل الكود التالي:

import sagemaker
sess = sagemaker.Session()
role = iam.get_role(RoleName= ‘AmazonSageMakerFullAccess’)['Role']['Arn'] from sagemaker.pytorch import PyTorch # hyperparameters, which are passed into the training job
hyperparameters = { 'epochs': 20, # Maximum number of epochs to train model 'train-batch-size': 128, # Training batch size (No. sentences) 'eval-batch-size': 1024, # Evaluation batch size (No. sentences) 'embed-size': 300, # Vector dimension of word embeddings (Must match embedding model) 'lstm-hidden-size': 200, # Number of neurons in LSTM hidden layer 'lstm-num-layers': 2, # Number of stacked LSTM layers 'proj-size': 100, # Number of neurons in intermediate projection layer 'num-targets': len(<list_of_label_names>), # Number of targets for classification 'class-weight': ' '.join([str(c) for c in <list_of_weights_per_class>]), # Weight to apply to each target during training 'total-length':<max_number_of_words_per_sentence>, 'metric-for-best-model': 'ap_score_weighted', # Metric on which to select the best model
} # create the Estimator
pytorch_estimator = PyTorch( entry_point='train.py', source_dir=<source_dir_path>, instance_type=<train_instance_type>, volume_size=200, instance_count=1, role=role, framework_version='1.6.0’, py_version='py36', hyperparameters=hyperparameters, metric_definitions=[ {'Name': 'validation:accuracy', 'Regex': 'eval_accuracy = (.*?);'}, {'Name': 'validation:f1-micro', 'Regex': 'eval_f1_score_micro = (.*?);'}, {'Name': 'validation:f1-macro', 'Regex': 'eval_f1_score_macro = (.*?);'}, {'Name': 'validation:f1-weighted', 'Regex': 'eval_f1_score_weighted = (.*?);'}, {'Name': 'validation:ap-micro', 'Regex': 'eval_ap_score_micro = (.*?);'}, {'Name': 'validation:ap-macro', 'Regex': 'eval_ap_score_macro = (.*?);'}, {'Name': 'validation:ap-weighted', 'Regex': 'eval_ap_score_weighted = (.*?);'}, {'Name': 'validation:auc-micro', 'Regex': 'eval_auc_score_micro = (.*?);'}, {'Name': 'validation:auc-macro', 'Regex': 'eval_auc_score_macro = (.*?);'}, {'Name': 'validation:auc-weighted', 'Regex': 'eval_auc_score_weighted = (.*?);'} ]
) pytorch_estimator.fit( { 'train': 's3://<bucket_name>/<prefix_name>/train', 'valid': 's3://<bucket_name>/<prefix_name>/valid', 'test': 's3://<bucket_name>/<prefix_name>/test' }
)

ضمن ، نحدد مجموعة بيانات PyTorch التي يستخدمها train.py لإعداد البيانات النصية للتدريب وتقييم النموذج:

def pad_matrix(m: torch.Tensor, max_len: int =100)-> tuple[int, torch.Tensor] : """Pads an embedding matrix to a specified maximum length.""" if m.ndim == 1: m = m.reshape(1, -1) mask = np.ones_like(m) if m.shape[0] > max_len: m = m[:max_len, :] mask = mask[:max_len, :] else: m = np.pad(m, ((0, max_len - m.shape[0]), (0,0))) mask = np.pad(mask, ((0, max_len - mask.shape[0]), (0,0))) return m, mask class EmbeddingDataset(Dataset: torch.utils.data.Dataset): """PyTorch dataset representing pretrained sentence embeddings, masks, and labels.""" def __init__(self, text: str, labels: int, max_len: int=100): self.text = text self.labels = labels self.max_len = max_len def __len__(self) -> int: return len(self.labels) def __getitem__(self, idx: int) -> dict: e = embed_line(self.text[idx]) length = e.shape[0] m, mask = pad_matrix(e, max_len=self.max_len) item = {} item['embeddings'] = torch.from_numpy(m) item['mask'] = torch.from_numpy(mask) item['labels'] = torch.tensor(self.labels[idx]) if length > self.max_len: item['lengths'] = torch.tensor(self.max_len) else: item['lengths'] = torch.tensor(length) return item

لاحظ أن هذا الرمز يتوقع أن ملف vectors.zip سيتم تخزين ملف يحتوي على fastText أو BlazingText الخاص بك في حفلات الزفاف .

بالإضافة إلى ذلك ، يمكنك بسهولة نشر نماذج fastText المدربة مسبقًا بمفردها لتعيش نقاط نهاية SageMaker لحساب متجهات التضمين أثناء التنقل لاستخدامها في المهام ذات الصلة على مستوى الكلمات. انظر ما يلي مثال على جيثب لمزيد من التفاصيل.

محولات ذات وجه معانق

بالنسبة لنهج النمذجة الثاني الخاص بنا ، ننتقل إلى استخدام المحولات ، المقدمة في الورقة الاهتمام هو كل ما تحتاجه. المحولات هي نماذج تعليمية عميقة مصممة لتتجنب عمدًا مآزق RNNs من خلال الاعتماد على آلية الاهتمام الذاتي لرسم التبعيات العالمية بين المدخلات والمخرجات. تسمح بنية نموذج المحولات بموازنة أفضل بشكل ملحوظ ويمكن أن تحقق أداءً عاليًا في وقت تدريب قصير نسبيًا.

مبني على نجاح Transformers ، BERT ، الذي تم تقديمه في الورقة BERT: التدريب المسبق لمحولات ثنائية الاتجاه عميقة لفهم اللغة، إضافة تدريب ثنائي الاتجاه لتمثيل اللغة. مستوحى من مهمة Cloze ، تم تدريب BERT مسبقًا على نمذجة اللغة المقنعة (MLM) ، حيث يتعلم النموذج استرداد الكلمات الأصلية للرموز المقنعة بشكل عشوائي. يتم أيضًا اختبار نموذج BERT مسبقًا في مهمة التنبؤ بالجمل التالية (NSP) للتنبؤ بما إذا كانت جملتان في ترتيب قراءة صحيح. منذ ظهوره في عام 2018 ، تم استخدام BERT وأشكاله المختلفة على نطاق واسع في مهام تصنيف النص.

يستخدم حلنا نوعًا مختلفًا من BERT يُعرف باسم RoBERTa ، والذي تم تقديمه في الورق RoBERTa: نهج BERT مُحسَّن بقوة قبل التدريب المسبق. تعمل RoBERTa أيضًا على تحسين أداء BERT في مجموعة متنوعة من مهام اللغة الطبيعية من خلال تدريب النموذج الأمثل ، بما في ذلك نماذج التدريب الأطول على مجموعة أكبر بعشر مرات ، باستخدام المعلمات الفائقة المُحسَّنة ، والإخفاء العشوائي الديناميكي ، وإزالة مهمة NSP ، والمزيد.

تستخدم نماذجنا المستندة إلى RoBERTa ملف تعانق محولات الوجه Library ، وهي إطار عمل Python شائع مفتوح المصدر يوفر تطبيقات عالية الجودة لجميع أنواع نماذج Transformer الحديثة لمجموعة متنوعة من مهام البرمجة اللغوية العصبية. عقدت Hugging Face شراكة مع AWS لتمكينك من تدريب ونشر نماذج Transformer بسهولة على SageMaker. هذه الوظيفة متاحة من خلال صور حاوية AWS Deep Learning Container المعانقة للوجه، والتي تشمل مكتبات Transformers و Tokenizers ومجموعات البيانات والتكامل الأمثل مع SageMaker للتدريب والاستدلال على النموذج.

في تطبيقنا ، نرث العمود الفقري لمعمارية RoBERTa من إطار عمل Hugging Face Transformers ونستخدم SageMaker لتدريب ونشر نموذج تصنيف النص الخاص بنا ، والذي نسميه RoBERTox. يستخدم RoBERTox تشفير زوج البايت (BPE) المقدم في الترجمة الآلية العصبية للكلمات النادرة مع وحدات الكلمات الفرعية، لترميز نص الإدخال في تمثيلات الكلمات الفرعية. يمكننا بعد ذلك تدريب النماذج والمميزات الخاصة بنا على بيانات Jigsaw أو أي مجموعة كبيرة خاصة بالمجال (مثل سجلات الدردشة من لعبة معينة) واستخدامها لتصنيف نص مخصص. نحدد فئة نموذج التصنيف المخصص لدينا في الكود التالي:

class RoBERToxForSequenceClassification(CustomLossMixIn, RobertaPreTrainedModel): _keys_to_ignore_on_load_missing = [r"position_ids"] def __init__(self, config: PretrainedConfig, *inputs, **kwargs): """Initialize the RoBERToxForSequenceClassification instance Parameters ---------- config : PretrainedConfig num_labels : Optional[int] if not None, overwrite the default classification head in pretrained model. mode : Optional[str] 'MULTI_CLASS', 'MULTI_LABEL' or "REGRESSION". Used to determine loss class_weight : Optional[List[float]] If not None, add class weight to BCEWithLogitsLoss or CrossEntropyLoss """ super().__init__(config, *inputs, **kwargs) # Define model architecture self.roberta = RobertaModel(self.config, add_pooling_layer=False) self.classifier = RobertaClassificationHead(self.config) self.init_weights() @modeling_roberta.add_start_docstrings_to_model_forward( modeling_roberta.ROBERTA_INPUTS_DOCSTRING.format("batch_size, sequence_length") ) @modeling_roberta.add_code_sample_docstrings( tokenizer_class=modeling_roberta._TOKENIZER_FOR_DOC, checkpoint=modeling_roberta._CHECKPOINT_FOR_DOC, output_type=SequenceClassifierOutput, config_class=modeling_roberta._CONFIG_FOR_DOC, ) def forward( self, input_ids: torch.Tensor = None, attention_mask: torch.Tensor = None, token_type_ids: torch.Tensor = None, position_ids: torch.Tensor =None, head_mask: torch.Tensor =None, inputs_embeds: torch.Tensor =None, labels: torch.Tensor =None, output_attentions: torch.Tensor =None, output_hidden_states: torch.Tensor =None, return_dict: bool =None, sample_weights: torch.Tensor =None, ) -> : dict: """Forward pass to return loss, logits, ... Returns -------- output : SequenceClassifierOutput has those keys: loss, logits, hidden states, attentions """ return_dict = return_dict or self.config.use_return_dict outputs = self.roberta( input_ids, attention_mask=attention_mask, token_type_ids=token_type_ids, position_ids=position_ids, head_mask=head_mask, inputs_embeds=inputs_embeds, output_attentions=output_attentions, output_hidden_states=output_hidden_states, return_dict=return_dict, ) sequence_output = outputs[0] # [CLS] embedding logits = self.classifier(sequence_output) loss = self.compute_loss(logits, labels, sample_weights=sample_weights) if not return_dict: output = (logits,) + outputs[2:] return ((loss,) + output) if loss is not None else output return SequenceClassifierOutput( loss=loss, logits=logits, hidden_states=outputs.hidden_states, attentions=outputs.attentions, ) def compute_loss(self, logits: torch.Tensor, labels: torch.Tensor, sample_weights: Optional[torch.Tensor] = None) -> torch.FloatTensor: return super().compute_loss(logits, labels, sample_weights)

قبل التدريب ، نقوم بإعداد بياناتنا النصية والتسميات باستخدام مكتبة مجموعات بيانات Hugging Face وتحميل النتيجة إلى Amazon S3:

from datasets import Dataset
import multiprocessing data_train = Dataset.from_pandas(df_train)
… tokenizer = <instantiated_huggingface_tokenizer> def preprocess_function(examples: examples) -> torch.Tensor: result = tokenizer(examples["text"], padding="max_length", max_length=128, truncation=True) return result num_proc = multiprocessing.cpu_count()
print("Number of CPUs =", num_proc) data_train = data_train.map( preprocess_function, batched=True, load_from_cache_file=False, num_proc=num_proc
)
… import botocore
from datasets.filesystems import S3FileSystem s3_session = botocore.session.Session() # create S3FileSystem instance with s3_session
s3 = S3FileSystem(session=s3_session) # saves encoded_dataset to your s3 bucket
data_train.save_to_disk(f's3://<bucket_name>/<prefix_name>/train', fs=s3)
…

نبدأ تدريب النموذج بطريقة مماثلة لـ RNN:

import sagemaker
sess = sagemaker.Session()
role = sagemaker.get_execution_role()
from sagemaker.huggingface import HuggingFace # hyperparameters, which are passed into the training job
hyperparameters = { 'model-name': <huggingface_base_model_name>, 'epochs': 10, 'train-batch-size': 32, 'eval-batch-size': 64, 'num-labels': len(<list_of_label_names>), 'class-weight': ' '.join([str(c) for c in <list_of_class_weights>]), 'metric-for-best-model': 'ap_score_weighted', 'save-total-limit': 1,
} # create the Estimator
huggingface_estimator = HuggingFace( entry_point='train.py', source_dir=<source_dir_path>, instance_type=<train_instance_type>, instance_count=1, role=role, transformers_version='4.6.1', pytorch_version='1.7.1', py_version='py36', hyperparameters=hyperparameters, metric_definitions=[ {'Name': 'validation:accuracy', 'Regex': 'eval_accuracy = (.*?);'}, {'Name': 'validation:f1-micro', 'Regex': 'eval_f1_score_micro = (.*?);'}, {'Name': 'validation:f1-macro', 'Regex': 'eval_f1_score_macro = (.*?);'}, {'Name': 'validation:f1-weighted', 'Regex': 'eval_f1_score_weighted = (.*?);'}, {'Name': 'validation:ap-micro', 'Regex': 'eval_ap_score_micro = (.*?);'}, {'Name': 'validation:ap-macro', 'Regex': 'eval_ap_score_macro = (.*?);'}, {'Name': 'validation:ap-weighted', 'Regex': 'eval_ap_score_weighted = (.*?);'}, {'Name': 'validation:auc-micro', 'Regex': 'eval_auc_score_micro = (.*?);'}, {'Name': 'validation:auc-macro', 'Regex': 'eval_auc_score_macro = (.*?);'}, {'Name': 'validation:auc-weighted', 'Regex': 'eval_auc_score_weighted = (.*?);'} ]
) huggingface_estimator.fit( { 'train': 's3://<bucket_name>/<prefix_name>/train', 'valid': 's3://<bucket_name>/<prefix_name>/valid', 'test': 's3://<bucket_name>/<prefix_name>/test'
)

أخيرًا ، يوضح مقتطف شفرة Python التالي عملية تقديم RoBERTox عبر نقطة نهاية SageMaker الحية لتصنيف النص في الوقت الفعلي لطلب JSON:

from sagemaker.huggingface import HuggingFaceModel
from sagemaker import get_execution_role
from sagemaker.predictor import Predictor
from sagemaker.serializers import JSONSerializer
from sagemaker.deserializers import JSONDeserializer class Classifier(Predictor): def __init__(self, endpoint_name, sagemaker_session): super().__init__(endpoint_name, sagemaker_session, serializer=JSONSerializer(), deserializer=JSONDeserializer()) hf_model = HuggingFaceModel( role=get_execution_role(), model_data=<s3_model_and_tokenizer.tar.gz>, entry_point="inference.py", transformers_version="4.6.1", pytorch_version="1.7.1", py_version="py36", predictor_cls=Classifier
) predictor = hf_model.deploy(instance_type=<deploy_instance_type>, initial_instance_count=1)

تقييم أداء النموذج: مجموعة بيانات التحيز غير المقصود من Jigsaw

يحتوي الجدول التالي على مقاييس الأداء للنماذج التي تم تدريبها وتقييمها بناءً على بيانات من Jigsaw Unintended Bias في مسابقة Kaggle لاكتشاف السمية. قمنا بتدريب نماذج لثلاث مهام مختلفة ولكنها مترابطة:

حالة ثنائية - تم تدريب النموذج على مجموعة بيانات التدريب الكاملة للتنبؤ بـ toxicity التسمية فقط
علبة حبيبات دقيقة - المجموعة الفرعية لبيانات التدريب الخاصة بها toxicity>=0.5 تم استخدامه للتنبؤ بعلامات من النوع الفرعي للسمية الأخرى (obscene, threat, insult, identity_attack, sexual_explicit)
حالة متعددة المهام - تم استخدام مجموعة بيانات التدريب الكاملة للتنبؤ بجميع التسميات الستة في وقت واحد

قمنا بتدريب نماذج RNN و RoBERTa لكل من هذه المهام الثلاث باستخدام الملصقات الكسرية التي توفرها Jigsaw ، والتي تتوافق مع نسبة المعلقين الذين اعتقدوا أن الملصق مناسب للنص ، بالإضافة إلى الملصقات الثنائية جنبًا إلى جنب مع أوزان الفصل في الشبكة فقدان وظيفة. في مخطط وضع العلامات الثنائي ، تم تحديد النسب عند 0.5 لكل ملصق متاح (1 إذا كانت التسمية> = 0.5 ، 0 بخلاف ذلك) ، وتم ترجيح وظائف فقدان النموذج بناءً على النسب النسبية لكل تسمية ثنائية في مجموعة بيانات التدريب. في جميع الحالات ، وجدنا أن استخدام العلامات الكسرية أدى بشكل مباشر إلى أفضل أداء ، مما يشير إلى القيمة المضافة للمعلومات المتأصلة في درجة الاتفاق بين المعلقين.

نعرض مقياسين للنموذج: متوسط الدقة (AP) ، والذي يوفر ملخصًا لمنحنى الاسترجاع الدقيق عن طريق حساب المتوسط المرجح لقيم الدقة التي تم تحقيقها عند كل عتبة تصنيف ، والمنطقة الواقعة أسفل منحنى خاصية تشغيل المستقبل (AUC) ، والذي يجمع أداء النموذج عبر عتبات التصنيف فيما يتعلق بالمعدل الإيجابي الحقيقي والمعدل الإيجابي الخاطئ. لاحظ أن الفئة الحقيقية لمثيل نصي معين في مجموعة الاختبار تتوافق مع ما إذا كانت النسبة الحقيقية أكبر من أو تساوي 0.5 (1 إذا كانت التسمية> = 0.5 ، 0 بخلاف ذلك).

.	تضمين الكلمات الفرعية + RNN	روبرتا
.	تسميات كسرية	تسميات ثنائية + ترجيح الفئة	تسميات كسرية	تسميات ثنائية + ترجيح الفئة
ثنائي	AP = 0.746 ، الجامعة الأمريكية بالقاهرة = 0.966	AP = 0.730 ، AUC = 0.963	AP = 0.758 ، AUC = 0.966	AP = 0.747 ، AUC = 0.963
بالغة الدقة	AP = 0.906 ، AUC = 0.909	AP = 0.850 ، AUC = 0.851	AP = 0.913 ، AUC = 0.913	AP = 0.911 ، AUC = 0.912
تعدد المهام	AP = 0.721 ، الجامعة الأمريكية بالقاهرة = 0.972	AP = 0.535 ، AUC = 0.907	AP = 0.740 ، AUC = 0.972	AP = 0.711 ، AUC = 0.961

وفي الختام

في هذا المنشور ، قدمنا طريقتين لتصنيف النص للمحادثات عبر الإنترنت باستخدام خدمات AWS ML. يمكنك تعميم هذه الحلول عبر منصات الاتصال عبر الإنترنت ، حيث من المرجح أن تستفيد صناعات مثل الألعاب بشكل خاص من القدرة المحسنة على اكتشاف المحتوى الضار. في المنشورات المستقبلية ، نخطط لمزيد من المناقشة حول بنية شاملة للنشر السلس للنماذج في حساب AWS الخاص بك.

إذا كنت ترغب في المساعدة في تسريع استخدامك لـ ML في منتجاتك وعملياتك ، فيرجى الاتصال بـ مختبر أمازون ML Solutions.

حول المؤلف

تصنيف النص للمحادثات عبر الإنترنت مع التعلم الآلي على AWS PlatoBlockchain Data Intelligence. البحث العمودي. عاي. ريان براند هو عالم بيانات في مختبر حلول التعلم الآلي في أمازون. لديه خبرة خاصة في تطبيق التعلم الآلي على مشاكل الرعاية الصحية وعلوم الحياة ، وفي أوقات فراغه يستمتع بقراءة التاريخ والخيال العلمي.

سراف بهابيش هو عالم بيانات في Amazon ML Solutions Lab. قام بتطوير حلول AI / ML لعملاء AWS في مختلف الصناعات. تخصصه هو معالجة اللغات الطبيعية (NLP) وهو متحمس للتعلم العميق. يستمتع بقراءة الكتب والسفر خارج العمل.

ليوتونغ تشو هو عالم تطبيقي في Amazon ML Solutions Lab. يقوم ببناء حلول AI / ML مخصصة لعملاء AWS في مختلف الصناعات. وهو متخصص في معالجة اللغات الطبيعية (NLP) وهو متحمس للتعلم العميق متعدد الوسائط. إنه مغني غنائي ويستمتع بغناء الأوبرا خارج العمل.

سيا غلامى هو أحد كبار علماء البيانات في Amazon ML Solutions Lab ، حيث يقوم ببناء حلول AI / ML للعملاء في مختلف الصناعات. إنه متحمس لمعالجة اللغة الطبيعية (NLP) والتعلم العميق. خارج العمل ، تستمتع Sia بقضاء الوقت في الطبيعة ولعب التنس.

دانييل هورويتز هو مدير العلوم التطبيقية للذكاء الاصطناعي. يقود فريقًا من العلماء في Amazon ML Solutions Lab يعملون على حل مشكلات العملاء وتعزيز اعتماد السحابة باستخدام ML.

الطابع الزمني: 29 حزيران، 2022

الطابع الزمني: يوليو 8، 2022

تصنيف النص للمحادثات عبر الإنترنت مع التعلم الآلي على AWS

أعاد نشره أفلاطون

المتطلبات الأساسية المسبقة

بيانات

تضمين الكلمات الفرعية و RNNs

محولات ذات وجه معانق

تقييم أداء النموذج: مجموعة بيانات التحيز غير المقصود من Jigsaw

وفي الختام

حول المؤلف

اكثر من التعلم الآلي من AWS

تضيف Amazon Comprehend Targeted Sentiment دعمًا متزامنًا

قم بإعداد البيانات بشكل أسرع باستخدام مقتطفات التعليمات البرمجية PySpark و Altair في Amazon SageMaker Data Wrangler

أتمتة التنبؤ بالسلسلة الزمنية الخاصة بك في Snowflake باستخدام Amazon Forecast

تصميم الوظائف المعيارية لأنظمة مساعدة السائق المتقدمة (ADAS) على AWS

تقديم ضبط الشهرة للعناصر المتشابهة في Amazon إضفاء الطابع الشخصي | خدمات أمازون ويب

تحويل البحث النوعي عن طريق أتمتة الكلام إلى تحليلات تحويل النص إلى نص

تلخيص النص باستخدام Amazon SageMaker و Hugging Face

على متن الطائرة PaddleOCR مع Amazon SageMaker Projects لـ MLOps لإجراء التعرف البصري على الأحرف في مستندات الهوية

من نحن

البحث العمودي و Ai

الانطلاق

ابق على تواصل

حسابي