Text Classification For Online Conversations With Machine Learning On AWS

הועלה מחדש על ידי אפלטון

עוקב: 0

שיחות מקוונות נמצאות בכל מקום בחיים המודרניים, והן משתרעות על פני תעשיות ממשחקי וידאו ועד טלקומוניקציה. זה הוביל לגידול אקספוננציאלי בכמות נתוני השיחות המקוונות, מה שסייע בפיתוח מערכות עיבוד שפה טבעית (NLP) חדישות כמו צ'אטבוטים ומודלים של יצירת שפה טבעית (NLG). עם הזמן, גם טכניקות NLP שונות לניתוח טקסט התפתחו. זה מחייב את הדרישה לשירות מנוהל במלואו שניתן לשלב באפליקציות באמצעות קריאות API ללא צורך במומחיות נרחבת של למידת מכונה (ML). AWS מציעה שירותי AWS AI מאומנים מראש כמו אמזון להתבונן, שיכול לטפל ביעילות במקרים של שימוש ב-NLP הכוללים סיווג, סיכום טקסט, זיהוי ישויות ועוד כדי לאסוף תובנות מטקסט.

בנוסף, שיחות מקוונות הובילו לתופעה נרחבת של שימוש לא מסורתי בשפה. טכניקות NLP מסורתיות לרוב מתפקדות בצורה גרועה בנתוני טקסט אלה, בשל אוצר המילים המתפתחים כל הזמן והספציפיים לתחום הקיימים בפלטפורמות שונות, כמו גם הסטיות המילוניות המשמעותיות של מילים מאנגלית נכונה, בין אם בטעות או בכוונה, כצורה של התקפה יריבה. .

בפוסט זה, אנו מתארים גישות ML מרובות לסיווג טקסט של שיחות מקוונות עם כלים ושירותים הזמינים ב-AWS.

תנאים מוקדמים

לפני שצולל עמוק לתוך מקרה שימוש זה, אנא השלם את התנאים המוקדמים הבאים:

הגדר חשבון AWS ו ליצור משתמש IAM.
הגדר את AWS CLI ו ערכות SDK של AWS.
(אופציונלי) הגדר את שלך סביבת Cloud9 IDE.

מערך נתונים

לפוסט זה אנו משתמשים ב- Jigsaw Unintendend Bias in Toxicity Classification Database, אמת מידה לבעיה הספציפית של סיווג רעילות בשיחות מקוונות. מערך הנתונים מספק תוויות רעילות וכן מספר תכונות תת-קבוצות כגון מגונה, התקפת זהות, עלבון, איום ומפורש מינית. התוויות מסופקות כערכים שבריריים, המייצגים את השיעור של כותבים אנושיים שהאמינו שהתכונה חלה על קטע טקסט נתון, שלעיתים רחוקות יש פה אחד. כדי ליצור תוויות בינאריות (לדוגמה, רעילות או לא רעילות), מוחל סף של 0.5 על ערכי השבר, והערות בעלות ערכים גבוהים מהסף מטופלות כמחלקה החיובית עבור אותה תווית.

הטמעת מילות משנה ו-RNNs

עבור גישת הדוגמנות הראשונה שלנו, אנו משתמשים בשילוב של הטבעת מילות משנה ורשתות עצביות חוזרות (RNNs) כדי לאמן מודלים לסיווג טקסט. הטבעות של מילות משנה הוצגו על ידי בויאנובסקי וחב'. בשנת 2017 כשיפור על שיטות הטבעה קודמות ברמת המילה. מודלים מסורתיים של Word2Vec דילוג-גרם מאומנים ללמוד ייצוג וקטור סטטי של מילת מטרה המחזה בצורה מיטבית את ההקשר של המילה הזו. מודלים של תת-מלות, לעומת זאת, מייצגים כל מילת יעד כשקית של התו n-grams המרכיבים את המילה, כאשר n-גרם מורכב מקבוצה של n תווים עוקבים. שיטה זו מאפשרת למודל ההטמעה לייצג טוב יותר את המורפולוגיה הבסיסית של מילים קשורות בקורפוס, כמו גם את חישוב ההטמעות של מילים חדשות, מחוץ לאוצר המילים (OOV). זה חשוב במיוחד בהקשר של שיחות מקוונות, מרחב בעייתי שבו משתמשים מרבים לאות מילים בצורה שגויה (לעיתים בכוונה להתחמק מזיהוי) וגם משתמשים באוצר מילים ייחודי, המתפתח כל הזמן, שאולי לא נלכד על ידי קורפוס אימון כללי.

אמזון SageMaker מקל על אימון ואופטימיזציה של מודל הטמעת מילות משנה ללא פיקוח על קורפוס משלך של נתוני טקסט ספציפיים לדומיין עם המובנה אלגוריתם BlazingText. אנו יכולים גם להוריד מודלים קיימים למטרות כלליות שהוכשרו על מערכי נתונים גדולים של טקסט מקוון, כגון הבא דגמים בשפה האנגלית זמינים ישירות מ-fastText. ממופע המחברת של SageMaker, פשוט הפעל את הפעולות הבאות כדי להוריד מודל fastText מאומן מראש:

!wget -O vectors.zip https://dl.fbaipublicfiles.com/fasttext/vectors-english/crawl-300d-2M-subword.zip

בין אם אימנתם את ההטמעות שלכם עם BlazingText או הורדתם מודל מאומן מראש, התוצאה היא מודל בינארי מכווץ שבו תוכלו להשתמש עם ספריית gensim כדי להטמיע מילת יעד נתונה כווקטור על סמך מילות המשנה המרכיבות אותה:

# Imports
import os
from zipfile import ZipFile
from gensim.models.fasttext import load_facebook_vectors # Unzip the model binary into 'dir_path'
with ZipFile('vectors.zip', 'r') as zipObj: zipObj.extractall(path=<dir_path_name>) # Load embedding model into memory
embed_model = load_facebook_vectors(os.path.join(<dir_path_name>, 'vectors.bin')) # Compute embedding vector for 'word'
word_embedding = embed_model[word]

לאחר שנעבד מראש קטע נתון של טקסט, נוכל להשתמש בגישה זו כדי ליצור ייצוג וקטור עבור כל אחת מהמילים המרכיבות (בהפרדה באמצעות רווחים). לאחר מכן אנו משתמשים ב- SageMaker ובמסגרת למידה עמוקה כגון PyTorch כדי לאמן RNN מותאם אישית עם מטרת סיווג בינארי או ריבוי תוויות כדי לחזות אם הטקסט רעיל או לא ואת תת-הסוג הספציפי של רעילות בהתבסס על דוגמאות אימון מסווגות.

כדי להעלות את הטקסט המעובד מראש שלך שירות אחסון פשוט של אמזון (Amazon S3), השתמש בקוד הבא:

import boto3
s3 = boto3.client('s3') bucket = <bucket_name>
prefix = <prefix_name> s3.upload_file('train.pkl', bucket, os.path.join(prefix, 'train/train.pkl'))
s3.upload_file('valid.pkl', bucket, os.path.join(prefix, 'valid/valid.pkl'))
s3.upload_file('test.pkl', bucket, os.path.join(prefix, 'test/test.pkl'))

כדי להתחיל אימון מודלים מדרגיים מרובים GPU עם SageMaker, הזן את הקוד הבא:

import sagemaker
sess = sagemaker.Session()
role = iam.get_role(RoleName= ‘AmazonSageMakerFullAccess’)['Role']['Arn'] from sagemaker.pytorch import PyTorch # hyperparameters, which are passed into the training job
hyperparameters = { 'epochs': 20, # Maximum number of epochs to train model 'train-batch-size': 128, # Training batch size (No. sentences) 'eval-batch-size': 1024, # Evaluation batch size (No. sentences) 'embed-size': 300, # Vector dimension of word embeddings (Must match embedding model) 'lstm-hidden-size': 200, # Number of neurons in LSTM hidden layer 'lstm-num-layers': 2, # Number of stacked LSTM layers 'proj-size': 100, # Number of neurons in intermediate projection layer 'num-targets': len(<list_of_label_names>), # Number of targets for classification 'class-weight': ' '.join([str(c) for c in <list_of_weights_per_class>]), # Weight to apply to each target during training 'total-length':<max_number_of_words_per_sentence>, 'metric-for-best-model': 'ap_score_weighted', # Metric on which to select the best model
} # create the Estimator
pytorch_estimator = PyTorch( entry_point='train.py', source_dir=<source_dir_path>, instance_type=<train_instance_type>, volume_size=200, instance_count=1, role=role, framework_version='1.6.0’, py_version='py36', hyperparameters=hyperparameters, metric_definitions=[ {'Name': 'validation:accuracy', 'Regex': 'eval_accuracy = (.*?);'}, {'Name': 'validation:f1-micro', 'Regex': 'eval_f1_score_micro = (.*?);'}, {'Name': 'validation:f1-macro', 'Regex': 'eval_f1_score_macro = (.*?);'}, {'Name': 'validation:f1-weighted', 'Regex': 'eval_f1_score_weighted = (.*?);'}, {'Name': 'validation:ap-micro', 'Regex': 'eval_ap_score_micro = (.*?);'}, {'Name': 'validation:ap-macro', 'Regex': 'eval_ap_score_macro = (.*?);'}, {'Name': 'validation:ap-weighted', 'Regex': 'eval_ap_score_weighted = (.*?);'}, {'Name': 'validation:auc-micro', 'Regex': 'eval_auc_score_micro = (.*?);'}, {'Name': 'validation:auc-macro', 'Regex': 'eval_auc_score_macro = (.*?);'}, {'Name': 'validation:auc-weighted', 'Regex': 'eval_auc_score_weighted = (.*?);'} ]
) pytorch_estimator.fit( { 'train': 's3://<bucket_name>/<prefix_name>/train', 'valid': 's3://<bucket_name>/<prefix_name>/valid', 'test': 's3://<bucket_name>/<prefix_name>/test' }
)

בתוך , אנו מגדירים ערכת נתונים של PyTorch המשמשת train.py להכין את נתוני הטקסט להדרכה והערכה של המודל:

def pad_matrix(m: torch.Tensor, max_len: int =100)-> tuple[int, torch.Tensor] : """Pads an embedding matrix to a specified maximum length.""" if m.ndim == 1: m = m.reshape(1, -1) mask = np.ones_like(m) if m.shape[0] > max_len: m = m[:max_len, :] mask = mask[:max_len, :] else: m = np.pad(m, ((0, max_len - m.shape[0]), (0,0))) mask = np.pad(mask, ((0, max_len - mask.shape[0]), (0,0))) return m, mask class EmbeddingDataset(Dataset: torch.utils.data.Dataset): """PyTorch dataset representing pretrained sentence embeddings, masks, and labels.""" def __init__(self, text: str, labels: int, max_len: int=100): self.text = text self.labels = labels self.max_len = max_len def __len__(self) -> int: return len(self.labels) def __getitem__(self, idx: int) -> dict: e = embed_line(self.text[idx]) length = e.shape[0] m, mask = pad_matrix(e, max_len=self.max_len) item = {} item['embeddings'] = torch.from_numpy(m) item['mask'] = torch.from_numpy(mask) item['labels'] = torch.tensor(self.labels[idx]) if length > self.max_len: item['lengths'] = torch.tensor(self.max_len) else: item['lengths'] = torch.tensor(length) return item

שימו לב שהקוד הזה צופה שה- vectors.zip קובץ המכיל את ההטמעות של fastText או BlazingText שלך יאוחסן ב .

בנוסף, אתה יכול בקלות לפרוס מודלים מהירים מאומנים מראש בעצמם לנקודות קצה חיות של SageMaker כדי לחשב וקטורים הטבעה תוך כדי שימוש במשימות רלוונטיות ברמת המילה. ראה את הדברים הבאים דוגמה של GitHub לקבלת פרטים נוספים.

רובוטריקים עם פנים מחבקות

עבור גישת הדוגמנות השנייה שלנו, אנו עוברים לשימוש ברובוטריקים, שהוצגו במאמר תשומת הלב היא כל מה שאתה צריך. רובוטריקים הם מודלים של למידה עמוקה שנועדו להימנע בכוונה מהמלכודות של RNNs על ידי הסתמכות על מנגנון תשומת לב עצמית כדי למשוך תלות גלובלית בין קלט ופלט. ארכיטקטורת מודל ה-Transformer מאפשרת הקבלה טובה משמעותית ויכולה להגיע לביצועים גבוהים בזמן אימון קצר יחסית.

נבנה על הצלחת רובוטריקים, BERT, שהוצגה בעיתון BERT: הכשרה מקדימה של רובוטריקים דו כיווניים עמוקים להבנת שפה, הוספה הדרכה דו-כיוונית לייצוג שפה. בהשראת משימת Cloze, BERT עבר הכשרה מוקדמת עם מודלים של שפה מסכת (MLM), שבה המודל לומד לשחזר את המילים המקוריות עבור אסימונים המסויכים באופן אקראי. מודל BERT מאומן מראש גם במשימת חיזוי המשפט הבא (NSP) כדי לחזות אם שני משפטים נמצאים בסדר הקריאה הנכון. מאז הופעתו ב-2018, נעשה שימוש נרחב ב-BERT ובווריאציות שלו במשימות סיווג טקסט.

הפתרון שלנו משתמש בגרסה של BERT הידועה בשם RoBERTa, שהוצגה בעיתון RoBERTa: גישה אופטימיזציה חזקה ל- BERT. RobERTa משפר עוד יותר את ביצועי BERT במגוון משימות שפה טבעית על ידי אימון מודלים אופטימלי, כולל אימון מודלים ארוכים יותר על קורפוס גדול פי 10, שימוש בפרמטרים מותאמים, מיסוך אקראי דינמי, הסרת משימת ה-NSP ועוד.

המודלים שלנו מבוססי RobERTa משתמשים ב- מחבקים רובוטריקים לפנים library, שהיא מסגרת Python פופולרית בקוד פתוח המספקת יישומים באיכות גבוהה של כל מיני דגמי Transformer מתקדמים עבור מגוון משימות NLP. Hugging Face שיתף פעולה עם AWS כדי לאפשר לך לאמן ולפרוס בקלות דגמי Transformer ב- SageMaker. פונקציונליות זו זמינה דרך חיבוק פנים AWS Deep Learning Container תמונות, הכוללות את ספריות הרובוטריקים, הטוקנייזרים ומערכים הנתונים, ושילוב אופטימלי עם SageMaker להדרכה והסקת מודלים.

בהטמעה שלנו, אנו יורשים את עמוד השדרה של ארכיטקטורת RoBERTa מהמסגרת של Hugging Face Transformers ומשתמשים ב-SageMaker כדי לאמן ולפרוס מודל סיווג טקסט משלנו, אותו אנו מכנים RoBERTox. רוברטוקס משתמש בקידוד זוג בתים (BPE), שהוצג ב תרגום מכונה עצבית של מילים נדירות עם יחידות משנה, כדי לסמן טקסט קלט לייצוגי מילות משנה. לאחר מכן נוכל לאמן את המודלים והאסימונים שלנו על נתוני Jigsaw או כל קורפוס גדול ספציפי לדומיין (כגון יומני הצ'אט ממשחק ספציפי) ולהשתמש בהם לסיווג טקסט מותאם אישית. אנו מגדירים את מחלקת מודל הסיווג המותאם אישית שלנו בקוד הבא:

class RoBERToxForSequenceClassification(CustomLossMixIn, RobertaPreTrainedModel): _keys_to_ignore_on_load_missing = [r"position_ids"] def __init__(self, config: PretrainedConfig, *inputs, **kwargs): """Initialize the RoBERToxForSequenceClassification instance Parameters ---------- config : PretrainedConfig num_labels : Optional[int] if not None, overwrite the default classification head in pretrained model. mode : Optional[str] 'MULTI_CLASS', 'MULTI_LABEL' or "REGRESSION". Used to determine loss class_weight : Optional[List[float]] If not None, add class weight to BCEWithLogitsLoss or CrossEntropyLoss """ super().__init__(config, *inputs, **kwargs) # Define model architecture self.roberta = RobertaModel(self.config, add_pooling_layer=False) self.classifier = RobertaClassificationHead(self.config) self.init_weights() @modeling_roberta.add_start_docstrings_to_model_forward( modeling_roberta.ROBERTA_INPUTS_DOCSTRING.format("batch_size, sequence_length") ) @modeling_roberta.add_code_sample_docstrings( tokenizer_class=modeling_roberta._TOKENIZER_FOR_DOC, checkpoint=modeling_roberta._CHECKPOINT_FOR_DOC, output_type=SequenceClassifierOutput, config_class=modeling_roberta._CONFIG_FOR_DOC, ) def forward( self, input_ids: torch.Tensor = None, attention_mask: torch.Tensor = None, token_type_ids: torch.Tensor = None, position_ids: torch.Tensor =None, head_mask: torch.Tensor =None, inputs_embeds: torch.Tensor =None, labels: torch.Tensor =None, output_attentions: torch.Tensor =None, output_hidden_states: torch.Tensor =None, return_dict: bool =None, sample_weights: torch.Tensor =None, ) -> : dict: """Forward pass to return loss, logits, ... Returns -------- output : SequenceClassifierOutput has those keys: loss, logits, hidden states, attentions """ return_dict = return_dict or self.config.use_return_dict outputs = self.roberta( input_ids, attention_mask=attention_mask, token_type_ids=token_type_ids, position_ids=position_ids, head_mask=head_mask, inputs_embeds=inputs_embeds, output_attentions=output_attentions, output_hidden_states=output_hidden_states, return_dict=return_dict, ) sequence_output = outputs[0] # [CLS] embedding logits = self.classifier(sequence_output) loss = self.compute_loss(logits, labels, sample_weights=sample_weights) if not return_dict: output = (logits,) + outputs[2:] return ((loss,) + output) if loss is not None else output return SequenceClassifierOutput( loss=loss, logits=logits, hidden_states=outputs.hidden_states, attentions=outputs.attentions, ) def compute_loss(self, logits: torch.Tensor, labels: torch.Tensor, sample_weights: Optional[torch.Tensor] = None) -> torch.FloatTensor: return super().compute_loss(logits, labels, sample_weights)

לפני האימון, אנו מכינים את נתוני הטקסט והתוויות שלנו באמצעות ספריית מערכי הנתונים של Hugging Face ומעלים את התוצאה לאמזון S3:

from datasets import Dataset
import multiprocessing data_train = Dataset.from_pandas(df_train)
… tokenizer = <instantiated_huggingface_tokenizer> def preprocess_function(examples: examples) -> torch.Tensor: result = tokenizer(examples["text"], padding="max_length", max_length=128, truncation=True) return result num_proc = multiprocessing.cpu_count()
print("Number of CPUs =", num_proc) data_train = data_train.map( preprocess_function, batched=True, load_from_cache_file=False, num_proc=num_proc
)
… import botocore
from datasets.filesystems import S3FileSystem s3_session = botocore.session.Session() # create S3FileSystem instance with s3_session
s3 = S3FileSystem(session=s3_session) # saves encoded_dataset to your s3 bucket
data_train.save_to_disk(f's3://<bucket_name>/<prefix_name>/train', fs=s3)
…

אנו יוזמים הכשרה של הדגם באופן דומה ל-RNN:

import sagemaker
sess = sagemaker.Session()
role = sagemaker.get_execution_role()
from sagemaker.huggingface import HuggingFace # hyperparameters, which are passed into the training job
hyperparameters = { 'model-name': <huggingface_base_model_name>, 'epochs': 10, 'train-batch-size': 32, 'eval-batch-size': 64, 'num-labels': len(<list_of_label_names>), 'class-weight': ' '.join([str(c) for c in <list_of_class_weights>]), 'metric-for-best-model': 'ap_score_weighted', 'save-total-limit': 1,
} # create the Estimator
huggingface_estimator = HuggingFace( entry_point='train.py', source_dir=<source_dir_path>, instance_type=<train_instance_type>, instance_count=1, role=role, transformers_version='4.6.1', pytorch_version='1.7.1', py_version='py36', hyperparameters=hyperparameters, metric_definitions=[ {'Name': 'validation:accuracy', 'Regex': 'eval_accuracy = (.*?);'}, {'Name': 'validation:f1-micro', 'Regex': 'eval_f1_score_micro = (.*?);'}, {'Name': 'validation:f1-macro', 'Regex': 'eval_f1_score_macro = (.*?);'}, {'Name': 'validation:f1-weighted', 'Regex': 'eval_f1_score_weighted = (.*?);'}, {'Name': 'validation:ap-micro', 'Regex': 'eval_ap_score_micro = (.*?);'}, {'Name': 'validation:ap-macro', 'Regex': 'eval_ap_score_macro = (.*?);'}, {'Name': 'validation:ap-weighted', 'Regex': 'eval_ap_score_weighted = (.*?);'}, {'Name': 'validation:auc-micro', 'Regex': 'eval_auc_score_micro = (.*?);'}, {'Name': 'validation:auc-macro', 'Regex': 'eval_auc_score_macro = (.*?);'}, {'Name': 'validation:auc-weighted', 'Regex': 'eval_auc_score_weighted = (.*?);'} ]
) huggingface_estimator.fit( { 'train': 's3://<bucket_name>/<prefix_name>/train', 'valid': 's3://<bucket_name>/<prefix_name>/valid', 'test': 's3://<bucket_name>/<prefix_name>/test'
)

לבסוף, קטע הקוד הבא של Python ממחיש את התהליך של הגשת RobERTox באמצעות נקודת קצה חיה של SageMaker לסיווג טקסט בזמן אמת עבור בקשת JSON:

from sagemaker.huggingface import HuggingFaceModel
from sagemaker import get_execution_role
from sagemaker.predictor import Predictor
from sagemaker.serializers import JSONSerializer
from sagemaker.deserializers import JSONDeserializer class Classifier(Predictor): def __init__(self, endpoint_name, sagemaker_session): super().__init__(endpoint_name, sagemaker_session, serializer=JSONSerializer(), deserializer=JSONDeserializer()) hf_model = HuggingFaceModel( role=get_execution_role(), model_data=<s3_model_and_tokenizer.tar.gz>, entry_point="inference.py", transformers_version="4.6.1", pytorch_version="1.7.1", py_version="py36", predictor_cls=Classifier
) predictor = hf_model.deploy(instance_type=<deploy_instance_type>, initial_instance_count=1)

הערכת ביצועי המודל: מערך נתונים של הטיה לא מכוונת בפאזל

הטבלה הבאה מכילה מדדי ביצועים עבור מודלים שהוכשרו והוערכו על פי נתונים מתחרות Jigsaw Unintended Bias in Toxicity Detection Kaggle. הכשרנו מודלים לשלוש משימות שונות אך קשורות זו בזו:

מקרה בינארי - המודל הוכשר על מערך ההדרכה המלא כדי לחזות את toxicity תווית בלבד
מארז עדין – קבוצת המשנה של נתוני האימון שעבורה toxicity>=0.5 שימש לניבוי תוויות תת-סוגי רעילות אחרות (obscene, threat, insult, identity_attack, sexual_explicit)
מארז ריבוי משימות - מערך ההדרכה המלא שימש לניבוי כל שש התוויות בו זמנית

הכשרנו מודלים של RNN ו-RoBERTa עבור כל אחת משלוש המשימות הללו באמצעות התוויות השבריות שסופקו ב-Jigsaw, התואמות לשיעור הכותבים שחשבו שהתווית מתאימה לטקסט, וכן עם תוויות בינאריות בשילוב עם משקלי מחלקות ברשת. פונקציית אובדן. בסכימת התיוג הבינארי, הפרופורציות הוגדרו ל-0.5 עבור כל תווית זמינה (1 אם תווית>=0.5, 0 אחרת), ופונקציות אובדן המודל שוקללו על סמך הפרופורציות היחסיות של כל תווית בינארית במערך האימון. בכל המקרים, מצאנו ששימוש בתוויות השבריות הביא ישירות לביצועים הטובים ביותר, המצביעים על הערך המוסף של המידע הגלום במידת ההסכמה בין הכותבים.

אנו מציגים שני מדדי מודל: הדיוק הממוצע (AP), המספק סיכום של עקומת הדיוק-ריקול על ידי חישוב הממוצע המשוקלל של ערכי הדיוק שהושגו בכל סף סיווג, והשטח מתחת לעקומת המאפיין ההפעלה של המקלט (AUC) , שמצברת את ביצועי המודל על פני ספי סיווג ביחס לשיעור החיובי האמיתי ולשיעור חיובי שגוי. שימו לב שהמחלקה האמיתית עבור מופע טקסט נתון בערכת הבדיקה תואמת אם הפרופורציה האמיתית גדולה או שווה ל-0.5 (1 אם תווית>=0.5, 0 אחרת).

.	הטמעת מילת משנה + RNN	רוברטה
.	תוויות שברים	תוויות בינאריות + שקלול מחלקות	תוויות שברים	תוויות בינאריות + שקלול מחלקות
בינרי	AP=0.746, AUC=0.966	AP=0.730, AUC=0.963	AP=0.758, AUC=0.966	AP=0.747, AUC=0.963
עדין	AP=0.906, AUC=0.909	AP=0.850, AUC=0.851	AP=0.913, AUC=0.913	AP=0.911, AUC=0.912
ריבוי משימות	AP=0.721, AUC=0.972	AP=0.535, AUC=0.907	AP=0.740, AUC=0.972	AP=0.711, AUC=0.961

סיכום

בפוסט זה הצגנו שתי גישות סיווג טקסט לשיחות מקוונות באמצעות שירותי AWS ML. אתה יכול להכליל את הפתרונות הללו על פני פלטפורמות תקשורת מקוונות, כאשר תעשיות כמו גיימינג צפויות במיוחד להפיק תועלת מהיכולת המשופרת לזהות תוכן מזיק. בפוסטים עתידיים, אנו מתכננים להמשיך לדון בארכיטקטורה מקצה לקצה לפריסה חלקה של מודלים בחשבון AWS שלך.

אם תרצה עזרה בהאצת השימוש שלך ב- ML במוצרים ובתהליכים שלך, אנא צור קשר עם מעבדת פתרונות אמזון ML.

על הכותבים

סיווג טקסט לשיחות מקוונות עם למידת מכונה ב-AWS PlatoBlockchain Data Intelligence. חיפוש אנכי. איי. ריאן ברנד הוא מדען נתונים במעבדת פתרונות למידת מכונה של אמזון. יש לו ניסיון ספציפי ביישום למידת מכונה לבעיות בתחום הבריאות ומדעי החיים, ובזמנו הפנוי הוא נהנה לקרוא היסטוריה ומדע בדיוני.

סורב בהבש הוא מדען נתונים במעבדת פתרונות ML של אמזון. הוא מפתח פתרונות AI/ML עבור לקוחות AWS בתעשיות שונות. ההתמחות שלו היא עיבוד שפה טבעית (NLP) והוא נלהב מלמידה עמוקה. מחוץ לעבודה הוא נהנה לקרוא ספרים ולטייל.

ליוטונג ג'ואו הוא מדען יישומי במעבדת פתרונות ML של אמזון. הוא בונה פתרונות AI/ML בהתאמה אישית עבור לקוחות AWS בתעשיות שונות. הוא מתמחה בעיבוד שפה טבעית (NLP) ונלהב מלמידה עמוקה רב-מודאלית. הוא טנור לירי ונהנה לשיר אופרות מחוץ לעבודה.

סיה גולמי הוא מדען נתונים בכיר במעבדת אמזון ML Solutions, שם הוא בונה פתרונות AI/ML עבור לקוחות בתעשיות שונות. הוא נלהב מעיבוד שפה טבעית (NLP) ולמידה עמוקה. מחוץ לעבודה, סיה נהנית לבלות בטבע ולשחק טניס.

דניאל הורוביץ הוא מנהל מדעי AI יישומי. הוא מוביל צוות של מדענים במעבדת פתרונות ML של אמזון הפועלים לפתרון בעיות של לקוחות ולהניע את אימוץ הענן עם ML.

בול זמן: יוני 29, 2022

בול זמן: יולי 8, 2022

סיווג טקסט לשיחות מקוונות עם למידת מכונה ב-AWS

הועלה מחדש על ידי אפלטון

תנאים מוקדמים

מערך נתונים

הטמעת מילות משנה ו-RNNs

רובוטריקים עם פנים מחבקות

הערכת ביצועי המודל: מערך נתונים של הטיה לא מכוונת בפאזל

סיכום

על הכותבים

עוד מ למידת מכונות AWS

Amazon Comprehend Targeted Sentiment מוסיפה תמיכה סינכרונית

הכן נתונים מהר יותר עם קטעי קוד של PySpark ו-Altair ב-Amazon SageMaker Data Wrangler

אוטומציה של חיזוי סדרות הזמן שלך ב- Snowflake באמצעות Amazon Forecast

עיצוב פונקציות מודולריות עבור מערכות סיוע לנהג מתקדמות (ADAS) ב-AWS

הצגת כוונון פופולריות עבור פריטים דומים באמזון התאמה אישית | שירותי האינטרנט של אמזון

שינוי מחקר איכותני על ידי אוטומציה של דיבור לניתוח טקסט לטקסט

סיכום טקסט עם Amazon SageMaker ו-Huging Face

PaddleOCR מובנה עם Amazon SageMaker Projects עבור MLOps לביצוע זיהוי תווים אופטי במסמכי זהות

אודות

חיפוש אנכי ו- Ai

פלטפורמה

שמור על קשר

חֶשְׁבּוֹן