Klasyfikacja tekstu do rozmów online z uczeniem maszynowym w AWS

Opublikowane ponownie przez Plato

Obserwuje: 0

Rozmowy online są wszechobecne we współczesnym życiu, obejmując branże od gier wideo po telekomunikację. Doprowadziło to do wykładniczego wzrostu ilości danych dotyczących rozmów online, co pomogło w opracowaniu najnowocześniejszych systemów przetwarzania języka naturalnego (NLP), takich jak chatboty i modele generowania języka naturalnego (NLG). Z biegiem czasu ewoluowały również różne techniki NLP do analizy tekstu. Wymaga to posiadania w pełni zarządzanej usługi, którą można zintegrować z aplikacjami za pomocą wywołań interfejsu API bez konieczności posiadania rozległej wiedzy na temat uczenia maszynowego (ML). AWS oferuje przeszkolone usługi AWS AI, takie jak Amazon Comprehend, który może skutecznie obsługiwać przypadki użycia NLP obejmujące klasyfikację, podsumowywanie tekstu, rozpoznawanie jednostek i nie tylko, aby uzyskać szczegółowe informacje z tekstu.

Ponadto rozmowy online doprowadziły do rozpowszechnionego zjawiska nietradycyjnego używania języka. Tradycyjne techniki NLP często słabo radzą sobie z tymi danymi tekstowymi ze względu na stale ewoluujące i specyficzne dla domeny słownictwo, które istnieją na różnych platformach, a także znaczne odchylenia leksykalne słów od poprawnego języka angielskiego, przypadkowo lub celowo jako forma ataku przeciwnika .

W tym poście opisujemy wiele podejść ML do klasyfikacji tekstu rozmów online za pomocą narzędzi i usług dostępnych w AWS.

Wymagania wstępne

Zanim zagłębisz się w ten przypadek użycia, spełnij następujące wymagania wstępne:

Skonfiguruj Konto AWS i utworzyć użytkownika uprawnień.
Skonfiguruj AWS CLI . i Pakiety SDK AWS.
(Opcjonalnie) Skonfiguruj swój Środowisko Cloud9 IDE.

Dataset

Do tego postu używamy Jigsaw niezamierzone odchylenie w zbiorze danych klasyfikacji toksyczności, wzorzec dla specyficznego problemu klasyfikacji toksyczności w rozmowach online. Zestaw danych zawiera etykiety toksyczności, a także kilka atrybutów podgrup, takich jak nieprzyzwoitość, atak na tożsamość, zniewaga, groźba i jawność seksualna. Etykiety są podawane jako wartości ułamkowe, które reprezentują odsetek ludzkich adnotatorów, którzy uwierzyli, że atrybut został zastosowany do danego fragmentu tekstu, co rzadko jest jednomyślne. Aby wygenerować etykiety binarne (na przykład toksyczne lub nietoksyczne), do wartości ułamkowych stosowany jest próg 0.5, a komentarze z wartościami większymi niż próg są traktowane jako klasa pozytywna dla tej etykiety.

Umieszczanie podsłów i RNN

W naszym pierwszym podejściu do modelowania używamy kombinacji osadzania podsłów i rekurencyjnych sieci neuronowych (RNN) do uczenia modeli klasyfikacji tekstu. Osadzanie podsłów zostało wprowadzone przez Bojanowski i in. w 2017 jako ulepszenie poprzednich metod osadzania na poziomie słowa. Tradycyjne modele przeskoków Word2Vec są wytrenowane w celu uczenia się statycznej reprezentacji wektorowej słowa docelowego, które optymalnie przewiduje kontekst tego słowa. Z drugiej strony modele podsłów przedstawiają każde słowo docelowe jako worek n-gramów znaków, które składają się na słowo, gdzie n-gram składa się z zestawu n kolejnych znaków. Ta metoda pozwala modelowi osadzania lepiej reprezentować podstawową morfologię słów pokrewnych w korpusie, a także obliczanie osadzeń dla nowych słów spoza słownika (OOV). Jest to szczególnie ważne w kontekście rozmów online, przestrzeni problemowej, w której użytkownicy często błędnie zapisują słowa (czasem celowo, aby uniknąć wykrycia), a także używają unikalnego, stale ewoluującego słownictwa, które może nie zostać uchwycone przez ogólny korpus szkoleniowy.

Amazon Sage Maker ułatwia trenowanie i optymalizację nienadzorowanego modelu osadzania podwyrazów na własnym korpusie danych tekstowych specyficznych dla domeny z wbudowanym Algorytm BlazingText. Możemy również pobrać istniejące modele ogólnego przeznaczenia wytrenowane na dużych zbiorach danych tekstu online, takie jak: Modele w języku angielskim dostępne bezpośrednio z fastText. Z instancji notatnika SageMaker po prostu uruchom następujące polecenie, aby pobrać wstępnie wytrenowany model fastText:

!wget -O vectors.zip https://dl.fbaipublicfiles.com/fasttext/vectors-english/crawl-300d-2M-subword.zip

Niezależnie od tego, czy wyszkoliłeś własne osadzania za pomocą BlazingText, czy pobrałeś wstępnie wytrenowany model, wynikiem jest spakowany plik binarny modelu, którego możesz użyć z biblioteką gensim, aby osadzić dane słowo docelowe jako wektor na podstawie jego składowych podsłów:

# Imports
import os
from zipfile import ZipFile
from gensim.models.fasttext import load_facebook_vectors # Unzip the model binary into 'dir_path'
with ZipFile('vectors.zip', 'r') as zipObj: zipObj.extractall(path=<dir_path_name>) # Load embedding model into memory
embed_model = load_facebook_vectors(os.path.join(<dir_path_name>, 'vectors.bin')) # Compute embedding vector for 'word'
word_embedding = embed_model[word]

Po wstępnym przetworzeniu danego segmentu tekstu możemy użyć tego podejścia do wygenerowania reprezentacji wektorowej dla każdego ze słów składowych (oddzielonej spacjami). Następnie wykorzystujemy SageMaker i platformę głębokiego uczenia, taką jak PyTorch, do trenowania dostosowanej RNN z binarnym lub wieloetykietowym celem klasyfikacji, aby przewidzieć, czy tekst jest toksyczny, czy nie, oraz konkretny podtyp toksyczności na podstawie oznaczonych przykładów szkoleniowych.

Aby przesłać wstępnie przetworzony tekst do Usługa Amazon Simple Storage (Amazon S3), użyj następującego kodu:

import boto3
s3 = boto3.client('s3') bucket = <bucket_name>
prefix = <prefix_name> s3.upload_file('train.pkl', bucket, os.path.join(prefix, 'train/train.pkl'))
s3.upload_file('valid.pkl', bucket, os.path.join(prefix, 'valid/valid.pkl'))
s3.upload_file('test.pkl', bucket, os.path.join(prefix, 'test/test.pkl'))

Aby zainicjować skalowalne, wieloprocesorowe uczenie modeli za pomocą programu SageMaker, wprowadź następujący kod:

import sagemaker
sess = sagemaker.Session()
role = iam.get_role(RoleName= ‘AmazonSageMakerFullAccess’)['Role']['Arn'] from sagemaker.pytorch import PyTorch # hyperparameters, which are passed into the training job
hyperparameters = { 'epochs': 20, # Maximum number of epochs to train model 'train-batch-size': 128, # Training batch size (No. sentences) 'eval-batch-size': 1024, # Evaluation batch size (No. sentences) 'embed-size': 300, # Vector dimension of word embeddings (Must match embedding model) 'lstm-hidden-size': 200, # Number of neurons in LSTM hidden layer 'lstm-num-layers': 2, # Number of stacked LSTM layers 'proj-size': 100, # Number of neurons in intermediate projection layer 'num-targets': len(<list_of_label_names>), # Number of targets for classification 'class-weight': ' '.join([str(c) for c in <list_of_weights_per_class>]), # Weight to apply to each target during training 'total-length':<max_number_of_words_per_sentence>, 'metric-for-best-model': 'ap_score_weighted', # Metric on which to select the best model
} # create the Estimator
pytorch_estimator = PyTorch( entry_point='train.py', source_dir=<source_dir_path>, instance_type=<train_instance_type>, volume_size=200, instance_count=1, role=role, framework_version='1.6.0’, py_version='py36', hyperparameters=hyperparameters, metric_definitions=[ {'Name': 'validation:accuracy', 'Regex': 'eval_accuracy = (.*?);'}, {'Name': 'validation:f1-micro', 'Regex': 'eval_f1_score_micro = (.*?);'}, {'Name': 'validation:f1-macro', 'Regex': 'eval_f1_score_macro = (.*?);'}, {'Name': 'validation:f1-weighted', 'Regex': 'eval_f1_score_weighted = (.*?);'}, {'Name': 'validation:ap-micro', 'Regex': 'eval_ap_score_micro = (.*?);'}, {'Name': 'validation:ap-macro', 'Regex': 'eval_ap_score_macro = (.*?);'}, {'Name': 'validation:ap-weighted', 'Regex': 'eval_ap_score_weighted = (.*?);'}, {'Name': 'validation:auc-micro', 'Regex': 'eval_auc_score_micro = (.*?);'}, {'Name': 'validation:auc-macro', 'Regex': 'eval_auc_score_macro = (.*?);'}, {'Name': 'validation:auc-weighted', 'Regex': 'eval_auc_score_weighted = (.*?);'} ]
) pytorch_estimator.fit( { 'train': 's3://<bucket_name>/<prefix_name>/train', 'valid': 's3://<bucket_name>/<prefix_name>/valid', 'test': 's3://<bucket_name>/<prefix_name>/test' }
)

W ciągu , definiujemy zestaw danych PyTorch, który jest używany przez train.py przygotowanie danych tekstowych do treningu i oceny modelu:

def pad_matrix(m: torch.Tensor, max_len: int =100)-> tuple[int, torch.Tensor] : """Pads an embedding matrix to a specified maximum length.""" if m.ndim == 1: m = m.reshape(1, -1) mask = np.ones_like(m) if m.shape[0] > max_len: m = m[:max_len, :] mask = mask[:max_len, :] else: m = np.pad(m, ((0, max_len - m.shape[0]), (0,0))) mask = np.pad(mask, ((0, max_len - mask.shape[0]), (0,0))) return m, mask class EmbeddingDataset(Dataset: torch.utils.data.Dataset): """PyTorch dataset representing pretrained sentence embeddings, masks, and labels.""" def __init__(self, text: str, labels: int, max_len: int=100): self.text = text self.labels = labels self.max_len = max_len def __len__(self) -> int: return len(self.labels) def __getitem__(self, idx: int) -> dict: e = embed_line(self.text[idx]) length = e.shape[0] m, mask = pad_matrix(e, max_len=self.max_len) item = {} item['embeddings'] = torch.from_numpy(m) item['mask'] = torch.from_numpy(mask) item['labels'] = torch.tensor(self.labels[idx]) if length > self.max_len: item['lengths'] = torch.tensor(self.max_len) else: item['lengths'] = torch.tensor(length) return item

Zauważ, że ten kod przewiduje, że vectors.zip plik zawierający osadzenia fastText lub BlazingText będzie przechowywany w .

Dodatkowo można łatwo wdrożyć wstępnie wytrenowane modele fastText na punktach końcowych programu SageMaker na żywo, aby na bieżąco obliczać wektory osadzania do wykorzystania w odpowiednich zadaniach na poziomie słów. Zobacz następujące Przykład GitHub by uzyskać więcej szczegółów.

Transformatory z przytuloną twarzą

W naszym drugim podejściu do modelowania przechodzimy do wykorzystania transformatorów, przedstawionych w artykule Uwaga jest wszystkim, czego potrzebujesz. Transformatory to modele uczenia głębokiego zaprojektowane w celu celowego unikania pułapek RNN, polegając na mechanizmie samouważności, który rysuje globalne zależności między wejściem a wyjściem. Architektura modelu Transformer pozwala na znacznie lepszą równoległość i może osiągnąć wysoką wydajność w stosunkowo krótkim czasie uczenia.

Zbudowany na sukcesie firmy Transformers, BERT, wprowadzonej w gazecie BERT: Wstępne szkolenie z głębokich transformatorów dwukierunkowych do zrozumienia języka, dodano dwukierunkowe szkolenie wstępne dotyczące reprezentacji języka. Zainspirowany zadaniem Cloze, BERT jest wstępnie przeszkolony w zakresie modelowania języka maskowanego (MLM), w którym model uczy się odzyskiwać oryginalne słowa dla losowo zamaskowanych tokenów. Model BERT jest również wstępnie wytrenowany w zadaniu przewidywania następnego zdania (NSP), aby przewidzieć, czy dwa zdania są w prawidłowej kolejności czytania. Od czasu pojawienia się w 2018 r. BERT i jego odmiany są szeroko stosowane w zadaniach klasyfikacji tekstu.

Nasze rozwiązanie wykorzystuje wariant BERT znany jako RoBERTa, który został przedstawiony w artykule RoBERTa: Solidnie zoptymalizowane podejście BERT do szkolenia wstępnego. RoBERTa dodatkowo poprawia wydajność BERT w różnych zadaniach języka naturalnego poprzez zoptymalizowane uczenie modeli, w tym uczenie modeli dłuższych na 10 razy większym korpusie, przy użyciu zoptymalizowanych hiperparametrów, dynamicznego losowego maskowania, usuwania zadania NSP i innych.

Nasze modele oparte na RoBERTA wykorzystują Przytulanie transformatorów twarzy biblioteka, która jest popularnym frameworkiem Pythona o otwartym kodzie źródłowym, który zapewnia wysokiej jakości implementacje wszelkiego rodzaju najnowocześniejszych modeli Transformera dla różnych zadań NLP. Hugging Face nawiązał współpracę z AWS aby umożliwić łatwe trenowanie i wdrażanie modeli Transformer w SageMaker. Ta funkcjonalność jest dostępna przez Przytulanie twarzy AWS Deep Learning Container obrazy, które obejmują biblioteki Transformers, Tokenizers i Datasets oraz zoptymalizowaną integrację z programem SageMaker na potrzeby uczenia modeli i wnioskowania.

W naszej implementacji dziedziczymy szkielet architektury RoBERTA z frameworka Hugging Face Transformers i używamy SageMaker do trenowania i wdrażania własnego modelu klasyfikacji tekstu, który nazywamy RoBERTox. RoBERTox wykorzystuje kodowanie pary bajtów (BPE), wprowadzone w Neuronowe tłumaczenie maszynowe rzadkich słów z jednostkami podsłów, aby podzielić tekst wejściowy na reprezentacje słów podrzędnych. Następnie możemy trenować nasze modele i tokenizatory na danych Jigsaw lub dowolnym dużym korpusie specyficznym dla domeny (takim jak logi czatu z określonej gry) i używać ich do niestandardowej klasyfikacji tekstu. Definiujemy naszą niestandardową klasę modelu klasyfikacji w następującym kodzie:

class RoBERToxForSequenceClassification(CustomLossMixIn, RobertaPreTrainedModel): _keys_to_ignore_on_load_missing = [r"position_ids"] def __init__(self, config: PretrainedConfig, *inputs, **kwargs): """Initialize the RoBERToxForSequenceClassification instance Parameters ---------- config : PretrainedConfig num_labels : Optional[int] if not None, overwrite the default classification head in pretrained model. mode : Optional[str] 'MULTI_CLASS', 'MULTI_LABEL' or "REGRESSION". Used to determine loss class_weight : Optional[List[float]] If not None, add class weight to BCEWithLogitsLoss or CrossEntropyLoss """ super().__init__(config, *inputs, **kwargs) # Define model architecture self.roberta = RobertaModel(self.config, add_pooling_layer=False) self.classifier = RobertaClassificationHead(self.config) self.init_weights() @modeling_roberta.add_start_docstrings_to_model_forward( modeling_roberta.ROBERTA_INPUTS_DOCSTRING.format("batch_size, sequence_length") ) @modeling_roberta.add_code_sample_docstrings( tokenizer_class=modeling_roberta._TOKENIZER_FOR_DOC, checkpoint=modeling_roberta._CHECKPOINT_FOR_DOC, output_type=SequenceClassifierOutput, config_class=modeling_roberta._CONFIG_FOR_DOC, ) def forward( self, input_ids: torch.Tensor = None, attention_mask: torch.Tensor = None, token_type_ids: torch.Tensor = None, position_ids: torch.Tensor =None, head_mask: torch.Tensor =None, inputs_embeds: torch.Tensor =None, labels: torch.Tensor =None, output_attentions: torch.Tensor =None, output_hidden_states: torch.Tensor =None, return_dict: bool =None, sample_weights: torch.Tensor =None, ) -> : dict: """Forward pass to return loss, logits, ... Returns -------- output : SequenceClassifierOutput has those keys: loss, logits, hidden states, attentions """ return_dict = return_dict or self.config.use_return_dict outputs = self.roberta( input_ids, attention_mask=attention_mask, token_type_ids=token_type_ids, position_ids=position_ids, head_mask=head_mask, inputs_embeds=inputs_embeds, output_attentions=output_attentions, output_hidden_states=output_hidden_states, return_dict=return_dict, ) sequence_output = outputs[0] # [CLS] embedding logits = self.classifier(sequence_output) loss = self.compute_loss(logits, labels, sample_weights=sample_weights) if not return_dict: output = (logits,) + outputs[2:] return ((loss,) + output) if loss is not None else output return SequenceClassifierOutput( loss=loss, logits=logits, hidden_states=outputs.hidden_states, attentions=outputs.attentions, ) def compute_loss(self, logits: torch.Tensor, labels: torch.Tensor, sample_weights: Optional[torch.Tensor] = None) -> torch.FloatTensor: return super().compute_loss(logits, labels, sample_weights)

Przed szkoleniem przygotowujemy nasze dane tekstowe i etykiety za pomocą biblioteki zestawów danych Hugging Face i przesyłamy wynik do Amazon S3:

from datasets import Dataset
import multiprocessing data_train = Dataset.from_pandas(df_train)
… tokenizer = <instantiated_huggingface_tokenizer> def preprocess_function(examples: examples) -> torch.Tensor: result = tokenizer(examples["text"], padding="max_length", max_length=128, truncation=True) return result num_proc = multiprocessing.cpu_count()
print("Number of CPUs =", num_proc) data_train = data_train.map( preprocess_function, batched=True, load_from_cache_file=False, num_proc=num_proc
)
… import botocore
from datasets.filesystems import S3FileSystem s3_session = botocore.session.Session() # create S3FileSystem instance with s3_session
s3 = S3FileSystem(session=s3_session) # saves encoded_dataset to your s3 bucket
data_train.save_to_disk(f's3://<bucket_name>/<prefix_name>/train', fs=s3)
…

Inicjujemy szkolenie modelu w podobny sposób jak RNN:

import sagemaker
sess = sagemaker.Session()
role = sagemaker.get_execution_role()
from sagemaker.huggingface import HuggingFace # hyperparameters, which are passed into the training job
hyperparameters = { 'model-name': <huggingface_base_model_name>, 'epochs': 10, 'train-batch-size': 32, 'eval-batch-size': 64, 'num-labels': len(<list_of_label_names>), 'class-weight': ' '.join([str(c) for c in <list_of_class_weights>]), 'metric-for-best-model': 'ap_score_weighted', 'save-total-limit': 1,
} # create the Estimator
huggingface_estimator = HuggingFace( entry_point='train.py', source_dir=<source_dir_path>, instance_type=<train_instance_type>, instance_count=1, role=role, transformers_version='4.6.1', pytorch_version='1.7.1', py_version='py36', hyperparameters=hyperparameters, metric_definitions=[ {'Name': 'validation:accuracy', 'Regex': 'eval_accuracy = (.*?);'}, {'Name': 'validation:f1-micro', 'Regex': 'eval_f1_score_micro = (.*?);'}, {'Name': 'validation:f1-macro', 'Regex': 'eval_f1_score_macro = (.*?);'}, {'Name': 'validation:f1-weighted', 'Regex': 'eval_f1_score_weighted = (.*?);'}, {'Name': 'validation:ap-micro', 'Regex': 'eval_ap_score_micro = (.*?);'}, {'Name': 'validation:ap-macro', 'Regex': 'eval_ap_score_macro = (.*?);'}, {'Name': 'validation:ap-weighted', 'Regex': 'eval_ap_score_weighted = (.*?);'}, {'Name': 'validation:auc-micro', 'Regex': 'eval_auc_score_micro = (.*?);'}, {'Name': 'validation:auc-macro', 'Regex': 'eval_auc_score_macro = (.*?);'}, {'Name': 'validation:auc-weighted', 'Regex': 'eval_auc_score_weighted = (.*?);'} ]
) huggingface_estimator.fit( { 'train': 's3://<bucket_name>/<prefix_name>/train', 'valid': 's3://<bucket_name>/<prefix_name>/valid', 'test': 's3://<bucket_name>/<prefix_name>/test'
)

Na koniec poniższy fragment kodu Pythona ilustruje proces obsługi RoBERTox za pośrednictwem działającego punktu końcowego SageMaker do klasyfikacji tekstu w czasie rzeczywistym dla żądania JSON:

from sagemaker.huggingface import HuggingFaceModel
from sagemaker import get_execution_role
from sagemaker.predictor import Predictor
from sagemaker.serializers import JSONSerializer
from sagemaker.deserializers import JSONDeserializer class Classifier(Predictor): def __init__(self, endpoint_name, sagemaker_session): super().__init__(endpoint_name, sagemaker_session, serializer=JSONSerializer(), deserializer=JSONDeserializer()) hf_model = HuggingFaceModel( role=get_execution_role(), model_data=<s3_model_and_tokenizer.tar.gz>, entry_point="inference.py", transformers_version="4.6.1", pytorch_version="1.7.1", py_version="py36", predictor_cls=Classifier
) predictor = hf_model.deploy(instance_type=<deploy_instance_type>, initial_instance_count=1)

Ocena wydajności modelu: zestaw danych Jigsaw niezamierzonego uprzedzenia

Poniższa tabela zawiera metryki wydajności dla modeli wytrenowanych i ocenionych na podstawie danych z konkursu Jigsaw Uninttended Bias in Toxicity Detection Kaggle. Wyszkoliliśmy modele do trzech różnych, ale powiązanych ze sobą zadań:

Przypadek binarny – Model został przeszkolony na pełnym uczącym zbiorze danych, aby przewidzieć toxicity tylko etykieta
Sprawa drobnoziarnista – Podzbiór danych treningowych, dla których toxicity>=0.5 został wykorzystany do przewidywania innych etykiet podtypów toksyczności (obscene, threat, insult, identity_attack, sexual_explicit)
Sprawa wielozadaniowa – Pełen zestaw danych treningowych został wykorzystany do jednoczesnego przewidywania wszystkich sześciu etykiet

Wytrenowaliśmy modele RNN i RoBERTa dla każdego z tych trzech zadań, używając etykiet ułamkowych dostarczonych przez układ Jigsaw, które odpowiadają proporcji adnotatorów, którzy uważali, że etykieta jest odpowiednia dla tekstu, a także etykiet binarnych połączonych z wagami klas w sieci funkcja straty. W binarnym schemacie etykietowania proporcje zostały obliczone na poziomie 0.5 dla każdej dostępnej etykiety (1, jeśli etykieta>=0.5, 0 w przeciwnym razie), a funkcje utraty modelu były ważone na podstawie względnych proporcji każdej etykiety binarnej w uczącym zestawie danych. We wszystkich przypadkach stwierdziliśmy, że użycie etykiet ułamkowych bezpośrednio skutkowało najlepszą wydajnością, wskazując na wartość dodaną informacji nieodłącznie związaną ze stopniem zgodności między adnotatorami.

Wyświetlamy dwie metryki modelowe: średnią precyzję (AP), która stanowi podsumowanie krzywej precyzja-odwołanie poprzez obliczenie średniej ważonej wartości precyzji uzyskanych na każdym progu klasyfikacji oraz obszar pod krzywą charakterystyki pracy odbiornika (AUC) , który agreguje wyniki modelu w ramach progów klasyfikacji w odniesieniu do współczynnika wyników prawdziwie pozytywnych i współczynnika wyników fałszywie pozytywnych. Należy zauważyć, że prawdziwa klasa dla danego wystąpienia tekstu w zestawie testowym odpowiada temu, czy prawdziwa proporcja jest większa lub równa 0.5 (1, jeśli etykieta>=0.5, 0 w przeciwnym razie).

.	Osadzanie podsłów + RNN	Roberta
.	Etykiety ułamkowe	Etykiety binarne + ważenie klas	Etykiety ułamkowe	Etykiety binarne + ważenie klas
Binarna	AP=0.746, AUC=0.966	AP=0.730, AUC=0.963	AP=0.758, AUC=0.966	AP=0.747, AUC=0.963
Drobnoziarnisty	AP=0.906, AUC=0.909	AP=0.850, AUC=0.851	AP=0.913, AUC=0.913	AP=0.911, AUC=0.912
Wielozadaniowość	AP=0.721, AUC=0.972	AP=0.535, AUC=0.907	AP=0.740, AUC=0.972	AP=0.711, AUC=0.961

Wnioski

W tym poście przedstawiliśmy dwa podejścia do klasyfikacji tekstu dla konwersacji online z wykorzystaniem usług AWS ML. Możesz uogólnić te rozwiązania na platformach komunikacji online, przy czym branże, takie jak gry, szczególnie mogą skorzystać na poprawionej zdolności wykrywania szkodliwych treści. W przyszłych postach planujemy dalsze omówienie kompleksowej architektury w celu bezproblemowego wdrażania modeli na koncie AWS.

Jeśli potrzebujesz pomocy w przyspieszeniu wykorzystania ML w swoich produktach i procesach, skontaktuj się z Laboratorium rozwiązań Amazon ML.

O autorach

Klasyfikacja tekstu dla konwersacji online z uczeniem maszynowym na AWS PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI. Marka Ryana jest analitykiem danych w Amazon Machine Learning Solutions Lab. Ma szczególne doświadczenie w stosowaniu uczenia maszynowego do problemów w opiece zdrowotnej i naukach przyrodniczych, aw wolnym czasie lubi czytać historię i science fiction.

Sourav Bhabesh jest analitykiem danych w laboratorium Amazon ML Solutions Lab. Tworzy rozwiązania AI/ML dla klientów AWS z różnych branż. Jego specjalnością jest przetwarzanie języka naturalnego (NLP) i jest pasjonatem uczenia głębokiego. Poza pracą lubi czytać książki i podróżować.

Liutong Zhou jest naukowcem stosowanym w laboratorium Amazon ML Solutions Lab. Buduje dedykowane rozwiązania AI/ML dla klientów AWS z różnych branż. Specjalizuje się w przetwarzaniu języka naturalnego (NLP) i jest pasjonatem multimodalnego uczenia głębokiego. Jest tenorem lirycznym i lubi śpiewać opery poza pracą.

Sia Gholami jest starszym analitykiem danych w Amazon ML Solutions Lab, gdzie buduje rozwiązania AI/ML dla klientów z różnych branż. Pasjonuje się przetwarzaniem języka naturalnego (NLP) i głębokim uczeniem się. Poza pracą Sia lubi spędzać czas na łonie natury i grać w tenisa.

Daniela Horowitza jest menedżerem Applied AI Science. Kieruje zespołem naukowców w laboratorium Amazon ML Solutions Lab, którzy pracują nad rozwiązywaniem problemów klientów i wdrażaniem chmury za pomocą ML.

Znak czasu: 29 czerwca 2022 r.

Znak czasu: Czerwiec 23, 2022

Klasyfikacja tekstu do rozmów online z uczeniem maszynowym w AWS

Opublikowane ponownie przez Plato

Wymagania wstępne

Dataset

Umieszczanie podsłów i RNN

Transformatory z przytuloną twarzą

Ocena wydajności modelu: zestaw danych Jigsaw niezamierzonego uprzedzenia

Wnioski

O autorach

Więcej z Uczenie maszynowe AWS

Inteligentne przetwarzanie dokumentów z usługami AWS AI: Część 1

Hostuj modele transformatorów Hugging Face przy użyciu wnioskowania bezserwerowego Amazon SageMaker

Szkolenie rozproszone z Amazon EKS i Torch Distributed Elastic

Exafunction obsługuje AWS Inferentia, aby odblokować najlepszą wydajność cenową dla wnioskowania uczenia maszynowego

Amazon SageMaker wbudowany LightGBM oferuje teraz szkolenia rozproszone przy użyciu Dask

Nowa rozszerzona obsługa formatu danych w Amazon Kendra

Zoptymalizuj hiperparametry za pomocą automatycznego dostrajania modelu Amazon SageMaker

O nas

Wyszukiwanie pionowe i AI

Platforma

Pozostań w kontakcie

Konto