Tekstiluokitus online-keskusteluihin AWS:n koneoppimisen avulla

Julkaissut Platon

seuraajia: 0

Verkkokeskustelut ovat läsnä nykyaikaisessa elämässä, ja ne kattavat toimialoja videopeleistä televiestintään. Tämä on johtanut verkkokeskustelutietojen määrän eksponentilliseen kasvuun, mikä on auttanut kehittämään huippuluokan luonnollisen kielen käsittelyjärjestelmiä (NLP), kuten chatbotteja ja luonnollisen kielen generointimalleja (NLG). Ajan myötä erilaisia NLP-tekniikoita tekstin analysointiin ovat myös kehittyneet. Tämä edellyttää täysin hallittua palvelua, joka voidaan integroida sovelluksiin API-kutsujen avulla ilman laajaa koneoppimisen (ML) asiantuntemusta. AWS tarjoaa valmiiksi koulutettuja AWS AI -palveluita, kuten Amazonin käsitys, joka pystyy käsittelemään tehokkaasti NLP-käyttötapauksia, joihin kuuluu luokittelu, tekstin yhteenveto, kokonaisuuden tunnistus ja paljon muuta oivallusten keräämiseksi tekstistä.

Lisäksi verkkokeskustelut ovat johtaneet laajalle levinneeseen ei-perinteisen kielenkäytön ilmiöön. Perinteiset NLP-tekniikat toimivat usein huonosti tällä tekstidatalla johtuen jatkuvasti kehittyvistä ja aluekohtaisista sanastoista, joita esiintyy eri alustoilla, sekä sanojen merkittävistä leksikaalisista poikkeamista oikeasta englannista, joko vahingossa tai tarkoituksellisesti kilpailevana hyökkäyksenä. .

Tässä viestissä kuvaamme useita ML-lähestymistapoja online-keskustelujen tekstiluokitukseen AWS:ssä saatavilla olevien työkalujen ja palvelujen avulla.

Edellytykset

Ennen kuin sukeltaa syvälle tähän käyttötapaukseen, täytä seuraavat edellytykset:

Määritä AWS-tili ja luo IAM-käyttäjä.
Aseta AWS CLI ja AWS SDK: t.
(Valinnainen) Määritä Cloud9 IDE -ympäristö.

aineisto

Tähän viestiin käytämme Jigsaw Tahdoton harha toksisuusluokitustietojoukossa, vertailukohta myrkyllisyyden luokittelun erityiselle ongelmalle verkkokeskusteluissa. Tietojoukko sisältää myrkyllisyysmerkintöjä sekä useita alaryhmämääritteitä, kuten säädytön, identiteettihyökkäys, loukkaus, uhkaus ja seksuaalinen. Tunnisteet annetaan murto-arvoina, jotka edustavat niiden ihmisten osuutta, jotka uskoivat tiettyyn tekstiosaan sovellettavan attribuutin. Nämä ovat harvoin yksimielisiä. Binääritunnisteiden (esimerkiksi myrkyllisten tai ei-toksisten) luomiseksi murto-arvoihin sovelletaan kynnysarvoa 0.5, ja kommentteja, joiden arvot ovat suurempia kuin kynnysarvo, käsitellään kyseisen etiketin positiivisena luokkana.

Alisanan upotus ja RNN:t

Ensimmäisessä mallinnustavassamme käytämme alisanojen upotuksen ja toistuvien hermoverkkojen (RNN) yhdistelmää tekstin luokittelumallien kouluttamiseen. Alisanan upotukset esitteli Bojanowski et ai. vuonna 2017 parannuksena aikaisempiin sanatason upotusmenetelmiin. Perinteiset Word2Vec skip-gram -mallit on koulutettu oppimaan kohdesanan staattinen vektoriesitys, joka ennustaa optimaalisesti kyseisen sanan kontekstin. Alasanamallit sitä vastoin esittävät jokaisen kohdesanan puskina n-grammia, jotka muodostavat sanan, jossa n-grammi koostuu n peräkkäisen merkin joukosta. Tämä menetelmä mahdollistaa sen, että upotusmalli edustaa paremmin korpukseen liittyvien sanojen taustalla olevaa morfologiaa sekä uusien, sanaston ulkopuolisten (OOV) sanojen upotusten laskemista. Tämä on erityisen tärkeää verkkokeskusteluissa, ongelmatilanteessa, jossa käyttäjät kirjoittavat usein sanoja väärin (joskus tarkoituksella välttääkseen havaitsemisen) ja käyttävät myös ainutlaatuista, jatkuvasti kehittyvää sanastoa, jota yleinen koulutuskorpus ei ehkä pysty taltioimaan.

Amazon Sage Maker helpottaa valvomattoman alisanojen upotusmallin opettamista ja optimointia omaan verkkotunnuskohtaiseen tekstitietoaineistoosi sisäänrakennetun BlazingText-algoritmi. Voimme myös ladata olemassa olevia yleiskäyttöisiä malleja, jotka on koulutettu suurille verkkotekstitietojoukoille, kuten seuraava Englanninkieliset mallit saatavana suoraan fastTextistä. Lataa valmiiksi koulutettu fastText-malli suorittamalla SageMaker-muistikirjan esiintymästäsi seuraava:

!wget -O vectors.zip https://dl.fbaipublicfiles.com/fasttext/vectors-english/crawl-300d-2M-subword.zip

Oletpa sitten harjoitellut omia upotuksiasi BlazingTextillä tai ladannut valmiiksi koulutetun mallin, tuloksena on zip-muotoinen mallibinaari, jota voit käyttää gensim-kirjaston kanssa upottaaksesi tietyn kohdesanan vektoriksi sen muodostavien alisanojen perusteella:

# Imports
import os
from zipfile import ZipFile
from gensim.models.fasttext import load_facebook_vectors # Unzip the model binary into 'dir_path'
with ZipFile('vectors.zip', 'r') as zipObj: zipObj.extractall(path=<dir_path_name>) # Load embedding model into memory
embed_model = load_facebook_vectors(os.path.join(<dir_path_name>, 'vectors.bin')) # Compute embedding vector for 'word'
word_embedding = embed_model[word]

Kun olemme esikäsitelleet tietyn tekstisegmentin, voimme käyttää tätä lähestymistapaa vektoriesityksen luomiseen jokaiselle osasanalle (välilyönnillä erotettuna). Käytämme sitten SageMakeria ja syväoppimiskehystä, kuten PyTorchia, räätälöidyn RNN:n kouluttamiseen binääri- tai monimerkkiluokitustavoitteella ennustaaksemme, onko teksti myrkyllistä vai ei, ja myrkyllisyyden tiettyä alatyyppiä merkittyjen koulutusesimerkkien perusteella.

Esikäsitellyn tekstisi lataaminen osoitteeseen Amazonin yksinkertainen tallennuspalvelu (Amazon S3), käytä seuraavaa koodia:

import boto3
s3 = boto3.client('s3') bucket = <bucket_name>
prefix = <prefix_name> s3.upload_file('train.pkl', bucket, os.path.join(prefix, 'train/train.pkl'))
s3.upload_file('valid.pkl', bucket, os.path.join(prefix, 'valid/valid.pkl'))
s3.upload_file('test.pkl', bucket, os.path.join(prefix, 'test/test.pkl'))

Aloita skaalautuvan, usean grafiikkasuorittimen mallin koulutus SageMakerilla antamalla seuraava koodi:

import sagemaker
sess = sagemaker.Session()
role = iam.get_role(RoleName= ‘AmazonSageMakerFullAccess’)['Role']['Arn'] from sagemaker.pytorch import PyTorch # hyperparameters, which are passed into the training job
hyperparameters = { 'epochs': 20, # Maximum number of epochs to train model 'train-batch-size': 128, # Training batch size (No. sentences) 'eval-batch-size': 1024, # Evaluation batch size (No. sentences) 'embed-size': 300, # Vector dimension of word embeddings (Must match embedding model) 'lstm-hidden-size': 200, # Number of neurons in LSTM hidden layer 'lstm-num-layers': 2, # Number of stacked LSTM layers 'proj-size': 100, # Number of neurons in intermediate projection layer 'num-targets': len(<list_of_label_names>), # Number of targets for classification 'class-weight': ' '.join([str(c) for c in <list_of_weights_per_class>]), # Weight to apply to each target during training 'total-length':<max_number_of_words_per_sentence>, 'metric-for-best-model': 'ap_score_weighted', # Metric on which to select the best model
} # create the Estimator
pytorch_estimator = PyTorch( entry_point='train.py', source_dir=<source_dir_path>, instance_type=<train_instance_type>, volume_size=200, instance_count=1, role=role, framework_version='1.6.0’, py_version='py36', hyperparameters=hyperparameters, metric_definitions=[ {'Name': 'validation:accuracy', 'Regex': 'eval_accuracy = (.*?);'}, {'Name': 'validation:f1-micro', 'Regex': 'eval_f1_score_micro = (.*?);'}, {'Name': 'validation:f1-macro', 'Regex': 'eval_f1_score_macro = (.*?);'}, {'Name': 'validation:f1-weighted', 'Regex': 'eval_f1_score_weighted = (.*?);'}, {'Name': 'validation:ap-micro', 'Regex': 'eval_ap_score_micro = (.*?);'}, {'Name': 'validation:ap-macro', 'Regex': 'eval_ap_score_macro = (.*?);'}, {'Name': 'validation:ap-weighted', 'Regex': 'eval_ap_score_weighted = (.*?);'}, {'Name': 'validation:auc-micro', 'Regex': 'eval_auc_score_micro = (.*?);'}, {'Name': 'validation:auc-macro', 'Regex': 'eval_auc_score_macro = (.*?);'}, {'Name': 'validation:auc-weighted', 'Regex': 'eval_auc_score_weighted = (.*?);'} ]
) pytorch_estimator.fit( { 'train': 's3://<bucket_name>/<prefix_name>/train', 'valid': 's3://<bucket_name>/<prefix_name>/valid', 'test': 's3://<bucket_name>/<prefix_name>/test' }
)

Sisällä , määrittelemme PyTorch-tietojoukon, jota käyttää train.py tekstidatan valmistelemiseksi mallin koulutusta ja arviointia varten:

def pad_matrix(m: torch.Tensor, max_len: int =100)-> tuple[int, torch.Tensor] : """Pads an embedding matrix to a specified maximum length.""" if m.ndim == 1: m = m.reshape(1, -1) mask = np.ones_like(m) if m.shape[0] > max_len: m = m[:max_len, :] mask = mask[:max_len, :] else: m = np.pad(m, ((0, max_len - m.shape[0]), (0,0))) mask = np.pad(mask, ((0, max_len - mask.shape[0]), (0,0))) return m, mask class EmbeddingDataset(Dataset: torch.utils.data.Dataset): """PyTorch dataset representing pretrained sentence embeddings, masks, and labels.""" def __init__(self, text: str, labels: int, max_len: int=100): self.text = text self.labels = labels self.max_len = max_len def __len__(self) -> int: return len(self.labels) def __getitem__(self, idx: int) -> dict: e = embed_line(self.text[idx]) length = e.shape[0] m, mask = pad_matrix(e, max_len=self.max_len) item = {} item['embeddings'] = torch.from_numpy(m) item['mask'] = torch.from_numpy(mask) item['labels'] = torch.tensor(self.labels[idx]) if length > self.max_len: item['lengths'] = torch.tensor(self.max_len) else: item['lengths'] = torch.tensor(length) return item

Huomaa, että tämä koodi ennakoi, että vectors.zip tiedosto, joka sisältää fastText- tai BlazingText-upotuksesi, tallennetaan .

Lisäksi voit helposti ottaa käyttöön valmiiksi koulutettuja fastText-malleja sellaisenaan eläviin SageMaker-päätepisteisiin laskeaksesi upotusvektorit lennossa käytettäväksi asiaankuuluvissa sanatason tehtävissä. Katso seuraava GitHub esimerkki lisätietoja.

Transformers halaavilla kasvoilla

Toisessa mallinnustavassamme siirrymme paperissa esitellyn Transformersin käyttöön Huomio on kaikki mitä tarvitset. Muuntajat ovat syväoppimismalleja, jotka on suunniteltu tietoisesti välttämään RNN:iden sudenkuopat luottamalla itsehuomiomekanismiin, joka vetää globaaleja riippuvuuksia syötteen ja lähdön välille. Transformer-malliarkkitehtuuri mahdollistaa huomattavasti paremman rinnakkaissuorituksen ja voi saavuttaa korkean suorituskyvyn suhteellisen lyhyessä harjoitusajassa.

Rakennettu lehdessä esitellyn Transformersin BERT:n menestykselle BERT: Syväsuuntaisten muuntajien esikoulutus kielen ymmärtämistä varten, lisätty kaksisuuntainen esikoulutus kielen esittämiseen. Cloze-tehtävän innoittamana BERT on valmiiksi koulutettu maskatun kielen mallintamiseen (MLM), jossa malli oppii palauttamaan alkuperäiset sanat satunnaisesti maskatuille tokeneille. BERT-malli on myös esiopetettu seuraavan lauseen ennustustehtävään (NSP) ennustamaan, ovatko kaksi lausetta oikeassa lukujärjestyksessä. Vuonna 2018 tulonsa jälkeen BERT ja sen muunnelmat ovat olleet laajasti käytössä tekstin luokittelutehtävissä.

Ratkaisumme käyttää BERT:n varianttia, joka tunnetaan nimellä RoBERTa, joka esiteltiin paperissa RoBERTa: Voimakkaasti optimoitu BERT-esikäsittelymenetelmä. RoBERTa parantaa edelleen BERT-suorituskykyä useissa luonnollisen kielen tehtävissä optimoidun mallikoulutuksen avulla, mukaan lukien koulutusmallit pidempään 10 kertaa suuremmassa korpusssa, käyttämällä optimoituja hyperparametreja, dynaamista satunnaispeittoa, poistamalla NSP-tehtävän ja paljon muuta.

RoBERTa-pohjaisissa malleissamme käytetään Halaa kasvomuuntajia kirjasto, joka on suosittu avoimen lähdekoodin Python-kehys, joka tarjoaa laadukkaita toteutuksia kaikenlaisille huippuluokan Transformer-malleille erilaisiin NLP-tehtäviin. Hugging Face on tehnyt yhteistyötä AWS:n kanssa jotta voit helposti kouluttaa ja ottaa käyttöön Transformer-malleja SageMakerissa. Tämä toiminto on saatavilla kautta Hugging Face AWS Deep Learning Container -kuvat, jotka sisältävät Transformers-, Tokenizers- ja Datasets-kirjastot sekä optimoidun integroinnin SageMakerin kanssa mallien harjoittelua ja päätelmiä varten.

Toteutuksessamme perimme RoBERTa-arkkitehtuurin rungon Hugging Face Transformers -kehyksestä ja käytämme SageMakeria oman tekstin luokittelumallimme kouluttamiseen ja käyttöönottamiseksi, jota kutsumme RoBERToxiksi. RoBERTox käyttää tavuparikoodausta (BPE), joka esiteltiin vuonna Harvinaisten sanojen hermokonekäännös alisanayksiköillä, muuttaaksesi syötetyn tekstin alisanojen esityksiksi. Voimme sitten kouluttaa mallejamme ja tunnisteitamme Jigsaw-datan tai minkä tahansa suuren toimialuekohtaisen korpuksen (kuten tietyn pelin chat-lokien) perusteella ja käyttää niitä mukautetussa tekstin luokittelussa. Määrittelemme mukautetun luokitusmallin luokkamme seuraavassa koodissa:

class RoBERToxForSequenceClassification(CustomLossMixIn, RobertaPreTrainedModel): _keys_to_ignore_on_load_missing = [r"position_ids"] def __init__(self, config: PretrainedConfig, *inputs, **kwargs): """Initialize the RoBERToxForSequenceClassification instance Parameters ---------- config : PretrainedConfig num_labels : Optional[int] if not None, overwrite the default classification head in pretrained model. mode : Optional[str] 'MULTI_CLASS', 'MULTI_LABEL' or "REGRESSION". Used to determine loss class_weight : Optional[List[float]] If not None, add class weight to BCEWithLogitsLoss or CrossEntropyLoss """ super().__init__(config, *inputs, **kwargs) # Define model architecture self.roberta = RobertaModel(self.config, add_pooling_layer=False) self.classifier = RobertaClassificationHead(self.config) self.init_weights() @modeling_roberta.add_start_docstrings_to_model_forward( modeling_roberta.ROBERTA_INPUTS_DOCSTRING.format("batch_size, sequence_length") ) @modeling_roberta.add_code_sample_docstrings( tokenizer_class=modeling_roberta._TOKENIZER_FOR_DOC, checkpoint=modeling_roberta._CHECKPOINT_FOR_DOC, output_type=SequenceClassifierOutput, config_class=modeling_roberta._CONFIG_FOR_DOC, ) def forward( self, input_ids: torch.Tensor = None, attention_mask: torch.Tensor = None, token_type_ids: torch.Tensor = None, position_ids: torch.Tensor =None, head_mask: torch.Tensor =None, inputs_embeds: torch.Tensor =None, labels: torch.Tensor =None, output_attentions: torch.Tensor =None, output_hidden_states: torch.Tensor =None, return_dict: bool =None, sample_weights: torch.Tensor =None, ) -> : dict: """Forward pass to return loss, logits, ... Returns -------- output : SequenceClassifierOutput has those keys: loss, logits, hidden states, attentions """ return_dict = return_dict or self.config.use_return_dict outputs = self.roberta( input_ids, attention_mask=attention_mask, token_type_ids=token_type_ids, position_ids=position_ids, head_mask=head_mask, inputs_embeds=inputs_embeds, output_attentions=output_attentions, output_hidden_states=output_hidden_states, return_dict=return_dict, ) sequence_output = outputs[0] # [CLS] embedding logits = self.classifier(sequence_output) loss = self.compute_loss(logits, labels, sample_weights=sample_weights) if not return_dict: output = (logits,) + outputs[2:] return ((loss,) + output) if loss is not None else output return SequenceClassifierOutput( loss=loss, logits=logits, hidden_states=outputs.hidden_states, attentions=outputs.attentions, ) def compute_loss(self, logits: torch.Tensor, labels: torch.Tensor, sample_weights: Optional[torch.Tensor] = None) -> torch.FloatTensor: return super().compute_loss(logits, labels, sample_weights)

Ennen harjoittelua valmistelemme tekstitietomme ja tarramme käyttämällä Hugging Facen tietojoukkokirjastoa ja lataamme tuloksen Amazon S3:een:

from datasets import Dataset
import multiprocessing data_train = Dataset.from_pandas(df_train)
… tokenizer = <instantiated_huggingface_tokenizer> def preprocess_function(examples: examples) -> torch.Tensor: result = tokenizer(examples["text"], padding="max_length", max_length=128, truncation=True) return result num_proc = multiprocessing.cpu_count()
print("Number of CPUs =", num_proc) data_train = data_train.map( preprocess_function, batched=True, load_from_cache_file=False, num_proc=num_proc
)
… import botocore
from datasets.filesystems import S3FileSystem s3_session = botocore.session.Session() # create S3FileSystem instance with s3_session
s3 = S3FileSystem(session=s3_session) # saves encoded_dataset to your s3 bucket
data_train.save_to_disk(f's3://<bucket_name>/<prefix_name>/train', fs=s3)
…

Aloitamme mallin koulutuksen samalla tavalla kuin RNN:ssä:

import sagemaker
sess = sagemaker.Session()
role = sagemaker.get_execution_role()
from sagemaker.huggingface import HuggingFace # hyperparameters, which are passed into the training job
hyperparameters = { 'model-name': <huggingface_base_model_name>, 'epochs': 10, 'train-batch-size': 32, 'eval-batch-size': 64, 'num-labels': len(<list_of_label_names>), 'class-weight': ' '.join([str(c) for c in <list_of_class_weights>]), 'metric-for-best-model': 'ap_score_weighted', 'save-total-limit': 1,
} # create the Estimator
huggingface_estimator = HuggingFace( entry_point='train.py', source_dir=<source_dir_path>, instance_type=<train_instance_type>, instance_count=1, role=role, transformers_version='4.6.1', pytorch_version='1.7.1', py_version='py36', hyperparameters=hyperparameters, metric_definitions=[ {'Name': 'validation:accuracy', 'Regex': 'eval_accuracy = (.*?);'}, {'Name': 'validation:f1-micro', 'Regex': 'eval_f1_score_micro = (.*?);'}, {'Name': 'validation:f1-macro', 'Regex': 'eval_f1_score_macro = (.*?);'}, {'Name': 'validation:f1-weighted', 'Regex': 'eval_f1_score_weighted = (.*?);'}, {'Name': 'validation:ap-micro', 'Regex': 'eval_ap_score_micro = (.*?);'}, {'Name': 'validation:ap-macro', 'Regex': 'eval_ap_score_macro = (.*?);'}, {'Name': 'validation:ap-weighted', 'Regex': 'eval_ap_score_weighted = (.*?);'}, {'Name': 'validation:auc-micro', 'Regex': 'eval_auc_score_micro = (.*?);'}, {'Name': 'validation:auc-macro', 'Regex': 'eval_auc_score_macro = (.*?);'}, {'Name': 'validation:auc-weighted', 'Regex': 'eval_auc_score_weighted = (.*?);'} ]
) huggingface_estimator.fit( { 'train': 's3://<bucket_name>/<prefix_name>/train', 'valid': 's3://<bucket_name>/<prefix_name>/valid', 'test': 's3://<bucket_name>/<prefix_name>/test'
)

Lopuksi seuraava Python-koodinpätkä havainnollistaa prosessia, jolla RoBERTox palvellaan reaaliaikaisen SageMaker-päätepisteen kautta JSON-pyynnön tekstin reaaliaikaista luokittelua varten:

from sagemaker.huggingface import HuggingFaceModel
from sagemaker import get_execution_role
from sagemaker.predictor import Predictor
from sagemaker.serializers import JSONSerializer
from sagemaker.deserializers import JSONDeserializer class Classifier(Predictor): def __init__(self, endpoint_name, sagemaker_session): super().__init__(endpoint_name, sagemaker_session, serializer=JSONSerializer(), deserializer=JSONDeserializer()) hf_model = HuggingFaceModel( role=get_execution_role(), model_data=<s3_model_and_tokenizer.tar.gz>, entry_point="inference.py", transformers_version="4.6.1", pytorch_version="1.7.1", py_version="py36", predictor_cls=Classifier
) predictor = hf_model.deploy(instance_type=<deploy_instance_type>, initial_instance_count=1)

Mallin suorituskyvyn arviointi: Jigsaw ei-toivottu bias-tietojoukko

Seuraava taulukko sisältää suorituskykymittareita malleille, jotka on koulutettu ja arvioitu Jigsaw Unintended Bias in Toxicity Detection Kaggle -kilpailun tietojen perusteella. Koulutimme malleja kolmeen erilaiseen, mutta toisiinsa liittyvään tehtävään:

Binääritapaus – Malli koulutettiin koko harjoitustietojoukon perusteella ennustamaan toxicity vain etiketti
Hienorakeinen kotelo – Harjoitustietojen osajoukko, jolle toxicity>=0.5 käytettiin ennustamaan muita myrkyllisyyden alatyyppimerkintöjä (obscene, threat, insult, identity_attack, sexual_explicit)
Multitask-tapaus – Täysi harjoitustietojoukkoa käytettiin kaikkien kuuden etiketin ennustamiseen samanaikaisesti

Koulutimme RNN- ja RoBERTa-malleja kutakin näistä kolmesta tehtävästä käyttämällä Jigsaw-sahan toimittamia murto-osia, jotka vastaavat niiden kirjoittajien osuutta, jotka pitivät tunnistetta sopivana tekstiin, sekä binääritunnisteita yhdistettynä luokkapainoihin verkossa. häviötoiminto. Binäärisessä merkintäjärjestelmässä suhteet kynnystettiin arvoon 0.5 jokaiselle saatavilla olevalle tunnisteelle (1, jos etiketti> = 0.5, muutoin 0), ja mallin menetysfunktiot painotettiin kunkin harjoitustietojoukon binääritunnisteen suhteellisten osuuksien perusteella. Kaikissa tapauksissa havaitsimme, että murto-osien tarrojen käyttäminen johti suoraan parhaaseen suorituskykyyn, mikä osoittaa lisäarvon, joka liittyy merkintöjen tekijöiden väliseen yksimielisyyteen.

Näytämme kaksi mallimittaria: keskimääräinen tarkkuus (AP), joka tarjoaa yhteenvedon tarkkuus-palautuskäyrästä laskemalla kullakin luokituskynnyksellä saavutettujen tarkkuusarvojen painotetun keskiarvon ja vastaanottimen toimintakäyrän alla olevan alueen (AUC). , joka kokoaa mallin suorituskyvyn luokituskynnysten yli suhteessa todelliseen positiiviseen ja väärään positiiviseen määrään. Huomaa, että testijoukon tietyn tekstiinstanssin todellinen luokka vastaa sitä, onko todellinen osuus suurempi tai yhtä suuri kuin 0.5 (1, jos otsikko>=0.5, 0 muussa tapauksessa).

.	Alisanan upotus + RNN	Roberta
.	Murtolukutarrat	Binääritunnisteet + luokkapainotus	Murtolukutarrat	Binääritunnisteet + luokkapainotus
Binaarinen	AP=0.746, AUC = 0.966	AP = 0.730, AUC = 0.963	AP = 0.758, AUC = 0.966	AP = 0.747, AUC = 0.963
Hienojakoinen	AP = 0.906, AUC = 0.909	AP = 0.850, AUC = 0.851	AP = 0.913, AUC = 0.913	AP = 0.911, AUC = 0.912
Monitoimisakset	AP=0.721, AUC = 0.972	AP = 0.535, AUC = 0.907	AP = 0.740, AUC = 0.972	AP = 0.711, AUC = 0.961

Yhteenveto

Tässä viestissä esitimme kaksi tekstin luokittelutapaa AWS ML -palveluita käyttäville online-keskusteluille. Voit yleistää näitä ratkaisuja online-viestintäalustoilla, ja pelialat, kuten pelit, hyötyvät erityisen todennäköisesti parannetusta kyvystä havaita haitallista sisältöä. Tulevissa viesteissä aiomme keskustella edelleen päästä päähän -arkkitehtuurista, joka mahdollistaa mallien saumattoman käyttöönoton AWS-tililläsi.

Jos haluat apua ML: n käytön nopeuttamisessa tuotteissasi ja prosesseissasi, ota yhteyttä Amazon ML Solutions Lab.

Tietoja Tekijät

Tekstin luokittelu verkkokeskusteluihin AWS PlatoBlockchain Data Intelligencen koneoppimisen kanssa. Pystysuuntainen haku. Ai. Ryan Brand on tietojenkäsittelijä Amazon Machine Learning Solutions Lab -laboratoriossa. Hänellä on erityistä kokemusta koneoppimisen soveltamisesta terveydenhuollon ja biotieteiden ongelmiin, ja vapaa-ajalla hän nauttii historian ja tieteiskirjallisuuden lukemisesta.

Sourav Bhabesh on datatutkija Amazon ML Solutions Labissa. Hän kehittää AI/ML-ratkaisuja AWS-asiakkaille eri toimialoilla. Hänen erikoisalansa on Natural Language Processing (NLP) ja hän on intohimoinen syväoppimiseen. Työn ulkopuolella hän lukee kirjoja ja matkustaa mielellään.

Liutong Zhou on soveltuva tutkija Amazon ML Solutions Labissa. Hän rakentaa räätälöityjä AI/ML-ratkaisuja AWS-asiakkaille eri toimialoilla. Hän on erikoistunut luonnollisen kielen käsittelyyn (NLP) ja on intohimoinen multimodaaliseen syväoppimiseen. Hän on lyyrinen tenori ja nauttii oopperalaulusta työn ulkopuolella.

Sia Gholami on vanhempi tietotutkija Amazon ML Solutions Labissa, jossa hän rakentaa AI/ML-ratkaisuja asiakkaille eri toimialoilla. Hän on intohimoinen luonnollisen kielen käsittelyyn (NLP) ja syväoppimiseen. Työn ulkopuolella Sia viihtyy luonnossa ja pelaa tennistä.

Daniel Horowitz on Applied AI Science Manager. Hän johtaa tutkijaryhmää Amazon ML Solutions Labissa, joka työskentelee ratkaistakseen asiakkaiden ongelmia ja edistääkseen pilvipalveluiden käyttöönottoa ML:n avulla.

Aikaleima: Kesäkuu 29, 2022

Aikaleima: Kesäkuu 23, 2022

Tekstin luokittelu verkkokeskusteluja varten AWS:n koneoppimisen kanssa

Julkaissut Platon

Edellytykset

aineisto

Alisanan upotus ja RNN:t

Transformers halaavilla kasvoilla

Mallin suorituskyvyn arviointi: Jigsaw ei-toivottu bias-tietojoukko

Yhteenveto

Tietoja Tekijät

Lisää aiheesta AWS-koneoppiminen

Älykäs asiakirjojen käsittely AWS AI -palveluilla: Osa 1

Isännöi Hugging Face -muuntajamalleja käyttämällä Amazon SageMaker Serverless Inference -ratkaisua

Hajautettu koulutus Amazon EKS:n ja Torch Distributed Elasticin kanssa

Exafunction tukee AWS Inferentiaa parhaan hintasuorituskyvyn avaamiseksi koneoppimispäätelmiä varten

Amazon SageMakerin sisäänrakennettu LightGBM tarjoaa nyt hajautettua koulutusta Daskin avulla

Uusi laajennettu tietomuototuki Amazon Kendrassa

Optimoi hyperparametrit Amazon SageMakerin automaattisen mallin virityksen avulla

Tietoa Meistä

Pystysuuntainen haku ja Ai

foorumi

Pysy yhteydessä

Tili