Teksti klassifikatsioon AWS-is masinõppega veebivestluste jaoks

Taasavaldanud Platon

järgijaid: 0

Veebivestlused on tänapäeva elus üldlevinud, hõlmates tööstusharusid videomängudest telekommunikatsioonini. See on kaasa toonud veebivestluste andmete hulga hüppelise kasvu, mis on aidanud välja töötada kaasaegseid loomuliku keele töötlemise (NLP) süsteeme, nagu vestlusrobotid ja loomuliku keele genereerimise (NLG) mudelid. Aja jooksul on välja arenenud ka erinevad tekstianalüüsi NLP tehnikad. See tingib vajaduse täielikult hallatava teenuse järele, mida saab API-kõnede abil rakendustesse integreerida, ilma et oleks vaja ulatuslikke masinõppe (ML) teadmisi. AWS pakub eelkoolitatud AWS AI teenuseid nagu Amazoni mõistmine, mis suudab tõhusalt käsitleda NLP kasutusjuhtumeid, mis hõlmavad liigitamist, teksti kokkuvõtet, olemi tuvastamist ja palju muud, et koguda tekstist teadmisi.

Lisaks on veebivestlused viinud laialt levinud ebatraditsioonilise keelekasutuse nähtuseni. Traditsioonilised NLP tehnikad toimivad sageli nende tekstiandmete puhul halvasti, kuna erinevatel platvormidel eksisteerivad pidevalt arenevad ja domeenispetsiifilised sõnavarad, aga ka sõnade olulised leksikaalsed kõrvalekalded õigest inglise keelest kas juhuslikult või tahtlikult võistleva rünnakuna. .

Selles postituses kirjeldame AWS-is saadaolevate tööriistade ja teenustega veebivestluste teksti klassifitseerimiseks mitmeid ML-i lähenemisviise.

Eeldused

Enne sellesse kasutusjuhtumisse süvenemist täitke järgmised eeltingimused:

Seadistage AWS-i konto ja luua IAM-i kasutaja.
Seadistage AWS CLI ja AWS-i SDK-d.
(Valikuline) Seadistage oma Cloud9 IDE keskkond.

Andmebaas

Selle postituse jaoks kasutame Pusle Toksilisuse klassifikatsiooni andmestiku tahtmatu kallutatus, võrguvestluste mürgisuse klassifitseerimise konkreetse probleemi etalon. Andmekogum sisaldab toksilisuse silte ja mitmeid alarühma atribuute, nagu nilbe, identiteedi rünnak, solvang, ähvardus ja seksuaalselt vulgaarne. Sildid esitatakse murdosa väärtustena, mis näitavad inimestest annotaatorite osakaalu, kes uskusid, et antud tekstilõigu puhul rakendati atribuuti, mis on harva üksmeelsed. Binaarsete siltide (nt mürgised või mittetoksilised) loomiseks rakendatakse murdarvudele lävi 0.5 ja lävest suuremate väärtustega kommentaare käsitletakse selle sildi positiivse klassina.

Alamsõnade manustamine ja RNN-id

Oma esimese modelleerimismeetodi jaoks kasutame teksti klassifitseerimismudelite koolitamiseks alamsõnade manustamise ja korduvate närvivõrkude (RNN-de) kombinatsiooni. Alamsõnade manustamise võttis kasutusele Bojanowski jt. aastal 2017 täiustuseks varasematele sõnatasemel manustamismeetoditele. Traditsioonilised Word2Vec vahelejätmise grammi mudelid on koolitatud õppima sihtsõna staatilist vektorkujutust, mis ennustab optimaalselt selle sõna konteksti. Alamsõnamudelid seevastu kujutavad iga sihtsõna n-grammide märgina, millest see sõna koosneb, kus n-gramm koosneb n järjestikuse tähemärgi komplektist. See meetod võimaldab manustamismudelil paremini esindada korpuses olevate seotud sõnade aluseks olevat morfoloogiat, samuti uudsete, sõnavaraväliste (OOV) sõnade manustamist. See on eriti oluline veebivestluste kontekstis – probleemne ruum, kus kasutajad kirjutavad sageli sõnu valesti (mõnikord tahtlikult tuvastamisest kõrvale hoidmiseks) ja kasutavad ka ainulaadset, pidevalt arenevat sõnavara, mida üldine koolituskorpus ei pruugi tabada.

Amazon SageMaker muudab teie enda domeenispetsiifilise tekstiandmete korpuse põhjal järelevalveta alamsõna manustamismudeli treenimise ja optimeerimise lihtsaks sisseehitatud funktsiooniga. BlazingTexti algoritm. Samuti saame alla laadida olemasolevaid üldotstarbelisi mudeleid, mis on koolitatud suurte võrguteksti andmehulkade jaoks, nagu järgmised Ingliskeelsed mudelid on saadaval otse fastTextist. Eelkoolitatud fastTexti mudeli allalaadimiseks käivitage SageMakeri märkmiku eksemplaris lihtsalt järgmine toiming:

!wget -O vectors.zip https://dl.fbaipublicfiles.com/fasttext/vectors-english/crawl-300d-2M-subword.zip

Olenemata sellest, kas olete BlazingTextiga ise manustamist õpetanud või eelkoolitatud mudeli alla laadinud, on tulemuseks pakitud mudeli binaarfail, mida saate kasutada koos gensim teegiga, et manustada antud sihtsõna vektorina selle koostisosade alamsõnade alusel:

# Imports
import os
from zipfile import ZipFile
from gensim.models.fasttext import load_facebook_vectors # Unzip the model binary into 'dir_path'
with ZipFile('vectors.zip', 'r') as zipObj: zipObj.extractall(path=<dir_path_name>) # Load embedding model into memory
embed_model = load_facebook_vectors(os.path.join(<dir_path_name>, 'vectors.bin')) # Compute embedding vector for 'word'
word_embedding = embed_model[word]

Pärast etteantud tekstisegmendi eeltöötlemist saame kasutada seda lähenemisviisi, et genereerida iga koostisosa (tühikutega eraldatud) jaoks vektoresitus. Seejärel kasutame SageMakerit ja süvaõpperaamistikku (nt PyTorch), et koolitada kohandatud RNN-i binaarse või mitme märgistusega klassifitseerimise eesmärgiga, et ennustada, kas tekst on mürgine või mitte, ja märgistatud koolitusnäidete põhjal toksilisuse spetsiifilist alamtüüpi.

Eeltöödeldud teksti üleslaadimiseks aadressile Amazoni lihtne salvestusteenus (Amazon S3), kasutage järgmist koodi:

import boto3
s3 = boto3.client('s3') bucket = <bucket_name>
prefix = <prefix_name> s3.upload_file('train.pkl', bucket, os.path.join(prefix, 'train/train.pkl'))
s3.upload_file('valid.pkl', bucket, os.path.join(prefix, 'valid/valid.pkl'))
s3.upload_file('test.pkl', bucket, os.path.join(prefix, 'test/test.pkl'))

Skaleeritava mitme GPU mudeli koolituse alustamiseks SageMakeriga sisestage järgmine kood:

import sagemaker
sess = sagemaker.Session()
role = iam.get_role(RoleName= ‘AmazonSageMakerFullAccess’)['Role']['Arn'] from sagemaker.pytorch import PyTorch # hyperparameters, which are passed into the training job
hyperparameters = { 'epochs': 20, # Maximum number of epochs to train model 'train-batch-size': 128, # Training batch size (No. sentences) 'eval-batch-size': 1024, # Evaluation batch size (No. sentences) 'embed-size': 300, # Vector dimension of word embeddings (Must match embedding model) 'lstm-hidden-size': 200, # Number of neurons in LSTM hidden layer 'lstm-num-layers': 2, # Number of stacked LSTM layers 'proj-size': 100, # Number of neurons in intermediate projection layer 'num-targets': len(<list_of_label_names>), # Number of targets for classification 'class-weight': ' '.join([str(c) for c in <list_of_weights_per_class>]), # Weight to apply to each target during training 'total-length':<max_number_of_words_per_sentence>, 'metric-for-best-model': 'ap_score_weighted', # Metric on which to select the best model
} # create the Estimator
pytorch_estimator = PyTorch( entry_point='train.py', source_dir=<source_dir_path>, instance_type=<train_instance_type>, volume_size=200, instance_count=1, role=role, framework_version='1.6.0’, py_version='py36', hyperparameters=hyperparameters, metric_definitions=[ {'Name': 'validation:accuracy', 'Regex': 'eval_accuracy = (.*?);'}, {'Name': 'validation:f1-micro', 'Regex': 'eval_f1_score_micro = (.*?);'}, {'Name': 'validation:f1-macro', 'Regex': 'eval_f1_score_macro = (.*?);'}, {'Name': 'validation:f1-weighted', 'Regex': 'eval_f1_score_weighted = (.*?);'}, {'Name': 'validation:ap-micro', 'Regex': 'eval_ap_score_micro = (.*?);'}, {'Name': 'validation:ap-macro', 'Regex': 'eval_ap_score_macro = (.*?);'}, {'Name': 'validation:ap-weighted', 'Regex': 'eval_ap_score_weighted = (.*?);'}, {'Name': 'validation:auc-micro', 'Regex': 'eval_auc_score_micro = (.*?);'}, {'Name': 'validation:auc-macro', 'Regex': 'eval_auc_score_macro = (.*?);'}, {'Name': 'validation:auc-weighted', 'Regex': 'eval_auc_score_weighted = (.*?);'} ]
) pytorch_estimator.fit( { 'train': 's3://<bucket_name>/<prefix_name>/train', 'valid': 's3://<bucket_name>/<prefix_name>/valid', 'test': 's3://<bucket_name>/<prefix_name>/test' }
)

Jooksul , määratleme PyTorchi andmestiku, mida kasutab train.py tekstiandmete ettevalmistamiseks koolitamiseks ja mudeli hindamiseks:

def pad_matrix(m: torch.Tensor, max_len: int =100)-> tuple[int, torch.Tensor] : """Pads an embedding matrix to a specified maximum length.""" if m.ndim == 1: m = m.reshape(1, -1) mask = np.ones_like(m) if m.shape[0] > max_len: m = m[:max_len, :] mask = mask[:max_len, :] else: m = np.pad(m, ((0, max_len - m.shape[0]), (0,0))) mask = np.pad(mask, ((0, max_len - mask.shape[0]), (0,0))) return m, mask class EmbeddingDataset(Dataset: torch.utils.data.Dataset): """PyTorch dataset representing pretrained sentence embeddings, masks, and labels.""" def __init__(self, text: str, labels: int, max_len: int=100): self.text = text self.labels = labels self.max_len = max_len def __len__(self) -> int: return len(self.labels) def __getitem__(self, idx: int) -> dict: e = embed_line(self.text[idx]) length = e.shape[0] m, mask = pad_matrix(e, max_len=self.max_len) item = {} item['embeddings'] = torch.from_numpy(m) item['mask'] = torch.from_numpy(mask) item['labels'] = torch.tensor(self.labels[idx]) if length > self.max_len: item['lengths'] = torch.tensor(self.max_len) else: item['lengths'] = torch.tensor(length) return item

Pange tähele, et see kood eeldab, et vectors.zip fail, mis sisaldab teie fastTexti või BlazingTexti manuseid .

Lisaks saate hõlpsasti juurutada eelnevalt koolitatud fastTexti mudeleid, et luua SageMakeri lõpp-punktid, et arvutada käigupealt manustamisvektoreid, mida kasutada asjakohastes sõnatasandi ülesannetes. Vaadake järgmist GitHubi näide rohkem üksikasju.

Kallistava näoga transformerid

Teise modelleerimismeetodi puhul läheme üle käesolevas dokumendis tutvustatud transformaatorite kasutamisele Tähelepanu on kõik, mida vajate. Transformerid on süvaõppe mudelid, mis on loodud selleks, et tahtlikult vältida RNN-ide lõkse, tuginedes enesetähelepanumehhanismile, et tõmmata sisendi ja väljundi vahel globaalseid sõltuvusi. Transformeri mudeli arhitektuur võimaldab oluliselt paremat paralleelsust ja suudab saavutada kõrge jõudluse suhteliselt lühikese treeningajaga.

Toetudes ajakirjas tutvustatud Transformersi, BERTi edule BERT: sügavate kahesuunaliste trafode eelkoolitus keele mõistmiseks, lisatud kahesuunaline keeleesituse eelkoolitus. Cloze ülesandest inspireerituna on BERT eelnevalt koolitatud maskeeritud keele modelleerimisega (MLM), mille käigus mudel õpib taastama juhuslikult maskeeritud märkide originaalsõnu. BERT-i mudel on ka eelkoolitatud järgmise lause ennustamise (NSP) ülesande jaoks, et ennustada, kas kaks lauset on õiges lugemisjärjestuses. Alates selle tulekust 2018. aastal on BERTi ja selle variatsioone tekstide klassifitseerimise ülesannetes laialdaselt kasutatud.

Meie lahendus kasutab BERT-i varianti, mida tuntakse RoBERTa nime all ja mida selles artiklis tutvustati RoBERTa: Tugevalt optimeeritud BERT eelkoolitus. RoBERTa parandab veelgi BERTi jõudlust mitmesuguste loomuliku keele ülesannete puhul optimeeritud mudelikoolituse kaudu, sealhulgas 10 korda suurema korpuse pikemate koolitusmudelite abil, optimeeritud hüperparameetreid, dünaamilist juhuslikku maskeerimist, NSP-ülesande eemaldamist ja palju muud.

Meie RoBERTa-põhised mudelid kasutavad Kallistavad näomuundurid raamatukogu, mis on populaarne avatud lähtekoodiga Pythoni raamistik, mis pakub mitmesuguste NLP-ülesannete jaoks kõikvõimalike tipptasemel Transformeri mudelite kvaliteetseid teostusi. Hugging Face on teinud koostööd AWS-iga et saaksite SageMakeris hõlpsasti treenida ja juurutada Transformeri mudeleid. See funktsioon on saadaval kaudu Kallistava näoga AWS-i süvaõppe konteineri pildid, mis hõlmavad Transformerite, Tokenisaatorite ja Andmekogumite teeke ning optimeeritud integratsiooni SageMakeriga mudelikoolituse ja järelduste tegemiseks.

Oma juurutamisel pärime RoBERTa arhitektuuri selgroo Hugging Face Transformersi raamistikult ja kasutame SageMakerit oma teksti klassifitseerimismudeli koolitamiseks ja juurutamiseks, mida nimetame RoBERToxiks. RoBERTox kasutab baitpaari kodeeringut (BPE), mis võeti kasutusele aastal Haruldaste sõnade närvimasintõlge alamsõnaühikutega, et muuta sisendtekst alamsõna esitusteks. Seejärel saame koolitada oma mudeleid ja žetoone Pusle andmete või mis tahes suure domeenispetsiifilise korpuse (nt konkreetse mängu vestluslogid) põhjal ja kasutada neid kohandatud teksti klassifitseerimiseks. Määratleme oma kohandatud klassifitseerimismudeli klassi järgmises koodis:

class RoBERToxForSequenceClassification(CustomLossMixIn, RobertaPreTrainedModel): _keys_to_ignore_on_load_missing = [r"position_ids"] def __init__(self, config: PretrainedConfig, *inputs, **kwargs): """Initialize the RoBERToxForSequenceClassification instance Parameters ---------- config : PretrainedConfig num_labels : Optional[int] if not None, overwrite the default classification head in pretrained model. mode : Optional[str] 'MULTI_CLASS', 'MULTI_LABEL' or "REGRESSION". Used to determine loss class_weight : Optional[List[float]] If not None, add class weight to BCEWithLogitsLoss or CrossEntropyLoss """ super().__init__(config, *inputs, **kwargs) # Define model architecture self.roberta = RobertaModel(self.config, add_pooling_layer=False) self.classifier = RobertaClassificationHead(self.config) self.init_weights() @modeling_roberta.add_start_docstrings_to_model_forward( modeling_roberta.ROBERTA_INPUTS_DOCSTRING.format("batch_size, sequence_length") ) @modeling_roberta.add_code_sample_docstrings( tokenizer_class=modeling_roberta._TOKENIZER_FOR_DOC, checkpoint=modeling_roberta._CHECKPOINT_FOR_DOC, output_type=SequenceClassifierOutput, config_class=modeling_roberta._CONFIG_FOR_DOC, ) def forward( self, input_ids: torch.Tensor = None, attention_mask: torch.Tensor = None, token_type_ids: torch.Tensor = None, position_ids: torch.Tensor =None, head_mask: torch.Tensor =None, inputs_embeds: torch.Tensor =None, labels: torch.Tensor =None, output_attentions: torch.Tensor =None, output_hidden_states: torch.Tensor =None, return_dict: bool =None, sample_weights: torch.Tensor =None, ) -> : dict: """Forward pass to return loss, logits, ... Returns -------- output : SequenceClassifierOutput has those keys: loss, logits, hidden states, attentions """ return_dict = return_dict or self.config.use_return_dict outputs = self.roberta( input_ids, attention_mask=attention_mask, token_type_ids=token_type_ids, position_ids=position_ids, head_mask=head_mask, inputs_embeds=inputs_embeds, output_attentions=output_attentions, output_hidden_states=output_hidden_states, return_dict=return_dict, ) sequence_output = outputs[0] # [CLS] embedding logits = self.classifier(sequence_output) loss = self.compute_loss(logits, labels, sample_weights=sample_weights) if not return_dict: output = (logits,) + outputs[2:] return ((loss,) + output) if loss is not None else output return SequenceClassifierOutput( loss=loss, logits=logits, hidden_states=outputs.hidden_states, attentions=outputs.attentions, ) def compute_loss(self, logits: torch.Tensor, labels: torch.Tensor, sample_weights: Optional[torch.Tensor] = None) -> torch.FloatTensor: return super().compute_loss(logits, labels, sample_weights)

Enne treenimist valmistame ette oma tekstiandmed ja sildid, kasutades Hugging Face'i andmekogumite teeki ning laadime tulemuse Amazon S3-sse:

from datasets import Dataset
import multiprocessing data_train = Dataset.from_pandas(df_train)
… tokenizer = <instantiated_huggingface_tokenizer> def preprocess_function(examples: examples) -> torch.Tensor: result = tokenizer(examples["text"], padding="max_length", max_length=128, truncation=True) return result num_proc = multiprocessing.cpu_count()
print("Number of CPUs =", num_proc) data_train = data_train.map( preprocess_function, batched=True, load_from_cache_file=False, num_proc=num_proc
)
… import botocore
from datasets.filesystems import S3FileSystem s3_session = botocore.session.Session() # create S3FileSystem instance with s3_session
s3 = S3FileSystem(session=s3_session) # saves encoded_dataset to your s3 bucket
data_train.save_to_disk(f's3://<bucket_name>/<prefix_name>/train', fs=s3)
…

Alustame modelli koolitust sarnaselt RNN-iga:

import sagemaker
sess = sagemaker.Session()
role = sagemaker.get_execution_role()
from sagemaker.huggingface import HuggingFace # hyperparameters, which are passed into the training job
hyperparameters = { 'model-name': <huggingface_base_model_name>, 'epochs': 10, 'train-batch-size': 32, 'eval-batch-size': 64, 'num-labels': len(<list_of_label_names>), 'class-weight': ' '.join([str(c) for c in <list_of_class_weights>]), 'metric-for-best-model': 'ap_score_weighted', 'save-total-limit': 1,
} # create the Estimator
huggingface_estimator = HuggingFace( entry_point='train.py', source_dir=<source_dir_path>, instance_type=<train_instance_type>, instance_count=1, role=role, transformers_version='4.6.1', pytorch_version='1.7.1', py_version='py36', hyperparameters=hyperparameters, metric_definitions=[ {'Name': 'validation:accuracy', 'Regex': 'eval_accuracy = (.*?);'}, {'Name': 'validation:f1-micro', 'Regex': 'eval_f1_score_micro = (.*?);'}, {'Name': 'validation:f1-macro', 'Regex': 'eval_f1_score_macro = (.*?);'}, {'Name': 'validation:f1-weighted', 'Regex': 'eval_f1_score_weighted = (.*?);'}, {'Name': 'validation:ap-micro', 'Regex': 'eval_ap_score_micro = (.*?);'}, {'Name': 'validation:ap-macro', 'Regex': 'eval_ap_score_macro = (.*?);'}, {'Name': 'validation:ap-weighted', 'Regex': 'eval_ap_score_weighted = (.*?);'}, {'Name': 'validation:auc-micro', 'Regex': 'eval_auc_score_micro = (.*?);'}, {'Name': 'validation:auc-macro', 'Regex': 'eval_auc_score_macro = (.*?);'}, {'Name': 'validation:auc-weighted', 'Regex': 'eval_auc_score_weighted = (.*?);'} ]
) huggingface_estimator.fit( { 'train': 's3://<bucket_name>/<prefix_name>/train', 'valid': 's3://<bucket_name>/<prefix_name>/valid', 'test': 's3://<bucket_name>/<prefix_name>/test'
)

Lõpuks illustreerib järgmine Pythoni koodilõik RoBERToxi teenindamise protsessi reaalajas SageMakeri lõpp-punkti kaudu JSON-päringu teksti reaalajas klassifitseerimiseks:

from sagemaker.huggingface import HuggingFaceModel
from sagemaker import get_execution_role
from sagemaker.predictor import Predictor
from sagemaker.serializers import JSONSerializer
from sagemaker.deserializers import JSONDeserializer class Classifier(Predictor): def __init__(self, endpoint_name, sagemaker_session): super().__init__(endpoint_name, sagemaker_session, serializer=JSONSerializer(), deserializer=JSONDeserializer()) hf_model = HuggingFaceModel( role=get_execution_role(), model_data=<s3_model_and_tokenizer.tar.gz>, entry_point="inference.py", transformers_version="4.6.1", pytorch_version="1.7.1", py_version="py36", predictor_cls=Classifier
) predictor = hf_model.deploy(instance_type=<deploy_instance_type>, initial_instance_count=1)

Mudeli jõudluse hindamine: pusle tahtmatu kallutatuse andmestik

Järgmine tabel sisaldab jõudlusmõõdikuid mudelite kohta, mida on koolitatud ja hinnatud Pusle toksilisuse tuvastamise kaggle'i võistluse tahtmatu eelarvamuse põhjal. Koolitasime mudeleid kolme erineva, kuid omavahel seotud ülesande jaoks:

Binaarne juhtum – Mudelit koolitati kogu treeninguandmestiku põhjal, et ennustada toxicity ainult silt
Peeneteraline korpus – treeningandmete alamhulk, mille jaoks toxicity>=0.5 kasutati teiste toksilisuse alatüübi märgiste ennustamiseks (obscene, threat, insult, identity_attack, sexual_explicit)
Multitegumjuhtum – Kõigi kuue märgistuse üheaegseks ennustamiseks kasutati täielikku treeningandmestikku

Koolitasime RNN- ja RoBERTa-mudeleid nende kolme ülesande jaoks, kasutades Pusle pakutavaid murdosa silte, mis vastavad annotaatorite osakaalule, kes arvasid, et silt on teksti jaoks sobiv, samuti kahendsiltidega, mis on kombineeritud klasside kaaludega võrgus. kaotusfunktsioon. Binaarses märgistusskeemis määrati proportsioonid iga saadaoleva sildi jaoks 0.5, 1-ni (0.5, kui silt> = 0, XNUMX, muidu XNUMX) ja mudeli kadumise funktsioone kaaluti iga binaarse sildi suhtelise osakaalu alusel koolituse andmekogus. Kõigil juhtudel leidsime, et murdosa siltide kasutamine andis otseselt parima tulemuse, mis näitab annotaatorite vahelisele kokkuleppele omase teabe lisaväärtust.

Kuvame kaks mudelimõõdikut: keskmine täpsus (AP), mis annab kokkuvõtte täpsus-taaskutsumise kõverast, arvutades iga klassifikatsiooniläve juures saavutatud täpsusväärtuste kaalutud keskmise, ja vastuvõtja töökarakteristiku kõvera alune pindala (AUC). , mis koondab mudeli jõudluse klassifikatsioonilävede vahel tõelise positiivse ja valepositiivse määra suhtes. Pange tähele, et testkomplekti antud tekstieksemplari tõene klass vastab sellele, kas tegelik osakaal on suurem või võrdne 0.5-ga (1, kui silt>=0.5, muul juhul 0).

.	Alamsõna manustamine + RNN	RoBERTa
.	Murdmärgised	Binaarsed sildid + klassi kaalumine	Murdmärgised	Binaarsed sildid + klassi kaalumine
Binaarne	AP = 0.746, AUC = 0.966	AP = 0.730, AUC = 0.963	AP = 0.758, AUC = 0.966	AP = 0.747, AUC = 0.963
Peeneteraline	AP = 0.906, AUC = 0.909	AP = 0.850, AUC = 0.851	AP = 0.913, AUC = 0.913	AP = 0.911, AUC = 0.912
Multitask	AP = 0.721, AUC = 0.972	AP = 0.535, AUC = 0.907	AP = 0.740, AUC = 0.972	AP = 0.711, AUC = 0.961

Järeldus

Selles postituses tutvustasime kahte teksti klassifitseerimise lähenemisviisi veebivestluste jaoks, kasutades AWS ML teenuseid. Saate neid lahendusi üldistada kõigis võrgusuhtlusplatvormides, kusjuures sellised tööstusharud nagu hasartmängud saavad kahjuliku sisu tuvastamise parandamisest kasu. Tulevastes postitustes kavatseme täiendavalt arutada täielikku arhitektuuri mudelite sujuvaks juurutamiseks teie AWS-i kontole.

Kui soovite abi ML-i kasutamise kiirendamisel oma toodetes ja protsessides, võtke ühendust Amazon ML Solutions Lab.

Autoritest

Teksti klassifikatsioon veebivestluste jaoks masinõppega AWS PlatoBlockchain Data Intelligence'is. Vertikaalne otsing. Ai. Ryan Brand on andmeteadlane Amazoni masinõppelahenduste laboris. Tal on spetsiifilised kogemused masinõppe rakendamisel tervishoiu ja bioteaduste probleemide lahendamisel ning vabal ajal loeb ta meelsasti ajalugu ja ulmet.

Sourav Bhabesh on andmeteadlane Amazon ML Solutions Labis. Ta arendab AI/ML-lahendusi AWS-i klientidele erinevates tööstusharudes. Tema eriala on loomuliku keele töötlemine (NLP) ja ta on kirglik süvaõppesse. Väljaspool tööd meeldib talle raamatuid lugeda ja reisida.

Liutong Zhou on Amazon ML Solutions Labi rakendusteadlane. Ta ehitab AWS-i klientidele eri tööstusharudes eritellimusel AI/ML-lahendusi. Ta on spetsialiseerunud loomuliku keele töötlemisele (NLP) ja on kirglik multimodaalse süvaõppe vastu. Ta on lüüriline tenor ja talle meeldib väljaspool tööd oopereid laulda.

Sia Gholami on vanemandmeteadlane Amazon ML Solutions Labis, kus ta ehitab AI/ML lahendusi klientidele erinevatest tööstusharudest. Ta on kirglik loomuliku keele töötlemise (NLP) ja sügava õppimise vastu. Väljaspool tööd veedab Sia meelsasti looduses ja mängib tennist.

Daniel Horowitz on rakendusliku AI teaduse juht. Ta juhib Amazon ML Solutions Labi teadlaste meeskonda, kes tegeleb klientide probleemide lahendamisega ja ML-i pilve kasutuselevõtu edendamisega.

Ajatempel: Juuni 29, 2022

Ajatempel: Juuni 23, 2022

Teksti klassifikatsioon AWS-i masinõppega veebivestluste jaoks

Taasavaldanud Platon

Eeldused

Andmebaas

Alamsõnade manustamine ja RNN-id

Kallistava näoga transformerid

Mudeli jõudluse hindamine: pusle tahtmatu kallutatuse andmestik

Järeldus

Autoritest

Veel alates AWS-i masinõpe

Arukas dokumenditöötlus AWS AI teenustega: 1. osa

Host Hugging Face trafomudeleid kasutades Amazon SageMakeri serverita järeldust

Jaotatud koolitus Amazon EKS-i ja Torch Distributed Elasticuga

Exafunction toetab AWS Inferentiat, et avada masinõppe järelduste jaoks parim hinnajõudlus

Amazon SageMaker sisseehitatud LightGBM pakub nüüd hajutatud koolitust Daski abil

Uus laiendatud andmevormingu tugi Amazon Kendras

Optimeerige hüperparameetreid Amazon SageMakeri automaatse mudeli häälestamisega

Meist

Vertikaalne otsing ja Ai

Platvorm

Püsi ühenduses

konto