Ajustați modelele de limbaj transformator pentru diversitatea lingvistică cu Hugging Face pe Amazon SageMaker PlatoBlockchain Data Intelligence. Căutare verticală. Ai.

Ajustați modelele de limbaj transformator pentru diversitatea lingvistică cu Hugging Face pe Amazon SageMaker

Aproximativ 7,000 de limbi sunt folosite astăzi. În ciuda încercărilor de la sfârșitul secolului al XIX-lea de a inventa limbi construite precum volapük sau esperanto, nu există niciun semn de unificare. Oamenii încă aleg să creeze limbi noi (gândește-te la personajul tău preferat de film care vorbește klingon, dothraki sau elfiș).

Astăzi, exemplele de procesare a limbajului natural (NLP) sunt dominate de limba engleză, limba maternă pentru doar 5% din populația umană și vorbită doar de 17%.

diviziunea digitală este definită ca decalajul dintre cei care pot accesa tehnologii digitale și cei care nu pot. Lipsa accesului la cunoștințe sau educație din cauza barierelor lingvistice contribuie, de asemenea, la decalajul digital, nu numai între persoanele care nu vorbesc engleza, ci și pentru persoanele vorbitoare de engleză care nu au acces la conținut non-engleză, care reduce diversitatea gândirii și cunoștințelor. Sunt atât de multe de învățat reciproc.

În această postare, rezumăm provocările limbilor cu resurse reduse și experimentăm diferite abordări de soluții care acoperă peste 100 de limbi folosind transformatoarele Hugging Face pe Amazon SageMaker.

Ajustăm diverse modele de limbaj pre-antrenate bazate pe transformator pentru o sarcină de întrebări și răspunsuri. Folosim limba turcă în exemplul nostru, dar puteți aplica această abordare în alte limbi acceptate. Accentul nostru este pus pe variantele BERT [1]., deoarece o caracteristică excelentă a BERT este arhitectura sa unificată pentru diferite sarcini.

Demonstrăm câteva beneficii ale utilizării transformatoarelor Hugging Face Amazon SageMaker, cum ar fi instruirea și experimentarea la scară și creșterea productivității și eficienței costurilor.

Privire de ansamblu asupra NLP

Au existat mai multe dezvoltări majore în NLP începând cu 2017. Apariția arhitecturilor de învățare profundă, cum ar fi transformatoarele [2], tehnicile de învățare nesupravegheată pentru a antrena astfel de modele pe seturi de date extrem de mari și învățarea prin transfer au îmbunătățit semnificativ starea de lucru. artă în înțelegerea limbajului natural. Apariția modelelor hub-uri pre-instruite a democratizat și mai mult accesul la cunoștințele colective ale comunității NLP, eliminând nevoia de a începe de la zero.

Un model de limbaj este un model NLP care învață să prezică următorul cuvânt (sau orice cuvânt mascat) într-o secvență. Frumusețea autentică a modelelor de limbaj ca punct de plecare are trei aspecte: în primul rând, cercetările au arătat că modelele de limbaj antrenate pe date de corpus de text mare învață semnificații mai complexe ale cuvintelor decât metodele anterioare. De exemplu, pentru a putea prezice următorul cuvânt dintr-o propoziție, modelul de limbaj trebuie să fie bun la înțelegerea contextului, a semanticii și, de asemenea, a gramaticii. În al doilea rând, pentru a antrena un model de limbă, datele etichetate – care sunt rare și costisitoare – nu sunt necesare în timpul pregătirii preliminare. Acest lucru este important deoarece o cantitate enormă de date text neetichetate este disponibilă public pe web în multe limbi. În al treilea rând, s-a demonstrat că, odată ce modelul de limbaj este suficient de inteligent pentru a prezice următorul cuvânt pentru orice propoziție dată, este relativ ușor să efectuați alte sarcini NLP, cum ar fi analiza sentimentelor sau răspunsul la întrebări cu foarte puține date etichetate, deoarece reglarea fină reutilizează reprezentări dintr-un model de limbaj pre-antrenat [3].

Serviciile NLP gestionate complet au accelerat, de asemenea, adoptarea NLP. Amazon Comprehend este un serviciu complet gestionat care permite analizei de text pentru a extrage informații din conținutul documentelor și acceptă o varietate de limbi. Amazon Comprehend acceptă clasificarea personalizată și recunoașterea personalizată a entităților și vă permite să construiți modele NLP personalizate care sunt specifice cerințelor dvs., fără a fi nevoie de nicio experiență ML.

Provocări și soluții pentru limbile cu resurse reduse

Principala provocare pentru un număr mare de limbi este că au relativ mai puține date disponibile pentru formare. Acestea sunt numite limbi cu resurse reduse. Lucrarea m-BERT [4] și lucrarea XLM-R [7] se referă la urdu și swahili ca limbi cu resurse reduse.

Următoarea figură specifică codurile ISO din peste 80 de limbi și diferența de dimensiune (în scară logică) dintre cele două pre-training majore [7]. În Wikipedia (portocaliu), există doar 18 limbi cu peste 1 milion de articole și 52 de limbi cu peste 1,000 de articole, dar 164 de limbi cu doar 1–10,000 de articole [9]. Corpusul CommonCrawl (albastru) crește cantitatea de date pentru limbile cu resurse reduse cu două ordine de mărime. Cu toate acestea, ele sunt încă relativ mici în comparație cu limbile cu resurse mari, cum ar fi engleza, rusă sau germană.

Ajustați modelele de limbaj transformator pentru diversitatea lingvistică cu Hugging Face pe Amazon SageMaker PlatoBlockchain Data Intelligence. Căutare verticală. Ai.

În ceea ce privește numerele articolelor Wikipedia, turca este o altă limbă din același grup de peste 100,000 de articole (locul 28), împreună cu urdu (locul 54). În comparație cu urdu, turca ar fi considerată o limbă de resurse mijlocii. Turca are unele caracteristici interesante, care ar putea face modelele lingvistice mai puternice prin crearea anumitor provocări în lingvistică și tokenizare. Este un limbaj aglutinant. Are o ordine a cuvintelor foarte liberă, o morfologie complexă sau timpuri fără echivalente în engleză. Expresiile formate din mai multe cuvinte în limbi precum engleza pot fi exprimate cu o singură formă de cuvânt, așa cum se arată în exemplul următor.

Turcă Engleză
pisică Pisica
pisicăs Pisicas
pisicăGils Familia de pisici
Kedigillerzi Apărând la familie de pisici
pisicăleştirebileceklerimizdenmişçesineyken Când pare că acesta este unul dintre cei pe care îi putem face pisică

Două abordări principale ale soluției sunt modelele specifice limbii sau modelele multilingve (cu sau fără supraveghere în mai multe limbi):

  • Modele de limbaj monolingv – Prima abordare este aplicarea unei variante BERT la o anumită limbă țintă. Cu cât sunt mai multe date de antrenament, cu atât performanța modelului este mai bună.
  • Modele de limbaj mascat multilingv – Cealaltă abordare este de a pregăti modelele de transformatoare mari în multe limbi. Modelarea lingvistică multilingvă urmărește să rezolve problemele legate de lipsa datelor pentru limbile cu resurse reduse prin pre-instruire pe un număr mare de limbi, astfel încât sarcinile NLP învățate dintr-o limbă să poată fi transferate în alte limbi. Modelele de limbaj mascat multilingv (MLM) au promovat stadiul tehnicii în ceea ce privește sarcinile de înțelegere interlingvistică. Două exemple sunt:
    • BERT multilingv – Modelul multilingv BERT a fost instruit în 104 limbi diferite folosind corpus Wikipedia. Cu toate acestea, s-a demonstrat că se generalizează bine doar în structuri lingvistice și caracteristici tipologice similare (de exemplu, limbi cu ordine similară a cuvintelor). Multilingvitatea sa este diminuată în special pentru limbile cu ordine de cuvinte diferite (de exemplu, subiect/obiect/verb) [4].
    • XLM-R – Modelele lingvistice încrucișate (XLM) sunt antrenate cu un obiectiv interlingvistic folosind seturi de date paralele (același text în două limbi diferite) sau fără un obiectiv interlingvistic folosind seturi de date monolingve [6]. Cercetările arată că limbile cu resurse reduse beneficiază de scalarea la mai multe limbi. XLM-RoBERTa este un model bazat pe transformator inspirat de Roberta [5], iar punctul său de plecare este propunerea că BERT și XLM multilingve sunt sub-ajustate. Este antrenat pe 100 de limbi folosind atât corpus Wikipedia, cât și CommonCrawl, astfel încât cantitatea de date de antrenament pentru limbile cu resurse reduse este cu aproximativ două ordine de mărime mai mare în comparație cu m-BERT [7].

O altă provocare a modelelor de limbi multilingve pentru limbile cu resurse reduse este dimensiunea vocabularului și tokenizarea. Deoarece toate limbile folosesc același vocabular comun în modelele de limbi multilingve, există un compromis între creșterea dimensiunii vocabularului (care crește cerințele de calcul) și scăderea acestuia (cuvintele care nu sunt prezente în vocabular ar fi marcate ca necunoscute sau folosirea caracterelor). în loc de cuvinte ca simboluri ar ignora orice structură). Algoritmul de tokenizare a piesei de cuvânt combină beneficiile ambelor abordări. De exemplu, gestionează în mod eficient cuvintele în afara vocabularului prin împărțirea cuvântului în subcuvinte până când este prezent în vocabular sau până când este atins caracterul individual. Tokenizarea bazată pe caractere nu este foarte utilă, cu excepția anumitor limbi, cum ar fi chineza. Există tehnici pentru a aborda provocările pentru limbaje cu resurse reduse, cum ar fi eșantionarea cu anumite distribuții [6].

Următorul tabel ilustrează modul în care se comportă trei simboluri diferite pentru cuvântul „kedileri” (însemnând „pisicile sale”). Pentru anumite limbi și sarcini NLP, acest lucru ar face diferența. De exemplu, pentru sarcina de răspuns la întrebări, modelul returnează intervalul indexului tokenului de început și indexului jetonului final; returnarea „kediler” („pisici”) sau „kedileri” („pisicile sale”) ar pierde din context și ar duce la rezultate diferite de evaluare pentru anumite valori.

Model preantrenat Dimensiunea vocabularului Tokenizare pentru „Kedileri”*
dbmdz/bert-base-turkish-uncased 32,000 indicativele [CLS] pisici ##i [SEPT.]
ID-uri de intrare 2 23714 1023 3
bert-bază-multilingv-uncased 105,879 indicativele [CLS] ked ##iler ##i [SEPT.]
ID-uri de intrare 101 30210 33719 10116 102
deepset/xlm-roberta-base-squad2 250,002 indicativele Ke di s
ID-uri de intrare 0 1345 428 1341 .
*În engleză: (Its) cats

Prin urmare, deși limbile cu resurse reduse beneficiază de modele de limbi multilingve, efectuarea tokenizării printr-un vocabular comun poate ignora unele caracteristici lingvistice pentru anumite limbi.

În secțiunea următoare, comparăm trei abordări prin ajustarea lor pentru o sarcină de răspuns la întrebări folosind un set de date QA pentru turcă: BERTurk [8], BERT multilingv [4] și XLM-R [7].

Prezentare generală a soluțiilor

Fluxul nostru de lucru este următorul:

  1. Pregătiți setul de date într-un Amazon SageMaker Studio mediul notebook și încărcați-l în Serviciul Amazon de stocare simplă (Amazon S3).
  2. Lansați joburi de formare paralelă pe containerele de învățare profundă de formare SageMaker, furnizând scriptul de reglare fină.
  3. Colectați metadate din fiecare experiment.
  4. Comparați rezultatele și identificați cel mai potrivit model.

Următoarea diagramă ilustrează arhitectura soluției.

Ajustați modelele de limbaj transformator pentru diversitatea lingvistică cu Hugging Face pe Amazon SageMaker PlatoBlockchain Data Intelligence. Căutare verticală. Ai.

Pentru mai multe informații despre notebook-urile Studio, consultați Aprofundați în arhitectura Amazon SageMaker Studio Notebooks. Pentru mai multe informații despre modul în care Hugging Face este integrat cu SageMaker, consultați AWS și Hugging Face colaborează pentru a simplifica și accelera adoptarea modelelor de procesare a limbajului natural.

Pregătiți setul de date

Biblioteca Hugging Face Datasets oferă metode puternice de procesare a datelor pentru a pregăti rapid un set de date pentru antrenament într-un model de deep learning. Următorul cod încarcă setul de date QA turc și explorează ce se află în interior:

data_files = {}
data_files["train"] = 'data/train.json'
data_files["validation"] = 'data/val.json' ds = load_dataset("json", data_files=data_files) print("Number of features in dataset: n Train = {}, n Validation = {}".format(len(ds['train']), len(ds['validation'])))

Există aproximativ 9,000 de mostre.

Ajustați modelele de limbaj transformator pentru diversitatea lingvistică cu Hugging Face pe Amazon SageMaker PlatoBlockchain Data Intelligence. Căutare verticală. Ai.

Setul de date de intrare este ușor transformat într-un format așteptat de modelele pre-antrenate și conține următoarele coloane:

df = pd.DataFrame(ds['train'])
df.sample(1)

Ajustați modelele de limbaj transformator pentru diversitatea lingvistică cu Hugging Face pe Amazon SageMaker PlatoBlockchain Data Intelligence. Căutare verticală. Ai.
Traducerea în engleză a rezultatului este următoarea:

  • context – Resit Emre Kongar (n. 13 octombrie 1941, Istanbul), sociolog, profesor turc.
  • întrebare – Care este titlul academic al lui Emre Kongar?
  • răspunde - Profesor

Scenariul de reglare fină

Biblioteca Hugging Face Transformers oferă un exemplu de cod pentru a regla fin un model pentru o sarcină de răspuns la întrebări, numită run_qa.py. Următorul cod inițializează antrenorul:

 # Initialize our Trainer trainer = QuestionAnsweringTrainer( model=model, args=training_args, train_dataset=train_dataset, eval_dataset=eval_dataset, eval_examples=eval_examples, tokenizer=tokenizer, data_collator=data_collator, post_process_function=post_processing_function, compute_metrics=compute_metrics, )

Să revizuim blocurile de construcție la un nivel înalt.

Tokenizer

Scriptul încarcă un tokenizer folosind AutoTokenizer clasă. AutoTokenizer clasa are grijă să returneze tokenizer-ul corect care corespunde modelului:

tokenizer = AutoTokenizer.from_pretrained( model_args.model_name_or_path, cache_dir=model_args.cache_dir, use_fast=True, revision=model_args.model_revision, use_auth_token=None, )

Următorul este un exemplu de cum funcționează tokenizer-ul:

from transformers import AutoTokenizer tokenizer = AutoTokenizer.from_pretrained("deepset/xlm-roberta-base-squad2") input_ids = tokenizer.encode('İstanbulun en popüler hayvanı hangisidir? Kedileri', return_tensors="pt")
tokens = tokenizer('İstanbulun en popüler hayvanı hangisidir? Kedileri').tokens()

Ajustați modelele de limbaj transformator pentru diversitatea lingvistică cu Hugging Face pe Amazon SageMaker PlatoBlockchain Data Intelligence. Căutare verticală. Ai.

Model

Scriptul încarcă un model. AutoModel clase (de exemplu, AutoModelForQuestionAnswering) creează direct o clasă cu ponderi, configurație și vocabularul arhitecturii relevante, având în vedere numele și calea către modelul pre-antrenat. Datorită abstracției Hugging Face, poți trece cu ușurință la un alt model folosind același cod, doar furnizând numele modelului. Vedeți următorul exemplu de cod:

 model = AutoModelForQuestionAnswering.from_pretrained( model_args.model_name_or_path, config=config, cache_dir=model_args.cache_dir, revision=model_args.model_revision, )

Preprocesare și instruire

prepare_train_features() și prepare_validation_features() metodele preprocesează setul de date de antrenament și, respectiv, seturile de date de validare. Codul iterează peste setul de date de intrare și construiește o secvență din context și întrebarea curentă, cu ID-urile corecte ale tipului de jeton specifice modelului (reprezentări numerice ale tokenurilor) și măști de atenție. Secvența este apoi trecută prin model. Aceasta produce o serie de scoruri, atât pentru pozițiile de început, cât și pentru cele de sfârșit, așa cum se arată în tabelul următor.

Câmpuri pentru set de date de intrare Câmpuri preprocesate pentru set de date de instruire pentru QuestionAnsweringTrainer
id input_ids
titlu masca_atentie
context poziții_începuse
întrebare poziții_finale
Răspunsuri { answer_start, answer_text } .

Evaluare

compute_metrics() metoda se ocupă de calcularea valorilor. Utilizăm următoarele valori populare pentru sarcinile de răspuns la întrebări:

  • Potrivire perfecta – Măsoară procentul de predicții care se potrivesc exact cu oricare dintre răspunsurile adevărului de bază.
  • Scor F1 – Măsoară suprapunerea medie între predicție și răspunsul adevărului de bază. Scorul F1 este media armonică a preciziei și a reamintirii:
    • Precizie – Raportul dintre numărul de cuvinte partajate și numărul total de cuvinte din predicție.
    • Rechemare – Raportul dintre numărul de cuvinte partajate și numărul total de cuvinte din adevărul de bază.

Instruire gestionată pe SageMaker

Configurarea și gestionarea mediilor personalizate de învățare automată (ML) poate fi consumatoare de timp și greoaie. Cu Container AWS Deep Learning (DLC-uri) pentru bibliotecile Hugging Face Transformers, avem acces la cadre de învățare profundă preambalate și optimizate, ceea ce facilitează rularea scriptului nostru în mai multe joburi de antrenament cu cod suplimentar minim.

Trebuie doar să folosim Hugging Face Estimator disponibil în SDK-ul SageMaker Python cu următoarele intrări:

# Trial configuration
config['model'] = 'deepset/xlm-roberta-base-squad2'
config['instance_type'] = 'ml.p3.16xlarge'
config['instance_count'] = 2 # Define the distribution parameters in the HuggingFace Estimator config['distribution'] = {'smdistributed':{'dataparallel':{ 'enabled': True }}}
trial_configs.append(config) # We can specify a training script that is stored in a GitHub repository as the entry point for our Estimator, # so we don’t have to download the scripts locally.
git_config = {'repo': 'https://github.com/huggingface/transformers.git'} hyperparameters_qa={ 'model_name_or_path': config['model'], 'train_file': '/opt/ml/input/data/train/train.json', 'validation_file': '/opt/ml/input/data/val/val.json', 'do_train': True, 'do_eval': True, 'fp16': True, 'per_device_train_batch_size': 16, 'per_device_eval_batch_size': 16, 'num_train_epochs': 2, 'max_seq_length': 384, 'pad_to_max_length': True, 'doc_stride': 128, 'output_dir': '/opt/ml/model' } huggingface_estimator = HuggingFace(entry_point='run_qa.py', source_dir='./examples/pytorch/question-answering', git_config=git_config, instance_type=config['instance_type'], instance_count=config['instance_count'], role=role, transformers_version='4.12.3', pytorch_version='1.9.1', py_version='py38', distribution=config['distribution'], hyperparameters=hyperparameters_qa, metric_definitions=metric_definitions, enable_sagemaker_metrics=True,) nlp_training_job_name = f"NLPjob-{model}-{instance}-{int(time.time())}" training_input_path = f's3://{sagemaker_session_bucket}/{s3_prefix_qa}/' test_input_path = f's3://{sagemaker_session_bucket}/{s3_prefix_qa}/' huggingface_estimator.fit( inputs={'train': training_input_path, 'val': test_input_path}, job_name=nlp_training_job_name, experiment_config={ "ExperimentName": nlp_experiment.experiment_name, "TrialName": nlp_trial.trial_name, "TrialComponentDisplayName": nlp_trial.trial_name,}, wait=False, )

Evaluează rezultatele

Când lucrările de reglare fină pentru sarcina de răspuns la întrebările turcești sunt finalizate, comparăm performanța modelului a celor trei abordări:

  • Model de limbă monolingvă – Se numește modelul pre-antrenat ajustat pe textul turc de răspuns la întrebări bert-bază-turcă-necarcată [8]. Obține un scor F1 de 75.63 și un scor de potrivire exactă de 56.17 în doar două epoci și cu 9,000 de articole etichetate. Cu toate acestea, această abordare nu este potrivită pentru o limbă cu resurse reduse atunci când nu există un model de limbă pregătit în prealabil sau există puține date disponibile pentru antrenament de la zero.
  • Model de limbi multilingve cu BERT multilingv – Se numește modelul pre-antrenat bert-bază-multilingv-uncased. Lucrarea multilingvă BERT [4] a arătat că se generalizează bine între limbi. În comparație cu modelul monolingv, are performanțe mai proaste (scor F1 71.73, potrivire exactă 50:45), dar rețineți că acest model se ocupă de peste 100 de alte limbi, lăsând mai puțin spațiu pentru reprezentarea limbii turce.
  • Model de limbi multilingve cu XLM-R – Se numește modelul pre-antrenat xlm-roberta-base-squad2. Lucrarea XLM-R arată că este posibil să existe un singur model mare pentru peste 100 de limbi fără a sacrifica performanța pe limbă [7]. Pentru sarcina de răspuns la întrebările turcești, depășește scorurile BERT multilingv și BERT monolingv F1 cu 5%, respectiv 2% (scor F1 77.14, potrivire exactă 56.39).

Ajustați modelele de limbaj transformator pentru diversitatea lingvistică cu Hugging Face pe Amazon SageMaker PlatoBlockchain Data Intelligence. Căutare verticală. Ai.

Comparația noastră nu ia în considerare alte diferențe între modele, cum ar fi capacitatea modelului, seturile de date de antrenament utilizate, sarcinile NLP pregătite în prealabil, dimensiunea vocabularului sau tokenizarea.

Experimente suplimentare

Caietul furnizat conține exemple de experimente suplimentare.

SageMaker oferă o gamă largă de tipuri de instanțe de instruire. Am ajustat modelul XLM-R pe p3.2xlarge (GPU: Nvidia V100 GPU, arhitectura GPU: Volta (2017)), p3.16xlarge (GPU: 8 GPU-uri Nvidia V100) și g4dn.xlarge (GPU: Nvidia T4). GPU, arhitectură GPU: Turing (2018)) și a observat următoarele:

  • Durata antrenamentului – Conform experimentului nostru, modelul XLM-R a durat aproximativ 24 de minute pentru a se antrena pe p3.2xlarge și 30 de minute pe g4dn.xlarge (aproximativ 23% mai mult). De asemenea, am efectuat o reglare fină distribuită pe două instanțe p3.16xlarge, iar timpul de antrenament a scăzut la 10 minute. Pentru mai multe informații despre instruirea distribuită a unui model bazat pe transformator pe SageMaker, consultați Reglarea fină distribuită a unui model BERT Large pentru o sarcină de răspuns la întrebări folosind Hugging Face Transformers pe Amazon SageMaker.
  • Costuri de formare – Am folosit API-ul AWS Pricing pentru a prelua prețurile la cerere SageMaker pentru a le calcula din mers. Conform experimentului nostru, antrenamentul a costat aproximativ 1.58 USD pe p3.2xlarge și de aproximativ patru ori mai puțin pe g4dn.xlarge (0.37 USD). Instruirea distribuită pe două instanțe p3.16xlarge folosind 16 GPU-uri costă 9.68 USD.

Pentru a rezuma, deși g4dn.xlarge a fost cea mai puțin costisitoare mașină, a fost nevoie de aproximativ trei ori mai mult de antrenat decât cel mai puternic tip de instanță cu care am experimentat (două p3.16xlarge). În funcție de prioritățile proiectului dvs., puteți alege dintr-o mare varietate de tipuri de instanțe de instruire SageMaker.

Concluzie

În această postare, am explorat reglarea fină a modelelor de limbaj bazate pe transformatoare pre-antrenate pentru o sarcină de răspuns la întrebări pentru o limbă cu resurse medii (în acest caz, turcă). Puteți aplica această abordare în peste 100 de limbi folosind un singur model. În momentul de față, extinderea unui model pentru a acoperi toate cele 7,000 de limbi ale lumii este încă prohibitivă, dar domeniul NLP oferă o oportunitate de a ne lărgi orizonturile.

Limba este principala metodă de comunicare umană și este un mijloc de comunicare a valorilor și de împărtășire a frumuseții unei moșteniri culturale. Diversitatea lingvistică întărește dialogul intercultural și construiește societăți incluzive.

ML este un proces extrem de iterativ; pe parcursul unui singur proiect, oamenii de știință de date antrenează sute de modele, seturi de date și parametri diferiți în căutarea preciziei maxime. SageMaker oferă cel mai complet set de instrumente pentru a valorifica puterea ML și a învățării profunde. Vă permite să organizați, să urmăriți, să comparați și să evaluați experimentele ML la scară.

Hugging Face este integrat cu SageMaker pentru a ajuta oamenii de știință să dezvolte, să antreneze și să ajusteze modele de ultimă generație NLP mai rapid și ușor. Am demonstrat câteva beneficii ale utilizării transformatoarelor Hugging Face pe Amazon SageMaker, cum ar fi instruirea și experimentarea la scară, precum și creșterea productivității și eficiența costurilor.

Puteți experimenta sarcini NLP în limba preferată în SageMaker în toate regiunile AWS în care SageMaker este disponibil. Exemplul de cod pentru notebook este disponibil în GitHub.

Pentru a afla cum Amazon SageMaker Training Compiler poate accelera formarea modelelor de deep learning cu până la 50%, consultați Nou – Vă prezentăm SageMaker Training Compiler.

Autorii ar dori să-și exprime cea mai profundă apreciere lui Mariano Kamp și Emily Webber pentru revizuirea proiectelor și furnizarea de sfaturi.

Referinte

  1. J. Devlin și colab., „BERT: Pre-Training of Deep Bidirectional Transformers for Language Understanding”, (2018).
  2. A. Vaswani și colab., „Attention Is All You Need”, (2017).
  3. J. Howard și S. Ruder, „Universal Language Model Fine-Tuning for Text Classification”, (2018).
  4. T. Pires et al., „How multilingual is Multilingual BERT?”, (2019).
  5. Y. Liu și colab., „RoBERTa: A Robustly Optimized BERT Pretraining Approach”, (2019).
  6. G. Lampe și A. Conneau, „Cross-Lingual Language Model Pretraining”, (2019).
  7. A. Conneau și colab., „Unsupervised Cross-Lingual Representation Learning at Scale”, (2019).
  8. Stefan Schweter. BERTurk – modele BERT pentru turcă (2020).
  9. Statistici Wiki multilingve https://en.wikipedia.org/wiki/Wikipedia:Statistici_multilingve

Despre Autori

Ajustați modelele de limbaj transformator pentru diversitatea lingvistică cu Hugging Face pe Amazon SageMaker PlatoBlockchain Data Intelligence. Căutare verticală. Ai.Arnav Khare este arhitect principal de soluții pentru servicii financiare globale la AWS. Obiectivul său principal este de a ajuta instituțiile de servicii financiare să construiască și să proiecteze aplicații de analiză și învățare automată în cloud. Arnav deține un Master în Inteligență Artificială de la Universitatea Edinburgh și are 18 ani de experiență în industrie, de la startup-uri mici pe care le-a fondat până la întreprinderi mari precum Nokia și Bank of America. În afara serviciului, lui Arnav îi place să petreacă timpul cu cele două fiice ale sale, să găsească noi cafenele independente, să citească și să călătorească. Mă puteți găsi pe LinkedIn și în Surrey, Marea Britanie în viața reală.

Ajustați modelele de limbaj transformator pentru diversitatea lingvistică cu Hugging Face pe Amazon SageMaker PlatoBlockchain Data Intelligence. Căutare verticală. Ai.Hasan-Basri AKIRMAK (BSc și MSc în Inginerie Calculatoare și Executive MBA în Graduate School of Business) este arhitect senior de soluții la Amazon Web Services. Este un tehnolog în afaceri care consiliază clienții din segmentul întreprinderilor. Domeniul său de specialitate este proiectarea de arhitecturi și cazuri de afaceri pe sisteme de procesare a datelor la scară largă și soluții de învățare automată. Hasan a oferit dezvoltarea afacerilor, integrarea sistemelor, managementul programelor pentru clienți din Europa, Orientul Mijlociu și Africa. Din 2016 a îndrumat pro-bono sute de antreprenori la programele de incubare a startup-urilor.

Ajustați modelele de limbaj transformator pentru diversitatea lingvistică cu Hugging Face pe Amazon SageMaker PlatoBlockchain Data Intelligence. Căutare verticală. Ai.Heiko Hotz este arhitect senior de soluții pentru AI și învățare automată și conduce comunitatea de procesare a limbajului natural (NLP) din cadrul AWS. Înainte de acest rol, a fost șeful departamentului de știință a datelor pentru Serviciul Clienți al Amazon UE. Heiko îi ajută pe clienții noștri să aibă succes în călătoria lor AI/ML pe AWS și a lucrat cu organizații din multe industrii, inclusiv asigurări, servicii financiare, media și divertisment, asistență medicală, utilități și producție. În timpul liber, Heiko călătorește cât mai mult posibil.

Timestamp-ul:

Mai mult de la Învățare automată AWS