Täpsustage trafokeelemudeleid keelelise mitmekesisuse jaoks rakendusega Hugging Face rakenduses Amazon SageMaker PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Trafo keelemudelite peenhäälestus keelelise mitmekesisuse jaoks rakendusega Hugging Face Amazon SageMakeris

Tänapäeval on kasutusel ligikaudu 7,000 keelt. Vaatamata 19. sajandi lõpu katsetele leiutada konstrueeritud keeli, nagu volapük või esperanto, pole ühtimisest märki. Inimesed valivad endiselt uusi keeli (mõelge oma lemmikfilmitegelasele, kes räägib klingoni, dothraki või haldja keelt).

Tänapäeval domineerib loomuliku keele töötlemise (NLP) näidetes inglise keel, mis on emakeel vaid 5% elanikkonnast ja mida räägib ainult 17%.

. digitaalne lõhe määratletakse kui lõhet nende vahel, kellel on juurdepääs digitehnoloogiale, ja nende vahel, kes seda ei saa. Keelebarjääri tõttu puudub juurdepääs teadmistele või haridusele, mis aitab kaasa digitaalsele lõhele mitte ainult inimeste vahel, kes ei räägi inglise keelt, vaid ka inglise keelt kõnelevate inimeste vahel, kellel puudub juurdepääs mitte-ingliskeelsele sisule. vähendab mõtete ja teadmiste mitmekesisust. Vastastikuselt on nii palju õppida.

Selles postituses võtame kokku vähese ressursiga keelte väljakutsed ja katsetame erinevaid lahendusviise, mis hõlmavad rohkem kui 100 keelt, kasutades Amazon SageMakeri Hugging Face trafosid.

Täpsustame erinevaid eelkoolitatud trafopõhiseid keelemudeleid küsimuste ja vastamise ülesande jaoks. Kasutame oma näites türgi keelt, kuid võite seda lähenemist rakendada ka mõne muu toetatud keele puhul. Meie tähelepanu keskmes on BERTi [1] variandid, sest BERTi suurepärane omadus on selle ühtne arhitektuur erinevate ülesannete jaoks.

Näitame Hugging Face trafode kasutamise eeliseid Amazon SageMaker, nagu koolitus ja mastaapsed katsed ning suurenenud tootlikkus ja kulutõhusus.

Ülevaade NLP-st

Alates 2017. aastast on NLP-s toimunud mitmeid suuri arenguid. Süvaõppearhitektuuride, näiteks transformaatorite [2] esilekerkimine, järelevalveta õppemeetodid selliste mudelite treenimiseks ülisuurtel andmekogudel ja ülekandeõpe on oluliselt parandanud kunst loomulikus keeles arusaamises. Eelkoolitatud mudelikeskuste tulek on veelgi demokratiseerinud juurdepääsu NLP kogukonna kollektiivsetele teadmistele, kaotades vajaduse alustada nullist.

Keelemudel on NLP-mudel, mis õpib ennustama jadas järgmist sõna (või mis tahes maskeeritud sõna). Keelemudelite kui lähtepunktide tõeline ilu on kolmekordne: Esiteks on uuringud näidanud, et suurel tekstikorpuse andmetel treenitud keelemudelid õpivad sõnade keerukamaid tähendusi kui varasemad meetodid. Näiteks selleks, et oleks võimalik ennustada lauses järgmist sõna, peab keelemudel mõistma hästi konteksti, semantikat ja ka grammatikat. Teiseks, keelemudeli koolitamiseks ei ole eelkoolituse ajal vaja sildistatud andmeid, mis on vähe ja kallid. See on oluline, sest tohutul hulgal märgistamata tekstiandmeid on veebis avalikult saadaval paljudes keeltes. Kolmandaks on näidatud, et kui keelemudel on piisavalt nutikas, et ennustada mis tahes lause järgmist sõna, on suhteliselt lihtne täita muid NLP-ülesandeid, nagu sentimentide analüüs või küsimustele vastamine, väga väheste märgistatud andmetega, kuna peenhäälestus taaskasutab. esindused eelkoolitatud keelemudelist [3].

Täielikult hallatavad NLP-teenused on samuti kiirendanud NLP kasutuselevõttu. Amazoni mõistmine on täielikult hallatav teenus, mis võimaldab tekstianalüütikal dokumentide sisust ülevaadet saada, ja see toetab mitmesuguseid keeli. Amazon Comprehend toetab kohandatud klassifitseerimist ja kohandatud olemituvastust ning võimaldab teil luua kohandatud NLP-mudeleid, mis vastavad teie vajadustele, ilma et oleks vaja ML-teadmisi.

Väljakutsed ja lahendused vähese ressursiga keeltele

Paljude keelte peamine väljakutse on see, et neil on koolituseks suhteliselt vähem andmeid. Neid nimetatakse vähese ressursiga keeled. M-BERT-i paber [4] ja XLM-R-artikkel [7] viitavad urdu ja suahiili keelele kui vähese ressursiga keeltele.

Järgmisel joonisel on määratletud enam kui 80 keele ISO-koodid ja kahe suurema eelkoolituse suuruse erinevus (logimõõtkavas) [7]. Vikipeedias (oranž) on ainult 18 keelt üle 1 miljoni artikliga ja 52 keeles üle 1,000 artikliga, kuid 164 keelt ainult 1–10,000 9 artikliga [XNUMX]. CommonCrawli korpus (sinine) suurendab vähese ressursiga keelte andmemahtu kahe suurusjärgu võrra. Sellegipoolest on need endiselt suhteliselt väikesed, võrreldes suurte ressurssidega keeltega, nagu inglise, vene või saksa keel.

Täpsustage trafokeelemudeleid keelelise mitmekesisuse jaoks rakendusega Hugging Face rakenduses Amazon SageMaker PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Vikipeedia artiklite arvu poolest on türgi keel samas üle 100,000 28 artikliga grupis teine ​​keel (54.) koos urdu keelega (XNUMX.). Urdu keelega võrreldes peetakse türgi keelt keskmise ressursi keeleks. Türgi keelel on mõned huvitavad omadused, mis võivad keelemudeleid võimsamaks muuta, luues keeleteaduses ja tokeniseerimises teatud väljakutseid. See on aglutinatiivne keel. Sellel on väga vaba sõnajärg, keeruline morfoloogia või ajavormid ilma ingliskeelsete vasteteta. Mitmest sõnast koosnevaid fraase sellistes keeltes nagu inglise keel saab väljendada ühe sõnavormiga, nagu on näidatud järgmises näites.

türgi Inglise
kass kass
kassler kasss
kassgiller Perekond kassid
Kedigillerpäev Kuulumine kasside perekond
kassleştirebileceklerimizdenmişçesineyken Kui tundub, et see on üks neist, mida saame teha kass

Kaks peamist lahendusviisi on keelepõhised mudelid või mitmekeelsed mudelid (keeleülese järelevalvega või ilma):

  • Ükskeelsed keelemudelid – Esimene lähenemisviis on BERTi variandi rakendamine konkreetsele sihtkeelele. Mida rohkem on treeningandmeid, seda parem on mudeli jõudlus.
  • Mitmekeelsed maskeeritud keelemudelid – Teine lähenemisviis on suurte trafomudelite eelkoolitamine paljudes keeltes. Mitmekeelse keele modelleerimise eesmärk on lahendada vähese ressursiga keelte andmeprobleemid, tehes eelkoolituse suurel hulgal keeltel, et ühest keelest õpitud NLP-ülesandeid saaks üle kanda teistesse keeltesse. Mitmekeelsed maskeeritud keelemudelid (MLM-id) on keeleüleste mõistmisülesannete lahendamisel nüüdisaegselt edasi lükanud. Kaks näidet on:
    • Mitmekeelne BERT – Mitmekeelset BERTi mudelit õpetati Vikipeedia korpuse abil 104 erinevas keeles. Siiski on näidatud, et see üldistab hästi ainult sarnaste keelestruktuuride ja tüpoloogiliste tunnuste puhul (näiteks sarnase sõnajärjega keeled). Selle mitmekeelsus väheneb eriti erineva sõnajärjega keelte puhul (näiteks subjekt/objekt/verb) [4].
    • XLM-R – Keeleüleseid keelemudeleid (XLM-e) koolitatakse keeleülese eesmärgiga, kasutades paralleelseid andmekogumeid (sama tekst kahes erinevas keeles) või ilma keeleülese eesmärgita, kasutades ükskeelseid andmekogumeid [6]. Uuringud näitavad, et vähese ressursiga keeled saavad kasu, kui skaleerida rohkematele keeltele. XLM-RoBERTa on trafopõhine mudel, mis on inspireeritud RoBERTast [5] ja selle lähtepunktiks on väide, et mitmekeelsed BERT ja XLM on alahäälestatud. Seda on koolitatud 100 keeles, kasutades nii Wikipedia kui ka CommonCrawli korpust, seega on vähese ressursiga keelte koolitusandmete hulk ligikaudu kaks suurusjärku suurem kui m-BERT [7].

Veel üks vähese ressursiga keelte mitmekeelsete keelemudelite väljakutse on sõnavara suurus ja tokeniseerimine. Kuna kõik keeled kasutavad mitmekeelsetes keelemudelites sama jagatud sõnavara, on olemas kompromiss sõnavara mahu suurendamise (mis suurendab arvutusnõudeid) ja selle vähendamise vahel (sõnavaras puuduvad sõnad märgitakse tundmatuks või märkide kasutamine). sõnade asemel eiraksid märgid mis tahes struktuuri). Sõnaosa märgistamise algoritm ühendab mõlema lähenemisviisi eelised. Näiteks käsitleb see tõhusalt sõnavaraväliseid sõnu, jagades sõna alamsõnadeks, kuni see sõnavaras sisaldub või kuni üksiku märgini jõutakse. Märgipõhine tokeniseerimine pole eriti kasulik, välja arvatud teatud keeltes, näiteks hiina keeles. Madala ressursiga keelte probleemide lahendamiseks on olemas tehnikad, näiteks teatud distributsioonide proovide võtmine [6].

Järgmises tabelis on kujutatud, kuidas kolm erinevat tokenisaatorit käituvad sõna "kedileri" (tähendab "selle kassid") puhul. Teatud keelte ja NLP-ülesannete puhul oleks see erinev. Näiteks küsimusele vastamise ülesande puhul tagastab mudel algusmärgi indeksi ja lõpumärgi indeksi ulatuse; "kedileri" ("kassid") või "kedileri" ("selle kassid") tagastamine kaotaks osa kontekstist ja tooks teatud mõõdikute puhul kaasa erinevaid hindamistulemusi.

Eelkoolitatud mudel Sõnavara suurus Tokeniseerimine “Kedileri”* jaoks
dbmdz/bert-base-turkish-uncased 32,000 märgid [CLS] kassid ##i [SEP]
Sisend ID-d 2 23714 1023 3
bert-base-multilingual-uncased 105,879 märgid [CLS] ked ##iler ##i [SEP]
Sisend ID-d 101 30210 33719 10116 102
deepset/xlm-roberta-base-squad2 250,002 märgid Ke di s
Sisend ID-d 0 1345 428 1341 .
*Inglise keeles: (Its) cats

Seetõttu, kuigi vähese ressursiga keeled saavad mitmekeelsetest keelemudelitest kasu, võib ühise sõnavara kaudu märgistamine ignoreerida teatud keelte keelelisi omadusi.

Järgmises jaotises võrdleme kolme lähenemisviisi, täpsustades neid küsimustele vastamise ülesande jaoks, kasutades türgi keele kvaliteedikontrolli andmestikku: BERTurk [8], mitmekeelne BERT [4] ja XLM-R [7].

Lahenduse ülevaade

Meie töövoog on järgmine:

  1. Valmistage andmestik ette an Amazon SageMaker Studio märkmikukeskkond ja laadige see üles Amazoni lihtne salvestusteenus (Amazon S3).
  2. Käivitage paralleelsed koolitustööd rakenduses SageMaker, mis treenib sügavaid õppekonteinereid, pakkudes peenhäälestusskripti.
  3. Koguge igast katsest metaandmeid.
  4. Võrrelge tulemusi ja valige kõige sobivam mudel.

Järgnev diagramm illustreerib lahenduse arhitektuuri.

Täpsustage trafokeelemudeleid keelelise mitmekesisuse jaoks rakendusega Hugging Face rakenduses Amazon SageMaker PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Lisateavet Studio sülearvutite kohta leiate aadressilt Sukelduge sügavale Amazon SageMaker Studio sülearvutite arhitektuuri. Lisateavet selle kohta, kuidas Hugging Face on SageMakeriga integreeritud, leiate artiklist AWS ja Hugging Face teevad koostööd, et lihtsustada ja kiirendada loomuliku keele töötlemise mudelite kasutuselevõttu.

Valmistage ette andmestik

Hugging Face Datasetsi teek pakub võimsaid andmetöötlusmeetodeid, et andmekogum kiiresti süvaõppemudeli koolituseks valmis saada. Järgmine kood laadib Türgi kvaliteedikontrolli andmestiku ja uurib, mis seal sees on:

data_files = {}
data_files["train"] = 'data/train.json'
data_files["validation"] = 'data/val.json' ds = load_dataset("json", data_files=data_files) print("Number of features in dataset: n Train = {}, n Validation = {}".format(len(ds['train']), len(ds['validation'])))

Seal on umbes 9,000 proovi.

Täpsustage trafokeelemudeleid keelelise mitmekesisuse jaoks rakendusega Hugging Face rakenduses Amazon SageMaker PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Sisendandmekogum on veidi muudetud vormingusse, mida eeldavad eelkoolitatud mudelid ja see sisaldab järgmisi veerge.

df = pd.DataFrame(ds['train'])
df.sample(1)

Täpsustage trafokeelemudeleid keelelise mitmekesisuse jaoks rakendusega Hugging Face rakenduses Amazon SageMaker PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.
Väljundi ingliskeelne tõlge on järgmine:

  • kontekst – Resit Emre Kongar (s. 13. oktoober 1941 Istanbul), Türgi sotsioloog, professor.
  • küsimus – Mis on Emre Kongari akadeemiline nimetus?
  • vastus — Professor

Skripti peenhäälestus

Hugging Face Transformersi teek pakub näidiskoodi, et täpsustada mudelit küsimusele vastamise ülesande jaoks, nn. run_qa.py. Järgmine kood initsialiseerib treeneri:

 # Initialize our Trainer trainer = QuestionAnsweringTrainer( model=model, args=training_args, train_dataset=train_dataset, eval_dataset=eval_dataset, eval_examples=eval_examples, tokenizer=tokenizer, data_collator=data_collator, post_process_function=post_processing_function, compute_metrics=compute_metrics, )

Vaatame ehitusplokid kõrgel tasemel üle.

Tokenisaator

Skript laadib tokenisaatori, kasutades AutoTokenizer klass. The AutoTokenizer klass hoolitseb mudelile vastava õige tokenisaatori tagastamise eest:

tokenizer = AutoTokenizer.from_pretrained( model_args.model_name_or_path, cache_dir=model_args.cache_dir, use_fast=True, revision=model_args.model_revision, use_auth_token=None, )

Järgnev on näide tokenisaatori toimimisest:

from transformers import AutoTokenizer tokenizer = AutoTokenizer.from_pretrained("deepset/xlm-roberta-base-squad2") input_ids = tokenizer.encode('İstanbulun en popüler hayvanı hangisidir? Kedileri', return_tensors="pt")
tokens = tokenizer('İstanbulun en popüler hayvanı hangisidir? Kedileri').tokens()

Täpsustage trafokeelemudeleid keelelise mitmekesisuse jaoks rakendusega Hugging Face rakenduses Amazon SageMaker PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

MUDEL

Skript laadib mudeli. AutoModel klassid (näiteks AutoModelForQuestionAnswering) loob otse klassi vastava arhitektuuri kaalude, konfiguratsiooni ja sõnavaraga, millele antakse eelkoolitatud mudeli nimi ja tee. Tänu Hugging Face'i abstraktsioonile saate hõlpsasti lülituda teisele mudelile, kasutades sama koodi, sisestades lihtsalt mudeli nime. Vaadake järgmist näidiskoodi:

 model = AutoModelForQuestionAnswering.from_pretrained( model_args.model_name_or_path, config=config, cache_dir=model_args.cache_dir, revision=model_args.model_revision, )

Eeltöötlus ja koolitus

. prepare_train_features() ja prepare_validation_features() meetodid eeltöötlevad vastavalt koolitusandmestikku ja valideerimisandmekogumeid. Kood kordab sisendandmestiku ja loob kontekstist ja praegusest küsimusest jada koos õigete mudelispetsiifiliste märgitüübi ID-dega (märkide numbrilised esitused) ja tähelepanu maskidega. Seejärel juhitakse jada läbi mudeli. See annab tulemuseks hulga hindeid nii algus- kui ka lõpppositsioonide kohta, nagu on näidatud järgmises tabelis.

Sisendandmestiku väljad QuestionAnsweringTraineri eeltöödeldud koolitusandmestiku väljad
id sisend_id
pealkiri tähelepanu_mask
kontekst alguspositsioonid
küsimus lõpp_positsioonid
Vastused { answer_start, answer_text } .

Hindamine

. compute_metrics() meetod hoolitseb mõõdikute arvutamise eest. Kasutame küsimustele vastamiseks järgmisi populaarseid mõõdikuid:

  • Täpne vaste – Mõõdab ennustuste protsenti, mis vastavad täpselt ühele põhitõevastusele.
  • F1 skoor – Mõõdab ennustuse ja põhitõe vastuse keskmist kattuvust. F1 skoor on täpsuse ja meeldetuletuse harmooniline keskmine:
    • Täpsus – Jagatud sõnade arvu ja ennustuses olevate sõnade koguarvu suhe.
    • Tagasikutsumine – jagatud sõnade arvu ja põhitõe sõnade koguarvu suhe.

Hallatud koolitust SageMakeris

Kohandatud masinõppe (ML) keskkondade seadistamine ja haldamine võib olla aeganõudev ja tülikas. Koos AWS-i süvaõppe konteiner (DLC-de) Hugging Face Transformersi teekide jaoks on meil juurdepääs eelpakendatud ja optimeeritud süvaõppe raamistikele, mis muudab meie skripti käitamise mitmes koolitustöös minimaalse lisakoodiga lihtsaks.

Peame lihtsalt kasutama Kallistava näo hindaja Saadaval SageMaker Python SDK-s järgmiste sisenditega:

# Trial configuration
config['model'] = 'deepset/xlm-roberta-base-squad2'
config['instance_type'] = 'ml.p3.16xlarge'
config['instance_count'] = 2 # Define the distribution parameters in the HuggingFace Estimator config['distribution'] = {'smdistributed':{'dataparallel':{ 'enabled': True }}}
trial_configs.append(config) # We can specify a training script that is stored in a GitHub repository as the entry point for our Estimator, # so we don’t have to download the scripts locally.
git_config = {'repo': 'https://github.com/huggingface/transformers.git'} hyperparameters_qa={ 'model_name_or_path': config['model'], 'train_file': '/opt/ml/input/data/train/train.json', 'validation_file': '/opt/ml/input/data/val/val.json', 'do_train': True, 'do_eval': True, 'fp16': True, 'per_device_train_batch_size': 16, 'per_device_eval_batch_size': 16, 'num_train_epochs': 2, 'max_seq_length': 384, 'pad_to_max_length': True, 'doc_stride': 128, 'output_dir': '/opt/ml/model' } huggingface_estimator = HuggingFace(entry_point='run_qa.py', source_dir='./examples/pytorch/question-answering', git_config=git_config, instance_type=config['instance_type'], instance_count=config['instance_count'], role=role, transformers_version='4.12.3', pytorch_version='1.9.1', py_version='py38', distribution=config['distribution'], hyperparameters=hyperparameters_qa, metric_definitions=metric_definitions, enable_sagemaker_metrics=True,) nlp_training_job_name = f"NLPjob-{model}-{instance}-{int(time.time())}" training_input_path = f's3://{sagemaker_session_bucket}/{s3_prefix_qa}/' test_input_path = f's3://{sagemaker_session_bucket}/{s3_prefix_qa}/' huggingface_estimator.fit( inputs={'train': training_input_path, 'val': test_input_path}, job_name=nlp_training_job_name, experiment_config={ "ExperimentName": nlp_experiment.experiment_name, "TrialName": nlp_trial.trial_name, "TrialComponentDisplayName": nlp_trial.trial_name,}, wait=False, )

Hinnake tulemusi

Kui Türgi küsimusele vastamise ülesande peenhäälestustööd on lõpetatud, võrdleme kolme lähenemisviisi mudeli toimivust:

  • Ükskeelne keelemudel – Eelkoolitatud mudelit, mis on peenhäälestatud türgi küsimusele vastamise teksti järgi, kutsutakse bert-base-türgi-kasutamata [8]. See saavutab F1 skoori 75.63 ja täpse vaste 56.17 ainult kahel perioodil ja 9,000 märgistatud kaubaga. See lähenemisviis ei sobi aga vähese ressursiga keele jaoks, kui eelkoolitatud keelemudelit pole olemas või kui nullist treenimiseks on vähe andmeid.
  • Mitmekeelne keelemudel koos mitmekeelse BERTiga – Eelkoolitatud mudelit nimetatakse bert-base-multilingual-uncased. Mitmekeelne BERTi dokument [4] on näidanud, et see üldistatakse hästi erinevates keeltes. Võrreldes ükskeelse mudeliga, toimib see kehvemini (F1 skoor 71.73, täpne vaste 50:45), kuid pange tähele, et see mudel käsitleb rohkem kui 100 muud keelt, jättes vähem ruumi türgi keele esindamiseks.
  • Mitmekeelne keelemudel XLM-R-ga – Eelkoolitatud mudelit nimetatakse xlm-roberta-base-squad2. XLM-R artikkel näitab, et on võimalik luua üks suur mudel enam kui 100 keele jaoks, ilma et see peaks ohverdama keelepõhist jõudlust [7]. Türgi küsimustele vastamise ülesande puhul ületab see mitmekeelse BERTi ja ühekeelse BERT F1 skoori vastavalt 5% ja 2% võrra (F1 skoor 77.14, täpne vaste 56.39).

Täpsustage trafokeelemudeleid keelelise mitmekesisuse jaoks rakendusega Hugging Face rakenduses Amazon SageMaker PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Meie võrdlus ei võta arvesse muid erinevusi mudelite vahel, nagu mudeli võimsus, kasutatavad koolitusandmestikud, eelkoolitatud NLP-ülesanded, sõnavara suurus või tokeniseerimine.

Täiendavad katsed

Kaasasolev märkmik sisaldab täiendavaid katsenäiteid.

SageMaker pakub laia valikut koolituseksemplari tüüpe. Täpsustasime mudelit XLM-R p3.2xlarge (GPU: Nvidia V100 GPU, GPU arhitektuur: Volta (2017)), p3.16xlarge (GPU: 8 Nvidia V100 GPU) ja g4dn.xlarge (GPU: Nvidia T4) GPU, GPU arhitektuur: Turing (2018)) ja täheldas järgmist:

  • Treeningu kestus – Meie katse kohaselt kulus XLM-R mudelil p24xlarge treenimiseks umbes 3.2 minutit ja mudelil g30dn.xlarge 4 minutit (umbes 23% kauem). Samuti tegime kahel p3.16xsuurel eksemplaril hajutatud peenhäälestuse ja treeninguaeg vähenes 10 minutini. Lisateavet SageMakeri trafopõhise mudeli hajutatud väljaõppe kohta leiate aadressilt BERT Large mudeli hajutatud peenhäälestus küsimustele vastamise ülesande jaoks, kasutades Amazon SageMakeris Hugging Face Transformereid.
  • Koolituskulud – Kasutasime AWS-i hinnakujunduse API-d, et hankida SageMakeri nõudmisel hinnad, et need jooksvalt arvutada. Meie katse kohaselt maksis koolitus p1.58xlarge'il umbes 3.2 dollarit ja g4dn.xlarge'i puhul umbes neli korda vähem (0.37 dollarit). Jaotatud koolitus kahel p3.16xsuurel eksemplaril, kasutades 16 GPU-d, maksis 9.68 dollarit.

Kokkuvõtteks võib öelda, et kuigi g4dn.xlarge oli kõige odavam masin, kulus selle treenimiseks ka umbes kolm korda kauem aega kui kõige võimsama eksemplaritüübi puhul, millega katsetasime (kaks p3.16xlarge'i). Sõltuvalt teie projekti prioriteetidest saate valida paljude SageMakeri koolituseksemplari tüüpide hulgast.

Järeldus

Selles postituses uurisime eelkoolitatud trafopõhiseid keelemudeleid keskmise ressursi keele (antud juhul türgi) küsimustele vastamise ülesande jaoks. Saate seda lähenemisviisi ühe mudeli abil rakendada enam kui 100 muus keeles. Kirjutamise seisuga on mudeli suurendamine, et see hõlmaks kõiki maailma 7,000 keelt, endiselt üle jõu käiv, kuid NLP valdkond annab võimaluse meie silmaringi laiendada.

Keel on inimeste suhtlemise peamine meetod ning väärtuste edastamise ja kultuuripärandi ilu jagamise vahend. Keeleline mitmekesisus tugevdab kultuuridevahelist dialoogi ja loob kaasavaid ühiskondi.

ML on väga iteratiivne protsess; Ühe projekti käigus koolitavad andmeteadlased maksimaalse täpsuse saavutamiseks sadu erinevaid mudeleid, andmekogumeid ja parameetreid. SageMaker pakub kõige täiuslikumat tööriistakomplekti ML ja sügava õppimise võimsuse kasutamiseks. See võimaldab teil korraldada, jälgida, võrrelda ja hinnata ML-eksperimente ulatuslikult.

Hugging Face on integreeritud SageMakeriga, et aidata andmeteadlastel arendada, koolitada ja häälestada nüüdisaegseid NLP-mudeleid kiiremini ja lihtsamalt. Näitasime Hugging Face trafode kasutamisest Amazon SageMakeris mitmeid eeliseid, nagu koolitus ja ulatuslik katsetamine ning tootlikkuse ja kuluefektiivsuse suurendamine.

Saate katsetada NLP-ülesandeid oma eelistatud keeles SageMakeris kõigis AWS-i piirkondades, kus SageMaker on saadaval. Sülearvuti koodi näide on saadaval keeles GitHub.

Et teada saada, kuidas Amazon SageMaker Training Compiler saab kiirendada süvaõppe mudelite väljaõpet kuni 50% võrra, vt. Uus – tutvustame SageMakeri koolituste kompilaatorit.

Autorid soovivad avaldada sügavat tänu Mariano Kampile ja Emily Webberile kavandite läbivaatamise ja nõustamise eest.

viited

  1. J. Devlin jt, “BERT: Pre-Training of Deep Bidirectional Transformers for Language Understanding”, (2018).
  2. A. Vaswani jt, “Tähelepanu on kõik, mida vajad”, (2017).
  3. J. Howard ja S. Ruder, “Universal Language Model Fine-Tuning for Text Classification” (2018).
  4. T. Pires jt, “Kui mitmekeelne on mitmekeelne BERT?”, (2019).
  5. Y. Liu jt, “RoBERTa: A Robustly Optimized BERT Pretraining Approach” (2019).
  6. G. Lample ja A. Conneau, “Cross-lingual Language Model Pretraining”, (2019).
  7. A. Conneau jt, “Supervised Cross-Lingual Representation Learning at Scale”, (2019).
  8. Stefan Schweter. BERTurk – BERTi mudelid türgi keelele (2020).
  9. Mitmekeelne Viki statistika https://en.wikipedia.org/wiki/Wikipedia:Multilingual_statistics

Autoritest

Täpsustage trafokeelemudeleid keelelise mitmekesisuse jaoks rakendusega Hugging Face rakenduses Amazon SageMaker PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.Arnav Khare on AWS-i globaalsete finantsteenuste peamine lahenduste arhitekt. Tema peamine eesmärk on aidata finantsteenuste asutustel luua ja kujundada pilves Analyticsi ja masinõppe rakendusi. Arnavil on Edinburghi ülikooli tehisintellekti magistrikraad ja tal on 18-aastane kogemus tööstuses, alates tema asutatud väikestest idufirmadest kuni suurte ettevõteteni, nagu Nokia ja Bank of America. Väljaspool tööd armastab Arnav veeta aega oma kahe tütrega, leida uusi iseseisvaid kohvikuid, lugeda ja reisida. Mind leiate aadressilt LinkedIn ja Surreys, Ühendkuningriigis päriselus.

Täpsustage trafokeelemudeleid keelelise mitmekesisuse jaoks rakendusega Hugging Face rakenduses Amazon SageMaker PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.Hasan-Basri AKIRMAK (BSc ja MSc arvutitehnikas ning Executive MBA ärikoolis) on Amazon Web Servicesi vanemlahenduste arhitekt. Ta on äritehnoloog, kes nõustab ettevõtlussegmendi kliente. Tema erialaks on suuremahuliste andmetöötlussüsteemide ja masinõppe lahenduste arhitektuuride ja ärijuhtumite projekteerimine. Hasan on pakkunud äriarendust, süsteemide integreerimist ja programmihaldust klientidele Euroopas, Lähis-Idas ja Aafrikas. Alates 2016. aastast juhendas ta sadu ettevõtjaid idufirmade inkubatsiooniprogrammides.

Täpsustage trafokeelemudeleid keelelise mitmekesisuse jaoks rakendusega Hugging Face rakenduses Amazon SageMaker PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.Heiko Hotz on tehisintellekti ja masinõppe lahenduste vanemarhitekt ning juhib AWS-i loomuliku keele töötlemise (NLP) kogukonda. Enne seda rolli oli ta Amazoni EL-i klienditeeninduse andmeteaduse juht. Heiko aitab meie klientidel olla edukas AI/ML teekonnal AWS-is ning on töötanud organisatsioonidega paljudes tööstusharudes, sealhulgas kindlustus, finantsteenused, meedia ja meelelahutus, tervishoid, kommunaalteenused ja tootmine. Vabal ajal reisib Heiko nii palju kui võimalik.

Ajatempel:

Veel alates AWS-i masinõpe