Finjuster transformatorspråkmodeller for språklig mangfold med Hugging Face på Amazon SageMaker PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Finjuster transformatorspråkmodeller for språklig mangfold med Hugging Face på Amazon SageMaker

Omtrent 7,000 språk er i bruk i dag. Til tross for forsøk på slutten av 19-tallet på å finne opp konstruerte språk som Volapük eller Esperanto, er det ingen tegn til forening. Folk velger fortsatt å lage nye språk (tenk på favorittfilmkarakteren din som snakker klingonsk, dothraki eller alvisk).

I dag domineres eksempler på naturlig språkbehandling (NLP) av det engelske språket, morsmålet for bare 5% av den menneskelige befolkningen og snakkes bare av 17%.

De digital deling er definert som gapet mellom de som har tilgang til digital teknologi og de som ikke kan. Mangel på tilgang til kunnskap eller utdanning på grunn av språkbarrierer bidrar også til det digitale skillet, ikke bare mellom personer som ikke snakker engelsk, men også for de engelsktalende som ikke har tilgang til ikke-engelsk innhold, som reduserer mangfold av tanker og kunnskap. Det er så mye å lære gjensidig.

I dette innlegget oppsummerer vi utfordringene med lavressursspråk og eksperimenterer med ulike løsningstilnærminger som dekker over 100 språk ved å bruke Hugging Face-transformatorer på Amazon SageMaker.

Vi finjusterer ulike ferdigtrente transformatorbaserte språkmodeller for en spørsmåls- og svaroppgave. Vi bruker tyrkisk i vårt eksempel, men du kan bruke denne tilnærmingen til andre støttede språk. Vårt fokus er på BERT [1] varianter, fordi en stor egenskap ved BERT er dens enhetlige arkitektur på tvers av forskjellige oppgaver.

Vi demonstrerer flere fordeler med å bruke Hugging Face-transformatorer på Amazon SageMaker, som opplæring og eksperimentering i stor skala, og økt produktivitet og kostnadseffektivitet.

Oversikt over NLP

Det har vært flere store utviklinger innen NLP siden 2017. Fremveksten av dyplæringsarkitekturer som transformatorer [2], de uovervåkede læringsteknikkene for å trene slike modeller på ekstremt store datasett, og overføringslæring har betydelig forbedret tilstanden til- kunst i naturlig språkforståelse. Ankomsten av forhåndstrente modellknutepunkter har ytterligere demokratisert tilgangen til den kollektive kunnskapen til NLP-samfunnet, og fjerner behovet for å starte fra bunnen av.

En språkmodell er en NLP-modell som lærer å forutsi neste ord (eller et hvilket som helst maskert ord) i en sekvens. Den genuine skjønnheten til språkmodeller som utgangspunkt er tredelt: For det første har forskning vist at språkmodeller trent på et stort tekstkorpusdata lærer mer komplekse betydninger av ord enn tidligere metoder. For eksempel, for å kunne forutsi neste ord i en setning, må språkmodellen være god til å forstå konteksten, semantikken og også grammatikken. For det andre, for å trene en språkmodell, kreves det ikke merkede data – som er knappe og kostbare – under førtrening. Dette er viktig fordi en enorm mengde umerket tekstdata er offentlig tilgjengelig på nettet på mange språk. For det tredje har det blitt demonstrert at når språkmodellen er smart nok til å forutsi neste ord for en gitt setning, er det relativt enkelt å utføre andre NLP-oppgaver som sentimentanalyse eller spørsmålssvar med svært lite merket data, fordi finjustering av gjenbruk representasjoner fra en ferdigtrent språkmodell [3].

Fullt administrerte NLP-tjenester har også fremskyndet innføringen av NLP. Amazon Comprehend er en fullstendig administrert tjeneste som gjør det mulig for tekstanalyse å trekke ut innsikt fra innholdet i dokumenter, og den støtter en rekke språk. Amazon Comprehend støtter tilpasset klassifisering og tilpasset enhetsgjenkjenning og lar deg bygge tilpassede NLP-modeller som er spesifikke for dine behov, uten behov for ML-ekspertise.

Utfordringer og løsninger for ressurssvake språk

Hovedutfordringen for et stort antall språk er at de har relativt mindre data tilgjengelig for opplæring. Disse kalles språk med lite ressurser. M-BERT-papiret [4] og XLM-R-papiret [7] refererer til urdu og swahili som ressurssvake språk.

Den følgende figuren spesifiserer ISO-kodene for over 80 språk, og forskjellen i størrelse (i loggskala) mellom de to store fortreningene [7]. I Wikipedia (oransje) er det bare 18 språk med over 1 million artikler og 52 språk med over 1,000 164 artikler, men 1 språk med bare 10,000–9 XNUMX artikler [XNUMX]. CommonCrawl-korpuset (blått) øker mengden data for lavressursspråk med to størrelsesordener. Likevel er de fortsatt relativt små sammenlignet med ressursrike språk som engelsk, russisk eller tysk.

Finjuster transformatorspråkmodeller for språklig mangfold med Hugging Face på Amazon SageMaker PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Når det gjelder Wikipedia-artikkelnummer, er tyrkisk et annet språk i samme gruppe med over 100,000 28 artikler (54.), sammen med urdu (XNUMX.). Sammenlignet med urdu vil tyrkisk bli sett på som et mellomressursspråk. Tyrkisk har noen interessante egenskaper, som kan gjøre språkmodeller kraftigere ved å skape visse utfordringer innen lingvistikk og tokenisering. Det er et agglutinativt språk. Den har en veldig fri ordrekkefølge, en kompleks morfologi eller tider uten engelske ekvivalenter. Fraser dannet av flere ord på språk som engelsk kan uttrykkes med en enkelt ordform, som vist i følgende eksempel.

tyrkisk Engelsk
katt Katt
kattler Katts
kattgiller Familie av katter
Kedigillerden Tilhører familie av katter
kattleştirebileceklerimizdenmişçesineyken Når det virker som om det er en av dem vi kan lage hvordan

To hovedløsninger er språkspesifikke modeller eller flerspråklige modeller (med eller uten tverrspråklig tilsyn):

  • Enspråklige språkmodeller – Den første tilnærmingen er å bruke en BERT-variant på et spesifikt målspråk. Jo flere treningsdata, jo bedre modellytelse.
  • Flerspråklige maskerte språkmodeller – Den andre tilnærmingen er å forhåndstrene store transformatormodeller på mange språk. Flerspråklig språkmodellering tar sikte på å løse mangelen på datautfordringen for ressurssvake språk ved å forhåndstrene på et stort antall språk slik at NLP-oppgaver lært fra ett språk kan overføres til andre språk. Multilingual masked language models (MLM) har presset det siste innen tverrspråklige forståelsesoppgaver. To eksempler er:
    • Flerspråklig BERT – Den flerspråklige BERT-modellen ble trent på 104 forskjellige språk ved hjelp av Wikipedia-korpus. Imidlertid har det vist seg at det bare generaliserer godt på tvers av lignende språklige strukturer og typologiske trekk (for eksempel språk med lignende ordrekkefølge). Dens flerspråklighet er redusert spesielt for språk med forskjellige ordrekkefølger (for eksempel subjekt/objekt/verb) [4].
    • XLM-R – Tverrspråklige språkmodeller (XLMs) trenes med et tverrspråklig mål ved bruk av parallelle datasett (samme tekst på to forskjellige språk) eller uten et tverrspråklig mål ved bruk av enspråklige datasett [6]. Forskning viser at ressurssvake språk drar nytte av å skalere til flere språk. XLM-RoBERTa er en transformatorbasert modell inspirert av RoBERTa [5], og dens utgangspunkt er påstanden om at flerspråklige BERT og XLM er understemt. Det er trent på 100 språk ved å bruke både Wikipedia og CommonCrawl-korpus, så mengden treningsdata for språk med lite ressurser er omtrent to størrelsesordener større sammenlignet med m-BERT [7].

En annen utfordring med flerspråklige språkmodeller for lavressursspråk er ordforrådsstørrelse og tokenisering. Fordi alle språk bruker det samme delte vokabularet i flerspråklige språkmodeller, er det en avveining mellom å øke vokabularstørrelsen (som øker beregningskravene) kontra å redusere den (ord som ikke finnes i vokabularet vil bli merket som ukjente, eller bruk av tegn i stedet for ord som tokens ville ignorere enhver struktur). Ordstykke-tokeniseringsalgoritmen kombinerer fordelene med begge tilnærmingene. For eksempel håndterer den effektivt ord utenfor vokabularet ved å dele ordet inn i underord til det er til stede i vokabularet eller til det enkelte tegn er nådd. Karakterbasert tokenisering er ikke veldig nyttig bortsett fra enkelte språk, for eksempel kinesisk. Det finnes teknikker for å møte utfordringer for lavressursspråk, for eksempel sampling med visse distribusjoner [6].

Følgende tabell viser hvordan tre forskjellige tokenizere oppfører seg for ordet "kedileri" (som betyr "dens katter"). For enkelte språk og NLP-oppgaver vil dette utgjøre en forskjell. For eksempel, for spørsmålssvarsoppgaven, returnerer modellen spennet til start-tokenindeksen og slutttokenindeksen; Å returnere «kediler» («katter») eller «kedileri» («kattene») ville miste litt kontekst og føre til forskjellige evalueringsresultater for visse beregninger.

Forberedt modell Ordforrådsstørrelse Tokenisering for «Kedileri»*
dbmdz/bert-base-tyrkisk-uncased 32,000 tokens [CLS] katter ##Jeg [SEP]
Inndata-IDer 2 23714 1023 3
bert-base-flerspråklig-uncased 105,879 tokens [CLS] ked ##iler ##Jeg [SEP]
Inndata-IDer 101 30210 33719 10116 102
deepset/xlm-roberta-base-squad2 250,002 tokens Ke di s
Inndata-IDer 0 1345 428 1341 .
*På engelsk: (Its) cats

Derfor, selv om språk med lite ressurser drar nytte av flerspråklige språkmodeller, kan det å utføre tokenisering på tvers av et delt vokabular ignorere noen språklige funksjoner for visse språk.

I den neste delen sammenligner vi tre tilnærminger ved å finjustere dem for en spørsmålsoppgave ved å bruke et QA-datasett for tyrkisk: BERTurk [8], flerspråklig BERT [4] og XLM-R [7].

Løsningsoversikt

Vår arbeidsflyt er som følger:

  1. Forbered datasettet i en Amazon SageMaker Studio notatbokmiljø og last det opp til Amazon enkel lagringstjeneste (Amazon S3).
  2. Lanser parallelle opplæringsjobber på SageMaker-treningsbeholdere for dyp læring ved å tilby finjusteringsskriptet.
  3. Samle inn metadata fra hvert eksperiment.
  4. Sammenlign resultater og identifiser den mest passende modellen.

Følgende diagram illustrerer løsningsarkitekturen.

Finjuster transformatorspråkmodeller for språklig mangfold med Hugging Face på Amazon SageMaker PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

For mer informasjon om Studio-notatbøker, se Dykk dypt inn i Amazon SageMaker Studio Notebooks-arkitekturen. For mer informasjon om hvordan Hugging Face er integrert med SageMaker, se AWS og Hugging Face samarbeider for å forenkle og akselerere adopsjonen av Natural Language Processing-modeller.

Forbered datasettet

Hugging Face Datasets-biblioteket gir kraftige databehandlingsmetoder for raskt å gjøre et datasett klart for opplæring i en dyp læringsmodell. Følgende kode laster det tyrkiske QA-datasettet og utforsker hva som er inni:

data_files = {}
data_files["train"] = 'data/train.json'
data_files["validation"] = 'data/val.json' ds = load_dataset("json", data_files=data_files) print("Number of features in dataset: n Train = {}, n Validation = {}".format(len(ds['train']), len(ds['validation'])))

Det er rundt 9,000 prøver.

Finjuster transformatorspråkmodeller for språklig mangfold med Hugging Face på Amazon SageMaker PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Inndatasettet er litt transformert til et format som forventes av de forhåndstrente modellene og inneholder følgende kolonner:

df = pd.DataFrame(ds['train'])
df.sample(1)

Finjuster transformatorspråkmodeller for språklig mangfold med Hugging Face på Amazon SageMaker PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.
Den engelske oversettelsen av utgangen er som følger:

  • kontekst – Resit Emre Kongar (f. 13. oktober 1941, Istanbul), tyrkisk sosiolog, professor.
  • spørsmål – Hva er den akademiske tittelen til Emre Kongar?
  • besvare -Professor

Finjusterende manus

Hugging Face Transformers-biblioteket gir en eksempelkode for å finjustere en modell for en besvarelsesoppgave, kalt run_qa.py. Følgende kode initialiserer treneren:

 # Initialize our Trainer trainer = QuestionAnsweringTrainer( model=model, args=training_args, train_dataset=train_dataset, eval_dataset=eval_dataset, eval_examples=eval_examples, tokenizer=tokenizer, data_collator=data_collator, post_process_function=post_processing_function, compute_metrics=compute_metrics, )

La oss vurdere byggeklossene på et høyt nivå.

Tokenizer

Skriptet laster en tokenizer ved hjelp av AutoTokenizer klasse. De AutoTokenizer klasse tar seg av å returnere riktig tokenizer som tilsvarer modellen:

tokenizer = AutoTokenizer.from_pretrained( model_args.model_name_or_path, cache_dir=model_args.cache_dir, use_fast=True, revision=model_args.model_revision, use_auth_token=None, )

Følgende er et eksempel på hvordan tokenizeren fungerer:

from transformers import AutoTokenizer tokenizer = AutoTokenizer.from_pretrained("deepset/xlm-roberta-base-squad2") input_ids = tokenizer.encode('İstanbulun en popüler hayvanı hangisidir? Kedileri', return_tensors="pt")
tokens = tokenizer('İstanbulun en popüler hayvanı hangisidir? Kedileri').tokens()

Finjuster transformatorspråkmodeller for språklig mangfold med Hugging Face på Amazon SageMaker PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Modell

Skriptet laster en modell. AutoModel klasser (f.eks. AutoModelForQuestionAnswering) oppretter direkte en klasse med vekter, konfigurasjon og vokabular for den relevante arkitekturen gitt navnet og banen til den forhåndstrente modellen. Takket være abstraksjonen fra Hugging Face kan du enkelt bytte til en annen modell ved å bruke samme kode, bare ved å oppgi modellens navn. Se følgende eksempelkode:

 model = AutoModelForQuestionAnswering.from_pretrained( model_args.model_name_or_path, config=config, cache_dir=model_args.cache_dir, revision=model_args.model_revision, )

Forbehandling og opplæring

De prepare_train_features() og prepare_validation_features() metoder forbehandler henholdsvis treningsdatasettet og valideringsdatasett. Koden itererer over input-datasettet og bygger en sekvens fra konteksten og det gjeldende spørsmålet, med de riktige modellspesifikke tokentype-IDene (numeriske representasjoner av tokens) og oppmerksomhetsmasker. Sekvensen føres deretter gjennom modellen. Dette gir en rekke poengsummer, for både start- og sluttposisjoner, som vist i følgende tabell.

Inndatafelter Forbehandlede treningsdatasettfelt for QuestionAnsweringTrainer
id input_ids
tittel oppmerksomhetsmaske
kontekst startposisjoner
spørsmål endeposisjoner
Svar { answer_start, answer_text } .

Evaluering

De compute_metrics() metode tar seg av beregning av beregninger. Vi bruker følgende populære beregninger for å besvare spørsmål:

  • Nøyaktig treff – Måler prosentandelen av spådommer som samsvarer nøyaktig med et av de grunnleggende sannhetssvarene.
  • F1-poengsum – Måler den gjennomsnittlige overlappingen mellom prediksjon og grunnsannhetssvar. F1-poengsummen er det harmoniske gjennomsnittet av presisjon og gjenkalling:
    • Precision – Forholdet mellom antall delte ord og det totale antallet ord i prediksjonen.
    • Husker – Forholdet mellom antall delte ord og det totale antallet ord i grunnsannheten.

Styret trening på SageMaker

Å sette opp og administrere tilpassede maskinlæringsmiljøer (ML) kan være tidkrevende og tungvint. Med AWS Deep Learning Container (DLC) for Hugging Face Transformers-biblioteker har vi tilgang til ferdigpakkede og optimaliserte rammeverk for dyp læring, som gjør det enkelt å kjøre skriptet vårt på tvers av flere treningsjobber med minimalt med tilleggskode.

Vi trenger bare å bruke Hugging Face Estimator tilgjengelig i SageMaker Python SDK med følgende innganger:

# Trial configuration
config['model'] = 'deepset/xlm-roberta-base-squad2'
config['instance_type'] = 'ml.p3.16xlarge'
config['instance_count'] = 2 # Define the distribution parameters in the HuggingFace Estimator config['distribution'] = {'smdistributed':{'dataparallel':{ 'enabled': True }}}
trial_configs.append(config) # We can specify a training script that is stored in a GitHub repository as the entry point for our Estimator, # so we don’t have to download the scripts locally.
git_config = {'repo': 'https://github.com/huggingface/transformers.git'} hyperparameters_qa={ 'model_name_or_path': config['model'], 'train_file': '/opt/ml/input/data/train/train.json', 'validation_file': '/opt/ml/input/data/val/val.json', 'do_train': True, 'do_eval': True, 'fp16': True, 'per_device_train_batch_size': 16, 'per_device_eval_batch_size': 16, 'num_train_epochs': 2, 'max_seq_length': 384, 'pad_to_max_length': True, 'doc_stride': 128, 'output_dir': '/opt/ml/model' } huggingface_estimator = HuggingFace(entry_point='run_qa.py', source_dir='./examples/pytorch/question-answering', git_config=git_config, instance_type=config['instance_type'], instance_count=config['instance_count'], role=role, transformers_version='4.12.3', pytorch_version='1.9.1', py_version='py38', distribution=config['distribution'], hyperparameters=hyperparameters_qa, metric_definitions=metric_definitions, enable_sagemaker_metrics=True,) nlp_training_job_name = f"NLPjob-{model}-{instance}-{int(time.time())}" training_input_path = f's3://{sagemaker_session_bucket}/{s3_prefix_qa}/' test_input_path = f's3://{sagemaker_session_bucket}/{s3_prefix_qa}/' huggingface_estimator.fit( inputs={'train': training_input_path, 'val': test_input_path}, job_name=nlp_training_job_name, experiment_config={ "ExperimentName": nlp_experiment.experiment_name, "TrialName": nlp_trial.trial_name, "TrialComponentDisplayName": nlp_trial.trial_name,}, wait=False, )

Evaluer resultatene

Når finjusteringsjobbene for den tyrkiske spørsmålsoppgaven er fullført, sammenligner vi modellytelsen til de tre tilnærmingene:

  • Enspråklig språkmodell – Den ferdigtrente modellen finjustert på den tyrkiske spørsmålssvarsteksten kalles bert-base-tyrkisk-uncased [8]. Den oppnår en F1-poengsum på 75.63 og en nøyaktig matchscore på 56.17 i bare to epoker og med 9,000 merkede gjenstander. Denne tilnærmingen er imidlertid ikke egnet for et lite ressursspråk når en forhåndstrent språkmodell ikke eksisterer, eller det er lite data tilgjengelig for opplæring fra bunnen av.
  • Flerspråklig språkmodell med flerspråklig BERT – Den ferdigtrente modellen kalles bert-base-flerspråklig-uncased. Den flerspråklige BERT-artikkelen [4] har vist at den generaliserer godt på tvers av språk. Sammenlignet med den enspråklige modellen presterer den dårligere (F1-score 71.73, eksakt samsvar 50:45), men merk at denne modellen håndterer over 100 andre språk, noe som gir mindre rom for å representere det tyrkiske språket.
  • Flerspråklig språkmodell med XLM-R – Den ferdigtrente modellen kalles xlm-roberta-base-squad2. XLM-R-artikkelen viser at det er mulig å ha en enkelt stor modell for over 100 språk uten å ofre ytelse per språk [7]. For den tyrkiske spørsmålssvarsoppgaven overgår den de flerspråklige BERT og enspråklige BERT F1-skårene med henholdsvis 5 % og 2 % (F1-score 77.14, eksakt samsvar 56.39).

Finjuster transformatorspråkmodeller for språklig mangfold med Hugging Face på Amazon SageMaker PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Sammenligningen vår tar ikke hensyn til andre forskjeller mellom modellene, for eksempel modellkapasitet, treningsdatasett som brukes, NLP-oppgaver som er forhåndstrent på, ordforrådsstørrelse eller tokenisering.

Ytterligere eksperimenter

Den medfølgende notatboken inneholder flere eksperimenteksempler.

SageMaker tilbyr et bredt spekter av typer treningsinstanser. Vi finjusterte XLM-R-modellen på p3.2xlarge (GPU: Nvidia V100 GPU, GPU-arkitektur: Volta (2017)), p3.16xlarge (GPU: 8 Nvidia V100 GPUer) og g4dn.xlarge (GPU: Nvidia T4) GPU, GPU-arkitektur: Turing (2018)), og observerte følgende:

  • Treningsvarighet – I følge eksperimentet vårt tok XLM-R-modellen omtrent 24 minutter å trene på p3.2xlarge og 30 minutter på g4dn.xlarge (omtrent 23 % lengre). Vi utførte også distribuert finjustering på to p3.16xlarge forekomster, og treningstiden gikk ned til 10 minutter. For mer informasjon om distribuert opplæring av en transformatorbasert modell på SageMaker, se Distribuert finjustering av en BERT Large-modell for en oppgave som besvarer spørsmål ved hjelp av Hugging Face Transformers på Amazon SageMaker.
  • Opplæringskostnader – Vi brukte AWS Pricing API for å hente SageMaker on-demand-priser for å beregne det umiddelbart. I følge vårt eksperiment kostet trening omtrent $1.58 på p3.2xlarge, og omtrent fire ganger mindre på g4dn.xlarge ($0.37). Distribuert opplæring på to p3.16xlarge forekomster med 16 GPUer koster $9.68.

For å oppsummere, selv om g4dn.xlarge var den billigste maskinen, tok den også omtrent tre ganger lengre tid å trene enn den kraftigste instanstypen vi eksperimenterte med (to p3.16xlarge). Avhengig av prosjektprioriteringene dine, kan du velge mellom et bredt utvalg av SageMaker-opplæringsinstanser.

konklusjonen

I dette innlegget utforsket vi finjustering av ferdigtrente transformatorbaserte språkmodeller for en spørsmålsoppgave for et mellomressursspråk (i dette tilfellet tyrkisk). Du kan bruke denne tilnærmingen på over 100 andre språk ved å bruke én enkelt modell. I skrivende stund er det fortsatt uoverkommelig å oppskalere en modell for å dekke alle verdens 7,000 språk, men NLP-feltet gir en mulighet til å utvide horisonten vår.

Språk er den viktigste metoden for menneskelig kommunikasjon, og er et middel til å formidle verdier og dele skjønnheten i en kulturarv. Det språklige mangfoldet styrker interkulturell dialog og bygger inkluderende samfunn.

ML er en svært iterativ prosess; i løpet av et enkelt prosjekt trener dataforskere hundrevis av forskjellige modeller, datasett og parametere på jakt etter maksimal nøyaktighet. SageMaker tilbyr det mest komplette settet med verktøy for å utnytte kraften til ML og dyp læring. Den lar deg organisere, spore, sammenligne og evaluere ML-eksperimenter i stor skala.

Hugging Face er integrert med SageMaker for å hjelpe dataforskere med å utvikle, trene og justere toppmoderne NLP-modeller raskere og enklere. Vi demonstrerte flere fordeler med å bruke Hugging Face-transformatorer på Amazon SageMaker, som trening og eksperimentering i stor skala, og økt produktivitet og kostnadseffektivitet.

Du kan eksperimentere med NLP-oppgaver på ditt foretrukne språk i SageMaker i alle AWS-regioner der SageMaker er tilgjengelig. Eksempel på notatbokkoden er tilgjengelig i GitHub.

For å lære hvordan Amazon SageMaker Training Compiler kan akselerere opplæringen av dyplæringsmodeller med opptil 50 %, se Nytt – Vi introduserer SageMaker Training Compiler.

Forfatterne vil gjerne uttrykke sin dypeste takknemlighet til Mariano Kamp og Emily Webber for gjennomgang av utkast og råd.

Referanser

  1. J. Devlin et al., "BERT: Pre-Training of Deep Bidirectional Transformers for Language Understanding", (2018).
  2. A. Vaswani et al., "Attention Is All You Need", (2017).
  3. J. Howard og S. Ruder, "Universal Language Model Fine-Tuning for Text Classification", (2018).
  4. T. Pires et al., "Hvordan flerspråklig er flerspråklig BERT?", (2019).
  5. Y. Liu et al., "RoBERTa: A Robustly Optimized BERT Pretraining Approach", (2019).
  6. G. Lample og A. Conneau, "Cross-Lingual Language Model Pretraining", (2019).
  7. A. Conneau et al., "Usupervised Cross-Lingual Representation Learning at Scale", (2019).
  8. Stefan Schweter. BERTurk – BERT-modeller for tyrkisk (2020).
  9. Flerspråklig Wiki-statistikk https://en.wikipedia.org/wiki/Wikipedia:Multilingual_statistics

Om forfatterne

Finjuster transformatorspråkmodeller for språklig mangfold med Hugging Face på Amazon SageMaker PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.Arnav Khare er en hovedløsningsarkitekt for globale finansielle tjenester hos AWS. Hans primære fokus er å hjelpe finansinstitusjoner med å bygge og designe applikasjoner for analyse og maskinlæring i skyen. Arnav har en MSc i kunstig intelligens fra Edinburgh University og har 18 års bransjeerfaring fra små startups han grunnla til store bedrifter som Nokia og Bank of America. Utenom jobben elsker Arnav å tilbringe tid med sine to døtre, finne nye uavhengige kaffebarer, lese og reise. Du finner meg på Linkedin og i Surrey, Storbritannia i det virkelige liv.

Finjuster transformatorspråkmodeller for språklig mangfold med Hugging Face på Amazon SageMaker PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.Hasan-Basri AKIRMAK (BSc og MSc i datateknikk og Executive MBA i Graduate School of Business) er en senior løsningsarkitekt hos Amazon Web Services. Han er forretningsteknolog og rådgiver bedriftssegmentkunder. Hans spesialområde er å designe arkitekturer og forretningscases på databehandlingssystemer i stor skala og maskinlæringsløsninger. Hasan har levert forretningsutvikling, systemintegrasjon, programledelse for kunder i Europa, Midtøsten og Afrika. Siden 2016 veiledet han hundrevis av gründere ved oppstartsinkubasjonsprogrammer pro-bono.

Finjuster transformatorspråkmodeller for språklig mangfold med Hugging Face på Amazon SageMaker PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.Heiko Hotz er en senior løsningsarkitekt for AI og maskinlæring og leder Natural Language Processing-fellesskapet (NLP) innen AWS. Før denne rollen var han sjef for datavitenskap for Amazons EU-kundeservice. Heiko hjelper kundene våre med å lykkes i deres AI/ML-reise på AWS og har jobbet med organisasjoner i mange bransjer, inkludert forsikring, finansielle tjenester, media og underholdning, helsevesen, verktøy og produksjon. På fritiden reiser Heiko så mye som mulig.

Tidstempel:

Mer fra AWS maskinlæring