Finjuster transformatorsprogmodeller til sproglig mangfoldighed med Hugging Face på Amazon SageMaker PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Finjuster transformatorsprogmodeller til sproglig mangfoldighed med Hugging Face på Amazon SageMaker

Cirka 7,000 sprog er i brug i dag. På trods af forsøg i slutningen af ​​det 19. århundrede på at opfinde konstruerede sprog som Volapük eller Esperanto, er der ingen tegn på forening. Folk vælger stadig at skabe nye sprog (tænk på din yndlingsfilmkarakter, der taler klingonsk, dothraki eller alvisk).

I dag er eksempler på naturlig sprogbehandling (NLP) domineret af det engelske sprog, modersmålet for kun 5% af den menneskelige befolkning og tales kun af 17%.

digital opdeling defineres som kløften mellem dem, der kan få adgang til digitale teknologier, og dem, der ikke kan. Manglende adgang til viden eller uddannelse på grund af sprogbarrierer bidrager også til den digitale kløft, ikke kun mellem mennesker, der ikke taler engelsk, men også for de engelsktalende mennesker, der ikke har adgang til ikke-engelsk indhold, som reducerer mangfoldigheden af ​​tanker og viden. Der er så meget at lære gensidigt.

I dette indlæg opsummerer vi udfordringerne ved lav-ressource sprog og eksperimenterer med forskellige løsningstilgange, der dækker over 100 sprog ved hjælp af Hugging Face-transformere på Amazon SageMaker.

Vi finjusterer forskellige fortrænede transformatorbaserede sprogmodeller til en spørgsmål og svaropgave. Vi bruger tyrkisk i vores eksempel, men du kan anvende denne tilgang til andre understøttede sprog. Vores fokus er på BERT [1] varianter, fordi en stor egenskab ved BERT er dens forenede arkitektur på tværs af forskellige opgaver.

Vi demonstrerer flere fordele ved at bruge Hugging Face-transformere på Amazon SageMaker, såsom træning og eksperimenter i stor skala og øget produktivitet og omkostningseffektivitet.

Oversigt over NLP

Der har været adskillige store udviklinger inden for NLP siden 2017. Fremkomsten af ​​deep learning-arkitekturer såsom transformatorer [2], de uovervågede læringsteknikker til at træne sådanne modeller på ekstremt store datasæt, og transfer learning har væsentligt forbedret tilstanden af- kunst i naturlig sprogforståelse. Ankomsten af ​​fortrænede modelhubs har yderligere demokratiseret adgangen til NLP-samfundets kollektive viden, hvilket har fjernet behovet for at starte fra bunden.

En sprogmodel er en NLP-model, der lærer at forudsige det næste ord (eller et hvilket som helst maskeret ord) i en sekvens. Den ægte skønhed ved sprogmodeller som udgangspunkt er tredelt: For det første har forskning vist, at sprogmodeller trænet på et stort tekstkorpusdata lærer mere komplekse betydninger af ord end tidligere metoder. For eksempel, for at kunne forudsige det næste ord i en sætning, skal sprogmodellen være god til at forstå konteksten, semantikken og også grammatikken. For det andet, for at træne en sprogmodel, kræves mærkede data – som er sparsomme og dyre – ikke under forudgående træning. Dette er vigtigt, fordi en enorm mængde umærkede tekstdata er offentligt tilgængelige på nettet på mange sprog. For det tredje er det blevet påvist, at når først sprogmodellen er smart nok til at forudsige det næste ord for en given sætning, er det relativt nemt at udføre andre NLP-opgaver såsom sentimentanalyse eller spørgsmålssvar med meget lidt mærkede data, fordi finjustering af genbrug repræsentationer fra en fortrænet sprogmodel [3].

Fuldt administrerede NLP-tjenester har også fremskyndet vedtagelsen af ​​NLP. Amazon Comprehend er en fuldt administreret tjeneste, der gør det muligt for tekstanalyse at udtrække indsigt fra indholdet af dokumenter, og den understøtter en række forskellige sprog. Amazon Comprehend understøtter tilpasset klassificering og tilpasset enhedsgenkendelse og giver dig mulighed for at bygge brugerdefinerede NLP-modeller, der er specifikke for dine krav, uden behov for nogen ML-ekspertise.

Udfordringer og løsninger til ressourcesvage sprog

Den største udfordring for et stort antal sprog er, at de har relativt færre data til rådighed til træning. Disse kaldes ressourcesvage sprog. M-BERT papiret [4] og XLM-R papiret [7] henviser til urdu og swahili som lavressourcesprog.

Den følgende figur specificerer ISO-koderne for over 80 sprog og forskellen i størrelse (i log-skala) mellem de to store fortræning [7]. I Wikipedia (orange) er der kun 18 sprog med over 1 million artikler og 52 sprog med over 1,000 artikler, men 164 sprog med kun 1-10,000 artikler [9]. CommonCrawl-korpuset (blåt) øger mængden af ​​data for lavressourcesprog med to størrelsesordener. Ikke desto mindre er de stadig relativt små sammenlignet med højressourcesprog som engelsk, russisk eller tysk.

Finjuster transformatorsprogmodeller til sproglig mangfoldighed med Hugging Face på Amazon SageMaker PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Med hensyn til Wikipedia-artikelnumre er tyrkisk et andet sprog i den samme gruppe med over 100,000 artikler (28.) sammen med urdu (54.). Sammenlignet med urdu ville tyrkisk blive betragtet som et mellemressourcesprog. Tyrkisk har nogle interessante egenskaber, som kunne gøre sprogmodeller mere kraftfulde ved at skabe visse udfordringer inden for lingvistik og tokenisering. Det er et agglutinativt sprog. Den har en meget fri ordstilling, en kompleks morfologi eller tider uden engelske ækvivalenter. Sætninger dannet af flere ord på sprog som engelsk kan udtrykkes med en enkelt ordform, som vist i følgende eksempel.

tyrkisk Engelsk
kat Cat
katler Cats
katGiller Familie af katte
Kedigillerdag Tilhører familie af katte
katleştirebileceklerimizdenmişçesineyken Når det ser ud til, at en er én af dem, vi kan lave hvordan

To hovedløsningstilgange er sprogspecifikke modeller eller flersprogede modeller (med eller uden overvågning på tværs af sprog):

  • Ensprogede sprogmodeller – Den første tilgang er at anvende en BERT-variant på et specifikt målsprog. Jo flere træningsdata, jo bedre er modellens ydeevne.
  • Flersprogede maskerede sprogmodeller – Den anden tilgang er at fortræne store transformatormodeller på mange sprog. Flersproget sprogmodellering har til formål at løse den manglende dataudfordring for ressourcesvage sprog ved at fortræne på et stort antal sprog, så NLP-opgaver lært fra ét sprog kan overføres til andre sprog. Multilingual masked language models (MLM'er) har skubbet det nyeste inden for tværsprogede forståelsesopgaver. To eksempler er:
    • Flersproget BERT – Den flersprogede BERT-model blev trænet i 104 forskellige sprog ved hjælp af Wikipedia-korpus. Det har dog vist sig, at det kun generaliserer godt på tværs af lignende sproglige strukturer og typologiske træk (for eksempel sprog med lignende ordstilling). Dens flersprogethed er formindsket, især for sprog med forskellige ordrækkefølger (for eksempel emne/objekt/verb) [4].
    • XLM-R – Tværsprogede sprogmodeller (XLM'er) trænes med et tværsproget mål ved hjælp af parallelle datasæt (den samme tekst på to forskellige sprog) eller uden et tværsproget mål ved hjælp af monosprogede datasæt [6]. Forskning viser, at ressourcesvage sprog har gavn af at skalere til flere sprog. XLM-RoBERTa er en transformer-baseret model inspireret af RoBERTa [5], og dens udgangspunkt er påstanden om, at flersprogede BERT og XLM er undertunede. Det er trænet på 100 sprog ved hjælp af både Wikipedia og CommonCrawl-korpus, så mængden af ​​træningsdata for lavressourcesprog er cirka to størrelsesordener større sammenlignet med m-BERT [7].

En anden udfordring ved flersprogede sprogmodeller for lavressourcesprog er ordforrådsstørrelse og tokenisering. Fordi alle sprog bruger det samme delte ordforråd i flersprogede sprogmodeller, er der en afvejning mellem at øge ordforrådets størrelse (hvilket øger beregningskravene) versus at reducere det (ord, der ikke er til stede i ordforrådet, vil blive markeret som ukendte eller at bruge tegn i stedet for ord som tokens ville ignorere enhver struktur). Ordstykke-tokeniseringsalgoritmen kombinerer fordelene ved begge tilgange. For eksempel håndterer den effektivt ord uden for ordforrådet ved at opdele ordet i underord, indtil det er til stede i ordforrådet, eller indtil det enkelte tegn er nået. Karakterbaseret tokenisering er ikke særlig nyttig bortset fra visse sprog, såsom kinesisk. Der findes teknikker til at løse udfordringerne for sprog med lav ressource, såsom sampling med visse distributioner [6].

Den følgende tabel viser, hvordan tre forskellige tokenizere opfører sig for ordet "kedileri" (som betyder "dens katte"). For visse sprog og NLP-opgaver ville dette gøre en forskel. For eksempel returnerer modellen spændvidden for start-token-indekset og slut-token-indekset til opgaven med besvarelse af spørgsmål; returnering af "kediler" ("katte") eller "kedileri" ("dens katte") ville miste en vis kontekst og føre til forskellige evalueringsresultater for visse målinger.

Foruddannet model Ordforråds størrelse Tokenisering for "Kedileri"*
dbmdz/bert-base-tyrkisk-uncased 32,000 Tokens [CLS] katte ##jeg [SEP]
Indtast ID'er 2 23714 1023 3
bert-base-flersproget-uncased 105,879 Tokens [CLS] KED ##iler ##jeg [SEP]
Indtast ID'er 101 30210 33719 10116 102
deepset/xlm-roberta-base-squad2 250,002 Tokens Ke di s
Indtast ID'er 0 1345 428 1341 .
*På engelsk: (Its) cats

Derfor, selvom ressourcesvage sprog drager fordel af flersprogede sprogmodeller, kan tokenisering på tværs af et fælles ordforråd ignorere nogle sproglige egenskaber for visse sprog.

I det næste afsnit sammenligner vi tre tilgange ved at finjustere dem til en opgave med at besvare spørgsmål ved hjælp af et QA-datasæt til tyrkisk: BERTurk [8], flersproget BERT [4] og XLM-R [7].

Løsningsoversigt

Vores arbejdsgang er som følger:

  1. Forbered datasættet i en Amazon SageMaker Studio notebook-miljø og upload det til Amazon Simple Storage Service (Amazon S3).
  2. Start parallelle træningsjob på SageMaker-træningsbeholdere til dyb læring ved at levere det finjusterende script.
  3. Indsaml metadata fra hvert eksperiment.
  4. Sammenlign resultater og find den mest passende model.

Følgende diagram illustrerer løsningsarkitekturen.

Finjuster transformatorsprogmodeller til sproglig mangfoldighed med Hugging Face på Amazon SageMaker PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

For mere information om Studio-notebooks, se Dyk dybt ned i Amazon SageMaker Studio Notebooks arkitektur. For mere information om, hvordan Hugging Face er integreret med SageMaker, se AWS og Hugging Face samarbejder om at forenkle og fremskynde overtagelsen af ​​Natural Language Processing-modeller.

Forbered datasættet

Hugging Face Datasets-biblioteket giver kraftfulde databehandlingsmetoder til hurtigt at gøre et datasæt klar til træning i en dyb læringsmodel. Følgende kode indlæser det tyrkiske QA-datasæt og udforsker, hvad der er indeni:

data_files = {}
data_files["train"] = 'data/train.json'
data_files["validation"] = 'data/val.json' ds = load_dataset("json", data_files=data_files) print("Number of features in dataset: n Train = {}, n Validation = {}".format(len(ds['train']), len(ds['validation'])))

Der er omkring 9,000 prøver.

Finjuster transformatorsprogmodeller til sproglig mangfoldighed med Hugging Face på Amazon SageMaker PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Inputdatasættet er en smule transformeret til et format, der forventes af de præ-trænede modeller og indeholder følgende kolonner:

df = pd.DataFrame(ds['train'])
df.sample(1)

Finjuster transformatorsprogmodeller til sproglig mangfoldighed med Hugging Face på Amazon SageMaker PlatoBlockchain Data Intelligence. Lodret søgning. Ai.
Den engelske oversættelse af outputtet er som følger:

  • sammenhæng – Resit Emre Kongar (f. 13. oktober 1941, Istanbul), tyrkisk sociolog, professor.
  • spørgsmål – Hvad er Emre Kongars akademiske titel?
  • besvare -Professor

Finjusterende script

Hugging Face Transformers-biblioteket giver en eksempelkode til at finjustere en model til en opgave med at besvare spørgsmål, kaldet run_qa.py. Følgende kode initialiserer træneren:

 # Initialize our Trainer trainer = QuestionAnsweringTrainer( model=model, args=training_args, train_dataset=train_dataset, eval_dataset=eval_dataset, eval_examples=eval_examples, tokenizer=tokenizer, data_collator=data_collator, post_process_function=post_processing_function, compute_metrics=compute_metrics, )

Lad os gennemgå byggestenene på et højt niveau.

Tokenizer

Scriptet indlæser en tokenizer ved hjælp af AutoTokenizer klasse. Det AutoTokenizer klasse sørger for at returnere den korrekte tokenizer, der svarer til modellen:

tokenizer = AutoTokenizer.from_pretrained( model_args.model_name_or_path, cache_dir=model_args.cache_dir, use_fast=True, revision=model_args.model_revision, use_auth_token=None, )

Følgende er et eksempel på, hvordan tokenizeren fungerer:

from transformers import AutoTokenizer tokenizer = AutoTokenizer.from_pretrained("deepset/xlm-roberta-base-squad2") input_ids = tokenizer.encode('İstanbulun en popüler hayvanı hangisidir? Kedileri', return_tensors="pt")
tokens = tokenizer('İstanbulun en popüler hayvanı hangisidir? Kedileri').tokens()

Finjuster transformatorsprogmodeller til sproglig mangfoldighed med Hugging Face på Amazon SageMaker PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Model

Scriptet indlæser en model. AutoModel klasser (f.eks. AutoModelForQuestionAnswering) direkte oprette en klasse med vægte, konfiguration og ordforråd for den relevante arkitektur givet navnet og stien til den præ-trænede model. Takket være abstraktionen fra Hugging Face kan du nemt skifte til en anden model ved hjælp af den samme kode, blot ved at angive modellens navn. Se følgende eksempelkode:

 model = AutoModelForQuestionAnswering.from_pretrained( model_args.model_name_or_path, config=config, cache_dir=model_args.cache_dir, revision=model_args.model_revision, )

Forbehandling og træning

prepare_train_features() , prepare_validation_features() metoder forbehandler henholdsvis træningsdatasættet og valideringsdatasæt. Koden itererer over inputdatasættet og bygger en sekvens fra konteksten og det aktuelle spørgsmål med de korrekte modelspecifikke tokentype-id'er (numeriske repræsentationer af tokens) og opmærksomhedsmasker. Sekvensen føres derefter gennem modellen. Dette udsender en række scoringer for både start- og slutpositioner, som vist i følgende tabel.

Indtast datasætfelter Forbehandlede træningsdatasætfelter til QuestionAnsweringTrainer
id input_ids
titel opmærksomhedsmaske
sammenhæng startpositioner
spørgsmål slutpositioner
Svar { answer_start, answer_text } .

Evaluering

compute_metrics() metode tager sig af beregning af metrics. Vi bruger følgende populære metrics til besvarelse af spørgsmål:

  • Præcis kamp – Måler procentdelen af ​​forudsigelser, der matcher et af de grundlæggende sandhedssvar nøjagtigt.
  • f1 score – Måler det gennemsnitlige overlap mellem forudsigelse og sandhedssvar. F1-scoren er det harmoniske gennemsnit af præcision og genkaldelse:
    • Precision – Forholdet mellem antallet af delte ord og det samlede antal ord i forudsigelsen.
    • Recall – Forholdet mellem antallet af delte ord og det samlede antal ord i grundsandheden.

Styret træning på SageMaker

Opsætning og styring af brugerdefinerede maskinlæringsmiljøer (ML) kan være tidskrævende og besværligt. Med AWS Deep Learning Container (DLC'er) til Hugging Face Transformers-biblioteker har vi adgang til færdigpakkede og optimerede deep learning-rammer, som gør det nemt at køre vores script på tværs af flere træningsjob med minimal ekstra kode.

Vi skal bare bruge Knusende ansigtsvurdering tilgængelig i SageMaker Python SDK med følgende input:

# Trial configuration
config['model'] = 'deepset/xlm-roberta-base-squad2'
config['instance_type'] = 'ml.p3.16xlarge'
config['instance_count'] = 2 # Define the distribution parameters in the HuggingFace Estimator config['distribution'] = {'smdistributed':{'dataparallel':{ 'enabled': True }}}
trial_configs.append(config) # We can specify a training script that is stored in a GitHub repository as the entry point for our Estimator, # so we don’t have to download the scripts locally.
git_config = {'repo': 'https://github.com/huggingface/transformers.git'} hyperparameters_qa={ 'model_name_or_path': config['model'], 'train_file': '/opt/ml/input/data/train/train.json', 'validation_file': '/opt/ml/input/data/val/val.json', 'do_train': True, 'do_eval': True, 'fp16': True, 'per_device_train_batch_size': 16, 'per_device_eval_batch_size': 16, 'num_train_epochs': 2, 'max_seq_length': 384, 'pad_to_max_length': True, 'doc_stride': 128, 'output_dir': '/opt/ml/model' } huggingface_estimator = HuggingFace(entry_point='run_qa.py', source_dir='./examples/pytorch/question-answering', git_config=git_config, instance_type=config['instance_type'], instance_count=config['instance_count'], role=role, transformers_version='4.12.3', pytorch_version='1.9.1', py_version='py38', distribution=config['distribution'], hyperparameters=hyperparameters_qa, metric_definitions=metric_definitions, enable_sagemaker_metrics=True,) nlp_training_job_name = f"NLPjob-{model}-{instance}-{int(time.time())}" training_input_path = f's3://{sagemaker_session_bucket}/{s3_prefix_qa}/' test_input_path = f's3://{sagemaker_session_bucket}/{s3_prefix_qa}/' huggingface_estimator.fit( inputs={'train': training_input_path, 'val': test_input_path}, job_name=nlp_training_job_name, experiment_config={ "ExperimentName": nlp_experiment.experiment_name, "TrialName": nlp_trial.trial_name, "TrialComponentDisplayName": nlp_trial.trial_name,}, wait=False, )

Evaluer resultaterne

Når finjusteringsopgaverne for den tyrkiske spørgsmålsbesvarelse er afsluttet, sammenligner vi modelydelsen for de tre tilgange:

  • Ensproget sprogmodel – Den fortrænede model finjusteret på den tyrkiske spørgsmålsbesvarende tekst kaldes bert-base-tyrkisk-uindkapslet [8]. Den opnår en F1-score på 75.63 og en nøjagtig matchscore på 56.17 i kun to epoker og med 9,000 mærkede genstande. Denne tilgang er dog ikke egnet til et lavressource-sprog, når der ikke eksisterer en forudtrænet sprogmodel, eller der er få data til rådighed for træning fra bunden.
  • Flersproget sprogmodel med flersproget BERT – Den fortrænede model kaldes bert-base-flersproget-uncased. Det flersprogede BERT-papir [4] har vist, at det generaliserer godt på tværs af sprog. Sammenlignet med den ensprogede model klarer den sig dårligere (F1-score 71.73, nøjagtig match 50:45), men bemærk, at denne model håndterer over 100 andre sprog, hvilket giver mindre plads til at repræsentere det tyrkiske sprog.
  • Flersproget sprogmodel med XLM-R – Den fortrænede model kaldes xlm-roberta-base-squad2. XLM-R-papiret viser, at det er muligt at have en enkelt stor model til over 100 sprog uden at ofre ydelsen pr. sprog [7]. For den tyrkiske besvarelsesopgave overgår den de flersprogede BERT og ensprogede BERT F1-scores med henholdsvis 5 % og 2 % (F1-score 77.14, nøjagtig match 56.39).

Finjuster transformatorsprogmodeller til sproglig mangfoldighed med Hugging Face på Amazon SageMaker PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Vores sammenligning tager ikke hensyn til andre forskelle mellem modeller, såsom modelkapacitet, anvendte træningsdatasæt, NLP-opgaver, der er forudtrænet på, ordforrådsstørrelse eller tokenisering.

Yderligere eksperimenter

Den medfølgende notesbog indeholder yderligere eksperimenteksempler.

SageMaker tilbyder en bred vifte af træningsinstanstyper. Vi finjusterede XLM-R-modellen på p3.2xlarge (GPU: Nvidia V100 GPU, GPU-arkitektur: Volta (2017)), p3.16xlarge (GPU: 8 Nvidia V100 GPU'er) og g4dn.xlarge (GPU: Nvidia T4 GPU, GPU-arkitektur: Turing (2018)), og observerede følgende:

  • Træningsvarighed – Ifølge vores eksperiment tog XLM-R-modellen cirka 24 minutter at træne på p3.2xlarge og 30 minutter på g4dn.xlarge (ca. 23 % længere). Vi udførte også distribueret finjustering på to p3.16xlarge forekomster, og træningstiden faldt til 10 minutter. For mere information om distribueret træning af en transformer-baseret model på SageMaker, se Distribueret finjustering af en BERT Large-model til en spørgsmål-besvarende opgave ved hjælp af Hugging Face Transformers på Amazon SageMaker.
  • Uddannelsesomkostninger – Vi brugte AWS Pricing API til at hente SageMaker on-demand-priser for at beregne det på farten. Ifølge vores eksperiment kostede træning ca. $1.58 på p3.2xlarge og omkring fire gange mindre på g4dn.xlarge ($0.37). Distribueret træning på to p3.16xlarge forekomster ved hjælp af 16 GPU'er koster $9.68.

For at opsummere, selvom g4dn.xlarge var den billigste maskine, tog den også omkring tre gange længere tid at træne end den mest kraftfulde instanstype, vi eksperimenterede med (to p3.16xlarge). Afhængigt af dine projektprioriteter kan du vælge mellem en lang række SageMaker-træningsinstanser.

Konklusion

I dette indlæg undersøgte vi finjustering af forudtrænede transformatorbaserede sprogmodeller til en opgave med besvarelse af spørgsmål til et mellemressourcesprog (i dette tilfælde tyrkisk). Du kan anvende denne tilgang til over 100 andre sprog ved hjælp af en enkelt model. I skrivende stund er det stadig uoverkommeligt at opskalere en model til at dække alle verdens 7,000 sprog, men NLP-området giver mulighed for at udvide vores horisont.

Sproget er den vigtigste metode til menneskelig kommunikation og er et middel til at kommunikere værdier og dele skønheden i en kulturarv. Den sproglige mangfoldighed styrker interkulturel dialog og bygger inkluderende samfund.

ML er en meget iterativ proces; i løbet af et enkelt projekt træner dataforskere hundredvis af forskellige modeller, datasæt og parametre i deres søgen efter maksimal nøjagtighed. SageMaker tilbyder det mest komplette sæt værktøjer til at udnytte kraften i ML og dyb læring. Det lader dig organisere, spore, sammenligne og evaluere ML-eksperimenter i skala.

Hugging Face er integreret med SageMaker for at hjælpe dataforskere med at udvikle, træne og tune avancerede NLP-modeller hurtigere og nemmere. Vi demonstrerede flere fordele ved at bruge Hugging Face-transformere på Amazon SageMaker, såsom træning og eksperimenter i stor skala og øget produktivitet og omkostningseffektivitet.

Du kan eksperimentere med NLP-opgaver på dit foretrukne sprog i SageMaker i alle AWS-regioner, hvor SageMaker er tilgængelig. Eksempel på notebook-koden er tilgængelig i GitHub.

For at lære, hvordan Amazon SageMaker Training Compiler kan accelerere træningen af ​​deep learning-modeller med op til 50 %, se Nyt – Introduktion af SageMaker Training Compiler.

Forfatterne vil gerne udtrykke deres dybeste påskønnelse til Mariano Kamp og Emily Webber for gennemgang af udkast og rådgivning.

Referencer

  1. J. Devlin et al., "BERT: Pre-Training of Deep Bidirectional Transformers for Language Understanding", (2018).
  2. A. Vaswani et al., "Attention Is All You Need", (2017).
  3. J. Howard og S. Ruder, "Universal Language Model Fine-Tuning for Text Classification", (2018).
  4. T. Pires et al., "Hvordan er flersproget BERT?", (2019).
  5. Y. Liu et al., "RoBERTa: A Robustly Optimized BERT Pretraining Approach", (2019).
  6. G. Lample og A. Conneau, "Cross-lingual Language Model Pretraining", (2019).
  7. A. Conneau et al., "Usupervised Cross-Lingual Representation Learning at Scale", (2019).
  8. Stefan Schweter. BERTurk – BERT-modeller til tyrkisk (2020).
  9. Flersproget Wiki-statistik https://en.wikipedia.org/wiki/Wikipedia:Multilingual_statistics

Om forfatterne

Finjuster transformatorsprogmodeller til sproglig mangfoldighed med Hugging Face på Amazon SageMaker PlatoBlockchain Data Intelligence. Lodret søgning. Ai.Arnav Khare er Principal Solutions Architect for Global Financial Services hos AWS. Hans primære fokus er at hjælpe finansielle institutioner med at bygge og designe Analytics- og Machine Learning-applikationer i skyen. Arnav har en MSc i kunstig intelligens fra Edinburgh University og har 18 års brancheerfaring lige fra små startups, han grundlagde, til store virksomheder som Nokia og Bank of America. Uden for arbejdet elsker Arnav at tilbringe tid med sine to døtre, finde nye selvstændige kaffebarer, læse og rejse. Du kan finde mig på LinkedIn og i Surrey, Storbritannien i det virkelige liv.

Finjuster transformatorsprogmodeller til sproglig mangfoldighed med Hugging Face på Amazon SageMaker PlatoBlockchain Data Intelligence. Lodret søgning. Ai.Hasan-Basri AKIRMAK (BSc og MSc i Computer Engineering og Executive MBA i Graduate School of Business) er Senior Solutions Architect hos Amazon Web Services. Han er forretningsteknolog, der rådgiver virksomhedssegmentkunder. Hans speciale er at designe arkitekturer og business cases på databehandlingssystemer i stor skala og Machine Learning-løsninger. Hasan har leveret forretningsudvikling, systemintegration, programstyring til kunder i Europa, Mellemøsten og Afrika. Siden 2016 har han vejledt hundredvis af iværksættere ved startup inkubationsprogrammer pro-bono.

Finjuster transformatorsprogmodeller til sproglig mangfoldighed med Hugging Face på Amazon SageMaker PlatoBlockchain Data Intelligence. Lodret søgning. Ai.Heiko Hotz er en Senior Solutions Architect for AI & Machine Learning og leder Natural Language Processing (NLP)-fællesskabet inden for AWS. Før denne rolle var han chef for datavidenskab for Amazons EU-kundeservice. Heiko hjælper vores kunder med at få succes i deres AI/ML-rejse på AWS og har arbejdet med organisationer i mange brancher, herunder forsikring, finansielle tjenester, medier og underholdning, sundhedspleje, forsyningsselskaber og fremstilling. I sin fritid rejser Heiko så meget som muligt.

Tidsstempel:

Mere fra AWS maskinindlæring