Finjustera transformatorspråkmodeller för språklig mångfald med Hugging Face på Amazon SageMaker PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Finjustera transformatorspråksmodeller för språklig mångfald med Hugging Face på Amazon SageMaker

Cirka 7,000 19 språk används idag. Trots försök i slutet av XNUMX-talet att uppfinna konstruerade språk som volapük eller esperanto finns det inga tecken på enande. Folk väljer fortfarande att skapa nya språk (tänk på din favoritfilmkaraktär som talar klingonska, dothraki eller alviska).

Idag domineras exempel på naturlig språkbehandling (NLP) av engelska språket, modersmålet för endast 5 % av den mänskliga befolkningen och talas endast av 17 %.

Smakämnen digitala klyftan definieras som klyftan mellan de som har tillgång till digital teknik och de som inte kan. Bristande tillgång till kunskap eller utbildning på grund av språkbarriärer bidrar också till den digitala klyftan, inte bara mellan människor som inte talar engelska, utan även för de engelsktalande personer som inte har tillgång till icke-engelsk innehåll, vilket minskar mångfalden av tankar och kunskaper. Det finns så mycket att lära varandra.

I det här inlägget sammanfattar vi utmaningarna med lågresursspråk och experimenterar med olika lösningsmetoder som täcker över 100 språk med hjälp av Hugging Face-transformatorer på Amazon SageMaker.

Vi finjusterar olika förtränade transformatorbaserade språkmodeller för en fråge- och svarsuppgift. Vi använder turkiska i vårt exempel, men du kan använda detta tillvägagångssätt på andra språk som stöds. Vårt fokus ligger på BERT [1] varianter, eftersom en stor egenskap hos BERT är dess enhetliga arkitektur för olika uppgifter.

Vi visar flera fördelar med att använda Hugging Face-transformatorer på Amazon SageMaker, såsom utbildning och experiment i stor skala, och ökad produktivitet och kostnadseffektivitet.

Översikt över NLP

Det har skett flera stora utvecklingar inom NLP sedan 2017. Framväxten av djupinlärningsarkitekturer som transformatorer [2], de oövervakade inlärningsteknikerna för att träna sådana modeller på extremt stora datamängder, och överföringsinlärning har avsevärt förbättrat statusen av- konst i naturlig språkförståelse. Ankomsten av förutbildade modellhubbar har ytterligare demokratiserat tillgången till den samlade kunskapen om NLP-gemenskapen, vilket tar bort behovet av att börja om från början.

En språkmodell är en NLP-modell som lär sig att förutsäga nästa ord (eller något maskerat ord) i en sekvens. Den genuina skönheten i språkmodeller som utgångspunkt är trefaldig: För det första har forskning visat att språkmodeller som tränas på en stor textkorpusdata lär sig mer komplexa betydelser av ord än tidigare metoder. Till exempel, för att kunna förutsäga nästa ord i en mening, måste språkmodellen vara bra på att förstå sammanhanget, semantiken och även grammatiken. För det andra, för att träna en språkmodell, krävs inte märkt data – vilket är knappt och dyrt – under förutbildningen. Detta är viktigt eftersom en enorm mängd omärkt textdata är allmänt tillgänglig på webben på många språk. För det tredje har det visat sig att när språkmodellen är smart nog att förutsäga nästa ord för en given mening, är det relativt lätt att utföra andra NLP-uppgifter såsom sentimentanalys eller frågesvar med väldigt lite märkt data, eftersom finjustering av återanvändning representationer från en förtränad språkmodell [3].

Fullt hanterade NLP-tjänster har också påskyndat införandet av NLP. Amazon Comprehend är en helt hanterad tjänst som gör det möjligt för textanalys att extrahera insikter från innehållet i dokument, och den stöder en mängd olika språk. Amazon Comprehend stöder anpassad klassificering och anpassad enhetsigenkänning och gör att du kan bygga anpassade NLP-modeller som är specifika för dina krav, utan att behöva någon ML-expertis.

Utmaningar och lösningar för resurssnåla språk

Den största utmaningen för ett stort antal språk är att de har relativt sett mindre data tillgänglig för utbildning. Dessa kallas resurssnåla språk. M-BERT-papperen [4] och XLM-R-papperen [7] hänvisar till urdu och swahili som resurssnåla språk.

Följande figur specificerar ISO-koderna för över 80 språk och skillnaden i storlek (i log-skala) mellan de två stora förutbildningarna [7]. I Wikipedia (orange) finns det bara 18 språk med över 1 miljon artiklar och 52 språk med över 1,000 164 artiklar, men 1 språk med endast 10,000–9 XNUMX artiklar [XNUMX]. CommonCrawl-korpusen (blå) ökar mängden data för lågresursspråk med två storleksordningar. Ändå är de fortfarande relativt små jämfört med resursrika språk som engelska, ryska eller tyska.

Finjustera transformatorspråkmodeller för språklig mångfald med Hugging Face på Amazon SageMaker PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

När det gäller Wikipedia-artikelnummer är turkiska ett annat språk i samma grupp med över 100,000 28 artiklar (54:a), tillsammans med urdu (XNUMX:a). Jämfört med urdu skulle turkiska betraktas som ett resursspråk. Turkiska har några intressanta egenskaper, som skulle kunna göra språkmodeller mer kraftfulla genom att skapa vissa utmaningar inom lingvistik och tokenisering. Det är ett agglutinativt språk. Den har en väldigt fri ordföljd, en komplex morfologi eller tider utan engelska motsvarigheter. Fraser som består av flera ord på språk som engelska kan uttryckas med en enda ordform, som visas i följande exempel.

turkiska Engelska
cat Cat
catLER Cats
catgilLER Familj av katter
Kedigillerdag Tillhör familj av katter
catleştirebileceklerimizdenmişçesineyken När det verkar som att en är en av dem vi kan göra hur

Två huvudsakliga lösningar är språkspecifika modeller eller flerspråkiga modeller (med eller utan övervakning över flera språk):

  • Enspråkiga språkmodeller – Den första metoden är att tillämpa en BERT-variant på ett specifikt målspråk. Ju mer träningsdata, desto bättre prestanda.
  • Flerspråkiga maskerade språkmodeller – Den andra metoden är att förträna stora transformatormodeller på många språk. Flerspråkig språkmodellering syftar till att lösa bristen på datautmaning för resurssnåla språk genom att förträna på ett stort antal språk så att NLP-uppgifter som lärts från ett språk kan överföras till andra språk. Multilingual masked language models (MLM) har drivit fram den senaste tekniken när det gäller translinguala förståelseuppgifter. Två exempel är:
    • Flerspråkig BERT – Den flerspråkiga BERT-modellen tränades i 104 olika språk med hjälp av Wikipedia-korpusen. Det har dock visat sig att det bara generaliserar bra över liknande språkliga strukturer och typologiska drag (till exempel språk med liknande ordföljd). Dess flerspråkighet försämras särskilt för språk med olika ordföljder (till exempel subjekt/objekt/verb) [4].
    • XLM-R – Tvärspråkiga språkmodeller (XLM) tränas med ett tvärspråkigt mål med hjälp av parallella datauppsättningar (samma text på två olika språk) eller utan ett tvärspråkigt mål med hjälp av enspråkiga datauppsättningar [6]. Forskning visar att resurssnåla språk tjänar på att skala till fler språk. XLM-RoBERTa är en transformatorbaserad modell inspirerad av RoBERTa [5], och dess utgångspunkt är förslaget att flerspråkiga BERT och XLM är underjusterade. Den är tränad på 100 språk med hjälp av både Wikipedia och CommonCrawl-korpus, så mängden träningsdata för språk med låga resurser är ungefär två storleksordningar större jämfört med m-BERT [7].

En annan utmaning med flerspråkiga språkmodeller för språk med låga resurser är ordförrådets storlek och tokenisering. Eftersom alla språk använder samma delade ordförråd i flerspråkiga språkmodeller, finns det en avvägning mellan att öka ordförrådets storlek (vilket ökar beräkningskraven) kontra att minska det (ord som inte finns i ordförrådet skulle markeras som okända, eller att använda tecken istället för ord som tokens skulle ignorera vilken struktur som helst). Ordbit-tokeniseringsalgoritmen kombinerar fördelarna med båda tillvägagångssätten. Till exempel hanterar den effektivt ord utanför vokabulären genom att dela upp ordet i underord tills det finns i vokabulären eller tills det individuella tecknet nås. Karaktärsbaserad tokenisering är inte särskilt användbar förutom för vissa språk, som kinesiska. Det finns tekniker för att ta itu med utmaningar för resurssnåla språk, såsom sampling med vissa distributioner [6].

Följande tabell visar hur tre olika tokenizers beter sig för ordet "kedileri" (som betyder "dess katter"). För vissa språk och NLP-uppgifter skulle detta göra skillnad. Till exempel, för uppgiften att svara på frågor, returnerar modellen intervallet för starttokenindex och sluttokenindex; att returnera "kediler" ("katter") eller "kedileri" ("dess katter") skulle förlora ett visst sammanhang och leda till olika utvärderingsresultat för vissa mätvärden.

Förutbildad modell Ordförrådsstorlek Tokenisering för "Kedileri"*
dbmdz/bert-base-turkisk-uncased 32,000 tokens [CLS] katter ##jag [SEP]
Inmatnings-ID:n 2 23714 1023 3
bert-base-flerspråkig-uncased 105,879 tokens [CLS] ked ##iler ##jag [SEP]
Inmatnings-ID:n 101 30210 33719 10116 102
deepset/xlm-roberta-base-squad2 250,002 tokens Ke di s
Inmatnings-ID:n 0 1345 428 1341 .
*På engelska: (Dess) katter

Därför, även om språk med låga resurser drar nytta av flerspråkiga språkmodeller, kan tokenisering över ett delat ordförråd ignorera vissa språkliga egenskaper för vissa språk.

I nästa avsnitt jämför vi tre tillvägagångssätt genom att finjustera dem för en frågesvarsuppgift med hjälp av en QA-datauppsättning för turkiska: BERTurk [8], flerspråkig BERT [4] och XLM-R [7].

Lösningsöversikt

Vårt arbetsflöde är som följer:

  1. Förbered datasetet i en Amazon SageMaker Studio notebook-miljö och ladda upp den till Amazon enkel lagringstjänst (Amazon S3).
  2. Starta parallella utbildningsjobb på SageMaker utbildningsbehållare för djupinlärning genom att tillhandahålla finjusteringsskriptet.
  3. Samla in metadata från varje experiment.
  4. Jämför resultat och identifiera den mest lämpliga modellen.

Följande diagram illustrerar lösningsarkitekturen.

Finjustera transformatorspråkmodeller för språklig mångfald med Hugging Face på Amazon SageMaker PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

För mer information om Studio-anteckningsböcker, se Dyk djupt in i Amazon SageMaker Studio Notebooks arkitektur. För mer information om hur Hugging Face integreras med SageMaker, se AWS och Hugging Face samarbetar för att förenkla och påskynda användningen av Natural Language Processing-modeller.

Förbered datasetet

Biblioteket Hugging Face Dataset tillhandahåller kraftfulla databearbetningsmetoder för att snabbt göra en datauppsättning redo för utbildning i en modell för djupinlärning. Följande kod laddar den turkiska QA-datauppsättningen och utforskar vad som finns inuti:

data_files = {}
data_files["train"] = 'data/train.json'
data_files["validation"] = 'data/val.json' ds = load_dataset("json", data_files=data_files) print("Number of features in dataset: n Train = {}, n Validation = {}".format(len(ds['train']), len(ds['validation'])))

Det finns cirka 9,000 XNUMX prover.

Finjustera transformatorspråkmodeller för språklig mångfald med Hugging Face på Amazon SageMaker PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Indatadataset är något omvandlat till ett format som förväntas av de förtränade modellerna och innehåller följande kolumner:

df = pd.DataFrame(ds['train'])
df.sample(1)

Finjustera transformatorspråkmodeller för språklig mångfald med Hugging Face på Amazon SageMaker PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.
Den engelska översättningen av utgången är som följer:

  • sammanhang – Resit Emre Kongar (f. 13 oktober 1941, Istanbul), turkisk sociolog, professor.
  • fråga – Vad är Emre Kongars akademiska titel?
  • svara -Professor

Finjusterande manus

Hugging Face Transformers-biblioteket tillhandahåller en exempelkod för att finjustera en modell för en frågesvarsuppgift, kallad run_qa.py. Följande kod initierar tränaren:

 # Initialize our Trainer trainer = QuestionAnsweringTrainer( model=model, args=training_args, train_dataset=train_dataset, eval_dataset=eval_dataset, eval_examples=eval_examples, tokenizer=tokenizer, data_collator=data_collator, post_process_function=post_processing_function, compute_metrics=compute_metrics, )

Låt oss se över byggstenarna på en hög nivå.

Tokenizer

Skriptet laddar en tokenizer med hjälp av AutoTokenizer klass. De AutoTokenizer class tar hand om att returnera rätt tokenizer som motsvarar modellen:

tokenizer = AutoTokenizer.from_pretrained( model_args.model_name_or_path, cache_dir=model_args.cache_dir, use_fast=True, revision=model_args.model_revision, use_auth_token=None, )

Följande är ett exempel på hur tokenizern fungerar:

from transformers import AutoTokenizer tokenizer = AutoTokenizer.from_pretrained("deepset/xlm-roberta-base-squad2") input_ids = tokenizer.encode('İstanbulun en popüler hayvanı hangisidir? Kedileri', return_tensors="pt")
tokens = tokenizer('İstanbulun en popüler hayvanı hangisidir? Kedileri').tokens()

Finjustera transformatorspråkmodeller för språklig mångfald med Hugging Face på Amazon SageMaker PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Modell

Skriptet laddar en modell. AutoModel klasser (t.ex. AutoModelForQuestionAnswering) skapa direkt en klass med vikter, konfiguration och vokabulär för den relevanta arkitekturen med namnet och sökvägen till den förtränade modellen. Tack vare abstraktionen av Hugging Face kan du enkelt byta till en annan modell med samma kod, bara genom att ange modellens namn. Se följande exempelkod:

 model = AutoModelForQuestionAnswering.from_pretrained( model_args.model_name_or_path, config=config, cache_dir=model_args.cache_dir, revision=model_args.model_revision, )

Förbearbetning och utbildning

Smakämnen prepare_train_features() och prepare_validation_features() metoder förbearbetar träningsdatasetet respektive valideringsdataset. Koden itererar över indatadataset och bygger en sekvens från sammanhanget och den aktuella frågan, med rätt modellspecifika ID:n för tokentyp (numeriska representationer av tokens) och uppmärksamhetsmasker. Sekvensen förs sedan genom modellen. Detta ger en rad poäng, för både start- och slutpositioner, som visas i följande tabell.

Indatadatafält Förbehandlade träningsdatafält för QuestionAnsweringTrainer
id input_ids
rubricerade uppmärksamhetsmask
sammanhang startpositioner
fråga slutpositioner
Svar { answer_start, answer_text } .

Utvärdering

Smakämnen compute_metrics() metod tar hand om beräkning av mätvärden. Vi använder följande populära mätvärden för att svara på frågor:

  • Exakt matchning – Mäter procentandelen förutsägelser som matchar något av de grundläggande sanningssvaren exakt.
  • F1-poäng – Mäter den genomsnittliga överlappningen mellan förutsägelse och sanningssvar. F1-poängen är det harmoniska medelvärdet för precision och återkallelse:
    • Precision – Förhållandet mellan antalet delade ord och det totala antalet ord i förutsägelsen.
    • Recall – Förhållandet mellan antalet delade ord och det totala antalet ord i grundsanningen.

Skött utbildning på SageMaker

Att ställa in och hantera anpassade maskininlärningsmiljöer (ML) kan vara tidskrävande och krångligt. Med AWS Deep Learning Container (DLC) för Hugging Face Transformers-bibliotek har vi tillgång till förpackade och optimerade ramverk för djupinlärning, vilket gör det enkelt att köra vårt skript över flera träningsjobb med minimal tilläggskod.

Vi behöver bara använda Kramar Face Estimator tillgängligt i SageMaker Python SDK med följande ingångar:

# Trial configuration
config['model'] = 'deepset/xlm-roberta-base-squad2'
config['instance_type'] = 'ml.p3.16xlarge'
config['instance_count'] = 2 # Define the distribution parameters in the HuggingFace Estimator config['distribution'] = {'smdistributed':{'dataparallel':{ 'enabled': True }}}
trial_configs.append(config) # We can specify a training script that is stored in a GitHub repository as the entry point for our Estimator, # so we don’t have to download the scripts locally.
git_config = {'repo': 'https://github.com/huggingface/transformers.git'} hyperparameters_qa={ 'model_name_or_path': config['model'], 'train_file': '/opt/ml/input/data/train/train.json', 'validation_file': '/opt/ml/input/data/val/val.json', 'do_train': True, 'do_eval': True, 'fp16': True, 'per_device_train_batch_size': 16, 'per_device_eval_batch_size': 16, 'num_train_epochs': 2, 'max_seq_length': 384, 'pad_to_max_length': True, 'doc_stride': 128, 'output_dir': '/opt/ml/model' } huggingface_estimator = HuggingFace(entry_point='run_qa.py', source_dir='./examples/pytorch/question-answering', git_config=git_config, instance_type=config['instance_type'], instance_count=config['instance_count'], role=role, transformers_version='4.12.3', pytorch_version='1.9.1', py_version='py38', distribution=config['distribution'], hyperparameters=hyperparameters_qa, metric_definitions=metric_definitions, enable_sagemaker_metrics=True,) nlp_training_job_name = f"NLPjob-{model}-{instance}-{int(time.time())}" training_input_path = f's3://{sagemaker_session_bucket}/{s3_prefix_qa}/' test_input_path = f's3://{sagemaker_session_bucket}/{s3_prefix_qa}/' huggingface_estimator.fit( inputs={'train': training_input_path, 'val': test_input_path}, job_name=nlp_training_job_name, experiment_config={ "ExperimentName": nlp_experiment.experiment_name, "TrialName": nlp_trial.trial_name, "TrialComponentDisplayName": nlp_trial.trial_name,}, wait=False, )

Utvärdera resultaten

När finjusteringsjobben för den turkiska frågesvarsuppgiften är klara jämför vi modellprestandan för de tre tillvägagångssätten:

  • Enspråkig språkmodell – Den förtränade modellen finjusterad på den turkiska frågesvarstexten kallas bert-base-turkisk-oskyddad [8]. Den uppnår en F1-poäng på 75.63 och en exakt matchning på 56.17 under bara två epoker och med 9,000 XNUMX märkta föremål. Det här tillvägagångssättet är dock inte lämpligt för ett språk med låga resurser när en förtränad språkmodell inte finns, eller det finns lite data tillgänglig för träning från grunden.
  • Flerspråkig språkmodell med flerspråkig BERT – Den förtränade modellen kallas bert-base-flerspråkig-uncased. Det flerspråkiga BERT-dokumentet [4] har visat att det generaliserar bra mellan olika språk. Jämfört med den enspråkiga modellen presterar den sämre (F1-poäng 71.73, exakt matchning 50:45), men observera att denna modell hanterar över 100 andra språk, vilket ger mindre utrymme för att representera det turkiska språket.
  • Flerspråkig språkmodell med XLM-R – Den förtränade modellen kallas xlm-roberta-base-squad2. XLM-R-dokumentet visar att det är möjligt att ha en enda stor modell för över 100 språk utan att offra prestanda per språk [7]. För den turkiska frågesvarsuppgiften överträffar den flerspråkiga BERT och enspråkiga BERT F1-poäng med 5 % respektive 2 % (F1-poäng 77.14, exakt matchning 56.39).

Finjustera transformatorspråkmodeller för språklig mångfald med Hugging Face på Amazon SageMaker PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Vår jämförelse tar inte hänsyn till andra skillnader mellan modeller som modellkapacitet, träningsdatauppsättningar som används, NLP-uppgifter förutbildade på, ordförrådsstorlek eller tokenisering.

Ytterligare experiment

Den medföljande anteckningsboken innehåller ytterligare experimentexempel.

SageMaker tillhandahåller ett brett utbud av typer av träningsinstanser. Vi finjusterade XLM-R-modellen på p3.2xlarge (GPU: Nvidia V100 GPU, GPU-arkitektur: Volta (2017)), p3.16xlarge (GPU: 8 Nvidia V100 GPU) och g4dn.xlarge (GPU: Nvidia T4) GPU, GPU-arkitektur: Turing (2018)), och observerade följande:

  • Träningsperiod – Enligt vårt experiment tog XLM-R-modellen ungefär 24 minuter att träna på p3.2xlarge och 30 minuter på g4dn.xlarge (cirka 23 % längre). Vi utförde även distribuerad finjustering på två p3.16xlarge instanser, och träningstiden minskade till 10 minuter. För mer information om distribuerad utbildning av en transformatorbaserad modell på SageMaker, se Distribuerad finjustering av en BERT Large-modell för en frågesvarsuppgift med Hugging Face Transformers på Amazon SageMaker.
  • Utbildningskostnader – Vi använde AWS Pricing API för att hämta SageMaker on-demand-priser för att beräkna det direkt. Enligt vårt experiment kostade träning ungefär 1.58 USD på p3.2xlarge och ungefär fyra gånger mindre på g4dn.xlarge (0.37 USD). Distribuerad utbildning på två p3.16xlarge-instanser med 16 GPU:er kostar $9.68.

För att sammanfatta, även om g4dn.xlarge var den billigaste maskinen, tog den också ungefär tre gånger längre tid att träna än den mest kraftfulla instanstypen vi experimenterade med (två p3.16xlarge). Beroende på dina projektprioriteringar kan du välja från ett brett utbud av SageMaker-utbildningsinstanser.

Slutsats

I det här inlägget utforskade vi finjustering av förtränade transformatorbaserade språkmodeller för en frågesvarsuppgift för ett mellanresursspråk (i det här fallet turkiska). Du kan tillämpa detta tillvägagångssätt på över 100 andra språk med en enda modell. I skrivande stund är det fortfarande oöverkomligt att skala upp en modell för att täcka alla världens 7,000 XNUMX språk, men NLP-området ger en möjlighet att vidga våra horisonter.

Språket är den huvudsakliga metoden för mänsklig kommunikation, och är ett sätt att kommunicera värderingar och dela skönheten i ett kulturarv. Den språkliga mångfalden stärker den interkulturella dialogen och bygger inkluderande samhällen.

ML är en mycket iterativ process; under loppet av ett enda projekt tränar datavetare hundratals olika modeller, datauppsättningar och parametrar i jakten på maximal noggrannhet. SageMaker erbjuder den mest kompletta uppsättningen verktyg för att utnyttja kraften i ML och djupinlärning. Det låter dig organisera, spåra, jämföra och utvärdera ML-experiment i stor skala.

Hugging Face är integrerat med SageMaker för att hjälpa datavetare att utveckla, träna och ställa in toppmoderna NLP-modeller snabbare och enklare. Vi visade flera fördelar med att använda Hugging Face-transformatorer på Amazon SageMaker, som träning och experiment i stor skala, och ökad produktivitet och kostnadseffektivitet.

Du kan experimentera med NLP-uppgifter på ditt föredragna språk i SageMaker i alla AWS-regioner där SageMaker är tillgängligt. Exempelkoden för anteckningsboken är tillgänglig i GitHub.

För att lära dig hur Amazon SageMaker Training Compiler kan påskynda utbildningen av djupinlärningsmodeller med upp till 50 %, se Nytt – Vi introducerar SageMaker Training Compiler.

Författarna vill uttrycka sin djupaste uppskattning till Mariano Kamp och Emily Webber för att de har granskat utkast och ge råd.

Referensprojekt

  1. J. Devlin et al., "BERT: Pre-Training of Deep Bidirectional Transformers for Language Understanding", (2018).
  2. A. Vaswani et al., "Attention Is All You Need", (2017).
  3. J. Howard och S. Ruder, "Universal Language Model Fine-Tuning for Text Classification", (2018).
  4. T. Pires et al., "Hur flerspråkig är flerspråkig BERT?", (2019).
  5. Y. Liu et al., "RoBERTa: A Robustly Optimized BERT Pretraining Approach", (2019).
  6. G. Lample och A. Conneau, "Cross-lingual Language Model Pretraining", (2019).
  7. A. Conneau et al., "Unsupervised Cross-lingual representation Learning at Scale", (2019).
  8. Stefan Schweter. BERTurk – BERT-modeller för turkiska (2020).
  9. Flerspråkig Wiki-statistik https://en.wikipedia.org/wiki/Wikipedia:Multilingual_statistics

Om författarna

Finjustera transformatorspråkmodeller för språklig mångfald med Hugging Face på Amazon SageMaker PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.Arnav Khare är en Principal Solutions Architect för Global Financial Services på AWS. Hans primära fokus är att hjälpa finansiella tjänster att bygga och designa applikationer för analys och maskininlärning i molnet. Arnav har en MSc i artificiell intelligens från Edinburgh University och har 18 års branscherfarenhet från små startups han grundade till stora företag som Nokia och Bank of America. Utanför jobbet älskar Arnav att umgås med sina två döttrar, hitta nya oberoende kaféer, läsa och resa. Du kan hitta mig på LinkedIn och i Surrey, Storbritannien i verkligheten.

Finjustera transformatorspråkmodeller för språklig mångfald med Hugging Face på Amazon SageMaker PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.Hasan-Basri AKIRMAK (BSc och MSc i datateknik och Executive MBA i Graduate School of Business) är senior lösningsarkitekt på Amazon Web Services. Han är en affärsteknolog som ger råd till företagssegmentskunder. Hans specialområde är att designa arkitekturer och affärscases på storskaliga databehandlingssystem och Machine Learning-lösningar. Hasan har levererat affärsutveckling, systemintegration, programledning för kunder i Europa, Mellanöstern och Afrika. Sedan 2016 har han varit mentor för hundratals entreprenörer vid startup-inkubationsprogram pro-bono.

Finjustera transformatorspråkmodeller för språklig mångfald med Hugging Face på Amazon SageMaker PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.Heiko Hotz är en senior lösningsarkitekt för AI och maskininlärning och leder NLP-gemenskapen (Natural Language Processing) inom AWS. Innan den här rollen var han chef för datavetenskap för Amazons EU Customer Service. Heiko hjälper våra kunder att bli framgångsrika i sin AI/ML-resa på AWS och har arbetat med organisationer i många branscher, inklusive försäkring, finansiella tjänster, media och underhållning, hälsovård, verktyg och tillverkning. På fritiden reser Heiko så mycket som möjligt.

Tidsstämpel:

Mer från AWS maskininlärning