Natančno prilagodite transformatorske jezikovne modele za jezikovno raznolikost z Hugging Face na Amazon SageMaker PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

Natančno prilagodite transformatorske jezikovne modele za jezikovno raznolikost z Hugging Face na Amazon SageMaker

Danes je v uporabi približno 7,000 jezikov. Kljub poskusom v poznem 19. stoletju, da bi izumili sestavljene jezike, kot sta volapük ali esperanto, ni znakov poenotenja. Ljudje se še vedno odločajo za ustvarjanje novih jezikov (pomislite na svoj najljubši filmski lik, ki govori klingonščino, dotrakščino ali vilinsko).

Danes v primerih obdelave naravnega jezika (NLP) prevladuje angleški jezik, ki je materni jezik le za 5 % človeške populacije in ga govori le 17 %.

O digitalni razkorak je definiran kot vrzel med tistimi, ki imajo dostop do digitalnih tehnologij, in tistimi, ki ne morejo. Pomanjkanje dostopa do znanja ali izobrazbe zaradi jezikovnih ovir prispeva tudi k digitalnemu razkoraku, ne le med ljudmi, ki ne govorijo angleško, ampak tudi za angleško govoreče ljudi, ki nimajo dostopa do neangleških vsebin, kar zmanjšuje raznolikost misli in znanja. Vzajemno se lahko veliko naučimo.

V tej objavi povzemamo izzive jezikov z malo viri in eksperimentiramo z različnimi pristopi rešitev, ki pokrivajo več kot 100 jezikov z uporabo transformatorjev Hugging Face na Amazon SageMaker.

Za nalogo vprašanja in odgovora natančno prilagodimo različne vnaprej usposobljene jezikovne modele, ki temeljijo na transformatorjih. V našem primeru uporabljamo turščino, vendar lahko ta pristop uporabite za druge podprte jezike. Naš poudarek je na različicah BERT [1]., ker je odlična lastnost BERT-a njegova enotna arhitektura za različne naloge.

Predstavljamo številne prednosti uporabe transformatorjev Hugging Face Amazon SageMaker, kot sta usposabljanje in eksperimentiranje v velikem obsegu, ter povečana produktivnost in stroškovna učinkovitost.

Pregled NLP

Od leta 2017 je v NLP prišlo do več velikih dogodkov. Pojav arhitektur globokega učenja, kot so transformatorji [2], tehnike nenadzorovanega učenja za usposabljanje takšnih modelov na izjemno velikih zbirkah podatkov, in učenje prenosa so znatno izboljšali stanje umetnost v razumevanju naravnega jezika. Prihod vnaprej usposobljenih vozlišč za modele je dodatno demokratiziral dostop do kolektivnega znanja NLP skupnosti in odstranil potrebo po začetku iz nič.

Jezikovni model je model NLP, ki se nauči predvideti naslednjo besedo (ali katero koli zamaskirano besedo) v zaporedju. Pristna lepota jezikovnih modelov kot izhodišča je trojna: Prvič, raziskave so pokazale, da se jezikovni modeli, ki se urijo na velikem besedilnem korpusu podatkov, naučijo bolj zapletenih pomenov besed kot prejšnje metode. Da bi na primer lahko predvideli naslednjo besedo v stavku, mora biti jezikovni model dober pri razumevanju konteksta, semantike in tudi slovnice. Drugič, za usposabljanje jezikovnega modela med predhodnim usposabljanjem niso potrebni označeni podatki, ki so redki in dragi. To je pomembno, ker je ogromna količina neoznačenih besedilnih podatkov javno dostopnih na spletu v številnih jezikih. Tretjič, dokazano je bilo, da ko je jezikovni model dovolj pameten, da predvidi naslednjo besedo za kateri koli stavek, je sorazmerno enostavno izvajati druge NLP naloge, kot je analiza razpoloženja ali odgovarjanje na vprašanja, z zelo malo označenih podatkov, ker natančno prilagajanje ponovne uporabe predstavitve iz vnaprej usposobljenega jezikovnega modela [3].

Popolnoma upravljane storitve NLP so prav tako pospešile sprejemanje NLP. Amazonsko razumevanje je v celoti upravljana storitev, ki omogoča analizo besedila, da pridobi vpoglede iz vsebine dokumentov, in podpira različne jezike. Amazon Comprehend podpira klasifikacijo po meri in prepoznavanje entitet po meri ter vam omogoča, da zgradite modele NLP po meri, ki so specifični za vaše zahteve, brez potrebe po kakršnem koli strokovnem znanju ML.

Izzivi in ​​rešitve za jezike z malo virov

Glavni izziv za veliko število jezikov je, da imajo na voljo relativno manj podatkov za usposabljanje. Ti se imenujejo jeziki z malo viri. Dokument m-BERT [4] in dokument XLM-R [7] urdu in svahili omenjata kot jezika z nizkimi viri.

Naslednja slika določa kode ISO za več kot 80 jezikov in razliko v velikosti (v log-skali) med dvema glavnima predhodnima usposabljanjema [7]. V Wikipediji (oranžna) je samo 18 jezikov z več kot 1 milijonom člankov in 52 jezikov z več kot 1,000 članki, vendar 164 jezikov z le 1–10,000 članki [9]. Korpus CommonCrawl (moder) poveča količino podatkov za jezike z malo virov za dva reda velikosti. Kljub temu so še vedno relativno majhni v primerjavi z jeziki z veliko viri, kot so angleščina, ruščina ali nemščina.

Natančno prilagodite transformatorske jezikovne modele za jezikovno raznolikost z Hugging Face na Amazon SageMaker PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

Kar zadeva število člankov v Wikipediji, je turščina še en jezik v isti skupini z več kot 100,000 članki (28.), skupaj z urdujem (54.). V primerjavi z urdujem bi se turščina štela za jezik srednjega obsega. Turščina ima nekaj zanimivih značilnosti, ki bi lahko naredile jezikovne modele močnejše z ustvarjanjem določenih izzivov v jezikoslovju in tokenizaciji. To je aglutinativni jezik. Ima zelo prost besedni red, zapleteno morfologijo ali čase brez angleških ustreznic. Besedne zveze, sestavljene iz več besed v jezikih, kot je angleščina, je mogoče izraziti z eno besedno obliko, kot je prikazano v naslednjem primeru.

turški Angleščina
mačka Cat
mačkaza branje Cats
mačkagilza branje Družina mačke
mačjidan Pripadnost k družina mačk
mačkaleştirebileceklerimizdenmişçesineyken Ko se zdi, da je to tisto, kar lahko naredimo mačka

Dva glavna pristopa rešitve sta modeli, specifični za jezik, ali večjezični modeli (z ali brez medjezikovnega nadzora):

  • Enojezični jezikovni modeli – Prvi pristop je uporaba različice BERT za določen ciljni jezik. Več kot je podatkov o usposabljanju, boljša je zmogljivost modela.
  • Večjezični maskirani jezikovni modeli – Drugi pristop je vnaprejšnje usposabljanje velikih modelov transformatorjev v številnih jezikih. Večjezično jezikovno modeliranje je namenjeno reševanju izziva pomanjkanja podatkov za jezike z nizkimi viri s predhodnim usposabljanjem za veliko število jezikov, tako da je mogoče naloge NLP, naučene iz enega jezika, prenesti v druge jezike. Večjezični maskirani jezikovni modeli (MLM) so potisnili najsodobnejše naloge medjezikovnega razumevanja. Dva primera sta:
    • Večjezični BERT – Večjezični model BERT je bil usposobljen za 104 različne jezike z uporabo korpusa Wikipedije. Vendar se je izkazalo, da se dobro posplošuje le v podobnih jezikovnih strukturah in tipoloških značilnostih (na primer v jezikih s podobnim besednim redom). Njegova večjezičnost je zmanjšana zlasti pri jezikih z različnimi besednimi vrstnimi redi (na primer osebek/predmet/glagol) [4].
    • XLM-R – Medjezikovni jezikovni modeli (XLM) se usposabljajo z medjezičnim ciljem z uporabo vzporednih podatkovnih nizov (isto besedilo v dveh različnih jezikih) ali brez medjezikovnega cilja z uporabo enojezičnih podatkovnih nizov [6]. Raziskave kažejo, da imajo jeziki z nizkimi viri koristi od prilagajanja na več jezikov. XLM-RoBERTa je transformatorski model, ki ga je navdihnil RoBERTa [5], njegovo izhodišče pa je predlog, da sta večjezična BERT in XLM premalo prilagojena. Usposablja se za 100 jezikov z uporabo tako Wikipedije kot CommonCrawl korpusa, tako da je količina podatkov za usposabljanje za jezike z malo virov približno dva reda velikosti večja v primerjavi z m-BERT [7].

Drug izziv večjezičnih jezikovnih modelov za jezike z nizkimi viri je velikost besedišča in tokenizacija. Ker vsi jeziki uporabljajo isti skupni besednjak v večjezičnih jezikovnih modelih, obstaja kompromis med povečanjem velikosti besedišča (kar poveča računalniške zahteve) in zmanjšanjem (besede, ki niso v besedišču, bi bile označene kot neznane ali z uporabo znakov namesto besed kot žetonov bi ignorirali kakršno koli strukturo). Algoritem tokenizacije besednega dela združuje prednosti obeh pristopov. Na primer, učinkovito obravnava besede izven besedišča tako, da besedo razdeli na podbesede, dokler ni prisotna v besedišču ali dokler ni dosežen posamezni znak. Tokenizacija na podlagi znakov ni zelo uporabna, razen za nekatere jezike, kot je kitajščina. Obstajajo tehnike za reševanje izzivov za jezike z nizkimi viri, kot je vzorčenje z določenimi distribucijami [6].

Naslednja tabela prikazuje, kako se obnašajo trije različni tokenizatorji za besedo »kedileri« (kar pomeni »njene mačke«). Za nekatere jezike in NLP naloge bi to pomenilo razliko. Na primer, za nalogo odgovora na vprašanje model vrne razpon indeksa začetnega žetona in indeksa končnega žetona; vrnitev »kediler« (»mačke«) ali »kedileri« (»njegove mačke«) bi izgubila nekaj konteksta in vodila do različnih rezultatov vrednotenja za nekatere meritve.

Predpripravljen model Velikost besedišča Tokenizacija za “Kedileri”*
dbmdz/bert-base-turkish-uncased 32,000 Boni [CLS] mačke ##jaz [SEP]
Vnos ID-jev 2 23714 1023 3
bert-base-multilingual-uncased 105,879 Boni [CLS] ked ##iler ##jaz [SEP]
Vnos ID-jev 101 30210 33719 10116 102
deepset/xlm-roberta-base-squad2 250,002 Boni Ke di s
Vnos ID-jev 0 1345 428 1341 .
*V angleščini: (Its) cats

Čeprav jeziki z nizkimi viri koristijo večjezične jezikovne modele, lahko izvajanje tokenizacije v skupnem besedišču prezre nekatere jezikovne značilnosti za nekatere jezike.

V naslednjem razdelku primerjamo tri pristope tako, da jih natančno prilagodimo za nalogo odgovarjanja na vprašanja z uporabo nabora podatkov QA za turščino: BERTurk [8], večjezični BERT [4] in XLM-R [7].

Pregled rešitev

Naš potek dela je naslednji:

  1. Pripravite nabor podatkov v an Amazon SageMaker Studio okolje prenosnika in ga naložite v Preprosta storitev shranjevanja Amazon (Amazon S3).
  2. Zaženite vzporedna izobraževalna opravila na vsebnikih za globoko učenje SageMaker, tako da zagotovite skript za natančno nastavitev.
  3. Zberite metapodatke iz vsakega poskusa.
  4. Primerjajte rezultate in določite najustreznejši model.

Naslednji diagram prikazuje arhitekturo rešitev.

Natančno prilagodite transformatorske jezikovne modele za jezikovno raznolikost z Hugging Face na Amazon SageMaker PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

Za več informacij o prenosnih računalnikih Studio glejte Poglobite se v arhitekturo prenosnih računalnikov Amazon SageMaker Studio. Za več informacij o tem, kako je Hugging Face integriran s SageMaker, glejte AWS in Hugging Face sodelujeta pri poenostavitvi in ​​pospešitvi sprejemanja modelov obdelave naravnega jezika.

Pripravite nabor podatkov

Knjižnica naborov podatkov Hugging Face ponuja zmogljive metode obdelave podatkov za hitro pripravo nabora podatkov za usposabljanje v modelu globokega učenja. Naslednja koda naloži turški nabor podatkov QA in razišče, kaj je notri:

data_files = {}
data_files["train"] = 'data/train.json'
data_files["validation"] = 'data/val.json' ds = load_dataset("json", data_files=data_files) print("Number of features in dataset: n Train = {}, n Validation = {}".format(len(ds['train']), len(ds['validation'])))

Vzorcev je okoli 9,000.

Natančno prilagodite transformatorske jezikovne modele za jezikovno raznolikost z Hugging Face na Amazon SageMaker PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

Vhodni nabor podatkov je rahlo preoblikovan v obliko, ki jo pričakujejo predhodno usposobljeni modeli, in vsebuje naslednje stolpce:

df = pd.DataFrame(ds['train'])
df.sample(1)

Natančno prilagodite transformatorske jezikovne modele za jezikovno raznolikost z Hugging Face na Amazon SageMaker PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.
Angleški prevod izhoda je naslednji:

  • ozadje – Resit Emre Kongar (r. 13. oktober 1941, Istanbul), turški sociolog, profesor.
  • vprašanje – Kakšen je akademski naziv Emreja Kongarja?
  • odgovor – profesor

Skript za fino nastavitev

Knjižnica Hugging Face Transformers ponuja primer kode za natančno nastavitev modela za nalogo odgovarjanja na vprašanja, imenovano run_qa.py. Naslednja koda inicializira trenerja:

 # Initialize our Trainer trainer = QuestionAnsweringTrainer( model=model, args=training_args, train_dataset=train_dataset, eval_dataset=eval_dataset, eval_examples=eval_examples, tokenizer=tokenizer, data_collator=data_collator, post_process_function=post_processing_function, compute_metrics=compute_metrics, )

Oglejmo si gradnike na visoki ravni.

Tokenizer

Skript naloži tokenizer z uporabo AutoTokenizer razred. The AutoTokenizer razred poskrbi za vrnitev pravilnega tokenizerja, ki ustreza modelu:

tokenizer = AutoTokenizer.from_pretrained( model_args.model_name_or_path, cache_dir=model_args.cache_dir, use_fast=True, revision=model_args.model_revision, use_auth_token=None, )

Sledi primer delovanja tokenizerja:

from transformers import AutoTokenizer tokenizer = AutoTokenizer.from_pretrained("deepset/xlm-roberta-base-squad2") input_ids = tokenizer.encode('İstanbulun en popüler hayvanı hangisidir? Kedileri', return_tensors="pt")
tokens = tokenizer('İstanbulun en popüler hayvanı hangisidir? Kedileri').tokens()

Natančno prilagodite transformatorske jezikovne modele za jezikovno raznolikost z Hugging Face na Amazon SageMaker PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

Model

Skript naloži model. AutoModel razrede (npr. AutoModelForQuestionAnswering) neposredno ustvarite razred z utežmi, konfiguracijo in besediščem ustrezne arhitekture z imenom in potjo do predhodno usposobljenega modela. Zahvaljujoč abstrakciji Hugging Face lahko preprosto preklopite na drug model z uporabo iste kode, samo z vnosom imena modela. Oglejte si naslednji primer kode:

 model = AutoModelForQuestionAnswering.from_pretrained( model_args.model_name_or_path, config=config, cache_dir=model_args.cache_dir, revision=model_args.model_revision, )

Predhodna obdelava in usposabljanje

O prepare_train_features() in prepare_validation_features() metode predhodno obdelajo nabor podatkov o usposabljanju oziroma nabore podatkov o validaciji. Koda ponavlja vhodni nabor podatkov in gradi zaporedje iz konteksta in trenutnega vprašanja s pravilnimi ID-ji vrste žetonov, specifičnimi za model (številčne predstavitve žetonov) in maskami pozornosti. Zaporedje se nato prenese skozi model. To izpiše obseg rezultatov za začetni in končni položaj, kot je prikazano v naslednji tabeli.

Polja nabora vnosnih podatkov Vnaprej obdelana polja nabora podatkov za usposabljanje za QuestionAnsweringTrainer
id input_ids
Naslov pozornost_maska
ozadje začetni_položaji
vprašanje končni_položaji
Odgovori { answer_start, answer_text } .

Ocenjevanje

O compute_metrics() metoda poskrbi za izračun metrik. Za naloge odgovarjanja na vprašanja uporabljamo naslednje priljubljene meritve:

  • Natančna tekma – Meri odstotek napovedi, ki se natančno ujemajo s katerim koli od osnovnih odgovorov resnice.
  • Ocena F1 – Meri povprečno prekrivanje med napovedjo in resničnim odgovorom. Rezultat F1 je harmonična sredina natančnosti in priklica:
    • Precision – Razmerje med številom besed v skupni rabi in skupnim številom besed v napovedi.
    • Recall – Razmerje med številom deljenih besed in skupnim številom besed v osnovni resnici.

Upravljano usposabljanje na SageMaker

Nastavitev in upravljanje okolij strojnega učenja po meri (ML) je lahko dolgotrajno in okorno. z AWS Deep Learning Container (DLC-ji) za knjižnice Hugging Face Transformers imamo dostop do predpakiranih in optimiziranih ogrodij globokega učenja, kar olajša izvajanje našega skripta v več izobraževalnih opravilih z minimalno dodatno kodo.

Samo uporabiti moramo Ocenjevalnik objemajočih se obrazov na voljo v SDK-ju SageMaker Python z naslednjimi vnosi:

# Trial configuration
config['model'] = 'deepset/xlm-roberta-base-squad2'
config['instance_type'] = 'ml.p3.16xlarge'
config['instance_count'] = 2 # Define the distribution parameters in the HuggingFace Estimator config['distribution'] = {'smdistributed':{'dataparallel':{ 'enabled': True }}}
trial_configs.append(config) # We can specify a training script that is stored in a GitHub repository as the entry point for our Estimator, # so we don’t have to download the scripts locally.
git_config = {'repo': 'https://github.com/huggingface/transformers.git'} hyperparameters_qa={ 'model_name_or_path': config['model'], 'train_file': '/opt/ml/input/data/train/train.json', 'validation_file': '/opt/ml/input/data/val/val.json', 'do_train': True, 'do_eval': True, 'fp16': True, 'per_device_train_batch_size': 16, 'per_device_eval_batch_size': 16, 'num_train_epochs': 2, 'max_seq_length': 384, 'pad_to_max_length': True, 'doc_stride': 128, 'output_dir': '/opt/ml/model' } huggingface_estimator = HuggingFace(entry_point='run_qa.py', source_dir='./examples/pytorch/question-answering', git_config=git_config, instance_type=config['instance_type'], instance_count=config['instance_count'], role=role, transformers_version='4.12.3', pytorch_version='1.9.1', py_version='py38', distribution=config['distribution'], hyperparameters=hyperparameters_qa, metric_definitions=metric_definitions, enable_sagemaker_metrics=True,) nlp_training_job_name = f"NLPjob-{model}-{instance}-{int(time.time())}" training_input_path = f's3://{sagemaker_session_bucket}/{s3_prefix_qa}/' test_input_path = f's3://{sagemaker_session_bucket}/{s3_prefix_qa}/' huggingface_estimator.fit( inputs={'train': training_input_path, 'val': test_input_path}, job_name=nlp_training_job_name, experiment_config={ "ExperimentName": nlp_experiment.experiment_name, "TrialName": nlp_trial.trial_name, "TrialComponentDisplayName": nlp_trial.trial_name,}, wait=False, )

Ocenite rezultate

Ko so opravila natančnega prilagajanja za nalogo odgovarjanja na vprašanja v turščini končana, primerjamo uspešnost modela treh pristopov:

  • Enojezični jezikovni model – Pokliče se predhodno usposobljen model, natančno nastavljen na besedilo odgovora na turško vprašanje bert-base-turški-neohišje [8]. Doseže rezultat F1 75.63 in rezultat natančnega ujemanja 56.17 v samo dveh obdobjih in z 9,000 označenimi artikli. Vendar pa ta pristop ni primeren za jezik z nizkimi viri, če vnaprej usposobljeni jezikovni model ne obstaja ali pa je na voljo malo podatkov za usposabljanje iz nič.
  • Večjezični jezikovni model z večjezičnim BERT – Pokliče se vnaprej pripravljen model bert-base-multilingual-uncased. Večjezični dokument BERT [4] je pokazal, da se dobro posplošuje med jeziki. V primerjavi z enojezičnim modelom deluje slabše (rezultat F1 71.73, natančno ujemanje 50:45), vendar upoštevajte, da ta model obravnava več kot 100 drugih jezikov, kar pušča manj prostora za predstavitev turškega jezika.
  • Večjezični jezikovni model z XLM-R – Pokliče se vnaprej pripravljen model xlm-roberta-base-squad2. Dokument XLM-R kaže, da je mogoče imeti en velik model za več kot 100 jezikov, ne da bi pri tem žrtvovali zmogljivost posameznega jezika [7]. Pri nalogi odgovarjanja na vprašanja v turščini prekaša večjezični rezultat BERT in enojezični rezultat BERT F1 za 5 % oziroma 2 % (ocena F1 77.14, natančno ujemanje 56.39).

Natančno prilagodite transformatorske jezikovne modele za jezikovno raznolikost z Hugging Face na Amazon SageMaker PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

Naša primerjava ne upošteva drugih razlik med modeli, kot so zmogljivost modela, uporabljeni nizi podatkov za usposabljanje, predhodno usposobljene naloge NLP, velikost besedišča ali tokenizacija.

Dodatni poskusi

Priloženi zvezek vsebuje dodatne primere poskusov.

SageMaker ponuja široko paleto vrst primerkov za usposabljanje. Model XLM-R smo natančno prilagodili na p3.2xlarge (GPE: Nvidia V100 GPE, arhitektura GPE: Volta (2017)), p3.16xlarge (GPE: 8 GPE Nvidia V100) in g4dn.xlarge (GPE: Nvidia T4 GPU, arhitektura GPE: Turing (2018)) in opazil naslednje:

  • Trajanje usposabljanja – Glede na naš poskus je model XLM-R potreboval približno 24 minut za usposabljanje na p3.2xlarge in 30 minut na g4dn.xlarge (približno 23 % dlje). Izvedli smo tudi porazdeljeno fino uravnavanje na dveh primerkih p3.16xlarge in čas usposabljanja se je zmanjšal na 10 minut. Za več informacij o porazdeljenem usposabljanju transformatorskega modela na SageMaker glejte Porazdeljena fina nastavitev velikega modela BERT za nalogo z odgovori na vprašanja z uporabo Hugging Face Transformers na Amazon SageMaker.
  • Stroški usposabljanja – Uporabili smo AWS Pricing API za pridobivanje cen SageMaker na zahtevo za sprotni izračun. Glede na naš poskus je usposabljanje stalo približno 1.58 $ na p3.2xlarge in približno štirikrat manj na g4dn.xlarge (0.37 $). Porazdeljeno usposabljanje na dveh instancah p3.16xlarge z uporabo 16 grafičnih procesorjev stane 9.68 USD.

Če povzamem, čeprav je bil g4dn.xlarge najcenejši stroj, je njegovo usposabljanje trajalo približno trikrat dlje kot najmočnejši tip primerka, s katerim smo eksperimentirali (dva p3.16xlarge). Glede na prednostne naloge vašega projekta lahko izbirate med številnimi vrstami instanc za usposabljanje SageMaker.

zaključek

V tej objavi smo raziskali natančno nastavitev vnaprej usposobljenih jezikovnih modelov, ki temeljijo na transformatorju, za nalogo odgovarjanja na vprašanja za jezik srednjega vira (v tem primeru turščino). Ta pristop lahko uporabite za več kot 100 drugih jezikov z uporabo enega samega modela. V času pisanja je razširitev modela, da bi pokril vseh 7,000 svetovnih jezikov, še vedno prepovedana, vendar področje NLP nudi priložnost za razširitev naših obzorij.

Jezik je glavna metoda človeške komunikacije in je sredstvo za sporočanje vrednot in deljenje lepote kulturne dediščine. Jezikovna raznolikost krepi medkulturni dialog in gradi vključujoče družbe.

ML je zelo ponavljajoč se proces; tekom enega samega projekta podatkovni znanstveniki urijo na stotine različnih modelov, nizov podatkov in parametrov v iskanju največje natančnosti. SageMaker ponuja najpopolnejši nabor orodij za izkoriščanje moči ML in poglobljenega učenja. Omogoča vam organiziranje, sledenje, primerjavo in ocenjevanje eksperimentov ML v velikem obsegu.

Hugging Face je integriran s SageMakerjem, da podatkovnim znanstvenikom pomaga hitreje in enostavneje razvijati, usposabljati in prilagajati najsodobnejše modele NLP. Prikazali smo več prednosti uporabe transformatorjev Hugging Face na Amazon SageMaker, kot so usposabljanje in eksperimentiranje v velikem obsegu ter povečana produktivnost in stroškovna učinkovitost.

V SageMakerju lahko eksperimentirate z nalogami NLP v svojem želenem jeziku v vseh regijah AWS, kjer je SageMaker na voljo. Primer kode zvezka je na voljo v GitHub.

Če želite izvedeti, kako lahko Amazon SageMaker Training Compiler pospeši usposabljanje modelov globokega učenja do 50 %, glejte Novo – Predstavljamo SageMaker Training Compiler.

Avtorji bi radi izrazili svojo globoko hvaležnost Marianu Kampu in Emily Webber za pregled osnutkov in svetovanje.

Reference

  1. J. Devlin et al., »BERT: Predhodno usposabljanje globokih dvosmernih transformatorjev za razumevanje jezika«, (2018).
  2. A. Vaswani et al., »Pozornost je vse, kar potrebujete«, (2017).
  3. J. Howard in S. Ruder, »Fina nastavitev univerzalnega jezikovnega modela za klasifikacijo besedila«, (2018).
  4. T. Pires et al., »Kako večjezičen je Multilingual BERT?« (2019).
  5. Y. Liu et al., »RoBERTa: Robustno optimiziran pristop pred usposabljanjem BERT«, (2019).
  6. G. Lample in A. Conneau, »Prehodno usposabljanje za medjezikovni jezikovni model« (2019).
  7. A. Conneau et al., »Nenadzorovano učenje medjezikovnega predstavljanja v velikem obsegu«, (2019).
  8. Štefan Šveter. BERTurk – modeli BERT za Turčijo (2020).
  9. Večjezična Wiki statistika https://en.wikipedia.org/wiki/Wikipedia:Multilingual_statistics

O avtorjih

Natančno prilagodite transformatorske jezikovne modele za jezikovno raznolikost z Hugging Face na Amazon SageMaker PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.Arnav Khare je glavni arhitekt rešitev za globalne finančne storitve pri AWS. Njegov glavni poudarek je pomoč institucijam za finančne storitve pri izgradnji in oblikovanju aplikacij za analitiko in strojno učenje v oblaku. Arnav ima magisterij iz umetne inteligence na Univerzi v Edinburghu in ima 18 let izkušenj v industriji, od majhnih startupov, ki jih je ustanovil, do velikih podjetij, kot sta Nokia in Bank of America. Zunaj dela Arnav rad preživlja čas s svojima hčerkama, išče nove neodvisne kavarne, bere in potuje. Najdete me na LinkedIn in v Surreyu v Veliki Britaniji v resničnem življenju.

Natančno prilagodite transformatorske jezikovne modele za jezikovno raznolikost z Hugging Face na Amazon SageMaker PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.Hasan-Basri AKIRMAK (BSc in magisterij iz računalniškega inženiringa in Executive MBA na Graduate School of Business) je višji arhitekt rešitev pri Amazon Web Services. Je poslovni tehnolog, ki svetuje strankam segmenta podjetij. Njegovo področje specializacije je načrtovanje arhitektur in poslovnih primerov na velikih sistemih za obdelavo podatkov in rešitev strojnega učenja. Hasan je zagotavljal poslovni razvoj, sistemsko integracijo, upravljanje programov za stranke v Evropi, na Bližnjem vzhodu in v Afriki. Od leta 2016 je pro-bono mentor več sto podjetnikom v inkubacijskih programih startupov.

Natančno prilagodite transformatorske jezikovne modele za jezikovno raznolikost z Hugging Face na Amazon SageMaker PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.Heiko Hotz je višji arhitekt rešitev za umetno inteligenco in strojno učenje ter vodi skupnost za obdelavo naravnega jezika (NLP) znotraj AWS. Pred to vlogo je bil vodja podatkovne znanosti za Amazonovo službo za stranke v EU. Heiko pomaga našim strankam, da so uspešne na njihovi poti AI/ML na AWS, in je sodeloval z organizacijami v številnih panogah, vključno z zavarovalništvom, finančnimi storitvami, mediji in zabavo, zdravstvom, komunalnimi storitvami in proizvodnjo. V prostem času Heiko čim več potuje.

Časovni žig:

Več od Strojno učenje AWS