Tänapäeval on kasutusel ligikaudu 7,000 keelt. Vaatamata 19. sajandi lõpu katsetele leiutada konstrueeritud keeli, nagu volapük või esperanto, pole ühtimisest märki. Inimesed valivad endiselt uusi keeli (mõelge oma lemmikfilmitegelasele, kes räägib klingoni, dothraki või haldja keelt).
Tänapäeval domineerib loomuliku keele töötlemise (NLP) näidetes inglise keel, mis on emakeel vaid 5% elanikkonnast ja mida räägib ainult 17%.
. digitaalne lõhe määratletakse kui lõhet nende vahel, kellel on juurdepääs digitehnoloogiale, ja nende vahel, kes seda ei saa. Keelebarjääri tõttu puudub juurdepääs teadmistele või haridusele, mis aitab kaasa digitaalsele lõhele mitte ainult inimeste vahel, kes ei räägi inglise keelt, vaid ka inglise keelt kõnelevate inimeste vahel, kellel puudub juurdepääs mitte-ingliskeelsele sisule. vähendab mõtete ja teadmiste mitmekesisust. Vastastikuselt on nii palju õppida.
Selles postituses võtame kokku vähese ressursiga keelte väljakutsed ja katsetame erinevaid lahendusviise, mis hõlmavad rohkem kui 100 keelt, kasutades Amazon SageMakeri Hugging Face trafosid.
Täpsustame erinevaid eelkoolitatud trafopõhiseid keelemudeleid küsimuste ja vastamise ülesande jaoks. Kasutame oma näites türgi keelt, kuid võite seda lähenemist rakendada ka mõne muu toetatud keele puhul. Meie tähelepanu keskmes on BERTi [1] variandid, sest BERTi suurepärane omadus on selle ühtne arhitektuur erinevate ülesannete jaoks.
Näitame Hugging Face trafode kasutamise eeliseid Amazon SageMaker, nagu koolitus ja mastaapsed katsed ning suurenenud tootlikkus ja kulutõhusus.
Ülevaade NLP-st
Alates 2017. aastast on NLP-s toimunud mitmeid suuri arenguid. Süvaõppearhitektuuride, näiteks transformaatorite [2] esilekerkimine, järelevalveta õppemeetodid selliste mudelite treenimiseks ülisuurtel andmekogudel ja ülekandeõpe on oluliselt parandanud kunst loomulikus keeles arusaamises. Eelkoolitatud mudelikeskuste tulek on veelgi demokratiseerinud juurdepääsu NLP kogukonna kollektiivsetele teadmistele, kaotades vajaduse alustada nullist.
Keelemudel on NLP-mudel, mis õpib ennustama jadas järgmist sõna (või mis tahes maskeeritud sõna). Keelemudelite kui lähtepunktide tõeline ilu on kolmekordne: Esiteks on uuringud näidanud, et suurel tekstikorpuse andmetel treenitud keelemudelid õpivad sõnade keerukamaid tähendusi kui varasemad meetodid. Näiteks selleks, et oleks võimalik ennustada lauses järgmist sõna, peab keelemudel mõistma hästi konteksti, semantikat ja ka grammatikat. Teiseks, keelemudeli koolitamiseks ei ole eelkoolituse ajal vaja sildistatud andmeid, mis on vähe ja kallid. See on oluline, sest tohutul hulgal märgistamata tekstiandmeid on veebis avalikult saadaval paljudes keeltes. Kolmandaks on näidatud, et kui keelemudel on piisavalt nutikas, et ennustada mis tahes lause järgmist sõna, on suhteliselt lihtne täita muid NLP-ülesandeid, nagu sentimentide analüüs või küsimustele vastamine, väga väheste märgistatud andmetega, kuna peenhäälestus taaskasutab. esindused eelkoolitatud keelemudelist [3].
Täielikult hallatavad NLP-teenused on samuti kiirendanud NLP kasutuselevõttu. Amazoni mõistmine on täielikult hallatav teenus, mis võimaldab tekstianalüütikal dokumentide sisust ülevaadet saada, ja see toetab mitmesuguseid keeli. Amazon Comprehend toetab kohandatud klassifitseerimist ja kohandatud olemituvastust ning võimaldab teil luua kohandatud NLP-mudeleid, mis vastavad teie vajadustele, ilma et oleks vaja ML-teadmisi.
Väljakutsed ja lahendused vähese ressursiga keeltele
Paljude keelte peamine väljakutse on see, et neil on koolituseks suhteliselt vähem andmeid. Neid nimetatakse vähese ressursiga keeled. M-BERT-i paber [4] ja XLM-R-artikkel [7] viitavad urdu ja suahiili keelele kui vähese ressursiga keeltele.
Järgmisel joonisel on määratletud enam kui 80 keele ISO-koodid ja kahe suurema eelkoolituse suuruse erinevus (logimõõtkavas) [7]. Vikipeedias (oranž) on ainult 18 keelt üle 1 miljoni artikliga ja 52 keeles üle 1,000 artikliga, kuid 164 keelt ainult 1–10,000 9 artikliga [XNUMX]. CommonCrawli korpus (sinine) suurendab vähese ressursiga keelte andmemahtu kahe suurusjärgu võrra. Sellegipoolest on need endiselt suhteliselt väikesed, võrreldes suurte ressurssidega keeltega, nagu inglise, vene või saksa keel.
Vikipeedia artiklite arvu poolest on türgi keel samas üle 100,000 28 artikliga grupis teine keel (54.) koos urdu keelega (XNUMX.). Urdu keelega võrreldes peetakse türgi keelt keskmise ressursi keeleks. Türgi keelel on mõned huvitavad omadused, mis võivad keelemudeleid võimsamaks muuta, luues keeleteaduses ja tokeniseerimises teatud väljakutseid. See on aglutinatiivne keel. Sellel on väga vaba sõnajärg, keeruline morfoloogia või ajavormid ilma ingliskeelsete vasteteta. Mitmest sõnast koosnevaid fraase sellistes keeltes nagu inglise keel saab väljendada ühe sõnavormiga, nagu on näidatud järgmises näites.
türgi | Inglise |
kass | kass |
kassler | kasss |
kassgiller | Perekond kassid |
Kedigillerpäev | Kuulumine kasside perekond |
kassleştirebileceklerimizdenmişçesineyken | Kui tundub, et see on üks neist, mida saame teha kass |
Kaks peamist lahendusviisi on keelepõhised mudelid või mitmekeelsed mudelid (keeleülese järelevalvega või ilma):
- Ükskeelsed keelemudelid – Esimene lähenemisviis on BERTi variandi rakendamine konkreetsele sihtkeelele. Mida rohkem on treeningandmeid, seda parem on mudeli jõudlus.
- Mitmekeelsed maskeeritud keelemudelid – Teine lähenemisviis on suurte trafomudelite eelkoolitamine paljudes keeltes. Mitmekeelse keele modelleerimise eesmärk on lahendada vähese ressursiga keelte andmeprobleemid, tehes eelkoolituse suurel hulgal keeltel, et ühest keelest õpitud NLP-ülesandeid saaks üle kanda teistesse keeltesse. Mitmekeelsed maskeeritud keelemudelid (MLM-id) on keeleüleste mõistmisülesannete lahendamisel nüüdisaegselt edasi lükanud. Kaks näidet on:
- Mitmekeelne BERT – Mitmekeelset BERTi mudelit õpetati Vikipeedia korpuse abil 104 erinevas keeles. Siiski on näidatud, et see üldistab hästi ainult sarnaste keelestruktuuride ja tüpoloogiliste tunnuste puhul (näiteks sarnase sõnajärjega keeled). Selle mitmekeelsus väheneb eriti erineva sõnajärjega keelte puhul (näiteks subjekt/objekt/verb) [4].
- XLM-R – Keeleüleseid keelemudeleid (XLM-e) koolitatakse keeleülese eesmärgiga, kasutades paralleelseid andmekogumeid (sama tekst kahes erinevas keeles) või ilma keeleülese eesmärgita, kasutades ükskeelseid andmekogumeid [6]. Uuringud näitavad, et vähese ressursiga keeled saavad kasu, kui skaleerida rohkematele keeltele. XLM-RoBERTa on trafopõhine mudel, mis on inspireeritud RoBERTast [5] ja selle lähtepunktiks on väide, et mitmekeelsed BERT ja XLM on alahäälestatud. Seda on koolitatud 100 keeles, kasutades nii Wikipedia kui ka CommonCrawli korpust, seega on vähese ressursiga keelte koolitusandmete hulk ligikaudu kaks suurusjärku suurem kui m-BERT [7].
Veel üks vähese ressursiga keelte mitmekeelsete keelemudelite väljakutse on sõnavara suurus ja tokeniseerimine. Kuna kõik keeled kasutavad mitmekeelsetes keelemudelites sama jagatud sõnavara, on olemas kompromiss sõnavara mahu suurendamise (mis suurendab arvutusnõudeid) ja selle vähendamise vahel (sõnavaras puuduvad sõnad märgitakse tundmatuks või märkide kasutamine). sõnade asemel eiraksid märgid mis tahes struktuuri). Sõnaosa märgistamise algoritm ühendab mõlema lähenemisviisi eelised. Näiteks käsitleb see tõhusalt sõnavaraväliseid sõnu, jagades sõna alamsõnadeks, kuni see sõnavaras sisaldub või kuni üksiku märgini jõutakse. Märgipõhine tokeniseerimine pole eriti kasulik, välja arvatud teatud keeltes, näiteks hiina keeles. Madala ressursiga keelte probleemide lahendamiseks on olemas tehnikad, näiteks teatud distributsioonide proovide võtmine [6].
Järgmises tabelis on kujutatud, kuidas kolm erinevat tokenisaatorit käituvad sõna "kedileri" (tähendab "selle kassid") puhul. Teatud keelte ja NLP-ülesannete puhul oleks see erinev. Näiteks küsimusele vastamise ülesande puhul tagastab mudel algusmärgi indeksi ja lõpumärgi indeksi ulatuse; "kedileri" ("kassid") või "kedileri" ("selle kassid") tagastamine kaotaks osa kontekstist ja tooks teatud mõõdikute puhul kaasa erinevaid hindamistulemusi.
Eelkoolitatud mudel | Sõnavara suurus | Tokeniseerimine “Kedileri”* jaoks | |||||
dbmdz/bert-base-turkish-uncased | 32,000 | märgid | [CLS] | kassid | ##i | [SEP] | |
Sisend ID-d | 2 | 23714 | 1023 | 3 | |||
bert-base-multilingual-uncased | 105,879 | märgid | [CLS] | ked | ##iler | ##i | [SEP] |
Sisend ID-d | 101 | 30210 | 33719 | 10116 | 102 | ||
deepset/xlm-roberta-base-squad2 | 250,002 | märgid | Ke | di | s | ||
Sisend ID-d | 0 | 1345 | 428 | 1341 | . | ||
*Inglise keeles: (Its) cats |
Seetõttu, kuigi vähese ressursiga keeled saavad mitmekeelsetest keelemudelitest kasu, võib ühise sõnavara kaudu märgistamine ignoreerida teatud keelte keelelisi omadusi.
Järgmises jaotises võrdleme kolme lähenemisviisi, täpsustades neid küsimustele vastamise ülesande jaoks, kasutades türgi keele kvaliteedikontrolli andmestikku: BERTurk [8], mitmekeelne BERT [4] ja XLM-R [7].
Lahenduse ülevaade
Meie töövoog on järgmine:
- Valmistage andmestik ette an Amazon SageMaker Studio märkmikukeskkond ja laadige see üles Amazoni lihtne salvestusteenus (Amazon S3).
- Käivitage paralleelsed koolitustööd rakenduses SageMaker, mis treenib sügavaid õppekonteinereid, pakkudes peenhäälestusskripti.
- Koguge igast katsest metaandmeid.
- Võrrelge tulemusi ja valige kõige sobivam mudel.
Järgnev diagramm illustreerib lahenduse arhitektuuri.
Lisateavet Studio sülearvutite kohta leiate aadressilt Sukelduge sügavale Amazon SageMaker Studio sülearvutite arhitektuuri. Lisateavet selle kohta, kuidas Hugging Face on SageMakeriga integreeritud, leiate artiklist AWS ja Hugging Face teevad koostööd, et lihtsustada ja kiirendada loomuliku keele töötlemise mudelite kasutuselevõttu.
Valmistage ette andmestik
Hugging Face Datasetsi teek pakub võimsaid andmetöötlusmeetodeid, et andmekogum kiiresti süvaõppemudeli koolituseks valmis saada. Järgmine kood laadib Türgi kvaliteedikontrolli andmestiku ja uurib, mis seal sees on:
Seal on umbes 9,000 proovi.
Sisendandmekogum on veidi muudetud vormingusse, mida eeldavad eelkoolitatud mudelid ja see sisaldab järgmisi veerge.
Väljundi ingliskeelne tõlge on järgmine:
- kontekst – Resit Emre Kongar (s. 13. oktoober 1941 Istanbul), Türgi sotsioloog, professor.
- küsimus – Mis on Emre Kongari akadeemiline nimetus?
- vastus — Professor
Skripti peenhäälestus
Hugging Face Transformersi teek pakub näidiskoodi, et täpsustada mudelit küsimusele vastamise ülesande jaoks, nn. run_qa.py. Järgmine kood initsialiseerib treeneri:
Vaatame ehitusplokid kõrgel tasemel üle.
Tokenisaator
Skript laadib tokenisaatori, kasutades AutoTokenizer
klass. The AutoTokenizer
klass hoolitseb mudelile vastava õige tokenisaatori tagastamise eest:
Järgnev on näide tokenisaatori toimimisest:
MUDEL
Skript laadib mudeli. AutoModel
klassid (näiteks AutoModelForQuestionAnswering
) loob otse klassi vastava arhitektuuri kaalude, konfiguratsiooni ja sõnavaraga, millele antakse eelkoolitatud mudeli nimi ja tee. Tänu Hugging Face'i abstraktsioonile saate hõlpsasti lülituda teisele mudelile, kasutades sama koodi, sisestades lihtsalt mudeli nime. Vaadake järgmist näidiskoodi:
Eeltöötlus ja koolitus
. prepare_train_features()
ja prepare_validation_features()
meetodid eeltöötlevad vastavalt koolitusandmestikku ja valideerimisandmekogumeid. Kood kordab sisendandmestiku ja loob kontekstist ja praegusest küsimusest jada koos õigete mudelispetsiifiliste märgitüübi ID-dega (märkide numbrilised esitused) ja tähelepanu maskidega. Seejärel juhitakse jada läbi mudeli. See annab tulemuseks hulga hindeid nii algus- kui ka lõpppositsioonide kohta, nagu on näidatud järgmises tabelis.
Sisendandmestiku väljad | QuestionAnsweringTraineri eeltöödeldud koolitusandmestiku väljad |
id | sisend_id |
pealkiri | tähelepanu_mask |
kontekst | alguspositsioonid |
küsimus | lõpp_positsioonid |
Vastused { answer_start, answer_text } | . |
Hindamine
. compute_metrics()
meetod hoolitseb mõõdikute arvutamise eest. Kasutame küsimustele vastamiseks järgmisi populaarseid mõõdikuid:
- Täpne vaste – Mõõdab ennustuste protsenti, mis vastavad täpselt ühele põhitõevastusele.
- F1 skoor – Mõõdab ennustuse ja põhitõe vastuse keskmist kattuvust. F1 skoor on täpsuse ja meeldetuletuse harmooniline keskmine:
- Täpsus – Jagatud sõnade arvu ja ennustuses olevate sõnade koguarvu suhe.
- Tagasikutsumine – jagatud sõnade arvu ja põhitõe sõnade koguarvu suhe.
Hallatud koolitust SageMakeris
Kohandatud masinõppe (ML) keskkondade seadistamine ja haldamine võib olla aeganõudev ja tülikas. Koos AWS-i süvaõppe konteiner (DLC-de) Hugging Face Transformersi teekide jaoks on meil juurdepääs eelpakendatud ja optimeeritud süvaõppe raamistikele, mis muudab meie skripti käitamise mitmes koolitustöös minimaalse lisakoodiga lihtsaks.
Peame lihtsalt kasutama Kallistava näo hindaja Saadaval SageMaker Python SDK-s järgmiste sisenditega:
Hinnake tulemusi
Kui Türgi küsimusele vastamise ülesande peenhäälestustööd on lõpetatud, võrdleme kolme lähenemisviisi mudeli toimivust:
- Ükskeelne keelemudel – Eelkoolitatud mudelit, mis on peenhäälestatud türgi küsimusele vastamise teksti järgi, kutsutakse bert-base-türgi-kasutamata [8]. See saavutab F1 skoori 75.63 ja täpse vaste 56.17 ainult kahel perioodil ja 9,000 märgistatud kaubaga. See lähenemisviis ei sobi aga vähese ressursiga keele jaoks, kui eelkoolitatud keelemudelit pole olemas või kui nullist treenimiseks on vähe andmeid.
- Mitmekeelne keelemudel koos mitmekeelse BERTiga – Eelkoolitatud mudelit nimetatakse bert-base-multilingual-uncased. Mitmekeelne BERTi dokument [4] on näidanud, et see üldistatakse hästi erinevates keeltes. Võrreldes ükskeelse mudeliga, toimib see kehvemini (F1 skoor 71.73, täpne vaste 50:45), kuid pange tähele, et see mudel käsitleb rohkem kui 100 muud keelt, jättes vähem ruumi türgi keele esindamiseks.
- Mitmekeelne keelemudel XLM-R-ga – Eelkoolitatud mudelit nimetatakse xlm-roberta-base-squad2. XLM-R artikkel näitab, et on võimalik luua üks suur mudel enam kui 100 keele jaoks, ilma et see peaks ohverdama keelepõhist jõudlust [7]. Türgi küsimustele vastamise ülesande puhul ületab see mitmekeelse BERTi ja ühekeelse BERT F1 skoori vastavalt 5% ja 2% võrra (F1 skoor 77.14, täpne vaste 56.39).
Meie võrdlus ei võta arvesse muid erinevusi mudelite vahel, nagu mudeli võimsus, kasutatavad koolitusandmestikud, eelkoolitatud NLP-ülesanded, sõnavara suurus või tokeniseerimine.
Täiendavad katsed
Kaasasolev märkmik sisaldab täiendavaid katsenäiteid.
SageMaker pakub laia valikut koolituseksemplari tüüpe. Täpsustasime mudelit XLM-R p3.2xlarge (GPU: Nvidia V100 GPU, GPU arhitektuur: Volta (2017)), p3.16xlarge (GPU: 8 Nvidia V100 GPU) ja g4dn.xlarge (GPU: Nvidia T4) GPU, GPU arhitektuur: Turing (2018)) ja täheldas järgmist:
- Treeningu kestus – Meie katse kohaselt kulus XLM-R mudelil p24xlarge treenimiseks umbes 3.2 minutit ja mudelil g30dn.xlarge 4 minutit (umbes 23% kauem). Samuti tegime kahel p3.16xsuurel eksemplaril hajutatud peenhäälestuse ja treeninguaeg vähenes 10 minutini. Lisateavet SageMakeri trafopõhise mudeli hajutatud väljaõppe kohta leiate aadressilt BERT Large mudeli hajutatud peenhäälestus küsimustele vastamise ülesande jaoks, kasutades Amazon SageMakeris Hugging Face Transformereid.
- Koolituskulud – Kasutasime AWS-i hinnakujunduse API-d, et hankida SageMakeri nõudmisel hinnad, et need jooksvalt arvutada. Meie katse kohaselt maksis koolitus p1.58xlarge'il umbes 3.2 dollarit ja g4dn.xlarge'i puhul umbes neli korda vähem (0.37 dollarit). Jaotatud koolitus kahel p3.16xsuurel eksemplaril, kasutades 16 GPU-d, maksis 9.68 dollarit.
Kokkuvõtteks võib öelda, et kuigi g4dn.xlarge oli kõige odavam masin, kulus selle treenimiseks ka umbes kolm korda kauem aega kui kõige võimsama eksemplaritüübi puhul, millega katsetasime (kaks p3.16xlarge'i). Sõltuvalt teie projekti prioriteetidest saate valida paljude SageMakeri koolituseksemplari tüüpide hulgast.
Järeldus
Selles postituses uurisime eelkoolitatud trafopõhiseid keelemudeleid keskmise ressursi keele (antud juhul türgi) küsimustele vastamise ülesande jaoks. Saate seda lähenemisviisi ühe mudeli abil rakendada enam kui 100 muus keeles. Kirjutamise seisuga on mudeli suurendamine, et see hõlmaks kõiki maailma 7,000 keelt, endiselt üle jõu käiv, kuid NLP valdkond annab võimaluse meie silmaringi laiendada.
Keel on inimeste suhtlemise peamine meetod ning väärtuste edastamise ja kultuuripärandi ilu jagamise vahend. Keeleline mitmekesisus tugevdab kultuuridevahelist dialoogi ja loob kaasavaid ühiskondi.
ML on väga iteratiivne protsess; Ühe projekti käigus koolitavad andmeteadlased maksimaalse täpsuse saavutamiseks sadu erinevaid mudeleid, andmekogumeid ja parameetreid. SageMaker pakub kõige täiuslikumat tööriistakomplekti ML ja sügava õppimise võimsuse kasutamiseks. See võimaldab teil korraldada, jälgida, võrrelda ja hinnata ML-eksperimente ulatuslikult.
Hugging Face on integreeritud SageMakeriga, et aidata andmeteadlastel arendada, koolitada ja häälestada nüüdisaegseid NLP-mudeleid kiiremini ja lihtsamalt. Näitasime Hugging Face trafode kasutamisest Amazon SageMakeris mitmeid eeliseid, nagu koolitus ja ulatuslik katsetamine ning tootlikkuse ja kuluefektiivsuse suurendamine.
Saate katsetada NLP-ülesandeid oma eelistatud keeles SageMakeris kõigis AWS-i piirkondades, kus SageMaker on saadaval. Sülearvuti koodi näide on saadaval keeles GitHub.
Et teada saada, kuidas Amazon SageMaker Training Compiler saab kiirendada süvaõppe mudelite väljaõpet kuni 50% võrra, vt. Uus – tutvustame SageMakeri koolituste kompilaatorit.
Autorid soovivad avaldada sügavat tänu Mariano Kampile ja Emily Webberile kavandite läbivaatamise ja nõustamise eest.
viited
- J. Devlin jt, “BERT: Pre-Training of Deep Bidirectional Transformers for Language Understanding”, (2018).
- A. Vaswani jt, “Tähelepanu on kõik, mida vajad”, (2017).
- J. Howard ja S. Ruder, “Universal Language Model Fine-Tuning for Text Classification” (2018).
- T. Pires jt, “Kui mitmekeelne on mitmekeelne BERT?”, (2019).
- Y. Liu jt, “RoBERTa: A Robustly Optimized BERT Pretraining Approach” (2019).
- G. Lample ja A. Conneau, “Cross-lingual Language Model Pretraining”, (2019).
- A. Conneau jt, “Supervised Cross-Lingual Representation Learning at Scale”, (2019).
- Stefan Schweter. BERTurk – BERTi mudelid türgi keelele (2020).
- Mitmekeelne Viki statistika https://en.wikipedia.org/wiki/Wikipedia:Multilingual_statistics
Autoritest
Arnav Khare on AWS-i globaalsete finantsteenuste peamine lahenduste arhitekt. Tema peamine eesmärk on aidata finantsteenuste asutustel luua ja kujundada pilves Analyticsi ja masinõppe rakendusi. Arnavil on Edinburghi ülikooli tehisintellekti magistrikraad ja tal on 18-aastane kogemus tööstuses, alates tema asutatud väikestest idufirmadest kuni suurte ettevõteteni, nagu Nokia ja Bank of America. Väljaspool tööd armastab Arnav veeta aega oma kahe tütrega, leida uusi iseseisvaid kohvikuid, lugeda ja reisida. Mind leiate aadressilt LinkedIn ja Surreys, Ühendkuningriigis päriselus.
Hasan-Basri AKIRMAK (BSc ja MSc arvutitehnikas ning Executive MBA ärikoolis) on Amazon Web Servicesi vanemlahenduste arhitekt. Ta on äritehnoloog, kes nõustab ettevõtlussegmendi kliente. Tema erialaks on suuremahuliste andmetöötlussüsteemide ja masinõppe lahenduste arhitektuuride ja ärijuhtumite projekteerimine. Hasan on pakkunud äriarendust, süsteemide integreerimist ja programmihaldust klientidele Euroopas, Lähis-Idas ja Aafrikas. Alates 2016. aastast juhendas ta sadu ettevõtjaid idufirmade inkubatsiooniprogrammides.
Heiko Hotz on tehisintellekti ja masinõppe lahenduste vanemarhitekt ning juhib AWS-i loomuliku keele töötlemise (NLP) kogukonda. Enne seda rolli oli ta Amazoni EL-i klienditeeninduse andmeteaduse juht. Heiko aitab meie klientidel olla edukas AI/ML teekonnal AWS-is ning on töötanud organisatsioonidega paljudes tööstusharudes, sealhulgas kindlustus, finantsteenused, meedia ja meelelahutus, tervishoid, kommunaalteenused ja tootmine. Vabal ajal reisib Heiko nii palju kui võimalik.
- Münditark. Euroopa parim Bitcoini ja krüptobörs.
- Platoblockchain. Web3 metaversiooni intelligentsus. Täiustatud teadmised. TASUTA PÄÄS.
- CryptoHawk. Altcoini radar. Tasuta prooviversioon.
- Allikas: https://aws.amazon.com/blogs/machine-learning/fine-tune-transformer-language-models-for-linguistic-diversity-with-hugging-face-on-amazon-sagemaker/
- "
- &
- 000
- 10
- 100
- 2016
- 2019
- 2020
- 39
- 7
- 77
- 9
- MEIST
- kiirendama
- kiirendatud
- juurdepääs
- Vastavalt
- üle
- Täiendavad lisad
- aadress
- Vastuvõtmine
- nõuanne
- Aafrika
- AI
- algoritm
- Materjal: BPA ja flataatide vaba plastik
- Kuigi
- Amazon
- Amazon Web Services
- Ameerika
- summa
- analüüs
- analytics
- Teine
- API
- rakendused
- kallinemine
- lähenemine
- asjakohane
- umbes
- arhitektuur
- PIIRKOND
- artikkel
- kaubad
- kunstlik
- tehisintellekti
- autorid
- saadaval
- keskmine
- AWS
- Pank
- Bank of America
- tõkked
- Ilu
- on
- kasu
- Kasu
- ehitama
- Ehitus
- Ehitab
- äri
- Võimsus
- mis
- juhtudel
- kindel
- väljakutse
- väljakutseid
- hiina
- Vali
- klass
- klassid
- klassifikatsioon
- kliendid
- Cloud
- kood
- Kohv
- Teevad koostööd
- KOMMUNIKATSIOON
- kogukond
- võrreldes
- keeruline
- Arvutama
- arvuti
- konfiguratsioon
- tasu
- Konteinerid
- sisaldab
- sisu
- kulud
- võiks
- looma
- loomine
- Praegune
- tava
- klient
- Kasutajatugi
- Kliendid
- andmed
- andmetöötlus
- andmeteadus
- esitatud
- näitama
- Näidatud
- Olenevalt
- Disain
- projekteerimine
- Vaatamata
- arendama
- & Tarkvaraarendus
- arenguid
- erinev
- digitaalne
- otse
- jagatud
- jaotus
- mitmekesisus
- dokumendid
- Ei tee
- kergesti
- Käsitöö
- Inseneriteadus
- Inglise
- tohutu
- ettevõte
- meelelahutus
- üksus
- ettevõtjad
- keskkond
- ekvivalendid
- eriti
- EU
- Euroopa
- hindama
- hindamine
- näide
- Välja arvatud
- täidesaatev
- oodatav
- kogemus
- eksperiment
- teadmised
- nägu
- tunnusjoon
- FUNKTSIOONID
- Valdkonnad
- Joonis
- finants-
- finantsteenused
- leidmine
- lõpp
- esimene
- Keskenduma
- Järel
- vorm
- formaat
- Rajatud
- tasuta
- edasi
- lõhe
- Git
- GitHub
- Globaalne
- hea
- GPU
- koolilõpetaja
- suur
- Grupp
- juhataja
- tervishoid
- aitama
- aidates
- aitab
- Suur
- kõrgelt
- omab
- Horizons
- Kuidas
- HTTPS
- inim-
- sajad
- identifitseerima
- oluline
- paranenud
- Kaasa arvatud
- kasvanud
- kasvav
- indeks
- eraldi
- tööstusharudes
- tööstus
- info
- sisend
- teadmisi
- inspireeritud
- institutsioonid
- kindlustus
- integreeritud
- integratsioon
- Intelligentsus
- sisse
- IT
- Tööturg
- teadmised
- keel
- Keeled
- suur
- suurem
- viima
- Leads
- Õppida
- õppinud
- õppimine
- Tase
- Raamatukogu
- vähe
- kohapeal
- masin
- masinõpe
- peamine
- TEEB
- juhitud
- juhtimine
- juhtiv
- tootmine
- Maskid
- Vastama
- tähendus
- meetmed
- Meedia
- Meetrika
- Lähis-Ida
- miljon
- ML
- mudel
- mudelid
- rohkem
- kõige
- film
- mitmekordne
- Natural
- Sellegipoolest
- märkmik
- number
- numbrid
- Pakkumised
- Võimalus
- optimeeritud
- et
- tellimuste
- organisatsioonid
- Muu
- Paber
- Inimesed
- protsent
- jõudlus
- esitades
- fraasid
- Punkt
- populaarne
- rahvastik
- võimalik
- võim
- võimas
- ennustada
- ennustus
- Ennustused
- esitada
- eelmine
- hinnapoliitika
- esmane
- Peamine
- protsess
- töötlemine
- tootlikkus
- Programm
- Programmid
- projekt
- ettepanek
- annab
- pakkudes
- küsimus
- kiiresti
- valik
- alates
- Lugemine
- päris elu
- asjakohane
- eemaldades
- Hoidla
- esindamine
- esindavad
- nõutav
- Nõuded
- teadustöö
- Tulemused
- Tulu
- läbi
- jooks
- Skaala
- ketendamine
- Kool
- teadus
- teadlased
- SDK
- Otsing
- segment
- semantika
- tunne
- teenus
- Teenused
- komplekt
- jagatud
- jagamine
- kauplused
- sarnane
- lihtne
- SUURUS
- väike
- nutikas
- So
- lahendus
- Lahendused
- LAHENDAGE
- mõned
- Räägib
- Eriala
- Kulutused
- algus
- käivitamisel
- Alustavatel
- modernne
- statistika
- ladustamine
- stuudio
- edukas
- Toetatud
- Toetab
- Lüliti
- süsteemid
- sihtmärk
- ülesanded
- tehnikat
- Tehnoloogiad
- Läbi
- aeg
- aega võttev
- Kapslid
- täna
- kokku
- sümboolne
- Tokeniseerimine
- märgid
- töövahendid
- jälgida
- koolitus
- üle
- üle antud
- Tõlge
- Reisimine
- kohtuprotsess
- Turing
- Uk
- mõistmine
- Ülikool
- kasutama
- kinnitamine
- sort
- eri
- web
- veebiteenused
- M
- Mis on
- WHO
- Wikipedia
- jooksul
- ilma
- sõnad
- Töö
- töötas
- töötab
- maailma
- oleks
- kirjutamine
- XLM
- aastat