Selles postituses näitame teile, kuidas rakendada ühte enim allalaaditud Hugging Face'i eelkoolitatud mudelit, mida kasutatakse teksti kokkuvõtete tegemiseks, DistilBART-CNN-12-6, Jupyteri sülearvutis kasutades Amazon SageMaker ja SageMakeri kallistava näo järelduse tööriistakomplekt. Selles postituses näidatud sammude põhjal võite proovida teha tekstist kokkuvõte WikiTekst-2 andmestik haldab fast.ai, saadaval aadressil AWS-i avaandmete register.
Ülemaailmsed andmemahud kasvavad zettabaitide skaalal, kuna ettevõtted ja tarbijad laiendavad oma digitaalsete toodete ja võrguteenuste kasutamist. Nende kasvavate andmete paremaks mõistmiseks on tekstianalüüsi jaoks välja töötatud masinõppe (ML) loomuliku keele töötlemise (NLP) tehnikad, mis käsitlevad kasutusjuhtumeid, mis hõlmavad teksti kokkuvõtet, olemi tuvastamist, klassifitseerimist, tõlkimist ja palju muud. AWS pakub eelkoolitatud AWS AI teenused mida saab API-kõnede abil rakendustesse integreerida ja mis ei nõua ML-i kogemust. Näiteks, Amazoni mõistmine saab täita NLP-ülesandeid, nagu kohandatud olemi tuvastamine, sentimentide analüüs, võtmefraaside eraldamine, teemade modelleerimine ja palju muud, et koguda tekstist teadmisi. See võib esineda tekstianalüüs paljudes keeltes selle erinevate funktsioonide pärast.
Teksti kokkuvõte on kasulik tehnika suurte tekstiandmete mõistmisel, kuna see loob lähtedokumentidest kontekstuaalselt tähendusliku teabe alamhulga. Seda NLP-tehnikat saate rakendada pikemate tekstidokumentide ja artiklite puhul, mis võimaldab kiiremat tarbimist ja tõhusamat dokumentide indekseerimist, näiteks koosolekute kõnemärkmete kokkuvõtmiseks.
Kallistav nägu on populaarne avatud lähtekoodiga teek NLP jaoks, mis sisaldab üle 49,000 185 eelkoolitatud mudeli rohkem kui XNUMX keeles ja toetab erinevaid raamistikke. AWS-il ja Hugging Face'il on a partnerlus mis võimaldab sujuvat integreerimist SageMakeri kaudu AWS-i süvaõppekonteinerite (DLC-de) komplektiga PyTorchis või TensorFlow's treenimiseks ja järelduste tegemiseks ning SageMaker Python SDK jaoks mõeldud Hugging Face hindajate ja ennustajatega. Need SageMakeri võimalused aitavad arendajatel ja andmeteadlastel NLP-ga AWS-is hõlpsamini alustada. Tekstide töötlemine transformaatoritega sügavates õpperaamistikes, nagu PyTorch, on andmeteadlaste jaoks tavaliselt keeruline ja aeganõudev ülesanne, mis põhjustab NLP-projektide arendamisel sageli pettumust ja ebaefektiivsust. Tehisintellekti kogukondade, nagu Hugging Face, tõus koos pilves olevate ML-teenuste (nt SageMaker) võimsusega kiirendab ja lihtsustab nende tekstitöötlusülesannete arendamist. SageMaker aitab teil Hugging Face mudeleid ehitada, koolitada, juurutada ja kasutusele võtta.
Teksti kokkuvõtte ülevaade
Saate rakendada teksti kokkuvõtet, et tuvastada dokumendi põhilaused või tuvastada võtmelaused mitmes dokumendis. Teksti kokkuvõte võib anda kahte tüüpi kokkuvõtteid: ekstraheerivad ja abstraktsed. Väljavõttelised kokkuvõtted ei sisalda masinaga loodud teksti ja on sisenddokumendist valitud oluliste lausete kogu. Abstraktsed kokkuvõtted sisaldavad uusi inimloetavaid fraase ja lauseid, mis on genereeritud teksti kokkuvõtte mudeli abil. Enamik teksti kokkuvõtete süsteeme põhinevad väljavõtlikul kokkuvõttel, kuna täpset abstraktset teksti kokkuvõtet on raske saavutada.
Hugging Face'is on üle 400 eelkoolitatud tipptasemel seadme Saadaval on teksti kokkuvõtte mudelid, rakendades erinevaid NLP tehnikate kombinatsioone. Neid mudeleid koolitatakse erinevate andmekogumitega, neid laadivad üles ja hooldavad tehnoloogiaettevõtted ja Hugging Face kogukonna liikmed. Saate mudeleid filtreerida enim allalaaditud või enim meeldinud järgi ning neid kasutades otse laadida kokkuvõte torujuhe Hugging Face transformer API. Hugging Face trafo lihtsustab NLP juurutamise protsessi, nii et suure jõudlusega NLP-mudeleid saab tekstikokkuvõtete edastamiseks peenhäälestada, ilma et oleks vaja ulatuslikke ML-operatsiooniteadmisi.
Kallistava näo teksti kokkuvõtte mudelid AWS-is
SageMaker pakub ärianalüütikutele, andmeteadlastele ja MLOpsi inseneridele valikut tööriistu AWS-is ML-i töökoormuste kavandamiseks ja käitamiseks. Need tööriistad pakuvad teile optimaalsete tulemuste saavutamiseks ML-mudelite kiiremat juurutamist ja testimist.
Alates SageMakeri kallistava näo järelduse tööriistakomplekt, avatud lähtekoodiga raamatukogu, kirjeldame kolme erinevat viisi Hugging Face teksti kokkuvõtete mudelite juurutamiseks ja hostimiseks Jupyteri märkmiku abil:
- Kallistava näo kokkuvõtte torujuhe - Loo Kallistava näo kokkuvõtte torujuhe kasutades
summarization
” ülesande identifikaator, et kasutada Jupyteri märkmikus järelduste tegemiseks vaiketeksti kokkuvõtte mudelit. Need torujuhtmed eemaldavad keeruka koodi, pakkudes algajatele ML-i praktikutele lihtsat API-d, et kiiresti rakendada teksti kokkuvõtet ilma järelduse lõpp-punkti konfigureerimata. Samuti võimaldab torujuhe ML-i praktikul valida konkreetse eelkoolitatud mudeli ja sellega seotud tokenisaatori. Tokenisaatorid valmistavad teksti ette mudeli sisendiks, jagades teksti sõnadeks või alamsõnadeks, mis seejärel teisendatakse otsingutabeli kaudu ID-deks. Lihtsuse huvides näeb järgmine koodilõik torujuhtmete kasutamisel ette vaikejuhtumi. The DistilBART-CNN-12-6 mudel on Hugging Face'i üks enim allalaaditud kokkuvõttemudeleid ja on kokkuvõtte konveieri vaikemudel. Viimane rida kutsub eelkoolitatud mudelit, et saada läbitud teksti kokkuvõte, võttes arvesse kahte argumenti. - SageMakeri lõpp-punkt eelkoolitatud mudeliga – Looge SageMakeri lõpp-punkt eelnevalt koolitatud mudeliga Kallistavate näomudelite keskus ja juurutage see järelduse lõpp-punktis, näiteks järgmise koodilõigu eksemplaris ml.m5.xlarge. See meetod võimaldab kogenud ML-praktikutel kiiresti valida konkreetseid avatud lähtekoodiga mudeleid, neid peenhäälestada ja kasutada mudeleid suure jõudlusega järelduseksemplaridel.
- SageMakeri lõpp-punkt koolitatud mudeliga – Looge SageMakeri mudeli lõpp-punkt väljaõppinud mudeliga, mis on salvestatud an Amazoni lihtne salvestusteenus (Amazon S3) ämbrisse ja juurutage see järelduse lõpp-punktis. See meetod võimaldab kogenud ML-praktikutel kiiresti juurutada oma Amazon S3-sse salvestatud mudeleid suure jõudlusega järelduseksemplaridele. Mudel ise laaditakse Hugging Face'ist alla ja tihendatakse ning seejärel saab selle Amazon S3-sse üles laadida. Seda sammu demonstreeritakse järgmises koodilõigul:
AWS-il on saadaval mitmeid ressursse, mis aitavad teil ML-i töökoormusi juurutada. The Masinõppeobjektiiv Euroopa AWS hästi arhitektuurne raamistik soovitab ML töökoormuse parimaid tavasid, sealhulgas ressursside optimeerimist ja kulude vähendamist. Need soovitatavad disainipõhimõtted tagavad, et AWS-is rakendatakse hästi läbimõeldud ML-töökoormust tootmises. Amazon SageMakeri järelduste soovitus aitab teil valida õige eksemplari ML-mudelite juurutamiseks optimaalse jõudluse ja kuludega. Inference Recommender kiirendab mudeli juurutamist ja vähendab turule jõudmiseks kuluvat aega, automatiseerides koormustesti ja optimeerides mudeli jõudlust ML eksemplaride lõikes.
Järgmistes osades demonstreerime, kuidas laadida treenitud mudel S3 ämbrist ja juurutada see sobivasse järelduseksemplari.
Eeldused
Selle ülevaate jaoks peaksid teil olema järgmised eeltingimused.
- An AWS-i konto.
- Jupyteri märkmik sees Amazon SageMaker Studio or SageMaker notebook instances. In this post, we use the “Python 3 (PyTorch 1.4 Python 3.6 CPU Optimized)” image with the provided code snippets, but you can use any other higher version PyTorch image from the available SageMaker kernels.
- A dataset in your S3 bucket, such as the WikiTekst-2 andmestik alates AWS-i avaandmete register.
Laadige Kallistava näo mudel SageMakerisse teksti kokkuvõtte tegemiseks
Kasutage Hugging Face eelkoolitatud teksti kokkuvõtte mudeli allalaadimiseks järgmist koodi DistilBART-CNN-12-6 ja selle tokeniseerija ning salvestage need kohapeal SageMakeris oma Jupyteri märkmiku kataloogi:
Tihendage salvestatud teksti kokkuvõttemudel ja selle tokenisaator vormingusse tar.gz ja laadige tihendatud mudeli artefakt üles S3 ämbrisse:
Valige a järeldus Dockeri konteineri kujutis teksti kokkuvõtte tegemiseks. Määratlege Linuxi OS, PyTorchi raamistik ja Hugging Face Transformeri versioon ning määrake Amazon Elastic Compute Cloud (Amazon EC2) eksemplari tüüp konteineri käitamiseks.
Dockeri pilt on saadaval aadressil Amazoni elastsete konteinerite register (Amazon ECR) sama AWS-i konto ja selle konteineri kujutise link tagastatakse URI-na.
Määratlege teksti kokkuvõtte mudel, mille juurutab valitud konteineri kujutis, mis teeb järeldusi. Järgmises koodilõigul juurutatakse Amazon S3-sse üles laaditud tihendatud mudel:
Testige juurutatud teksti kokkuvõtte mudelit näidissisendil:
Järeldusülesande optimaalse EC2 eksemplari hindamiseks kasutage Järeldussoovitust
Järgmisena looge JSON-vormingus sisendteksti mitu kasuliku koormuse näidist ja tihendage need üheks kasuliku koormuse failiks. Neid kasuliku koormuse näidiseid kasutab Järeldussoovitaja, et võrrelda järelduste jõudlust erinevate EC2 eksemplaritüüpide vahel. Iga näidiskoormus peab vastama varem näidatud JSON-vormingule. Näiteid saate aadressilt WikiTekst-2 andmestik haldab fast.ai, saadaval aadressil AWS-i avaandmete register.
Laadige tihendatud teksti kokkuvõtte mudeli artefakt ja tihendatud kasuliku koormuse näidisfail üles S3 ämbrisse. Laadisime mudeli üles varasemas etapis, kuid selguse huvides lisame selle uuesti üleslaadimiseks koodi:
Vaadake üle SageMakeris saadaolevate standardsete ML-mudelite loend tavalised loomaaiad, nagu NLP ja arvutinägemine. Valige teksti kokkuvõtte tegemiseks NLP-mudel:
Järgmises näites kasutatakse bert-base-cased
NLP mudel. Registreerige teksti kokkuvõtte mudel jaotisesse SageMakeri mudeliregister eelmises etapis õigesti tuvastatud domeeni, raamistiku ja ülesandega. Selle näite parameetrid on näidatud järgmise koodilõigu alguses.
Pange tähele EC2 eksemplaritüüpide vahemikku, mida Järeldussoovitaja peab hindama SupportedRealtimeInferenceInstanceTypes
järgmises koodis. Veenduge, et AWS-i konto teenusepiirangud võimaldavad seda tüüpi järeldussõlmede juurutamist.
Looge Järeldussoovitaja vaiketöö, kasutades ModelPackageVersion
mis tuleneb eelmisest etapist. The uuid
Pythoni teeki kasutatakse töö kordumatu nime loomiseks.
Järeldussoovitaja töö oleku saate vaadata, käivitades järgmise koodi:
Kui töö staatus on COMPLETED
, võrrelge järelduste soovituse vaiketööga hinnatud EC2 eksemplari tüüpide järelduste latentsust, käitusaega ja muid mõõdikuid. Valige sobiv sõlme tüüp vastavalt oma kasutusjuhtumi nõuetele.
Järeldus
SageMaker pakub Hugging Face mudelite kasutamiseks mitmeid viise; rohkemate näidete saamiseks vaadake AWS-i näidised GitHubis. Olenevalt kasutusjuhtumi keerukusest ja mudeli peenhäälestamise vajadusest saate valida optimaalse viisi nende mudelite kasutamiseks. Hugging Face torujuhtmed võivad olla hea lähtepunkt kiireks katsetamiseks ja sobivate mudelite valimiseks. Kui teil on vaja valitud mudeleid kohandada ja parameetreid muuta, saate mudelid alla laadida ja kohandatud järelduste lõpp-punktidesse juurutada. Mudeli täpsemaks häälestamiseks konkreetse kasutusjuhtumi jaoks peate mudelit pärast allalaadimist koolitama.
NLP mudelid üldiselt, sealhulgas teksti kokkuvõtete mudelid, toimivad paremini pärast seda, kui neid on õpetatud konkreetsele kasutusjuhtumile vastava andmestikuga. SageMakeri MLOP-id ja mudeli jälgimise funktsioonid tagavad, et juurutatud mudel toimib jätkuvalt ootuste piires. Selles postituses kasutasime teksti kokkuvõtte mudeli juurutamiseks kõige sobivama eksemplaritüübi hindamiseks Inference Recommenderit. Need soovitused võivad teie ML-i kasutusjuhtumi jaoks jõudlust ja kulusid optimeerida.
Autoritest
Dr Nidal AlBeiruti on Amazon Web Servicesi vanemlahenduste arhitekt, kelle kirg on masinõppelahendused. Nidalil on üle 25-aastane kogemus erinevatel globaalsetel IT-rollidel erinevatel tasanditel ja erinevatel vertikaaltel. Nidal on paljude AWS-i klientide jaoks usaldusväärne nõustaja, kes toetab ja kiirendab nende pilve kasutuselevõttu.
Darren Ko on Londonis asuv lahenduste arhitekt. Ta nõustab Ühendkuningriigi ja Iirimaa VKE-kliente pilvepõhise ümberarhitektuuri ja uuenduste tegemisel. Darrenit huvitavad serverita arhitektuuriga loodud rakendused ja ta on kirglik jätkusuutlikkuse väljakutsete lahendamise vastu masinõppega.
- '
- "
- 000
- 10
- 100
- 28
- a
- MEIST
- ABSTRACT
- kiirendama
- konto
- täpne
- Saavutada
- üle
- aadress
- Vastuvõtmine
- nõuandja
- AI
- võimaldab
- Amazon
- Amazon Web Services
- summad
- analüüs
- API
- õun
- rakendused
- kehtima
- argumendid
- kaubad
- seotud
- automatiseerimine
- saadaval
- anda
- AWS
- sest
- Algus
- on
- BEST
- parimaid tavasid
- vahel
- ehitama
- äri
- helistama
- Saab
- võimeid
- juhul
- juhtudel
- väljakutseid
- valik
- klass
- klassifikatsioon
- Cloud
- kood
- kogumine
- kombinatsioonid
- kombineeritud
- Ühenduste
- kogukond
- Ettevõtted
- keeruline
- Arvutama
- arvuti
- konfiguratsioon
- Tarbijad
- tarbimine
- Konteiner
- Konteinerid
- pidev
- looma
- loob
- tava
- Kliendid
- kohandada
- andmed
- päev
- sügav
- tarne
- näitama
- Näidatud
- Olenevalt
- juurutada
- lähetatud
- juurutamine
- kasutuselevõtu
- Disain
- Arendajad
- arenev
- & Tarkvaraarendus
- erinev
- raske
- digitaalne
- otse
- Ekraan
- laevalaadija
- Arst
- dokumendid
- domeen
- Domeenid
- lae alla
- iga
- kergesti
- Tõhus
- efektiivsus
- võimaldades
- Lõpp-punkt
- Inseneride
- üksus
- keskkond
- hindama
- näide
- näited
- Laiendama
- ootused
- kogemus
- kogenud
- eksperiment
- ulatuslik
- nägu
- KIIRE
- kiiremini
- FUNKTSIOONID
- Järel
- formaat
- Raamistik
- raamistikud
- Alates
- Üldine
- tekitama
- loodud
- Globaalne
- hea
- Kasvavad
- aitama
- kasulik
- aitab
- rohkem
- Kuidas
- Kuidas
- HTTPS
- Keskus
- inimesele loetav
- identifitseerima
- pilt
- rakendada
- täitmine
- rakendamisel
- oluline
- sisaldama
- Kaasa arvatud
- info
- uuenduslik
- sisend
- teadmisi
- Näiteks
- integreeritud
- integratsioon
- huvitatud
- Iirimaa
- IT
- ise
- töö
- teekond
- Võti
- teadmised
- keel
- Keeled
- suur
- juhtivate
- õppimine
- taset
- Raamatukogu
- piirid
- joon
- LINK
- Linux
- nimekiri
- koormus
- kohapeal
- London
- lookup
- masin
- masinõpe
- tegema
- Turg
- Vastama
- tähendusrikas
- kohtumised
- liikmed
- Meetrika
- ML
- mudel
- mudelid
- järelevalve
- rohkem
- kõige
- mitmekordne
- Natural
- järgmine
- sõlmed
- märkmik
- märkused
- pakkumine
- Pakkumised
- Internetis
- avatud
- töötama
- töö
- optimeerima
- optimeeritud
- optimeerimine
- Muu
- enda
- kirg
- kirglik
- jõudlus
- esitades
- fraasid
- Punkt
- populaarne
- võim
- Valmistama
- eelmine
- protsess
- töötlemine
- tootma
- Produktsioon
- Toodet
- projektid
- anda
- tingimusel
- annab
- kiiresti
- valik
- soovitab
- vähendamine
- piirkond
- registreerima
- taotleda
- nõudma
- Nõuded
- Vahendid
- tulemuseks
- Roll
- jooks
- jooksmine
- sama
- Skaala
- teadlased
- SDK
- sujuv
- väljavalitud
- tunne
- Serverita
- Teenused
- komplekt
- mitu
- näidatud
- lihtne
- ühekordne
- So
- Lahendused
- konkreetse
- kiirused
- standard
- alustatud
- modernne
- olek
- ladustamine
- toetama
- Jätkusuutlikkus
- süsteemid
- ülesanded
- tehnikat
- Tehnoloogia
- Testimine
- .
- kolm
- Läbi
- aeg
- aega võttev
- töövahendid
- teema
- koolitus
- Tõlge
- Usaldatud
- liigid
- tüüpiliselt
- Uk
- all
- mõistma
- mõistmine
- ainulaadne
- kasutama
- sort
- eri
- versioon
- vertikaalid
- nägemus
- mahud
- kuidas
- web
- veebiteenused
- jooksul
- ilma
- sõnad
- töö
- X
- aastat
- Sinu