Tässä viestissä näytämme, kuinka voit ottaa käyttöön yhden ladatuimmista Hugging Face -esikoulutetuista malleista, joita käytetään tekstin yhteenvetoon, DistilBART-CNN-12-6, Jupyter-muistikirjassa käyttäen Amazon Sage Maker ja SageMaker Hugging Face Inference Toolkit. Tässä viestissä esitettyjen vaiheiden perusteella voit yrittää tehdä yhteenvedon tekstistä Wikiteksti-2 aineisto hallinnoi fast.ai, saatavilla osoitteessa AWS: n avoimen datan rekisteri.
Globaalit datamäärät kasvavat zettatavun mittakaavassa, kun yritykset ja kuluttajat laajentavat digitaalisten tuotteiden ja verkkopalvelujen käyttöä. Tämän kasvavan tiedon ymmärtämiseksi paremmin koneoppimisen (ML) luonnollisen kielen käsittelytekniikat (NLP) tekstianalyysiin ovat kehittyneet käsittelemään käyttötapauksia, joihin liittyy tekstin yhteenveto, kokonaisuuden tunnistus, luokittelu, kääntäminen ja paljon muuta. AWS tarjoaa esikoulutettuja AWS AI -palvelut jotka voidaan integroida sovelluksiin API-kutsujen avulla eivätkä vaadi ML-kokemusta. Esimerkiksi, Amazonin käsitys voi suorittaa NLP-tehtäviä, kuten mukautetun entiteetin tunnistusta, tunteiden analysointia, avainlauseiden poimimista, aiheen mallintamista ja paljon muuta kerätäkseen oivalluksia tekstistä. Se voi suorittaa tekstianalyysiä useilla eri kielillä sen eri ominaisuuksien vuoksi.
Tekstin yhteenveto on hyödyllinen tekniikka suurten tekstidatamäärien ymmärtämisessä, koska se luo lähdeasiakirjoista kontekstuaalisesti merkityksellisen tiedon osajoukon. Voit soveltaa tätä NLP-tekniikkaa pidempimuotoisiin tekstidokumentteihin ja artikkeleihin, mikä mahdollistaa nopeamman kulutuksen ja tehokkaamman dokumenttien indeksoinnin, esimerkiksi kokousten soittomuistiinpanojen yhteenvedon tekemiseen.
Halaaminen kasvot on suosittu avoimen lähdekoodin kirjasto NLP:lle, jossa on yli 49,000 185 esikoulutettua mallia yli XNUMX kielellä ja tuen eri kehyksiä. AWS:llä ja Hugging Facella on a kumppanuus joka mahdollistaa saumattoman integroinnin SageMakerin kautta AWS Deep Learning Containers (DLC) -säilöjen kanssa PyTorch- tai TensorFlow-harjoittelua ja johtopäätöksiä varten sekä Hugging Face -estimaattorit ja ennustajat SageMaker Python SDK:lle. Nämä SageMakerin ominaisuudet auttavat kehittäjiä ja datatieteilijöitä pääsemään NLP:n käyttöön AWS:ssä helpommin. Tekstien käsittely muuntajilla syvän oppimiskehyksen, kuten PyTorchin, avulla on tyypillisesti monimutkainen ja aikaa vievä tehtävä datatieteilijöille, mikä johtaa usein turhautumiseen ja tehottomuuteen NLP-projekteja kehitettäessä. Tekoälyyhteisöjen, kuten Hugging Facen, nousu yhdistettynä pilvessä olevien ML-palvelujen, kuten SageMakerin, voimaan nopeuttaa ja yksinkertaistaa näiden tekstinkäsittelytehtävien kehitystä. SageMaker auttaa sinua rakentamaan, kouluttamaan, ottamaan käyttöön ja ottamaan käyttöön Hugging Face -malleja.
Yhteenveto tekstistä
Voit käyttää tekstin yhteenvetoa tunnistaaksesi keskeiset lauseet asiakirjassa tai tunnistaaksesi keskeiset lauseet useista asiakirjoista. Tekstin yhteenveto voi tuottaa kahden tyyppisiä yhteenvetoja: poimivia ja abstrakteja. Tiivistelmät eivät sisällä koneella luotua tekstiä, ja ne ovat kokoelma tärkeitä lauseita, jotka on valittu syöttöasiakirjasta. Tiivistelmät sisältävät uusia ihmisen luettavia lauseita ja lauseita, jotka on luotu tekstin yhteenvetomallilla. Useimmat tekstin yhteenvetojärjestelmät perustuvat ekstrahoivaan yhteenvetoon, koska tarkkaa abstraktista tekstin yhteenvetoa on vaikea saavuttaa.
Hugging Facessa on yli 400 esikoulutettua huipputekniikkaa tekstin yhteenvetomallit saatavilla, jossa toteutetaan erilaisia NLP-tekniikoiden yhdistelmiä. Nämä mallit on koulutettu erilaisiin tietokokonaisuuksiin, joita teknologiayritykset ja Hugging Face -yhteisön jäsenet lataavat ja ylläpitävät. Voit suodattaa mallit ladatuimpien tai tykätyimpien mukaan ja ladata ne suoraan käyttäessäsi yhteenvetoputki Hugging Face transformer API. Hugging Face -muuntaja yksinkertaistaa NLP-toteutusprosessia, jotta korkean suorituskyvyn NLP-malleja voidaan hienosäätää antamaan tekstiyhteenvetoja ilman, että vaaditaan laajaa ML-toimintojen tuntemusta.
Hugging Face -tekstin yhteenvetomallit AWS:ssä
SageMaker tarjoaa yritysanalyytikoille, datatieteilijöille ja MLOps-insinööreille erilaisia työkaluja ML-työkuormien suunnitteluun ja käyttämiseen AWS:ssä. Nämä työkalut mahdollistavat ML-mallien nopeamman toteutuksen ja testauksen optimaalisten tulosten saavuttamiseksi.
Vuodesta SageMaker Hugging Face Inference Toolkit, avoimen lähdekoodin kirjasto, hahmottelemme kolme eri tapaa toteuttaa ja isännöidä Hugging Face -tekstin yhteenvetomalleja Jupyter-muistikirjan avulla:
- Hugging Face -tiivistelmäputki - Luo Hugging Face -tiivistelmäputki käyttämällä "
summarization
” tehtävätunniste käyttääksesi oletusarvoista tekstin yhteenvetomallia johtopäätösten tekemiseen Jupyter-muistikirjassasi. Nämä liukuhihnat abstraktoivat pois monimutkaisen koodin ja tarjoavat aloitteleville ML-harjoittajille yksinkertaisen sovellusliittymän tekstin yhteenvedon nopeaan toteuttamiseen ilman päättelypäätepisteen määrittämistä. Liukulinja antaa myös ML-ammattilaisen valita tietyn esikoulutetun mallin ja siihen liittyvän tokenisaattorin. Tokenisaattorit valmistelevat tekstin valmiiksi syötteeksi mallille jakamalla tekstin sanoiksi tai osasanoiksi, jotka sitten muunnetaan tunnisteiksi hakutaulukon kautta. Yksinkertaisuuden vuoksi seuraava koodinpätkä tarjoaa oletustapauksen liukuhihnaa käytettäessä. The DistilBART-CNN-12-6 malli on yksi Hugging Facen ladatuimmista yhteenvetomalleista ja on oletusmalli yhteenvetoputkelle. Viimeinen rivi kutsuu esiopetettua mallia saadakseen yhteenvedon hyväksytystä tekstistä annetuilla kahdella argumentilla. - SageMaker-päätepiste esikoulutetulla mallilla – Luo SageMaker-päätepiste esiopetetulla mallilla Halaava Face Model Hub ja ota se käyttöön päätepäätepisteessä, kuten seuraavan koodinpätkän ml.m5.xlarge-esiintymässä. Tämän menetelmän avulla kokeneet ML-harjoittajat voivat nopeasti valita tietyt avoimen lähdekoodin mallit, hienosäätää niitä ja ottaa mallit käyttöön tehokkaissa päättelytapahtumissa.
- SageMaker-päätepiste koulutetulla mallilla – Luo SageMaker-mallin päätepiste koulutetulla mallilla, joka on tallennettu Amazonin yksinkertainen tallennuspalvelu (Amazon S3) ämpäri ja ota se käyttöön päätepäätepisteessä. Tämän menetelmän avulla kokeneet ML-harjoittajat voivat nopeasti ottaa käyttöön omia Amazon S3:een tallennettuja mallejaan tehokkaisiin päättelytapahtumiin. Itse malli on ladattu Hugging Facesta ja pakattu, minkä jälkeen se voidaan ladata Amazon S3:een. Tämä vaihe on havainnollistettu seuraavassa koodinpätkässä:
AWS:llä on useita resursseja, jotka auttavat sinua ML-työkuormien käyttöönotossa. The Koneoppimisobjektiivi että Hyvin suunniteltu AWS-kehys suosittelee ML-työkuormien parhaita käytäntöjä, mukaan lukien resurssien optimointi ja kustannusten vähentäminen. Nämä suositellut suunnitteluperiaatteet varmistavat, että AWS:n hyvin suunnitellut ML-työkuormat otetaan käyttöön tuotannossa. Amazon SageMakerin päätelmäsuositus auttaa sinua valitsemaan oikean ilmentymän ML-mallien käyttöönottamiseksi optimaalisella suorituskyvyllä ja kustannuksilla. Inference Recommender nopeuttaa mallin käyttöönottoa ja lyhentää markkinoilletuloaikaa automatisoimalla kuormitustestausta ja optimoimalla mallin suorituskykyä ML-instanssien välillä.
Seuraavissa osissa näytämme, kuinka koulutettu malli ladataan S3-ämpäriin ja otetaan käyttöön sopivaan päättelyyn.
Edellytykset
Tätä kävelyä varten sinulla tulisi olla seuraavat edellytykset:
- An AWS-tili.
- Jupyter-muistikirja sisällä Amazon SageMaker Studio tai SageMaker-muistikirjan ilmentymiä. Tässä viestissä käytämme "Python 3 (PyTorch 1.4 Python 3.6 CPU Optimized)" -kuvaa toimitettujen koodinpätkien kanssa, mutta voit käyttää mitä tahansa uudemman version PyTorch-kuvaa saatavilla olevat SageMaker-ytimet.
- Tietojoukko S3-säilössäsi, kuten Wikiteksti-2 tietojoukko AWS: n avoimen datan rekisteri.
Lataa Hugging Face -malli SageMakeriin tekstin yhteenvetopäätelmiä varten
Käytä seuraavaa koodia ladataksesi Hugging Face valmiiksi koulutetun tekstin yhteenvetomallin DistilBART-CNN-12-6 ja sen tokenizer, ja tallenna ne paikallisesti SageMakerissa Jupyter-muistikirjahakemistoosi:
Pakkaa tallennettu tekstin yhteenvetomalli ja sen tokenizer tar.gz-muotoon ja lataa pakattu mallin artefakti S3-säihöön:
Valitse päätelmä Docker-säiliökuva tehdäksesi tekstin yhteenvetopäätelmän. Määritä Linux-käyttöjärjestelmä, PyTorch-kehys ja Hugging Face Transformer -versio ja määritä Amazonin elastinen laskentapilvi (Amazon EC2) ilmentymän tyyppiä säilön suorittamista varten.
Docker-kuva on saatavilla osoitteessa Amazonin elastisten säiliörekisteri (Amazon ECR) saman AWS-tilin, ja linkki kyseiseen säilökuvaan palautetaan URI:na.
Määritä tekstin yhteenvetomalli, joka otetaan käyttöön valitun säilön kuvan suorittaessa päättelyn. Seuraavassa koodinpätkässä Amazon S3:een ladattu pakattu malli otetaan käyttöön:
Testaa käyttöön otettua tekstin yhteenvetomallia esimerkkisyötteellä:
Käytä Inference Recommenderia arvioidaksesi optimaalisen EC2-ilmentymän johtopäätöstehtävälle
Luo seuraavaksi useita hyötykuorman näytteitä syöttötekstistä JSON-muodossa ja pakkaa ne yhdeksi hyötytiedostoksi. Inference Recommender käyttää näitä hyötykuorman näytteitä vertaamaan päättelyn suorituskykyä eri EC2-ilmentymien välillä. Jokaisen esimerkkihyötykuorman on vastattava aiemmin esitettyä JSON-muotoa. Voit saada esimerkkejä osoitteesta Wikiteksti-2 aineisto hallinnoi fast.ai, saatavilla osoitteessa AWS: n avoimen datan rekisteri.
Lataa pakatun tekstin yhteenvetomallin artefakti ja pakattu näytehyötytiedosto S3-säihöön. Latasimme mallin aiemmassa vaiheessa, mutta selvyyden vuoksi sisällytämme koodin sen lataamiseksi uudelleen:
Tarkista luettelo SageMakerissa saatavilla olevista tavallisista ML-malleista yleisiä eläintarhoja, kuten NLP ja tietokonenäkö. Valitse NLP-malli tehdäksesi tekstin yhteenvetopäätelmän:
Seuraava esimerkki käyttää bert-base-cased
NLP malli. Rekisteröi tekstin yhteenvetomalli SageMaker-mallirekisteri oikein tunnistetun verkkotunnuksen, kehyksen ja tehtävän kanssa edellisestä vaiheesta. Tämän esimerkin parametrit näkyvät seuraavan koodinpätkän alussa.
Huomaa Inference Recommenderin arvioitavien EC2-ilmentymien tyypit kohdassa SupportedRealtimeInferenceInstanceTypes
seuraavassa koodissa. Varmista, että AWS-tilin palvelurajoitukset sallia tämäntyyppisten päättelysolmujen käyttöönoton.
Luo Inference Recommender -oletustyö käyttämällä ModelPackageVersion
edellisen vaiheen tuloksena. The uuid
Python-kirjastoa käytetään yksilöllisen nimen luomiseen työlle.
Voit saada Inference Recommender -työn tilan suorittamalla seuraavan koodin:
Kun työn tila on COMPLETED
, vertaa Inference Recommender -oletustyön arvioimien EC2-ilmentymien tyyppien päättelyviivettä, suoritusaikaa ja muita mittareita. Valitse sopiva solmutyyppi käyttötapausvaatimustesi perusteella.
Yhteenveto
SageMaker tarjoaa useita tapoja käyttää Hugging Face -malleja; Jos haluat lisää esimerkkejä, katso AWS-näytteitä GitHubista. Riippuen käyttötilanteen monimutkaisuudesta ja mallin hienosäädön tarpeesta, voit valita optimaalisen tavan käyttää näitä malleja. Hugging Face -putkistot voivat olla hyvä lähtökohta nopealle kokeilulle ja sopivien mallien valitsemiselle. Kun sinun on mukautettava ja parametroitava valittuja malleja, voit ladata mallit ja ottaa ne käyttöön mukautetuissa päättelypäätepisteissä. Jotta mallia voidaan hienosäätää tiettyyn käyttötapaukseen, sinun on koulutettava malli sen lataamisen jälkeen.
Yleensä NLP-mallit, mukaan lukien tekstin yhteenvetomallit, toimivat paremmin, kun ne on koulutettu käyttötapauskohtaiseen tietojoukkoon. SageMakerin MLOP:t ja mallinvalvontaominaisuudet varmistavat, että käytössä oleva malli toimii edelleen odotusten mukaisesti. Tässä viestissä käytimme Inference Recommender -ohjelmaa arvioidaksemme parhaiten sopivan ilmentymän tyypin tekstin yhteenvetomallin käyttöönottamiseksi. Nämä suositukset voivat optimoida suorituskykyä ja kustannuksia ML-käyttötapauksessasi.
Tietoja Tekijät
Tohtori Nidal AlBeiruti on vanhempi ratkaisuarkkitehti Amazon Web Servicesissä, ja hänellä on intohimo koneoppimisratkaisuihin. Nidalilla on yli 25 vuoden kokemus useissa globaaleissa IT-tehtävissä eri tasoilla ja eri toimialoilla. Nidal toimii monien AWS-asiakkaiden luotettavana neuvonantajana, joka tukee ja nopeuttaa heidän pilvipalveluiden käyttöönottoa.
Darren Ko on ratkaisuarkkitehti Lontoossa. Hän neuvoo Iso-Britannian ja Irlannin pk-asiakkaita pilven uudelleensuunnittelussa ja innovoinnissa. Darren on kiinnostunut palvelimettomilla arkkitehtuureilla rakennetuista sovelluksista ja hän on intohimoinen kestävän kehityksen haasteiden ratkaisemiseen koneoppimisen avulla.
- '
- "
- 000
- 10
- 100
- 28
- a
- Meistä
- TIIVISTELMÄ
- kiihdyttää
- Tili
- tarkka
- Saavuttaa
- poikki
- osoite
- Hyväksyminen
- neuvonantaja
- AI
- mahdollistaa
- Amazon
- Amazon Web Services
- määrät
- analyysi
- api
- omena
- sovellukset
- käyttää
- perustelut
- artikkelit
- liittyvä
- automatisointi
- saatavissa
- palkittiin
- AWS
- koska
- Alku
- ovat
- PARAS
- parhaat käytännöt
- välillä
- rakentaa
- liiketoiminta
- soittaa
- Voi saada
- kyvyt
- tapaus
- tapauksissa
- haasteet
- valinta
- luokka
- luokittelu
- pilvi
- koodi
- kokoelma
- yhdistelmät
- yhdistetty
- yhteisöjen
- yhteisö
- Yritykset
- monimutkainen
- Laskea
- tietokone
- Konfigurointi
- Kuluttajat
- kulutus
- Kontti
- Kontit
- jatkuu
- luoda
- luo
- asiakassuhde
- Asiakkaat
- räätälöidä
- tiedot
- päivä
- syvä
- toimitus
- osoittaa
- osoittivat
- Riippuen
- sijoittaa
- käyttöön
- levityspinnalta
- käyttöönotto
- Malli
- kehittäjille
- kehittämällä
- Kehitys
- eri
- vaikea
- digitaalinen
- suoraan
- näyttö
- Satamatyöläinen
- Lääkäri
- asiakirjat
- verkkotunnuksen
- verkkotunnuksia
- download
- kukin
- helposti
- Tehokas
- tehokkuus
- mahdollistaa
- päätepiste
- Engineers
- kokonaisuus
- ympäristö
- arvioida
- esimerkki
- Esimerkit
- Laajentaa
- odotukset
- experience
- kokenut
- kokeilu
- laaja
- Kasvot
- FAST
- nopeampi
- Ominaisuudet
- jälkeen
- muoto
- Puitteet
- puitteet
- alkaen
- general
- tuottaa
- syntyy
- Global
- hyvä
- Kasvava
- auttaa
- hyödyllinen
- auttaa
- korkeampi
- Miten
- Miten
- HTTPS
- Napa
- luettavaan
- tunnistaa
- kuva
- toteuttaa
- täytäntöönpano
- täytäntöönpanosta
- tärkeä
- sisältää
- Mukaan lukien
- tiedot
- innovoidaan
- panos
- oivalluksia
- esimerkki
- integroitu
- integraatio
- kiinnostunut
- Irlanti
- IT
- itse
- Job
- matka
- avain
- tuntemus
- Kieli
- kielet
- suuri
- johtava
- oppiminen
- tasot
- Kirjasto
- rajat
- linja
- LINK
- linux
- Lista
- kuormitus
- paikallisesti
- Lontoo
- Katso ylös
- kone
- koneoppiminen
- tehdä
- markkinat
- ottelu
- mielekäs
- kokoukset
- Jäsenet
- Metrics
- ML
- malli
- mallit
- seuranta
- lisää
- eniten
- moninkertainen
- Luonnollinen
- seuraava
- solmut
- muistikirja
- Huomautuksia
- tarjoamalla
- Tarjoukset
- verkossa
- avata
- käyttää
- toiminta
- Optimoida
- optimoitu
- optimoimalla
- Muut
- oma
- intohimo
- intohimoinen
- suorituskyky
- esittävä
- lausekkeet
- Kohta
- Suosittu
- teho
- Valmistella
- edellinen
- prosessi
- käsittely
- tuottaa
- tuotanto
- Tuotteemme
- hankkeet
- toimittaa
- mikäli
- tarjoaa
- nopeasti
- alue
- suosittelee
- vähentämällä
- alue
- ilmoittautua
- pyyntö
- edellyttää
- vaatimukset
- Esittelymateriaalit
- Saatu ja
- Rooli
- ajaa
- juoksu
- sama
- Asteikko
- tutkijat
- sdk
- saumaton
- valittu
- näkemys
- serverless
- Palvelut
- setti
- useat
- esitetty
- Yksinkertainen
- single
- So
- Ratkaisumme
- erityinen
- nopeudet
- standardi
- alkoi
- huippu-
- Tila
- Levytila
- tuki
- kestävyys
- järjestelmät
- tehtävät
- tekniikat
- Elektroniikka
- Testaus
- -
- kolmella
- Kautta
- aika
- aikaavievä
- työkalut
- aihe
- koulutus
- Kääntäminen
- luotettu
- tyypit
- tyypillisesti
- Uk
- varten
- ymmärtää
- ymmärtäminen
- unique
- käyttää
- lajike
- eri
- versio
- pystysuunnassa
- visio
- volyymit
- tavalla
- verkko
- verkkopalvelut
- sisällä
- ilman
- sanoja
- työskentely
- X
- vuotta
- Sinun