Danes z veseljem sporočamo, da lahko zdaj izvajate paketne transformacije z Amazon SageMaker JumpStart veliki jezikovni modeli (LLM) za generiranje Text2Text. Paketne transformacije so uporabne v situacijah, ko ni treba, da so odgovori v realnem času, zato lahko izvedete paketno sklepanje za velike nabore podatkov v velikem obsegu. Za paketno pretvorbo se zažene paketno opravilo, ki sprejme paketni vnos kot nabor podatkov in vnaprej usposobljen model ter izda napovedi za vsako podatkovno točko v naboru podatkov. Paketno preoblikovanje je stroškovno učinkovito, ker se za razliko od gostujočih končnih točk v realnem času, ki imajo obstojno strojno opremo, gruče paketnega preoblikovanja raztrgajo, ko je opravilo končano, zato se strojna oprema uporablja samo v času trajanja paketnega opravila.
V nekaterih primerih uporabe je mogoče zahteve za sklepanje v realnem času združiti v majhne pakete za paketno obdelavo, da se ustvarijo odgovori v realnem ali skoraj realnem času. Na primer, če morate obdelati neprekinjen tok podatkov z nizko zakasnitvijo in visoko prepustnostjo, bi priklic končne točke v realnem času za vsako zahtevo posebej zahteval več virov in lahko traja dlje za obdelavo vseh zahtev, ker se obdelava izvaja zaporedno . Boljši pristop bi bil, da združite nekatere zahteve in pokličete končno točko v realnem času v načinu paketnega sklepanja, ki obdela vaše zahteve v enem prehodu modela naprej in vrne množični odgovor za zahtevo v realnem ali skoraj realnem času . Zakasnitev odgovora bo odvisna od tega, koliko zahtev združite skupaj, in velikosti pomnilnika primerka, zato lahko prilagodite velikost paketa glede na vaše poslovne zahteve za zakasnitev in prepustnost. Temu pravimo paketno sklepanje v realnem času ker združuje koncept šarženja, medtem ko še vedno zagotavlja odgovore v realnem času. S paketnim sklepanjem v realnem času lahko dosežete ravnotežje med nizko zakasnitvijo in visoko prepustnostjo, kar vam omogoča obdelavo velikih količin podatkov na pravočasen in učinkovit način.
Paketno preoblikovanje Jumpstart za modele Text2Text Generation vam omogoča posredovanje paketnih hiperparametrov prek spremenljivk okolja, ki dodatno povečajo prepustnost in zmanjšajo zakasnitev.
JumpStart ponuja vnaprej pripravljene odprtokodne modele za širok nabor vrst problemov, ki vam pomagajo začeti s strojnim učenjem (ML). Te modele lahko postopoma usposabljate in prilagajate pred uvedbo. JumpStart ponuja tudi predloge rešitev, ki nastavijo infrastrukturo za pogoste primere uporabe, in primere izvedljivih prenosnih računalnikov za ML z Amazon SageMaker. Do vnaprej usposobljenih modelov, predlog rešitev in primerov lahko dostopate prek ciljne strani JumpStart v Amazon SageMaker Studio. Do modelov JumpStart lahko dostopate tudi s SDK-jem SageMaker Python.
V tej objavi prikazujemo, kako uporabljati najsodobnejše predhodno usposobljene text2text modeli FLAN T5 iz Hugging Face za paketno pretvorbo in paketno sklepanje v realnem času.
Pregled rešitev
Beležnica, ki prikazuje paketno pretvorbo vnaprej usposobljenih modelov Text2Text FLAN T5 iz Objemni obraz na voljo v naslednjem GitHub repozitorij. Ta zvezek uporablja podatke iz Hugging Face cnn_dailymail nabor podatkov za nalogo povzemanja besedila z uporabo SDK SageMaker.
Sledijo ključni koraki za implementacijo paketne transformacije in paketnega sklepanja v realnem času:
- Nastavite predpogoje.
- Izberite vnaprej usposobljen model.
- Pridobite artefakte za model.
- Podajte hiperparametre opravila paketnega preoblikovanja.
- Pripravite podatke za paketno pretvorbo.
- Zaženite opravilo paketnega preoblikovanja.
- Ocenite povzetek z uporabo a RED (Recall-Oriented Understudy for Gisting Evaluation) rezultat.
- Izvedite paketno sklepanje v realnem času.
Nastavite predpogoje
Preden zaženete prenosni računalnik, morate izvesti nekaj začetnih namestitvenih korakov. Nastavimo izvršilno vlogo SageMaker, da bo imela dovoljenja za izvajanje storitev AWS v vašem imenu:
Izberite vnaprej usposobljen model
Kot privzeti model uporabljamo model huggingface-text2text-flan-t5-large. Po želji lahko na JumpStart pridobite seznam razpoložljivih modelov Text2Text in izberete želeni model. Ta metoda zagotavlja preprost način za izbiro različnih ID-jev modela z uporabo istega zvezka. Za predstavitvene namene uporabljamo model huggingface-text2text-flan-t5-large:
Pridobite artefakte za model
S SageMakerjem lahko izvedemo sklepanje na predhodno usposobljenem modelu, tudi brez natančnega prilagajanja na novem naboru podatkov. Začnemo s pridobivanjem deploy_image_uri
, deploy_source_uri
in model_uri
za predhodno usposobljen model:
Podajte hiperparametre opravila paketnega preoblikovanja
Opravilu paketnega preoblikovanja lahko posredujete katero koli podmnožico hiperparametrov kot spremenljivke okolja. Te hiperparametre lahko posredujete tudi v obremenitvi JSON. Vendar, če nastavljate spremenljivke okolja za hiperparametre, kot prikazuje naslednja koda, potem napredni hiperparametri iz posameznih primerov v obremenitvi vrstic JSON ne bodo uporabljeni. Če želite uporabiti hiperparametre iz tovora, boste morda želeli nastaviti hyper_params_dict
parameter kot nič.
Pripravite podatke za paketno pretvorbo
Zdaj smo pripravljeni za nalaganje cnn_dailymail nabor podatkov iz Hugging Face:
Vsak vnos podatkov pregledamo in izdelamo vhodne podatke v zahtevani obliki. Ustvarjamo articles.jsonl
datoteka kot testna podatkovna datoteka, ki vsebuje članke, ki jih je treba povzeti kot vhodni koristni tovor. Ko ustvarimo to datoteko, dodamo poziv "Briefly summarize this text:"
v vsako testno vhodno vrstico. Če želite imeti različne hiperparametre za vsak testni vnos, lahko te hiperparametre dodate kot del ustvarjanja nabora podatkov.
Ustvarjamo highlights.jsonl
kot datoteka temeljne resnice, ki vsebuje poudarke vsakega članka, shranjenega v testni datoteki articles.jsonl
. Obe testni datoteki shranimo v an Preprosta storitev shranjevanja Amazon (Amazon S3) vedro. Oglejte si naslednjo kodo:
Zaženite opravilo paketnega preoblikovanja
Ko zaženete opravilo paketnega preoblikovanja, SageMaker zažene potrebne računalniške vire za obdelavo podatkov, vključno z instancami CPE ali GPE, odvisno od izbrane vrste instance. Med opravilom paketnega preoblikovanja SageMaker samodejno zagotavlja in upravlja računalniške vire, potrebne za obdelavo podatkov, vključno z instancami, shrambo in omrežnimi viri. Ko je opravilo paketnega preoblikovanja končano, SageMaker samodejno očisti računalniške vire. To pomeni, da se primerki in shramba, uporabljena med opravilom, ustavijo in odstranijo, s čimer se sprostijo viri in zmanjšajo stroški. Oglejte si naslednjo kodo:
Sledi en primer zapisa iz articles.jsonl
testna datoteka. Upoštevajte, da ima zapis v tej datoteki ID, ki se ujema z predict.jsonl
zapisi datoteke, ki prikazuje povzeti zapis kot izhod iz modela Hugging Face Text2Text. Podobno ima datoteka z resničnostjo tal tudi ujemajoč se ID za zapis podatkov. Ujemanje ID-ja v testni datoteki, datoteki z resničnimi podatki in izhodni datoteki omogoča povezovanje vhodnih zapisov z izhodnimi zapisi za enostavno interpretacijo rezultatov.
Sledi primer vhodnega zapisa, ki je na voljo za povzemanje:
Sledi predviden rezultat s povzetkom:
Sledi povzetek osnovne resnice za namene vrednotenja modela:
Nato uporabimo osnovno resnico in predvidene rezultate za vrednotenje modela.
Ocenite model z oceno ROUGE¶
RED, ali Recall-Oriented Understudy for Gisting Evaluation, je nabor meritev in programski paket, ki se uporablja za ocenjevanje samodejnega povzemanja in strojnega prevajanja pri obdelavi naravnega jezika. Meritve primerjajo samodejno ustvarjen povzetek ali prevod z referenčnim (človeško ustvarjenim) povzetkom ali prevodom ali nizom referenc.
V naslednji kodi združimo predvidene in izvirne povzetke tako, da jih združimo na skupnem ključu id
in uporabite to za izračun ocene ROUGE:
Izvedite paketno sklepanje v realnem času
Nato vam pokažemo, kako izvajati paketno sklepanje v realnem času na končni točki, tako da podate vnose kot seznam. Uporabljamo isti ID modela in nabor podatkov kot prej, le da vzamemo nekaj zapisov iz testnega nabora podatkov in jih uporabimo za priklic končne točke v realnem času.
Naslednja koda prikazuje, kako ustvariti in razmestiti končno točko v realnem času za paketno sklepanje v realnem času:
Nato pripravimo naš vhodni tovor. Za to uporabimo podatke, ki smo jih pripravili prej, in ekstrahiramo prvih 10 testnih vnosov ter dodamo besedilne vnose s hiperparametri, ki jih želimo uporabiti. To koristno obremenitev zagotavljamo v realnem času invoke_endpoint
. Tovor odgovora se nato vrne kot seznam odgovorov. Oglejte si naslednjo kodo:
Čiščenje
Ko ste preizkusili končno točko, izbrišite končno točko sklepanja SageMaker in izbrišite model, da se izognete zaračunavanju.
zaključek
V tem zvezku smo izvedli paketno pretvorbo za predstavitev modela Hugging Face Text2Text Generator za naloge povzemanja. Paketno preoblikovanje je koristno pri pridobivanju sklepov iz velikih naborov podatkov, ne da bi zahtevali obstojno končno točko. Vhodne zapise smo povezali s sklepi za pomoč pri interpretaciji rezultatov. Rezultat ROUGE smo uporabili za primerjavo povzemanja testnih podatkov s povzemanjem, ustvarjenim z modelom.
Poleg tega smo prikazali paketno sklepanje v realnem času, kjer lahko pošljete majhen paket podatkov na končno točko v realnem času, da dosežete ravnotežje med zakasnitvijo in prepustnostjo za scenarije, kot je pretakanje vhodnih podatkov. Paketno sklepanje v realnem času pomaga povečati prepustnost za zahteve v realnem času.
Preizkusite paketno pretvorbo z modeli Text2Text Generation v SageMakerju še danes in nam sporočite svoje povratne informacije!
O avtorjih
Hemant Singh je inženir strojnega učenja z izkušnjami z vgrajenimi algoritmi Amazon SageMaker JumpStart in Amazon SageMaker. Magistriral je na Courantovem inštitutu za matematične znanosti in diplomiral na IIT Delhi. Ima izkušnje z delom na različnih problemih strojnega učenja na področju obdelave naravnega jezika, računalniškega vida in analize časovnih vrst.
Rachna Chadha je glavni arhitekt rešitev AI/ML v Strategic Accounts pri AWS. Rachna je optimist, ki verjame, da lahko etična in odgovorna uporaba umetne inteligence izboljša družbo v prihodnosti ter prinese gospodarsko in družbeno blaginjo. V prostem času Rachna rada preživlja čas z družino, hodi na pohode in posluša glasbo.
Dr. Ashish Khetan je višji aplikativni znanstvenik z vgrajenimi algoritmi Amazon SageMaker in pomaga pri razvoju algoritmov strojnega učenja. Doktoriral je na Univerzi Illinois Urbana-Champaign. Je aktiven raziskovalec strojnega učenja in statističnega sklepanja ter je objavil številne članke na konferencah NeurIPS, ICML, ICLR, JMLR, ACL in EMNLP.
- Distribucija vsebine in PR s pomočjo SEO. Okrepite se še danes.
- PlatoAiStream. Podatkovna inteligenca Web3. Razširjeno znanje. Dostopite tukaj.
- Kovanje prihodnosti z Adryenn Ashley. Dostopite tukaj.
- Kupujte in prodajajte delnice podjetij pred IPO s PREIPO®. Dostopite tukaj.
- vir: https://aws.amazon.com/blogs/machine-learning/perform-batch-transforms-with-amazon-sagemaker-jumpstart-text2text-generation-large-language-models/
- :ima
- : je
- :ne
- :kje
- $GOR
- 000
- 1
- 10
- 100
- 11
- 13
- 14
- 20
- 2014
- 50
- 7
- 8
- 9
- a
- Sposobna
- O meni
- nad
- sprejem
- sprejeta
- dostop
- Po
- računi
- Doseči
- Pridobiva
- čez
- dejavnosti
- aktivna
- napredno
- ugoden
- proti
- AI
- AI / ML
- Pomoč
- algoritmi
- vsi
- domnevno
- omogoča
- Prav tako
- Amazon
- Amazon SageMaker
- Amazon SageMaker JumpStart
- Amazon Web Services
- an
- Analiza
- in
- Objavi
- kaj
- API
- uporabna
- pristop
- SE
- okoli
- članek
- članki
- AS
- At
- Poskusi
- organ
- Samodejno
- samodejno
- Na voljo
- izogniti
- AWS
- Ravnovesje
- baza
- temeljijo
- BE
- postal
- ker
- postane
- pred
- počutje
- Verjemite
- meni
- Benjamin
- Boljše
- med
- telo
- tako
- Obe strani
- Meje
- Na kratko
- prinašajo
- Prinaša
- vgrajeno
- poslovni
- vendar
- by
- klic
- CAN
- ne more
- primeri
- Vzrok
- Stroški
- Izberite
- razred
- stranke
- bližje
- CNN
- Koda
- združujejo
- združuje
- združevanje
- kako
- obveznosti
- storjeno
- Skupno
- primerjate
- dokončanje
- Izračunajte
- računalnik
- Računalniška vizija
- Koncept
- Ravnanje
- konference
- Posoda
- naprej
- neprekinjeno
- prispevali
- strošek
- stroškovno učinkovito
- bi
- svetovalec
- kontraproduktivno
- države
- Sodišče
- ustvarjajo
- Ustvarjanje
- Zločini
- kazenska
- datum
- vnos podatkov
- nabor podatkov
- mrtva
- Odločitev
- privzeto
- Delhi
- izkazati
- Dokazano
- Oddelek
- Odvisno
- razporedi
- uvajanje
- opisano
- Ugotovite,
- Razvoj
- Razvoj
- se razlikujejo
- razlike
- drugačen
- neposredna
- razne
- do
- Lučki delavec
- domena
- opravljeno
- dont
- By
- navzdol
- trajanje
- med
- vsak
- prej
- East
- lahka
- Gospodarska
- učinkovite
- prizadevanja
- upravičeni
- omogočanje
- konec
- Končna točka
- inženir
- zagotovitev
- Vstopi
- Vpis
- okolje
- Era
- etično
- oceniti
- ocenjevanje
- Ocena
- Tudi
- dokazi
- Primer
- Primeri
- Razen
- razburjen
- izvedba
- izkušnje
- ekstrakt
- Obraz
- vera
- družina
- Nekaj
- file
- datoteke
- prva
- po
- za
- moč
- tuji
- formalno
- Formalno
- format
- Naprej
- ustanovitve
- iz
- polno
- nadalje
- Prihodnost
- generacija
- generator
- dobili
- daje
- Go
- Cilji
- Vlade
- GPU
- več
- Igrišče
- skupina
- strojna oprema
- Imajo
- he
- pomoč
- Pomaga
- jo
- tukaj
- visoka
- Poudarki
- njegov
- gostila
- Kako
- Kako
- Vendar
- HTML
- http
- HTTPS
- HuggingFace
- človeškega
- človekove pravice
- Človeštvo
- ID
- ID-ji
- if
- Illinois
- slika
- takoj
- izvajanja
- uvoz
- izboljšanje
- in
- vključujejo
- Vključno
- Povečajte
- neodvisnost
- individualna
- Posamezno
- Podatki
- Infrastruktura
- začetna
- krivica
- vhod
- vhodi
- povpraševanje
- primer
- Namesto
- Inštitut
- Facebook Global
- razlago
- v
- razišče
- preiskava
- preiskave
- Izrael
- IT
- ITS
- januar
- Job
- pridružite
- pridružil
- jpg
- json
- Sodnik
- junij
- pristojnost
- samo
- Justice
- Ključne
- Vedite
- pristanek
- jezik
- velika
- Zadnja
- Latenca
- pozneje
- izstrelki
- učenje
- levo
- Naj
- rahlo
- kot
- všeč mi je
- vrstica
- linije
- povezane
- povezovanje
- Seznam
- Poslušanje
- obremenitev
- Long
- več
- nizka
- stroj
- strojno učenje
- Znamka
- Izdelava
- upravlja
- Način
- več
- označeno
- ujema
- ujemanje
- matematični
- Maj ..
- pomeni
- član
- člani
- članstvo
- Spomin
- Metoda
- Meritve
- minimiziranje
- ML
- način
- Model
- modeli
- mesec
- več
- premikanje
- Glasba
- morajo
- Ime
- naravna
- Obdelava Natural Language
- potrebno
- Nimate
- Pogajanja
- Niti
- Nizozemska
- mreženje
- Novo
- novice
- sporočilo za javnost
- prenosnik
- zdaj
- predmet
- pridobitev
- of
- Office
- Uradno
- on
- ONE
- samo
- odprite
- open source
- odprt
- nasprotovati
- nasprotuje
- or
- izvirno
- OS
- naši
- ven
- izhod
- več
- paket
- Stran
- Palestina
- članki
- parameter
- parametri
- del
- zabava
- mimo
- pot
- Tlakovanje
- mir
- ljudje
- Izvedite
- Dovoljenja
- platon
- Platonova podatkovna inteligenca
- PlatoData
- prosim
- Točka
- mogoče
- Prispevek
- napovedati
- napovedano
- napoved
- Napovedi
- Predictor
- prednostno
- Pripravimo
- pripravljeni
- predpogoji
- Predsednik
- tlak
- Predsednik
- predsednik vlade
- , ravnateljica
- problem
- Težave
- Postopek
- Procesi
- obravnavati
- Proizvedeno
- blaginja
- zagotavljajo
- če
- zagotavlja
- zagotavljanje
- objavljeno
- namene
- Python
- območje
- pripravljen
- pravo
- v realnem času
- zapis
- evidence
- reference
- nanaša
- sprostitev
- Odstranjeno
- PONOVNO
- poročilo
- zahteva
- zahteva
- zahteva
- obvezna
- Zahteve
- raziskovalec
- viri
- Odgovor
- odgovorov
- odgovornosti
- odgovorna
- povzroči
- Rezultati
- vrnitev
- vrne
- pregleda
- pravice
- vloga
- Rim
- ROW
- Run
- s
- sagemaker
- Sklep SageMaker
- Je dejal
- Enako
- rek
- scenariji
- ZNANOSTI
- Znanstvenik
- rezultat
- SDK
- glej
- iskanju
- izbran
- pošljite
- višji
- Serija
- Storitve
- nastavite
- nastavitev
- nastavitev
- deli
- je
- shouldnt
- Prikaži
- predstavitev
- Razstave
- Strani
- podpisano
- podobno
- Enostavno
- saj
- Razmere
- situacije
- Velikosti
- majhna
- So
- socialna
- Društvo
- Software
- Rešitev
- rešitve
- nekaj
- govorijo
- gledano
- Poraba
- Začetek
- začel
- Država
- State Department
- state-of-the-art
- Izjava
- Države
- Statistično
- Korak
- Koraki
- Še vedno
- ustavil
- shranjevanje
- trgovina
- shranjeni
- naravnost
- Strateško
- tok
- pretakanje
- Močno
- predmet
- Povzamemo
- POVZETEK
- poletje
- podpora
- Bodite
- sprejeti
- meni
- Naloga
- Naloge
- tech
- predloge
- ozemelj
- Ozemlje
- Test
- kot
- da
- O
- informacije
- Nizozemska
- Država
- svet
- njihove
- Njih
- POTEM
- zato
- te
- jih
- ta
- tisti,
- skozi
- pretočnost
- čas
- Časovne serije
- do
- danes
- skupaj
- raztrgano
- proti
- Vlak
- Transform
- transformator
- transformacije
- prevod
- Res
- Resnica
- tip
- Vrste
- Podrivajte
- Velika
- Združene države Amerike
- Universal
- univerza
- za razliko od
- Prenos
- naprej
- us
- uporaba
- Rabljeni
- uporabo
- Podpredsednica
- Vizija
- prostornine
- W
- želeli
- vojna
- je
- Watch
- način..
- we
- web
- spletne storitve
- Sreda
- dobrodošli
- pozdraviti
- Dobro
- Kaj
- kdaj
- ali
- ki
- medtem
- WHO
- široka
- Širok spekter
- bo
- z
- v
- brez
- deluje
- svet
- bi
- Vi
- Vaša rutina za
- zefirnet