Fine-tune And Deploy Mistral 7B With Amazon SageMaker JumpStart

Ponovno objavil Platon

Spremljevalci: 0

Danes z veseljem naznanjamo možnost natančne nastavitve modela Mistral 7B z uporabo Amazon SageMaker JumpStart. Zdaj lahko natančno prilagodite in uvedete modele generiranja besedila Mistral na SageMaker JumpStart z uporabo Amazon SageMaker Studio Uporabniški vmesnik z nekaj kliki ali uporabo SDK-ja SageMaker Python.

Modeli temeljev se zelo dobro obnesejo pri generativnih nalogah, od oblikovanja besedil in povzetkov, odgovarjanja na vprašanja do izdelave slik in videoposnetkov. Kljub velikim zmožnostim posploševanja teh modelov pogosto obstajajo primeri uporabe, ki imajo zelo specifične podatke o domeni (kot so zdravstvene ali finančne storitve), in ti modeli morda ne bodo mogli zagotoviti dobrih rezultatov za te primere uporabe. Posledica tega je potreba po nadaljnjem natančnem prilagajanju teh generativnih modelov umetne inteligence glede na podatke, specifične za primere uporabe in domene.

V tej objavi prikazujemo, kako natančno nastaviti model Mistral 7B z uporabo SageMaker JumpStart.

Kaj je Mistral 7B

Mistral 7B je osnovni model, ki ga je razvil Mistral AI in podpira zmožnosti generiranja angleškega besedila in kode. Podpira različne primere uporabe, kot so povzemanje besedila, klasifikacija, dopolnjevanje besedila in dopolnjevanje kode. Za prikaz prilagodljivosti modela je Mistral AI izdal tudi model Mistral 7B-Instruct za primere uporabe klepeta, natančno nastavljen z uporabo različnih javno dostopnih podatkovnih nizov pogovorov.

Mistral 7B je transformatorski model in uporablja pozornost pri skupinskih poizvedbah in pozornost drsnega okna za doseganje hitrejšega sklepanja (nizka zakasnitev) in obravnavanje daljših zaporedij. Skupinska pozornost pri poizvedbah je arhitektura, ki združuje pozornost z več poizvedbami in pozornostjo z več glavami, da doseže kakovost izhoda, ki je blizu pozornosti z več glavami, in primerljivo hitrostjo s pozornostjo z več poizvedbami. Metoda pozornosti drsnega okna uporablja več ravni transformatorskega modela, da se osredotoči na informacije, ki so prišle prej, kar pomaga modelu razumeti daljši odsek konteksta. . Mistral 7B ima dolžino konteksta 8,000 žetonov, izkazuje nizko zakasnitev in visoko prepustnost ter ima visoko zmogljivost v primerjavi z večjimi alternativnimi modeli, saj zagotavlja nizke pomnilniške zahteve pri velikosti modela 7B. Model je na voljo pod permisivno licenco Apache 2.0 za uporabo brez omejitev.

Modele lahko natančno prilagodite z uporabniškim vmesnikom SageMaker Studio ali SDK SageMaker Python. V tej objavi obravnavamo obe metodi.

Natančna nastavitev prek uporabniškega vmesnika SageMaker Studio

V SageMaker Studio lahko do modela Mistral dostopate prek SageMaker JumpStart pod Modeli, zvezki in rešitve, kot je prikazano na naslednjem posnetku zaslona.

Če ne vidite modelov Mistral, posodobite svojo različico SageMaker Studio tako, da zaustavite in znova zaženete. Za več informacij o posodobitvah različic glejte Zaustavite in posodobite aplikacije Studio.

Fine-tune and Deploy Mistral 7B with Amazon SageMaker JumpStart | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Na strani modela lahko pokažete na Preprosta storitev shranjevanja Amazon (Amazon S3), ki vsebuje nabore podatkov za usposabljanje in validacijo za natančno nastavitev. Poleg tega lahko konfigurirate konfiguracijo razmestitve, hiperparametre in varnostne nastavitve za natančno nastavitev. Nato lahko izberete Vlak za začetek usposabljanja na primerku SageMaker ML.

Fine-tune and Deploy Mistral 7B with Amazon SageMaker JumpStart | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Namestite model

Ko je model natančno nastavljen, ga lahko uvedete na strani modela na SageMaker JumpStart. Možnost za uvedbo natančno nastavljenega modela se prikaže, ko je natančna nastavitev končana, kot je prikazano na naslednjem posnetku zaslona.

Fine-tune and Deploy Mistral 7B with Amazon SageMaker JumpStart | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Natančna nastavitev prek SDK-ja SageMaker Python

Modele Mistral lahko tudi natančno prilagodite s SDK-jem SageMaker Python. Celoten zvezek je na voljo na GitHub. V tem razdelku nudimo primere dveh vrst natančnega prilagajanja.

Natančna nastavitev navodil

Uravnavanje navodil je tehnika, ki vključuje natančno uravnavanje jezikovnega modela na zbirki nalog obdelave naravnega jezika (NLP) z uporabo navodil. Pri tej tehniki se model usposobi za izvajanje nalog tako, da sledi besedilnim navodilom namesto posebnih podatkovnih nizov za vsako nalogo. Model je natančno nastavljen z naborom vhodnih in izhodnih primerov za vsako nalogo, kar omogoča, da se model posploši na nove naloge, za katere ni bil izrecno usposobljen, dokler so za naloge na voljo pozivi. Prilagajanje navodil pomaga izboljšati natančnost in učinkovitost modelov in je koristno v primerih, ko veliki nabori podatkov niso na voljo za določene naloge.

Sprehodimo se skozi kodo za natančno nastavitev v primeru prenosnik s SDK-jem SageMaker Python.

Uporabljamo podmnožico Nabor podatkov Dolly v formatu za nastavitev navodil in določite template.json datoteka, ki opisuje vhodne in izhodne formate. Podatki o usposabljanju morajo biti oblikovani v obliki vrstic JSON (.jsonl), kjer je vsaka vrstica slovar, ki predstavlja en vzorec podatkov. V tem primeru ga imenujemo train.jsonl.

Naslednji delček je primer train.jsonl. Ključi instruction, contextin response v vsakem vzorcu mora imeti ustrezne vnose {instruction}, {context}, {response} v template.json.

{ "instruction": "What is a dispersive prism?", "context": "In optics, a dispersive prism is an optical prism that is used to disperse light, that is, to separate light into its spectral components (the colors of the rainbow). Different wavelengths (colors) of light will be deflected by the prism at different angles. This is a result of the prism material's index of refraction varying with wavelength (dispersion). Generally, longer wavelengths (red) undergo a smaller deviation than shorter wavelengths (blue). The dispersion of white light into colors by a prism led Sir Isaac Newton to conclude that white light consisted of a mixture of different colors.", "response": "A dispersive prism is an optical prism that disperses the light's different wavelengths at different angles. When white light is shined through a dispersive prism it will separate into the different colors of the rainbow."
}

Sledi vzorec template.json:

{ "prompt": "Below is an instruction that describes a task, paired with an input that provides further context. " "Write a response that appropriately completes the request.nn" "### Instruction:n{instruction}nn### Input:n{context}nn", "completion": " {response}",
}

Ko naložite predlogo poziva in podatke o vadbi v vedro S3, lahko nastavite hiperparametre.

my_hyperparameters["epoch"] = "1"
my_hyperparameters["per_device_train_batch_size"] = "2"
my_hyperparameters["gradient_accumulation_steps"] = "2"
my_hyperparameters["instruction_tuned"] = "True"
print(my_hyperparameters)

Nato lahko začnete postopek natančnega prilagajanja in razmestite model na končno točko sklepanja. V naslednji kodi uporabljamo primerek ml.g5.12xlarge:

from sagemaker.jumpstart.estimator import JumpStartEstimator instruction_tuned_estimator = JumpStartEstimator( model_id=model_id, hyperparameters=my_hyperparameters, instance_type="ml.g5.12xlarge",
)
instruction_tuned_estimator.fit({"train": train_data_location}, logs=True) instruction_tuned_predictor = instruction_tuned_estimator.deploy()

Natančna prilagoditev domene

Natančna prilagoditev domene je postopek, ki izpopolni predhodno usposobljen LLM, da bolje ustreza določeni domeni ali nalogi. Z uporabo manjšega nabora podatkov, specifičnega za domeno, je LLM mogoče natančno prilagoditi za razumevanje in ustvarjanje vsebine, ki je bolj natančna, relevantna in pronicljiva za to specifično domeno, hkrati pa ohrani obsežno znanje, ki ga je pridobil med prvotnim usposabljanjem.

Model Mistral je mogoče natančno nastaviti na katerem koli naboru podatkov, specifičnih za domeno. Ko je natančno nastavljen, se pričakuje, da ustvari besedilo, specifično za domeno, in reši različne naloge NLP v tej specifični domeni. Za nabor podatkov o usposabljanju zagotovite imenik vlakov in izbirni imenik za preverjanje, od katerih vsak vsebuje eno datoteko CSV, JSON ali TXT. Za formate CSV in JSON uporabite podatke iz text stolpec ali prvi stolpec, če text ni prisoten. Zagotovite, da v vsakem imeniku obstaja samo ena datoteka. Na primer, vhodni podatki so lahko SEC vloge Amazona kot besedilna datoteka:

This report includes estimates, projections, statements relating to our
business plans, objectives, and expected operating results that are “forward-
looking statements” within the meaning of the Private Securities Litigation
Reform Act of 1995, Section 27A of the Securities Act of 1933, and Section 21E
of the Securities Exchange Act of 1934. Forward-looking statements may appear
throughout this report, including the following sections: “Business” (Part I,
Item 1 of this Form 10-K), “Risk Factors” (Part I, Item 1A of this Form 10-K),
and “Management’s Discussion and Analysis of Financial Condition and Results
of Operations” (Part II, Item 7 of this Form 10-K). These forward-looking
statements generally are identified by the words “believe,” “project,”
“expect,” “anticipate,” “estimate,” “intend,” “strategy,” “future,”
“opportunity,” “plan,” “may,” “should,” “will,” “would,” “will be,” “will
continue,” “will likely result,” and similar expressions.

Natančno prilagajanje domene lahko začnete tako, da podate hiperparameter "instruction_tuned"Kot"False“. Preostali koraki so podobni korakom natančnega prilagajanja navodil.

Postavili smo max_input_length biti 2048 na g5.12xlarge. Za večji tip primerka lahko uporabite večjo dolžino vnosa. Za podrobnosti glejte primer zvezek.

Primer sklepanja s fino nastavitvijo in brez nje

Naslednja tabela vsebuje rezultate modela Mistral 7B, ki so bili natančno prilagojeni z Amazonovimi dokumenti SEC za obdobje 2021–2022. Primerjamo rezultate pred in po fini nastavitvi.

Poziv za vnos	Izhod pred fino nastavitvijo	Izhod po fini nastavitvi	parametri
To poročilo na obrazcu 10-K to kaže	podjetje posluje že 10 let in ima skupno 10 zaposlenih. Podjetje ima skupno 10 zaposlenih in se ukvarja s storitvami za prebivalstvo. Podjetje ima skupno 10 zaposlenih in se ukvarja s storitvami za prebivalstvo. Podjetje ima skupno 10 zaposlenih in se ukvarja s storitvami za prebivalstvo. Podjetje ima skupno 10 zaposlenih in se ukvarja s storitvami za prebivalstvo. Podjetje ima skupno 10 zaposlenih in se ukvarja s storitvami za prebivalstvo. Podjetje ima skupno 10 zaposlenih in se ukvarja z oskrbovanjem	v letih 1.2, 1.5 in 1.8 smo imeli neto prodajo v višini 2004 milijarde USD, 2003 milijarde USD in 2002 milijarde USD. Ti zneski vključujejo prodajo z naših mednarodnih spletnih mest. Neto prodaja z naših mednarodnih spletnih mest je v letih 323, 242 in 150 znašala 2004 milijonov USD, 2003 milijonov USD in 2002 milijonov USD. Neto prodaja z naših mednarodnih spletnih mest je predstavljala 27 %, 16 % in 8 % neto prodaje v letih 2004, 2003 in 2002 .	"temperatura": 0.2, “max_new_tokens”: 150,
Potrošnikom služimo prek	našo maloprodajno mrežo 1,700 trgovin, ki vključuje 1,200 trgovin v ZDA, 400 trgovin v Kanadi in 100 trgovin v Mehiki. Potrošnikom služimo tudi prek naših spletnih mest za e-trgovino. ## Katera je največja trgovina z opremo za dom? Home Depot je največji trgovec z opremo za dom v ZDA. ## Katera je največja trgovina z opremo za dom na svetu? Največja trgovina z opremo za dom na svetu je Home Depot. ## Katera je največja trgovina z opremo za dom v	naše spletne in fizične trgovine ter se osredotočamo na izbiro, ceno in priročnost. Naše trgovine oblikujemo tako, da omogočamo prodajo na stotine milijonov edinstvenih izdelkov mi in tretjim osebam v več deset kategorijah izdelkov. Stranke dostopajo do naše ponudbe prek naših spletnih mest, mobilnih aplikacij, Alexe, naprav, pretakanja in fizičnega obiska naših trgovin. Izdelujemo in prodajamo tudi elektronske naprave, vključno s Kindle, Fire tablet, Fire TV, Echo in Ring, ter razvijamo in produciramo medijske vsebine. Našim strankam želimo ponuditi nizke cene, hitro in brezplačno dostavo, funkcionalnost, ki je enostavna za uporabo, in pravočasno storitev za stranke. Poleg tega ponujamo naročniške storitve, kot je Amazon Prime, a
Naša vizija je	biti vodilni ponudnik kakovostnih, cenovno ugodnih in dostopnih zdravstvenih storitev v skupnostih, ki jim služimo. Naše poslanstvo je zagotoviti kakovostne, cenovno ugodne in dostopne zdravstvene storitve skupnostim, ki jim služimo. Naše vrednote so: – Integriteta: v vseh naših poslih delujemo pošteno in pošteno. – Spoštovanje: z vsemi ravnamo spoštljivo in dostojanstveno. – Odličnost: Stremimo k odličnosti v vsem, kar počnemo. – Sočutje: s sočutjem skrbimo za naše bolnike in drug za drugega. – Timsko delo: sodelujemo kot ekipa, da dosežemo svoje cilje. Naša zaveza našim pacientom je zagotavljanje kakovostnih, cenovno ugodnih in dostopnih zdravstvenih storitev.	biti podjetje na Zemlji, ki je najbolj osredotočeno na stranke. Vodijo nas štiri načela: obsedenost s strankami in ne osredotočenost na konkurenco, strast do izumov, zavezanost operativni odličnosti in dolgoročno razmišljanje. V vsakem od naših segmentov služimo našim primarnim skupinam strank, ki jih sestavljajo potrošniki, prodajalci, razvijalci, podjetja in ustvarjalci vsebin. Poleg tega nudimo storitve, kot je oglaševanje. Naše delovanje smo organizirali v tri segmente: Severna Amerika, Mednarodno in AWS. Ti segmenti odražajo način, kako družba ocenjuje svojo poslovno uspešnost in vodi svoje poslovanje. Informacije o naši čisti prodaji so vsebovane v 8. točki dela II, »Računovodski izkazi

Kot lahko vidite, natančno nastavljeni model zagotavlja bolj specifične informacije, povezane z Amazonom, v primerjavi z generičnim vnaprej usposobljenim. To je zato, ker natančno prilagajanje prilagodi model, da razume nianse, vzorce in posebnosti posredovanega nabora podatkov. Z uporabo vnaprej usposobljenega modela in njegovim prilagajanjem s finim prilagajanjem zagotavljamo, da dobite najboljše iz obeh svetov: široko poznavanje vnaprej usposobljenega modela in specializirano natančnost za vaš edinstven nabor podatkov. Ena velikost morda ne ustreza vsem v svetu strojnega učenja, fina nastavitev pa je rešitev po meri, ki jo potrebujete!

zaključek

V tej objavi smo razpravljali o natančnem prilagajanju modela Mistral 7B z uporabo SageMaker JumpStart. Pokazali smo, kako lahko uporabite konzolo SageMaker JumpStart v SageMaker Studio ali SDK SageMaker Python za natančno nastavitev in uvajanje teh modelov. Kot naslednji korak lahko poskusite natančno prilagoditi te modele na svojem naboru podatkov z uporabo kode, ki je na voljo v repozitoriju GitHub, da preizkusite in primerjate rezultate za vaše primere uporabe.

O avtorjih

Xin Huang je višji aplikativni znanstvenik za vgrajene algoritme Amazon SageMaker JumpStart in Amazon SageMaker. Osredotoča se na razvoj razširljivih algoritmov strojnega učenja. Njegovi raziskovalni interesi so na področju obdelave naravnega jezika, razložljivega globokega učenja na tabelarnih podatkih in robustne analize neparametričnega prostorsko-časovnega združevanja. Objavil je številne članke na konferencah ACL, ICDM, KDD in Royal Statistical Society: Series A.

Vivek Gangasani je arhitekt zagonskih rešitev AI/ML za generativna zagonska podjetja AI pri AWS. Pomaga nastajajočim zagonskim podjetjem GenAI zgraditi inovativne rešitve z uporabo storitev AWS in pospešenega računanja. Trenutno je osredotočen na razvoj strategij za natančno prilagajanje in optimizacijo zmogljivosti sklepanja velikih jezikovnih modelov. V prostem času Vivek uživa v pohodništvu, gledanju filmov in preizkušanju različnih kuhinj.

Dr. Ashish Khetan je višji aplikativni znanstvenik z vgrajenimi algoritmi Amazon SageMaker in pomaga pri razvoju algoritmov strojnega učenja. Doktoriral je na Univerzi Illinois Urbana-Champaign. Je aktiven raziskovalec strojnega učenja in statističnega sklepanja ter je objavil številne članke na konferencah NeurIPS, ICML, ICLR, JMLR, ACL in EMNLP.