Technikák és megközelítések nagy nyelvi modellek figyelésére az AWS-en

Újra kiadta Platón

Követő: 0

A nagy nyelvi modellek (LLM) forradalmasították a természetes nyelvi feldolgozás (NLP) területét, javítva az olyan feladatokat, mint a nyelvi fordítás, a szövegösszegzés és a hangulatelemzés. Mivel azonban ezek a modellek mérete és összetettsége folyamatosan nő, teljesítményük és viselkedésük nyomon követése egyre nagyobb kihívást jelent.

Az LLM-ek teljesítményének és viselkedésének nyomon követése kritikus feladat biztonságuk és hatékonyságuk biztosítása szempontjából. Javasolt architektúránk méretezhető és testreszabható megoldást kínál az online LLM-felügyelethez, lehetővé téve a csapatok számára, hogy a megfigyelési megoldást az Ön konkrét használati eseteihez és követelményeihez szabják. Az AWS-szolgáltatások használatával architektúránk valós idejű rálátást biztosít az LLM viselkedésére, és lehetővé teszi a csapatok számára, hogy gyorsan azonosítsák és kezeljék a problémákat vagy anomáliákat.

Ebben a bejegyzésben bemutatunk néhány mérőszámot az online LLM-figyeléshez és azok megfelelő architektúráját az AWS-szolgáltatások használatával, például amazonfelhőóra és a AWS Lambda. Ez testreszabható megoldást kínál a lehetségesen túl modellértékelés munkák Amazon alapkőzet.

A megoldás áttekintése

Az első dolog, amit figyelembe kell venni, hogy a különböző metrikák eltérő számítási szempontokat igényelnek. Szükség van egy moduláris architektúrára, amelyben minden modul modellkövetkeztetési adatokat fogadhat be, és saját metrikákat állíthat elő.

Javasoljuk, hogy minden modul fogadja el a bejövő következtetési kéréseket az LLM-hez, és adja át a prompt és a befejezés (válasz) párokat a metrikus számítási moduloknak. Minden modul felelős a saját metrikáinak kiszámításáért a beviteli prompt és a befejezés (válasz) tekintetében. Ezeket a mutatókat a CloudWatch továbbítja, amely összesítheti őket, és a CloudWatch riasztásaival együttműködve értesítéseket küldhet meghatározott feltételekről. A következő diagram ezt az architektúrát szemlélteti.

1. ábra: Metrikus számítási modul – megoldás áttekintése

A munkafolyamat a következő lépéseket tartalmazza:

A felhasználó egy alkalmazás vagy felhasználói felület részeként kérelmet nyújt be az Amazon Bedrock felé.
Az Amazon Bedrock elmenti a kérést és a kitöltést (választ). Amazon egyszerű tárolási szolgáltatás (Amazon S3) konfigurációja szerint hívásnaplózás.
Az Amazon S3-ra mentett fájl olyan eseményt hoz létre, amely váltja egy lambda funkció. A függvény meghívja a modulokat.
A modulok a megfelelő mérőszámaikat a következő címre küldik el CloudWatch mérőszámai.
Riasztások értesítheti a fejlesztőcsapatot a váratlan metrikaértékekről.

A második dolog, amit figyelembe kell venni az LLM-figyelés megvalósítása során, a megfelelő mérőszámok kiválasztása a követéshez. Bár számos lehetséges mérőszám használható az LLM teljesítményének nyomon követésére, ebben a bejegyzésben a legtágabb mérőszámokat ismertetjük.

A következő szakaszokban kiemelünk néhány releváns modulmetrikát és a hozzájuk tartozó metrika számítási modul architektúráját.

Szemantikai hasonlóság a felszólítás és a befejezés között (válasz)

LLM-ek futtatásakor elfoghatja az egyes kérések promptját és befejezését (válaszát), és beágyazási modell segítségével alakíthatja át őket beágyazásokká. A beágyazások nagy dimenziójú vektorok, amelyek a szöveg szemantikai jelentését képviselik. Amazon Titan ilyen modelleket biztosít a Titan Embeddings révén. Ha e két vektor között olyan távolságot vesz fel, mint a koszinusz, akkor számszerűsítheti, hogy szemantikailag mennyire hasonló a prompt és a befejezés (válasz). Te tudod használni SciPy or scikit elsajátítható a vektorok közötti koszinusz távolság kiszámításához. A következő diagram a metrika számítási modul architektúráját mutatja be.

2. ábra: Metrikus számítási modul – szemantikai hasonlóság

Ez a munkafolyamat a következő kulcsfontosságú lépéseket tartalmazza:

A Lambda funkció streamelt üzenetet fogad ezen keresztül Amazon kinezis felszólítás és befejezés (válasz) párost tartalmaz.
A függvény beágyazást kap mind a prompt, mind a befejezés (válasz) számára, és kiszámítja a két vektor közötti koszinusz távolságot.
A funkció elküldi ezt az információt a CloudWatch mérőszámainak.

Érzelem és toxicitás

A hangulatfigyelés lehetővé teszi a válaszok általános hangnemének és érzelmi hatásának felmérését, míg a toxicitáselemzés fontos mércéje a sértő, tiszteletlen vagy káros nyelvezet az LLM-kimenetekben. A hangulatban vagy a toxicitásban bekövetkező bármilyen változást szorosan figyelemmel kell kísérni, hogy megbizonyosodjon arról, hogy a modell az elvárásoknak megfelelően viselkedik. A következő diagram a metrikus számítási modult mutatja be.

3. ábra: Metrikus számítási modul – hangulat és toxicitás

A munkafolyamat a következő lépéseket tartalmazza:

A Lambda-függvény az Amazon Kinesisen keresztül kap egy prompt és befejező (válasz) párt.
Az AWS Step Functions hangszerelésén keresztül a függvény meghívja Amazon Comprehend hogy észlelje a érzés és a toxicitás.
A funkció elmenti az információkat a CloudWatch mérőszámaiba.

A hangulat és a toxicitás Amazon Comprehend segítségével történő észlelésével kapcsolatos további információkért lásd: Hozzon létre egy robusztus, szöveges toxicitás-előrejelzőt és a Jelölje meg a káros tartalmat az Amazon Comprehend toxicitás-észlelés segítségével.

Az elutasítások aránya

Az elutasítások számának növekedése, például amikor egy LLM információhiány miatt megtagadja a befejezést, azt jelentheti, hogy vagy rosszindulatú felhasználók próbálják az LLM-et olyan módon használni, amely a jailbreakre irányul, vagy hogy a felhasználók elvárásai nem teljesülnek, és alacsony értékű válaszokat kapnak. Az egyik módja annak, hogy felmérjük, milyen gyakran fordul elő ez, ha összehasonlítjuk a használt LLM-modell szokásos visszautasításait az LLM tényleges válaszaival. Például a következőkben néhány az Anthropic Claude v2 LLM általános elutasító kifejezései közül említjük meg:

“Unfortunately, I do not have enough context to provide a substantive response. However, I am an AI assistant created by Anthropic to be helpful, harmless, and honest.”

“I apologize, but I cannot recommend ways to…”

“I'm an AI assistant created by Anthropic to be helpful, harmless, and honest.”

Rögzített felszólítások esetén az elutasítások számának növekedése azt jelezheti, hogy a modell túlságosan óvatos vagy érzékeny lett. A fordított esetet is értékelni kell. Ez annak a jele lehet, hogy a modell hajlamosabb a mérgező vagy káros beszélgetésekre.

Az integritás és az elutasítási arány modellezésének elősegítése érdekében összehasonlíthatjuk a választ az LLM ismert elutasító kifejezéseivel. Ez egy tényleges osztályozó lehet, amely megmagyarázhatja, hogy a modell miért utasította el a kérést. A válasz és az ismert elutasító válaszok közötti koszinusz távolságot veheti át a megfigyelt modellből. A következő diagram szemlélteti ezt a metrikus számítási modult.

4. ábra: Metrikus számítási modul – az elutasítások aránya

A munkafolyamat a következő lépésekből áll:

A Lambda függvény felszólítást és befejezést (választ) kap, és beágyazást kap a válaszból az Amazon Titan használatával.
A függvény kiszámítja a koszinusz vagy euklideszi távolságot a válasz és a memóriában tárolt, meglévő elutasító promptok között.
A függvény ezt az átlagot elküldi a CloudWatch mérőszámainak.

Egy másik lehetőség az, hogy használni homályos egyezés egy egyszerű, de kevésbé hatékony megközelítés az ismert elutasítások és az LLM-kimenetek összehasonlítására. Utal Python dokumentáció egy példa.

Összegzésként

Az LLM-megfigyelhetőség kritikus gyakorlat az LLM-ek megbízható és megbízható használatának biztosításához. Az LLM-ek felügyelete, megértése és pontosságának és megbízhatóságának biztosítása segíthet csökkenteni az AI-modellekkel kapcsolatos kockázatokat. A hallucinációk, a rossz befejezések (válaszok) és a felszólítások figyelésével megbizonyosodhat arról, hogy LLM-je a pályán marad, és azt az értéket adja, amelyet Ön és felhasználói keresnek. Ebben a bejegyzésben néhány mérőszámot tárgyaltunk, hogy példákat mutassunk be.

Az alapozási modellek értékelésével kapcsolatos további információkért lásd: A SageMaker Clarify segítségével értékelje az alapozó modelleket, és böngésszen a továbbiak között példafüzetek elérhető a GitHub adattárunkban. Felfedezheti az LLM-kiértékelések nagy léptékű operacionalizálásának módjait is Működtesse az LLM-értékelést a Scale-ban az Amazon SageMaker Clarify és MLOps szolgáltatások segítségével. Végül javasoljuk a hivatkozást Értékelje a nagy nyelvi modelleket a minőség és a felelősség szempontjából hogy többet megtudjon az LLM-ek értékeléséről.

A szerzőkről

Technikák és megközelítések nagy nyelvi modellek figyelésére az AWS | Amazon Web Services PlatoBlockchain Data Intelligence. Függőleges keresés. Ai. Bruno Klein vezető gépi tanulási mérnök AWS Professional Services Analytics gyakorlattal. Segít ügyfeleinek a big data és analitikai megoldások megvalósításában. A munkán kívül szívesen tölt időt a családjával, utazik és új ételeket próbál ki.

Technikák és megközelítések nagy nyelvi modellek figyelésére az AWS | Amazon Web Services PlatoBlockchain Data Intelligence. Függőleges keresés. Ai. Rushabh Lokhande Senior Data & ML mérnök AWS Professional Services Analytics gyakorlattal. Segít ügyfeleinek a big data, a gépi tanulási és az elemzési megoldások megvalósításában. A munkán kívül szívesen tölt időt a családjával, olvas, fut és golfozik.

SEO által támogatott tartalom és PR terjesztés. Erősödjön még ma.
PlatoData.Network Vertical Generative Ai. Erősítse meg magát. Hozzáférés itt.
PlatoAiStream. Web3 Intelligence. Felerősített tudás. Hozzáférés itt.
PlatoESG. Carbon, CleanTech, Energia, Környezet, Nap, Hulladékgazdálkodás. Hozzáférés itt.
PlatoHealth. Biotechnológiai és klinikai vizsgálatok intelligencia. Hozzáférés itt.
Forrás: https://aws.amazon.com/blogs/machine-learning/techniques-and-approaches-for-monitoring-large-language-models-on-aws/

Időbélyeg: Február 26, 2024

Időbélyeg: 18. március 2024.

Újra kiadta Platón

Az AWS DeepRacer League 2022 bejelentése

Az Amazon Connect és a Lex fejlesztése generatív AI-képességekkel | Amazon webszolgáltatások

Bundesliga mérkőzés tényszerű nyomáskezelés: A játékosok teljesítményének értékelése nagy nyomású helyzetekben az AWS-en

Az AWS és a Mistral AI megerősített együttműködéssel elkötelezik magukat a generatív MI demokratizálása mellett | Amazon webszolgáltatások

Hozzon létre egy szöveges összefoglaló projektet a Hugging Face Transformers segítségével: 2. rész

Rólunk

Vertical Search & Ai

Emelvény

Maradjon kapcsolatban

Fiók