Tekniikat ja lähestymistavat suurten kielimallien seurantaan AWS:ssä | Amazon Web Services

Tekniikat ja lähestymistavat suurten kielimallien seurantaan AWS:ssä | Amazon Web Services

Suuret kielimallit (LLM) ovat mullistaneet luonnollisen kielen käsittelyn (NLP) alan parantamalla tehtäviä, kuten kielen kääntämistä, tekstin yhteenvetoa ja tunteiden analysointia. Näiden mallien koon ja monimutkaisuuden kasvaessa kuitenkin niiden suorituskyvyn ja käyttäytymisen seuranta on muuttunut yhä haastavammaksi.

LLM:ien suorituskyvyn ja käyttäytymisen seuranta on kriittinen tehtävä heidän turvallisuutensa ja tehokkuutensa varmistamiseksi. Ehdottamamme arkkitehtuuri tarjoaa skaalautuvan ja muokattavissa olevan ratkaisun online-LLM-seurantaan, jonka avulla tiimit voivat räätälöidä valvontaratkaisusi erityisiin käyttötapauksiin ja vaatimuksiin. Käyttämällä AWS-palveluita arkkitehtuurimme tarjoaa reaaliaikaisen näkyvyyden LLM-käyttäytymiseen ja mahdollistaa ryhmien nopean tunnistamisen ja korjaamisen mahdolliset ongelmat tai poikkeamat.

Tässä viestissä esittelemme muutamia mittareita online-LLM-seurantaan ja niiden vastaavaa arkkitehtuuria mittakaavassa käyttämällä AWS-palveluita, kuten amazonin pilvikello ja AWS Lambda. Tämä tarjoaa räätälöitävän ratkaisun enemmän kuin mahdollista mallin arviointi kanssa Amazonin kallioperä.

Katsaus ratkaisuun

Ensimmäinen asia, joka on otettava huomioon, on, että erilaiset mittarit edellyttävät erilaisia ​​laskentanäkökohtia. Modulaarinen arkkitehtuuri, jossa jokainen moduuli voi ottaa mallin päättelytietoa ja tuottaa omat metriikkansa, on välttämätön.

Suosittelemme, että jokainen moduuli ottaa saapuvat päättelypyynnöt LLM:lle ja välittää kehote- ja valmistumisparit metrijärjestelmän laskentamoduuleille. Jokainen moduuli on vastuussa omien mittareiden laskemisesta syöttökehotteen ja valmistumisen (vastauksen) suhteen. Nämä mittarit välitetään CloudWatchille, joka voi yhdistää ne ja lähettää ilmoituksia tietyissä olosuhteissa CloudWatch-hälytysten kanssa. Seuraava kaavio havainnollistaa tätä arkkitehtuuria.

Kuva 1: Metrinen laskentamoduuli – ratkaisun yleiskatsaus

Kuva 1: Metrinen laskentamoduuli – ratkaisun yleiskatsaus

Työnkulku sisältää seuraavat vaiheet:

  1. Käyttäjä tekee pyynnön Amazon Bedrockille osana sovellusta tai käyttöliittymää.
  2. Amazon Bedrock tallentaa pyynnön ja täydennyksen (vastauksen) sisään Amazonin yksinkertainen tallennuspalvelu (Amazon S3) kokoonpanon mukaan kutsujen kirjaaminen.
  3. Amazon S3:een tallennettu tiedosto luo tapahtuman, joka liipaisimet lambda-toiminto. Funktio kutsuu moduulit.
  4. Moduulit lähettävät vastaavat mittarinsa osoitteeseen CloudWatch-mittarit.
  5. Hälytykset: voi ilmoittaa kehitystiimille odottamattomista mittariarvoista.

Toinen asia, joka on otettava huomioon LLM-seurantaa toteutettaessa, on seurata oikeita mittareita. Vaikka on monia mahdollisia mittareita, joita voit käyttää LLM-suorituskyvyn seuraamiseen, selitämme joitain laajimmista tässä viestissä.

Seuraavissa osissa korostamme muutamia asiaankuuluvia moduulimittareita ja niiden vastaavaa metriikan laskentamoduuliarkkitehtuuria.

Semanttinen samankaltaisuus kehotteen ja täydennyksen välillä (vastaus)

Kun suoritat LLM:itä, voit siepata jokaisen pyynnön kehotteen ja täydennyksen (vastauksen) ja muuntaa ne upotuksiksi käyttämällä upotusmallia. Upotukset ovat suuriulotteisia vektoreita, jotka edustavat tekstin semanttista merkitystä. Amazon Titan tarjoaa tällaisia ​​malleja Titan Embeddingsin kautta. Ottamalla näiden kahden vektorin välisen etäisyyden, kuten kosinin, voit määrittää, kuinka semanttisesti samankaltaisia ​​kehote ja täydennys (vastaus) ovat. Voit käyttää SciPy or scikit opittava laskea vektorien välisen kosinietäisyyden. Seuraava kaavio havainnollistaa tämän metriikkalaskentamoduulin arkkitehtuuria.

Kuva 2: Metrinen laskentamoduuli – semanttinen samankaltaisuus

Kuva 2: Metrinen laskentamoduuli – semanttinen samankaltaisuus

Tämä työnkulku sisältää seuraavat avainvaiheet:

  1. Lambda-toiminto vastaanottaa suoratoistettavan viestin kautta Amazon kinesis joka sisältää kehotteen ja täydennysparin (vastaus).
  2. Funktio saa upotuksen sekä kehotteeseen että loppuun (vastaukseen) ja laskee kosinietäisyyden näiden kahden vektorin välillä.
  3. Toiminto lähettää nämä tiedot CloudWatch-mittareihin.

Sentimentti ja myrkyllisyys

Sentimentin seuranta mahdollistaa vastausten yleisen sävyn ja emotionaalisen vaikutuksen mittaamisen, kun taas myrkyllisyysanalyysi tarjoaa tärkeän mittarin loukkaavan, epäkunnioittavan tai haitallisen kielen esiintymisestä LLM-tuloksissa. Kaikkia tunteiden tai myrkyllisyyden muutoksia tulee seurata tarkasti sen varmistamiseksi, että malli käyttäytyy odotetulla tavalla. Seuraava kaavio havainnollistaa metrijärjestelmän laskentamoduulia.

Kuva 3: Metrinen laskentamoduuli – tunne ja myrkyllisyys

Kuva 3: Metrinen laskentamoduuli – tunne ja myrkyllisyys

Työnkulku sisältää seuraavat vaiheet:

  1. Lambda-toiminto vastaanottaa kehotteen ja täydennysparin (vastaus) Amazon Kinesiksen kautta.
  2. AWS Step Functions -orkestroinnin kautta funktio kutsuu Amazonin käsitys havaita näkemys ja myrkyllisyys.
  3. Toiminto tallentaa tiedot CloudWatch-mittareihin.

Lisätietoja tunteiden ja myrkyllisyyden havaitsemisesta Amazon Comprehendillä on kohdassa Rakenna vankka tekstipohjainen myrkyllisyyden ennustaja ja Ilmoita haitallisesta sisällöstä käyttämällä Amazon Comprehend myrkyllisyyden havaitsemista.

Kieltäytymissuhde

Kieltäytymisten lisääntyminen, kuten silloin, kun LLM kieltää suorittamisen tiedon puutteen vuoksi, voi tarkoittaa sitä, että joko pahantahtoiset käyttäjät yrittävät käyttää LLM:ää tavoilla, joilla on tarkoitus murtaa se, tai että käyttäjien odotukset eivät täyty ja he eivät täyty. saavat vähäarvoisia vastauksia. Yksi tapa mitata, kuinka usein näin tapahtuu, on verrata käytetyn LLM-mallin vakiokieltäytymistä LLM:n todellisiin vastauksiin. Esimerkiksi seuraavat ovat joitain Anthropicin Claude v2 LLM:n yleisiä kieltäytymislauseita:

“Unfortunately, I do not have enough context to provide a substantive response. However, I am an AI assistant created by Anthropic to be helpful, harmless, and honest.”

“I apologize, but I cannot recommend ways to…”

“I'm an AI assistant created by Anthropic to be helpful, harmless, and honest.”

Kiinteillä kehotteilla näiden kieltäytymisten lisääntyminen voi olla merkki siitä, että mallista on tullut liian varovainen tai herkkä. Myös käänteinen tapaus on arvioitava. Se voi olla merkki siitä, että malli on nyt alttiimpi osallistumaan myrkyllisiin tai haitallisiin keskusteluihin.

Eheyden ja kieltäytymissuhteen mallintamisen helpottamiseksi voimme verrata vastausta joukkoon LLM:n tunnettuja kieltäytymislauseita. Tämä voi olla todellinen luokitin, joka voi selittää, miksi malli hylkäsi pyynnön. Voit ottaa kosinietäisyyden vastauksen ja tunnettujen kieltäytymisvastausten välillä valvottavasta mallista. Seuraava kaavio havainnollistaa tätä metrijärjestelmän laskentamoduulia.

Kuva 4: Metrinen laskentamoduuli – kieltäytymisten suhde

Kuva 4: Metrinen laskentamoduuli – kieltäytymisten suhde

Työnkulku koostuu seuraavista vaiheista:
  1. Lambda-toiminto vastaanottaa kehotteen ja täydennyksen (vastauksen) ja saa upotuksen vastauksesta Amazon Titanin avulla.
  2. Funktio laskee kosinin tai euklidiaanisen etäisyyden vastauksen ja muistiin tallennettujen olemassa olevien kieltäytymiskehotteiden välillä.
  3. Funktio lähettää tämän keskiarvon CloudWatch-mittareihin.

Toinen vaihtoehto on käyttää sumea vastaavuus yksinkertaista mutta vähemmän tehokasta lähestymistapaa verrata tunnettuja kieltäytymisiä LLM-tulokseen. Viittaavat Python-dokumentaatio esimerkki.

Yhteenveto

LLM-havainnointi on kriittinen käytäntö LLM:ien luotettavan ja luotettavan käytön varmistamiseksi. LLM:ien seuranta, ymmärtäminen ja tarkkuuden ja luotettavuuden varmistaminen voi auttaa sinua vähentämään näihin tekoälymalleihin liittyviä riskejä. Tarkkailemalla hallusinaatioita, huonoja täydennyksiä (vastauksia) ja kehotteita voit varmistaa, että LLM pysyy oikeilla jäljillä ja tuottaa arvon, jota sinä ja käyttäjäsi etsivät. Tässä viestissä keskustelimme muutamista mittareista esimerkkien esittelemiseksi.

Lisätietoja perustusmallien arvioinnista on kohdassa Käytä SageMaker Clarifyta perusmallien arvioimiseenja selaa lisää esimerkkimuistikirjoja saatavilla GitHub-arkistossamme. Voit myös tutkia tapoja toteuttaa LLM-arvioinnit laajassa mittakaavassa Käytä LLM-arviointia mittakaavassa käyttämällä Amazon SageMaker Clarify- ja MLOps-palveluita. Lopuksi suosittelemme viittaamaan Arvioi suuria kielimalleja laadun ja vastuullisuuden suhteen saadaksesi lisätietoja LLM:ien arvioinnista.


Tietoja Tekijät

Tekniikat ja lähestymistavat suurten kielimallien seurantaan AWS:ssä | Amazon Web Services PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.Bruno Klein on vanhempi koneoppimisinsinööri, jolla on AWS Professional Services Analytics -käytäntö. Hän auttaa asiakkaita toteuttamaan big data- ja analytiikkaratkaisuja. Työn ulkopuolella hän viettää aikaa perheen kanssa, matkustaa ja kokeilla uusia ruokia.

Tekniikat ja lähestymistavat suurten kielimallien seurantaan AWS:ssä | Amazon Web Services PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.Rushabh Lokhande on vanhempi tieto- ja ML-insinööri, jolla on AWS Professional Services Analytics -käytäntö. Hän auttaa asiakkaita toteuttamaan big data-, koneoppimis- ja analytiikkaratkaisuja. Työn ulkopuolella hän viettää aikaa perheen kanssa, lukee, juoksee ja pelaa golfia.

Aikaleima:

Lisää aiheesta AWS-koneoppiminen