Rakenna mukautettuja chatbot-sovelluksia käyttämällä OpenChatkit-malleja Amazon SageMakerissa

Julkaissut Platon

seuraajia: 0

Avoimen lähdekoodin suurista kielimalleista (LLM) on tullut suosittuja, minkä ansiosta tutkijat, kehittäjät ja organisaatiot voivat käyttää näitä malleja innovaation ja kokeilun edistämiseksi. Tämä rohkaisee avoimen lähdekoodin yhteisöä tekemään yhteistyötä LLM:ien kehittämiseksi ja parantamiseksi. Avoimen lähdekoodin LLM:t tarjoavat läpinäkyvyyttä malliarkkitehtuurille, koulutusprosessille ja koulutusdatalle, mikä antaa tutkijoille mahdollisuuden ymmärtää mallin toimintaa ja tunnistaa mahdollisia harhoja ja käsitellä eettisiä huolenaiheita. Nämä avoimen lähdekoodin LLM:t demokratisoivat generatiivista tekoälyä tuomalla kehittyneen luonnollisen kielen käsittelytekniikan (NLP) useiden käyttäjien saataville kriittisten liiketoimintasovellusten rakentamiseen. GPT-NeoX, LLaMA, Alpaca, GPT4All, Vicuna, Dolly ja OpenAssistant ovat joitakin suosittuja avoimen lähdekoodin LLM:itä.

OpenChatKit on avoimen lähdekoodin LLM, jota käytetään yleiskäyttöisten ja erikoistuneiden chatbot-sovellusten rakentamiseen. Together Computer julkaisi maaliskuussa 2023 Apache-2.0-lisenssillä. Tämän mallin avulla kehittäjät voivat hallita chatbotin toimintaa paremmin ja räätälöidä sitä omiin sovelluksiinsa. OpenChatKit tarjoaa joukon työkaluja, perusbottia ja rakennuspalikoita täysin räätälöityjen, tehokkaiden chatbottien rakentamiseen. Tärkeimmät komponentit ovat seuraavat:

Ohjeiden mukaan viritetty LLM, joka on hienosäädetty EleutherAI:n GPT-NeoX-20B:n chattiin ja sisältää yli 43 miljoonaa ohjetta 100 % hiilinegatiivisella laskennalla. The GPT-NeoXT-Chat-Base-20B malli perustuu EleutherAI:n GPT-NeoX-malliin, ja se on hienosäädetty datalla, joka keskittyy dialogityyppisiin vuorovaikutuksiin.
Räätälöidyt reseptit mallin hienosäätämiseksi tehtävien suuren tarkkuuden saavuttamiseksi.
Laajennettava hakujärjestelmä, jonka avulla voit täydentää bot-vastauksia dokumenttivaraston, API:n tai muun reaaliaikaisesti päivittyvän tietolähteen tiedoilla päättelyhetkellä.
GPT-JT-6B:stä hienosäädetty moderointimalli, joka on suunniteltu suodattamaan, mihin kysymyksiin botti vastaa.

Syväoppimismallien kasvava laajuus ja koko muodostaa esteitä näiden mallien menestyksekkäälle käyttöönotolle generatiivisissa tekoälysovelluksissa. Matala latenssin ja suuren suorituskyvyn vaatimusten täyttämiseksi on välttämätöntä käyttää kehittyneitä menetelmiä, kuten mallin rinnakkaisuutta ja kvantisointia. Koska monet käyttäjät eivät osaa soveltaa näitä menetelmiä, he kohtaavat vaikeuksia aloittaa mittavien mallien isännöinti generatiivisia tekoälyn käyttötapauksia varten.

Tässä viestissä näytämme kuinka ottaa käyttöön OpenChatKit-malleja (GPT-NeoXT-Chat-Base-20B and GPT-JT-Moderation-6B) mallit päällä Amazon Sage Maker käyttämällä DJL Servingiä ja avoimen lähdekoodin mallin rinnakkaiskirjastoja, kuten DeepSpeed ja Hugging Face Accelerate. Käytämme DJL Servingiä, joka on korkean suorituskyvyn universaali mallinpalveluratkaisu, joka perustuu Deep Java Libraryyn (DJL), joka on ohjelmointikieltä agnostikko. Osoitamme, kuinka Hugging Face Accelerate -kirjasto yksinkertaistaa suurten mallien käyttöönottoa useisiin grafiikkasuorituksiin, mikä vähentää LLM:ien hajautetun käytön taakkaa. Aloitetaan!

Laajennettava hakujärjestelmä

Laajennettava hakujärjestelmä on yksi OpenChatKitin avainkomponenteista. Sen avulla voit mukauttaa botin vastausta suljetun verkkotunnuksen tietokannan perusteella. Vaikka LLM:t pystyvät säilyttämään tosiasiatietonsa malliparametreissaan ja voivat saavuttaa huomattavan suorituskyvyn loppupään NLP-tehtävissä hienosäädettynä, heidän kykynsä käyttää ja ennustaa suljetun verkkoalueen tietämystä tarkasti on rajoitettu. Siksi, kun heille esitetään tietointensiivisiä tehtäviä, heidän suorituskykynsä kärsii tehtäväkohtaisten arkkitehtuurien suorituskyvystä. OpenChatKit-hakujärjestelmän avulla voit lisätä tietoa heidän vastauksissaan ulkoisista tietolähteistä, kuten Wikipediasta, asiakirjavarastoista, API:ista ja muista tietolähteistä.

Hakujärjestelmä mahdollistaa chatbotin pääsyn ajankohtaisiin tietoihin hankkimalla asiaankuuluvia yksityiskohtia vastauksena tiettyyn kyselyyn, mikä tarjoaa mallille tarvittavan kontekstin vastausten luomiseen. Havainnollistaaksemme tämän hakujärjestelmän toimivuutta tarjoamme tukea Wikipedia-artikkelien hakemistolle ja esimerkkikoodin, joka osoittaa, kuinka verkkohaun sovellusliittymä voidaan kutsua tiedonhakuun. Noudattamalla toimitettua dokumentaatiota voit integroida hakujärjestelmän mihin tahansa tietojoukkoon tai API:iin päättelyprosessin aikana, jolloin chatbot voi sisällyttää dynaamisesti päivitettyjä tietoja vastauksiinsa.

Maltillinen malli

Moderointimallit ovat tärkeitä chatbot-sovelluksissa sisällön suodatuksen, laadunvalvonnan, käyttäjien turvallisuuden sekä lakisääteisten ja vaatimustenmukaisuuden kannalta. Moderointi on vaikea ja subjektiivinen tehtävä, ja se riippuu paljon chatbot-sovelluksen toimialueesta. OpenChatKit tarjoaa työkaluja chatbot-sovelluksen moderointiin ja sopimattoman sisällön syöttötekstikehotteiden valvontaan. Moderointimalli tarjoaa hyvän lähtökohdan, jota voidaan mukauttaa ja räätälöidä erilaisiin tarpeisiin.

OpenChatKitissa on 6 miljardin parametrin valvontamalli, GPT-JT-Moderation-6B, joka voi valvoa chatbotia rajoittaakseen syötteet moderoituihin aiheisiin. Vaikka mallissa itsessään on jonkin verran sisäänrakennettua maltillisuutta, TogetherComputer koulutti a GPT-JT-Moderation-6B malli Ontocord.ai:n kanssa OIG-moderoinnin tietojoukko. Tämä malli toimii päächatbotin rinnalla varmistaakseen, että sekä käyttäjän syöte että botin vastaus eivät sisällä sopimattomia tuloksia. Tämän avulla voit myös havaita chatbotille toimialueen ulkopuoliset kysymykset ja ohittaa, kun kysymys ei kuulu chatbotin toimialueeseen.

Seuraava kaavio havainnollistaa OpenChatKit-työnkulkua.

Rakenna mukautettuja chatbot-sovelluksia käyttämällä OpenChatkit-malleja Amazon SageMakerissa | Amazon Web Services PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Laajennettavat hakujärjestelmän käyttötapaukset

Vaikka voimme soveltaa tätä tekniikkaa useilla toimialoilla generatiivisten AI-sovellusten rakentamiseen, tässä postauksessa käsittelemme käyttötapauksia rahoitusalalla. Haun lisättyä sukupolvea voidaan käyttää taloustutkimuksessa luomaan automaattisesti tutkimusraportteja tietyistä yrityksistä, toimialoista tai rahoitustuotteista. Haemalla asiaankuuluvia tietoja sisäisistä tietokannoista, talousarkistoista, uutisartikkeleista ja tutkimuspapereista voit luoda kattavia raportteja, joissa on yhteenveto tärkeimmistä näkemyksistä, taloudellisista mittareista, markkinatrendeistä ja sijoitussuosituksista. Tämän ratkaisun avulla voit seurata ja analysoida talousuutisia, markkinatunnelmaa ja trendejä.

Ratkaisun yleiskatsaus

Seuraavat vaiheet liittyvät chatbotin rakentamiseen OpenChatKit-malleja käyttäen ja niiden käyttöönottoon SageMakerissa:

Lataa chat-pohja GPT-NeoXT-Chat-Base-20B mallintaa ja pakata mallin artefaktit, joihin ladataan Amazonin yksinkertainen tallennuspalvelu (Amazon S3).
Käytä SageMaker Large Model Inference (LMI) -säilöä, määritä ominaisuudet ja määritä mukautettu päättelykoodi tämän mallin käyttöönottamiseksi.
Määritä mallin rinnakkaistekniikat ja käytä päätelmien optimointikirjastoja DJL:n palveluominaisuuksissa. Käytämme Hugging Face Acceleratea DJL-tarjoilun moottorina. Lisäksi määrittelemme tensorin rinnakkaiskonfiguraatiot mallin osiointia varten.
Luo SageMaker-malli ja päätepistemääritys ja ota SageMaker-päätepiste käyttöön.

Voit seurata mukana ajamalla muistikirjaa GitHub repo.

Lataa OpenChatKit-malli

Ensin lataamme OpenChatKit-perusmallin. Käytämme huggingface_hub Ja käyttää snapshot_download ladataksesi mallin, joka lataa koko arkiston tietyssä versiossa. Lataukset tehdään samanaikaisesti prosessin nopeuttamiseksi. Katso seuraava koodi:

from huggingface_hub import snapshot_download
from pathlib import Path
import os
# - This will download the model into the current directory where ever the jupyter notebook is running
local_model_path = Path("./openchatkit")
local_model_path.mkdir(exist_ok=True)
model_name = "togethercomputer/GPT-NeoXT-Chat-Base-20B"
# Only download pytorch checkpoint files
allow_patterns = ["*.json", "*.pt", "*.bin", "*.txt", "*.model"]
# - Leverage the snapshot library to donload the model since the model is stored in repository using LFS
chat_model_download_path = snapshot_download( repo_id=model_name,#A user or an organization name and a repo name cache_dir=local_model_path, #Path to the folder where cached files are stored. allow_patterns=allow_patterns, #only files matching at least one pattern are downloaded.
)

DJL Tarjoiluominaisuudet

Voit käyttää SageMaker LMI -säilöjä isännöimään suuria generatiivisia tekoälymalleja mukautetulla päätelmäkoodilla antamatta omaa päättelykoodiasi. Tämä on erittäin hyödyllistä, kun syöttödatan mukautettua esikäsittelyä tai mallin ennusteiden jälkikäsittelyä ei ole. Voit myös ottaa mallin käyttöön mukautetun päättelykoodin avulla. Tässä viestissä näytämme, kuinka OpenChatKit-malleja otetaan käyttöön mukautetulla päättelykoodilla.

SageMaker odottaa mallin artefakteja tar-muodossa. Luomme jokaisen OpenChatKit-mallin seuraavilla tiedostoilla: serving.properties ja model.py.

- serving.properties konfiguraatiotiedosto ilmoittaa DJL Servingille, mitä mallin rinnakkais- ja päätelmien optimointikirjastoja haluat käyttää. Seuraavassa on luettelo asetuksista, joita käytämme tässä asetustiedostossa:

openchatkit/serving.properties
engine = Python
option.tensor_parallel_degree = 4
option.s3url = {{s3url}}

Tämä sisältää seuraavat parametrit:

moottori – Moottori DJL:n käyttöön.
option.entryPoint – Aloituspisteen Python-tiedosto tai -moduuli. Tämän pitäisi olla linjassa käytettävän moottorin kanssa.
option.s3url – Aseta tämä mallin sisältävän S3-alueen URI:ksi.
option.modelid – Jos haluat ladata mallin osoitteesta huggingface.co, voit asettaa option.modelid esikoulutetun mallin mallitunnukseen, jota isännöi huggingface.co:n mallivarastossa (https://huggingface.co/models). Säilö käyttää tätä mallitunnusta vastaavan mallivaraston lataamiseen osoitteessa huggingface.co.
option.tensor_parallel_degree – Aseta tämä niiden GPU-laitteiden lukumääräksi, joille DeepSpeed tarvitsee mallin osioinnin. Tämä parametri ohjaa myös työntekijöiden määrää mallia kohti, jotka käynnistetään, kun DJL Serving toimii. Jos meillä on esimerkiksi 8 GPU-kone ja luomme kahdeksan osiota, meillä on yksi työntekijä mallia kohden palvelemaan pyyntöjä. On tarpeen virittää rinnakkaisuuden aste ja tunnistaa optimaalinen arvo tietylle malliarkkitehtuurille ja laitteistoalustalle. Kutsumme tätä kyvyksi päätelmiin mukautettu rinnakkaisuus.

Mainita Kokoonpanot ja asetukset kattavan luettelon vaihtoehdoista.

OpenChatKit-mallit

OpenChatKit-perusmallin toteutuksessa on seuraavat neljä tiedostoa:

malli.py – Tämä tiedosto toteuttaa OpenChatKit GPT-NeoX -päämallin käsittelylogiikan. Se vastaanottaa päättelyn syöttöpyynnön, lataa mallin, lataa Wikipedia-hakemiston ja palvelee vastausta. Viitata model.py(luotu osa muistikirjasta) saadaksesi lisätietoja. model.py käyttää seuraavia avainluokkia:
- OpenChatKitService – Tämä käsittelee tietojen välittämisen GPT-NeoX-mallin, Faiss-haun ja keskusteluobjektin välillä. WikipediaIndex ja Conversation objektit alustetaan ja syötetyt chat-keskustelut lähetetään hakemistoon etsimään asiaankuuluvaa sisältöä Wikipediasta. Tämä luo myös yksilöllisen tunnuksen jokaiselle kutsulle, jos sellaista ei toimiteta kehotteiden tallentamista varten Amazon DynamoDB.
- Chat-malli – Tämä luokka lataa mallin ja tokenisaattorin ja luo vastauksen. Se käsittelee mallin osioinnin useiden GPU:iden kesken tensor_parallel_degree, ja määrittää dtypes ja device_map. Kehotteet välitetään mallille vastausten luomiseksi. Pysäytyskriteeri StopWordsCriteria on määritetty generoimaan tuottamaan bottivastauksen vain päätelmän perusteella.
- Moderaatiomalli – Meillä on käytössä kaksi moderointimallia ModerationModel luokka: syöttömalli, joka ilmaisee chat-mallille, että syöte ei sovellu päättelytuloksen ohittamiseen, ja tulosmalli, joka ohittaa päättelytuloksen. Luokittelemme syöttökehotteen ja lähtövasteen seuraavilla mahdollisilla nimikkeillä:
  - rento
  - vaatii varovaisuutta
  - tarvitsee toimia (tämä on merkitty mallin valvottavaksi)
  - vaatii ehkä varovaisuutta
  - vaatii varmaan varovaisuutta
wikipedia_prepare.py – Tämä tiedosto käsittelee Wikipedia-hakemiston lataamisen ja valmistelemisen. Tässä viestissä käytämme Hugging Face -tietojoukoissa olevaa Wikipedia-hakemistoa. Jotta Wikipedia-asiakirjoista voidaan etsiä asiaankuuluvaa tekstiä, hakemisto on ladattava Hugging Facesta, koska sitä ei ole pakattu muualle. The wikipedia_prepare.py tiedosto on vastuussa latauksen käsittelystä tuonnin yhteydessä. Vain yksi prosessi useista, jotka ovat käynnissä päätelmiä varten, voi kloonata arkiston. Loput odottavat, kunnes tiedostot ovat paikallisessa tiedostojärjestelmässä.
wikipedia.py – Tätä tiedostoa käytetään asiayhteyteen liittyvien asiakirjojen etsimiseen Wikipedian hakemistosta. Syöttökysely tokenisoidaan ja upotukset luodaan käyttämällä mean_pooling. Laskemme kosinin samankaltaisuusetäisyyden mittareita kyselyn upotuksen ja Wikipedia-hakemiston välillä kontekstuaalisesti relevanttien Wikipedia-lauseiden hakemiseksi. Viitata wikipedia.py täytäntöönpanon yksityiskohtia varten.

#function to create sentence embedding using mean_pooling
def mean_pooling(token_embeddings, mask): token_embeddings = token_embeddings.masked_fill(~mask[..., None].bool(), 0.0) sentence_embeddings = token_embeddings.sum(dim=1) / mask.sum(dim=1)[..., None] return sentence_embeddings #function to compute cosine similarity distance between 2 embeddings def cos_sim_2d(x, y): norm_x = x / np.linalg.norm(x, axis=1, keepdims=True) norm_y = y / np.linalg.norm(y, axis=1, keepdims=True) return np.matmul(norm_x, norm_y.T)

keskustelu.py – Tätä tiedostoa käytetään keskustelusäikeen tallentamiseen ja hakemiseen DynamoDB:ssä mallille ja käyttäjälle siirtämistä varten. conversation.py on mukautettu avoimen lähdekoodin OpenChatKit-arkistosta. Tämä tiedosto vastaa objektin määrittämisestä, joka tallentaa keskustelun käännökset ihmisen ja mallin välillä. Tämän avulla malli pystyy säilyttämään istunnon keskustelulle, jolloin käyttäjä voi viitata aikaisempiin viesteihin. Koska SageMaker-päätepistekutsut ovat tilattomia, tämä keskustelu on tallennettava päätepisteiden ulkopuoliseen sijaintiin. Käynnistyksen yhteydessä ilmentymä luo DynamoDB-taulukon, jos sitä ei ole olemassa. Kaikki keskustelun päivitykset tallennetaan sitten DynamoDB:hen session_id avain, jonka päätepiste luo. Kaikki kutsut, joissa on istuntotunnus, hakevat siihen liittyvän keskustelumerkkijonon ja päivittävät sen tarpeen mukaan.

Rakenna LMI-johtopäätössäilö mukautetuilla riippuvuuksilla

Hakemistohaku käyttää Facebookin hakua Faiss kirjasto samankaltaisuushaun suorittamista varten. Koska tämä ei sisälly perus-LMI-näköistiedostoon, säilöä on mukautettava tämän kirjaston asentamista varten. Seuraava koodi määrittelee Docker-tiedoston, joka asentaa Faissin lähteestä muiden botin päätepisteen tarvitsemien kirjastojen rinnalle. Käytämme sm-docker apuohjelma kuvan rakentamiseen ja työntämiseen Amazonin elastisten säiliörekisteri (Amazon ECR) alkaen Amazon SageMaker Studio. Viitata Amazon SageMaker Studio Image Build CLI: n avulla voit luoda säilökuvia Studio-muistikirjoistasi lisätietoja.

DJL-säilössä ei ole asennettuna Condaa, joten Faiss on kloonattava ja käännettävä lähteestä. Faissin asentaminen edellyttää, että BLAS-sovellusliittymien ja Python-tuen käytön riippuvuudet asennetaan. Kun nämä paketit on asennettu, Faiss konfiguroidaan käyttämään AVX2:ta ja CUDA:ta ennen kuin se käännetään asennettujen Python-laajennusten kanssa.

pandas, fastparquet, boto3ja git-lfs asennetaan myöhemmin, koska niitä tarvitaan hakemistotiedostojen lataamiseen ja lukemiseen.

FROM 763104351884.dkr.ecr.us-east-1.amazonaws.com/djl-inference:0.21.0-deepspeed0.8.0-cu117
ARG FAISS_URL=https://github.com/facebookresearch/faiss.git
RUN apt-get update && apt-get install -y git-lfs wget cmake pkg-config build-essential apt-utils
RUN apt search openblas && apt-get install -y libopenblas-dev swig
RUN git clone $FAISS_URL && cd faiss && cmake -B build . -DFAISS_OPT_LEVEL=avx2 -DCMAKE_CUDA_ARCHITECTURES="86" && make -C build -j faiss && make -C build -j swigfaiss && make -C build -j swigfaiss_avx2 && (cd build/faiss/python && python -m pip install ) RUN pip install pandas fastparquet boto3 && git lfs install --skip-repo && apt-get clean all

Luo malli

Nyt kun meillä on Docker-kuva Amazon ECR:ssä, voimme jatkaa SageMaker-malliobjektin luomista OpenChatKit-malleille. Otamme käyttöön GPT-NeoXT-Chat-Base-20B tulon ja lähdön moderointimalleja käyttäen GPT-JT-Moderation-6B. Viitata luo_malli lisätietoja.

from sagemaker.utils import name_from_base chat_model_name = name_from_base(f"gpt-neoxt-chatbase-ds")
print(chat_model_name) create_model_response = sm_client.create_model( ModelName=chat_model_name, ExecutionRoleArn=role, PrimaryContainer={ "Image": chat_inference_image_uri, "ModelDataUrl": s3_code_artifact, },
)
chat_model_arn = create_model_response["ModelArn"] print(f"Created Model: {chat_model_arn}")

Määritä päätepiste

Seuraavaksi määritämme OpenChatKit-mallien päätepisteen kokoonpanot. Otamme mallit käyttöön käyttämällä ml.g5.12xlarge ilmentymätyyppiä. Viitata create_endpoint_config lisätietoja.

chat_endpoint_config_name = f"{chat_model_name}-config"
chat_endpoint_name = f"{chat_model_name}-endpoint" chat_endpoint_config_response = sm_client.create_endpoint_config( EndpointConfigName=chat_endpoint_config_name, ProductionVariants=[ { "VariantName": "variant1", "ModelName": chat_model_name, "InstanceType": "ml.g5.12xlarge", "InitialInstanceCount": 1, "ContainerStartupHealthCheckTimeoutInSeconds": 3600, }, ],
)

Ota päätepiste käyttöön

Lopuksi luomme päätepisteen käyttämällä mallia ja päätepistekokoonpanoa, jonka määritimme edellisissä vaiheissa:

chat_create_endpoint_response = sm_client.create_endpoint(
EndpointName=f"{chat_endpoint_name}", EndpointConfigName=chat_endpoint_config_name
)
print(f"Created Endpoint: {chat_create_endpoint_response['EndpointArn']},")

Tee johtopäätös OpenChatKit-malleista

Nyt on aika lähettää johtopäätöspyynnöt mallille ja saada vastaukset. Välitämme syöttötekstikehotteen ja malliparametrit, kuten temperature, top_kja max_new_tokens. Chatbotin vastausten laatu perustuu määritettyihin parametreihin, joten on suositeltavaa vertailla mallin suorituskykyä näihin parametreihin, jotta löydät käyttötapaukseesi optimaalisen asetuksen. Tulokehote lähetetään ensin syötteen moderointimalliin ja tuloste lähetetään osoitteeseen ChatModel vastausten luomiseen. Tämän vaiheen aikana malli käyttää Wikipedia-hakemistoa hakeakseen malliin kontekstuaalisesti relevantteja osia kehotteena saada verkkotunnuskohtaisia vastauksia mallista. Lopuksi mallivastaus lähetetään lähdön moderointimalliin luokituksen tarkistamiseksi, ja sitten vastaukset palautetaan. Katso seuraava koodi:

def chat(prompt, session_id=None, **kwargs): if session_id: chat_response_model = smr_client.invoke_endpoint( EndpointName=chat_endpoint_name, Body=json.dumps( { "inputs": prompt, "parameters": { "temperature": 0.6, "top_k": 40, "max_new_tokens": 512, "session_id": session_id, "no_retrieval": True, }, } ), ContentType="application/json", ) else: chat_response_model = smr_client.invoke_endpoint( EndpointName=chat_endpoint_name, Body=json.dumps( { "inputs": prompt, "parameters": { "temperature": 0.6, "top_k": 40, "max_new_tokens": 512, }, } ), ContentType="application/json", ) response = chat_response_model["Body"].read().decode("utf8") return response
prompts = "What does a data engineer do?"
chat(prompts)

Katso esimerkki chat-vuorovaikutuksista alla.

Rakenna mukautettuja chatbot-sovelluksia käyttämällä OpenChatkit-malleja Amazon SageMakerissa | Amazon Web Services PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Puhdistaa

Noudata julkaisun puhdistusosion ohjeita poistaaksesi osana tätä viestiä annetut resurssit tarpeettomien kulujen välttämiseksi. Viitata Amazon SageMaker -hinnoittelu saadaksesi lisätietoja päättelytapahtumien kustannuksista.

Yhteenveto

Tässä viestissä keskustelimme avoimen lähdekoodin LLM:ien tärkeydestä ja OpenChatKit-mallin käyttöönotosta SageMakerissa seuraavan sukupolven chatbot-sovellusten rakentamiseen. Keskustelimme OpenChatKit-mallien eri osista, moderointimalleista ja ulkoisen tietolähteen, kuten Wikipedian, käyttämisestä lisätyn sukupolven (RAG) työnkulkuihin. Löydät vaiheittaiset ohjeet kohdasta GitHub-muistikirja. Kerro meille upeista chatbot-sovelluksista, joita olet rakentamassa. Kippis!

Tietoja Tekijät

Dhawal Patel on AWS:n koneoppimisarkkitehti. Hän on työskennellyt organisaatioiden kanssa suurista yrityksistä keskikokoisiin startup-yrityksiin hajautettuun tietojenkäsittelyyn ja tekoälyyn liittyvien ongelmien parissa. Hän keskittyy syväoppimiseen, mukaan lukien NLP- ja Computer Vision -alueet. Hän auttaa asiakkaita tekemään korkean suorituskyvyn mallipäätelmiä SageMakerissa.

Vikram Elango on vanhempi AIML Specialist Solutions -arkkitehti AWS:ssä, joka sijaitsee Virginiassa, Yhdysvalloissa. Hän keskittyy tällä hetkellä generatiiviseen tekoälyyn, LLM:ihin, nopeaan suunnitteluun, suurten mallipäätelmien optimointiin ja ML:n skaalaamiseen eri yrityksissä. Vikram auttaa rahoitus- ja vakuutusalan asiakkaita suunnittelu- ja ajatusjohtajuudella rakentamaan ja ottamaan käyttöön koneoppimissovelluksia mittakaavassa. Vapaa-ajallaan hän nauttii matkustamisesta, vaeltamisesta, ruoanlaitosta ja telttailusta perheensä kanssa.

Andrew Smith on pilvituki-insinööri AWS:n SageMaker, Vision & Other -tiimissä Sydneyssä, Australiassa. Hän tukee asiakkaita, jotka käyttävät monia AI/ML-palveluita AWS:ssä, ja hänellä on asiantuntemusta työskennellä Amazon SageMakerin kanssa. Työn ulkopuolella hän viettää mielellään aikaa ystävien ja perheen kanssa sekä oppii eri tekniikoista.