Kuidas Mantium saavutab Amazon SageMakeris DeepSpeediga madala latentsusajaga GPT-J järeldused

Taasavaldanud Platon

järgijaid: 0

Mantsium on ülemaailmne pilveplatvormi pakkuja AI-rakenduste loomiseks ja nende ulatuslikuks haldamiseks. Mantiumi täielik arendusplatvorm võimaldab igas suuruses ettevõtetel ja ettevõtetel luua tehisintellekti rakendusi ja automatiseerimist kiiremini ja lihtsamalt, kui see on traditsiooniliselt võimalik. Mantiumiga saavad tehnilised ja mittetehnilised meeskonnad AI-rakendusi prototüüpida, arendada, testida ja juurutada ning seda kõike madala koodipõhise lähenemisviisiga. Automaatse logimise, jälgimise ja turvafunktsioonide kaudu vabastab Mantium ka tarkvara ja DevOpsi insenerid, et nad ei saaks kulutada aega ratta leiutamiseks. Kõrgel tasemel pakub Mantium:

Tipptasemel tehisintellekt – Katsetage ja arendage laia valikut avatud lähtekoodiga ja privaatseid suuri keelemudeleid, millel on lihtne kasutajaliides või API.
AI protsesside automatiseerimine – Looge hõlpsasti tehisintellektiga juhitud rakendusi kasvava integratsioonikogu ja Mantiumi graafilise AI Builderiga.
Kiire juurutamine – Lühendage tootmisaega kuudelt nädalateks või isegi päevadeks ühe klõpsuga juurutamisega. See funktsioon muudab AI-rakendused ühe klõpsuga jagatavateks veebirakendusteks.
Ohutus ja reguleerimine – Tagada ohutus ja vastavus juhtimispoliitikale ning inimestega seotud protsesside toetamine.

Mantium AI Builderiga saate arendada keerukaid töövooge, mis integreerivad väliseid API-sid, loogikatoiminguid ja AI mudeleid. Järgmisel ekraanipildil on näide Mantium AI rakendusest, mis ühendab Twilio sisendi, juhtimispoliitika, AI ploki (mis võib tugineda avatud lähtekoodiga mudelile nagu GPT-J) ja Twilio väljundi.

Selle rakenduse toetamiseks pakub Mantium igakülgset ja ühtset juurdepääsu mitte ainult tehisintellekti pakkujate (nt Open AI, Co:here ja AI21) mudeli API-dele, vaid ka nüüdisaegsetele avatud lähtekoodiga mudelitele. Usume Mantiumis, et igaüks peaks saama luua kaasaegseid AI-rakendusi, mis neile kuuluvad, ja toetame seda, pakkudes jõudlusega optimeeritud avatud lähtekoodiga mudelitele ilma koodita ja madala koodita juurdepääsu.

Näiteks on üks Mantiumi põhilisi avatud lähtekoodiga mudeleid GPT-J, kaasaegne loomuliku keele töötlemise (NLP) mudel, mille on välja töötanud Eleuther AI. 6 miljardi parameetriga GPT-J on üks suurimaid ja kõige paremini toimivaid avatud lähtekoodiga teksti genereerimise mudeleid. Mantiumi kasutajad saavad Mantiumi AI Builderi kaudu integreerida GPT-J oma tehisintellekti rakendustesse. GPT-J puhul hõlmab see a täpsustamist kiire (loomulikus keeles esitus sellest, mida mudel peaks tegema) ja mõne valikulise parameetri konfigureerimine.

Näiteks järgmine ekraanipilt näitab sentimentanalüüsi viipa lühendatud demonstratsiooni, mis annab selgitusi ja arvamuste prognoose. Selles näites kirjutas autor, et "toit oli suurepärane" ja nende "teenindus oli erakordne". Seetõttu väljendab see tekst positiivset meeleolu.

Üks väljakutse avatud lähtekoodiga mudelite puhul on aga see, et need on harva ette nähtud tootmistasemel jõudluse jaoks. Suurte mudelite (nt GPT-J) puhul võib see sõltuvalt kasutusjuhtumist muuta tootmise ebapraktiliseks ja isegi teostamatuks.

Tagamaks, et meie kasutajatel oleks juurdepääs oma klassi parimale jõudlusele, otsime alati võimalusi oma põhimudelite latentsusaega vähendada. Selles postituses kirjeldame järelduste optimeerimise katse tulemusi, milles kasutame DeepSpeedi järeldusmootorit, et suurendada GPT-J järelduskiirust ligikaudu 116%. Samuti kirjeldame, kuidas oleme juurutanud GPT-J rakenduse Hugging Face Transformers koos DeepSpeediga Amazon SageMaker järelduste lõpp-punktid.

Ülevaade GPT-J mudelist

GPT-J on generatiivne eelkoolitatud (GPT) keelemudel ja oma arhitektuuri poolest on see võrreldav populaarsete privaatsete suurte keelemudelitega, nagu Open AI GPT-3. Nagu varem märgitud, koosneb see ligikaudu 6 miljardist parameetrist ja 28 kihist, mis koosnevad edasisuunamisplokist ja enesetähelepanuplokist. Kui see esmakordselt välja anti, oli GPT-J üks esimesi suuri keelemudeleid, mida kasutati pöörlevad kinnitused, uus positsiooni kodeerimise strateegia, mis ühendab absoluutse ja suhtelise asukoha kodeerijad. See kasutab ka uuenduslikku paralleelstamisstrateegiat, kus tihedad ja edasisuunalised kihid on ühendatud ühte kihti, mis minimeerib side üldkulusid.

Kuigi GPT-J ei pruugi tänapäevaste standardite järgi nii suur olla – suured mudelid koosnevad tavaliselt enam kui 100 miljardist parameetrist –, on selle jõudlus siiski muljetavaldav ning kiire inseneritöö või minimaalse peenhäälestusega saate seda kasutada paljude probleemide lahendamiseks. Lisaks tähendab selle suhteliselt tagasihoidlik suurus, et saate seda kiiremini ja palju väiksemate kuludega kasutusele võtta kui suuremaid mudeleid.

See tähendab, et GPT-J on endiselt päris suur. Näiteks GPT-J treenimine FP32-s koos täismassi värskendustega ja Adam optimeerijaga nõuab üle 200 GB mälu: 24 GB mudeli parameetrite jaoks, 24 GB gradientide jaoks, 24 GB Adami ruudu gradientide jaoks, 24 GB optimeerija olekute jaoks, ja täiendavad mälunõuded treeningpakettide laadimiseks ja aktiveerimiste salvestamiseks. Muidugi vähendab FP16 treenimine neid mäluvajadusi peaaegu poole võrra, kuid üle 100 GB mälumaht nõuab siiski uuenduslikke treeningstrateegiaid. Näiteks koostöös SageMakeriga töötas Mantiumi NLP meeskond välja a töövoog GPT-J treenimiseks (peenhäälestamiseks), kasutades SageMakeri hajutatud mudeli paralleelteeki.

Seevastu GPT-J esitamisel järelduste tegemiseks on mälunõuded palju väiksemad – FP16 puhul võtavad mudelid alla 13 GB, mis tähendab, et järeldusi saab hõlpsasti teha ühe 16 GB GPU-ga. Kuid järeldused GPT-J kasutusel olevate rakenduste kohta, nagu Hugging Face Transformers täitmine mida me kasutame, on suhteliselt aeglane. Väga tundliku teksti genereerimist nõudvate kasutusjuhtude toetamiseks oleme keskendunud GPT-J järelduste latentsuse vähendamisele.

GPT-J vastuse latentsusalased väljakutsed

Reaktsiooni latentsus on peamiseks takistuseks generatiivsetele eelkoolitatud trafodele (GPT-d), nagu GPT-J, mis toidavad kaasaegset teksti genereerimist. GPT mudelid loovad teksti järeldussammude jadade kaudu. Igal järeldusetapil antakse mudelile tekst sisendiks ja selle sisendi tingimusel valib see oma sõnavarast sõna, et lisada tekstile. Näiteks kui võtta arvesse märkide jada "Mul on vihmavarju vaja, sest see on", võib suure tõenäosusega järgmine märk olla "vihma". Siiski võib see olla ka "päikseline" või "seotud", mis võib olla esimene samm sellise tekstijada suunas nagu "Mul on vaja vihmavarju, sest vihma hakkab sadama."

Sellised stsenaariumid tekitavad GPT-mudelite juurutamisel huvitavaid väljakutseid, kuna tegelikud kasutusjuhtumid võivad hõlmata kümneid, sadu või isegi tuhandeid järeldusetappe. Näiteks 1,000 märgiga vastuse genereerimiseks on vaja 1,000 järeldusetappi! Sellest tulenevalt, kuigi mudel võib pakkuda järelduskiirusi, mis eraldiseisvalt tunduvad piisavalt kiired, on pikkade tekstide genereerimisel lihtne latentsusaeg saavutada talumatu taseme. Me täheldasime V280 GPU puhul keskmist latentsust 100 millisekundit ühe järeldusetapi kohta. See võib 6.7 miljardi parameetriga mudeli puhul tunduda kiire, kuid sellise latentsusajaga kulub 30 märgiga vastuse genereerimiseks umbes 500 sekundit, mis pole kasutajakogemuse seisukohast ideaalne.

Järelduskiiruste optimeerimine funktsiooniga DeepSpeed Inference

DeepSpeed on Microsofti välja töötatud avatud lähtekoodiga süvaõppe optimeerimise raamatukogu. Kuigi see keskendub peamiselt suurte mudelite väljaõppe optimeerimisele, pakub DeepSpeed ka järelduste optimeerimise raamistikku, mis toetab valitud mudelite komplekti, sealhulgas BERT, Megatron, GPT-Neo, GPT2 ja GPT-J. DeepSpeed Inference hõlbustab suure jõudlusega järelduste tegemist suurte transformeripõhiste arhitektuuridega, kombineerides mudelite paralleelsust, järeldustele optimeeritud CUDA tuumasid ja kvantiseerimist.

Järelduskiiruse suurendamiseks GPT-J-ga kasutame DeepSpeedi järeldusmootorit, et sisestada optimeeritud CUDA tuumad Hugging Face Transformersi GPT-J juurutusse.

DeepSpeedi järeldusmootori kiiruse eeliste hindamiseks viisime läbi rea latentsusteste, mille käigus ajastati GPT-J erinevate konfiguratsioonide korral. Täpsemalt muutsime seda, kas DeepSpeedit kasutati või mitte, riistvara, väljundjada pikkust ja sisendjada pikkust. Keskendusime nii väljundi kui ka sisendi jada pikkusele, kuna need mõlemad mõjutavad järelduste kiirust. 50 märgist koosneva väljundjada genereerimiseks peab mudel sooritama 50 järeldusetappi. Lisaks sõltub järeldusetapi sooritamiseks kuluv aeg sisendjada suurusest – suuremad sisendid nõuavad rohkem töötlemisaega. Kuigi väljundjada suuruse mõju on palju suurem kui sisendjada suuruse mõju, on siiski vaja arvestada mõlema teguriga.

Oma katses kasutasime järgmist kujundust:

DeepSpeed järeldusmootor - Sisse välja
riistvara – T4 (ml.g4dn.2xlarge), V100 (ml.p3.2xlarge)
Sisestusjärjestuse pikkus - 50, 200, 500, 1000
Väljundjada pikkus - 50, 100, 150, 200

Kokku on sellel kujundusel nende nelja teguri 64 kombinatsiooni ja iga kombinatsiooni jaoks viisime läbi 20 latentsustesti. Iga test viidi läbi eelinitsialiseeritud SageMakeri järelduse lõpp-punktis, tagades, et meie latentsustestid kajastavad tootmisaegu, sealhulgas API vahetusi ja eeltöötlust.

Meie testid näitavad, et DeepSpeedi GPT-J järeldusmootor on oluliselt kiirem kui Hugging Face Transformers PyTorchi juurutus. Järgmine joonis illustreerib GPT-J keskmisi teksti genereerimise latentsusaegasid koos DeepSpeedi kiirendusega ja ilma selleta SageMakeri järelduste lõpp-punktidel ml.g4dn.2xlarge ja ml.p3.2xlarge.

Eksemplari ml.g4dn.2xlarge puhul, mis on varustatud 16 GB NVIDIA T4 GPU-ga, täheldasime keskmise latentsusaja vähenemist ligikaudu 24% [standardhälve (SD) = 0.05]. See vastas keskmiselt 12.5 (SD = 0.91) märgilt sekundis keskmisele 16.5 (SD = 2.13) märgile sekundis. Märkimisväärne on see, et DeepSpeedi kiirendusefekt oli veelgi tugevam ml.p3.2xlarge eksemplari puhul, mis on varustatud NVIDIA V100 GPU-ga. Selle riistvara puhul täheldasime keskmise latentsusaja vähenemist 53% (SD = 07). Märkide arvu osas sekundis vastas see suurenemisele keskmiselt 21.9 (SD = 1.97) märgilt sekundis keskmisele 47.5 (SD = 5.8) märgile sekundis.

Samuti täheldasime, et DeepSpeedi pakutav kiirendus nõrgenes pisut mõlema riistvarakonfiguratsiooni puhul, kuna sisendjadade suurus kasvas. Kuid kõigis tingimustes oli DeepSpeedi GPT-J optimeerimise järeldamine siiski oluliselt kiirem kui algtasemel. Näiteks g4dn eksemplaris olid latentsusaja maksimaalne ja minimaalne vähenemine vastavalt 31% (sisendjada suurus = 50) ja 15% (sisendjada suurus = 1000). Ja p3 eksemplaril olid latentsusaja maksimaalne ja minimaalne vähenemine vastavalt 62% (sisendjada suurus = 50) ja 40% (sisendjada suurus = 1000).

GPT-J juurutamine DeepSpeediga SageMakeri järelduse lõpp-punktis

Lisaks GPT-J teksti genereerimise kiiruse järsule suurendamisele on DeepSpeedi järeldusmootorit lihtne SageMakeri järelduse lõpp-punkti integreerida. Enne DeepSpeedi lisamist meie järelduste virnale töötasid meie lõpp-punktid kohandatud Dockeri pildil, mis põhines ametlikul PyTorchi pildil. SageMaker muudab kohandatud järelduste lõpp-punktide juurutamise väga lihtsaks ja DeepSpeedi integreerimine oli sama lihtne kui sõltuvuse lisamine ja mõne koodirea kirjutamine. Avatud lähtekoodiga juhend juurutamise töövoo kohta GPT-J juurutamiseks DeepSpeediga on saadaval aadressil GitHub.

Järeldus

Mantium on pühendunud innovatsiooni juhtimisele, et kõik saaksid tehisintellektiga kiiresti ehitada. Alates AI-põhisest protsesside automatiseerimisest kuni rangete ohutus- ja vastavussäteteni – meie täielik platvorm pakub kõiki tööriistu, mis on vajalikud tugevate ja vastutustundlike tehisintellekti rakenduste ulatuslikuks arendamiseks ja haldamiseks ning alandab sisenemisbarjääri. SageMaker aitab sellistel ettevõtetel nagu Mantium kiiresti turule jõuda.

Lisateavet selle kohta, kuidas Mantium saab aidata teil luua keerukaid AI-põhiseid töövooge teie organisatsiooni jaoks, külastage www.mantiumai.com.

Autoritest

Joe Hoover on Mantiumi AI uurimis- ja arendusmeeskonna vanemrakendusteadlane. Ta on kirglik arendada mudeleid, meetodeid ja infrastruktuuri, mis aitavad inimestel tipptasemel NLP-süsteemidega lahendada reaalseid probleeme. Vabal ajal naudib ta seljakotireisimist, aiatööd, kokkamist ja perega aega veetmist.

Dhawal Patel on AWS-i peamine masinõppearhitekt. Ta on töötanud hajutatud andmetöötluse ja tehisintellektiga seotud probleemide lahendamisel organisatsioonidega alates suurettevõtetest kuni keskmise suurusega idufirmadeni. Ta keskendub süvaõppele, sealhulgas NLP ja Computer Vision domeenidele. Ta aitab klientidel teha SageMakeris suure jõudlusega mudeli järeldusi.

Sunil Padmanabhan on AWS-i käivituslahenduste arhitekt. Endise idufirma asutajana ja tehnoloogiajuhina suhtub ta kirglikult masinõppesse ning keskendub sellele, et aidata idufirmadel AI/ML-i oma äritulemuste saavutamiseks kasutada ning ML/AI-lahendusi ulatuslikult kavandada ja juurutada.

Ajatempel: Juuni 15, 2022

Ajatempel: Veebruar 6, 2024

Kuidas Mantium saavutab madala latentsusega GPT-J järelduse rakendusega Amazon SageMaker DeepSpeediga

Taasavaldanud Platon

Ülevaade GPT-J mudelist

GPT-J vastuse latentsusalased väljakutsed

Järelduskiiruste optimeerimine funktsiooniga DeepSpeed Inference

GPT-J juurutamine DeepSpeediga SageMakeri järelduse lõpp-punktis

Järeldus

Autoritest

Veel alates AWS-i masinõpe

Tutvustame Fortunat: raamatukogu määramatuse kvantifitseerimiseks

Meist

Vertikaalne otsing ja Ai

Platvorm

Püsi ühenduses

konto

Ülevaade GPT-J mudelist

GPT-J vastuse latentsusalased väljakutsed

Järelduskiiruste optimeerimine funktsiooniga DeepSpeed ​​Inference

GPT-J juurutamine DeepSpeediga SageMakeri järelduse lõpp-punktis

Järeldus

Autoritest

Veel alates AWS-i masinõpe

Meist

Vertikaalne otsing ja Ai

Platvorm

Püsi ühenduses

konto

Järelduskiiruste optimeerimine funktsiooniga DeepSpeed Inference