Technology Innovation Institute trener den toppmoderne Falcon LLM 40B Foundation Model på Amazon SageMaker

Publisert av Platon

Følgere: 0

Dette blogginnlegget er skrevet sammen med Dr. Ebtesam Almazrouei, administrerende direktør – fungerende sjef for AI-forsker ved AI-Cross Center Unit og prosjektleder for LLM-prosjekter ved TII.

De forente arabiske emirater (UAE) Technology Innovation Institute (TII), den anvendte forskningspilaren i Abu Dhabi Forskningsrådet for avansert teknologi, har lansert Falcon LLM, en grunnleggende storspråkmodell (LLM) med 40 milliarder parametere. TII er et ledende globalt forskningssenter dedikert til å skyve grensene for kunnskap. TIIs team av forskere, forskere og ingeniører jobber for å levere oppdagelsesvitenskap og transformativ teknologi. TIIs arbeid fokuserer på gjennombrudd som vil fremtidssikre samfunnet vårt. trent på 1 billion tokens, TII Falcon LLM har førsteklasses ytelse samtidig som den forblir utrolig kostnadseffektiv. Falcon-40B matcher ytelsen til andre høyytende LLM-er, og er den topprangerte åpen kildekode-modellen i offentligheten Hugging Face Open LLM leaderboard. Den er tilgjengelig som åpen kildekode i to forskjellige størrelser – Falcon-40B og Falcon-7B og ble bygget fra bunnen av ved hjelp av dataforbehandling og modellopplæringsjobber bygget på Amazon SageMaker. Open-sourcing Falcon 40B gjør det mulig for brukere å konstruere og tilpasse AI-verktøy som imøtekommer unike brukerbehov, noe som letter sømløs integrasjon og sikrer langsiktig bevaring av dataressurser. Modellvektene er tilgjengelige for nedlasting, inspeksjon og distribusjon hvor som helst.

Fra og med 7. juni vil begge Falcon LLM-ene også være tilgjengelige i Amazon SageMaker JumpStart, SageMakers maskinlæringssenter (ML) som tilbyr forhåndsopplærte modeller, innebygde algoritmer og forhåndsbygde løsningsmaler for å hjelpe deg raskt å komme i gang med ML. Du kan distribuere og bruke Falcon LLM-ene med noen få klikk inn SageMaker Studio eller programmatisk gjennom SageMaker Python SDK. For å distribuere og kjøre slutninger mot Falcon LLM-er, se Introduksjon til SageMaker JumpStart – Tekstgenerering med Falcon LLM-er eksempel notatbok.

Technology Innovation Institute trener den toppmoderne Falcon LLM 40B-fundamentmodellen på Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Dr. Ebtesam Almazrouei, administrerende direktør – fungerende sjef for AI-forsker ved AI-Cross Center Unit og prosjektleder for LLM-prosjekter ved TII, deler:

"Vi kunngjør stolt den offisielle åpen kildekode-utgivelsen av Falcon-40B, verdens topprangerte åpen kildekode-språkmodell. Falcon-40B er en eksepsjonell åpen kildekode-modell med 40B-parametere, spesielt utformet som en kausal dekodermodell. Den ble trent på et stort datasett med 1,000B tokens, inkludert RefinedWeb forbedret med kuraterte korpus. Modellen er gjort tilgjengelig under Apache 2.0-lisensen, noe som sikrer tilgjengelighet og brukervennlighet. Falcon-40B har overgått kjente modeller som LLaMA-65B, StableLM og MPT på den offentlige ledertavlen vedlikeholdt av Hugging Face. Arkitekturen til Falcon-40B er optimert for inferens, og inkluderer FlashAttention og multiquery-teknikker."

"Dette trinnet gjenspeiler vår dedikasjon til å flytte grensene for AI-innovasjon og teknologiberedskapsnivå for samfunnsengasjement, utdanning, applikasjoner i den virkelige verden og samarbeid. Fortsetter Dr Ebtesam. «Ved å slippe Falcon-40B som en åpen kildekode-modell, gir vi forskere, gründere og organisasjoner muligheten til å utnytte dens eksepsjonelle evner og drive fremskritt innen AI-drevne løsninger fra helsevesen til romfart, finans, produksjon til bioteknologi; mulighetene for AI-drevne løsninger er grenseløse. For å få tilgang til Falcon-40B og utforske dets bemerkelsesverdige potensial, vennligst besøk FalconLLM.tii.ae. Bli med oss i å utnytte kraften til Falcon-40B for å forme fremtiden til kunstig intelligens og revolusjonere industrien."

I dette innlegget dykker vi dypt med Dr. Almazrouei om Falcon LLM-opplæring på SageMaker, datakurering, optimalisering, ytelse og neste trinn.

En ny generasjon LLM-er

LLM-er er programvarealgoritmer som er trent til å fullføre naturlige tekstsekvenser. På grunn av størrelsen og volumet av treningsdata de samhandler med, har LLM-er imponerende tekstbehandlingsevner, inkludert oppsummering, svar på spørsmål, læring i kontekst og mer.

Tidlig i 2020 la forskningsorganisasjoner over hele verden vekt på modellstørrelse, og observerte at nøyaktigheten korrelerte med antall parametere. For eksempel har GPT-3 (2020) og BLOOM (2022) rundt 175 milliarder parametere, Gopher (2021) har 230 milliarder parametere og MT-NLG (2021) 530 milliarder parametere. I 2022, Hoffman et al. observerte at den nåværende balansen av beregning mellom modellparametere og datasettstørrelse var suboptimal, og publiserte empiriske skaleringslover som antydet at balansering av beregningsbudsjettet mot mindre modeller trent på mer data kan føre til modeller med bedre resultater. De implementerte veiledningen sin i 70B-parameteren Chinchilla (2022)-modellen, som overgikk mye større modeller.

LLM opplæring på SageMaker

SageMaker er en samling administrerte API-er for utvikling, opplæring, tuning og hosting av maskinlæringsmodeller (ML), inkludert LLM-er. Mange kunder stoler på SageMaker for sine LLM-arbeidsmengder, som f.eks Stabilitet AI, AI21 Labs, Klemme ansiktetog LG AI. SageMaker opplæring bestemmelser beregner klynger med brukerdefinert maskinvarekonfigurasjon og kode. Beregningsjobber faktureres per kjøring, proporsjonalt med den andre, noe som betyr at brukere ikke belastes for GPU-kapasitet når de ikke bruker tjenesten. TII brukte forbigående klynger levert av SageMaker Training API for å trene Falcon LLM, opptil 48 ml.p4d.24xlarge forekomster, samlet i 384 NVIDIA A100 GPUer. Nå trener TII neste Falcon LLM og skalert opplæringen deres til 3,136 A100 GPU (392 ml.p4d-forekomster).

En enestående mengde tilpassede innovasjoner gikk inn i alle lag av prosjektet for å heve nivået for vitenskapelig kvalitet og treningshastighet. I de neste avsnittene beskriver vi optimaliseringene TII utført på alle lag av treningssystemet for dyp læring (DL).

Skalerbar datakurering

Siste generasjons LLM-er får sin styrke fra størrelsen og kvaliteten på treningsdata. Teamet legger særlig vekt på håndverket av et høykvalitets billion-tokens datasett. Flere SageMaker Training CPU-jobber forvandlet petabyte med billige, skalerbare nettdata til et kuratert, trygt opplæringsdatasett. Automatiserte systemer filtrerte og dedupliserte dataene; for eksempel ble ML-klassifiserere brukt til å filtrere banning. CPU-jobber som kjører på ml.c5.18xlarge (72 vCPUer, 144 GB RAM) ble instansiert i noen få API-kall via SageMaker Training for å kjøre datatransformasjonsoppgaver. Teamet brukte både enkelt-forekomst og multi-instans CPU-jobber for forskjellige brukstilfeller. Noen av disse jobbene brukte hundrevis av parallelle deler-ingenting-arkitektur (SNA)-jobber, hver på en enkelt maskin, og for oppgaver som krever synkronisering mellom ansatte, lanserte teamet flerinstansjobber, og samlet seg i dusinvis av forekomster og tusenvis av vCPUer. Anekdotisk, på en nedstrøms datasettforberedelsesoppgave, gikk teamet opp til 257 ml.c5.18xlarge i en enkelt SageMaker Training-jobb, og samlet i 18,504 37 vCPU og XNUMX TB minne.

Maksimerer treningsgjennomstrømningen

For å minimere både treningskostnader og time-to-market, fulgte teamet flere retninger for optimalisering for å akselerere treningshastigheten proporsjonalt med treningssymboler behandlet per sekund og målt i TFLOPs/GPU. Teamet brukte et fullstendig tilpasset 3D-parallellt LLM-treningsrammeverk, med tilpassede optimaliserte lag skrevet i kompilert GPU-kode. Teamet gikk så langt som å skrive sin egen tilpassede matrisemultiplikasjonsimplementering for å få ytterligere fart! Teamet utviklet også logikk som tilpasser parallell kommunikasjon til den underliggende nettverkstopologien. Under deres innledende skaleringseksperimenter var TII i stand til å nå 166 TFLOPs/GPU på en 147B-modell på 256 GPUer, og 173 TFLOPs/GPU på en 13B-modell på 16 GPUer, etter vår kunnskap de raskeste kjente TFLOP-modellene oppnådd i skyen på tidspunktet for testen på slutten av 2022.

Serverløs lagring

LLM-trening er lagringsintensiv; flere terabyte med treningsdata må kanaliseres til treningsklyngen, og flere terabyte med modellsjekkpunkter reiser regelmessig tilbake fra klyngen til den permanente lagringen. Kontrollpunkter må også nå treningsklyngen så raskt som mulig ved gjenstart av jobb. I tradisjonell high-performance computing (HPC) er databehandlingsnoder koblet til distribuerte filsystemer, som gir høy ytelse I/O og gjennomstrømning via et POSIX-lignende grensesnitt. I AWS bruker kundene regelmessig Amazon FSx for Luster filsystem for dette formålet (for flere detaljer, se Fremskynde opplæringen på Amazon SageMaker ved bruk av Amazon FSx for Luster og Amazon EFS-filsystemer), og vi dokumenterte også den selvstyrte bruken av BeeGFS i en distribuert datasyn case-studie. På grunn av deres fokus på kostnader og operativ enkelhet, bestemte teamet seg for ikke å implementere og drifte filsystemservere, men tok i stedet opp utfordringen med å bygge utelukkende på toppen av serverløs objektlagring Amazon enkel lagringstjeneste (Amazon S3). En tilpasset S3-datasettklasse ble bygget ved å bruke AWS SDK for Python (Boto3), og ga tilfredsstillende ytelse samtidig som det gjorde det mulig for forskerne å iterere autonomt på I/O-teknikk og modellvitenskap innenfor samme kodebase.

Innovasjon på klientsiden

Et LLM-prosjekt består sjelden av en enkelt treningsjobb; mange jobber er nødvendig for å gjennomføre innledende tester og erfaringer. I løpet av hovedproduksjonsopplæringen kan flere jobber lenkes sammen, for eksempel for å oppdatere konfigurasjon eller programvareversjoner, distribuere patcher eller gjenopprette fra feil. Forskere fra TII utførte betydelig prosjektering for å bygge tilpassede kunder tilpasset LLM-trening. En lanseringsklient ble bygget på toppen av SageMaker Training SDK for å pakke sammen flere funksjoner i én kommando, for eksempel kodeversjon, Docker-bildebygging og jobblansering. I tillegg er en AWS Lambda serverløs databehandlingsfunksjon ble utviklet for å overvåke, overvåke og gripe inn på jobber etter behov.

Bruke Slack-roboter for slutningskvalitetsrevisjoner

Mot slutten av treningen implementerte teamet modellen på en intern SageMaker Hosting GPU-endepunkt for sanntidsinteraksjon. Teamet gikk så langt som å lage en Slack-bot å dialog med, for å få realistiske tilbakemeldinger og kjøre kvalitative kvalitetsrevisjoner av modellen.

Opplæring og ytelsesovervåking

Å trene en LLM krever store mengder beregningsressurser, inkludert CPU, GPU og minneressurser. Derfor trengte TII å overvåke ytelsen og hviletiden til treningsjobben for å sikre optimal utnyttelse av beregningsressursene og deres kostnadseffektivitet.

For å bygge en automatisert overvåkingsløsning brukte TII Amazon CloudWatch alarmer for å overvåke bruken av GPU, CPU og minne for treningsjobbene. CloudWatch samler inn rådata og behandler dem til lesbare, nesten sanntidsmålinger fra de underliggende containerforekomstene som brukes i SageMaker Training-jobben. Etter det setter vi terskelverdier for hver av disse beregningene, og hvis en beregning faller under terskelen, utløses en alarm. Denne alarmen varsler TIIs team om lav ressursutnyttelse, slik at de kan ta korrigerende tiltak for å rette opp ressursutnyttelsesbegrensninger.

I tillegg til å overvåke ressursutnyttelsen, kan TII også overvåke hviletiden til treningsjobbressursene. Hvis treningsjobbressursene var inaktive i en lengre periode, kan det indikere en flaskehals på et hvilket som helst stadium av opplæringssyklusen og kreve manuell undersøkelse. I noen tilfeller var ressursutnyttelsen fortsatt relativt optimal, men selve treningsprosessen gikk ikke videre. For disse tilfellene har TII integrerte CloudWatch-alarmer med Lambda-funksjoner for å spørre og lese de genererte treningsloggene, og deretter utføre automatiske handlinger basert på enten den genererte feilen eller ledigheten til logggenereringsprosessen (klyngen stanses). Alarmen utløser en handling for å stoppe treningsjobben, som sikrer at TII ikke pådrar seg unødvendige kostnader når ressursene ikke ble utnyttet.

konklusjonen

Ved å bruke SageMaker sammen med proprietær, tilpasset innovasjon, var TII i stand til å trene opp en modell som er state-of-the-art i flere dimensjoner: teknologisk gjennombrudd, vitenskapelig kvalitet, treningshastighet og også operasjonell enkelhet.

"Å slippe UAEs Falcon 40B, verdens topprangerte Open Source AI-modell, illustrerer teknologiledelsen og baner vei for AI-drevet innovasjon i regiion» indikerer Dr. Ebtesam Almazrouei; legger til at "vi viser vår forpliktelse til målene skissert i National AI Strategy 2031. Vårt aktive engasjement i globale teknologiske fremskritt, representert ved Falcon-40B, spiller en avgjørende rolle i vår streben etter en kunnskapsbasert økonomi. Gjennom investeringer og utvikling i AI-løsninger tar vi sikte på å skape nye muligheter for økonomisk vekst, sosial fremgang og pedagogiske fremskritt.

«Åpen kildekode-naturen til Falcon-40B gjenspeiler vår dedikasjon til samarbeid, åpenhet, innovasjon og forskning innen AI. Vi tror på å demokratisere avansert AI-teknologi, og gjøre Falcon-40B tilgjengelig for forskere og organisasjoner over hele verden.»

"Når vi ser fremover, vil vi fortsette å bidra til AI og teknologiske fremskritt, med kommende modeller i pipelinen. Dessuten vil vi aktivt fremme innføringen av avansert AI-teknologi i organisasjoner og virksomheter i landet vårt, og fremme vekst og velstand i tråd med våre strategiske mål."

– Dr. Almazrouei

For å lære mer om Falcon LLM, sjekk ut nettsiden FalconLLM.tii.ae og modellkortet på Hugging Face!

Om forfatterne

Dr. Ebtesam Almazrouei er administrerende direktør-fungerende sjef for AI-forsker og grunnlegger av Al-Cross Center Unit ved Technology Innovation Institute (TII). Som grunnlegger av Al-Cross Center Unit ved Technology Innovation Institute (TII), har Dr. Almazrouei spilt en sentral rolle i utformingen av TIIs AI-evner. Hennes strategiske visjon og ekspertise innen AI og maskinlæring har gitt henne makt til å lede banebrytende forskningsinitiativer og fremme tverrfunksjonelle samarbeid, noe som resulterer i levering av innovative AI-løsninger på tvers av flere bransjer.

En av Dr. Almazroueis bemerkelsesverdige prestasjoner er hennes instrumentelle rolle i utviklingen av Falcon 40B, en banebrytende LLM som har høstet global anerkjennelse. Falcon 40Bs eksepsjonelle ytelse har rangert den som nummer én LLM globalt på Hugging Faces ledertavle i mai 2023. I tillegg ledet hun utviklingen av Noor, verdens største arabiske store språkmodell (LLM) utgitt i april 2022.

Dr. Almazrouei er anerkjent over hele verden for sine bidrag til AI og ble omtalt på listen Leading AI Women in the World i 2023, sammen med andre fremstående kvinner på området. Hun er også en talsmann for bærekraft og AI for Good-initiativer, samt leder av Abu Dhabi AI Connect og TPC-leder for mange IEEE internasjonale konferanser.

Bidragene hennes strekker seg utover arbeidet hennes på TII, hvor hun leder underutvalget for stordataeksperter til UAE Council for AI og Blockchain og er medlem av den verdensomspennende styringsgruppen til Wireless World Research Forum (WWRF). Hun er en vitenskapelig forfatter, patentoppfinner, gründer og anerkjent foredragsholder, kjent for sine hovedtaler på prestisjetunge toppmøter som AI Summit i London, World AI Cannes Festival og Tech-toppmøter.

Will Badr er Sr. Manager AI/ML Solutions Architects basert i Dubai – UAE som jobber som en del av det globale Amazon Machine Learning-teamet. Will brenner for å bruke teknologi på innovative måter for å påvirke samfunnet positivt. På fritiden liker han å dykke, spille fotball og utforske Stillehavsøyene.

Olivier Cruchant er en maskinlæringsspesialist løsningsarkitekt ved AWS, basert i Frankrike. Olivier hjelper AWS-kunder – fra små startups til store bedrifter – med å utvikle og distribuere maskinlæringsapplikasjoner i produksjonsgrad. På fritiden liker han å lese forskningsartikler og utforske villmarken med venner og familie.