Technology Innovation Institute træner den avancerede Falcon LLM 40B Foundation Model på Amazon SageMaker

Genudgivet af Platon

Abonnenter: 0

Dette blogindlæg er skrevet i samarbejde med Dr. Ebtesam Almazrouei, administrerende direktør-fungerende Chief AI Researcher i AI-Cross Center Unit og projektleder for LLM-projekter hos TII.

De Forenede Arabiske Emirater (UAE) Technology Innovation Institute (TII), den anvendte forskningssøjle i Abu Dhabi Forskningsrådet for Højteknologi, har lanceret Falcon LLM, en grundlæggende stor sprogmodel (LLM) med 40 milliarder parametre. TII er et førende globalt forskningscenter dedikeret til at rykke grænserne for viden. TII's team af videnskabsmænd, forskere og ingeniører arbejder på at levere opdagelsesvidenskab og transformative teknologier. TII's arbejde fokuserer på gennembrud, der vil fremtidssikre vores samfund. Trænet på 1 trillion tokens, TII Falcon LLM kan prale af førsteklasses ydeevne, mens den forbliver utrolig omkostningseffektiv. Falcon-40B matcher ydeevnen af andre højtydende LLM'er og er den toprangerede open source-model i offentligheden Hugging Face Open LLM leaderboard. Den er tilgængelig som open source i to forskellige størrelser – Falcon-40B og Falcon-7B og blev bygget fra bunden ved hjælp af dataforbehandling og modeltræningsjob bygget på Amazon SageMaker. Open-sourcing Falcon 40B gør det muligt for brugere at konstruere og tilpasse AI-værktøjer, der imødekommer unikke brugerbehov, hvilket letter problemfri integration og sikrer langsigtet bevarelse af dataaktiver. Modelvægtene er tilgængelige til at downloade, inspicere og installere hvor som helst.

Fra den 7. juni vil begge Falcon LLM'er også være tilgængelige i Amazon SageMaker JumpStart, SageMakers machine learning (ML) hub, der tilbyder forudtrænede modeller, indbyggede algoritmer og forudbyggede løsningsskabeloner for at hjælpe dig hurtigt i gang med ML. Du kan implementere og bruge Falcon LLM'erne med et par klik ind SageMaker Studio eller programmæssigt gennem SageMaker Python SDK. For at implementere og køre inferens mod Falcon LLM'er, se Introduktion til SageMaker JumpStart – Tekstgenerering med Falcon LLM'er eksempel notesbog.

Technology Innovation Institute trains the state-of-the-art Falcon LLM 40B foundation model on Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Dr. Ebtesam Almazrouei, administrerende direktør – fungerende AI-chef for AI-Cross Center Unit og projektleder for LLM-projekter hos TII, deler:

"Vi annoncerer stolt den officielle open source-udgivelse af Falcon-40B, verdens toprangerende open source-sprogmodel. Falcon-40B er en exceptionel open source-model med 40B parametre, specifikt designet som en kausal dekoder-only model. Det blev trænet på et stort datasæt af 1,000B tokens, inklusive RefinedWeb forbedret med kuraterede korpus. Modellen er gjort tilgængelig under Apache 2.0-licensen, hvilket sikrer dens tilgængelighed og brugervenlighed. Falcon-40B har overgået kendte modeller som LLaMA-65B, StableLM og MPT på den offentlige rangliste, der vedligeholdes af Hugging Face. Arkitekturen af Falcon-40B er optimeret til inferens, inkorporerer FlashAttention og multiquery-teknikker."

"Dette trin afspejler vores dedikation til at skubbe grænserne for AI-innovation og teknologiberedskabsniveau for samfundsengagement, uddannelse, applikationer i den virkelige verden og samarbejde. Fortsætter Dr Ebtesam. "Ved at frigive Falcon-40B som en open source-model giver vi forskere, iværksættere og organisationer mulighed for at udnytte dens exceptionelle evner og drive fremskridt inden for AI-drevne løsninger fra sundhedspleje til rumfart, finans, produktion til biotek; mulighederne for AI-drevne løsninger er uendelige. For at få adgang til Falcon-40B og udforske dets bemærkelsesværdige potentiale, besøg venligst FalconLLM.tii.ae. Vær med til at udnytte Falcon-40B's kraft til at forme fremtiden for kunstig intelligens og revolutionere industrier"

I dette indlæg dykker vi dybt sammen med Dr. Almazrouei om Falcon LLM-træning på SageMaker, datakurering, optimering, ydeevne og næste trin.

En ny generation af LLM'er

LLM'er er softwarealgoritmer, der er trænet til at fuldføre naturlige tekstsekvenser. På grund af deres størrelse og mængden af træningsdata, de interagerer med, har LLM'er imponerende tekstbehandlingsevner, herunder opsummering, besvarelse af spørgsmål, læring i kontekst og mere.

I begyndelsen af 2020 lagde forskningsorganisationer over hele verden vægt på modelstørrelse og observerede, at nøjagtigheden korrelerede med antallet af parametre. For eksempel har GPT-3 (2020) og BLOOM (2022) omkring 175 milliarder parametre, Gopher (2021) har 230 milliarder parametre og MT-NLG (2021) 530 milliarder parametre. I 2022, Hoffman et al. observerede, at den nuværende balance mellem beregninger mellem modelparametre og datasætstørrelse var suboptimal, og publicerede empiriske skaleringslove, der tyder på, at afbalancering af beregningsbudgettet mod mindre modeller trænet på flere data kunne føre til modeller med bedre resultater. De implementerede deres vejledning i 70B parameter Chinchilla (2022) modellen, der klarede sig bedre end meget større modeller.

LLM uddannelse på SageMaker

SageMaker er en samling af administrerede API'er til udvikling, træning, tuning og hosting af maskinlæringsmodeller (ML), inklusive LLM'er. Talrige kunder stoler på SageMaker for deres LLM-arbejdsbelastninger, som f.eks Stabilitet AI, AI21 Labs, Knusende ansigtog LG AI. SageMaker uddannelse provisioner beregner klynger med brugerdefineret hardwarekonfiguration og kode. Beregningsjob faktureres pr. kørsel, forholdsmæssigt til den anden, hvilket betyder, at brugere ikke opkræves for GPU-kapacitet, når de ikke bruger tjenesten. TII brugte transiente klynger leveret af SageMaker Training API til at træne Falcon LLM, op til 48 ml.p4d.24xlarge instanser, kumuleret i 384 NVIDIA A100 GPU'er. Nu træner TII den næste Falcon LLM og har skaleret deres træning til 3,136 A100 GPU (392 ml.p4d-forekomster).

En hidtil uset mængde af tilpassede innovationer gik ind i alle lag af projektet for at hæve niveauet for videnskabelig kvalitet og træningshastighed. I de næste afsnit beskriver vi de optimeringer TII, der er udført på alle lag af deep learning (DL) træningssystemet.

Skalerbar datakurering

Seneste generation af LLM'er får deres styrke fra størrelsen og kvaliteten af træningsdata. Holdet lægger særlig vægt på håndværket af et højkvalitets-billion-tokens-datasæt. Adskillige SageMaker Training CPU-job transformerede petabytes af billige, skalerbare webdata til et kurateret, sikkert træningsdatasæt. Automatiserede systemer filtrerede og deduplikerede dataene; for eksempel blev ML-klassifikatorer brugt til at filtrere bandeord. CPU-job, der kørte på ml.c5.18xlarge (72 vCPU'er, 144 GB RAM) blev instantieret i nogle få API-kald via SageMaker Training for at køre datatransformationsopgaver. Teamet brugte både enkelt-forekomster og multi-instans CPU-job til forskellige anvendelsestilfælde. Nogle af disse job brugte hundredvis af parallelle share-nothing-arkitektur-job (SNA), hver på en enkelt maskine, og til opgaver, der kræver synkronisering mellem medarbejdere, lancerede teamet multi-instance-job, der kumulerede i snesevis af forekomster og tusindvis af vCPU'er. Anekdotisk, på en downstream-datasætforberedelsesopgave, gik holdet op til 257 ml.c5.18xlarge i et enkelt SageMaker Training-job, der kumulerede i 18,504 vCPU og 37 TB hukommelse.

Maksimering af træningsgennemstrømning

For at minimere både træningsomkostninger og time-to-market, forfulgte holdet flere optimeringsretninger for at accelerere træningshastigheden proportionalt med træningstokens behandlet pr. sekund og målt i TFLOP'er/GPU. Holdet brugte en fuldt tilpasset 3D-parallel LLM-træningsramme, med brugerdefinerede optimerede lag skrevet i kompileret GPU-kode. Holdet gik så langt som at skrive deres egen tilpassede matrixmultiplikationsimplementering for at få yderligere hastighed! Holdet udviklede også logik, der tilpasser parallel kommunikation til den underliggende netværkstopologi. Under deres indledende skaleringseksperimenter var TII i stand til at nå 166 TFLOP'er/GPU'er på en 147B-model på 256 GPU'er og 173 TFLOP'er/GPU'er på en 13B-model på 16 GPU'er, efter vores viden den hurtigst kendte TFLOP-model opnået i skyen kl. tidspunktet for testen i slutningen af 2022.

Serverløs lagring

LLM uddannelse er lagerintensiv; flere terabyte træningsdata skal kanaliseres til træningsklyngen, og adskillige terabyte modelcheckpoints rejser regelmæssigt tilbage fra klyngen til det permanente lager. Kontrolpunkter skal også nå uddannelsesklyngen så hurtigt som muligt i tilfælde af genstart af jobbet. I traditionel high-performance computing (HPC) er computing noder forbundet til distribuerede filsystemer, som giver højtydende I/O og gennemløb via en POSIX-lignende grænseflade. I AWS bruger kunderne jævnligt Amazon FSx til Luster filsystem til dette formål (for flere detaljer, se Fremskynd træningen på Amazon SageMaker ved at bruge Amazon FSx til Luster og Amazon EFS filsystemer), og vi dokumenterede også den selvstyrede brug af BeeGFS i et distribueret computersyn-casestudie. På grund af deres fokus på omkostninger og operativ enkelhed besluttede teamet ikke at implementere og drive filsystemservere, men tog i stedet udfordringen op med udelukkende at bygge oven på serverløs objektlagring Amazon Simple Storage Service (Amazon S3). En tilpasset S3-datasætklasse blev bygget ved hjælp af AWS SDK for Python (Boto3), og gav tilfredsstillende ydeevne, samtidig med at forskerne kunne iterere autonomt på I/O-teknik og modelvidenskab inden for den samme kodebase.

Innovation på klientsiden

Et LLM-projekt består sjældent af et enkelt uddannelsesjob; talrige job er nødvendige for at udføre indledende tests og erfaringer. I løbet af den primære produktionstræning kan flere job kædes sammen, for eksempel for at opdatere konfiguration eller softwareversioner, implementere patches eller gendanne fejl. Forskere fra TII udførte betydelig ingeniørarbejde for at bygge brugerdefinerede kunder tilpasset til LLM-træning. En launcher-klient blev bygget oven på SageMaker Training SDK for at pakke flere funktioner sammen i én kommando, for eksempel kodeversionering, Docker-billedbygning og joblancering. Derudover en AWS Lambda serverløs beregningsfunktion blev designet til at overvåge, overvåge og gribe ind i job efter behov.

Brug af Slack-bots til slutningskvalitetsrevisioner

Mod slutningen af træningen implementerede teamet modellen på en intern SageMaker Hosting GPU-endepunkt til interaktion i realtid. Teamet gik så langt som at skabe en Slack-bot at dialog med, for at få realistisk feedback og køre kvalitative kvalitetsaudits af modellen.

Træning og præstationsovervågning

Træning af en LLM kræver store mængder beregningsressourcer, herunder CPU, GPU og hukommelsesressourcer. Derfor var TII nødt til at overvåge træningsjobbets ydeevne og ledig tid for at sikre optimal udnyttelse af beregningsressourcerne og deres omkostningseffektivitet.

Til at bygge en automatiseret overvågningsløsning, brugte TII amazoncloudwatch alarmer for at overvåge udnyttelsen af GPU, CPU og hukommelse til træningsjob. CloudWatch indsamler rådata og behandler dem til læsbare, næsten-realtidsmålinger fra de underliggende containerforekomster, der bruges i SageMaker Training-jobbet. Derefter sætter vi tærskler for hver af disse metrikker, og hvis en metrik falder under tærsklen, udløses en alarm. Denne alarm giver TII's team besked om den lave ressourceudnyttelse, hvilket giver dem mulighed for at foretage korrigerende handlinger for at rette op på ressourceudnyttelsesbegrænsninger.

Ud over at overvåge ressourceudnyttelsen kunne TII også overvåge den ledige tid af træningsjobressourcerne. Hvis træningsjobressourcerne var inaktive i en længere periode, kunne det indikere en flaskehals på et hvilket som helst trin i træningscyklussen og kræve manuel undersøgelse. I nogle tilfælde var ressourceudnyttelsen stadig relativt optimal, men selve træningsprocessen forløb ikke. I disse tilfælde integrerede TII CloudWatch-alarmer med Lambda-funktioner for at forespørge og læse de genererede træningslogfiler og derefter foretage automatiske handlinger baseret på enten den genererede fejl eller tomgang i loggenereringsprocessen (klyngen standses). Alarmen udløser en handling for at stoppe træningsjobbet, hvilket sikrer, at TII ikke pådrager sig unødvendige omkostninger, når ressourcerne ikke blev udnyttet.

Konklusion

Ved at bruge SageMaker parret med proprietær, tilpasset innovation, var TII i stand til at træne en model, der er state-of-the-art i flere dimensioner: teknologisk gennembrud, videnskabelig kvalitet, træningshastighed og også operationel enkelhed.

"At frigive UAE's Falcon 40B, verdens toprangerede Open Source AI-model, illustrerer teknologiens lederskab og baner vejen for AI-drevet innovation i regiion” angiver Dr. Ebtesam Almazrouei; tilføjer at "vi demonstrerer vores engagement i de mål, der er skitseret i den nationale AI-strategi 2031. Vores aktive involvering i globale teknologiske fremskridt, repræsenteret ved Falcon-40B, spiller en afgørende rolle i vores stræben efter en videnbaseret økonomi. Gennem investeringer og udvikling i AI-løsninger sigter vi mod at skabe nye muligheder for økonomisk vækst, sociale fremskridt og uddannelsesmæssige fremskridt.

"Falcon-40B's open source karakter afspejler vores dedikation til samarbejde, gennemsigtighed, innovation og forskning inden for kunstig intelligens. Vi tror på at demokratisere avanceret AI-teknologi, hvilket gør Falcon-40B tilgængelig for forskere og organisationer over hele verden."

"Når vi ser fremad, vil vi fortsætte med at bidrage til AI og teknologiske fremskridt med kommende modeller i pipelinen. Desuden vil vi aktivt fremme adoptionen af avanceret kunstig intelligens-teknologi i organisationer og virksomheder i vores land, hvilket fremmer vækst og velstand i overensstemmelse med vores strategiske mål."

– Dr. Almazrouei

For at lære mere om Falcon LLM, tjek hjemmesiden FalconLLM.tii.ae , modelkortet på Hugging Face!

Om forfatterne

Dr. Ebtesam Almazrouei er administrerende direktør-fungerende Chief AI-forsker og grundlægger af Al-Cross Center Unit på Technology Innovation Institute (TII). Som grundlægger af Al-Cross Center-enheden ved Technology Innovation Institute (TII) har Dr. Almazrouei spillet en central rolle i udformningen af TII's AI-kapacitet. Hendes strategiske vision og ekspertise inden for AI og maskinlæring har bemyndiget hende til at lede banebrydende forskningsinitiativer og fremme tværfunktionelle samarbejder, hvilket resulterer i levering af innovative AI-løsninger på tværs af flere industrier.

En af Dr. Almazroueis bemærkelsesværdige præstationer er hendes medvirkende rolle i udviklingen af Falcon 40B, en banebrydende LLM, der har høstet global anerkendelse. Falcon 40B's enestående præstation har rangeret den som nummer et LLM globalt på Hugging Faces rangliste i maj 2023. Derudover ledede hun udviklingen af Noor, verdens største arabiske store sprogmodel (LLM) udgivet i april 2022.

Dr. Almazrouei er anerkendt over hele verden for sine bidrag til AI og var med på listen over Leading AI Women in the World i 2023 sammen med andre fremtrædende kvinder på området. Hun er også en fortaler for bæredygtighed og AI for Good-initiativer, såvel som den generelle formand for Abu Dhabi AI Connect og TPC-formand for mange IEEE internationale konferencer.

Hendes bidrag strækker sig ud over hendes arbejde hos TII, hvor hun leder underudvalget for big data-eksperter under UAE Council for AI og Blockchain og er medlem af det verdensomspændende styringsråd for Wireless World Research Forum (WWRF). Hun er en videnskabelig forfatter, patentopfinder, iværksætter og kendt taler, kendt for sine hovedtaler ved prestigefyldte topmøder såsom AI Summit i London, World AI Cannes Festival og Tech topmøder.

Will Badr er en Sr. Manager AI/ML Solutions Architects baseret i Dubai – UAE, som arbejder som en del af det globale Amazon Machine Learning-team. Will brænder for at bruge teknologi på innovative måder for at påvirke samfundet positivt. I sin fritid kan han godt lide at dykke, spille fodbold og udforske Stillehavsøerne.

Olivier Cruchant er en Machine Learning Specialist Solutions Architect hos AWS, baseret i Frankrig. Olivier hjælper AWS-kunder – fra små startups til store virksomheder – med at udvikle og implementere maskinlæringsapplikationer i produktionskvalitet. I sin fritid nyder han at læse forskningsartikler og udforske vildmarken med venner og familie.