Il Technology Innovation Institute addestra il modello di fondazione all'avanguardia Falcon LLM 40B su Amazon SageMaker

Ripubblicato da Platone

Seguaci: 0

Questo post sul blog è stato scritto in collaborazione con il Dr. Ebtesam Almazrouei, Direttore Esecutivo – Capo Ricercatore IA ad interim dell'Unità AI-Cross Center e Project Lead per i progetti LLM presso TII.

Emirati Arabi Uniti (UAE) Istituto per l'innovazione tecnologica (TII), il pilastro della ricerca applicata di Abu Dhabi Consiglio per la ricerca tecnologica avanzata, ha lanciato Falcon LLM, un modello LLM (Large Language Model) di base con 40 miliardi di parametri. TII è un centro di ricerca globale leader dedicato a spingere le frontiere della conoscenza. Il team di scienziati, ricercatori e ingegneri di TII lavora per fornire scoperte scientifiche e tecnologie trasformative. Il lavoro di TII si concentra su scoperte che renderanno la nostra società a prova di futuro. Addestrato su 1 trilione di token, TII Falcon LLM vanta prestazioni di prim'ordine pur rimanendo incredibilmente conveniente. Falcon-40B corrisponde alle prestazioni di altri LLM ad alte prestazioni ed è il modello open source più apprezzato dal pubblico Classifica LLM aperta Hugging Face. È disponibile come open source in due diverse dimensioni: Falcon-40B e Falcon-7B ed è stato creato da zero utilizzando la preelaborazione dei dati e i lavori di addestramento del modello basati su Amazon Sage Maker. L'open-sourcing Falcon 40B consente agli utenti di costruire e personalizzare strumenti di intelligenza artificiale che soddisfano le esigenze degli utenti unici, facilitando l'integrazione senza soluzione di continuità e garantendo la conservazione a lungo termine delle risorse di dati. I pesi del modello sono disponibili per il download, l'ispezione e la distribuzione ovunque.

A partire dal 7 giugno, entrambi i Falcon LLM saranno disponibili anche in Amazon SageMaker JumpStart, l'hub di machine learning (ML) di SageMaker che offre modelli pre-addestrati, algoritmi integrati e modelli di soluzioni pre-costruiti per aiutarti a iniziare rapidamente con il ML. Puoi implementare e utilizzare i Falcon LLM con pochi clic Sage Maker Studio o a livello di codice tramite il SDK Python di SageMaker. Per distribuire ed eseguire l'inferenza su Falcon LLM, fare riferimento a Introduzione a SageMaker JumpStart: generazione di testo con Falcon LLM esempio taccuino.

Il Technology Innovation Institute addestra il modello di fondazione all'avanguardia Falcon LLM 40B su Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Il Dr. Ebtesam Almazrouei, direttore esecutivo – capo ricercatore AI dell'unità AI-Cross Center e capo progetto per i progetti LLM presso TII, condivide:

“Annunciamo con orgoglio il rilascio ufficiale open-source di Falcon-40B, il modello di linguaggio open-source più diffuso al mondo. Falcon-40B è un eccezionale modello open source con parametri 40B, specificamente progettato come modello solo decodificatore causale. È stato addestrato su un vasto set di dati di 1,000 miliardi di token, incluso RefinedWeb potenziato con corpora curati. Il modello è reso disponibile sotto licenza Apache 2.0, garantendone l'accessibilità e l'usabilità. Falcon-40B ha superato modelli famosi come LLaMA-65B, StableLM e MPT nella classifica pubblica gestita da Hugging Face. L'architettura di Falcon-40B è ottimizzata per l'inferenza, incorporando FlashAttention e tecniche multiquery".

“Questo passaggio riflette la nostra dedizione a spingere i confini dell'innovazione dell'IA e del livello di prontezza tecnologica per il coinvolgimento della comunità, l'istruzione, le applicazioni del mondo reale e la collaborazione. Continua il dottor Ebtesam. “Rilasciando Falcon-40B come modello open source, offriamo a ricercatori, imprenditori e organizzazioni l'opportunità di sfruttare le sue eccezionali capacità e guidare i progressi nelle soluzioni basate sull'intelligenza artificiale, dall'assistenza sanitaria allo spazio, dalla finanza, dalla produzione alla biotecnologia; le possibilità di soluzioni guidate dall'intelligenza artificiale sono infinite. Per accedere al Falcon-40B ed esplorare il suo notevole potenziale, visitare il sito FalconLLM.tii.ae. Unisciti a noi per sfruttare la potenza del Falcon-40B per plasmare il futuro dell'IA e rivoluzionare le industrie"

In questo post, approfondiamo con il Dr. Almazrouei la formazione di Falcon LLM su SageMaker, la cura dei dati, l'ottimizzazione, le prestazioni e i passaggi successivi.

Una nuova generazione di LLM

Gli LLM sono algoritmi software addestrati per completare sequenze di testo naturali. A causa delle loro dimensioni e del volume di dati di addestramento con cui interagiscono, gli LLM hanno notevoli capacità di elaborazione del testo, tra cui riepilogo, risposta alle domande, apprendimento contestuale e altro ancora.

All'inizio del 2020, le organizzazioni di ricerca di tutto il mondo hanno posto l'accento sulla dimensione del modello, osservando che l'accuratezza era correlata al numero di parametri. Ad esempio, GPT-3 (2020) e BLOOM (2022) presentano circa 175 miliardi di parametri, Gopher (2021) ha 230 miliardi di parametri e MT-NLG (2021) 530 miliardi di parametri. Nel 2022, Hoffmann et al. ha osservato che l'attuale equilibrio di calcolo tra i parametri del modello e le dimensioni del set di dati non era ottimale e ha pubblicato leggi di ridimensionamento empiriche che suggeriscono che il bilanciamento del budget di calcolo verso modelli più piccoli addestrati su più dati potrebbe portare a modelli con prestazioni migliori. Hanno implementato la loro guida nel modello Chinchilla (70) con parametro 2022B, che ha sovraperformato modelli molto più grandi.

Formazione LLM su SageMaker

SageMaker è una raccolta di API gestite per lo sviluppo, l'addestramento, l'ottimizzazione e l'hosting di modelli di machine learning (ML), inclusi gli LLM. Numerosi clienti si affidano a SageMaker per i loro carichi di lavoro LLM, ad esempio Stabilità AI, Laboratori AI21, Abbracciare il visoe LGAI. Formazione SageMaker fornisce cluster di calcolo con configurazione hardware e codice definiti dall'utente. I processi di calcolo vengono fatturati per esecuzione, proporzionalmente al secondo, il che significa che agli utenti non viene addebitata la capacità della GPU quando non utilizzano il servizio. TII ha utilizzato cluster transitori forniti dall'API SageMaker Training per addestrare Falcon LLM, fino a 48 istanze ml.p4d.24xlarge, accumulate in 384 GPU NVIDIA A100. Ora, TII sta addestrando il prossimo Falcon LLM e ha ridimensionato il proprio addestramento a 3,136 GPU A100 (392 istanze ml.p4d).

Una quantità senza precedenti di innovazioni personalizzate è entrata in tutti i livelli del progetto per alzare l'asticella della qualità scientifica e della velocità di formazione. Nelle sezioni successive, descriviamo le ottimizzazioni TII condotte a tutti i livelli del sistema di formazione deep learning (DL).

Cura dei dati scalabile

Gli LLM di ultima generazione traggono la loro forza dalla dimensione e dalla qualità dei dati di formazione. Il team ha prestato particolare attenzione alla creazione di un set di dati di trilioni di token di alta qualità. Diversi job SageMaker Training CPU hanno trasformato petabyte di dati web economici e scalabili in un set di dati di training curato e sicuro. I sistemi automatizzati hanno filtrato e deduplicato i dati; ad esempio, i classificatori ML sono stati utilizzati per filtrare le volgarità. I job della CPU in esecuzione su ml.c5.18xlarge (72 vCPU, 144 GB di RAM) sono stati istanziati in alcune chiamate API tramite SageMaker Training per eseguire attività di trasformazione dei dati. Il team ha utilizzato job CPU a istanza singola e multiistanza per casi d'uso differenti. Alcuni di questi lavori hanno utilizzato centinaia di lavori SNA (Parallel Share-Nothing Architecture), ciascuno su una singola macchina, e per le attività che richiedono la sincronizzazione tra i lavoratori, il team ha lanciato lavori multi-istanza, accumulando dozzine di istanze e migliaia di vCPU. Aneddoticamente, in un'attività di preparazione del set di dati a valle, il team è salito a 257 ml.c5.18xlarge in un singolo lavoro di formazione SageMaker, accumulando 18,504 vCPU e 37 TB di memoria.

Massimizzare il throughput di formazione

Per ridurre al minimo sia i costi di addestramento che il time-to-market, il team ha perseguito diverse direzioni di ottimizzazione per accelerare la velocità di addestramento proporzionale ai token di addestramento elaborati al secondo e misurati in TFLOP/GPU. Il team ha utilizzato un framework di formazione LLM 3D-parallelo completamente personalizzato, con livelli ottimizzati personalizzati scritti nel codice GPU compilato. Il team è arrivato al punto di scrivere la propria implementazione di moltiplicazione di matrici personalizzata per guadagnare ulteriore velocità! Il team ha inoltre sviluppato una logica che adatta la comunicazione parallela alla topologia di rete sottostante. Durante i primi esperimenti di ridimensionamento, TII è stato in grado di raggiungere 166 TFLOP/GPU su un modello da 147 B su 256 GPU e 173 TFLOP/GPU su un modello da 13 B su 16 GPU, a nostra conoscenza i TFLOP del modello più noti raggiunti nel cloud a il momento del test alla fine del 2022.

Archiviazione senza server

La formazione LLM è ad alta intensità di archiviazione; diversi terabyte di dati di addestramento devono essere incanalati nel cluster di addestramento e diversi terabyte di punti di controllo del modello tornano regolarmente dal cluster allo storage permanente. I punti di controllo devono anche raggiungere il cluster di formazione il più velocemente possibile in caso di riavvio del lavoro. Nel tradizionale calcolo ad alte prestazioni (HPC), i nodi di calcolo sono collegati a file system distribuiti, che forniscono I/O e throughput ad alte prestazioni tramite un'interfaccia simile a POSIX. In AWS, i clienti utilizzano regolarmente il Amazon FSx per Lustre file system per questo scopo (per maggiori dettagli, fare riferimento a Accelera la formazione su Amazon SageMaker utilizzando Amazon FSx per i file system Lustre e Amazon EFS), e abbiamo anche documentato l'uso autogestito di BeeGFS in un case study di visione artificiale distribuita. A causa della loro attenzione ai costi e alla semplicità operativa, il team ha deciso di non implementare e gestire server di file system, ma ha invece raccolto la sfida di costruire esclusivamente su storage di oggetti senza server Servizio di archiviazione semplice Amazon (Amazon S3). Una classe di set di dati S3 personalizzata è stata creata utilizzando l'SDK AWS per Python (Boto3) e ha fornito prestazioni soddisfacenti consentendo allo stesso tempo agli scienziati di iterare autonomamente sull'ingegneria I/O e sulla scienza dei modelli all'interno della stessa base di codice.

Innovazione lato cliente

Un progetto LLM raramente consiste in un singolo lavoro di formazione; sono necessari numerosi lavori per condurre test ed esperienze iniziali. Nel corso della formazione di produzione principale, diversi lavori possono essere concatenati, ad esempio per aggiornare la configurazione o le versioni del software, distribuire patch o ripristinare da errori. Gli scienziati di TII hanno condotto un'ingegnerizzazione significativa per creare client personalizzati adattati alla formazione LLM. Un client di avvio è stato creato sopra SageMaker Training SDK per riunire più funzionalità in un unico comando, ad esempio il controllo delle versioni del codice, la creazione di immagini Docker e l'avvio del lavoro. Inoltre, un AWS Lambda La funzione di elaborazione senza server è stata progettata per osservare, monitorare e intervenire sui lavori secondo necessità.

Utilizzo di bot Slack per controlli di qualità dell'inferenza

Verso la fine della formazione, il team ha implementato il modello su un modello interno Endpoint GPU di SageMaker Hosting per l'interazione in tempo reale. Il team è arrivato al punto di creare un bot Slack con cui dialogare, per ottenere feedback realistici ed eseguire audit di qualità qualitativi del modello.

Formazione e monitoraggio delle prestazioni

L'addestramento di un LLM richiede grandi quantità di risorse computazionali, tra cui CPU, GPU e risorse di memoria. Pertanto, TII aveva bisogno di monitorare le prestazioni e il tempo di inattività del lavoro di addestramento per garantire l'utilizzo ottimale delle risorse computazionali e il loro rapporto costo-efficacia.

Per creare una soluzione di monitoraggio automatizzata, TII ha utilizzato Amazon Cloud Watch allarmi per monitorare l'utilizzo di GPU, CPU e memoria per i processi di addestramento. CloudWatch raccoglie i dati grezzi e li elabora in parametri leggibili e quasi in tempo reale dalle istanze di container sottostanti utilizzate nel processo SageMaker Training. Successivamente, impostiamo le soglie per ciascuna di queste metriche e, se una metrica scende al di sotto della soglia, viene attivato un allarme. Questo allarme notifica al team di TII il basso utilizzo delle risorse, consentendo loro di intraprendere azioni correttive per rettificare i vincoli di utilizzo delle risorse.

Oltre a monitorare l'utilizzo delle risorse, TII potrebbe anche monitorare il tempo di inattività delle risorse del lavoro di formazione. Se le risorse del lavoro di formazione fossero inattive per un periodo di tempo prolungato, ciò potrebbe indicare un collo di bottiglia in qualsiasi fase del ciclo di formazione e richiedere un'indagine manuale. In alcuni casi, l'utilizzo delle risorse era ancora relativamente ottimale, ma il processo di formazione in sé non procedeva. Per questi casi, TII ha integrato gli allarmi CloudWatch con le funzioni Lambda per interrogare e leggere i log di addestramento generati, quindi eseguire azioni automatiche in base all'errore generato o all'inattività del processo di generazione dei log (il cluster viene interrotto). L'allarme attiva un'azione per interrompere il lavoro di addestramento, il che garantisce che TII non incorra in costi inutili quando le risorse non sono state utilizzate.

Conclusione

Utilizzando SageMaker abbinato all'innovazione proprietaria e personalizzata, TII è stata in grado di addestrare un modello all'avanguardia in più dimensioni: innovazione tecnologica, qualità scientifica, velocità di addestramento e anche semplicità operativa.

"Il rilascio del Falcon 40B degli Emirati Arabi Uniti, il modello AI open source di prim'ordine al mondo, illustra la leadership tecnologica e apre la strada all'innovazione basata sull'intelligenza artificiale nel region” indica il Dr. Ebtesam Almazrouei; aggiungendo che “dimostriamo il nostro impegno per gli obiettivi delineati nella National AI Strategy 2031. Il nostro coinvolgimento attivo nei progressi tecnologici globali, rappresentato da Falcon-40B, svolge un ruolo cruciale nella nostra ricerca di un'economia basata sulla conoscenza. Attraverso gli investimenti e lo sviluppo di soluzioni AI, miriamo a creare nuove opportunità per la crescita economica, il progresso sociale e i progressi educativi.

“La natura open source di Falcon-40B riflette la nostra dedizione alla collaborazione, alla trasparenza, all'innovazione e alla ricerca nel campo dell'IA. Crediamo nella democratizzazione delle capacità avanzate della tecnologia IA, rendendo il Falcon-40B accessibile a ricercatori e organizzazioni di tutto il mondo”.

“Guardando al futuro, continueremo a contribuire ai progressi dell'IA e della tecnologia, con i prossimi modelli in cantiere. Inoltre, promuoveremo attivamente l'adozione della tecnologia AI avanzata all'interno delle organizzazioni e delle imprese del nostro Paese, favorendo la crescita e la prosperità in linea con i nostri obiettivi strategici".

– Dott.ssa Almazrouei

Per saperne di più su Falcon LLM, visita il sito web FalconLLM.tii.ae ed la carta modello su Hugging Face!

Informazioni sugli autori

Dott. Ebtesam Almazrouei è il Direttore Esecutivo-Acting Chief AI Researcher e fondatore dell'Al-Cross Center Unit presso il Technology Innovation Institute (TII). In qualità di fondatore dell'Al-Cross Center Unit presso il Technology Innovation Institute (TII), il dott. Almazrouei ha svolto un ruolo fondamentale nel plasmare le capacità di intelligenza artificiale di TII. La sua visione strategica e la sua esperienza nell'intelligenza artificiale e nell'apprendimento automatico le hanno consentito di guidare iniziative di ricerca rivoluzionarie e promuovere collaborazioni interfunzionali, che hanno portato alla fornitura di soluzioni di intelligenza artificiale innovative in più settori.

Uno dei risultati notevoli della dottoressa Almazrouei è il suo ruolo strumentale nello sviluppo del Falcon 40B, un LLM all'avanguardia che ha ottenuto il riconoscimento globale. Le eccezionali prestazioni del Falcon 40B lo hanno classificato come LLM numero uno a livello globale nella classifica di Hugging Face nel maggio 2023. Inoltre, ha guidato lo sviluppo di Noor, il più grande modello in lingua araba (LLM) al mondo rilasciato nell'aprile 2022.

La dottoressa Almazrouei è riconosciuta in tutto il mondo per i suoi contributi all'IA ed è stata inserita nell'elenco delle donne leader nell'IA nel mondo nel 2023, insieme ad altre illustri donne del settore. È anche una sostenitrice della sostenibilità e delle iniziative AI for Good, nonché presidente generale di Abu Dhabi AI Connect e presidente TPC di molte conferenze internazionali IEEE.

I suoi contributi vanno oltre il suo lavoro presso TII, dove guida il sottocomitato di esperti di big data del Consiglio degli Emirati Arabi Uniti per l'intelligenza artificiale e Blockchain ed è membro del comitato direttivo mondiale del Wireless World Research Forum (WWRF). È un'autrice scientifica, inventrice di brevetti, imprenditrice e rinomata relatrice, nota per i suoi discorsi programmatici in prestigiosi vertici come l'AI Summit di Londra, il World AI Cannes Festival e i Tech summit.

Will Badr è un Sr. Manager AI/ML Solutions Architects con sede a Dubai, Emirati Arabi Uniti, che lavora come parte del team globale di Amazon Machine Learning. Will è appassionato di utilizzare la tecnologia in modi innovativi per avere un impatto positivo sulla comunità. Nel tempo libero ama fare immersioni, giocare a calcio ed esplorare le isole del Pacifico.

Olivier Cruchant è un Machine Learning Specialist Solutions Architect presso AWS, con sede in Francia. Olivier aiuta i clienti AWS, dalle piccole startup alle grandi imprese, a sviluppare e distribuire applicazioni di machine learning di livello produttivo. Nel tempo libero, gli piace leggere documenti di ricerca ed esplorare la natura selvaggia con amici e familiari.