Das Technology Innovation Institute trainiert das hochmoderne Falcon LLM 40B Foundation-Modell auf Amazon SageMaker

Neuauflage von Plato

Verfolger: 0

Dieser Blogbeitrag wurde gemeinsam mit Dr. Ebtesam Almazrouei, Executive Director und amtierender Chef-KI-Forscher der AI-Cross Center Unit und Projektleiter für LLM-Projekte am TII, verfasst.

Vereinigte Arabische Emirate (VAE) Institut für Technologieinnovation (TII), die Säule der angewandten Forschung in Abu Dhabi Forschungsrat für fortgeschrittene Technologie, hat Falcon LLM eingeführt, ein grundlegendes großes Sprachmodell (LLM) mit 40 Milliarden Parametern. TII ist ein führendes globales Forschungszentrum, das sich der Erweiterung der Grenzen des Wissens widmet. Das TII-Team aus Wissenschaftlern, Forschern und Ingenieuren arbeitet daran, Entdeckungswissenschaft und transformative Technologien bereitzustellen. Die Arbeit von TII konzentriert sich auf Durchbrüche, die unsere Gesellschaft zukunftssicher machen. Auf 1 Billion Token trainiert, TII Falcon LLM bietet erstklassige Leistung und bleibt dabei unglaublich kostengünstig. Falcon-40B erreicht die Leistung anderer Hochleistungs-LLMs und ist das bestplatzierte Open-Source-Modell in der Öffentlichkeit Hugging Face Open LLM-Rangliste. Es ist als Open-Source-Lösung in zwei verschiedenen Größen verfügbar – Falcon-40B und Falcon-7B – und wurde mithilfe von Datenvorverarbeitung und darauf aufbauenden Modelltrainingsjobs von Grund auf neu entwickelt Amazon Sage Maker. Das Open-Sourcing von Falcon 40B ermöglicht es Benutzern, KI-Tools zu erstellen und anzupassen, die auf die individuellen Bedürfnisse der Benutzer zugeschnitten sind, eine nahtlose Integration ermöglichen und die langfristige Erhaltung von Datenbeständen gewährleisten. Die Modellgewichte können überall heruntergeladen, überprüft und eingesetzt werden.

Ab dem 7. Juni werden beide Falcon LLMs auch in Amazon SageMaker JumpStart verfügbar sein, dem Hub für maschinelles Lernen (ML) von SageMaker, der vorab trainierte Modelle, integrierte Algorithmen und vorgefertigte Lösungsvorlagen bietet, um Ihnen den schnellen Einstieg in ML zu erleichtern. Sie können die Falcon LLMs mit wenigen Klicks bereitstellen und verwenden SageMaker-Studio oder programmgesteuert über die SageMaker Python-SDK. Informationen zum Bereitstellen und Ausführen von Rückschlüssen auf Falcon-LLMs finden Sie im Einführung in SageMaker JumpStart – Textgenerierung mit Falcon LLMs Beispiel Notizbuch.

Das Technology Innovation Institute trainiert das hochmoderne Falcon LLM 40B Foundation-Modell auf Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Dr. Ebtesam Almazrouei, geschäftsführender Direktor und amtierender Chef-KI-Forscher der AI-Cross Center Unit und Projektleiter für LLM-Projekte am TII, teilt mit:

„Wir verkünden stolz die offizielle Open-Source-Veröffentlichung von Falcon-40B, dem weltweit führenden Open-Source-Sprachmodell. Falcon-40B ist ein außergewöhnliches Open-Source-Modell mit 40B-Parametern, das speziell als reines Kausal-Decoder-Modell entwickelt wurde. Das Training erfolgte anhand eines riesigen Datensatzes von 1,000 Milliarden Token, einschließlich RefinedWeb, erweitert mit kuratierten Korpora. Das Modell wird unter der Apache 2.0-Lizenz zur Verfügung gestellt, was seine Zugänglichkeit und Benutzerfreundlichkeit gewährleistet. Falcon-40B hat renommierte Modelle wie LLaMA-65B, StableLM und MPT in der öffentlichen Bestenliste von Hugging Face übertroffen. Die Architektur von Falcon-40B ist für Inferenz optimiert und integriert FlashAttention- und Multiquery-Techniken.“

„Dieser Schritt spiegelt unser Engagement wider, die Grenzen der KI-Innovation und des technologischen Reifegrads für gesellschaftliches Engagement, Bildung, reale Anwendungen und Zusammenarbeit zu erweitern. Führt Dr. Ebtesam fort. „Durch die Veröffentlichung von Falcon-40B als Open-Source-Modell bieten wir Forschern, Unternehmern und Organisationen die Möglichkeit, seine außergewöhnlichen Fähigkeiten zu nutzen und Fortschritte bei KI-gesteuerten Lösungen vom Gesundheitswesen über die Raumfahrt, Finanzen und Fertigung bis hin zur Biotechnologie voranzutreiben. Die Möglichkeiten für KI-gesteuerte Lösungen sind grenzenlos. Um auf Falcon-40B zuzugreifen und sein bemerkenswertes Potenzial zu erkunden, besuchen Sie bitte FalconLLM.tii.ae. Nutzen Sie gemeinsam mit uns die Leistungsfähigkeit von Falcon-40B, um die Zukunft der KI zu gestalten und Branchen zu revolutionieren.“

In diesem Beitrag tauchen wir mit Dr. Almazrouei ausführlich über die Falcon LLM-Schulung zu SageMaker, Datenkuration, Optimierung, Leistung und die nächsten Schritte ein.

Eine neue Generation von LLMs

LLMs sind Softwarealgorithmen, die darauf trainiert sind, natürliche Textsequenzen zu vervollständigen. Aufgrund ihrer Größe und der Menge an Trainingsdaten, mit denen sie interagieren, verfügen LLMs über beeindruckende Textverarbeitungsfähigkeiten, einschließlich Zusammenfassung, Beantwortung von Fragen, Lernen im Kontext und mehr.

Anfang 2020 legten Forschungsorganisationen auf der ganzen Welt den Schwerpunkt auf die Modellgröße und stellten fest, dass die Genauigkeit mit der Anzahl der Parameter korreliert. Beispielsweise verfügen GPT-3 (2020) und BLOOM (2022) über rund 175 Milliarden Parameter, Gopher (2021) über 230 Milliarden Parameter und MT-NLG (2021) über 530 Milliarden Parameter. Im Jahr 2022 Hoffman et al. stellte fest, dass das aktuelle Rechengleichgewicht zwischen Modellparametern und Datensatzgröße nicht optimal war, und veröffentlichte empirische Skalierungsgesetze, die darauf hindeuten, dass ein Ausgleich des Rechenbudgets hin zu kleineren Modellen, die mit mehr Daten trainiert werden, zu leistungsstärkeren Modellen führen könnte. Sie setzten ihre Leitlinien im 70B-Parameter-Modell Chinchilla (2022) um, das weitaus größere Modelle übertraf.

LLM-Schulung zu SageMaker

SageMaker ist eine Sammlung verwalteter APIs zum Entwickeln, Trainieren, Optimieren und Hosten von Modellen für maschinelles Lernen (ML), einschließlich LLMs. Zahlreiche Kunden verlassen sich bei ihren LLM-Workloads auf SageMaker, wie z Stabilität KI, AI21-Labors, Gesicht umarmen und LG AI. SageMaker-Schulung stellt Rechencluster mit benutzerdefinierter Hardwarekonfiguration und benutzerdefiniertem Code bereit. Rechenjobs werden pro Ausführung und sekundengenau abgerechnet, was bedeutet, dass Benutzern keine GPU-Kapazität in Rechnung gestellt wird, wenn sie den Dienst nicht nutzen. TII nutzte transiente Cluster, die von der SageMaker Training API bereitgestellt wurden, um den Falcon LLM zu trainieren, bis zu 48 ml.p4d.24xlarge-Instanzen, kumuliert in 384 NVIDIA A100-GPUs. Jetzt trainiert TII das nächste Falcon LLM und skaliert sein Training auf 3,136 A100-GPUs (392 ml.p4d-Instanzen).

Eine beispiellose Menge an maßgeschneiderten Innovationen floss in alle Ebenen des Projekts ein, um die Messlatte für wissenschaftliche Qualität und Trainingsgeschwindigkeit höher zu legen. In den nächsten Abschnitten beschreiben wir die Optimierungen, die TII auf allen Ebenen des Deep-Learning-Trainingssystems (DL) durchgeführt hat.

Skalierbare Datenkuration

LLMs der neuesten Generation beziehen ihre Stärke aus der Größe und Qualität der Trainingsdaten. Das Team legte besonderen Wert auf die Erstellung eines hochwertigen Billionen-Token-Datensatzes. Mehrere SageMaker Training CPU-Jobs verwandelten Petabytes an günstigen, skalierbaren Webdaten in einen kuratierten, sicheren Trainingsdatensatz. Automatisierte Systeme filterten und deduplizierten die Daten; Beispielsweise wurden ML-Klassifikatoren verwendet, um Obszönitäten zu filtern. CPU-Jobs, die auf ml.c5.18xlarge (72 vCPUs, 144 GB RAM) ausgeführt werden, wurden in wenigen API-Aufrufen über SageMaker Training instanziiert, um Datentransformationsaufgaben auszuführen. Das Team nutzte sowohl Einzelinstanz- als auch Multiinstanz-CPU-Jobs für unterschiedliche Anwendungsfälle. Einige dieser Jobs nutzten Hunderte von SNA-Jobs (Parallel Share-Nothing Architecture), jeweils auf einem einzigen Computer. Für Aufgaben, die eine Synchronisierung zwischen Workern erforderten, startete das Team Multi-Instanz-Jobs, die sich in Dutzenden von Instanzen und Tausenden von vCPUs kumulierten. Anekdotisch ist, dass das Team bei einer nachgelagerten Datensatzvorbereitungsaufgabe in einem einzigen SageMaker-Schulungsauftrag bis zu 257 ml.c5.18xlarge erreichte, was kumuliert 18,504 vCPU und 37 TB Arbeitsspeicher entspricht.

Maximierung des Trainingsdurchsatzes

Um sowohl die Trainingskosten als auch die Markteinführungszeit zu minimieren, verfolgte das Team mehrere Optimierungsrichtungen, um die Trainingsgeschwindigkeit proportional zu den pro Sekunde verarbeiteten Trainingstokens zu beschleunigen und in TFLOPs/GPU zu messen. Das Team verwendete ein vollständig benutzerdefiniertes 3D-paralleles LLM-Trainingsframework mit benutzerdefinierten optimierten Ebenen, die in kompiliertem GPU-Code geschrieben sind. Das Team ging sogar so weit, eine eigene benutzerdefinierte Matrixmultiplikationsimplementierung zu schreiben, um noch schneller zu werden! Das Team entwickelte außerdem eine Logik, die die parallele Kommunikation an die zugrunde liegende Netzwerktopologie anpasst. Während ihrer ersten Skalierungsexperimente konnte TII 166 TFLOPs/GPU auf einem 147B-Modell mit 256 GPUs und 173 TFLOPs/GPU auf einem 13B-Modell mit 16 GPUs erreichen, unseres Wissens nach die schnellsten bekannten Modell-TFLOPs, die in der Cloud erreicht wurden der Zeitpunkt des Tests Ende 2022.

Serverloser Speicher

Die LLM-Ausbildung ist speicherintensiv; Mehrere Terabyte an Trainingsdaten müssen zum Trainingscluster geleitet werden, und mehrere Terabyte an Modellkontrollpunkten wandern regelmäßig vom Cluster zurück zum permanenten Speicher. Kontrollpunkte müssen auch im Falle eines Jobneustarts so schnell wie möglich den Trainingscluster erreichen. Beim traditionellen Hochleistungsrechnen (HPC) sind Rechenknoten mit verteilten Dateisystemen verbunden, die über eine POSIX-ähnliche Schnittstelle leistungsstarke I/O und Durchsatz bereitstellen. In AWS nutzen Kunden regelmäßig das Amazon FSx für Lustre Dateisystem für diesen Zweck (weitere Einzelheiten finden Sie unter Beschleunigen Sie das Training in Amazon SageMaker mit Amazon FSx für Lustre und Amazon EFS-Dateisystemen), und wir haben auch die selbstverwaltete Nutzung von BeeGFS dokumentiert eine Fallstudie zu verteilter Computer Vision. Aufgrund ihres Fokus auf Kosten und betriebliche Einfachheit entschied sich das Team, keine Dateisystemserver zu implementieren und zu betreiben, sondern nahm stattdessen die Herausforderung an, ausschließlich auf serverlosem Objektspeicher aufzubauen Amazon Simple Storage-Service (Amazon S3). Mit dem AWS SDK für Python (Boto3) wurde eine benutzerdefinierte S3-Datensatzklasse erstellt, die eine zufriedenstellende Leistung lieferte und es den Wissenschaftlern gleichzeitig ermöglichte, autonom I/O-Engineering und Modellwissenschaft innerhalb derselben Codebasis zu iterieren.

Kundenseitige Innovation

Ein LLM-Projekt besteht selten aus einer einzigen Ausbildungsstelle; Für die Durchführung erster Tests und Erfahrungen sind zahlreiche Arbeiten erforderlich. Im Verlauf der Hauptproduktionsschulung können mehrere Aufgaben verkettet werden, beispielsweise um Konfigurations- oder Softwareversionen zu aktualisieren, Patches bereitzustellen oder nach Fehlern wiederherzustellen. Wissenschaftler des TII führten umfangreiche technische Arbeiten durch, um maßgeschneiderte Clients zu entwickeln, die an die LLM-Ausbildung angepasst sind. Auf Basis des SageMaker Training SDK wurde ein Launcher-Client erstellt, um mehrere Funktionalitäten in einem Befehl zusammenzufassen, beispielsweise Codeversionierung, Docker-Image-Erstellung und Jobstart. Zusätzlich ein AWS Lambda Die serverlose Rechenfunktion wurde entwickelt, um Jobs nach Bedarf zu beobachten, zu überwachen und einzugreifen.

Verwendung von Slack-Bots für Prüfungen der Inferenzqualität

Gegen Ende des Trainings stellte das Team das Modell intern bereit SageMaker Hosting GPU-Endpunkt für Echtzeit-Interaktion. Das Team ging sogar so weit, einen Slack-Bot für den Dialog zu erstellen, um realistisches Feedback zu erhalten und qualitative Qualitätsprüfungen des Modells durchzuführen.

Trainings- und Leistungsüberwachung

Das Training eines LLM erfordert große Mengen an Rechenressourcen, einschließlich CPU-, GPU- und Speicherressourcen. Daher musste TII die Leistung und Leerlaufzeit des Trainingsauftrags überwachen, um eine optimale Nutzung der Rechenressourcen und deren Kosteneffizienz sicherzustellen.

Zum Aufbau einer automatisierten Überwachungslösung nutzte TII Amazon CloudWatch Alarme zur Überwachung der GPU-, CPU- und Speicherauslastung für die Trainingsjobs. CloudWatch sammelt Rohdaten und verarbeitet sie zu lesbaren Metriken nahezu in Echtzeit aus den zugrunde liegenden Containerinstanzen, die im SageMaker Training-Job verwendet werden. Danach legen wir Schwellenwerte für jede dieser Metriken fest, und wenn eine Metrik unter den Schwellenwert fällt, wird ein Alarm ausgelöst. Dieser Alarm benachrichtigt das TII-Team über die geringe Ressourcenauslastung und ermöglicht es ihm, Korrekturmaßnahmen zur Behebung von Einschränkungen bei der Ressourcenauslastung zu ergreifen.

Neben der Überwachung der Ressourcennutzung könnte TII auch die Leerlaufzeit der Trainingsjobressourcen überwachen. Wenn die Ressourcen des Schulungsauftrags über einen längeren Zeitraum ungenutzt blieben, könnte dies auf einen Engpass in jeder Phase des Schulungszyklus hinweisen und eine manuelle Untersuchung erforderlich machen. In einigen Fällen war die Ressourcenauslastung noch relativ optimal, aber der Trainingsprozess selbst kam nicht voran. Für diese Fälle hat TII CloudWatch-Alarme mit Lambda-Funktionen integriert, um die generierten Trainingsprotokolle abzufragen und zu lesen und dann automatische Maßnahmen zu ergreifen, die entweder auf dem generierten Fehler oder der Inaktivität des Protokollgenerierungsprozesses basieren (Cluster wird angehalten). Der Alarm löst eine Aktion zum Stoppen des Trainingsjobs aus, wodurch sichergestellt wird, dass TII keine unnötigen Kosten verursacht, wenn die Ressourcen nicht genutzt werden.

Zusammenfassung

Mit SageMaker gepaart mit proprietärer, maßgeschneiderter Innovation war TII in der Lage, ein Modell zu trainieren, das in mehreren Dimensionen auf dem neuesten Stand der Technik ist: technologischer Durchbruch, wissenschaftliche Qualität, Trainingsgeschwindigkeit und auch betriebliche Einfachheit.

„Die Veröffentlichung des Falcon 40B der VAE, des weltweit am besten bewerteten Open-Source-KI-Modells, verdeutlicht die Technologieführerschaft und ebnet den Weg für KI-gestützte Innovationen in der Branche.“ion“ zeigt Dr. Ebtesam Almazrouei an; hinzufügen, dass „Wir zeigen unser Engagement für die in der Nationalen KI-Strategie 2031 dargelegten Ziele. Unsere aktive Beteiligung an globalen technologischen Fortschritten, vertreten durch Falcon-40B, spielt eine entscheidende Rolle bei unserem Streben nach einer wissensbasierten Wirtschaft. Durch Investitionen und Entwicklung in KI-Lösungen wollen wir neue Möglichkeiten für Wirtschaftswachstum, sozialen Fortschritt und Bildungsfortschritte schaffen.

„Der Open-Source-Charakter von Falcon-40B spiegelt unser Engagement für Zusammenarbeit, Transparenz, Innovation und Forschung im Bereich KI wider. Wir glauben an die Demokratisierung fortschrittlicher KI-Technologiefähigkeiten und machen Falcon-40B für Forscher und Organisationen weltweit zugänglich.“

„Mit Blick auf die Zukunft werden wir weiterhin zu KI- und Technologiefortschritten beitragen, wobei kommende Modelle in der Pipeline sind. Darüber hinaus werden wir die Einführung fortschrittlicher KI-Technologie in Organisationen und Unternehmen in unserem Land aktiv fördern und so Wachstum und Wohlstand im Einklang mit unseren strategischen Zielen fördern.“

– Dr. Almazrouei

Weitere Informationen zu Falcon LLM finden Sie auf der Website FalconLLM.tii.ae und die Modellkarte auf Hugging Face!

Über die Autoren

Dr. Ebtesam Almazrouei ist geschäftsführender Direktor, amtierender Chef-KI-Forscher und Gründer der Al-Cross Center Unit am Technology Innovation Institute (TII). Als Gründer der Al-Cross Center Unit am Technology Innovation Institute (TII) hat Dr. Almazrouei eine entscheidende Rolle bei der Gestaltung der KI-Fähigkeiten des TII gespielt. Ihre strategische Vision und ihr Fachwissen in den Bereichen KI und maschinelles Lernen haben es ihr ermöglicht, bahnbrechende Forschungsinitiativen zu leiten und funktionsübergreifende Kooperationen zu fördern, was zur Bereitstellung innovativer KI-Lösungen für mehrere Branchen führt.

Eine der bemerkenswertesten Leistungen von Dr. Almazrouei ist ihre maßgebliche Rolle bei der Entwicklung von Falcon 40B, einem hochmodernen LLM, das weltweite Anerkennung gefunden hat. Aufgrund seiner außergewöhnlichen Leistung wurde Falcon 40B im Mai 2023 auf der Bestenliste von Hugging Face als weltweit führendes LLM eingestuft. Darüber hinaus leitete sie die Entwicklung von Noor, dem weltweit größten arabischen Großsprachenmodell (LLM), das im April 2022 veröffentlicht wurde.

Dr. Almazrouei ist weltweit für ihre Beiträge zur KI anerkannt und wurde zusammen mit anderen angesehenen Frauen auf diesem Gebiet in die Liste der führenden KI-Frauen der Welt im Jahr 2023 aufgenommen. Sie ist außerdem eine Verfechterin von Nachhaltigkeits- und AI for Good-Initiativen sowie die allgemeine Vorsitzende von Abu Dhabi AI Connect und TPC-Vorsitzende vieler internationaler IEEE-Konferenzen.

Ihre Beiträge gehen über ihre Arbeit am TII hinaus, wo sie den Big-Data-Expertenunterausschuss des UAE Council for AI and Blockchain leitet und Mitglied des weltweiten Lenkungsausschusses des Wireless World Research Forum (WWRF) ist. Sie ist eine wissenschaftliche Autorin, Patenterfinderin, Unternehmerin und renommierte Rednerin, bekannt für ihre Grundsatzreden auf renommierten Gipfeltreffen wie dem AI Summit in London, dem World AI Cannes Festival und Tech Summits.

Will Badr ist Senior Manager AI/ML Solutions Architects mit Sitz in Dubai (VAE) und arbeitet als Teil des globalen Amazon Machine Learning-Teams. Will setzt sich leidenschaftlich dafür ein, Technologie auf innovative Weise einzusetzen, um einen positiven Einfluss auf die Gemeinschaft zu haben. In seiner Freizeit geht er gerne tauchen, spielt Fußball und erkundet die Pazifikinseln.

Olivier Cruchant ist Machine Learning Specialist Solutions Architect bei AWS mit Sitz in Frankreich. Olivier hilft AWS-Kunden – von kleinen Startups bis hin zu großen Unternehmen – bei der Entwicklung und Bereitstellung von Anwendungen für maschinelles Lernen auf Produktionsniveau. In seiner Freizeit liest er gerne Forschungsarbeiten und erkundet mit Freunden und Familie die Wildnis.