LLaMA-Drama als Mega-Sprachmodell von Meta undicht

LLaMA-Drama als Mega-Sprachmodell von Meta undicht

LLaMA-Drama, als Metas Mega-Sprachmodell PlatoBlockchain Data Intelligence preisgibt. Vertikale Suche. Ai.

LLaMA, das neueste große Sprachmodell von Meta, ist online durchgesickert und steht zum Download bereit, trotz offensichtlicher Versuche, den Zugang nur zu Forschungszwecken zu beschränken.

Der Facebook-Besitzer angekündigt im Februar veröffentlichte es das Modell in begrenztem Umfang, um Akademiker, Regierungsvertreter und Unternehmen auszuwählen, mit denen man inmitten von Ängsten spielen konnte Lama missbraucht werden könnten. Aber Informationen wollen frei sein, oder zumindest wollen es bestimmte Leute, und Metas Kreation hat sowieso ihren Weg ins Internet gefunden, beginnend mit einem Torrent-Leck.

Große Sprachmodelle zur Satzvorhersage, die Textpassagen aus Eingabeaufforderungen generieren, haben sich stetig weiterentwickelt, von der automatischen Vervollständigung des eigenen Schreibens bis hin zu Chatbots, die Aufgaben ausführen können, wenn sie dazu aufgefordert werden, indem sie natürliche Sprache verwenden.

Experten haben davor gewarnt, dass diese Technologie verwendet werden könnte, um die Herstellung großer Mengen von gefälschten Nachrichten, Spam, Phishing-E-Mails, Desinformation, Hetze, etc. für die kommenden Jahre zu automatisieren. Organisationen, die diese Modelle erstellen, halten die Software oft unter Verschluss, hinter APIs, oder veröffentlichen eingeschränkte Versionen oder Demos. 

„Es muss noch mehr geforscht werden, um die Risiken von Voreingenommenheit, toxischen Kommentaren und Halluzinationen in großen Sprachmodellen anzugehen“, sagt Meta sagte letzte Woche.

„Wie andere Modelle teilt LLaMA diese Herausforderungen. Als Basismodell ist LLaMA vielseitig und kann auf viele verschiedene Anwendungsfälle angewendet werden, im Gegensatz zu einem fein abgestimmten Modell, das für eine bestimmte Aufgabe entwickelt wurde.

„Um die Integrität zu wahren und Missbrauch zu verhindern, veröffentlichen wir unser Modell unter einer nichtkommerziellen Lizenz, die sich auf Forschungsanwendungsfälle konzentriert. Der Zugang zum Modell wird akademischen Forschern fallweise gewährt; diejenigen, die mit Organisationen in der Regierung, der Zivilgesellschaft und der Wissenschaft verbunden sind; und Industrieforschungslabors auf der ganzen Welt.“

Anleitung

Aber Metas Bemühungen, den Zugang zu LLaMA zu kontrollieren, scheinen vergeblich gewesen zu sein, oder so scheint es. Kurz nachdem das Modell ausgewählten Sachverständigen sowie Vertretern aus Industrie und Zivilgesellschaft zur Verfügung gestellt worden war, veröffentlichte jemand auf 4Chan Einzelheiten darüber, wie man das gesamte Modell über Peer-to-Peer-Dateifreigabe und schließlich erhalten kann Anweisungen, wie man alles herunterlädt wurden auf GitHub veröffentlicht.

Seien Sie wie immer vorsichtig, wenn Sie solche Dinge aus Torrents holen, falls jemand dort etwas Schändliches versteckt hat. Das 65-Milliarden-Parameter-Modell nimmt etwa 220 GB Speicherplatz ein, heißt es.

Die über GitHub verfügbaren Kopien von LLaMA scheinen legitim zu sein, stellen wir fest. Shawn Presser, ein KI-Ingenieur der die Download-Anweisungen auf Microsofts Code-Sharing-Site geschrieben hat, zeigte uns Screenshots von ihm, wie er erfolgreich Text aus dem Modell generierte. Er glaubt, dass ein Forscher, der von Meta Zugang zu dem Modell erhalten hatte, es durchsickern ließ, was zu einer vielleicht breiter als erwarteten Verbreitung führte.

Starten Sie Ihre Verschwörungstheorie-Engines.

Presser hält es für besser, das Modell frei und ohne Vorbehalte freizugeben, als es nur auf zugelassene Akademiker zu beschränken. „Ich denke, das Gute wird das Schlechte mindestens um das Zehnfache überwiegen. Wahrscheinlich näher am 100-fachen“, sagte er Das Register

Das Trainieren und Betreiben hochmoderner großer Sprachmodelle ist im Allgemeinen teuer; Nur Organisationen, die Zugriff auf haufenweise GPUs und andere Infrastruktur haben, sind in der Lage, sie zu bauen, zu optimieren und zu testen. KI-Forscher bei Meta LLaMA kleiner gebaut, wodurch es kompakter als die heutigen kommerziellen Modelle und damit für Akademiker und Entwickler ohne nicht triviale IT-Budgets zugänglicher wird. 

Die Machine-Learning-Gurus von Meta behaupteten, ihr System habe GPT-3 von OpenAI übertroffen und sei so gut wie andere große Sprachmodelle, wie Googles 540-Milliarden-Parameter-PaLM oder DeepMinds 70-Milliarden-Parameter-Chinchilla. Die kleinere Größe bedeutet, dass es für Wissenschaftler mit weniger Rechenressourcen einfacher zu verwenden sein sollte. Und ja, es gibt eine Fülle von Sprachmodellen in allen Formen und Größen; es ist mehr als nur OpenAI und Facebook.

LLaMA erfordert immer noch Hunderte von Gigabyte Speicherplatz und eine anständige Menge an Rechenleistung, um es zu betreiben. Das Modell zum Laufen zu bringen ist auch nicht einfach, es sei denn, Sie sind an den Umgang mit Systemen dieser Art gewöhnt, und die Umnutzung für schändlichere Aktivitäten erfordert auch weiteres technisches Fachwissen. Obwohl das Modell durchgesickert ist, sagte Meta, es werde LLaMA weiterhin nur mit ausgewählten Forschern teilen. 

Wir glauben, dass die aktuelle Veröffentlichungsstrategie es uns ermöglicht, Verantwortung und Offenheit in Einklang zu bringen

„Es ist das Ziel von Meta, hochmoderne KI-Modelle mit Mitgliedern der Forschungsgemeinschaft zu teilen, um uns bei der Bewertung und Verbesserung dieser Modelle zu helfen“, sagte ein Sprecher Das Register.

„LLaMA wurde zu Forschungszwecken geteilt, im Einklang mit der Art und Weise, wie wir frühere große Sprachmodelle geteilt haben. Obwohl das Modell nicht für alle zugänglich ist und einige versucht haben, den Genehmigungsprozess zu umgehen, glauben wir, dass die aktuelle Veröffentlichungsstrategie es uns ermöglicht, Verantwortung und Offenheit in Einklang zu bringen.“

Mit anderen Worten, die Facebook-Gruppe steht zu ihrem Ansatz, ihre Technologie zu verbreiten.

Die jüngsten Versuche von Meta, große Sprachmodelle zu veröffentlichen, verliefen nicht reibungslos. Letztes Jahr war sein gesprächiger BlenderBot kritisiert für die Verbreitung von Fehlinformationen und antisemitischen Ansichten. Galactica, entworfen, um wissenschaftliche Erkenntnisse zusammenzufassen, war entfernt drei Tage nach dem Start wegen der Generierung gefälschter und rassistischer Inhalte. ®

Zeitstempel:

Mehr von Das Register