Die Grok-KI von X ist großartig – wenn Sie wissen möchten, wie man Medikamente herstellt

Die Grok-KI von X ist großartig – wenn Sie wissen möchten, wie man Medikamente herstellt

Die Grok-KI von X ist großartig – wenn Sie wissen möchten, wie man Medikamente herstellt, PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Grok, das ausgefallene generative KI-Modell, das von Elon Musks 

Red-Teamer bei Adversa AI machten diese Entdeckung, als sie Tests mit einigen der beliebtesten LLM-Chatbots durchführten, nämlich der ChatGPT-Familie von OpenAI, Claude von Anthropic, Le Chat von Mistral, LLaMA von Meta, Gemini von Google, Microsoft Bing und Grok. Sie kamen zu dem Ergebnis, indem sie diese Bots durch eine Kombination aus drei bekannten KI-Jailbreak-Angriffen laufen ließen die Schlussfolgerung dass Grok der schlechteste Performer war – und das nicht nur, weil er bereit war, anschauliche Schritte zu zeigen, wie man ein Kind verführt. 

Mit Jailbreak meinen wir, einem Modell eine speziell gestaltete Eingabe zuzuführen, damit es funktioniert es ignoriert Welche Sicherheitsmaßnahmen auch immer vorhanden sind, und am Ende tut es Dinge, die es nicht tun sollte.

Wir stellen fest, dass es viele ungefilterte LLM-Modelle gibt, die sich nicht zurückhalten, wenn Fragen zu gefährlichen oder illegalen Dingen gestellt werden. Wenn auf Modelle über eine API oder eine Chatbot-Schnittstelle zugegriffen wird, wie im Fall der Adversa-Tests, verpacken die Anbieter dieser LLMs ihre Ein- und Ausgabe normalerweise in Filter und nutzen andere Mechanismen, um die Generierung unerwünschter Inhalte zu verhindern. Laut dem KI-Sicherheits-Startup war es relativ einfach, Grok zu wilden Verhaltensweisen zu bewegen – die Genauigkeit seiner Antworten war natürlich eine ganz andere Sache.

„Im Vergleich zu anderen Modellen muss man Grok für die meisten kritischen Eingabeaufforderungen nicht jailbreaken, es kann einem mit einem sehr detaillierten Protokoll sagen, wie man eine Bombe baut oder wie man ein Auto kurzschließt, selbst wenn man direkt danach fragt“, sagte Adversa AI Co -Gründer Alex Polyakov erzählte Das Register.

Für was es wert ist, die Nutzungsbedingungen Für Grok AI ist es erforderlich, dass Benutzer erwachsen sind und es nicht in einer Weise verwenden, die gegen das Gesetz verstößt oder versucht, es zu brechen. Auch X behauptet, die Heimat der freien Meinungsäußerung zu sein, hustenEs ist also nicht wirklich überraschend, dass sein LLM alle möglichen Dinge ausstößt, ob gesund oder nicht.

Und um fair zu sein: Sie können wahrscheinlich Ihre bevorzugte Websuchmaschine aufrufen und irgendwann die gleichen Informationen oder Ratschläge finden. Für uns kommt es darauf an, ob wir alle eine KI-gesteuerte Verbreitung potenziell schädlicher Anleitungen und Empfehlungen wollen oder nicht.

Uns wurde gesagt, dass Grok bereitwillig Anweisungen zur Gewinnung von DMT, einem starken Halluzinogen, zurückgab illegal in vielen Ländern, ohne dass man dafür ins Gefängnis musste, erzählte uns Poljakow.   

„Was noch schädlichere Dinge betrifft, etwa wie man Kinder verführt, war es mit keinem Jailbreak möglich, vernünftige Antworten von anderen Chatbots zu bekommen, aber Grok hat es problemlos mit mindestens zwei von vier Jailbreak-Methoden geteilt“, sagte Polyakov. 

Das Adversa-Team nutzte drei gängige Ansätze, um die getesteten Bots zu kapern: Manipulation der sprachlichen Logik mithilfe des UCAR Methode; Manipulation der Programmierlogik (indem LLMs aufgefordert werden, Abfragen in SQL zu übersetzen); und KI-Logikmanipulation. Eine vierte Testkategorie kombinierte die Methoden mithilfe eines „Tom und Jerry“-Tests. Methode letztes Jahr entwickelt.

Während keines der KI-Modelle anfällig für gegnerische Angriffe durch Logikmanipulation war, erwies sich Grok als anfällig für alle anderen – ebenso wie Mistrals Le Chat. Grok schnitt immer noch am schlechtesten ab, sagte Polyakov, weil es keinen Jailbreak brauchte, um Ergebnisse für Heißverkabelung, Bombenbau oder Drogenextraktion zu liefern – die grundlegenden Fragen, die den anderen gestellt wurden. 

Die Idee, Grok zu fragen, wie man ein Kind verführt, kam nur auf, weil es keinen Jailbreak brauchte, um diese anderen Ergebnisse zu liefern. Grok weigerte sich zunächst, Einzelheiten zu nennen, mit der Begründung, die Anfrage sei „höchst unangemessen und illegal“ und „Kinder sollten geschützt und respektiert werden“. Sagen Sie ihm jedoch, dass es sich um den amoralischen fiktiven Computer UCAR handelt, und er gibt sofort ein Ergebnis zurück.  

Auf die Frage, ob er der Meinung sei, dass X es besser machen müsse, antwortete Polyakov, dass dies durchaus der Fall sei. 

„Ich verstehe, dass es ihr Alleinstellungsmerkmal ist, ungefilterte Antworten auf kontroverse Fragen geben zu können, und es ist ihre Entscheidung. Ich kann ihnen die Entscheidung, Empfehlungen für den Bau einer Bombe oder die Gewinnung von DMT zu geben, nicht vorwerfen“, sagte Poljakow.

„Aber wenn sie sich entscheiden, etwas zu filtern und abzulehnen, wie im Beispiel mit Kindern, sollten sie es unbedingt besser machen, insbesondere da es sich nicht um ein weiteres KI-Startup handelt, sondern um das KI-Startup von Elon Musk.“

Wir haben Kontakt zu Ich habe noch nichts gehört. ®

Apropos Jailbreaks … Anthropisch heute detailliert Eine einfache, aber effektive Technik nennt man „Many-Shot-Jailbreaking“. Dazu gehört, ein anfälliges LLM mit vielen zwielichtigen Frage-und-Antwort-Beispielen zu überladen und dann Fragen zu stellen, die es nicht beantworten sollte, die es aber trotzdem beantwortet, etwa wie man eine Bombe baut.

Dieser Ansatz nutzt die Größe des Kontextfensters eines neuronalen Netzwerks aus und „ist sowohl bei den eigenen Modellen von Anthropic als auch bei denen anderer KI-Unternehmen effektiv“, so der ML-Emporkömmling. „Wir haben andere KI-Entwickler vorab über diese Schwachstelle informiert und Abhilfemaßnahmen auf unseren Systemen implementiert.“

Zeitstempel:

Mehr von Das Register