Festlegung von Belohnungskriterien für die Meldung von Fehlern in KI-Produkten

Neuauflage von Plato

Verfolger: 0

Festlegung von Belohnungskriterien für die Meldung von Fehlern in KI-Produkten PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Bei Google unterhalten wir eine Programm zur Verbesserung der Sicherheitslücke Zur Würdigung innovativer externer Beiträge, die sich mit Problemen in den Web-Angeboten von Google und Alphabet-Tochtergesellschaften befassen. Um mit den rasanten Fortschritten bei KI-Technologien Schritt zu halten und sicherzustellen, dass wir auf die Sicherheitsherausforderungen in a vorbereitet sind für ihren Verlust verantwortlich. So haben wir kürzlich unser bestehendes erweitert Bug Hunters-Programm um die Entdeckung und Meldung von Problemen und Schwachstellen unserer KI-Systeme durch Dritte zu fördern. Diese Erweiterung ist Teil unserer Bemühungen, das umzusetzen freiwillige KI-Verpflichtungen das wir im Juli im Weißen Haus gemacht haben.

Um der Sicherheitsgemeinschaft ein besseres Verständnis dieser Entwicklungen zu ermöglichen, haben wir weitere Informationen zu den Elementen des Prämienprogramms beigefügt.

Was ist im Umfang der Prämien enthalten?

In unserer jüngsten Bericht des AI Red Teams, das basiert auf Googles AI Red Team In den Übungen haben wir gängige Taktiken, Techniken und Verfahren (TTPs) identifiziert, die wir für am relevantesten und realistischsten halten reale Gegner, die gegen KI-Systeme eingesetzt werden können. Die folgende Tabelle enthält die Erkenntnisse, die wir gewonnen haben, um der Forschungsgemeinschaft zu helfen, unsere Kriterien für KI-Fehlerberichte zu verstehen und herauszufinden, was für unser Belohnungsprogramm in Frage kommt. Es ist wichtig zu beachten, dass die Höhe der Belohnungen von der Schwere des Angriffsszenarios und der Art des betroffenen Ziels abhängt (Besuch). die Seite mit den Programmregeln Weitere Informationen finden Sie in unserer Belohnungstabelle).

Prompt-Angriffe: Erstellen gegnerischer Prompts, die es einem Angreifer ermöglichen, das Verhalten des Modells und damit die Ausgabe auf eine Weise zu beeinflussen, die von der Anwendung nicht beabsichtigt war.	Sofortige Injektionen, die für Opfer unsichtbar sind und den Status des Kontos des Opfers oder eines seiner Vermögenswerte ändern.
	Sofortige Injektionen in alle Tools, in denen die Reaktion verwendet wird, um Entscheidungen zu treffen, die sich direkt auf die Benutzer des Opfers auswirken.
	Eingabeaufforderungs- oder Präambelextraktion, bei der ein Benutzer die anfängliche Eingabeaufforderung, die zum Vorbereiten des Modells verwendet wird, nur dann extrahieren kann, wenn vertrauliche Informationen in der extrahierten Präambel vorhanden sind.
	Verwenden eines Produkts, um in Ihrer eigenen Sitzung verletzende, irreführende oder sachlich falsche Inhalte zu generieren: z. B. „Jailbreaks“. Dazu gehören „Halluzinationen“ und sachlich unzutreffende Antworten. Die generativen KI-Produkte von Google verfügen bereits über einen speziellen Meldekanal für diese Art von Inhaltsproblemen.	Außer Reichweite
Extraktion von Trainingsdaten: Angriffe, die in der Lage sind, Trainingsbeispiele, die vertrauliche Informationen enthalten, erfolgreich wörtlich zu rekonstruieren. Wird auch als Mitgliedschaftsinferenz bezeichnet.	Trainingsdatenextraktion, die im Trainingsdatensatz verwendete Elemente rekonstruiert, die vertrauliche, nicht öffentliche Informationen preisgeben.
	Extraktion, die nicht sensible/öffentliche Informationen rekonstruiert.	Außer Reichweite
Modelle manipulieren: Ein Angreifer ist in der Lage, das Verhalten eines Modells heimlich so zu ändern, dass es vordefinierte gegnerische Verhaltensweisen auslösen kann.	Gegnerische Ausgabe oder Verhalten, das ein Angreifer zuverlässig über bestimmte Eingaben in einem Modell auslösen kann, das Google gehört und von Google betrieben wird („Hintertüren“). Nur im Geltungsbereich, wenn die Ausgabe eines Modells verwendet wird, um den Status des Kontos oder der Daten eines Opfers zu ändern.
	Angriffe, bei denen ein Angreifer die Trainingsdaten des Modells manipuliert, um die Ausgabe des Modells in der Sitzung eines Opfers entsprechend den Präferenzen des Angreifers zu beeinflussen. Nur im Geltungsbereich, wenn die Ausgabe eines Modells verwendet wird, um den Status des Kontos oder der Daten eines Opfers zu ändern.
Widersprüchliche Störung: Eingaben, die einem Modell bereitgestellt werden und zu einer deterministischen, aber höchst unerwarteten Ausgabe des Modells führen.	Kontexte, in denen ein Angreifer zuverlässig eine Fehlklassifizierung in einer Sicherheitskontrolle auslösen kann, die für böswillige Zwecke oder zum Vorteil des Gegners missbraucht werden kann.
	Kontexte, in denen die falsche Ausgabe oder Klassifizierung eines Modells kein überzeugendes Angriffsszenario oder einen möglichen Weg darstellt, der Google oder Nutzern Schaden zufügt.	Außer Reichweite
Modelldiebstahl/-exfiltration: KI-Modelle enthalten oft sensibles geistiges Eigentum, daher legen wir großen Wert auf den Schutz dieser Vermögenswerte. Exfiltrationsangriffe ermöglichen es Angreifern, Details über ein Modell wie seine Architektur oder Gewichte zu stehlen.	Angriffe, bei denen die genaue Architektur oder Gewichte eines vertraulichen/proprietären Modells extrahiert werden.
	Angriffe, bei denen die Architektur und Gewichte nicht präzise extrahiert werden oder wenn sie aus einem nicht vertraulichen Modell extrahiert werden.	Außer Reichweite
Wenn Sie einen anderen als den oben aufgeführten Fehler in einem KI-gestützten Tool feststellen, können Sie es dennoch einreichen, sofern es die Anforderungen erfüllt Qualifikationen, die auf unserer Programmseite aufgeführt sind.	Ein Fehler oder Verhalten, das eindeutig unseren Qualifikationen für ein gültiges Sicherheits- oder Missbrauchsproblem entspricht.
	Mit einem KI-Produkt etwas potenziell Schädliches tun, was mit anderen Tools bereits möglich ist. Zum Beispiel das Finden einer Schwachstelle in Open-Source-Software (bereits möglich mithilfe öffentlich verfügbarer Software). Statische Analysewerkzeuge) und die Antwort auf eine schädliche Frage erstellen, wenn die Antwort bereits online verfügbar ist.	Außer Reichweite
	Gemäß unserem Programm sind Probleme, von denen wir bereits wissen, nicht belohnungsberechtigt.	Außer Reichweite
	Potenzielle Urheberrechtsprobleme – Ergebnisse, bei denen Produkte Inhalte zurückgeben, die scheinbar urheberrechtlich geschützt sind. Die generativen KI-Produkte von Google verfügen bereits über einen speziellen Meldekanal für diese Art von Inhaltsproblemen.	Außer Reichweite

Wir glauben, dass die Ausweitung unseres Bug-Bounty-Programms auf unsere KI-Systeme unterstützend wirken wird verantwortungsvolle KI-Innovation, und freuen uns darauf, unsere Arbeit mit der Forschungsgemeinschaft fortzusetzen, um Sicherheits- und Missbrauchsprobleme in unseren KI-gestützten Funktionen zu entdecken und zu beheben. Wenn Sie ein qualifizierendes Problem finden, besuchen Sie bitte unsere Bug Hunters-Website, um uns Ihren Fehlerbericht zu senden und – wenn sich herausstellt, dass das Problem gültig ist – dafür belohnt zu werden, dass Sie uns helfen, die Sicherheit unserer Benutzer zu gewährleisten.

SEO-gestützte Content- und PR-Distribution. Holen Sie sich noch heute Verstärkung.
PlatoData.Network Vertikale generative KI. Motiviere dich selbst. Hier zugreifen.
PlatoAiStream. Web3-Intelligenz. Wissen verstärkt. Hier zugreifen.
PlatoESG. Kohlenstoff, CleanTech, Energie, Umwelt, Solar, Abfallwirtschaft. Hier zugreifen.
PlatoHealth. Informationen zu Biotechnologie und klinischen Studien. Hier zugreifen.
Quelle: https://www.darkreading.com/vulnerabilities-threats/establishing-reward-criteria-for-reporting-bugs-in-ai-products

Zeitstempel: 15. Dezember 2023

Zeitstempel: Jan 10, 2024

Festlegung von Belohnungskriterien für die Meldung von Fehlern in KI-Produkten

Neuauflage von Plato

Was ist im Umfang der Prämien enthalten?

Mehr von Dunkle Lektüre

Umfassende Netzwerktransparenz ist für die Zero-Trust-Reife unerlässlich

Fragen und Antworten: Generative KI kommt in den Nahen Osten und treibt Sicherheitsveränderungen voran

Monti, the New Conti: Ransomware Gang verwendet recycelten Code

Beim StackRot-Linux-Kernel-Bug ist Exploit-Code unterwegs

Cyberkriminelle schließen sich zusammen, um die Malware „SapphireStealer“ zu aktualisieren

IoT-Fingerabdruck hilft bei der Authentifizierung und Sicherung all dieser Geräte

Ist die Investitionsblase in der israelischen Cybersicherheit geplatzt?

Über uns

Vertikale Suche & Ai

Plattform

Bleiben Sie in Verbindung

Konto