Ustanawianie kryteriów nagradzania za zgłaszanie błędów w produktach AI

Opublikowane ponownie przez Plato

Obserwuje: 0

Ustanawianie kryteriów nagradzania za zgłaszanie błędów w produktach AI PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

W Google utrzymujemy: Program nagród za usterki aby uhonorować nowatorski wkład zewnętrzny w rozwiązywanie problemów w witrynach internetowych należących do Google i spółek zależnych Alphabet. Aby nadążać za szybkim postępem w technologiach sztucznej inteligencji i mieć pewność, że jesteśmy przygotowani na sprostanie wyzwaniom związanym z bezpieczeństwem w: odpowiedzialny sposób, niedawno rozszerzyliśmy naszą istniejącą Program Łowcy Bugów aby wspierać wykrywanie i zgłaszanie przez strony trzecie problemów i luk charakterystycznych dla naszych systemów sztucznej inteligencji. To rozszerzenie jest częścią naszych wysiłków mających na celu wdrożenie dobrowolne zobowiązania dotyczące sztucznej inteligencji które złożyliśmy w lipcu w Białym Domu.

Aby pomóc społeczności zajmującej się bezpieczeństwem lepiej zrozumieć te zmiany, zamieściliśmy więcej informacji na temat elementów programu nagród.

Co obejmuje zakres nagród

W naszej ostatniej Raport czerwonego zespołu AI, który jest oparty na Zespół Google AI Red ćwiczeń zidentyfikowaliśmy wspólne taktyki, techniki i procedury (TTP), które uważamy za najbardziej odpowiednie i realistyczne przeciwników ze świata rzeczywistego, których można wykorzystać przeciwko systemom sztucznej inteligencji. Poniższa tabela zawiera informacje, których się nauczyliśmy, aby pomóc społeczności badawczej zrozumieć nasze kryteria dotyczące raportów o błędach AI oraz zakres naszego programu nagród. Należy pamiętać, że wysokość nagrody zależy od ciężkości scenariusza ataku i rodzaju celu, którego dotyczy (wizyta stronę z zasadami programu aby uzyskać więcej informacji na temat naszej tabeli nagród).

Natychmiastowe ataki: Tworzenie kontradyktoryjnych podpowiedzi, które pozwalają przeciwnikowi wpłynąć na zachowanie modelu, a tym samym na wynik, w sposób niezamierzony przez aplikację.	Natychmiastowe zastrzyki, które są niewidoczne dla ofiar i zmieniają stan konta ofiary lub dowolnego jej majątku.
	Natychmiastowe wstrzyknięcia do dowolnych narzędzi, w których odpowiedź jest wykorzystywana do podejmowania decyzji mających bezpośredni wpływ na użytkowników będących ofiarami.
	Ekstrakcja podpowiedzi lub preambuły, w ramach której użytkownik może wyodrębnić zachętę początkową używaną do przygotowania modelu tylko wtedy, gdy wyodrębniona preambuła zawiera wrażliwe informacje.
	Używanie produktu do generowania we własnej sesji treści naruszających zasady, wprowadzających w błąd lub niezgodnych ze stanem faktycznym, np. „jailbreaki”. Obejmuje to „halucynacje” i odpowiedzi niezgodne z faktami. Produkty Google do generowania sztucznej inteligencji mają już dedykowany kanał raportowania tego typu problemów z treścią.	Poza zakresem
Ekstrakcja danych szkoleniowych: Ataki, które potrafią z powodzeniem zrekonstruować dosłowne przykłady szkoleniowe zawierające poufne informacje. Zwane także wnioskowaniem o członkostwie.	Ekstrakcja danych szkoleniowych, która rekonstruuje elementy używane w zestawie danych szkoleniowych, z których wyciekają wrażliwe, niepubliczne informacje.
	Ekstrakcja, która rekonstruuje informacje niewrażliwe/publiczne.	Poza zakresem
Manipulowanie modelami: osoba atakująca, która może w ukryciu zmienić zachowanie modelu w taki sposób, że może wywołać wcześniej zdefiniowane, kontradyktoryjne zachowania.	Kontrowersyjne dane wyjściowe lub zachowanie, które osoba atakująca może niezawodnie wywołać poprzez określone dane wejściowe w modelu należącym do Google i przez nią obsługiwanym („backdoory”). Tylko w zakresie, w którym dane wyjściowe modelu są wykorzystywane do zmiany stanu konta lub danych ofiary.
	Ataki, podczas których osoba atakująca manipuluje danymi szkoleniowymi modelu, aby wpłynąć na wyniki modelu w sesji ofiary zgodnie z preferencjami atakującego. Tylko w zakresie, w którym dane wyjściowe modelu są wykorzystywane do zmiany stanu konta lub danych ofiary.
Perturbacja kontradyktoryjna: dane wejściowe dostarczane do modelu, których wynikiem jest deterministyczny, ale wysoce nieoczekiwany wynik modelu.	Konteksty, w których przeciwnik może niezawodnie wywołać błędną klasyfikację w mechanizmach kontroli bezpieczeństwa, która może zostać wykorzystana do złośliwego użycia lub osiągnięcia kontradyktoryjnego zysku.
	Konteksty, w których nieprawidłowe dane wyjściowe lub klasyfikacja modelu nie stanowią przekonującego scenariusza ataku ani realnej ścieżki wyrządzenia Google lub szkody użytkownikowi.	Poza zakresem
Kradzież/eksfiltracja modelu: modele sztucznej inteligencji często obejmują wrażliwą własność intelektualną, dlatego przywiązujemy dużą wagę do ochrony tych zasobów. Ataki eksfiltracyjne umożliwiają atakującym kradzież szczegółów modelu, takich jak jego architektura czy waga.	Ataki, podczas których wyodrębniana jest dokładna architektura lub wagi modelu poufnego/zastrzeżonego.
	Ataki, podczas których architektura i wagi nie są wyodrębniane precyzyjnie lub gdy są wyodrębniane z niepoufnego modelu.	Poza zakresem
Jeśli w narzędziu opartym na sztucznej inteligencji znajdziesz wadę inną niż wymieniona powyżej, nadal możesz przesłać zgłoszenie, pod warunkiem, że spełnia ono kwalifikacje wymienione na stronie naszego programu.	Błąd lub zachowanie, które wyraźnie spełnia nasze kryteria dotyczące ważnego problemu związanego z bezpieczeństwem lub nadużyciem.
	Wykorzystywanie produktu AI do zrobienia czegoś potencjalnie szkodliwego, co jest już możliwe przy użyciu innych narzędzi. Na przykład znalezienie luki w oprogramowaniu open source (możliwe już przy użyciu publicznie dostępnych narzędzia do analizy statycznej) i udzielenie odpowiedzi na szkodliwe pytanie, gdy odpowiedź jest już dostępna w Internecie.	Poza zakresem
	Zgodnie z naszym programem problemy, o których już wiemy, nie kwalifikują się do nagrody.	Poza zakresem
	Potencjalne problemy z prawami autorskimi — ustalenia, w których produkty zwracają treści wyglądające na chronione prawami autorskimi. Produkty Google do generowania sztucznej inteligencji mają już dedykowany kanał raportowania tego typu problemów z treścią.	Poza zakresem

Wierzymy, że rozszerzenie naszego programu nagród za błędy na nasze systemy AI będzie pomocne odpowiedzialne innowacje w zakresie sztucznej inteligencjii nie możemy się doczekać dalszej współpracy ze społecznością badawczą, aby odkryć i naprawić problemy związane z bezpieczeństwem i nadużyciami w naszych funkcjach opartych na sztucznej inteligencji. Jeśli znajdziesz kwalifikujący się problem, przejdź do naszej witryny Bug Hunters i wyślij nam raport o błędzie, a jeśli problem zostanie uznany za zasadny, otrzymasz nagrodę za pomoc w zapewnieniu bezpieczeństwa naszym użytkownikom.

Dystrybucja treści i PR oparta na SEO. Uzyskaj wzmocnienie już dziś.
PlatoData.Network Pionowe generatywne AI. Wzmocnij się. Dostęp tutaj.
PlatoAiStream. Inteligencja Web3. Wiedza wzmocniona. Dostęp tutaj.
PlatonESG. Węgiel Czysta technologia, Energia, Środowisko, Słoneczny, Gospodarowanie odpadami. Dostęp tutaj.
Platon Zdrowie. Inteligencja w zakresie biotechnologii i badań klinicznych. Dostęp tutaj.
Źródło: https://www.darkreading.com/vulnerabilities-threats/establishing-reward-criteria-for-reporting-bugs-in-ai-products

Znak czasu: 15 grudnia 2023 r.

Znak czasu: Jan 10, 2024

Ustanawianie kryteriów nagradzania za zgłaszanie błędów w produktach AI

Opublikowane ponownie przez Plato

Co obejmuje zakres nagród

Więcej z Mroczne czytanie

Kompleksowa widoczność sieci jest niezbędna dla dojrzałości zerowego zaufania

Pytania i odpowiedzi: Generatywna sztuczna inteligencja wkracza na Bliski Wschód, powodując zmiany w zakresie bezpieczeństwa

Monti, nowy Conti: Ransomware Gang wykorzystuje kod z recyklingu

StackRot Linux Kernel Bug ma kod exploita w drodze

Cyberprzestępcy łączą siły, aby zaktualizować złośliwe oprogramowanie „SapphireStealer”.

IoT Fingerprint pomaga uwierzytelniać i zabezpieczać wszystkie te urządzenia

Czy pękła bańka inwestycyjna w izraelskim cyberbezpieczeństwie?

O nas

Wyszukiwanie pionowe i AI

Platforma

Pozostań w kontakcie

Konto