Redukcja stronniczości i poprawa bezpieczeństwa w DALL·E 2

Opublikowane ponownie przez Plato

Obserwuje: 0

Dzisiaj wdrażamy nową technikę, dzięki której DALL·E generuje obrazy ludzi, które dokładniej odzwierciedlają różnorodność populacji świata. Ta technika jest stosowana na poziomie systemu, gdy DALL·E otrzymuje podpowiedź opisującą osobę, która nie określa rasy lub płci, np. „strażak”.

Na podstawie naszej wewnętrznej oceny użytkownicy 12 razy częściej twierdzili, że obrazy DALL·E zawierały osoby o różnym pochodzeniu po zastosowaniu tej techniki. Planujemy ulepszyć tę technikę z czasem, gdy zbierzemy więcej danych i informacji zwrotnych.

Zdjęcie CEO

Generuj swój

Przed łagodzeniem

Po złagodzeniu

W kwietniu rozpoczęliśmy prezentację wyników badań DALL·E 2 ograniczonej liczbie osób, co pozwoliło nam lepiej zrozumieć możliwości i ograniczenia systemu oraz ulepszyć nasze systemy bezpieczeństwa.

W tej fazie podglądu pierwsi użytkownicy oznaczyli wrażliwe i stronnicze obrazy, które pomogły w informowaniu i ocenie tego nowego łagodzenia.

Nieustannie badamy, w jaki sposób systemy sztucznej inteligencji, takie jak DALL·E, mogą odzwierciedlać uprzedzenia w danych treningowych i różne sposoby ich rozwiązywania.

Podczas podglądu badań podjęliśmy inne kroki w celu ulepszenia naszych systemów bezpieczeństwa, w tym:

Minimalizowanie ryzyka nadużycia DALL·E do tworzenia zwodniczych treści poprzez odrzucanie przesyłanych obrazów zawierających realistyczne twarze i próby stworzenia podobizny osób publicznych, w tym celebrytów i prominentnych osobistości politycznych.
Zwiększenie dokładności naszych filtrów treści, aby skuteczniej blokowały monity i przesyłanie obrazów, które naruszają nasze polityka treści jednocześnie pozwalając na twórczą ekspresję.
Udoskonalenie zautomatyzowanych i ludzkich systemów monitorowania w celu ochrony przed nadużyciami.

Te ulepszenia pomogły nam zdobyć zaufanie do możliwości zaproszenia większej liczby użytkowników do doświadczenia DALL·E.

Poszerzanie dostępu jest ważną częścią naszego odpowiedzialne wdrażanie systemów AI ponieważ pozwala nam dowiedzieć się więcej o rzeczywistych zastosowaniach i kontynuować iterację naszych systemów bezpieczeństwa.

Znak czasu: 18 lipca 2022 r.18 lipca 2022 r.

Znak czasu: Grudnia 13, 2023

Redukcja stronniczości i poprawa bezpieczeństwa w DALL·E 2

Opublikowane ponownie przez Plato

Więcej z OpenAI

Praktyki zarządzania agentycznymi systemami AI

Przedstawiamy OpenAI Londyn

Nauczanie modeli wyrażania niepewności słowami

OpenAI ogłasza nowych członków zarządu

Doskonalenie rozumowania matematycznego poprzez nadzór nad procesem

Rozporządzenie Frontier AI: zarządzanie pojawiającymi się zagrożeniami dla bezpieczeństwa publicznego

Karta systemowa GPT-4V(ision).

Przedstawiamy zespół ChatGPT

Partnerstwo z Axelem Springerem w celu pogłębienia korzystnego wykorzystania sztucznej inteligencji w dziennikarstwie

O nas

Wyszukiwanie pionowe i AI

Platforma

Pozostań w kontakcie

Konto