Neue und verbesserte Tools zur Moderation von Inhalten

Image

Wir führen ein neues und verbessertes Tool zur Moderation von Inhalten ein: The Moderationsendpunkt verbessert unseren vorherigen Inhaltsfilter und steht OpenAI-API-Entwicklern heute kostenlos zur Verfügung.

Um Entwicklern dabei zu helfen, ihre Anwendungen vor möglichem Missbrauch zu schützen, führen wir das schnellere und genauere ein Moderationsendpunkt. Dieser Endpunkt bietet OpenAI-API-Entwicklern freien Zugriff auf GPT-basiert Klassifikatoren, die unerwünschte Inhalte erkennen – eine Instanz von mithilfe von KI-Systemen um bei der menschlichen Überwachung dieser Systeme zu helfen. Wir haben auch sowohl a technisches Papier Beschreibung unserer Methodik und der Datensatz zur Auswertung verwendet.

Bei einer Texteingabe bewertet der Moderationsendpunkt, ob der Inhalt sexuell, hasserfüllt oder gewalttätig ist oder Selbstverletzung fördert – Inhalt, der von unseren verboten ist Inhaltsrichtlinie. Der Endpunkt wurde darauf trainiert, schnell und genau zu sein und in einer Reihe von Anwendungen eine robuste Leistung zu erbringen. Wichtig ist, dass dies die Wahrscheinlichkeit verringert, dass Produkte das Falsche „sagen“, selbst wenn sie Benutzern in großem Umfang bereitgestellt werden. Infolgedessen kann KI Vorteile in sensiblen Umgebungen wie dem Bildungswesen erschließen, in denen sie sonst nicht vertrauensvoll eingesetzt werden könnte.

Eingabetext

Gewalt

Selbstbeschädigung

Hassen

Sexuell

Moderationsendpunkt

Der Moderation-Endpunkt hilft Entwicklern, von unseren Infrastrukturinvestitionen zu profitieren. Anstatt ihre eigenen Klassifikatoren zu erstellen und zu warten – ein umfangreicher Prozess, wie wir in unserem dokumentieren Krepppapier– sie können stattdessen über einen einzigen API-Aufruf auf genaue Klassifikatoren zugreifen.

Als Teil von OpenAIs Engagement zu das KI-Ökosystem sicherer machen, stellen wir diesen Endpunkt bereit, um die kostenlose Moderation aller von der OpenAI-API generierten Inhalte zu ermöglichen. Zum Beispiel, Inwelt, ein OpenAI-API-Kunde, verwendet den Moderation-Endpunkt, um seinen KI-basierten virtuellen Charakteren dabei zu helfen, „im Skript zu bleiben“. Durch die Nutzung der Technologie von OpenAI kann sich Inworld auf sein Kernprodukt konzentrieren – die Schaffung unvergesslicher Charaktere.

Darüber hinaus begrüßen wir die Verwendung des Endpunkts zum Moderieren von Inhalten nicht generiert mit der OpenAI API. In einem Fall das Unternehmen ngl – eine anonyme Messaging-Plattform mit Fokus auf Sicherheit – verwendet den Moderation-Endpunkt, um hasserfüllte Sprache und Mobbing in ihrer Anwendung zu erkennen. NGL stellt fest, dass diese Klassifikatoren in der Lage sind, auf den neuesten Slang zu verallgemeinern, wodurch sie im Laufe der Zeit sicherer bleiben. Die Verwendung des Moderationsendpunkts zur Überwachung des Nicht-API-Datenverkehrs befindet sich in der privaten Betaphase und ist gebührenpflichtig. Bei Interesse wenden Sie sich bitte an uns unter support@openai.com.


Beginnen Sie mit dem Moderationsendpunkt, indem Sie ihn auschecken die Dokumentation. Weitere Details zum Trainingsprozess und zur Modellleistung finden Sie in unserem Krepppapier. Wir haben auch eine veröffentlicht Bewertungsdatensatz, mit Common Crawl-Daten, die in diesen Kategorien gekennzeichnet sind, von denen wir hoffen, dass sie weitere Forschungen in diesem Bereich anregen werden.

Zeitstempel:

Mehr von OpenAI