Wissenschaftler haben „OpinionGPT“ entwickelt, um explizite menschliche Vorurteile zu erforschen – und Sie können es selbst testen

Wissenschaftler haben „OpinionGPT“ entwickelt, um explizite menschliche Vorurteile zu erforschen – und Sie können es selbst testen

Ein Forscherteam der Humboldt-Universität zu Berlin hat ein großsprachliches Modell der künstlichen Intelligenz entwickelt, das sich dadurch auszeichnet, dass es absichtlich so abgestimmt wurde, dass es Ergebnisse mit ausgeprägter Voreingenommenheit generiert.

Das Modell des Teams mit dem Namen OpinionGPT ist eine optimierte Variante von Metas Llama 2, einem KI-System, das in seinen Fähigkeiten dem ChatGPT von OpenAI oder Claude 2 von Anthropic ähnelt.

Mithilfe eines Prozesses, der als anweisungsbasierte Feinabstimmung bezeichnet wird, kann OpinionGPT angeblich auf Eingabeaufforderungen reagieren, als wäre es ein Vertreter einer von 11 Vorurteilsgruppen: Amerikaner, Deutscher, Lateinamerikaner, Nahost, ein Teenager, jemand über 30, eine ältere Person , ein Mann, eine Frau, ein Liberaler oder ein Konservativer.

OpinionGPT wurde anhand eines Datenkorpus verfeinert, der von „AskX“-Communitys, sogenannten Subreddits, auf Reddit stammt. Beispiele für diese Subreddits wären „Ask a Woman“ und „Ask an American“.

Das Team begann damit, Subreddits zu finden, die sich auf die 11 spezifischen Vorurteile beziehen, und aus jedem einzelnen die 25 beliebtesten Beiträge zu extrahieren. Sie behielten dann nur die Beiträge bei, die einen Mindestschwellenwert für Upvotes erreichten, kein eingebettetes Zitat enthielten und weniger als 80 Wörter lang waren.

Bei dem, was noch übrig war, sieht es so aus, als ob sie eine verwendet hätten Ansatz ähnlich der Constitutional AI von Anthropic. Anstatt völlig neue Modelle zu entwickeln, um jedes Bias-Label darzustellen, haben sie im Wesentlichen das einzelne 7-Milliarden-Parameter-Llama2-Modell mit separaten Befehlssätzen für jeden erwarteten Bias verfeinert.

Related: Der Einsatz von KI in sozialen Medien kann die Stimmung der Wähler beeinflussen

Das Ergebnis, basierend auf der Methodik, Architektur und Daten beschrieben In der Forschungsarbeit des deutschen Teams scheint es sich um ein KI-System zu handeln, das eher als Stereotypengenerator denn als Werkzeug zur Untersuchung realer Vorurteile fungiert.

Aufgrund der Art der Daten, anhand derer das Modell verfeinert wurde, und der zweifelhaften Beziehung dieser Daten zu den Labels, die sie definieren, gibt OpinionGPT nicht unbedingt Text aus, der mit einer messbaren Tendenz in der realen Welt übereinstimmt. Es gibt lediglich Text aus, der die Tendenz seiner Daten widerspiegelt.

Die Forscher selbst erkennen einige der Einschränkungen, die dies ihrer Studie auferlegt, und schreiben:

„Zum Beispiel sollten die Antworten von „Amerikanern“ besser als „Amerikaner, die auf Reddit posten“ oder sogar „Amerikaner, die auf diesem bestimmten Subreddit posten“ verstanden werden. Ebenso sollten „Deutsche“ als „Deutsche, die auf diesem Subreddit posten“ verstanden werden bestimmtes Subreddit usw.“

Diese Vorbehalte könnten weiter präzisiert werden, um beispielsweise zu sagen, dass die Beiträge von „Personen stammen, die sich als Amerikaner ausgeben und auf diesem bestimmten Subreddit posten“, da in dem Papier nicht erwähnt wird, dass überprüft wird, ob die Poster hinter einem bestimmten Beitrag tatsächlich repräsentativ sind der demografischen oder voreingenommenen Gruppe, zu der sie sich ausgeben.

Die Autoren geben weiter an, dass sie Modelle untersuchen wollen, die demografische Merkmale weiter abgrenzen (z. B. liberales Deutsch, konservatives Deutsch).

Die von OpinionGPT bereitgestellten Ergebnisse scheinen zwischen nachweisbarer Voreingenommenheit und erheblichen Abweichungen von der etablierten Norm zu schwanken, was es schwierig macht, seine Brauchbarkeit als Instrument zur Messung oder Entdeckung tatsächlicher Voreingenommenheit zu erkennen.

Wissenschaftler haben „OpinionGPT“ entwickelt, um explizite menschliche Vorurteile zu erforschen – und Sie können es selbst testen: PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.
Quelle: Screenshot, Tabelle 2: Haller et. al., 2023

Laut OpinionGPT sind Lateinamerikaner, wie im obigen Bild zu sehen ist, voreingenommen, dass Basketball ihr Lieblingssport ist.

Empirische Forschung jedoch eindeutig zeigt dass Fußball (in manchen Ländern auch Fußball genannt) und Baseball nach Zuschauerzahl und Beteiligung die beliebtesten Sportarten in ganz Lateinamerika sind.

Die gleiche Tabelle zeigt auch, dass OpinionGPT „Wasserball“ als seine Lieblingssportart ausgibt, wenn es angewiesen wird, die „Antwort eines Teenagers“ zu geben, eine Antwort, die statistisch gesehen erscheint unwahrscheinlich repräsentativ für die meisten 13- bis 19-Jährigen auf der ganzen Welt zu sein.

Das Gleiche gilt für die Vorstellung, dass das Lieblingsessen eines durchschnittlichen Amerikaners „Käse“ ist. Wir haben Dutzende Online-Umfragen gefunden, in denen behauptet wurde, dass Pizza und Hamburger Amerikas Lieblingsspeisen seien, konnten jedoch keine einzige Umfrage oder Studie finden, die behauptete, das Hauptgericht der Amerikaner sei einfach Käse.

Obwohl OpinionGPT möglicherweise nicht für die Untersuchung tatsächlicher menschlicher Voreingenommenheit geeignet ist, könnte es als Werkzeug zur Erforschung der Stereotypen nützlich sein, die großen Dokument-Repositories wie einzelnen Subreddits oder KI-Trainingssätzen innewohnen.

Für diejenigen, die neugierig sind, haben die Forscher OpinionGPT erstellt verfügbar online zum öffentlichen Testen. Laut der Website sollten sich potenzielle Nutzer jedoch darüber im Klaren sein, dass „generierte Inhalte falsch, ungenau oder sogar obszön sein können“.

Zeitstempel:

Mehr von Cointelegraph