Forskare skapade "OpinionGPT" för att utforska explicit mänsklig fördom - och du kan testa det själv

Forskare skapade "OpinionGPT" för att utforska explicit mänsklig fördom - och du kan testa det själv

Ett team av forskare från Humboldt-Universitat zu Berlin har utvecklat en stor språkmodell för artificiell intelligens med skillnaden att ha avsiktligt trimmats för att generera utdata med uttryckt fördom.

Teamets modell kallas OpinionGPT och är en trimmad variant av Metas Llama 2, ett AI-system som liknar OpenAIs ChatGPT eller Anthropics Claude 2.

Genom att använda en process som kallas instruktionsbaserad finjustering, kan OpinionGPT påstås svara på uppmaningar som om det vore en representant för en av 11 partiska grupper: amerikansk, tysk, latinamerikansk, mellanöstern, en tonåring, någon över 30, en äldre person , en man, en kvinna, en liberal eller en konservativ.

OpinionGPT förfinades på en samling data som härrörde från "AskX"-gemenskaper, kallade subreddits, på Reddit. Exempel på dessa subreddits skulle inkludera "Fråga en kvinna" och "Fråga en amerikan."

Teamet började med att hitta subreddits relaterade till de 11 specifika fördomarna och drog de 25-tusen mest populära inläggen från var och en. De behöll då endast de inlägg som uppfyllde en lägsta tröskel för uppröster, inte innehöll ett inbäddat citat och var under 80 ord.

Med det som var kvar verkar det som om de använde en tillvägagångssätt liknande Anthropics Constitutional AI. Istället för att skapa helt nya modeller för att representera varje bias-etikett, finjusterade de i huvudsak den enda 7 miljarder parametrar Llama2-modellen med separata instruktionsuppsättningar för varje förväntad bias.

Relaterat: AI-användning på sociala medier har potential att påverka väljarnas känslor

Resultatet, baserat på metodiken, arkitekturen och data beskriven i det tyska teamets forskningsartikel, verkar vara ett AI-system som fungerar mer som en stereotypgenerator än ett verktyg för att studera verkliga fördomar.

På grund av typen av data som modellen har förfinats på, och den datas tvivelaktiga relation till etiketterna som definierar den, matar OpinionGPT inte nödvändigtvis ut text som är i linje med någon mätbar verklighetsfördom. Den matar helt enkelt ut text som återspeglar dess datas partiskhet.

Forskarna själva känner igen några av de begränsningar detta sätter på sin studie och skriver:

"Till exempel bör svaren från "amerikaner" bättre förstås som "amerikaner som postar på Reddit", eller till och med "amerikaner som postar på just denna subreddit." På liknande sätt bör "tyskarna" förstås som "tyskarna som gör inlägg på just denna subreddit" etc."

Dessa varningar skulle kunna förfinas ytterligare för att säga att inläggen kommer från, till exempel, "människor som påstår sig vara amerikaner som gör inlägg på just denna subreddit", eftersom det inte finns något omnämnande i tidningen om att granska om affischerna bakom ett visst inlägg faktiskt är representativa av den demografiska eller partiska grupp de påstår sig vara.

Författarna fortsätter med att konstatera att de avser att utforska modeller som ytterligare avgränsar demografin (dvs. liberal tysk, konservativ tysk).

Resultaten som ges av OpinionGPT verkar variera mellan att representera påvisbar partiskhet och att skilja sig mycket från den etablerade normen, vilket gör det svårt att urskilja dess livskraft som ett verktyg för att mäta eller upptäcka faktisk fördom.

Forskare skapade 'OpinionGPT' för att utforska explicit mänsklig fördom - och du kan testa det själv PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.
Källa: Skärmdump, Tabell 2: Haller et. al., 2023

Enligt OpinionGPT, som visas i bilden ovan, till exempel, är latinamerikaner partiska mot att basket är deras favoritsport.

Empirisk forskning är dock helt klart pekar på att fotboll (även kallad fotboll i vissa länder) och baseboll är de mest populära sporterna efter tittare och deltagande i hela Latinamerika.

Samma tabell visar också att OpinionGPT anger "vattenpolo" som sin favoritsport när man uppmanas att ge "en tonårings svar", ett svar som verkar statistiskt osannolik att vara representativ för de flesta 13-19-åringar runt om i världen.

Detsamma gäller tanken att en genomsnittlig amerikans favoritmat är "ost". Vi hittade dussintals undersökningar på nätet som hävdade att pizza och hamburgare var USA:s favoriträtter, men vi kunde inte hitta en enda undersökning eller studie som hävdade att amerikanernas nummer ett helt enkelt var ost.

Även om OpinionGPT kanske inte är väl lämpad för att studera faktisk mänsklig fördom, kan det vara användbart som ett verktyg för att utforska stereotyperna som finns i stora dokumentförråd som individuella subreddits eller AI-träningsset.

För den som är nyfiken har forskarna gjort OpinionGPT tillgänglig online för offentliga tester. Men enligt webbplatsen bör potentiella användare vara medvetna om att "genererat innehåll kan vara falskt, felaktigt eller till och med obscent."

Tidsstämpel:

Mer från Cointelegraph