Tiedemiehet loivat OpinionGPT:n tutkiakseen eksplisiittistä ihmisen ennakkoluulottomuutta – ja voit testata sitä itse

Tiedemiehet loivat OpinionGPT:n tutkiakseen eksplisiittistä ihmisen ennakkoluulottomuutta – ja voit testata sitä itse

Humboldt-Universitat zu Berlinin tutkijaryhmä on kehittänyt laajan kielen tekoälymallin, joka erottuu siitä, että se on tarkoituksella viritetty tuottamaan tulosteita, joissa on ilmeistä ennakkoluulottomuutta.

OpinionGPT-niminen tiimin malli on viritetty muunnos Meta's Llama 2:sta, tekoälyjärjestelmästä, joka on samanlainen kuin OpenAI:n ChatGPT tai Anthropicin Claude 2.

OpinionGPT voi vastata kehotuksiin ikään kuin se edustaisi yhtä 11 puolueellisesta ryhmästä: amerikkalainen, saksalainen, latinalaisamerikkalainen, Lähi-itä, teini, joku yli 30-vuotias, vanhempi henkilö käyttämällä prosessia, jota kutsutaan ohjepohjaiseksi hienosäädöksi. , mies, nainen, liberaali tai konservatiivi.

OpinionGPT on jalostettu Redditin "AskX"-yhteisöistä johdettuun datakorkukseen, jota kutsutaan subredditeiksi. Esimerkkejä näistä alikirjoituksista ovat "Kysy naiselta" ja "Kysy amerikkalaisesta".

Ryhmä aloitti etsimällä alikirjoituksia, jotka liittyvät 11 tiettyyn harhaan ja poimimalla kustakin 25 80 suosituinta viestiä. Sitten he säilyttivät vain ne viestit, jotka täyttivät puolustelukynnyksen, eivät sisältäneet upotettua lainausta ja olivat alle XNUMX sanaa.

Jäljelle jääneen kanssa näyttää siltä, ​​että he olisivat käyttäneet lähestymistapa samanlainen kuin Anthropic's Constitutional AI. Sen sijaan, että olisi kehitetty täysin uusia malleja edustamaan kutakin bias-merkkiä, he pääsääntöisesti hienosääsivät yhden 7 miljardin parametrin Llama2-mallin erillisillä ohjesarjoilla kullekin odotetulle harhalle.

Related: Tekoälyn käyttö sosiaalisessa mediassa voi vaikuttaa äänestäjien tunteisiin

Tulos, joka perustuu metodologiaan, arkkitehtuuriin ja tietoihin on kuvattu Saksan ryhmän tutkimuspaperissa, näyttää olevan tekoälyjärjestelmä, joka toimii enemmän stereotypioiden luojana kuin työkaluna todellisen maailman harhaan.

Johtuen tietojen luonteesta, jota mallia on jalostettu ja näiden tietojen kyseenalainen suhde sen määrittäviin tunnisteisiin, OpinionGPT ei välttämättä tulosta tekstiä, joka on linjassa minkään mitattavissa olevan todellisen harhan kanssa. Se yksinkertaisesti tulostaa tekstiä, joka kuvastaa sen tietojen harhaa.

Tutkijat itse tunnustavat joitain rajoituksia, joita tämä asettaa heidän tutkimukselleen, kirjoittamalla:

"Esimerkiksi "amerikkalaisten" vastaukset tulisi ymmärtää paremmin sanoilla "Amerikkalaiset, jotka julkaisevat Redditissä" tai jopa "amerikkalaiset, jotka julkaisevat tässä tietyssä subredditissä." Vastaavasti "saksalaiset" tulisi ymmärtää "saksalaisina, jotka julkaisevat tässä tietyssä subredditissä" jne.

Näitä varoituksia voitaisiin edelleen tarkentaa sanomalla, että viestit ovat peräisin esimerkiksi "ihmisiltä, ​​jotka väittävät olevansa amerikkalaisia, jotka julkaisevat tässä tietyssä subredditissä", koska paperissa ei mainita sen tarkistamisesta, ovatko tietyn viestin takana olevat julisteet todella edustavia. demografisesta tai puolueellisesta ryhmästä, jonka he väittävät olevansa.

Kirjoittajat toteavat edelleen, että he aikovat tutkia malleja, jotka rajaavat demografisia tietoja tarkemmin (eli: liberaali saksalainen, konservatiivinen saksalainen).

OpinionGPT:n antamat tuotokset näyttävät vaihtelevan todettavissa olevan harhan ja jyrkästi vakiintuneesta normista poikkeavien välillä, mikä vaikeuttaa sen elinkelpoisuuden havaitsemista työkaluna todellisen harhan mittaamiseen tai havaitsemiseen.

Tiedemiehet loivat OpinionGPT:n tutkiakseen eksplisiittistä inhimillistä ennakkoluulottomuutta – ja voit testata sitä itse PlatoBlockchain Data Intelligencen. Pystysuuntainen haku. Ai.
Lähde: Kuvakaappaus, Taulukko 2: Haller et. al., 2023

OpinionGPT:n mukaan, kuten yllä olevasta kuvasta näkyy, esimerkiksi latinalaisamerikkalaiset ovat puolueellisia siihen, että koripallo on heidän suosikkilajinsa.

Empiirinen tutkimus kuitenkin selvästi ilmaisee että jalkapallo (joissakin maissa kutsutaan myös jalkapalloksi) ja baseball ovat suosituimpia urheilulajeja katsojamäärän ja osallistumisen perusteella kaikkialla Latinalaisessa Amerikassa.

Sama taulukko osoittaa myös, että OpinionGPT ilmoittaa "vesipallon" suosikkiurheilukseen, kun sitä kehotetaan antamaan "teini-ikäisen vastaus", mikä näyttää tilastollisesti. epätodennäköinen edustaa useimpia 13–19-vuotiaita ympäri maailmaa.

Sama pätee ajatukseen, että keskimääräisen amerikkalaisen suosikkiruoka on "juusto". Löysimme verkosta kymmeniä tutkimuksia, joissa väitettiin, että pizza ja hampurilaiset olivat Amerikan suosikkiruokia, mutta emme löytäneet yhtäkään kyselyä tai tutkimusta, joka väittäisi, että amerikkalaisten ykkösruoka olisi vain juustoa.

Vaikka OpinionGPT ei ehkä sovikaan hyvin todellisen inhimillisen ennakkoluulon tutkimiseen, se voi olla hyödyllinen työkalu suurten dokumenttivarastojen, kuten yksittäisten subreddittien tai tekoälyn koulutussarjojen, luontaisten stereotypioiden tutkimiseen.

Niille, jotka ovat uteliaita, tutkijat ovat tehneet OpinionGPT:n saatavissa verkossa julkiseen testaukseen. Verkkosivuston mukaan mahdollisten käyttäjien tulee kuitenkin olla tietoisia siitä, että "luodettu sisältö voi olla väärää, epätarkaa tai jopa säädytöntä".

Aikaleima:

Lisää aiheesta Cointelegraph