Mentalt arret: Kenyanske arbejdere lærte ChatGPT at genkende stødende tekst

Mentalt arret: Kenyanske arbejdere lærte ChatGPT at genkende stødende tekst

Mentally scarred: Kenyan workers taught ChatGPT to recognize offensive text PlatoBlockchain Data Intelligence. Vertical Search. Ai.

OpenAI hyrede efter sigende arbejdere i Kenya – screenede titusindvis af tekstprøver for sexistisk, racistisk, voldeligt og pornografisk indhold – for at hjælpe med at gøre dets ChatGPT-model mindre giftig.

ChatGPT blev udgivet i november sidste år og har taget internettet med storm. Dens evne til automatisk at generere tekst efter en inputprompt har ført til, at millioner af brugere har instrueret den i at udføre alle typer forskellige opgaver – fortælle vittigheder, skrive kode, besvare spørgsmål og mere.

Ikke alle disse instruktioner har været helt godartede – vi er trods alt kun mennesker. ChatGPT er dog designet til at være mere konverserende og sikrere end sin forgænger GPT-3 – den kan indrømme fejl og nægte at udføre upassende anmodninger.

For at lære karakteristikaene ved stødende og krænkende sprog, skulle ChatGPT trænes i enorme mængder af rene, mærkede data, der viser forskellen mellem sikkert og skadeligt indhold.

Mærkning af data er kedeligt og tidskrævende. Arbejdet er typisk outsourcet til entreprenører, der rekrutterer medarbejdere fra lande, hvor arbejdskraften er billigere. I 2021 underskrev OpenAI efter sigende tre kontrakter til en værdi af omkring $200,000 med Sama – en startup, der leverer dataanmærkningstjenester baseret i San Francisco og opererer i udviklingslande – for at mærke tekst til at træne ChatGPT, ifølge en indberette in Tid i denne uge.

Sama rekrutterede derefter tre dusin arbejdere i Kenya, som var opdelt i tre grupper, der hver havde til opgave at gennemsøge tusindvis af tekstprøver, der indeholdt sexmisbrug, hadefulde ytringer og vold.

Skrabet fra internettet beskrev teksten alle mulige farlige, ulovlige og utugtige handlinger, herunder mord, selvmord, tortur og incest. Nogle medarbejdere rapporterede at være traumatiseret over at skulle behandle så meget forfærdeligt indhold. En mand sagde, at han led af tilbagevendende syner efter at have læst en passage, der beskriver en mand, der havde sex med en hund i selskab med et lille barn.

"Det var tortur," sagde han. "Du vil læse en række sådanne udtalelser gennem hele ugen. Når det bliver fredag, bliver du forstyrret af at tænke det billede igennem."

Arbejderne udholdt ni timers skift og tjente mellem 163 og 248 kenyanske shilling i timen. Det er omkring $1.32 til $2 – virkelig ubetydelige summer for OpenAI, som forventes at omsætte $200 millioner i 2023.

En anden datamærkningskontrakt, der ikke var relateret til ChatGPT, involverede Sama, der bad medarbejdere om at finde grimme, pornografiske og voldelige billeder, der portrætterer ting som død, voldtægt og dyr. Indholdet – hvoraf noget ville være ulovligt i USA – fik angiveligt Sama til at afslutte sine kontrakter med OpenAI inden februar 2022, otte måneder før det oprindeligt var planlagt. Medarbejdere rekrutteret af Sama fik efter sigende at vide, at deres arbejde med OpenAI var konserveret, efter at opstarten stod over for hård kritik for at arbejde med Metas Facebook på et andet indholdsmodereringsprojekt.

"Sama afsluttede OpenAI-kontrakten, fordi holdet i Østafrika ikke var fortrolig med det ønskede arbejde. Meta-kontraktens slutning er separat, men relateret. Efter at have rådført sig med sit globale team tog Sama beslutningen om at forlade alt indholdsmodereringsarbejde, da det ikke passede med virksomhedens vision og mission,” fortalte en talsmand for virksomheden.

Opkomlingen afslutter alle datamærkningsprojekter for indholdsmoderering i marts 2023 og har oprettet et "etiklaug" - en gruppe medarbejdere, der vil gennemgå arbejdsanmodninger, får vi at vide.

I udsagn deles med Tid, bekræftede OpenAI, at det havde arbejdet sammen med Sama om at mærke data, der blev brugt til at træne ChatGPT, og sagde, at der var en fejlkommunikation om de typer billeder, de ønskede at indsamle. Den ønskede angiveligt ikke ulovlige billeder og så dem ikke.

Værdien af ​​en dollar

"For at præcisere, betaler Sama mellem 26,600 og 40,000 kenyanske shilling (209 til 322 $) om måneden, hvilket er mere end det dobbelte af mindstelønnen i Kenya og også et godt stykke over levelønnen," sagde en talsmand fra Sama. Registret.

"At sammenligne det med amerikanske lønninger er en falsk ækvivalens, der miskarakteriserer situationen. En sammenlignende vestlig løn ville være mellem $30 og $45 i timen. Sama betaler næsten det dobbelte af, hvad andre indholdsmoderatorer i området betaler, og tilbyder en fuld fordele og pensionspakke.

"Vores mission er at sikre, at kunstig generel intelligens kommer hele menneskeheden til gode, og vi arbejder hårdt på at bygge sikre og nyttige AI-systemer, der begrænser bias og skadeligt indhold. Klassificering og filtrering af skadeligt [tekst og billeder] er et nødvendigt skridt for at minimere mængden af ​​voldeligt og seksuelt indhold, der indgår i træningsdata, og skabe værktøjer, der kan opdage skadeligt indhold."

Datamærkningsvirksomheder som Sama siger, at de hjælper med at løfte folk ud af fattigdom i fattigere lande, men Tid's undersøgelse er en skarp påmindelse om, at de tilsyneladende magiske evner af AI-modeller er bygget på bagsiden af ​​lavprisarbejde.

”Samas mission er at nedbryde barrierer for formel beskæftigelse ved at give arbejde til talentfulde mennesker, som måske ellers ikke har lige karrieremuligheder. Sama beskæftiger folk, der ellers ikke ville have kvalifikationerne til entry-level tech-job, og uddanner dem derefter - ikke kun til et job, men en karrierevej - ved at tilbyde efteruddannelseskurser, CV-skrivningskurser, finansundervisningsklasser og muligheder for at avancere indenfor eller uden for organisationen,” fortalte en talsmand os i en erklæring.

"Sama har påvirket over 60,000 mennesker, sendt 20 mennesker til universitetet gennem vores stipendieprogrammer og givet $160,000 i finansiering til medarbejdervirksomheder og startups."

I mellemtiden fortsætter hypen om kunstig generel intelligens med at opbygges. Selv de bedste AI-virksomheder har endnu ikke knækket hemmeligheden ved at bygge modeller, der er avancerede nok til at lære mønstre fra data effektivt med lidt eller ingen menneskelig overvågning.

Teknologien er muligvis gået frem, men den er stadig afhængig af, at arbejdere fra udviklingslande sidder foran computerskærme og udfører gentagne og monotone opgaver hele dagen for at træne gigantiske AI-modeller for teknologivirksomheder, der tjener millioner af dollars.

Registret har bedt OpenAI om en kommentar. ®

Tidsstempel:

Mere fra Registret