Arbetare som anställs via crowdsource-tjänster som Amazon Mechanical Turk använder stora språkmodeller för att slutföra sina uppgifter – vilket kan få negativa följdeffekter på AI-modeller i framtiden.
Data är avgörande för AI. Utvecklare behöver rena datauppsättningar av hög kvalitet för att bygga maskininlärningssystem som är korrekta och pålitliga. Att sammanställa värdefulla, förstklassiga data kan dock vara tråkigt. Företag vänder sig ofta till tredjepartsplattformar som Amazon Mechanical Turk för att instruera pooler av billiga arbetare att utföra repetitiva uppgifter – som att märka objekt, beskriva situationer, transkribera passager och kommentera text.
Deras produktion kan rensas upp och matas in i en modell för att träna den att reproducera det arbetet i en mycket större, automatiserad skala.
AI-modeller är alltså byggda på ryggen av mänskligt arbete: människor som sliter och ger berg av träningsexempel för AI-system som företag kan använda för att tjäna miljarder dollar.
Men ett experiment utfört av forskare vid École polytechnique fédérale de Lausanne (EPFL) i Schweiz har kommit fram till att dessa crowdsourcade-arbetare använder AI-system – som OpenAI:s chatbot ChatGPT – för att utföra udda jobb online.
Att träna en modell på sin egen produktion rekommenderas inte. Vi kunde se AI-modeller tränas på data som inte genereras av människor, utan av andra AI-modeller – kanske till och med samma modeller. Det kan leda till katastrofal utskriftskvalitet, mer partiskhet och andra oönskade effekter.
Experimentet
Akademikerna rekryterade 44 Mechanical Turk livegna för att sammanfatta sammanfattningarna av 16 medicinska forskningsartiklar, och uppskattade att 33 till 46 procent av textstyckena som skickades in av arbetarna skapades med hjälp av stora språkmodeller. Publikarbetare får ofta låga löner – att använda AI för att automatiskt generera svar gör att de kan arbeta snabbare och ta på sig fler jobb för att öka lönerna.
Det schweiziska teamet tränade en klassificerare för att förutsäga om bidrag från turkarna var mänskliga eller AI-genererade. Akademikerna loggade också sina arbetares tangenttryckningar för att upptäcka om livegarna kopierade och klistrade in text på plattformen eller skrev in sina poster själva. Det finns alltid en chans att någon använder en chatbot och sedan manuellt skriver in utdata – men det är osannolikt, antar vi.
"Vi utvecklade en mycket specifik metod som fungerade mycket bra för att upptäcka syntetisk text i vårt scenario," Manoel Ribeiro, medförfattare till studien och en doktorand vid EPFL, berättade Registret denna vecka.
"Medan traditionella metoder försöker upptäcka syntetisk text "i alla sammanhang", är vårt tillvägagångssätt fokuserat på att upptäcka syntetisk text i vårt specifika scenario."
Klassificeraren är inte perfekt för att identifiera om någon använde ett AI-system eller producerade sitt eget arbete. Akademikerna kombinerade sin klassificerares utdata med tangenttryckningsdata för att vara säkrare när någon kopierade in från en bot eller producerade sitt eget material.
Människodata är guldstandarden, eftersom det är människor vi bryr oss om
"Vi lyckades validera våra resultat med hjälp av tangenttryckningsdata som vi också samlat in från MTurk," berättade Ribeiro för oss. "Vi fann till exempel att alla texter som inte var copy-pasted klassificerades av oss som "riktiga", vilket tyder på att det finns få falska positiva resultat."
Koden och data som användes för att köra testet kan hittas här, på GitHub.
Det finns en annan anledning till att experimentet sannolikt inte är en helt rättvis representation av hur många arbetare som verkligen använder AI för att automatisera crowdsource-uppgifter. Författarna noterar att textsammanfattningsuppgiften är väl lämpad för stora språkmodeller jämfört med andra typer av jobb – vilket innebär att deras resultat kan vara mer snedställda mot ett större antal arbetare som använder verktyg som ChatGPT.
Deras datauppsättning med 46 svar från 44 arbetare är också liten. Arbetarna fick 1 USD i betalt för varje textsammanfattning, vilket återigen bara kan uppmuntra användningen av AI.
Stora språkmodeller kommer att bli värre om de i allt högre grad tränas på falskt innehåll som genereras av AI som samlats in från crowdsource-plattformar, hävdade forskarna. Kläder som OpenAI håller exakt hur de tränar sina senaste modeller en nära hemlighet, och kanske inte förlitar sig mycket på saker som Mechanical Turk, om alls. Som sagt, många andra modeller kan förlita sig på mänskliga arbetare, som i sin tur kan använda bots för att generera träningsdata, vilket är ett problem.
Mechanical Turk, för en, marknadsförs som en leverantör av "datamärkningslösningar för att driva maskininlärningsmodeller."
"Mänskliga data är guldstandarden, eftersom det är människor vi bryr oss om, inte stora språkmodeller," sa Riberio. "Jag skulle inte ta ett läkemedel som bara testades i en biologisk modell av Drosophila," sa han som ett exempel.
Svar som genereras av dagens AI-modeller är vanligtvis ganska intetsägande eller triviala och fångar inte komplexiteten och mångfalden av mänsklig kreativitet, hävdade forskarna.
"Ibland är det vi vill studera med crowdsourced data just de sätt på vilka människor är ofullkomliga", berättade Robert West, medförfattare till tidningen och en biträdande professor vid EPFL:s skola för data- och kommunikationsvetenskap.
När AI fortsätter att förbättras är det troligt att arbete med crowdsourcing kommer att förändras. Riberio spekulerade i att stora språkmodeller skulle kunna ersätta vissa arbetare vid specifika uppgifter. "Men paradoxalt nog kan mänsklig data vara mer värdefull än någonsin och därför kan det vara så att dessa plattformar kommer att kunna implementera sätt att förhindra användning av stora språkmodeller och säkerställa att den förblir en källa till mänsklig data."
Vem vet – kanske kan människor till och med sluta samarbeta med stora språkmodeller för att generera svar också, tillade han. ®
- SEO-drivet innehåll och PR-distribution. Bli förstärkt idag.
- EVM Finans. Unified Interface for Decentralized Finance. Tillgång här.
- Quantum Media Group. IR/PR förstärkt. Tillgång här.
- PlatoAiStream. Web3 Data Intelligence. Kunskap förstärkt. Tillgång här.
- Källa: https://go.theregister.com/feed/www.theregister.com/2023/06/16/crowd_workers_bots_ai_training/
- : har
- :är
- :inte
- $UPP
- 16
- 7
- a
- Able
- Om oss
- sammandrag
- akademiker
- exakt
- lagt till
- igen
- AI
- Alla
- tillåter
- också
- alltid
- amason
- an
- och
- Annan
- vilken som helst
- tillvägagångssätt
- ÄR
- argued
- konstgjord
- artificiell intelligens
- AS
- Assistent
- At
- Författarna
- automatisera
- Automatiserad
- automatiskt
- bort
- BE
- därför att
- Där vi får lov att vara utan att konstant prestera,
- förspänning
- miljarder
- mild
- Bot
- botar
- SLUTRESULTAT
- byggt
- men
- by
- KAN
- fånga
- vilken
- vissa
- chans
- byta
- chatbot
- ChatGPT
- billig
- klassificerad
- Stäng
- CO
- Medförfattare
- koda
- samarbeta
- kombinerad
- Kommunikation
- Företag
- jämfört
- fullborda
- fullständigt
- Komplexiteten
- dator
- ingås
- genomfördes
- innehåll
- sammanhang
- fortsätter
- Företag
- kunde
- kreativitet
- kritisk
- folkmassa
- datum
- datauppsättningar
- utvecklade
- utvecklare
- katastrofal
- Mångfald
- do
- dollar
- varje
- effekter
- uppmuntra
- änden
- säkerställa
- beräknad
- Även
- NÅGONSIN
- exakt
- exempel
- exempel
- experimentera
- verkligt
- fejka
- falsk
- snabbare
- Fed
- få
- fokuserade
- För
- hittade
- från
- framtida
- generera
- genereras
- skaffa sig
- GitHub
- Gold
- GULDMYNTFOT
- Har
- he
- kraftigt
- hög kvalitet
- högre
- Hur ser din drömresa ut
- Men
- HTTPS
- humant
- Människa
- i
- identifiera
- if
- genomföra
- förbättra
- in
- Öka
- alltmer
- Intelligens
- in
- isn
- IT
- DESS
- Lediga jobb
- jpg
- Ha kvar
- märkning
- arbetskraft
- språk
- Large
- större
- senaste
- leda
- inlärning
- tycka om
- sannolikt
- inloggad
- Låg
- Maskinen
- maskininlärning
- göra
- förvaltade
- manuellt
- många
- Materialet
- Maj..
- betyder
- mekanisk
- medicinsk
- medicinsk forskning
- läkemedel
- Metodik
- metoder
- kanske
- modell
- modeller
- mer
- mycket
- Behöver
- negativ
- antal
- objekt
- of
- Ofta
- on
- ONE
- nätet
- endast
- OpenAI
- or
- Övriga
- vår
- produktion
- egen
- betalas
- Papper
- papper
- parti
- Betala
- Personer
- procent
- perfekt
- Utföra
- kanske
- plattform
- Plattformar
- plato
- Platon Data Intelligence
- PlatonData
- Massor
- Pools
- kraft
- Dyrbar
- exakt
- förutse
- förhindra
- Problem
- producerad
- Professor
- leverantör
- tillhandahålla
- kvalitet
- verklig
- verkligen
- Anledningen
- rekommenderas
- pålitlig
- förlita
- resterna
- repetitiva
- ersätta
- representation
- forskning
- forskare
- svar
- Resultat
- ROBERT
- Körning
- s
- Nämnda
- Samma
- Skala
- scenario
- Skola
- Vetenskap
- Secret
- se
- Tjänster
- situationer
- Small
- Lösningar
- några
- någon
- Källa
- specifik
- standard
- student
- Läsa på
- Inlagor
- lämnats
- sådana
- Föreslår
- sammanfatta
- SAMMANFATTNING
- Schweiziska
- schweiz
- syntetisk
- system
- System
- Ta
- uppgift
- uppgifter
- grupp
- testa
- testade
- än
- den där
- Smakämnen
- Framtiden
- deras
- Dem
- sig själva
- sedan
- Där.
- Dessa
- de
- saker
- Tredje
- detta
- denna vecka
- till
- i dag
- alltför
- verktyg
- mot
- traditionell
- Tåg
- tränad
- Utbildning
- prova
- SVÄNG
- typer
- osannolik
- oönskade
- us
- Användning
- användning
- Begagnade
- användningar
- med hjälp av
- vanligen
- BEKRÄFTA
- Värdefulla
- mycket
- via
- lön
- vill
- var
- sätt
- we
- vecka
- VÄL
- były
- väster
- Vad
- när
- om
- som
- medan
- kommer
- med
- Arbete
- arbetade
- arbetare
- sämre
- zephyrnet