Delavci, najeti prek storitev množičnega pridobivanja, kot je Amazon Mechanical Turk, uporabljajo velike jezikovne modele za dokončanje svojih nalog – kar bi lahko imelo negativne posledice za modele AI v prihodnosti.
Podatki so ključnega pomena za AI. Razvijalci potrebujejo čiste, visokokakovostne nabore podatkov za izgradnjo sistemov strojnega učenja, ki so natančni in zanesljivi. Zbiranje dragocenih, vrhunskih podatkov pa je lahko dolgočasno. Podjetja se pogosto obrnejo na platforme tretjih oseb, kot je Amazon Mechanical Turk, da naročijo skupinam poceni delavcev izvajanje ponavljajočih se nalog – kot je označevanje predmetov, opisovanje situacij, prepis odlomkov in komentiranje besedila.
Njihov rezultat je mogoče očistiti in vnesti v model, da ga usposobimo za reprodukcijo tega dela v veliko večjem, avtomatiziranem obsegu.
Modeli umetne inteligence so torej zgrajeni na podlagi človeškega dela: ljudje se trudijo in zagotavljajo gore primerov usposabljanja za sisteme umetne inteligence, ki jih lahko korporacije uporabijo za zaslužek milijard dolarjev.
Toda eksperiment, ki so ga izvedli raziskovalci na École polytechnique fédérale de Lausanne (EPFL) v Švici, je pokazal, da ti množični delavci uporabljajo sisteme umetne inteligence – kot je OpenAI-jev chatbot ChatGPT – za opravljanje priložnostnih del na spletu.
Usposabljanje modela na lastnem rezultatu ni priporočljivo. Videli smo lahko, kako se modeli umetne inteligence usposabljajo na podlagi podatkov, ki jih niso ustvarili ljudje, ampak drugi modeli umetne inteligence – morda celo isti modeli. To bi lahko povzročilo katastrofalno kakovost izhoda, večjo pristranskost in druge neželene učinke.
Poskus
Akademiki so zaposlili 44 podložnikov Mechanical Turk, da bi povzeli povzetke 16 medicinskih raziskovalnih člankov, in ocenili, da je bilo 33 do 46 odstotkov odlomkov besedila, ki so ga predložili delavci, ustvarjenih z uporabo velikih jezikovnih modelov. Množični delavci so pogosto plačani z nizkimi plačami – uporaba umetne inteligence za samodejno ustvarjanje odgovorov jim omogoča, da delajo hitreje in sprejmejo več delovnih mest, da povečajo plačilo.
Švicarska ekipa je usposobila klasifikatorja za napovedovanje, ali so bile prispevke Turkerjev ustvarjene s strani človeka ali umetne inteligence. Akademiki so beležili tudi pritiske svojih delavcev na tipke, da bi ugotovili, ali so podložniki kopirali in prilepili besedilo na platformo ali pa sami vtipkali svoje vnose. Vedno obstaja možnost, da nekdo uporabi klepetalnega robota in nato ročno vnese izhod – vendar je to malo verjetno, domnevamo.
"Razvili smo zelo specifično metodologijo, ki je zelo dobro delovala pri odkrivanju sintetičnega besedila v našem scenariju," Manoel Ribeiro, soavtor študij in doktorski študent na EPFL, je povedal Register ta teden.
"Medtem ko tradicionalne metode poskušajo odkriti sintetično besedilo 'v katerem koli kontekstu', je naš pristop osredotočen na odkrivanje sintetičnega besedila v našem specifičnem scenariju."
Klasifikator ni popoln pri ugotavljanju, ali je nekdo uporabil sistem umetne inteligence ali ustvaril svoje delo. Akademiki so združili izhod svojega klasifikatorja s podatki o pritisku na tipko, da bi bili bolj prepričani, ko je nekdo kopiral prilepljen iz bota ali ustvaril lastno gradivo.
Človeški podatki so zlati standard, saj nas skrbijo ljudje
»Uspelo nam je potrditi naše rezultate z uporabo podatkov o pritisku tipk, ki smo jih zbrali tudi pri MTurk,« nam je povedal Ribeiro. "Na primer, ugotovili smo, da smo vsa besedila, ki niso bila kopirana, klasificirali kot 'resnična', kar nakazuje, da je malo lažno pozitivnih rezultatov."
Koda in podatki, uporabljeni za izvedbo testa najdete tukaj, na GitHubu.
Obstaja še en razlog, da poskus verjetno ne bo povsem pošten prikaz tega, koliko delavcev v resnici uporablja AI za avtomatizacijo nalog množičnega pridobivanja. Avtorji ugotavljajo, da je naloga povzemanja besedila primerna za velike jezikovne modele v primerjavi z drugimi vrstami delovnih mest – kar pomeni, da so lahko njihovi rezultati bolj nagnjeni k večjemu številu delavcev, ki uporabljajo orodja, kot je ChatGPT.
Njihov nabor podatkov 46 odgovorov 44 delavcev je prav tako majhen. Delavci so bili plačani 1 dolar za vsak besedilni povzetek, kar lahko spet le spodbuja uporabo AI.
Raziskovalci so trdili, da se bodo veliki jezikovni modeli poslabšali, če bodo čedalje bolj usposobljeni za lažno vsebino, ki jo ustvari umetna inteligenca, zbrana s platform množičnega vira. Obleke, kot je OpenAI, natančno skrivajo, kako trenirajo svoje najnovejše modele, in se morda ne zanašajo preveč na stvari, kot je Mechanical Turk, če sploh. Kljub temu se lahko veliko drugih modelov zanaša na človeške delavce, ki lahko nato uporabljajo robote za ustvarjanje podatkov o usposabljanju, kar je težava.
Mechanical Turk se na primer trži kot ponudnik "rešitev za označevanje podatkov za napajanje modelov strojnega učenja."
»Podatki o ljudeh so zlati standard, saj skrbimo za ljudi, ne za velike jezikovne modele,« je dejal Riberio. "Ne bi vzel zdravila, ki je bilo testirano samo na biološkem modelu Drosophila," je dejal kot primer.
Raziskovalci so trdili, da so odzivi, ki jih ustvarjajo današnji modeli AI, običajno precej medli ali nepomembni in ne zajamejo kompleksnosti in raznolikosti človeške ustvarjalnosti.
»Včasih želimo s podatki, pridobljenimi iz množice, preučiti ravno načine, na katere smo ljudje nepopolni,« nam je povedal Robert West, soavtor prispevka in docent na šoli za računalništvo in komunikacijo EPFL.
Ker se umetna inteligenca še naprej izboljšuje, se bo delo množice verjetno spremenilo. Riberio je domneval, da bi lahko veliki jezikovni modeli nadomestili nekatere delavce pri določenih nalogah. "Vendar pa so paradoksalno človeški podatki morda bolj dragoceni kot kdaj koli prej in zato se lahko zgodi, da bodo te platforme lahko izvajale načine za preprečevanje velike uporabe jezikovnega modela in zagotovile, da ostanejo vir človeških podatkov."
Kdo ve – morda bi ljudje na koncu celo sodelovali z velikimi jezikovnimi modeli, da bi ustvarili tudi odzive, je dodal. ®
- Distribucija vsebine in PR s pomočjo SEO. Okrepite se še danes.
- EVM Finance. Poenoten vmesnik za decentralizirane finance. Dostopite tukaj.
- Quantum Media Group. IR/PR ojačan. Dostopite tukaj.
- PlatoAiStream. Podatkovna inteligenca Web3. Razširjeno znanje. Dostopite tukaj.
- vir: https://go.theregister.com/feed/www.theregister.com/2023/06/16/crowd_workers_bots_ai_training/
- :ima
- : je
- :ne
- $GOR
- 16
- 7
- a
- Sposobna
- O meni
- povzetki
- akademiki
- natančna
- dodano
- spet
- AI
- vsi
- omogoča
- Prav tako
- vedno
- Amazon
- an
- in
- Še ena
- kaj
- pristop
- SE
- trdili
- umetni
- Umetna inteligenca
- AS
- Pomočnik
- At
- Avtorji
- avtomatizirati
- Avtomatizirano
- samodejno
- stran
- BE
- ker
- počutje
- pristranskosti
- milijardah
- bland
- Bot
- bote
- izgradnjo
- zgrajena
- vendar
- by
- CAN
- zajemanje
- ki
- nekatere
- priložnost
- spremenite
- chatbot
- ChatGPT
- poceni
- razvrščeni
- Zapri
- CO
- Soavtor
- Koda
- sodelovati
- kombinirani
- Komunikacija
- Podjetja
- v primerjavi z letom
- dokončanje
- popolnoma
- kompleksnost
- računalnik
- sklenjene
- poteka
- vsebina
- ozadje
- se nadaljuje
- Korporacije
- bi
- ustvarjalnost
- kritično
- Množica
- datum
- nabor podatkov
- razvili
- Razvijalci
- katastrofalno
- raznolikost
- do
- dolarjev
- vsak
- Učinki
- spodbujanje
- konec
- zagotovitev
- ocenjeni
- Tudi
- VEDNO
- točno
- Primer
- Primeri
- poskus
- sejem
- ponaredek
- false
- hitreje
- Fed
- Nekaj
- osredotočena
- za
- je pokazala,
- iz
- Prihodnost
- ustvarjajo
- ustvarila
- dobili
- GitHub
- Gold
- Gold Standard
- Imajo
- he
- močno
- visoka kvaliteta
- več
- Kako
- Vendar
- HTTPS
- človeškega
- Ljudje
- i
- identifikacijo
- if
- izvajati
- izboljšanje
- in
- Povečajte
- vedno
- Intelligence
- v
- isn
- IT
- ITS
- Delovna mesta
- jpg
- Imejte
- označevanje
- dela
- jezik
- velika
- večja
- Zadnji
- vodi
- učenje
- kot
- Verjeten
- prijavljen
- nizka
- stroj
- strojno učenje
- Znamka
- upravlja
- ročno
- več
- Material
- Maj ..
- kar pomeni,
- mehanska
- medicinski
- medicinske raziskave
- zdravila
- Metodologija
- Metode
- morda
- Model
- modeli
- več
- veliko
- Nimate
- negativna
- Številka
- predmeti
- of
- pogosto
- on
- ONE
- na spletu
- samo
- OpenAI
- or
- Ostalo
- naši
- izhod
- lastne
- plačana
- Papir
- članki
- zabava
- Plačajte
- ljudje
- odstotkov
- popolna
- Izvedite
- mogoče
- platforma
- Platforme
- platon
- Platonova podatkovna inteligenca
- PlatoData
- Veliko
- Bazeni
- moč
- Precious
- Ravno
- napovedati
- preprečiti
- problem
- Proizvedeno
- Učitelj
- Ponudnik
- zagotavljanje
- kakovost
- pravo
- res
- Razlog
- priporočeno
- zanesljiv
- zanašajo
- ostanki
- ponavljajoč
- zamenjajte
- zastopanje
- Raziskave
- raziskovalci
- odgovorov
- Rezultati
- ROBERT
- Run
- s
- Je dejal
- Enako
- Lestvica
- Scenarij
- <span style="color: #f7f7f7;">Šola</span>
- Znanost
- skrivnost
- glej
- Storitve
- situacije
- majhna
- rešitve
- nekaj
- nekdo
- vir
- specifična
- standardna
- študent
- študija
- Stališča
- predložen
- taka
- Predlaga
- Povzamemo
- POVZETEK
- Švicarski
- švica
- sintetična
- sistem
- sistemi
- Bodite
- Naloga
- Naloge
- skupina
- Test
- Testiran
- kot
- da
- O
- Prihodnost
- njihove
- Njih
- sami
- POTEM
- Tukaj.
- te
- jih
- stvari
- tretja
- ta
- ta teden
- do
- danes
- tudi
- orodja
- proti
- tradicionalna
- Vlak
- usposobljeni
- usposabljanje
- poskusite
- OBRAT
- Vrste
- malo verjetno
- nezaželen
- us
- Uporaba
- uporaba
- Rabljeni
- uporablja
- uporabo
- navadno
- POTRDI
- dragocene
- zelo
- preko
- Plače
- želeli
- je
- načini
- we
- teden
- Dobro
- so bili
- West
- Kaj
- kdaj
- ali
- ki
- medtem
- bo
- z
- delo
- delal
- delavci
- slabše
- zefirnet