Ühisallika teenuste, nagu Amazon Mechanical Turk, kaudu palgatud töötajad kasutavad oma ülesannete täitmiseks suuri keelemudeleid – mis võib tulevikus AI mudelitele negatiivselt mõjuda.
Andmed on AI jaoks üliolulised. Arendajad vajavad täpsete ja usaldusväärsete masinõppesüsteemide loomiseks puhtaid ja kvaliteetseid andmekogumeid. Väärtuslike tipptasemel andmete koostamine võib aga olla tüütu. Ettevõtted pöörduvad sageli kolmandate osapoolte platvormide, nagu Amazon Mechanical Turk, poole, et juhendada odavatel töötajatel korduvaid ülesandeid (nt objektide sildistamine, olukordade kirjeldamine, lõikude transkribeerimine ja teksti annoteerimine) tegema.
Nende väljundit saab puhastada ja mudelisse sisestada, et õpetada seda reprodutseerima seda tööd palju suuremal ja automatiseeritud skaalal.
Tehisintellekti mudelid on seega üles ehitatud inimtööle: inimesed rügavad ära, pakkudes AI-süsteemide koolitusnäiteid, mida ettevõtted saavad kasutada miljardite dollarite teenimiseks.
Kuid Šveitsi École polytechnique fédérale de Lausanne'i (EPFL) teadlaste katses jõuti järeldusele, et need kollektiivsed töötajad kasutavad AI-süsteeme, näiteks OpenAI vestlusbotit ChatGPT, veebis juhutööde tegemiseks.
Mudelit oma väljundi järgi koolitada pole soovitatav. Võisime näha, kuidas tehisintellekti mudeleid õpetatakse mitte inimeste, vaid teiste AI mudelite – võib-olla isegi samade mudelite – loodud andmete põhjal. See võib kaasa tuua katastroofilise väljundkvaliteedi, suurema kallutatuse ja muid soovimatuid mõjusid.
Katse
Akadeemikud värbasid 44 mehaanilist türklast, et teha kokkuvõte 16 meditsiinilise uurimistöö kokkuvõtetest, ja hinnanguliselt 33–46 protsenti töötajate esitatud tekstilõikudest loodi suurte keelemudelite abil. Rahvahulga töötajatele makstakse sageli madalat palka – tehisintellekti kasutamine vastuste automaatseks genereerimiseks võimaldab neil kiiremini töötada ja palga tõstmiseks rohkem töökohti võtta.
Šveitsi meeskond koolitas klassifikaatorit, et ennustada, kas türklaste esildised on inimeste või tehisintellekti loodud. Akadeemikud logisid ka oma töötajate klahvivajutused, et tuvastada, kas pärisorjad kopeerisid ja kleepisid platvormile teksti või sisestasid oma kirjed ise. Alati on võimalus, et keegi kasutab vestlusrobotit ja sisestab seejärel väljundi käsitsi – kuid see on meie arvates ebatõenäoline.
"Me töötasime välja väga spetsiifilise metoodika, mis toimis meie stsenaariumis sünteetilise teksti tuvastamiseks väga hästi," ütles Manoel Ribeiro, raamatu kaasautor. Uuring ja EPFLi doktorant Register sel nädalal.
"Kuigi traditsioonilised meetodid püüavad tuvastada sünteetilist teksti "mis tahes kontekstis", on meie lähenemisviis keskendunud sünteetilise teksti tuvastamisele meie konkreetses stsenaariumis.
Klassifikaator ei ole täiuslik tuvastamaks, kas keegi kasutas tehisintellekti süsteemi või tegi oma tööd. Akadeemikud ühendasid oma klassifikaatori väljundi klahvivajutuste andmetega, et olla kindlam, kui keegi kopeeris robotist või koostas oma materjali.
Inimandmed on kullastandard, sest me hoolime just inimestest
"Meil õnnestus oma tulemusi kinnitada klahvivajutuste andmete abil, mida kogusime ka MTurkist," rääkis Ribeiro. "Näiteks avastasime, et kõik tekstid, mida ei olnud kopeeritud, klassifitseerisime tõelisteks, mis viitab sellele, et valepositiivseid tulemusi on vähe."
Testi läbiviimiseks kasutatud kood ja andmed leiate siit, GitHubis.
On veel üks põhjus, miks eksperiment ei anna tõenäoliselt täiesti õiglast ülevaadet selle kohta, kui paljud töötajad kasutavad tehisintellekti ühisallika ülesannete automatiseerimiseks. Autorid märgivad, et teksti kokkuvõtte ülesanne sobib hästi suurte keelemudelitega võrreldes muud tüüpi töökohtadega – see tähendab, et nende tulemused võivad olla rohkem kaldu suurema arvu töötajate poole, kes kasutavad selliseid tööriistu nagu ChatGPT.
Nende andmekogum, mis sisaldab 46 töötaja 44 vastust, on samuti väike. Töötajatele maksti iga tekstikokkuvõtte eest 1 dollar, mis võib taas julgustada AI kasutamist.
Teadlased väitsid, et suured keelemudelid muutuvad hullemaks, kui neid koolitatakse üha enam võltsitud sisuga, mis on loodud AI-ga, mis on kogutud ühisallika platvormidelt. Sellised rõivad nagu OpenAI hoiavad täpselt seda, kuidas nad oma uusimaid mudeleid treenivad, ega pruugi sellistele asjadele nagu Mechanical Turk väga tugineda, kui üldse. Sellegipoolest võivad paljud teised mudelid tugineda inimtöölistele, kes võivad omakorda kasutada koolitusandmete genereerimiseks roboteid, mis on probleem.
Mehhaanilist Turki turustatakse näiteks andmemärgistuslahenduste pakkujana masinõppemudelite toiteks.
"Inimeste andmed on kullastandard, sest me hoolime inimestest, mitte suurtest keelemudelitest," ütles Riberio. "Ma ei võtaks ravimit, mida on testitud ainult Drosophila bioloogilise mudeliga," ütles ta näitena.
Teadlased väitsid, et tänapäevaste tehisintellekti mudelite poolt genereeritud vastused on tavaliselt üsna nõrgad või triviaalsed ega kajasta inimese loovuse keerukust ja mitmekesisust.
"Mõnikord tahame rahvahulga andmetega uurida just viise, kuidas inimesed on ebatäiuslikud," ütles meile Robert West, paberi kaasautor ja EPFLi arvuti- ja kommunikatsiooniteaduse kooli dotsent.
Kuna tehisintellekti paranemine jätkub, on tõenäoline, et ühistööstus muutub. Riberio oletas, et suured keelemudelid võivad teatud tööülesannete täitmisel mõnda töötajat asendada. "Kuid paradoksaalsel kombel võivad inimeste andmed olla väärtuslikumad kui kunagi varem ja seega võib juhtuda, et need platvormid suudavad rakendada viise, et vältida laiaulatuslikku keelemudeli kasutamist ja tagada, et need jäävad inimandmete allikaks."
Kes teab – võib-olla võivad inimesed vastuste genereerimiseks isegi suurte keelemudelitega koostööd teha, lisas ta. ®
- SEO-põhise sisu ja PR-levi. Võimenduge juba täna.
- EVM Finance. Detsentraliseeritud rahanduse ühtne liides. Juurdepääs siia.
- Quantum Media Group. IR/PR võimendatud. Juurdepääs siia.
- PlatoAiStream. Web3 andmete luure. Täiustatud teadmised. Juurdepääs siia.
- Allikas: https://go.theregister.com/feed/www.theregister.com/2023/06/16/crowd_workers_bots_ai_training/
- :on
- :on
- :mitte
- $ UP
- 16
- 7
- a
- Võimalik
- MEIST
- kokkuvõtteid
- teadlased
- täpne
- lisatud
- jälle
- AI
- Materjal: BPA ja flataatide vaba plastik
- võimaldab
- Ka
- alati
- Amazon
- an
- ja
- Teine
- mistahes
- lähenemine
- OLEME
- vaidlesid
- kunstlik
- tehisintellekti
- AS
- assistent
- At
- autorid
- automatiseerima
- Automatiseeritud
- automaatselt
- ära
- BE
- sest
- on
- erapoolikus
- miljardeid
- õrn
- Bot
- eest
- ehitama
- ehitatud
- kuid
- by
- CAN
- lüüa
- mis
- kindel
- võimalus
- muutma
- chatbot
- ChatGPT
- odav
- salastatud
- lähedal
- CO
- Kaasautor
- kood
- koostööd
- kombineeritud
- KOMMUNIKATSIOON
- Ettevõtted
- võrreldes
- täitma
- täiesti
- keerukus
- arvuti
- sõlmitud
- läbi
- sisu
- kontekst
- pidev
- Korporatsioonid
- võiks
- loovus
- kriitiline
- rahvahulk
- andmed
- andmekogumid
- arenenud
- Arendajad
- katastroofiline
- mitmekesisus
- do
- dollarit
- iga
- mõju
- julgustama
- lõpp
- tagama
- Hinnanguliselt
- Isegi
- KUNAGI
- täpselt
- näide
- näited
- eksperiment
- õiglane
- võlts
- vale
- kiiremini
- Toidetud
- vähe
- keskendunud
- eest
- avastatud
- Alates
- tulevik
- tekitama
- loodud
- saama
- GitHub
- Kuldne
- Kullastandard
- Olema
- he
- tugevalt
- kvaliteetne
- rohkem
- Kuidas
- aga
- HTTPS
- inim-
- Inimestel
- i
- identifitseerimiseks
- if
- rakendada
- parandama
- in
- Suurendama
- üha rohkem
- Intelligentsus
- sisse
- pole
- IT
- ITS
- Tööturg
- jpg
- hoidma
- märgistamine
- töö
- keel
- suur
- suurem
- hiljemalt
- viima
- õppimine
- nagu
- Tõenäoliselt
- loginud
- Madal
- masin
- masinõpe
- tegema
- juhitud
- käsitsi
- palju
- materjal
- mai..
- tähendus
- mehaaniline
- meditsiini-
- meditsiinilised uuringud
- meditsiin
- Metoodika
- meetodid
- võib
- mudel
- mudelid
- rohkem
- palju
- Vajadus
- negatiivne
- number
- esemeid
- of
- sageli
- on
- ONE
- Internetis
- ainult
- OpenAI
- or
- Muu
- meie
- väljund
- enda
- makstud
- Paber
- dokumendid
- partei
- Maksma
- Inimesed
- protsent
- täiuslik
- täitma
- ehk
- inimesele
- Platvormid
- Platon
- Platoni andmete intelligentsus
- PlatoData
- rohke
- Basseinid
- võim
- kallis
- täpselt
- ennustada
- vältida
- Probleem
- Toodetud
- Õpetaja
- tarnija
- pakkudes
- kvaliteet
- reaalne
- tõesti
- põhjus
- soovitatav
- usaldusväärne
- lootma
- jäänused
- korduv
- asendama
- esindamine
- teadustöö
- Teadlased
- vastuste
- Tulemused
- ROBERT
- jooks
- s
- Ütlesin
- sama
- Skaala
- stsenaarium
- Kool
- teadus
- Saladus
- vaata
- Teenused
- olukordades
- väike
- Lahendused
- mõned
- Keegi
- allikas
- konkreetse
- standard
- õpilane
- Uuring
- Ettepanekud
- esitatud
- selline
- Soovitab
- Kokku võtta
- KOKKUVÕTE
- Šveitsi
- Šveits
- sünteetiline
- süsteem
- süsteemid
- Võtma
- Ülesanne
- ülesanded
- meeskond
- test
- katsetatud
- kui
- et
- .
- Tulevik
- oma
- Neile
- ennast
- SIIS
- Seal.
- Need
- nad
- asjad
- Kolmas
- see
- sel nädalal
- et
- täna
- liiga
- töövahendid
- suunas
- traditsiooniline
- Rong
- koolitatud
- koolitus
- püüdma
- Pöörake
- liigid
- Ebatõenäoline
- soovimatu
- us
- Kasutus
- kasutama
- Kasutatud
- kasutusalad
- kasutamine
- tavaliselt
- KINNITAGE
- väärtuslik
- väga
- kaudu
- töötasu
- tahan
- oli
- kuidas
- we
- nädal
- Hästi
- olid
- Läände
- M
- millal
- kas
- mis
- kuigi
- will
- koos
- Töö
- töötas
- töötajate
- halvem
- sephyrnet