Joukkolähdepalveluiden, kuten Amazon Mechanical Turk, kautta palkatut työntekijät käyttävät suuria kielimalleja tehtäviensä suorittamiseen – millä voi olla kielteisiä vaikutuksia tekoälymalleihin tulevaisuudessa.
Data on kriittinen tekoälylle. Kehittäjät tarvitsevat puhtaita, korkealaatuisia tietojoukkoja rakentaakseen tarkkoja ja luotettavia koneoppimisjärjestelmiä. Arvokkaan, huippuluokan tiedon kokoaminen voi kuitenkin olla työlästä. Yritykset kääntyvät usein kolmansien osapuolien alustojen, kuten Amazon Mechanical Turkin, puoleen ohjeistaakseen halpoja työntekijöitä suorittamaan toistuvia tehtäviä – kuten kohteiden merkitsemistä, tilanteiden kuvaamista, tekstien tekstin kirjoittamista ja tekstin merkitsemistä.
Niiden tuotos voidaan puhdistaa ja syöttää malliin, jolla se koulutetaan toistamaan työtä paljon suuremmassa, automatisoidussa mittakaavassa.
Tekoälymallit on siis rakennettu ihmistyön varaan: ihmiset uurastavat ja tarjoavat vuoria koulutusesimerkkejä tekoälyjärjestelmille, joilla yritykset voivat ansaita miljardeja dollareita.
Mutta sveitsiläisen École polytechnique fédérale de Lausannen (EPFL) tutkijoiden tekemä koe on päätellyt, että nämä joukkolähdetyöntekijät käyttävät tekoälyjärjestelmiä – kuten OpenAI:n chatbottia ChatGPT:tä – tehdäkseen satunnaisia töitä verkossa.
Mallin kouluttamista sen omalla tuotolla ei suositella. Voisimme nähdä AI-malleja kouluttavan datalla, jota eivät ihmiset, vaan muut tekoälymallit – ehkä jopa samat mallit – luoneet. Tämä voi johtaa tuhoisaan tulosteen laatuun, enemmän harhaan ja muihin ei-toivottuihin vaikutuksiin.
Koe
Akateemikot rekrytoivat 44 mekaanista turkkilaista orjaa tekemään yhteenvedon 16 lääketieteellisen tutkimuksen tiivistelmistä ja arvioivat, että 33–46 prosenttia työntekijöiden lähettämistä tekstikohdista oli luotu suurilla kielimalleilla. Joukkotyöntekijöille maksetaan usein alhaisia palkkoja – tekoälyn käyttäminen vastausten automaattiseen luomiseen antaa heille mahdollisuuden työskennellä nopeammin ja ottaa enemmän työpaikkoja palkan nostamiseksi.
Sveitsiläinen tiimi koulutti luokittelijan ennustamaan, olivatko turkkilaisten ilmoitukset ihmisen vai tekoälyn tuottamia. Akateemikot kirjasivat myös työntekijöidensä näppäinpainallukset havaitakseen, kopioivatko ja liittivätkö orjat tekstiä alustalle vai kirjoittavatko ne itse. Aina on mahdollista, että joku käyttää chatbotia ja kirjoittaa sitten manuaalisesti tulosteen – mutta se on epätodennäköistä, oletamme.
"Kehitimme erittäin spesifisen menetelmän, joka toimi erittäin hyvin synteettisen tekstin havaitsemiseen skenaariossamme", Manoel Ribeiro, toinen kirjoittaja tutkimus ja tohtoriopiskelija EPFL:ssä, kertoi Rekisteri tällä viikolla.
"Vaikka perinteiset menetelmät yrittävät havaita synteettistä tekstiä "missä tahansa kontekstissa", lähestymistapamme keskittyy synteettisen tekstin havaitsemiseen erityisessä skenaariossamme."
Luokitin ei ole täydellinen tunnistamaan, onko joku käyttänyt tekoälyjärjestelmää vai tuottanut oman teoksensa. Akateemikot yhdistivät luokittelijansa tulosten näppäinpainallustietoihin ollakseen varmempia, kun joku kopioi botista tai tuotti oman materiaalinsa.
Ihmistieto on kultakanta, koska välitämme ihmisistä
"Onnistuimme vahvistamaan tuloksemme käyttämällä näppäilydataa, jonka myös keräsimme MTurkilta", Ribeiro kertoi. "Esimerkiksi havaitsimme, että kaikki tekstit, joita ei ollut kopioitu, luokitellaan "oikeiksi", mikä viittaa siihen, että vääriä positiivisia tuloksia on vähän."
Testin suorittamiseen käytetty koodi ja tiedot löytyy täältä, GitHubissa.
On toinenkin syy, miksi kokeilu ei todennäköisesti ole täysin oikeudenmukainen esitys siitä, kuinka monet työntekijät todella käyttävät tekoälyä automatisoidakseen joukkolähdetehtäviä. Kirjoittajat huomauttavat, että tekstin yhteenvetotehtävä soveltuu hyvin suuriin kielimalleihin verrattuna muuntyyppisiin töihin – mikä tarkoittaa, että niiden tulokset saattavat olla vinostuneet enemmän työntekijöiden määrään, jotka käyttävät ChatGPT:n kaltaisia työkaluja.
Heidän 46 työntekijän 44 vastauksen tietojoukko on myös pieni. Työntekijöille maksettiin 1 dollari jokaisesta tekstiyhteenvedosta, mikä taas saattaa vain kannustaa tekoälyn käyttöön.
Suuret kielimallit pahenevat, jos niitä koulutetaan yhä enemmän joukkolähdealustoilta kerätyn tekoälyn tuottaman väärennetyn sisällön suhteen, tutkijat väittivät. OpenAI:n kaltaiset asut pitävät tarkasti salaisuutena, kuinka he kouluttavat uusimpia mallejaan, eivätkä välttämättä ole kovinkaan riippuvaisia Mechanical Turkista, jos ollenkaan. Monet muut mallit voivat kuitenkin luottaa ihmistyöntekijöihin, jotka voivat puolestaan käyttää botteja koulutustietojen tuottamiseen, mikä on ongelma.
Mechanical Turkia markkinoidaan esimerkiksi "tietomerkintäratkaisujen koneoppimismallien tehostamiseksi" toimittajana.
"Ihmisdata on kultakanta, koska välitämme ihmisistä, emme suurista kielimalleista", Riberio sanoi. "En ottaisi lääkettä, joka on testattu vain Drosophilan biologisella mallilla", hän sanoi esimerkkinä.
Tämän päivän tekoälymallien tuottamat vastaukset ovat yleensä melko tylsiä tai triviaaleja, eivätkä ne kuvaa ihmisen luovuuden monimutkaisuutta ja monimuotoisuutta, tutkijat väittivät.
"Joskus se, mitä haluamme tutkia joukkolähdetiedolla, ovat juuri tapoja, joilla ihmiset ovat epätäydellisiä", Robert West, paperin toinen kirjoittaja ja EPFL:n tietojenkäsittely- ja viestintätieteen koulun apulaisprofessori, kertoi meille.
Tekoälyn parantuessa on todennäköistä, että joukkolähdetyö muuttuu. Riberio arveli, että suuret kielimallit voisivat korvata osan työntekijöistä tietyissä tehtävissä. "Paradoksaalista kyllä, ihmisten tieto voi olla arvokkaampaa kuin koskaan, ja näin ollen voi olla, että nämä alustat pystyvät toteuttamaan tapoja estää laajan kielimallin käyttö ja varmistaa, että se pysyy ihmistietojen lähteenä."
Kuka tietää – ehkä ihmiset saattavat jopa päätyä yhteistyöhön suurten kielimallien kanssa tuottaakseen myös vastauksia, hän lisäsi. ®
- SEO-pohjainen sisällön ja PR-jakelu. Vahvista jo tänään.
- EVM Finance. Hajautetun rahoituksen yhtenäinen käyttöliittymä. Pääsy tästä.
- Quantum Media Group. IR/PR vahvistettu. Pääsy tästä.
- PlatoAiStream. Web3 Data Intelligence. Tietoa laajennettu. Pääsy tästä.
- Lähde: https://go.theregister.com/feed/www.theregister.com/2023/06/16/crowd_workers_bots_ai_training/
- :on
- :On
- :ei
- $ YLÖS
- 16
- 7
- a
- pystyy
- Meistä
- abstrakteja
- tutkijoita
- tarkka
- lisä-
- uudelleen
- AI
- Kaikki
- mahdollistaa
- Myös
- aina
- Amazon
- an
- ja
- Toinen
- Kaikki
- lähestymistapa
- OVAT
- väitti
- keinotekoinen
- tekoäly
- AS
- Avustaja
- At
- Tekijät
- automatisoida
- Automatisoitu
- automaattisesti
- pois
- BE
- koska
- ovat
- puolueellisuus
- miljardeja
- mitäänsanomaton
- Bot
- botit
- rakentaa
- rakennettu
- mutta
- by
- CAN
- kaapata
- joka
- tietty
- mahdollisuus
- muuttaa
- chatbot
- ChatGPT
- halpa
- luokiteltu
- lähellä
- CO
- Yhteiskirjoittaja
- koodi
- yhteistyössä
- yhdistetty
- Viestintä
- Yritykset
- verrattuna
- täydellinen
- täysin
- monimutkaisuus
- tietokone
- päätökseen
- tehty
- pitoisuus
- tausta
- jatkuu
- yritykset
- voisi
- luovuus
- kriittinen
- väkijoukko
- tiedot
- aineistot
- kehitetty
- kehittäjille
- tuhoisa
- Monimuotoisuus
- do
- dollaria
- kukin
- vaikutukset
- kannustaa
- loppu
- varmistaa
- arvioidaan
- Jopa
- EVER
- täsmälleen
- esimerkki
- Esimerkit
- kokeilu
- oikeudenmukainen
- väärennös
- väärä
- nopeampi
- Fed
- harvat
- keskityttiin
- varten
- löytyi
- alkaen
- tulevaisuutta
- tuottaa
- syntyy
- saada
- GitHub
- Kulta
- Kultakanta
- Olla
- he
- raskaasti
- korkealaatuisia
- korkeampi
- Miten
- Kuitenkin
- HTTPS
- ihmisen
- Ihmiset
- i
- tunnistaminen
- if
- toteuttaa
- parantaa
- in
- Kasvaa
- yhä useammin
- Älykkyys
- tulee
- ISN
- IT
- SEN
- Työpaikat
- jpg
- Pitää
- merkinnät
- työ
- Kieli
- suuri
- suurempi
- uusin
- johtaa
- oppiminen
- pitää
- Todennäköisesti
- kirjattu
- Matala
- kone
- koneoppiminen
- tehdä
- onnistui
- käsin
- monet
- materiaali
- Saattaa..
- merkitys
- mekaaninen
- lääketieteellinen
- lääketieteellinen tutkimus
- lääketiede
- Metodologia
- menetelmät
- ehkä
- malli
- mallit
- lisää
- paljon
- Tarve
- negatiivinen
- numero
- esineet
- of
- usein
- on
- ONE
- verkossa
- vain
- OpenAI
- or
- Muut
- meidän
- ulostulo
- oma
- maksettu
- Paperi
- paperit
- puolue
- Maksaa
- Ihmiset
- prosentti
- täydellinen
- Suorittaa
- ehkä
- foorumi
- Platforms
- Platon
- Platonin tietotieto
- PlatonData
- paljon
- Altaat
- teho
- Kallisarvoinen
- tarkasti
- ennustaa
- estää
- Ongelma
- valmistettu
- Opettaja
- toimittaja
- tarjoamalla
- laatu
- todellinen
- ihan oikeesti
- reason
- suositeltu
- luotettava
- luottaa
- jäännökset
- toistuva
- korvata
- edustus
- tutkimus
- Tutkijat
- vasteet
- tulokset
- ROBERT
- ajaa
- s
- Said
- sama
- Asteikko
- skenaario
- Koulu
- tiede
- salaisuus
- nähdä
- Palvelut
- tilanteita
- pieni
- Ratkaisumme
- jonkin verran
- Joku
- lähde
- erityinen
- standardi
- opiskelija
- tutkimus
- Vastauksissa
- toimitettu
- niin
- Ehdottaa
- yhteenveto
- YHTEENVETO
- Sveitsiläinen
- Sveitsi
- synteettinen
- järjestelmä
- järjestelmät
- ottaa
- Tehtävä
- tehtävät
- joukkue-
- testi
- testattu
- kuin
- että
- -
- Tulevaisuus
- heidän
- Niitä
- itse
- sitten
- Siellä.
- Nämä
- ne
- asiat
- kolmas
- tätä
- tällä viikolla
- että
- tänään
- liian
- työkalut
- kohti
- perinteinen
- Juna
- koulutettu
- koulutus
- yrittää
- VUORO
- tyypit
- epätodennäköinen
- toivottuja
- us
- Käyttö
- käyttää
- käytetty
- käyttötarkoituksiin
- käyttämällä
- yleensä
- VAHVISTA
- arvokas
- hyvin
- kautta
- palkat
- haluta
- oli
- tavalla
- we
- viikko
- HYVIN
- olivat
- Länsi
- Mitä
- kun
- onko
- joka
- vaikka
- tulee
- with
- Referenssit
- työskenteli
- työntekijöitä
- huonompi
- zephyrnet