A crowdsource szolgáltatásokon, például az Amazon Mechanical Turkon keresztül felvett dolgozók nagy nyelvi modelleket használnak feladataik elvégzéséhez – ami a jövőben negatív hatással lehet az AI-modellekre.
Az adatok kritikusak az AI számára. A fejlesztőknek tiszta, jó minőségű adatkészletekre van szükségük a pontos és megbízható gépi tanulási rendszerek létrehozásához. Az értékes, csúcsminőségű adatok összegyűjtése azonban fárasztó lehet. A vállalatok gyakran fordulnak külső platformokhoz, például az Amazon Mechanical Turkhez, hogy olcsó munkáscsoportokat utasítsanak ismétlődő feladatok elvégzésére – például objektumok címkézésére, helyzetek leírására, szövegrészek átírására és szövegmagyarázatokra.
Kimenetüket meg lehet tisztítani, és egy modellbe betáplálni, hogy megtanítsák a munkát sokkal nagyobb, automatizált léptékben történő reprodukálására.
A mesterséges intelligencia modellek tehát az emberi munka hátterére épülnek: az emberek fáradoznak, és rengeteg példát kínálnak az AI-rendszerekhez, amelyek segítségével a vállalatok dollármilliárdokat kereshetnek.
A svájci École polytechnique fédérale de Lausanne (EPFL) kutatói által végzett kísérlet azonban arra a következtetésre jutott, hogy ezek a tömeges forrásból származó munkavállalók mesterséges intelligencia-rendszereket – például az OpenAI ChatGPT-jét – használnak alkalmi munkák elvégzésére online.
A modell saját kimenetén történő betanítása nem ajánlott. Láthattuk, hogy a mesterséges intelligencia modelleket nem emberek, hanem más mesterséges intelligencia modellek által generált adatokon képezték ki – talán még ugyanazon modelleken is. Ez katasztrofális kimeneti minőséghez, több torzításhoz és egyéb nem kívánt hatásokhoz vezethet.
A kísérlet
Az akadémikusok 44 mechanikus török jobbágyot toboroztak fel, hogy összefoglalják 16 orvosi kutatási dolgozat absztraktját, és becslések szerint a munkások által beküldött szövegrészek 33-46 százaléka nagy nyelvi modellekkel készült. A tömegmunkások gyakran alacsony fizetést kapnak – a mesterséges intelligencia a válaszok automatikus generálására lehetővé teszi számukra, hogy gyorsabban dolgozzanak, és több munkát vállaljanak a fizetésemelés érdekében.
A svájci csapat kiképzett egy osztályozót, hogy megjósolja, hogy a törököktől származó beadványok ember vagy mesterséges intelligencia által generáltak-e. Az akadémikusok naplózták munkásaik billentyűleütéseit is, hogy kiderítsék, a jobbágyok másoltak-e és illesztettek-e be szöveget a platformra, vagy maguk írták-e be a bejegyzéseiket. Mindig fennáll annak a lehetősége, hogy valaki chatbotot használ, majd manuálisan beírja a kimenetet – de ez nem valószínű.
„Egy nagyon specifikus módszertant fejlesztettünk ki, amely nagyon jól működött a szintetikus szövegek észlelésére a forgatókönyvünkben” – Manoel Ribeiro, a könyv társszerzője. a tanulmány és az EPFL PhD hallgatója mondta A regisztráció ezen a héten.
„Míg a hagyományos módszerek „bármilyen kontextusban” próbálják észlelni a szintetikus szöveget, a mi megközelítésünk a szintetikus szöveg észlelésére összpontosít a sajátos forgatókönyvünkben.”
Az osztályozó nem tökéletes annak azonosítására, hogy valaki mesterséges intelligencia rendszert használt-e, vagy saját munkáját készítette. Az akadémikusok kombinálták az osztályozó kimenetét a billentyűleütési adatokkal, hogy biztosabbak lehessenek abban, amikor valaki egy botból másolt be, vagy saját anyagot készített.
Az emberi adatok az arany standardot jelentik, mert minket az emberek érdekelnek
„Sikerült érvényesíteni az eredményeinket az MTurk-től is gyűjtött billentyűleütési adatokkal” – mondta Ribeiro. „Például azt találtuk, hogy minden olyan szöveget, amelyet nem másoltak be, „valódinak” minősítettünk, ami arra utal, hogy kevés a hamis pozitív eredmény.”
A teszt futtatásához használt kód és adatok itt található, a GitHubon.
Van egy másik oka is annak, hogy a kísérlet nem valószínű, hogy teljesen igazságos képet adjon arról, hogy valójában hány dolgozó használ mesterséges intelligenciát a crowdsource feladatok automatizálására. A szerzők megjegyzik, hogy a szöveges összefoglaló feladat jól illeszkedik a nagy nyelvi modellekhez más típusú munkákhoz képest – ami azt jelenti, hogy eredményeik inkább torzulhatnak a több dolgozó felé, akik olyan eszközöket használnak, mint a ChatGPT.
A 46 dolgozótól kapott 44 válaszból álló adatkészletük is kicsi. A dolgozók minden szöveges összefoglalóért 1 dollárt fizettek, ami ismét csak ösztönözheti az AI használatát.
A nagy nyelvi modellek rosszabbodni fognak, ha egyre gyakrabban képezik őket a crowdsource platformokról gyűjtött mesterséges intelligencia által generált hamis tartalmakra – érveltek a kutatók. Az olyan ruhák, mint az OpenAI, szigorúan titokban tartják, hogyan képezik ki legújabb modelljeit, és nem feltétlenül támaszkodnak olyan dolgokra, mint a Mechanical Turk, ha egyáltalán nem. Ennek ellenére számos más modell támaszkodhat emberi munkásokra, akik viszont botokat használhatnak képzési adatok generálására, ami probléma.
A Mechanical Turk például „adatcímkézési megoldások gépi tanulási modelljeihez” szolgáltatójaként kerül forgalomba.
"Az emberi adatok az aranystandard, mert minket az emberek érdekelnek, nem a nagy nyelvi modellek" - mondta Riberio. „Nem vennék be olyan gyógyszert, amelyet csak Drosophila biológiai modellben teszteltek” – mondta példaként.
A mai mesterséges intelligencia modellek által generált válaszok általában meglehetősen nyájasak vagy triviálisak, és nem ragadják meg az emberi kreativitás összetettségét és sokszínűségét – érveltek a kutatók.
„Néha, amit tömeges forrásból származó adatokkal szeretnénk tanulmányozni, az az, hogy az emberek milyen tökéletlenek” – mondta el Robert West, a lap társszerzője, az EPFL számítástechnikai és kommunikációs tudományi iskolájának adjunktusa.
Ahogy a mesterséges intelligencia folyamatosan javul, valószínű, hogy a közösségi forrásból származó munka megváltozik. Riberio úgy vélte, hogy a nagy nyelvi modellek bizonyos feladatoknál helyettesíthetnek néhány dolgozót. "Paradox módon azonban az emberi adatok értékesebbek lehetnek, mint valaha, és így előfordulhat, hogy ezek a platformok képesek lesznek olyan módszereket megvalósítani, amelyek megakadályozzák a széles körű nyelvi modellhasználatot, és biztosítják, hogy továbbra is emberi adatok forrásai maradjanak."
Ki tudja – lehet, hogy az emberek nagy nyelvi modellekkel is együttműködhetnek, hogy válaszokat generáljanak – tette hozzá. ®
- SEO által támogatott tartalom és PR terjesztés. Erősödjön még ma.
- EVM Finance. Egységes felület a decentralizált pénzügyekhez. Hozzáférés itt.
- Quantum Media Group. IR/PR erősített. Hozzáférés itt.
- PlatoAiStream. Web3 adatintelligencia. Felerősített tudás. Hozzáférés itt.
- Forrás: https://go.theregister.com/feed/www.theregister.com/2023/06/16/crowd_workers_bots_ai_training/
- :van
- :is
- :nem
- $ UP
- 16
- 7
- a
- Képes
- Rólunk
- absztraktokat
- tudósok
- pontos
- hozzáadott
- újra
- AI
- Minden termék
- lehetővé teszi, hogy
- Is
- mindig
- amazon
- an
- és a
- Másik
- bármilyen
- megközelítés
- VANNAK
- érvelt
- mesterséges
- mesterséges intelligencia
- AS
- Helyettes
- At
- szerzők
- automatizált
- Automatizált
- automatikusan
- el
- BE
- mert
- hogy
- előítélet
- milliárd
- nyájas
- Bot
- botok
- épít
- épült
- de
- by
- TUD
- elfog
- ami
- bizonyos
- esély
- változik
- chatbot
- ChatGPT
- olcsó
- osztályozott
- közel
- CO
- Társszerző
- kód
- együttműködő
- kombinált
- közlés
- Companies
- képest
- teljes
- teljesen
- bonyolultság
- számítógép
- megkötött
- lefolytatott
- tartalom
- kontextus
- tovább
- Corporations
- tudott
- kreativitás
- kritikai
- tömeg
- dátum
- adatkészletek
- fejlett
- fejlesztők
- katasztrofális
- Sokféleség
- do
- dollár
- minden
- hatások
- ösztönzése
- végén
- biztosítására
- becsült
- Még
- EVER
- pontosan
- példa
- példák
- kísérlet
- igazságos
- hamisítvány
- hamis
- gyorsabb
- Fed
- kevés
- összpontosított
- A
- talált
- ból ből
- jövő
- generál
- generált
- kap
- GitHub
- Arany
- Aranystandard
- Legyen
- he
- súlyosan
- jó minőségű
- <p></p>
- Hogyan
- azonban
- HTTPS
- emberi
- Az emberek
- i
- azonosító
- if
- végre
- javul
- in
- Növelje
- egyre inkább
- Intelligencia
- bele
- Hát
- IT
- ITS
- Állások
- jpg
- Tart
- címkézés
- munkaerő
- nyelv
- nagy
- nagyobb
- legutolsó
- vezet
- tanulás
- mint
- Valószínű
- bejelentkezve
- Elő/Utó
- gép
- gépi tanulás
- csinál
- sikerült
- kézzel
- sok
- anyag
- Lehet..
- jelenti
- mechanikai
- orvosi
- orvosi kutatás
- orvostudomány
- Módszertan
- mód
- esetleg
- modell
- modellek
- több
- sok
- Szükség
- negatív
- szám
- objektumok
- of
- gyakran
- on
- ONE
- online
- csak
- OpenAI
- or
- Más
- mi
- teljesítmény
- saját
- fizetett
- Papír
- papírok
- párt
- Fizet
- Emberek (People)
- százalék
- tökéletes
- Teljesít
- talán
- emelvény
- Platformok
- Plató
- Platón adatintelligencia
- PlatoData
- bőséges
- medencék
- hatalom
- Értékes
- pontosan
- előre
- megakadályozása
- Probléma
- Készült
- Egyetemi tanár
- ellátó
- amely
- világítás
- igazi
- tényleg
- ok
- ajánlott
- megbízható
- támaszkodnak
- maradványok
- ismétlő
- cserélni
- képviselet
- kutatás
- kutatók
- válaszok
- Eredmények
- ROBERT
- futás
- s
- Mondott
- azonos
- Skála
- forgatókönyv
- Iskola
- Tudomány
- Titkos
- lát
- Szolgáltatások
- helyzetek
- kicsi
- Megoldások
- néhány
- Valaki
- forrás
- különleges
- standard
- diák
- Tanulmány
- Beküldött
- benyújtott
- ilyen
- javasolja,
- összegez
- ÖSSZEFOGLALÓ
- Svájci
- svájc
- szintetikus
- rendszer
- Systems
- Vesz
- Feladat
- feladatok
- csapat
- teszt
- kipróbált
- mint
- hogy
- A
- A jövő
- azok
- Őket
- maguk
- akkor
- Ott.
- Ezek
- ők
- dolgok
- Harmadik
- ezt
- ezen a héten
- nak nek
- Ma
- is
- szerszámok
- felé
- hagyományos
- Vonat
- kiképzett
- Képzések
- megpróbál
- FORDULAT
- típusok
- valószínűtlen
- felesleges
- us
- Használat
- használ
- használt
- használ
- segítségével
- rendszerint
- ÉRVÉNYESÍT
- Értékes
- nagyon
- keresztül
- munkabér
- akar
- volt
- módon
- we
- hét
- JÓL
- voltak
- Nyugati
- Mit
- amikor
- vajon
- ami
- míg
- lesz
- val vel
- Munka
- dolgozott
- dolgozók
- rosszabb
- zephyrnet