Lucrătorii angajați prin servicii crowdsource precum Amazon Mechanical Turk folosesc modele lingvistice mari pentru a-și îndeplini sarcinile – ceea ce ar putea avea efecte negative asupra modelelor AI în viitor.
Datele sunt esențiale pentru AI. Dezvoltatorii au nevoie de seturi de date curate și de înaltă calitate pentru a construi sisteme de învățare automată care sunt precise și fiabile. Cu toate acestea, compilarea datelor valoroase, de top, poate fi plictisitoare. Companiile apelează adesea la platforme terțe, cum ar fi Amazon Mechanical Turk, pentru a instrui grupuri de lucrători ieftini să efectueze sarcini repetitive – cum ar fi etichetarea obiectelor, descrierea situațiilor, transcrierea pasajelor și adnotarea textului.
Rezultatele lor pot fi curățate și introduse într-un model pentru a-l antrena să reproducă acea lucrare la o scară mult mai mare, automatizată.
Modelele de inteligență artificială sunt astfel construite pe spatele muncii umane: oameni care trudesc, oferind munți de exemple de instruire pentru sistemele de inteligență artificială pe care corporațiile le pot folosi pentru a câștiga miliarde de dolari.
Dar un experiment desfășurat de cercetătorii de la École polytechnique fédérale de Lausanne (EPFL) din Elveția a concluzionat că acești lucrători crowdsourcing folosesc sisteme AI – cum ar fi chatbot-ul OpenAI ChatGPT – pentru a efectua joburi ciudate online.
Formarea unui model pe propria sa ieșire nu este recomandată. Am putea vedea modelele AI fiind antrenate pe date generate nu de oameni, ci de alte modele de AI – poate chiar aceleași modele. Acest lucru ar putea duce la o calitate dezastruoasă a ieșirii, mai multă părtinire și alte efecte nedorite.
Experimentul
Academicienii au recrutat 44 de iobagi turci mecanici pentru a rezuma rezumatele a 16 lucrări de cercetare medicală și au estimat că 33 până la 46% din pasajele de text trimise de muncitori au fost generate folosind modele lingvistice mari. Lucrătorii în mulțime sunt adesea plătiți cu salarii mici – utilizarea inteligenței artificiale pentru a genera automat răspunsuri le permite să lucreze mai repede și să-și asume mai multe locuri de muncă pentru a crește salariul.
Echipa elvețiană a antrenat un clasificator pentru a prezice dacă trimiterile din partea turcilor au fost generate de oameni sau de IA. Academicienii au înregistrat, de asemenea, apăsările de taste ale lucrătorilor pentru a detecta dacă iobagii au copiat și lipit text pe platformă sau au tastat ei înșiși intrările. Există întotdeauna șansa ca cineva să folosească un chatbot și apoi să scrie manual rezultatul - dar acest lucru este puțin probabil, presupunem.
„Am dezvoltat o metodologie foarte specifică care a funcționat foarte bine pentru detectarea textului sintetic în scenariul nostru”, Manoel Ribeiro, coautor al lucrării studiul și un doctorand la EPFL, a spus Registrul în această săptămână.
„În timp ce metodele tradiționale încearcă să detecteze text sintetic „în orice context”, abordarea noastră se concentrează pe detectarea textului sintetic în scenariul nostru specific.”
Clasificatorul nu este perfect pentru a identifica dacă cineva a folosit un sistem AI sau și-a produs propria lucrare. Academicienii au combinat rezultatele clasificatorului lor cu datele de apăsare a tastei pentru a fi mai siguri când cineva a copiat-lipit dintr-un bot sau a produs propriul material.
Datele umane sunt standardul de aur, pentru că ne pasă de oameni
„Am reușit să ne validăm rezultatele folosind datele de apăsare a tastei pe care le-am colectat și de la MTurk”, ne-a spus Ribeiro. „De exemplu, am constatat că toate textele care nu au fost copiate și lipite au fost clasificate de noi drept „reale”, ceea ce sugerează că există puține rezultate false pozitive.”
Codul și datele utilizate pentru a rula testul pot fi găsite aici, pe GitHub.
Există un alt motiv pentru care experimentul este puțin probabil să fie o reprezentare complet corectă a câți lucrători folosesc cu adevărat AI pentru a automatiza sarcinile de crowdsource. Autorii observă că sarcina de rezumare a textului este potrivită pentru modelele de limbă mari în comparație cu alte tipuri de locuri de muncă - ceea ce înseamnă că rezultatele lor ar putea fi mai înclinate către un număr mai mare de lucrători care utilizează instrumente precum ChatGPT.
Setul lor de date de 46 de răspunsuri de la 44 de lucrători este, de asemenea, mic. Lucrătorii au fost plătiți cu 1 USD pentru fiecare rezumat text, ceea ce, din nou, poate încuraja doar utilizarea AI.
Modelele de limbaj mari se vor înrăutăți dacă sunt din ce în ce mai instruiți pe conținutul fals generat de AI colectat de pe platforme crowdsource, au susținut cercetătorii. Ținutele precum OpenAI păstrează exact modul în care își antrenează cele mai recente modele un secret secret și s-ar putea să nu se bazeze foarte mult pe lucruri precum Mechanical Turk, dacă este deloc. Acestea fiind spuse, multe alte modele se pot baza pe lucrători umani, care la rândul lor pot folosi roboți pentru a genera date de antrenament, ceea ce este o problemă.
Mechanical Turk, unul, este comercializat ca un furnizor de „soluții de etichetare a datelor pentru a alimenta modelele de învățare automată”.
„Datele umane sunt standardul de aur, pentru că ne pasă de oameni, nu de modelele mari de limbaj”, a spus Riberio. „Nu aș lua un medicament care a fost testat doar pe un model biologic de Drosophila”, a spus el ca exemplu.
Răspunsurile generate de modelele AI de astăzi sunt de obicei destul de fade sau banale și nu surprind complexitatea și diversitatea creativității umane, au susținut cercetătorii.
„Uneori, ceea ce dorim să studiem cu ajutorul datelor de tip crowdsourced este tocmai modurile în care oamenii sunt imperfecți”, ne-a spus Robert West, coautor al lucrării și profesor asistent la școala de informatică și comunicare a EPFL.
Pe măsură ce inteligența artificială continuă să se îmbunătățească, este probabil ca munca crowdsourced să se schimbe. Riberio a speculat că modelele mari de limbaj ar putea înlocui unii lucrători la sarcini specifice. „Cu toate acestea, în mod paradoxal, datele umane pot fi mai prețioase ca niciodată și, prin urmare, este posibil ca aceste platforme să fie capabile să implementeze modalități de a preveni utilizarea mari a modelelor de limbaj și de a se asigura că rămâne o sursă de date umane.”
Cine știe – poate că oamenii ar putea chiar să colaboreze cu modele mari de limbaj pentru a genera răspunsuri, a adăugat el. ®
- Distribuție de conținut bazat pe SEO și PR. Amplifică-te astăzi.
- EVM Finance. Interfață unificată pentru finanțare descentralizată. Accesați Aici.
- Grupul Quantum Media. IR/PR amplificat. Accesați Aici.
- PlatoAiStream. Web3 Data Intelligence. Cunoștințe amplificate. Accesați Aici.
- Sursa: https://go.theregister.com/feed/www.theregister.com/2023/06/16/crowd_workers_bots_ai_training/
- :are
- :este
- :nu
- $UP
- 16
- 7
- a
- Capabil
- Despre Noi
- rezumate
- cadre universitare
- precis
- adăugat
- din nou
- AI
- TOATE
- permite
- de asemenea
- mereu
- Amazon
- an
- și
- O alta
- Orice
- abordare
- SUNT
- a susținut
- artificial
- inteligență artificială
- AS
- Asistent
- At
- Autorii
- automatizarea
- Automata
- în mod automat
- departe
- BE
- deoarece
- fiind
- părtinire
- miliarde
- blând
- Bot
- roboţii
- construi
- construit
- dar
- by
- CAN
- captura
- pasă
- sigur
- șansă
- Schimbare
- chatbot
- Chat GPT
- ieftin
- clasificate
- Închide
- CO
- Coautor
- cod
- colaborarea
- combinate
- Comunicare
- Companii
- comparație
- Completă
- complet
- complexitate
- calculator
- încheiat
- efectuat
- conţinut
- context
- continuă
- Corporații
- ar putea
- creativitate
- critic
- mulţime
- de date
- seturi de date
- dezvoltat
- Dezvoltatorii
- dezastruos
- Diversitate
- do
- de dolari
- fiecare
- efecte
- încuraja
- capăt
- asigura
- estimativ
- Chiar
- EVER
- exact
- exemplu
- exemple
- experiment
- echitabil
- fals
- fals
- mai repede
- fed-
- puțini
- concentrat
- Pentru
- găsit
- din
- viitor
- genera
- generată
- obține
- GitHub
- Aur
- Gold Standard
- Avea
- he
- puternic
- de înaltă calitate
- superior
- Cum
- Totuși
- HTTPS
- uman
- Oamenii
- i
- identificarea
- if
- punerea în aplicare a
- îmbunătăţi
- in
- Crește
- tot mai mult
- Inteligență
- în
- ISN
- IT
- ESTE
- Locuri de munca
- jpg
- A pastra
- etichetarea
- muncă
- limbă
- mare
- mai mare
- Ultimele
- conduce
- învăţare
- ca
- Probabil
- autentificat
- Jos
- maşină
- masina de învățare
- face
- gestionate
- manual
- multe
- material
- Mai..
- sens
- mecanic
- medical
- cercetare medicala
- medicină
- Metodologie
- Metode
- ar putea
- model
- Modele
- mai mult
- mult
- Nevoie
- negativ
- număr
- obiecte
- of
- de multe ori
- on
- ONE
- on-line
- afară
- OpenAI
- or
- Altele
- al nostru
- producție
- propriu
- plătit
- Hârtie
- lucrări
- parte
- Plătește
- oameni
- la sută
- Perfect
- Efectua
- poate
- platformă
- Platforme
- Plato
- Informații despre date Platon
- PlatoData
- mulțime
- piscine
- putere
- Pretios
- tocmai
- prezice
- împiedica
- Problemă
- Produs
- Profesor
- furnizorul
- furnizarea
- calitate
- real
- într-adevăr
- motiv
- recomandat
- de încredere
- se bazează
- rămășițe
- repetitiv
- înlocui
- reprezentare
- cercetare
- cercetători
- răspunsuri
- REZULTATE
- ROBERT
- Alerga
- s
- Said
- acelaşi
- Scară
- scenariu
- Şcoală
- Ştiinţă
- Secret
- vedea
- Servicii
- situații
- mic
- soluţii
- unele
- Cineva
- Sursă
- specific
- standard
- student
- Studiu
- Subscrieri
- prezentat
- astfel de
- sugerează
- rezuma
- REZUMAT
- Elvețian
- Elveția
- sintetic
- sistem
- sisteme
- Lua
- Sarcină
- sarcini
- echipă
- test
- testat
- decât
- acea
- Viitorul
- lor
- Lor
- se
- apoi
- Acolo.
- Acestea
- ei
- lucruri
- Al treilea
- acest
- în această săptămână
- la
- astăzi
- de asemenea
- Unelte
- față de
- tradiţional
- Tren
- dresat
- Pregătire
- încerca
- ÎNTORCĂ
- Tipuri
- improbabil
- nedorit
- us
- Folosire
- utilizare
- utilizat
- utilizări
- folosind
- obișnuit
- VALIDA
- Valoros
- foarte
- de
- salarizare
- vrea
- a fost
- modalități de
- we
- săptămână
- BINE
- au fost
- Vest
- Ce
- cand
- dacă
- care
- în timp ce
- voi
- cu
- Apartamente
- a lucrat
- muncitorii
- mai rău
- zephyrnet