AI-forskare granskar nu sina kamrater med AI-hjälp

Återutgiven av Platon

anhängare: 0

Akademiker fokuserade på artificiell intelligens har börjat använda generativ AI för att hjälpa dem att granska kamraters maskininlärningsarbete.

En grupp forskare från Stanford University, NEC Labs America och UC Santa Barbara analyserade nyligen peer reviews av artiklar som lämnats in till ledande AI-konferenser, inklusive ICLR 2024, NeurIPS 2023, CoRL 2023 och EMNLP 2023.

Författarna – Weixin Liang, Zachary Izzo, Yaohui Zhang, Haley Lepp, Hancheng Cao, Xuandong Zhao, Lingjiao Chen, Haotian Ye, Sheng Liu, Zhi Huang, Daniel A McFarland och James Y Zou – rapporterade sina fynd i ett papper med titeln "Övervakning av AI-modifierat innehåll i skala: en fallstudie om effekten av ChatGPT på AI Conference Peer Reviews."

De genomförde studien utifrån allmänhetens intresse för och diskussion om stora språkmodeller som dominerade den tekniska diskursen förra året.

Författarna fann en liten men konsekvent ökning av uppenbar LLM-användning för recensioner som skickats in tre dagar eller mindre före deadline

Svårigheten att skilja mellan mänsklig- och maskinskriven text och den rapporterade ökningen AI nyhetswebbplatser ledde författarna till slutsatsen att det finns ett akut behov av att utveckla sätt att utvärdera verkliga datamängder som innehåller en obestämd mängd AI-författat innehåll.

Ibland sticker AI-författarskapet ut – som i en papper från Radiology Case Reports med titeln "Framgångsrik hantering av en iatrogen portven och leverartärskada hos en 4 månader gammal kvinnlig patient: En fallrapport och litteraturgenomgång."

Denna röriga passage är lite av en giveaway: "Sammanfattningsvis, hanteringen av bilaterala iatrogena, jag är mycket ledsen, men jag har inte tillgång till realtidsinformation eller patientspecifik data, eftersom jag är en AI-språkmodell .”

Men skillnaden är inte alltid uppenbar, och tidigare försök att utveckla ett automatiserat sätt att sortera mänskligt skriven text från robo-prosa har inte gått bra. OpenAI, till exempel introducerade en AI-textklassificerare för det ändamålet i januari 2023, bara för att stänga den sex månader senare "på grund av dess låga noggrannhet. "

Ändå, Liang et al, hävdar att fokus på användningen av adjektiv i en text – snarare än att försöka bedöma hela dokument, stycken eller meningar – leder till mer tillförlitliga resultat.

Författarna tog två uppsättningar data, eller korpus – en skriven av människor och den andra skriven av maskiner. Och de använde dessa två texter för att utvärdera utvärderingarna – peer reviews av konferensens AI-uppsatser – för frekvensen av specifika adjektiv.

"Alla av våra beräkningar beror bara på adjektiven som finns i varje dokument," förklarade de. "Vi fann att det här vokabulärvalet uppvisar större stabilitet än att använda andra delar av talet som adverb, verb, substantiv eller alla möjliga symboler."

Det visar sig att LLM:er tenderar att använda adjektiv som "berömvärt", "innovativt" och "omfattande" oftare än mänskliga författare. Och sådana statistiska skillnader i ordanvändning har gjort det möjligt för boffinerna att identifiera recensioner av tidningar där LLM-assistans bedöms sannolikt.

Ordmoln med de 100 bästa adjektiven i LLM-feedback, med teckenstorlek som anger frekvens (klicka för att förstora)

"Våra resultat tyder på att mellan 6.5 procent och 16.9 procent av texten som skickats in som referentgranskning till dessa konferenser kunde ha modifierats avsevärt av LLM, dvs. utöver stavningskontroll eller mindre skrivuppdateringar", hävdade författarna och noterade att recensioner av arbete i vetenskapliga tidskriften Nature uppvisar inga tecken på mekaniserad assistans.

Flera faktorer verkar vara korrelerade med större LLM-användning. En är en annalkande deadline: Författarna fann en liten men konsekvent ökning av uppenbar LLM-användning för recensioner som skickats in tre dagar eller mindre före deadline.

Forskarna betonade att deras avsikt inte var att döma om användningen av AI-skrivhjälp, och inte heller att hävda att någon av artiklarna de utvärderade var skriven helt av en AI-modell. Men de hävdade att det vetenskapliga samfundet måste vara mer transparent om användningen av LLM.

Och de hävdade att sådan praxis potentiellt berövar dem vars arbete granskas från olika feedback från experter. Dessutom riskerar AI-feedback en homogeniseringseffekt som snedställs mot AI-modellfördomar och bort från meningsfull insikt. ®

SEO-drivet innehåll och PR-distribution. Bli förstärkt idag.
PlatoData.Network Vertical Generative Ai. Styrka dig själv. Tillgång här.
PlatoAiStream. Web3 Intelligence. Kunskap förstärkt. Tillgång här.
Platoesg. Kol, CleanTech, Energi, Miljö, Sol, Avfallshantering. Tillgång här.
PlatoHealth. Biotech och kliniska prövningar Intelligence. Tillgång här.
Källa: https://go.theregister.com/feed/www.theregister.com/2024/03/19/ai_researchers_reviewing_peers/

Tidsstämpel: Mars 19, 2024

Tidsstämpel: November 22, 2023

SETI söker amatörastronomer för att hitta heta Jupiterliknande exoplaneter

Källkluster:

Registret

Källnod: 1671318

Tidsstämpel: September 20, 2022

Glöm AI-domen och hypen, låt oss göra datorer användbara

Källkluster:

Registret

Källnod: 1968051

Tidsstämpel: April 25, 2024

AI-forskare granskar nu sina kamrater med AI-hjälp

Återutgiven av Platon

Mer från Registret

UK MoD trotsar vädret för att träna maritima AI-förmåga

Storbritannien ska göra den offentliga sektorn mer produktiv med "AI-inkubator"

Brittisk industri kräver reglering av autonoma fordon

Musikrättighetsinnehavare slår ut på AI:s ansträngningar att "ersätta" det

Microsoft och OpenAI stämde för upphovsrätt i grupptalan

SETI söker amatörastronomer för att hitta heta Jupiterliknande exoplaneter

Glöm AI-domen och hypen, låt oss göra datorer användbara

Om Oss

Vertikal sökning och Ai

plattform

Håll kontakten

Konto