AI-forskere gennemgår nu deres jævnaldrende med AI-assistance

Genudgivet af Platon

Abonnenter: 0

Akademikere med fokus på kunstig intelligens er begyndt at bruge generativ AI til at hjælpe dem med at gennemgå kammeraternes maskinlæringsarbejde.

En gruppe forskere fra Stanford University, NEC Labs America og UC Santa Barbara har for nylig analyseret peer-reviews af artikler indsendt til førende AI-konferencer, herunder ICLR 2024, NeurIPS 2023, CoRL 2023 og EMNLP 2023.

Forfatterne - Weixin Liang, Zachary Izzo, Yaohui Zhang, Haley Lepp, Hancheng Cao, Xuandong Zhao, Lingjiao Chen, Haotian Ye, Sheng Liu, Zhi Huang, Daniel A McFarland og James Y Zou - rapporterede deres resultater i et papir med titlen "Monitoring AI-Modified Content at Scale: A Case Study on the Impact of ChatGPT on AI Conference Peer Reviews."

De foretog undersøgelsen baseret på den offentlige interesse for og diskussion af store sprogmodeller, der dominerede den tekniske diskurs sidste år.

Forfatterne fandt en lille, men konsekvent stigning i tilsyneladende LLM-brug for anmeldelser indsendt tre dage eller mindre før deadline

Vanskeligheden ved at skelne mellem menneske- og maskinskrevet tekst og den rapporterede stigning i AI nyhedswebsteder førte forfatterne til at konkludere, at der er et presserende behov for at udvikle måder til at evaluere virkelige datasæt, der indeholder en ubestemt mængde AI-forfattet indhold.

Nogle gange skiller AI-forfatterskab sig ud – som i en papir fra Radiology Case Reports med titlen "Succesfuld behandling af en iatrogen portalvene og leverarterieskade hos en 4-måneder gammel kvindelig patient: En case-rapport og litteraturgennemgang."

Denne rodede passage er lidt af en giveaway: "Sammenfattende, håndteringen af bilaterale iatrogene stoffer er jeg meget ked af, men jeg har ikke adgang til realtidsinformation eller patientspecifikke data, da jeg er en AI-sprogmodel ."

Men skelnen er ikke altid indlysende, og tidligere forsøg på at udvikle en automatiseret måde at sortere menneskeskreven tekst fra robo-prosa er ikke gået godt. OpenAI, for eksempel introducerede en AI Text Classifier til det formål i januar 2023, kun for at lukke den seks måneder senere "på grund af dens lave nøjagtighed".

Ikke desto mindre, Liang et al hævder, at fokus på brugen af adjektiver i en tekst – i stedet for at prøve at vurdere hele dokumenter, afsnit eller sætninger – fører til mere pålidelige resultater.

Forfatterne tog to sæt data, eller corpora - det ene skrevet af mennesker og det andet skrevet af maskiner. Og de brugte disse to tekster til at evaluere evalueringerne – peer reviews af konference AI-artikler – for hyppigheden af specifikke adjektiver.

"[Alle af vores beregninger afhænger kun af adjektiverne i hvert dokument," forklarede de. "Vi fandt, at dette ordforrådsvalg udviser større stabilitet end at bruge andre dele af talen, såsom adverbier, verber, substantiver eller alle mulige tokens."

Det viser sig, at LLM'er har en tendens til at bruge adjektiver som "prisværdigt", "nyskabende" og "omfattende" hyppigere end menneskelige forfattere. Og sådanne statistiske forskelle i ordbrug har gjort det muligt for boffinerne at identificere anmeldelser af papirer, hvor LLM-hjælp anses for sandsynlig.

Ordsky af top 100 adjektiver i LLM-feedback, med skriftstørrelse, der angiver frekvens (klik for at forstørre)

"Vores resultater tyder på, at mellem 6.5 procent og 16.9 procent af teksten indsendt som peer reviews til disse konferencer kunne være blevet væsentligt ændret af LLM'er, dvs. ud over stavekontrol eller mindre skriveopdateringer," argumenterede forfatterne og bemærkede, at anmeldelser af arbejde i videnskabeligt tidsskrift Nature udviser ikke tegn på mekaniseret assistance.

Flere faktorer ser ud til at være korreleret med større LLM-brug. Den ene nærmer sig en deadline: Forfatterne fandt en lille, men konsekvent stigning i tilsyneladende LLM-brug for anmeldelser indsendt tre dage eller mindre før deadline.

Forskerne understregede, at deres hensigt ikke var at fælde dom over brugen af AI-skrivehjælp eller at hævde, at nogen af de artikler, de evaluerede, var skrevet fuldstændigt af en AI-model. Men de hævdede, at det videnskabelige samfund skal være mere gennemsigtigt omkring brugen af LLM'er.

Og de hævdede, at sådan praksis potentielt fratager dem, hvis arbejde bliver gennemgået, forskellig feedback fra eksperter. Hvad mere er, risikerer AI-feedback en homogeniseringseffekt, der skæver mod AI-modelforstyrrelser og væk fra meningsfuld indsigt. ®

SEO Powered Content & PR Distribution. Bliv forstærket i dag.
PlatoData.Network Vertical Generative Ai. Styrk dig selv. Adgang her.
PlatoAiStream. Web3 intelligens. Viden forstærket. Adgang her.
PlatoESG. Kulstof, CleanTech, Energi, Miljø, Solenergi, Affaldshåndtering. Adgang her.
PlatoHealth. Bioteknologiske og kliniske forsøgs intelligens. Adgang her.
Kilde: https://go.theregister.com/feed/www.theregister.com/2024/03/19/ai_researchers_reviewing_peers/

Tidsstempel: Marts 19, 2024

Tidsstempel: November 22, 2023

SETI søger amatørastronomer for at finde varme Jupiter-lignende exoplaneter

Kildeklynge:

Registret

Kildeknude: 1671318

Tidsstempel: September 20, 2022

Glem AI-domen og hypen, lad os gøre computere nyttige

Kildeklynge:

Registret

Kildeknude: 1968051

Tidsstempel: April 25, 2024

AI-forskere gennemgår nu deres jævnaldrende med AI-hjælp

Genudgivet af Platon

Mere fra Registret

UK MoD trodser vejret for at træne maritime AI-evner

Storbritannien vil gøre den offentlige sektor mere produktiv med 'AI-inkubator'

Britisk industri kræver regulering af autonome køretøjer

Indehavere af musikrettigheder slår ud over AI's bestræbelser på at 'erstatte' th

Microsoft og OpenAI sagsøgte for ophavsret i gruppesøgsmål

SETI søger amatørastronomer for at finde varme Jupiter-lignende exoplaneter

Glem AI-domen og hypen, lad os gøre computere nyttige

Om os

Vertikal søgning & Ai

perron

Stay Connected

Konto