AI-forskere vurderer nå sine jevnaldrende med AI-hjelp

Publisert av Platon

Følgere: 0

Akademikere med fokus på kunstig intelligens har begynt å bruke generativ AI for å hjelpe dem gjennom maskinlæringsarbeidet til jevnaldrende.

En gruppe forskere fra Stanford University, NEC Labs America og UC Santa Barbara analyserte nylig fagfellevurderinger av artikler som ble sendt til ledende AI-konferanser, inkludert ICLR 2024, NeurIPS 2023, CoRL 2023 og EMNLP 2023.

Forfatterne – Weixin Liang, Zachary Izzo, Yaohui Zhang, Haley Lepp, Hancheng Cao, Xuandong Zhao, Lingjiao Chen, Haotian Ye, Sheng Liu, Zhi Huang, Daniel A McFarland og James Y Zou – rapporterte sine funn i et papir med tittelen "Monitoring AI-Modified Content at Scale: A Case Study on the Impact of ChatGPT on AI Conference Peer Reviews."

De gjennomførte studien basert på den offentlige interessen for og diskusjonen om store språkmodeller som dominerte den tekniske diskursen i fjor.

Forfatterne fant en liten, men konsekvent økning i tilsynelatende LLM-bruk for anmeldelser sendt inn tre dager eller mindre før fristen

Vanskeligheten med å skille mellom menneske- og maskinskrevet tekst og den rapporterte øker AI nyhetsnettsteder førte til at forfatterne konkluderte med at det er et presserende behov for å utvikle måter å evaluere virkelige datasett som inneholder en ubestemt mengde AI-forfattet innhold.

Noen ganger skiller AI-forfatterskap seg ut – som i en papir fra Radiology Case Reports med tittelen "Vellykket behandling av en iatrogen portalvene og leverarterieskade hos en 4 måneder gammel kvinnelig pasient: En saksrapport og litteraturgjennomgang."

Denne rotete passasjen er litt av en giveaway: "Opsummert, håndteringen av bilaterale iatrogene jeg beklager veldig, men jeg har ikke tilgang til sanntidsinformasjon eller pasientspesifikke data, siden jeg er en AI-språkmodell ."

Men forskjellen er ikke alltid åpenbar, og tidligere forsøk på å utvikle en automatisert måte å sortere menneskeskreven tekst fra robo-prosa har ikke gått bra. OpenAI, for eksempel introduserte en AI Text Classifier for det formålet i januar 2023, bare for å lukke den seks måneder senere "på grunn av den lave nøyaktigheten».

Likevel, Liang et al hevder at fokus på bruken av adjektiver i en tekst – i stedet for å prøve å vurdere hele dokumenter, avsnitt eller setninger – fører til mer pålitelige resultater.

Forfatterne tok to sett med data, eller korpus – ett skrevet av mennesker og det andre skrevet av maskiner. Og de brukte disse to tekstene for å evaluere evalueringene – fagfellevurderingene av AI-artikler fra konferansen – for frekvensen av spesifikke adjektiver.

"[Alle av våre beregninger avhenger bare av adjektivene i hvert dokument," forklarte de. "Vi fant at dette vokabularvalget viste større stabilitet enn å bruke andre deler av talen som adverb, verb, substantiv eller alle mulige tokens."

Det viser seg at LLM-er har en tendens til å bruke adjektiver som "prisverdig", "nyskapende" og "omfattende" oftere enn menneskelige forfattere. Og slike statistiske forskjeller i ordbruk har gjort det mulig for boffinene å identifisere anmeldelser av papirer der LLM-assistanse anses som sannsynlig.

Ordsky av topp 100 adjektiver i LLM-tilbakemelding, med skriftstørrelse som indikerer frekvens (klikk for å forstørre)

"Våre resultater tyder på at mellom 6.5 prosent og 16.9 prosent av teksten som ble sendt inn som fagfellevurderinger til disse konferansene kunne ha blitt vesentlig modifisert av LLM-er, dvs. utover stavekontroll eller mindre skriveoppdateringer," hevdet forfatterne, og bemerket at anmeldelser av arbeid i Det vitenskapelige tidsskriftet Nature viser ikke tegn til mekanisert assistanse.

Flere faktorer ser ut til å være korrelert med større LLM-bruk. Den ene er en frist som nærmer seg: Forfatterne fant en liten, men konsekvent økning i tilsynelatende LLM-bruk for anmeldelser sendt inn tre dager eller mindre før fristen.

Forskerne understreket at deres intensjon ikke var å dømme bruken av AI-skrivehjelp, og heller ikke å hevde at noen av oppgavene de evaluerte var skrevet fullstendig av en AI-modell. Men de hevdet at det vitenskapelige samfunnet må være mer transparent om bruken av LLM.

Og de hevdet at slik praksis potensielt fratar de hvis arbeid blir gjennomgått for ulike tilbakemeldinger fra eksperter. I tillegg risikerer AI-tilbakemeldinger en homogeniseringseffekt som retter seg mot AI-modellskjevheter og bort fra meningsfull innsikt. ®

SEO-drevet innhold og PR-distribusjon. Bli forsterket i dag.
PlatoData.Network Vertical Generative Ai. Styrk deg selv. Tilgang her.
PlatoAiStream. Web3 Intelligence. Kunnskap forsterket. Tilgang her.
PlatoESG. Karbon, CleanTech, Energi, Miljø, Solenergi, Avfallshåndtering. Tilgang her.
PlatoHelse. Bioteknologisk og klinisk etterretning. Tilgang her.
kilde: https://go.theregister.com/feed/www.theregister.com/2024/03/19/ai_researchers_reviewing_peers/

Tidstempel: Mars 19, 2024

Tidstempel: November 2, 2022

AI-forskere vurderer nå sine jevnaldrende med AI-hjelp

Publisert av Platon

Mer fra Registeret

HPE sier at virkningen av AI på bedriften ikke er "overvurdert"

Når et skritt er et sprang

Metas AI internet chatbot-demo begynner raskt å spy ut falske nyheter og rasistiske kommentarer

AI for å forsvare Washington DC mot lufttrusler

BBC utrydder AI-eksperimenter som brukes til å promotere Doctor Who

AlphaCode 2, en kodegenererende AI fornyet med Gemini-sett

En neste generasjons AI-proteinmappe som kan hjelpe vitenskapen? Meta er bra for noe

Om Oss

Vertikal søk og Ai

Plattform

Hold kontakten

Logg inn