Akademikere med fokus på kunstig intelligens er begyndt at bruge generativ AI til at hjælpe dem med at gennemgå kammeraternes maskinlæringsarbejde.
En gruppe forskere fra Stanford University, NEC Labs America og UC Santa Barbara har for nylig analyseret peer-reviews af artikler indsendt til førende AI-konferencer, herunder ICLR 2024, NeurIPS 2023, CoRL 2023 og EMNLP 2023.
Forfatterne - Weixin Liang, Zachary Izzo, Yaohui Zhang, Haley Lepp, Hancheng Cao, Xuandong Zhao, Lingjiao Chen, Haotian Ye, Sheng Liu, Zhi Huang, Daniel A McFarland og James Y Zou - rapporterede deres resultater i et papir med titlen "Monitoring AI-Modified Content at Scale: A Case Study on the Impact of ChatGPT on AI Conference Peer Reviews."
De foretog undersøgelsen baseret på den offentlige interesse for og diskussion af store sprogmodeller, der dominerede den tekniske diskurs sidste år.
Forfatterne fandt en lille, men konsekvent stigning i tilsyneladende LLM-brug for anmeldelser indsendt tre dage eller mindre før deadline
Vanskeligheden ved at skelne mellem menneske- og maskinskrevet tekst og den rapporterede stigning i AI nyhedswebsteder førte forfatterne til at konkludere, at der er et presserende behov for at udvikle måder til at evaluere virkelige datasæt, der indeholder en ubestemt mængde AI-forfattet indhold.
Nogle gange skiller AI-forfatterskab sig ud – som i en papir fra Radiology Case Reports med titlen "Succesfuld behandling af en iatrogen portalvene og leverarterieskade hos en 4-måneder gammel kvindelig patient: En case-rapport og litteraturgennemgang."
Denne rodede passage er lidt af en giveaway: "Sammenfattende, håndteringen af bilaterale iatrogene stoffer er jeg meget ked af, men jeg har ikke adgang til realtidsinformation eller patientspecifikke data, da jeg er en AI-sprogmodel ."
Men skelnen er ikke altid indlysende, og tidligere forsøg på at udvikle en automatiseret måde at sortere menneskeskreven tekst fra robo-prosa er ikke gået godt. OpenAI, for eksempel introducerede en AI Text Classifier til det formål i januar 2023, kun for at lukke den seks måneder senere "på grund af dens lave nøjagtighed".
Ikke desto mindre, Liang et al hævder, at fokus på brugen af adjektiver i en tekst – i stedet for at prøve at vurdere hele dokumenter, afsnit eller sætninger – fører til mere pålidelige resultater.
Forfatterne tog to sæt data, eller corpora - det ene skrevet af mennesker og det andet skrevet af maskiner. Og de brugte disse to tekster til at evaluere evalueringerne – peer reviews af konference AI-artikler – for hyppigheden af specifikke adjektiver.
"[Alle af vores beregninger afhænger kun af adjektiverne i hvert dokument," forklarede de. "Vi fandt, at dette ordforrådsvalg udviser større stabilitet end at bruge andre dele af talen, såsom adverbier, verber, substantiver eller alle mulige tokens."
Det viser sig, at LLM'er har en tendens til at bruge adjektiver som "prisværdigt", "nyskabende" og "omfattende" hyppigere end menneskelige forfattere. Og sådanne statistiske forskelle i ordbrug har gjort det muligt for boffinerne at identificere anmeldelser af papirer, hvor LLM-hjælp anses for sandsynlig.
Ordsky af top 100 adjektiver i LLM-feedback, med skriftstørrelse, der angiver frekvens (klik for at forstørre)
"Vores resultater tyder på, at mellem 6.5 procent og 16.9 procent af teksten indsendt som peer reviews til disse konferencer kunne være blevet væsentligt ændret af LLM'er, dvs. ud over stavekontrol eller mindre skriveopdateringer," argumenterede forfatterne og bemærkede, at anmeldelser af arbejde i videnskabeligt tidsskrift Nature udviser ikke tegn på mekaniseret assistance.
Flere faktorer ser ud til at være korreleret med større LLM-brug. Den ene nærmer sig en deadline: Forfatterne fandt en lille, men konsekvent stigning i tilsyneladende LLM-brug for anmeldelser indsendt tre dage eller mindre før deadline.
Forskerne understregede, at deres hensigt ikke var at fælde dom over brugen af AI-skrivehjælp eller at hævde, at nogen af de artikler, de evaluerede, var skrevet fuldstændigt af en AI-model. Men de hævdede, at det videnskabelige samfund skal være mere gennemsigtigt omkring brugen af LLM'er.
Og de hævdede, at sådan praksis potentielt fratager dem, hvis arbejde bliver gennemgået, forskellig feedback fra eksperter. Hvad mere er, risikerer AI-feedback en homogeniseringseffekt, der skæver mod AI-modelforstyrrelser og væk fra meningsfuld indsigt. ®
- SEO Powered Content & PR Distribution. Bliv forstærket i dag.
- PlatoData.Network Vertical Generative Ai. Styrk dig selv. Adgang her.
- PlatoAiStream. Web3 intelligens. Viden forstærket. Adgang her.
- PlatoESG. Kulstof, CleanTech, Energi, Miljø, Solenergi, Affaldshåndtering. Adgang her.
- PlatoHealth. Bioteknologiske og kliniske forsøgs intelligens. Adgang her.
- Kilde: https://go.theregister.com/feed/www.theregister.com/2024/03/19/ai_researchers_reviewing_peers/
- :er
- :ikke
- :hvor
- 100
- 16
- 2023
- 2024
- 378
- 7
- 9
- a
- Om
- adgang
- AI
- Alle
- tilladt
- altid
- am
- amerika
- beløb
- an
- analyseret
- ,
- enhver
- tilsyneladende
- vises
- nærmer sig
- argumenteret
- kunstig
- kunstig intelligens
- AS
- vurdere
- Assistance
- At
- Forsøg på
- forfattere
- Forfatterskab
- Automatiseret
- væk
- baseret
- BE
- været
- før
- være
- mellem
- Beyond
- fordomme
- Bit
- organer
- men
- by
- beregninger
- cao
- tilfælde
- casestudie
- ChatGPT
- chen
- valg
- krav
- klik
- Cloud
- CO
- prisværdigt
- samfund
- fuldstændig
- omfattende
- konkluderer
- Konference
- konferencer
- konsekvent
- indeholder
- indeholdt
- hævder
- indhold
- kunne
- Daniel
- data
- datasæt
- Dage
- deadline
- anses
- afhænge
- udvikle
- forskelle
- Vanskelighed
- diskurs
- diskussion
- skelnen
- forskelligartede
- do
- dokumentet
- dokumenter
- domineret
- Don
- e
- hver
- effekt
- understreget
- forstørre
- Hele
- Med titlen
- evaluere
- evalueret
- evalueringer
- eksempel
- udstille
- eksperter
- forklarede
- faktorer
- tilbagemeldinger
- kvinde
- fund
- fokuserede
- fokusering
- Til
- fundet
- Frekvens
- hyppigt
- fra
- generative
- Generativ AI
- giveaway
- gået
- større
- gruppe
- Have
- hjælpe
- HTTPS
- Huang
- menneskelig
- Mennesker
- i
- identificere
- KIMOs Succeshistorier
- in
- Herunder
- Forøg
- angiver
- oplysninger
- skade
- innovativ
- indsigt
- Intelligens
- Intention
- interesse
- isn
- IT
- ITS
- james
- januar
- tidsskrift
- jpg
- Labs
- Sprog
- stor
- Efternavn
- Sidste år
- senere
- førende
- Leads
- læring
- Led
- mindre
- ligesom
- Sandsynlig
- litteratur
- LLM
- Lav
- maskine
- machine learning
- Maskiner
- ledelse
- meningsfuld
- mindre
- model
- modeller
- modificeret
- overvågning
- måned
- mere
- Natur
- Behov
- behov
- nyheder
- bemærke
- substantiver
- nu
- Obvious
- of
- on
- ONE
- kun
- OpenAI
- or
- Andet
- vores
- ud
- papirer
- dele
- passerer
- passage
- forbi
- patient
- peer
- peers
- procent
- plato
- Platon Data Intelligence
- PlatoData
- Portal
- mulig
- potentielt
- praksis
- offentlige
- formål
- Sats
- hellere
- virkelige verden
- realtid
- for nylig
- pålidelig
- indberette
- rapporteret
- Rapporter
- forskere
- Resultater
- gennemgå
- revideret
- gennemgå
- Anmeldelser
- Rise
- risici
- s
- Santa
- Scale
- videnskabelig
- sæt
- Skilte
- SIX
- Seks måneder
- Størrelse
- lille
- nogle
- specifikke
- tale
- Stabilitet
- står
- Stanford
- Stanford University
- statistiske
- Studere
- indsendt
- væsentligt
- vellykket
- sådan
- tyder
- RESUMÉ
- taget
- Teknisk
- tendens
- tekst
- end
- at
- deres
- Them
- Der.
- Disse
- de
- denne
- dem
- tre
- titlen
- til
- Tokens
- tog
- top
- mod
- gennemsigtig
- forsøger
- vender
- to
- påtog sig
- universitet
- opdateringer
- presserende
- Brug
- brug
- anvendte
- ved brug af
- meget
- var
- Vej..
- måder
- we
- GODT
- var
- Hvad
- hvis
- med
- ord
- Arbejde
- skrivning
- skriftlig
- Ye
- år
- zephyrnet
- Zhao