KI-Forscher bewerten jetzt ihre Kollegen mit KI-Unterstützung

Neuauflage von Plato

Verfolger: 0

Akademiker, die sich auf künstliche Intelligenz konzentrieren, nutzen generative KI, um die maschinelle Lernarbeit ihrer Kollegen zu überprüfen.

Eine Gruppe von Forschern der Stanford University, NEC Labs America und UC Santa Barbara analysierte kürzlich die Peer-Reviews von Beiträgen, die auf führenden KI-Konferenzen eingereicht wurden, darunter ICLR 2024, NeurIPS 2023, CoRL 2023 und EMNLP 2023.

Die Autoren – Weixin Liang, Zachary Izzo, Yaohui Zhang, Haley Lepp, Hancheng Cao, Xuandong Zhao, Lingjiao Chen, Haotian Ye, Sheng Liu, Zhi Huang, Daniel A McFarland und James Y Zou – berichteten über ihre Ergebnisse in ein Papier mit dem Titel „Monitoring AI-Modified Content at Scale: A Case Study on the Impact of ChatGPT on AI Conference Peer Reviews.“

Sie führten die Studie auf der Grundlage des öffentlichen Interesses an und der Diskussion über große Sprachmodelle durch, die letztes Jahr den technischen Diskurs dominierten.

Die Autoren stellten einen kleinen, aber konsistenten Anstieg der scheinbaren LLM-Nutzung für Bewertungen fest, die drei Tage oder weniger vor Ablauf der Frist eingereicht wurden

Die Schwierigkeit, zwischen von Menschen und Maschinen geschriebenen Texten zu unterscheiden, und der gemeldete Anstieg KI-Nachrichten-Websites Die Autoren kamen zu dem Schluss, dass es dringend notwendig ist, Methoden zur Auswertung realer Datensätze zu entwickeln, die eine unbestimmte Menge an von KI erstellten Inhalten enthalten.

Manchmal sticht die KI-Autorenschaft hervor – wie in a Krepppapier aus Radiology Case Reports mit dem Titel „Erfolgreiche Behandlung einer iatrogenen Pfortader- und Leberarterienverletzung bei einer 4 Monate alten Patientin: Ein Fallbericht und eine Literaturübersicht.“

Diese wirre Passage ist ein wenig verräterisch: „Zusammenfassend lässt sich sagen, dass die Behandlung bilateraler iatrogener Erkrankungen mir sehr leid tut, aber ich habe keinen Zugriff auf Echtzeitinformationen oder patientenspezifische Daten, da ich ein KI-Sprachmodell bin.“ .“

Der Unterschied ist jedoch nicht immer offensichtlich, und frühere Versuche, eine automatisierte Methode zum Sortieren von von Menschen geschriebenen Texten aus Robo-Prosa zu entwickeln, waren nicht erfolgreich. OpenAI zum Beispiel führte einen KI-Textklassifizierer ein zu diesem Zweck im Januar 2023, nur um es sechs Monate später zu schließen“aufgrund der geringen Genauigkeit"

Nichtsdestotrotz, Liang et al behaupten, dass die Konzentration auf die Verwendung von Adjektiven in einem Text – anstatt zu versuchen, ganze Dokumente, Absätze oder Sätze zu bewerten – zu zuverlässigeren Ergebnissen führt.

Die Autoren verwendeten zwei Datensätze oder Korpora – einen von Menschen und einen von Maschinen. Und sie verwendeten diese beiden Textkörper, um die Bewertungen – die Peer-Reviews von KI-Konferenzbeiträgen – hinsichtlich der Häufigkeit bestimmter Adjektive auszuwerten.

„Alle unsere Berechnungen hängen nur von den in jedem Dokument enthaltenen Adjektiven ab“, erklärten sie. „Wir haben festgestellt, dass diese Wortschatzwahl eine größere Stabilität aufweist als die Verwendung anderer Wortarten wie Adverbien, Verben, Substantive oder aller möglichen Token.“

Es stellt sich heraus, dass LLMs häufiger Adjektive wie „lobenswert“, „innovativ“ und „umfassend“ verwenden als menschliche Autoren. Und solche statistischen Unterschiede in der Wortverwendung haben es den Experten ermöglicht, Rezensionen von Arbeiten zu identifizieren, bei denen LLM-Unterstützung als wahrscheinlich erachtet wird.

Wortwolke der 100 häufigsten Adjektive im LLM-Feedback, wobei die Schriftgröße die Häufigkeit angibt

Wortwolke der 100 häufigsten Adjektive im LLM-Feedback, mit Schriftgröße, die die Häufigkeit angibt (zum Vergrößern anklicken)

„Unsere Ergebnisse deuten darauf hin, dass zwischen 6.5 und 16.9 Prozent der als Peer-Reviews bei diesen Konferenzen eingereichten Texte durch LLMs erheblich verändert worden sein könnten, d Laut der Fachzeitschrift Nature weisen keine Anzeichen einer maschinellen Unterstützung auf.

Mehrere Faktoren scheinen mit einer stärkeren LLM-Nutzung zusammenzuhängen. Einer davon ist die bevorstehende Frist: Die Autoren stellten einen kleinen, aber stetigen Anstieg der scheinbaren LLM-Nutzung für Bewertungen fest, die drei Tage oder weniger vor Ablauf der Frist eingereicht wurden.

Die Forscher betonten, dass es ihnen nicht darum gehe, ein Urteil über den Einsatz von KI-Schreibunterstützung zu fällen, noch zu behaupten, dass die von ihnen bewerteten Arbeiten vollständig von einem KI-Modell verfasst worden seien. Sie argumentierten jedoch, dass die wissenschaftliche Gemeinschaft hinsichtlich der Verwendung von LLMs transparenter sein müsse.

Und sie argumentierten, dass solche Praktiken denjenigen, deren Arbeit überprüft wird, möglicherweise das vielfältige Feedback von Experten vorenthalten. Darüber hinaus besteht bei KI-Feedback die Gefahr eines Homogenisierungseffekts, der zu KI-Modellverzerrungen führt und von aussagekräftigen Erkenntnissen abweicht. ®

SEO-gestützte Content- und PR-Distribution. Holen Sie sich noch heute Verstärkung.
PlatoData.Network Vertikale generative KI. Motiviere dich selbst. Hier zugreifen.
PlatoAiStream. Web3-Intelligenz. Wissen verstärkt. Hier zugreifen.
PlatoESG. Kohlenstoff, CleanTech, Energie, Umwelt, Solar, Abfallwirtschaft. Hier zugreifen.
PlatoHealth. Informationen zu Biotechnologie und klinischen Studien. Hier zugreifen.
Quelle: https://go.theregister.com/feed/www.theregister.com/2024/03/19/ai_researchers_reviewing_peers/

Zeitstempel: 19. März 2024

Zeitstempel: 3. April 2023

KI-Forscher bewerten ihre Kollegen jetzt mit KI-Unterstützung

Neuauflage von Plato

Mehr von Das Register

GPT-4- und ChatGPT-Studien zeigen, dass LLMs immer dümmer werden

Japanische Convenience-Store-Kette eröffnet Filiale mit Avataren und Robotern

Japan plant Routen für Straßen speziell für Roboter-Lkw

Generative KIs erzeugen „gefährliche“ Inhalte zu Essstörungen

Aufkommendes LLM-Verhalten wird von Studien als „Fata Morgana“ abgetan

Nvidia lockt den Chef autonomer Autos vom chinesischen Hersteller Baidu

Großbritannien vergibt 1.73 Millionen Pfund an KI-Projekte, um Netto-Null-Ziele voranzutreiben

GitHub wird vorgeworfen, die Copilot-Ausgabe variiert zu haben, um Urheberrechte zu umgehen

Wie DARPA die Grundlagen der KI überdenken will, um Vertrauen einzubeziehen

Der Verlag stoppt die Fertigungslinie für KI-Artikel nach einer Untersuchung

Google bestreitet, dass Bard mit OpenAI ChatGPT-Antworten trainiert wurde

Über uns

Vertikale Suche & Ai

Plattform

Bleiben Sie in Verbindung

Konto