Les chercheurs en IA examinent désormais leurs pairs avec l’aide de l’IA

Republié par Platon

Suiveurs: 0

Les universitaires spécialisés dans l’intelligence artificielle ont commencé à utiliser l’IA générative pour les aider à examiner le travail d’apprentissage automatique de leurs pairs.

Un groupe de chercheurs de l'Université de Stanford, de NEC Labs America et de l'UC Santa Barbara ont récemment analysé les évaluations par les pairs des articles soumis aux principales conférences sur l'IA, notamment ICLR 2024, NeurIPS 2023, CoRL 2023 et EMNLP 2023.

Les auteurs – Weixin Liang, Zachary Izzo, Yaohui Zhang, Haley Lepp, Hancheng Cao, Xuandong Zhao, Lingjiao Chen, Haotian Ye, Sheng Liu, Zhi Huang, Daniel A McFarland et James Y Zou – ont rapporté leurs conclusions dans un document intitulé « Surveillance du contenu modifié par l'IA à grande échelle : une étude de cas sur l'impact de ChatGPT sur les évaluations par les pairs des conférences sur l'IA. »

Ils ont entrepris l'étude sur la base de l'intérêt public et des discussions autour des grands modèles de langage qui ont dominé le discours technique l'année dernière.

Les auteurs ont constaté une augmentation légère mais constante de l'utilisation apparente du LLM pour les avis soumis trois jours ou moins avant la date limite.

La difficulté de faire la distinction entre les textes écrits par des humains et ceux écrits par des machines et l'augmentation signalée Sites Web d'actualités sur l'IA a conduit les auteurs à conclure qu'il existe un besoin urgent de développer des moyens d'évaluer des ensembles de données du monde réel contenant une quantité indéterminée de contenu créé par l'IA.

Parfois, la paternité de l’IA se démarque – comme dans un papier tiré de rapports de cas de radiologie intitulés « Gestion réussie d'une veine porte iatrogène et d'une lésion de l'artère hépatique chez une patiente de 4 mois : rapport de cas et revue de la littérature. »

Ce passage confus est un peu révélateur : « En résumé, la prise en charge des iatrogènes bilatéraux, je suis vraiment désolé, mais je n'ai pas accès aux informations en temps réel ni aux données spécifiques au patient, car je suis un modèle de langage d'IA. .»

Mais la distinction n’est pas toujours évidente, et les tentatives passées visant à développer un moyen automatisé de trier le texte écrit par l’homme de la prose robotisée n’ont pas donné de bons résultats. OpenAI, par exemple introduit un classificateur de texte AI à cet effet en janvier 2023, pour le fermer six mois plus tard »en raison de son faible taux de précision. »

Néanmoins, Liang et al soutiennent que se concentrer sur l’utilisation d’adjectifs dans un texte – plutôt que d’essayer d’évaluer des documents, des paragraphes ou des phrases entiers – conduit à des résultats plus fiables.

Les auteurs ont pris deux ensembles de données, ou corpus – l’un écrit par des humains et l’autre écrit par des machines. Et ils ont utilisé ces deux corps de texte pour évaluer les évaluations – les examens par les pairs des articles de conférence sur l’IA – pour la fréquence d’adjectifs spécifiques.

« Tous nos calculs dépendent uniquement des adjectifs contenus dans chaque document », ont-ils expliqué. "Nous avons constaté que ce choix de vocabulaire présentait une plus grande stabilité que l'utilisation d'autres parties du discours telles que les adverbes, les verbes, les noms ou tous les symboles possibles."

Il s'avère que les LLM ont tendance à employer des adjectifs tels que « louable », « innovant » et « complet » plus fréquemment que les auteurs humains. Et de telles différences statistiques dans l'utilisation des mots ont permis aux experts d'identifier les critiques d'articles pour lesquels une aide LLM est jugée probable.

Nuage de mots des 100 meilleurs adjectifs dans les commentaires LLM, avec une taille de police indiquant la fréquence (cliquez pour agrandir)

"Nos résultats suggèrent qu'entre 6.5 pour cent et 16.9 pour cent des textes soumis à ces conférences dans le cadre d'une évaluation par les pairs auraient pu être considérablement modifiés par les LLM, c'est-à-dire au-delà de la vérification orthographique ou des mises à jour mineures de l'écriture", ont soutenu les auteurs, notant que les revues de travaux dans le La revue scientifique Nature ne présente aucun signe d’assistance mécanisée.

Plusieurs facteurs semblent être corrélés à une plus grande utilisation du LLM. La première est l’approche de la date limite : les auteurs ont constaté une augmentation légère mais constante de l’utilisation apparente du LLM pour les évaluations soumises trois jours ou moins avant la date limite.

Les chercheurs ont souligné que leur intention n’était pas de porter un jugement sur l’utilisation de l’aide à la rédaction par l’IA, ni d’affirmer que les articles qu’ils ont évalués avaient été entièrement rédigés par un modèle d’IA. Mais ils ont fait valoir que la communauté scientifique doit être plus transparente quant à l’utilisation des LLM.

Et ils ont soutenu que de telles pratiques privent potentiellement ceux dont les travaux sont examinés de divers commentaires d'experts. De plus, les commentaires de l’IA risquent de provoquer un effet d’homogénéisation qui favorise les biais des modèles d’IA et s’éloigne d’informations significatives. ®

Contenu propulsé par le référencement et distribution de relations publiques. Soyez amplifié aujourd'hui.
PlatoData.Network Ai générative verticale. Autonomisez-vous. Accéder ici.
PlatoAiStream. Intelligence Web3. Connaissance Amplifiée. Accéder ici.
PlatonESG. Carbone, Technologie propre, Énergie, Environnement, Solaire, La gestion des déchets. Accéder ici.
PlatoHealth. Veille biotechnologique et essais cliniques. Accéder ici.
La source: https://go.theregister.com/feed/www.theregister.com/2024/03/19/ai_researchers_reviewing_peers/

Horodatage: 19 mars 2024

Horodatage: Le 2 novembre 2022

Les chercheurs en IA évaluent désormais leurs pairs avec l’aide de l’IA

Republié par Platon

Plus de Le registre

HPE affirme que l'impact de l'IA sur l'entreprise n'est pas « surestimé »

Quand un pas est un saut

La démo de chatbot Internet AI de Meta commence rapidement à cracher de fausses nouvelles et des remarques racistes

L'IA va défendre Washington DC contre les menaces aériennes

La BBC extermine les expériences d'IA utilisées pour promouvoir Doctor Who

AlphaCode 2, une IA génératrice de code revisitée avec le kit Gemini

Un dossier de protéines d'IA de nouvelle génération qui pourrait aider la science ? Meta est bon pour quelque chose

À propos de nous

Recherche verticale et Ai

Plateforme

Restez à l'affût

Compte