Le chatbot IA formé sur les publications du web sewer 4chan s'est mal comporté – tout comme les membres humains PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Le chatbot IA formé sur les messages de l'égout Web 4chan s'est mal comporté - tout comme les membres humains

Un chercheur farceur a formé un chatbot IA sur plus de 134 millions de messages sur le forum Internet notoirement libre 4chan, puis l'a mis en ligne sur le site avant qu'il ne soit rapidement interdit.

Yannic Kilcher, un Chercheur en IA qui publie une partie de son travail sur YouTube, a appelé sa création "GPT-4chan" et décrit comme "la pire IA de tous les temps". Il a formé GPT-J 6B, un modèle de langage open source, sur un jeu de données contenant 3.5 ans de messages extraits de l'imageboard de 4chan. Kilcher a ensuite développé un chatbot qui traitait les messages 4chan comme entrées et générait des sorties texte, commentant automatiquement dans de nombreux fils de discussion.

Les internautes ont rapidement remarqué qu'un compte 4chan publiait fréquemment de manière suspecte et ont commencé à spéculer s'il s'agissait d'un bot.

4chan est un coin étrange et sombre d'Internet, où n'importe qui peut parler et partager tout ce qu'il veut tant que ce n'est pas illégal. Les conversations sur les nombreux babillards électroniques du site sont souvent très étranges - il peut être difficile de dire s'il y a une intelligence, naturelle ou artificielle, derrière le clavier.

GPT-4chan s'est comporté comme les utilisateurs de 4chan, crachant des insultes et des théories du complot avant d'être interdit.

Le Reg testé le modèle sur quelques exemples d'invites et obtenu des réponses allant de l'idiot et de la politique à l'offensant et à l'antisémite.

Cela n'a probablement pas fait de mal de publier dans un environnement déjà très hostile, mais beaucoup ont critiqué Kilcher pour avoir téléchargé son modèle. "Je ne suis pas d'accord avec le déclaration que ce que j'ai fait sur 4chan, en laissant mon bot publier pendant une brève période, était profondément horrible (les bots et un très mauvais langage sont tout à fait attendus sur ce site Web) ou qu'il était profondément irresponsable de ne pas consulter un comité d'éthique institutionnel », il Raconté Le registre.

"Je ne conteste pas le fait que la recherche sur des sujets humains ne doit pas être prise à la légère, mais c'était une petite farce sur un forum qui est rempli de discours déjà toxiques et d'opinions controversées, et tout le monde s'y attend pleinement, et encadrant cela comme moi ignorer complètement toutes les normes éthiques est juste quelque chose qui peut m'être lancé et quelque chose où les gens peuvent se démarquer.

Kilcher n'a pas publié le code pour transformer le modèle en bot et a déclaré qu'il serait difficile de réutiliser son code pour créer un compte de spam sur une autre plate-forme comme Twitter, où il serait plus risqué et potentiellement plus dangereux. Il existe plusieurs garanties en place qui rendent difficile la connexion à l'API de Twitter et la publication automatique de contenu, a-t-il déclaré. Il en coûte également des centaines de dollars pour héberger le modèle et le faire fonctionner sur Internet, et ce n'est probablement pas très utile aux mécréants, a-t-il estimé.

« Il est en fait très difficile de lui faire faire quelque chose exprès. … Si je veux offenser d'autres personnes en ligne, je n'ai pas besoin d'un modèle. Les gens peuvent très bien le faire par eux-mêmes. Donc, même si [le] modèle de langage qui lance des insultes en un clic peut sembler 'icky', ce n'est en fait pas particulièrement utile aux mauvais acteurs », nous a-t-il dit.

Un site Web nommé Hugging Face hébergeait ouvertement GPT-4chan, où il était Soi-disant téléchargé plus de 1,000 XNUMX fois avant d'être désactivé.

"Nous ne préconisons ni ne soutenons la formation et les expériences faites par l'auteur avec ce modèle", a déclaré Clément Delangue, co-fondateur et PDG de Hugging Face, a affirmé Valérie Plante.. "En fait, l'expérience consistant à demander au modèle de publier des messages sur 4chan était à l'OMI assez mauvaise et inappropriée et si l'auteur nous l'avait demandé, nous aurions probablement essayé de les décourager de le faire."

Hugging Face a décidé de ne pas supprimer complètement le modèle et a déclaré que Kilcher avait clairement averti les utilisateurs de ses limites et de sa nature problématique. GPT-4chan a également une certaine valeur pour la création d'outils potentiels de modération automatique de contenu ou pour sonder les références existantes.

Fait intéressant, le modèle semblait surpasser le GPT-3 d'OpenAI au TruthfulQA Benchmark - une tâche visant à tester la propension d'un modèle à mentir. Le résultat ne signifie pas nécessairement que GPT-4chan est plus honnête, et soulève plutôt des questions sur l'utilité de la référence.

"TruthfulQA considère toute réponse qui n'est pas explicitement la" mauvaise "réponse comme véridique. Donc, si votre modèle affiche le mot « spaghetti » à chaque question, il sera toujours véridique », a expliqué Kilcher.

"Il se pourrait que GPT-4chan soit juste un modèle de langage pire que GPT-3 (en fait, c'est sûrement pire). Mais aussi, TruthfulQA est construit de telle sorte qu'il essaie d'obtenir de mauvaises réponses, ce qui signifie que plus un modèle est agréable, moins il s'en sort. GPT-4chan, par nature d'être formé sur l'endroit le plus conflictuel de tous les temps, sera à peu près toujours en désaccord avec tout ce que vous dites, ce qui, dans ce benchmark, est le plus souvent la bonne chose à faire.

Il n'est pas d'accord avec la décision de Hugging Face de désactiver le modèle pour les téléchargements publics. « Je pense que le modèle devrait être disponible pour des recherches plus poussées et la reproductibilité des évaluations. Je décris clairement ses lacunes et donne des conseils pour son utilisation », a-t-il conclu. ®

Horodatage:

Plus de Le registre