Comment créer votre propre modèle de langage Bitcoin

Comment créer votre propre modèle de langage Bitcoin

Ceci est un éditorial d'opinion d'Aleksandar Svetski, auteur de "The UnCommunist Manifesto" et fondateur du modèle de langage axé sur Bitcoin Spirit of Satoshi.

Les modèles de langage font fureur, et beaucoup de gens prennent simplement des modèles de base (le plus souvent ChatGPT ou quelque chose de similaire) et les connectent ensuite à une base de données vectorielle afin que lorsque les gens posent une question à leur "modèle", il réponde à la réponse avec le contexte de cette base de données vectorielles.

Qu'est-ce qu'une base de données vectorielle? J'expliquerai cela plus en détail dans un prochain essai, mais un moyen simple de le comprendre est de le considérer comme une collection d'informations stockées sous forme de blocs de données, qu'un modèle de langage peut interroger et utiliser pour produire de meilleures réponses. Imaginez « The Bitcoin Standard », divisé en paragraphes et stocké dans cette base de données vectorielle. Vous posez à ce nouveau « modèle » une question sur l’histoire de la monnaie. Le modèle sous-jacent interrogera en fait la base de données, sélectionnera l'élément de contexte le plus pertinent (un paragraphe de « The Bitcoin Standard »), puis l'introduira dans l'invite du modèle sous-jacent (dans de nombreux cas, ChatGPT). Le modèle devrait alors répondre avec une réponse plus pertinent répondre. C'est cool et ça marche bien dans certains cas, mais cela ne résout pas les problèmes sous-jacents de bruit et de biais dominants auxquels les modèles sous-jacents sont soumis pendant leur formation.

C'est ce que nous essayons de faire chez Spirit of Satoshi. Nous avons construit un modèle comme celui décrit ci-dessus il y a environ six mois, que vous pouvez essayer ici. Vous remarquerez que ce n'est pas mal avec certaines réponses, mais il ne peut pas tenir de conversation et il fonctionne très mal en matière de shitcoinery et de choses qu'un vrai Bitcoiner connaîtrait.

C'est pourquoi nous avons changé notre approche et construisons un modèle de langage complet à partir de zéro. Dans cet essai, je vais en parler un peu, pour vous donner une idée de ce que cela implique.

Un modèle de langage Bitcoin plus "basé"

La mission de construire un modèle de langage plus "basé" se poursuit. Il s'est avéré être plus impliqué que je ne le pensais, pas d'un "techniquement compliqué" point de vue, mais plus d'un "Putain c'est fastidieux" point de vue.

Tout est question de données. Et pas la quantité de données, mais la qualité et le format des données. Vous avez probablement entendu des nerds en parler, et vous ne l'appréciez pas vraiment jusqu'à ce que vous commenciez à donner le truc à un modèle, et que vous obteniez un résultat… qui n'était pas nécessairement ce que vous vouliez.

Le pipeline de données est l'endroit où se trouve tout le travail. Vous devez recueillir ainsi que guéri les données, alors vous devez extrait il. Ensuite, vous devez programmer espace extérieur plus propre, (il est impossible de faire un premier nettoyage manuellement).

Ensuite, vous prenez ces données brutes nettoyées par programme et vous devez transform en plusieurs données formats (pensez à des paires de questions-réponses, ou à des morceaux et des paragraphes sémantiquement cohérents). Vous devez également le faire par programmation, si vous traitez beaucoup de données, ce qui est le cas pour un modèle de langage. Assez drôle, d'autres modèles de langage sont en fait bons pour cette tâche ! Vous utilisez des modèles de langage pour créer de nouveaux modèles de langage.

Sur la mission de construire un modèle linguistique plus « basé ».

Ensuite, parce qu'il y aura probablement beaucoup de déchets, et des déchets non pertinents générés par le modèle de langage que vous avez utilisé pour transformer les données par programmation, vous devez faire un travail plus intense espace extérieur plus propre,.

Ce C'est là que vous devez obtenir de l'aide humaine, car à ce stade, il semble que les humains soient encore les seules créatures sur la planète avec l'agence nécessaire pour différencier et déterminer qualité. Les algorithmes peuvent en quelque sorte le faire, mais pas si bien avec le langage pour le moment – ​​en particulier dans des contextes comparatifs plus nuancés – où Bitcoin se situe carrément.

Quoi qu’il en soit, réaliser cela à grande échelle est incroyablement difficile à moins de disposer d’une armée de personnes pour vous aider. Cette armée de personnes peut être constituée de mercenaires payés par quelqu'un, comme OpenAI qui a plus d'argent que Dieu, ou ils peuvent être missionnaires, ce qu'est généralement la communauté Bitcoin (nous en sommes très chanceux et reconnaissants chez Spirit of Satoshi). Les individus parcourent les éléments de données et choisissent un par un s'ils souhaitent conserver, supprimer ou modifier les données.

Une fois que les données ont traversé ce processus, vous vous retrouvez avec quelque chose de propre à l'autre bout. Bien sûr, il y a plus de complexités impliquées ici. Par exemple, vous devez vous assurer que les mauvais acteurs qui tentent de bâcler votre processus de nettoyage sont éliminés ou que leurs contributions sont rejetées. Vous pouvez le faire de plusieurs façons, et tout le monde le fait un peu différemment. Vous pouvez filtrer les personnes à leur arrivée, vous pouvez créer une sorte de modèle de consensus de nettoyage interne afin que les seuils doivent être atteints pour que les éléments de données soient conservés ou supprimés, etc. Chez Spirit of Satoshi, nous faisons un mélange des deux, et je suppose que nous verrons son efficacité dans les mois à venir.

Maintenant… une fois que vous avez ces belles données propres à la fin de ce "pipeline," vous devez alors le format encore une fois en préparation de "Formation" un modèle.

Cette dernière étape est celle où les unités de traitement graphique (GPU) entrent en jeu, et c'est vraiment ce à quoi la plupart des gens pensent lorsqu'ils entendent parler de la création de modèles de langage. Toutes les autres choses que j'ai couvertes sont généralement ignorées.

Cette étape d'étirement à domicile implique de former une série de modèles et de jouer avec les paramètres, les mélanges de données, le quantum de données, les types de modèles, etc. Cela peut rapidement coûter cher, il vaut donc mieux avoir de sacrées bonnes données et vous Il vaut mieux commencer avec des modèles plus petits et progresser.

Tout est expérimental, et ce que vous obtenez à l'autre bout est… un résultat…

C'est incroyable ce que nous, les humains, évoquons. De toute façon…

Chez Spirit of Satoshi, notre résultat est toujours en cours d'élaboration et nous y travaillons de plusieurs manières :

  1. Nous demandons à des bénévoles de nous aider à collecter et à conserver les données les plus pertinentes pour le modèle. Nous faisons cela à Le référentiel Nakamoto. Il s'agit d'un référentiel de tous les livres, essais, articles, blogs, vidéos YouTube et podcasts sur et liés au Bitcoin, ainsi qu'à des périphériques tels que les travaux de Friedrich Nietzsche, Oswald Spengler, Jordan Peterson, Hans-Hermann Hoppe, Murray Rothbard, Carl Jung, la Bible, etc

    Vous pouvez y rechercher n'importe quoi et accéder à l'URL, au fichier texte ou au PDF. Si un bénévole ne trouve pas quelque chose, ou estime qu'il doit être inclus, il peut « ajouter » un enregistrement. S'ils ajoutent des indésirables, ils ne seront pas acceptés. Idéalement, les volontaires soumettront les données sous forme de fichier .txt avec un lien.

  2. Les membres de la communauté peuvent également aidez-nous réellement à nettoyer les données et à gagner des sats. Vous vous souvenez de cette étape missionnaire dont j’ai parlé ? Eh bien, c'est ça. Nous déployons toute une boîte à outils dans ce cadre, et les participants pourront jouer à « FUD buster » et à « classer les réponses » et toutes sortes d'autres choses. Pour l'instant, c'est comme une expérience de conservation/rejet/commentaire à la Tinder sur l'interface de données pour nettoyer ce qui est en cours.

    C'est un moyen pour les personnes qui ont passé des années à apprendre et à comprendre Bitcoin pour transformer ce «travail» en sats. Non, ils ne vont pas s'enrichir, mais ils peuvent aider à contribuer à quelque chose qu'ils pourraient considérer comme un projet valable et gagner quelque chose en cours de route.

Programmes de probabilités, pas d'IA

Dans quelques essais précédents, j'ai soutenu que «l'intelligence artificielle» est un terme imparfait, car même s'il is artificiel, c'est ne sauraient intelligent - et de plus, la pornographie de la peur entourant l'intelligence générale artificielle (IAG) est totalement infondée car il n'y a littéralement aucun risque que cette chose devienne spontanément sensible et nous tue tous. Quelques mois plus tard et j'en suis encore plus convaincu.

Je repense à l'excellent article de John Carter «Je m'ennuie déjà de l'IA générative» et il était tellement parfait.

Il n'y a vraiment rien de magique, ou d'intelligent d'ailleurs, dans ces trucs d'IA. Plus nous jouons avec, plus nous passons de temps à construire le nôtre, plus nous réalisons qu'il n'y a pas de sensibilité ici. Il n'y a pas de réflexion ou de raisonnement réel. Il n'y a pas d'agence. Ce ne sont que des « programmes de probabilité ».

La façon dont ils sont étiquetés et les termes utilisés, que ce soit "IA" ou "machine apprentissage» ou « agents », c'est en fait là que réside la plus grande partie de la peur, de l'incertitude et du doute.

Ces étiquettes ne sont qu'une tentative de décrire un ensemble de processus, qui ne ressemblent vraiment à rien de ce que fait un humain. Le problème avec le langage est que nous commençons immédiatement à l'anthropomorphiser pour lui donner un sens. Et ce faisant, c'est le public ou l'auditeur qui donne vie au monstre de Frankenstein.

AI a aucune vie autre que celle que vous lui donnez avec votre propre imagination. C'est à peu près la même chose avec toute autre menace imaginaire, eschatologique.

(Insérez des exemples concernant le changement climatique, les extraterrestres ou tout ce qui se passe sur Twitter/X.)

Ceci est, bien sûr, très utile pour les bureaucrates globo-homo qui veulent utiliser un tel outil/programme/machine à leurs propres fins. Ils ont tourné des histoires et des récits avant même qu'ils ne sachent marcher, et ce n'est que le dernier à tourner. Et parce que la plupart des gens sont des lemmings et croiront tout ce que quelqu'un qui sonne quelques points de QI plus intelligent qu'eux a à dire, ils l'utiliseront à leur avantage.

Je me souviens d'avoir parlé d'une réglementation à venir. J'ai remarqué que la semaine dernière ou la semaine précédente, il existe désormais des "directives officielles" ou quelque chose du genre pour l'IA générative - gracieuseté de nos seigneurs bureaucratiques. Ce que cela signifie, personne ne le sait vraiment. Il est masqué dans le même langage absurde que tous leurs autres règlements. Le résultat net étant, encore une fois, "Nous écrivons les règles, nous arrivons à utiliser les outils comme nous le voulons, vous devez l'utiliser comme nous vous le disons, sinon."

La partie la plus ridicule est qu'un groupe de personnes ont applaudi à ce sujet, pensant qu'ils sont en quelque sorte plus à l'abri du monstre imaginaire qui n'a jamais existé. En fait, ils attribueront probablement à ces agences le mérite de "nous avoir sauvés de l'AGI" car cela ne s'est jamais concrétisé.

Cela me rappelle ceci :

Sur la mission de construire un modèle linguistique plus « basé ».

Lorsque j'ai posté la photo ci-dessus sur Twitter, le nombre d'idiots qui ont répondu avec la conviction sincère que l'évitement de ces catastrophes était le résultat d'une intervention bureaucratique accrue m'a dit tout ce que j'avais besoin de savoir sur le niveau d'intelligence collective sur cette plate-forme.

Néanmoins, nous y sommes. Encore une fois. Même histoire, nouveaux personnages.

Hélas, nous ne pouvons vraiment rien faire à ce sujet, à part nous concentrer sur nos propres affaires. Nous continuerons à faire ce que nous avons décidé de faire.

Je suis devenu moins enthousiaste à propos de "GenAI" en général, et j'ai l'impression qu'une grande partie du battage médiatique se dissipe à mesure que l'attention des gens se tourne à nouveau vers les extraterrestres et la politique. Je suis également moins convaincu qu'il y a quelque chose de substantiellement transformateur ici – du moins dans la mesure où je le pensais il y a six mois. Peut-être que j'aurai tort. Je pense que ces outils ont un potentiel latent et inexploité, mais c'est juste ça : latent.

Je pense que nous devons être plus réalistes quant à ce qu'ils sont (au lieu d'intelligence artificielle, il vaut mieux les appeler "programmes de probabilité") et cela pourrait en fait signifier que nous consacrons moins de temps et d'énergie à des chimères et que nous nous concentrons davantage sur la création d'applications utiles. En ce sens, je reste curieux et prudemment optimiste que quelque chose se matérialise, et je crois que quelque part dans le lien entre Bitcoin, les programmes de probabilité et les protocoles tels que Nostr, quelque chose de très utile émergera.

J'espère que nous pourrons y participer, et j'aimerais que vous y participiez également si cela vous intéresse. À cette fin, je vous laisse tous à votre journée, et j'espère que ce fut un aperçu utile de 10 minutes sur ce qu'il faut pour construire un modèle de langage.

Ceci est un article invité par Aleksander Svetski. Les opinions exprimées sont entièrement les leurs et ne reflètent pas nécessairement celles de BTC Inc ou de Bitcoin Magazine.

Horodatage:

Plus de Magazine Bitcoin