Как создать собственную языковую модель биткойнов

Как создать собственную языковую модель биткойнов

Это редакционная статья Александра Светского, автора «Некоммунистического манифеста» и основателя языковой модели Spirit of Satoshi, ориентированной на Биткойн.

Языковые модели в моде, и многие люди просто берут базовые модели (чаще всего ChatGPT или что-то подобное), а затем подключают их к векторной базе данных, чтобы, когда люди задают своей «модели» вопрос, она отвечала на ответ контекстом. из этой векторной базы данных.

Что такое вектор базы данных? Я объясню это более подробно в будущем эссе, но проще всего понять это как набор информации, хранящейся в виде фрагментов данных, которые языковая модель может запрашивать и использовать для получения более эффективных ответов. Представьте себе «Стандарт Биткойн», разделенный на абзацы и хранящийся в этой векторной базе данных. Вы задаете этой новой «модели» вопрос об истории денег. Базовая модель фактически запрашивает базу данных, выбирает наиболее релевантную часть контекста (какой-то абзац из «Стандарта Биткойн»), а затем передает его в подсказку базовой модели (во многих случаях ChatGPT). Затем модель должна ответить более соответствующие отвечать. Это круто и в некоторых случаях работает нормально, но не решает основные проблемы основного шума и смещения, которым подвержены базовые модели во время их обучения.

Это то, что мы пытаемся сделать в Spirit of Satoshi. Около шести месяцев назад мы построили модель, подобную той, что описана выше, и вы можете попробовать ее. здесь. Вы заметите, что с некоторыми ответами он неплох, но он не может поддерживать разговор и работает очень плохо, когда дело касается дерьмовой монеты и вещей, которые должен знать настоящий биткойнер.

Вот почему мы изменили наш подход и строим полную языковую модель с нуля. В этом эссе я немного расскажу об этом, чтобы дать вам представление о том, что это влечет за собой.

Более «основанная» на биткойнах языковая модель

Миссия по созданию более «основанной» языковой модели продолжается. Это оказалось более запутанным, чем я даже думал, не от «технически сложный» точки зрения, но больше с «черт возьми, это утомительно» точка зрения.

Все дело в данных. И не количество данных, а качество и формат данных. Вы, наверное, слышали, как ботаники говорят об этом, и вы не оцените это до тех пор, пока не начнете скармливать материал модели и не получите результат… который не обязательно был тем, что вы хотели.

Конвейер данных — это место, где выполняется вся работа. Вы должны собирать и вылеченный данные, то вы должны извлечение это. Тогда вам нужно программно чистым это (невозможно выполнить очистку при первом запуске вручную).

Затем вы берете эти очищенные программным способом необработанные данные и должны трансформировать это в несколько данных Форматы (подумайте о парах вопросов и ответов или семантически связанных фрагментах и ​​абзацах). Это также необходимо делать программно, если вы имеете дело с большим количеством данных, как в случае с языковой моделью. Забавно, но другие языковые модели действительно хороши для этой задачи! Вы используете языковые модели для создания новых языковых моделей.

О миссии по созданию более «основанной» языковой модели.

Затем, потому что там, скорее всего, останется куча мусора и нерелевантный мусор, созданный любой языковой моделью, которую вы использовали для программного преобразования данных, вам нужно сделать более интенсивную чистым.

Эта здесь вам нужна человеческая помощь, потому что на данном этапе кажется, что люди все еще единственные существа на планете, обладающие способностью различать и определять . Алгоритмы вроде как могут это делать, но пока не так хорошо с языком — особенно в более тонких, сравнительных контекстах — где Биткойн прямо сидит.

В любом случае, делать это в больших масштабах невероятно сложно, если у вас нет армии людей, которые могут вам помочь. Эта армия людей может быть наемниками, оплачиваемыми кем-то, как OpenAI, который имеет больше денег, чем Богили они могут быть миссионерами, каковым в целом и является сообщество Биткойн (нам в Spirit of Satoshi очень повезло и мы благодарны за это). Люди просматривают элементы данных и один за другим решают, следует ли сохранить, удалить или изменить данные.

Как только данные проходят через этот процесс, вы получаете что-то чистое на другом конце. Здесь, конечно, больше тонкостей. Например, вам нужно убедиться, что злоумышленники, которые пытаются испортить ваш процесс очистки, отсеяны или их вклад отброшен. Вы можете сделать это несколькими способами, и каждый делает это немного по-своему. Вы можете проверять людей на входе, вы можете создать своего рода внутреннюю модель консенсуса очистки, чтобы необходимо было соблюдать пороговые значения для сохранения или удаления элементов данных и т. д. В Spirit of Satoshi мы делаем смесь обоих, и я думаю, мы увидим, насколько это эффективно в ближайшие месяцы.

Теперь… как только вы получите эти прекрасные чистые данные в конце этого «трубопровод,"тогда вам нужно формат это еще раз в рамках подготовки к «обучение" модель.

На этом заключительном этапе в игру вступают графические процессоры (GPU), и именно о нем думает большинство людей, когда слышат о построении языковых моделей. Все остальные вещи, которые я освещал, обычно игнорируются.

Этот завершающий этап включает в себя обучение ряда моделей и игру с параметрами, сочетаниями данных, квантом данных, типами моделей и т. д. Это может быстро дорого обойтись, поэтому лучше всего иметь чертовски хорошие данные и лучше начинать с более мелких моделей и продвигаться вперед.

Это все экспериментально, и то, что вы получаете на другом конце, это… результат…

Невероятно, что мы, люди, придумываем. В любом случае…

В Spirit of Satoshi наш результат все еще находится в стадии разработки, и мы работаем над ним несколькими способами:

  1. Мы просим добровольцев помочь нам собрать и обработать наиболее важные данные для модели. Мы делаем это в Репозиторий Накамото. Это хранилище всех книг, эссе, статей, блогов, видео на YouTube и подкастов, посвященных Биткойну и связанных с ним, а также периферийных устройств, таких как работы Фридриха Ницше, Освальда Шпенглера, Джордана Петерсона, Ганса-Германа Хоппе, Мюррея Ротбарда, Карла Юнга, Библия и т. д.

    Вы можете искать там что угодно и получать доступ к URL-адресу, текстовому файлу или PDF-файлу. Если доброволец не может что-то найти или считает, что это нужно включить, он может «добавить» запись. Если они добавят мусор, это не будет принято. В идеале добровольцы будут отправлять данные в виде файла .txt вместе со ссылкой.

  2. Члены сообщества также могут на самом деле помогите нам очистить данные и заработать сатс. Помните ту миссионерскую стадию, о которой я упоминал? Ну вот и все. В рамках этого мы внедряем целый набор инструментов, и участники смогут играть в «FUD buster», «оценивать ответы» и во множество других вещей. На данный момент это похоже на Tinder-подобный опыт сохранения/удаления/комментирования в интерфейсе данных, чтобы очистить то, что находится в конвейере.

    Это способ для людей, которые потратили годы на изучение и понимание Биткойна, превратить эту «работу» в сат. Нет, они не разбогатеют, но они могут внести свой вклад в то, что они сочтут достойным проектом, и попутно что-то заработать.

Вероятностные программы, а не ИИ

В нескольких предыдущих эссе я утверждал, что термин «искусственный интеллект» ошибочен, потому что, хотя он is искусственный, это не умный — и, кроме того, порно страха вокруг искусственного общего интеллекта (AGI) было совершенно необоснованным, потому что буквально нет риска того, что эта штука спонтанно станет разумной и убьет нас всех. Прошло несколько месяцев, и я еще больше убедился в этом.

Я вспоминаю прекрасную статью Джона Картера «Мне уже наскучил генеративный ИИ» и он был так на месте.

На самом деле в этом ИИ нет ничего волшебного или разумного, если уж на то пошло. Чем больше мы играем с ним, чем больше времени мы тратим на создание собственного, тем больше мы понимаем, что здесь нет разума. На самом деле никаких размышлений или рассуждений не происходит. Агентства нет. Это всего лишь «вероятностные программы».

То, как они обозначаются, и какие термины используются, будь то «ИИ» или «машина изучение” или “агенты”, на самом деле именно в этом заключается большая часть страха, неуверенности и сомнений.

Эти ярлыки — всего лишь попытка описать набор процессов, которые на самом деле не похожи ни на что, что делает человек. Проблема с языком в том, что мы сразу же начинаем его антропоморфизировать, чтобы придать ему смысл. И в процессе этого зрители или слушатели вдыхают жизнь в монстра Франкенштейна.

ИИ имеет нет жизнь, отличная от того, что вы ей даете в своем воображении. То же самое и с любой другой воображаемой эсхатологической угрозой.

(Вставьте примеры, связанные с изменением климата, инопланетянами или чем-то еще, что происходит в Twitter/X.)

Это, конечно, очень полезно для globo-homo бюрократов, которые хотят использовать любой такой инструмент/программу/машину в своих целях. Они сочиняли истории и нарративы еще до того, как научились ходить, и это лишь последнее из них. А поскольку большинство людей — лемминги, и они верят тому, что говорит кто-то, у кого IQ на несколько пунктов умнее их, они используют это в своих интересах.

Я помню, как говорил о регулировании, которое будет готово. Я заметил, что на прошлой или позапрошлой неделе появились «официальные руководства» или что-то в этом роде для генеративного ИИ — любезно предоставленные нашими бюрократическими повелителями. Что это значит, толком никто не знает. Это замаскировано тем же бессмысленным языком, что и все остальные их правила. Конечный результат, опять же, таков: «Мы пишем правила, мы можем использовать инструменты так, как мы хотим, вы должны использовать их так, как мы вам скажем, иначе».

Самое смешное, что группа людей обрадовалась этому, думая, что они каким-то образом в большей безопасности от воображаемого монстра, которого никогда не было. На самом деле, они, вероятно, приписывают этим агентствам «спасение нас от ОИИ», потому что оно так и не было реализовано.

Мне это напоминает:

О миссии по созданию более «основанной» языковой модели.

Когда я разместил эту картинку в Твиттере, количество идиотов, искренне верящих в то, что предотвращение этих катастроф было результатом усиленного бюрократического вмешательства, сказало мне все, что мне нужно было знать об уровне коллективного разума на этой платформе.

Тем не менее, мы здесь. Снова. Та же история, новые персонажи.

Увы, мы мало что можем с этим поделать, кроме как сосредоточиться на собственных вещах. Мы продолжим делать то, что задумали.

Я стал менее взволнован «GenAI» в целом, и я чувствую, что большая часть шумихи проходит, поскольку внимание людей снова переключается на инопланетян и политику. Я также менее убежден, что здесь есть что-то существенно преобразующее — по крайней мере, в той степени, в которой я думал шесть месяцев назад. Возможно, я ошибаюсь. Я действительно думаю, что у этих инструментов есть скрытый, неиспользованный потенциал, но это просто скрытый потенциал.

Я думаю, мы должны быть более реалистичными в отношении того, что они из себя представляют. (вместо искусственного интеллекта их лучше называть «вероятностными программами») и на самом деле это может означать, что мы тратим меньше времени и энергии на несбыточные мечты и больше внимания уделяем созданию полезных приложений. В этом смысле я по-прежнему любопытен и с осторожным оптимизмом смотрю на то, что что-то все-таки материализуется, и верю, что где-то на стыке Биткойна, вероятностных программ и протоколов, таких как Nostr, появится что-то очень полезное.

Я надеюсь, что мы сможем принять в этом участие, и я бы хотел, чтобы вы тоже приняли в этом участие, если вам это интересно. В связи с этим я оставлю вас всех наедине и надеюсь, что это был полезный 10-минутный обзор того, что нужно для построения языковой модели.

Это гостевой пост Александра Светского. Высказанные мнения являются полностью их собственными и не обязательно отражают точку зрения BTC Inc или Bitcoin Magazine.

Отметка времени:

Больше от Биткойн-журнал