Это редакционная статья Александра Светского, автора «Некоммунистического манифеста» и основателя языковой модели Spirit of Satoshi, ориентированной на Биткойн.
Языковые модели в моде, и многие люди просто берут базовые модели (чаще всего ChatGPT или что-то подобное), а затем подключают их к векторной базе данных, чтобы, когда люди задают своей «модели» вопрос, она отвечала на ответ контекстом. из этой векторной базы данных.
Что такое вектор базы данных? Я объясню это более подробно в будущем эссе, но проще всего понять это как набор информации, хранящейся в виде фрагментов данных, которые языковая модель может запрашивать и использовать для получения более эффективных ответов. Представьте себе «Стандарт Биткойн», разделенный на абзацы и хранящийся в этой векторной базе данных. Вы задаете этой новой «модели» вопрос об истории денег. Базовая модель фактически запрашивает базу данных, выбирает наиболее релевантную часть контекста (какой-то абзац из «Стандарта Биткойн»), а затем передает его в подсказку базовой модели (во многих случаях ChatGPT). Затем модель должна ответить более соответствующие отвечать. Это круто и в некоторых случаях работает нормально, но не решает основные проблемы основного шума и смещения, которым подвержены базовые модели во время их обучения.
Это то, что мы пытаемся сделать в Spirit of Satoshi. Около шести месяцев назад мы построили модель, подобную той, что описана выше, и вы можете попробовать ее. здесь. Вы заметите, что с некоторыми ответами он неплох, но он не может поддерживать разговор и работает очень плохо, когда дело касается дерьмовой монеты и вещей, которые должен знать настоящий биткойнер.
Вот почему мы изменили наш подход и строим полную языковую модель с нуля. В этом эссе я немного расскажу об этом, чтобы дать вам представление о том, что это влечет за собой.
Более «основанная» на биткойнах языковая модель
Миссия по созданию более «основанной» языковой модели продолжается. Это оказалось более запутанным, чем я даже думал, не от «технически сложный» точки зрения, но больше с «черт возьми, это утомительно» точка зрения.
Все дело в данных. И не количество данных, а качество и формат данных. Вы, наверное, слышали, как ботаники говорят об этом, и вы не оцените это до тех пор, пока не начнете скармливать материал модели и не получите результат… который не обязательно был тем, что вы хотели.
Конвейер данных — это место, где выполняется вся работа. Вы должны собирать и вылеченный данные, то вы должны извлечение это. Тогда вам нужно программно чистым это (невозможно выполнить очистку при первом запуске вручную).
Затем вы берете эти очищенные программным способом необработанные данные и должны трансформировать это в несколько данных Форматы (подумайте о парах вопросов и ответов или семантически связанных фрагментах и абзацах). Это также необходимо делать программно, если вы имеете дело с большим количеством данных, как в случае с языковой моделью. Забавно, но другие языковые модели действительно хороши для этой задачи! Вы используете языковые модели для создания новых языковых моделей.
Затем, потому что там, скорее всего, останется куча мусора и нерелевантный мусор, созданный любой языковой моделью, которую вы использовали для программного преобразования данных, вам нужно сделать более интенсивную чистым.
Эта здесь вам нужна человеческая помощь, потому что на данном этапе кажется, что люди все еще единственные существа на планете, обладающие способностью различать и определять . Алгоритмы вроде как могут это делать, но пока не так хорошо с языком — особенно в более тонких, сравнительных контекстах — где Биткойн прямо сидит.
В любом случае, делать это в больших масштабах невероятно сложно, если у вас нет армии людей, которые могут вам помочь. Эта армия людей может быть наемниками, оплачиваемыми кем-то, как OpenAI, который имеет больше денег, чем Богили они могут быть миссионерами, каковым в целом и является сообщество Биткойн (нам в Spirit of Satoshi очень повезло и мы благодарны за это). Люди просматривают элементы данных и один за другим решают, следует ли сохранить, удалить или изменить данные.
Как только данные проходят через этот процесс, вы получаете что-то чистое на другом конце. Здесь, конечно, больше тонкостей. Например, вам нужно убедиться, что злоумышленники, которые пытаются испортить ваш процесс очистки, отсеяны или их вклад отброшен. Вы можете сделать это несколькими способами, и каждый делает это немного по-своему. Вы можете проверять людей на входе, вы можете создать своего рода внутреннюю модель консенсуса очистки, чтобы необходимо было соблюдать пороговые значения для сохранения или удаления элементов данных и т. д. В Spirit of Satoshi мы делаем смесь обоих, и я думаю, мы увидим, насколько это эффективно в ближайшие месяцы.
Теперь… как только вы получите эти прекрасные чистые данные в конце этого «трубопровод,"тогда вам нужно формат это еще раз в рамках подготовки к «обучение" модель.
На этом заключительном этапе в игру вступают графические процессоры (GPU), и именно о нем думает большинство людей, когда слышат о построении языковых моделей. Все остальные вещи, которые я освещал, обычно игнорируются.
Этот завершающий этап включает в себя обучение ряда моделей и игру с параметрами, сочетаниями данных, квантом данных, типами моделей и т. д. Это может быстро дорого обойтись, поэтому лучше всего иметь чертовски хорошие данные и лучше начинать с более мелких моделей и продвигаться вперед.
Это все экспериментально, и то, что вы получаете на другом конце, это… результат…
Невероятно, что мы, люди, придумываем. В любом случае…
В Spirit of Satoshi наш результат все еще находится в стадии разработки, и мы работаем над ним несколькими способами:
- Мы просим добровольцев помочь нам собрать и обработать наиболее важные данные для модели. Мы делаем это в Репозиторий Накамото. Это хранилище всех книг, эссе, статей, блогов, видео на YouTube и подкастов, посвященных Биткойну и связанных с ним, а также периферийных устройств, таких как работы Фридриха Ницше, Освальда Шпенглера, Джордана Петерсона, Ганса-Германа Хоппе, Мюррея Ротбарда, Карла Юнга, Библия и т. д.
Вы можете искать там что угодно и получать доступ к URL-адресу, текстовому файлу или PDF-файлу. Если доброволец не может что-то найти или считает, что это нужно включить, он может «добавить» запись. Если они добавят мусор, это не будет принято. В идеале добровольцы будут отправлять данные в виде файла .txt вместе со ссылкой.
- Члены сообщества также могут на самом деле помогите нам очистить данные и заработать сатс. Помните ту миссионерскую стадию, о которой я упоминал? Ну вот и все. В рамках этого мы внедряем целый набор инструментов, и участники смогут играть в «FUD buster», «оценивать ответы» и во множество других вещей. На данный момент это похоже на Tinder-подобный опыт сохранения/удаления/комментирования в интерфейсе данных, чтобы очистить то, что находится в конвейере.
Это способ для людей, которые потратили годы на изучение и понимание Биткойна, превратить эту «работу» в сат. Нет, они не разбогатеют, но они могут внести свой вклад в то, что они сочтут достойным проектом, и попутно что-то заработать.
Вероятностные программы, а не ИИ
В нескольких предыдущих эссе я утверждал, что термин «искусственный интеллект» ошибочен, потому что, хотя он is искусственный, это не умный — и, кроме того, порно страха вокруг искусственного общего интеллекта (AGI) было совершенно необоснованным, потому что буквально нет риска того, что эта штука спонтанно станет разумной и убьет нас всех. Прошло несколько месяцев, и я еще больше убедился в этом.
Я вспоминаю прекрасную статью Джона Картера «Мне уже наскучил генеративный ИИ» и он был так на месте.
На самом деле в этом ИИ нет ничего волшебного или разумного, если уж на то пошло. Чем больше мы играем с ним, чем больше времени мы тратим на создание собственного, тем больше мы понимаем, что здесь нет разума. На самом деле никаких размышлений или рассуждений не происходит. Агентства нет. Это всего лишь «вероятностные программы».
То, как они обозначаются, и какие термины используются, будь то «ИИ» или «машина изучение” или “агенты”, на самом деле именно в этом заключается большая часть страха, неуверенности и сомнений.
Эти ярлыки — всего лишь попытка описать набор процессов, которые на самом деле не похожи ни на что, что делает человек. Проблема с языком в том, что мы сразу же начинаем его антропоморфизировать, чтобы придать ему смысл. И в процессе этого зрители или слушатели вдыхают жизнь в монстра Франкенштейна.
ИИ имеет нет жизнь, отличная от того, что вы ей даете в своем воображении. То же самое и с любой другой воображаемой эсхатологической угрозой.
(Вставьте примеры, связанные с изменением климата, инопланетянами или чем-то еще, что происходит в Twitter/X.)
Это, конечно, очень полезно для globo-homo бюрократов, которые хотят использовать любой такой инструмент/программу/машину в своих целях. Они сочиняли истории и нарративы еще до того, как научились ходить, и это лишь последнее из них. А поскольку большинство людей — лемминги, и они верят тому, что говорит кто-то, у кого IQ на несколько пунктов умнее их, они используют это в своих интересах.
Я помню, как говорил о регулировании, которое будет готово. Я заметил, что на прошлой или позапрошлой неделе появились «официальные руководства» или что-то в этом роде для генеративного ИИ — любезно предоставленные нашими бюрократическими повелителями. Что это значит, толком никто не знает. Это замаскировано тем же бессмысленным языком, что и все остальные их правила. Конечный результат, опять же, таков: «Мы пишем правила, мы можем использовать инструменты так, как мы хотим, вы должны использовать их так, как мы вам скажем, иначе».
Самое смешное, что группа людей обрадовалась этому, думая, что они каким-то образом в большей безопасности от воображаемого монстра, которого никогда не было. На самом деле, они, вероятно, приписывают этим агентствам «спасение нас от ОИИ», потому что оно так и не было реализовано.
Мне это напоминает:
Когда я разместил эту картинку в Твиттере, количество идиотов, искренне верящих в то, что предотвращение этих катастроф было результатом усиленного бюрократического вмешательства, сказало мне все, что мне нужно было знать об уровне коллективного разума на этой платформе.
Тем не менее, мы здесь. Снова. Та же история, новые персонажи.
Увы, мы мало что можем с этим поделать, кроме как сосредоточиться на собственных вещах. Мы продолжим делать то, что задумали.
Я стал менее взволнован «GenAI» в целом, и я чувствую, что большая часть шумихи проходит, поскольку внимание людей снова переключается на инопланетян и политику. Я также менее убежден, что здесь есть что-то существенно преобразующее — по крайней мере, в той степени, в которой я думал шесть месяцев назад. Возможно, я ошибаюсь. Я действительно думаю, что у этих инструментов есть скрытый, неиспользованный потенциал, но это просто скрытый потенциал.
Я думаю, мы должны быть более реалистичными в отношении того, что они из себя представляют. (вместо искусственного интеллекта их лучше называть «вероятностными программами») и на самом деле это может означать, что мы тратим меньше времени и энергии на несбыточные мечты и больше внимания уделяем созданию полезных приложений. В этом смысле я по-прежнему любопытен и с осторожным оптимизмом смотрю на то, что что-то все-таки материализуется, и верю, что где-то на стыке Биткойна, вероятностных программ и протоколов, таких как Nostr, появится что-то очень полезное.
Я надеюсь, что мы сможем принять в этом участие, и я бы хотел, чтобы вы тоже приняли в этом участие, если вам это интересно. В связи с этим я оставлю вас всех наедине и надеюсь, что это был полезный 10-минутный обзор того, что нужно для построения языковой модели.
Это гостевой пост Александра Светского. Высказанные мнения являются полностью их собственными и не обязательно отражают точку зрения BTC Inc или Bitcoin Magazine.
- SEO-контент и PR-распределение. Получите усиление сегодня.
- PlatoData.Network Вертикальный генеративный ИИ. Расширьте возможности себя. Доступ здесь.
- ПлатонАйСтрим. Интеллект Web3. Расширение знаний. Доступ здесь.
- ПлатонЭСГ. Автомобили / электромобили, Углерод, чистые технологии, Энергия, Окружающая среда, Солнечная, Управление отходами. Доступ здесь.
- ПлатонЗдоровье. Биотехнологии и клинические исследования. Доступ здесь.
- ЧартПрайм. Улучшите свою торговую игру с ChartPrime. Доступ здесь.
- Смещения блоков. Модернизация права собственности на экологические компенсации. Доступ здесь.
- Источник: https://bitcoinmagazine.com/culture/how-to-build-your-own-bitcoin-language-model
- :имеет
- :является
- :нет
- :куда
- $UP
- 7
- a
- в состоянии
- О нас
- выше
- принятый
- доступ
- актеры
- фактического соединения
- на самом деле
- Добавить
- плюс
- снова
- агентствах
- агентство
- AGI
- тому назад
- AI
- алгоритмы
- иностранцев
- Все
- вдоль
- уже
- причислены
- am
- количество
- an
- и
- ответ
- ответы
- любой
- все
- приложение
- Приложения
- ценить
- подхода
- МЫ
- продемонстрировав тем самым
- армия
- около
- гайд
- искусственный
- искусственный общий интеллект
- искусственный интеллект
- AS
- At
- внимание
- аудитория
- автор
- назад
- Плохой
- BE
- красивая
- , так как:
- становиться
- становление
- было
- до
- начинать
- не являетесь
- вера
- верить
- ЛУЧШЕЕ
- Лучшая
- смещение
- Немного
- Bitcoin
- Сообщество биткойнов
- Биткойн-журнал
- биткойн стандарт
- Бленд
- смеси
- Блог
- книга
- Скучающий
- изоферменты печени
- BTC
- BTC Inc
- строить
- Строительство
- построенный
- Группа
- бюрократический
- но
- by
- призывают
- CAN
- не могу
- Деревенщина
- случаев
- случаев
- катастрофы
- осторожно
- изменение
- менялась
- символы
- ChatGPT
- климат
- Изменение климата
- собирать
- лыжных шлемов
- собирательный
- как
- выходит
- приход
- сообщество
- полностью
- Соединительный
- Консенсус
- контекст
- контексты
- продолжать
- продолжается
- способствовать
- Разговор
- убежден,
- Холодные
- может
- Пара
- "Курс"
- покрытый
- кредит
- CrunchBase
- любопытный
- данным
- База данных
- день
- занимавшийся
- считать
- Степень
- описывать
- описано
- подробность
- Определять
- дифференцировать
- do
- приносит
- не
- дело
- Dont
- сомневаюсь
- вниз
- мечты
- в течение
- зарабатывать
- редакционный
- Эффективный
- еще
- появляться
- конец
- энергетика
- достаточно
- обеспечивать
- полностью
- особенно
- СОЧИНЕНИЕ
- и т.д
- Даже
- События
- Каждая
- все члены
- пример
- Примеры
- отлично
- возбужденный
- дорогим
- опыт
- экспериментальный
- Объяснять
- выраженный
- факт
- страх
- кормление
- чувствовать
- несколько
- Файл
- окончательный
- Найдите
- недостатки
- Фокус
- Что касается
- формат
- Год основания
- основатель
- от
- полный
- веселая
- Более того
- будущее
- Общие
- общий интеллект
- в общем
- генерируется
- генеративный
- Генеративный ИИ
- подлинный
- получить
- Дайте
- Go
- идет
- будет
- хорошо
- Графические процессоры
- признательный
- GUEST
- Guest Post
- было
- Ханс-Герман Хоппе
- Случай
- Жесткий
- Есть
- he
- слышать
- услышанный
- помощь
- здесь
- история
- держать
- надежды
- надежды
- Как
- How To
- HTTP
- HTTPS
- человек
- Людей
- Обман
- i
- БОЛЬНОЙ
- идея
- Идеально
- if
- воображаемый
- воображение
- картина
- немедленно
- что она
- in
- включены
- расширились
- невероятный
- невероятно
- лиц
- информация
- затраты
- понимание
- вместо
- Интеллекта
- Умный
- заинтересованный
- Интерфейс
- в нашей внутренней среде,
- вмешательство
- в
- тонкости
- вовлеченный
- вопросы
- IT
- пункты
- John
- Джордан
- Иордания Петерсон
- JPG
- всего
- Сохранить
- хранится
- Вид
- Знать
- Этикетки
- язык
- Фамилия
- последний
- изучение
- наименее
- Оставлять
- оставил
- Меньше
- уровень
- лежит
- ЖИЗНЬЮ
- такое как
- Вероятно
- LINK
- слушатель
- мало
- грузы
- серия
- любят
- журнал
- Mainstream
- сделать
- Создание
- вручную
- многих
- много людей
- материализовать
- Вопрос
- me
- значить
- означает
- Участники
- упомянутый
- встретивший
- Microsoft
- может быть
- Наша миссия
- модель
- Модели
- изменять
- деньги
- месяцев
- БОЛЕЕ
- самых
- движется
- много
- с разными
- Мюррей
- должен
- Накамото
- повествовательный
- обязательно
- необходимо
- Необходимость
- необходимый
- потребности
- сеть
- никогда
- Новые
- нексус
- нет
- Шум
- Ностр
- ничего
- Уведомление..
- сейчас
- of
- от
- .
- on
- консолидировать
- ONE
- только
- на
- OpenAI
- Обзор
- Мнения
- Оптимистический
- or
- заказ
- Другое
- наши
- внешний
- собственный
- выплачен
- пар
- параметры
- часть
- новыми участниками
- Люди
- народный
- выполняет
- возможно
- периферийными устройствами
- Петерсон
- картина
- кусок
- труба
- трубопровод
- планета
- Платформа
- Платон
- Платон Интеллектуальные данные
- ПлатонДанные
- Играть
- игры
- Подкаст
- пунктов
- политика
- После
- размещены
- потенциал
- подготовка
- предыдущий
- вероятно
- Проблема
- процесс
- Процессы
- обработка
- производит
- Программы
- Проект
- протоколы
- доказанный
- целей
- количество
- Квантовый
- вопрос
- быстро
- Rage
- Сырье
- реальные
- реалистичный
- реализовать
- на самом деле
- запись
- отражать
- "Регулирование"
- правила
- Связанный
- соответствующие
- оставаться
- помнить
- хранилище
- Реагируйте
- ответы
- результат
- возвращают
- Богатые
- Снижение
- Подвижной
- условиями,
- безопаснее
- то же
- Satoshi
- Сац
- сообщили
- Шкала
- поцарапать
- экран
- Поиск
- посмотреть
- кажется
- смысл
- Серии
- набор
- должен
- аналогичный
- просто
- с
- сидит
- ШЕСТЬ
- Шесть месяцев
- меньше
- умнее
- So
- РЕШАТЬ
- некоторые
- Кто-то
- удалось
- где-то
- тратить
- потраченный
- Вращение
- дух
- раскол
- Спотовая торговля
- Этап
- стандарт
- точка зрения
- Начало
- По-прежнему
- хранить
- Истории
- История
- предмет
- отправить
- по существу
- такие
- окружающих
- взять
- принимает
- с
- Говорить
- говорить
- сказать
- срок
- terms
- чем
- который
- Ассоциация
- их
- Их
- тогда
- Там.
- Эти
- они
- задача
- вещи
- think
- мышление
- этой
- те
- хоть?
- мысль
- угроза
- Через
- время
- в
- Ящик для инструментов
- инструменты
- к
- Обучение
- Transform
- преобразующей
- стараться
- Типы
- Неопределенность
- лежащий в основе
- понимать
- понимание
- единиц
- В отличие от
- неиспользованный
- до
- URL
- us
- использование
- используемый
- очень
- Видео
- волонтер
- волонтеры
- хотеть
- стремятся
- законопроект
- Путь..
- способы
- we
- WebP
- неделя
- ЧТО Ж
- Что
- любой
- когда
- будь то
- который
- в то время как
- КТО
- все
- зачем
- будете
- Работа
- работает
- работает
- бы
- записывать
- Неправильно
- лет
- еще
- Ты
- ВАШЕ
- YouTube
- зефирнет