나만의 비트코인 ​​언어 모델을 구축하는 방법

나만의 비트코인 ​​언어 모델을 구축하는 방법

이것은 "The UnCommunist Manifesto"의 저자이자 비트코인 ​​중심 언어 모델인 Spirit of Satoshi의 설립자인 Aleksandar Svetski의 의견 사설입니다.

언어 모델이 대유행이며 많은 사람들이 기본 모델(대부분 ChatGPT 또는 이와 유사한 것)을 가져온 다음 벡터 데이터베이스에 연결하여 사람들이 "모델"에 질문을 하면 컨텍스트를 사용하여 답변에 응답합니다. 이 벡터 데이터베이스에서.

무엇이 벡터 데이터베이스? 이에 대해서는 향후 에세이에서 더 자세히 설명하겠지만, 이를 이해하는 간단한 방법은 언어 모델이 더 나은 응답을 생성하기 위해 쿼리하고 사용할 수 있는 데이터 덩어리로 저장된 정보 모음으로 이해하는 것입니다. "비트코인 표준"이 단락으로 분할되어 이 벡터 데이터베이스에 저장되어 있다고 상상해 보세요. 당신은 이 새로운 “모델”에게 화폐의 역사에 대한 질문을 던집니다. 기본 모델은 실제로 데이터베이스에 쿼리하고 가장 관련성이 높은 컨텍스트 부분("비트코인 표준"의 일부 단락)을 선택한 다음 이를 기본 모델의 프롬프트(대부분의 경우 ChatGPT)에 제공합니다. 그러면 모델은 more로 응답해야 합니다. 관련된 답변. 이것은 멋지고 경우에 따라 제대로 작동하지만 기본 모델이 교육 중에 영향을 받는 주류 노이즈 및 편향의 기본 문제를 해결하지 못합니다.

이것이 우리가 Spirit of Satoshi에서 하려고 하는 일입니다. 우리는 약 6개월 전에 위에서 설명한 것과 같은 모델을 구축했습니다. 직접 시험해 볼 수 있습니다. 여기에서 지금 확인해 보세요.. 일부 답변에서는 나쁘지 않지만 대화를 이어갈 수 없으며, 똥코인 및 실제 비트코인 ​​사용자가 알고 있는 내용에 있어서는 성능이 매우 좋지 않다는 것을 알 수 있습니다.

이것이 우리가 접근 방식을 변경하고 처음부터 전체 언어 모델을 구축하는 이유입니다. 이 에세이에서 나는 그것이 무엇을 수반하는지에 대한 아이디어를 제공하기 위해 그것에 대해 조금 이야기할 것입니다.

보다 '기반'인 비트코인 ​​언어 모델

보다 "기반"인 언어 모델을 구축하려는 임무는 계속됩니다. 내가 생각했던 것보다 훨씬 더 관련이 있는 것으로 입증되었습니다. "기술적으로 복잡하다" 관점에서, 그러나 더 "젠장 이거 귀찮다" 점.

그것은 모두 데이터에 관한 것입니다. 그리고 데이터의 양이 아니라 데이터의 품질과 형식입니다. 당신은 아마 괴짜들이 이것에 대해 이야기하는 것을 들었을 것이고, 당신이 실제로 모델에 재료를 공급하기 시작하고 결과를 얻을 때까지는 그것을 정말로 감사하지 않을 것입니다.

데이터 파이프라인은 모든 작업이 이루어지는 곳입니다. 당신은해야 수집보좌 신부 데이터, 당신은해야합니다 추출물 그것. 그런 다음 프로그래밍 방식으로 황어 무리 (첫 실행 청소를 수동으로 수행하는 것은 불가능합니다).

그런 다음 이 프로그래밍 방식으로 정리된 원시 데이터를 가져와야 합니다. 변환 여러 데이터로 형식 (질문-답변 쌍 또는 의미론적으로 일관된 청크 및 단락을 생각하십시오). 언어 모델의 경우와 같이 많은 양의 데이터를 처리하는 경우에도 프로그래밍 방식으로 수행해야 합니다. 재미있게도 다른 언어 모델이 실제로 이 작업에 적합합니다! 언어 모델을 사용하여 새 언어 모델을 구축합니다.

보다 "기반"인 언어 모델을 구축하는 임무를 수행합니다.

그때데이터를 프로그래밍 방식으로 변환하는 데 사용한 언어 모델이 무엇이든 관계없는 쓰레기가 거기에 남아 있을 가능성이 높기 때문에 더 강도 높은 작업을 수행해야 합니다. 황어 무리.

인간의 도움을 받아야 하는 곳입니다. 왜냐하면 이 단계에서 인간은 여전히 ​​구별하고 결정하는 데 필요한 기관을 가진 지구상의 유일한 생물인 것 같습니다. 품질. 알고리즘은 일종의 이 작업을 수행할 수 있지만 비트코인이 정확히 위치하는 더 미묘하고 비교적인 맥락에서 아직 언어로는 그다지 좋지 않습니다.

어쨌든, 도움을 줄 수 있는 군대가 없다면 이를 대규모로 수행하는 것은 엄청나게 어렵습니다. 그 사람들의 군대는 OpenAI처럼 누군가가 돈을 지불하는 용병이 될 수 있습니다. 신보다 돈이 더 많아, 또는 그들은 비트코인 ​​커뮤니티의 일반적인 모습인 선교사가 될 수 있습니다(우리는 Spirit of Satoshi에서 이에 대해 매우 운이 좋고 감사합니다). 개인은 데이터 항목을 검토하고 데이터를 유지할지, 폐기할지, 수정할지 하나씩 선택합니다.

데이터가 이 프로세스를 거치면 다른 쪽 끝에서 깨끗한 것으로 끝납니다. 물론 여기에는 더 복잡한 내용이 포함되어 있습니다. 예를 들어 정리 프로세스를 방해하려는 나쁜 행위자를 제거하거나 입력 내용을 폐기해야 합니다. 일련의 방법으로 그렇게 할 수 있으며 모든 사람이 조금 다르게 수행합니다. 도중에 사람들을 선별할 수 있고, 일종의 내부 정리 합의 모델을 구축하여 데이터 항목을 보관하거나 폐기하는 등의 임계값을 충족해야 합니다. Spirit of Satoshi에서 우리는 혼합을 하고 있습니다. 그리고 앞으로 몇 달 안에 그것이 얼마나 효과적인지 보게 될 것입니다.

이제… 이 "관로,” 그러면 다음을 수행해야 합니다. 체재 "를 준비하면서 다시 한 번훈련" 모델.

이 마지막 단계는 그래픽 처리 장치(GPU)가 작동하는 곳이며 실제로 대부분의 사람들이 언어 모델 구축에 대해 들을 때 생각하는 것입니다. 내가 다룬 다른 모든 것들은 일반적으로 무시됩니다.

이 홈 스트레치 단계에는 일련의 모델을 교육하고 매개변수, 데이터 혼합, 데이터 양자, 모델 유형 등을 가지고 노는 것이 포함됩니다. 이것은 빠르게 비용이 들 수 있으므로 좋은 데이터를 얻는 것이 가장 좋으며 더 작은 모델로 시작하여 자신만의 방법을 구축하는 것이 좋습니다.

그것은 모두 실험적이며 다른 쪽 끝에서 얻는 것은… 결과…

우리 인간이 생각해내는 일이 놀랍습니다. 그래도…

Spirit of Satoshi에서 우리의 결과는 아직 진행 중이며 몇 가지 방법으로 작업하고 있습니다.

  1. 우리는 자원봉사자들에게 모델과 가장 관련성이 높은 데이터를 수집하고 선별하는 데 도움을 요청합니다. 우리는 그 일을 하고 있어요 나카모토 저장소. 이는 비트코인 ​​및 Friedrich Nietzsche, Oswald Spengler, Jordan Peterson, Hans-Hermann Hoppe, Murray Rothbard, Carl Jung, 성경 등

    거기에서 무엇이든 검색하고 URL, 텍스트 파일 또는 PDF에 액세스할 수 있습니다. 자원봉사자가 무언가를 찾을 수 없거나 포함해야 한다고 생각하는 경우 기록을 "추가"할 수 있습니다. 그래도 정크를 추가하면 허용되지 않습니다. 이상적으로는 자원봉사자가 링크와 함께 데이터를 .txt 파일로 제출합니다.

  2. 커뮤니티 회원도 할 수 있습니다. 실제로 데이터를 정리하고 SAT를 얻는 데 도움이 됩니다.. 제가 언급한 선교 단계를 기억하시나요? 글쎄요. 우리는 이것의 일부로 전체 도구 상자를 출시할 예정이며 참가자들은 "FUD 버스터"와 "순위 응답" 및 기타 모든 종류의 게임을 플레이할 수 있습니다. 현재로서는 파이프라인에 있는 내용을 정리하기 위한 데이터 인터페이스의 Tinder와 같은 유지/삭제/댓글 경험과 같습니다.

    이것은 Bitcoin에 대해 배우고 이해하는 데 수년을 보낸 사람들이 그 "작업"을 sats로 변환하는 방법입니다. 아니요, 그들은 부자가 되지는 못하지만 가치 있는 프로젝트로 간주되는 무언가에 기여할 수 있고 그 과정에서 무언가를 얻을 수 있습니다.

AI가 아닌 확률 프로그램

이전의 몇 가지 에세이에서 나는 "인공 지능"이 결함이 있는 용어라고 주장했습니다. is 인공, 그것은 지원 지능적이며 더 나아가 인공 일반 지능(AGI)을 둘러싼 공포 포르노는 완전히 근거가 없습니다. 왜냐하면 이것이 자발적으로 지각을 하여 우리 모두를 죽일 위험이 문자 그대로 없기 때문입니다. 몇 달이 지난 후 나는 이것을 더욱 확신합니다.

나는 John Carter의 훌륭한 기사를 다시 생각합니다. “제너레이티브 AI는 이미 지겨워요” 그리고 그는 정말 자리에 있었어요.

이 AI에 관한 어떤 것에도 마술적이거나 지능적인 것은 없습니다. 우리가 더 많이 가지고 놀고 실제로 우리 자신의 것을 만드는 데 더 많은 시간을 할애할수록 여기에 감각이 없다는 것을 더 많이 깨닫게 됩니다. 실제 생각이나 추론이 일어나지 않습니다. 소속사가 없다. 이것들은 단지 "확률 프로그램"입니다.

"AI" 또는 "기계"인지 여부에 관계없이 레이블이 지정되는 방식 및 주변에 사용되는 용어 배우기"또는 "대리인"은 실제로 대부분의 두려움, 불확실성 및 의심이 있는 곳입니다.

이러한 레이블은 인간이 수행하는 것과는 전혀 다른 일련의 프로세스를 설명하려는 시도일 뿐입니다. 언어의 문제는 우리가 그것을 이해하기 위해 즉시 그것을 의인화하기 시작한다는 것입니다. 그리고 그 과정에서 프랑켄슈타인의 괴물에 생명을 불어넣는 것은 관객 혹은 청취자이다.

인공 지능 아니 자신의 상상력으로 부여하는 것 이외의 삶. 이것은 다른 상상의 종말론적 위협과 거의 동일합니다.

(기후 변화, 외계인 또는 Twitter/X에서 일어나는 일에 대한 예를 삽입하십시오.)

물론 이것은 자신의 목적을 위해 그러한 도구/프로그램/기계를 사용하려는 글로보 호모 관료들에게 매우 유용합니다. 그들은 걸을 수 있기 전부터 이야기와 내러티브를 만들어 왔으며 이것이 가장 최근에 나온 것입니다. 그리고 대부분의 사람들은 나그네쥐이고 IQ 포인트가 그들보다 몇 개 더 똑똑하게 들리는 사람이 말해야 하는 것이 무엇이든 믿기 때문에 그것을 유리하게 사용할 것입니다.

파이프 라인을 따라 내려 오는 규제에 대해 이야기했던 것을 기억합니다. 저는 지난 주나 그 전 주에 관료적 대군주 덕분에 생성 AI에 대한 "공식 지침" 또는 일종의 것이 있다는 것을 알았습니다. 이것이 의미하는 바는 아무도 모릅니다. 다른 모든 규정과 마찬가지로 무의미한 언어로 가려져 있습니다. 최종 결과는 다시 한 번 "우리는 규칙을 작성하고, 우리가 원하는 방식으로 도구를 사용할 수 있으며, 당신은 우리가 말한 방식대로 사용해야 합니다. 그렇지 않으면 그렇지 않습니다."

가장 우스꽝스러운 부분은 한 무리의 사람들이 지금까지 없었던 상상의 괴물로부터 어떻게든 더 안전하다고 생각하며 환호했다는 것입니다. 사실, 그들은 AGI가 결코 실현되지 않았기 때문에 "AGI로부터 우리를 구해줬다"고 이 기관들을 인정할 것입니다.

다음이 생각납니다.

보다 "기반"인 언어 모델을 구축하는 임무를 수행합니다.

내가 위의 사진을 트위터에 올렸을 때, 이러한 재앙을 피한 것이 관료적 개입이 증가한 결과라고 진심으로 믿는 바보들의 수는 내가 그 플랫폼의 집단 지성의 수준에 대해 알아야 할 모든 것을 말해주었습니다.

그럼에도 불구하고 여기 있습니다. 다시 한번. 같은 이야기, 새로운 캐릭터.

아아, 우리 자신의 일에 집중하는 것 외에는 우리가 할 수 있는 일이 거의 없습니다. 우리는 우리가 시작한 일을 계속할 것입니다.

나는 일반적으로 "GenAI"에 대해 덜 흥분하게 되었고 사람들의 관심이 다시 외계인과 정치로 옮겨감에 따라 많은 과대 광고가 사라지고 있다는 느낌을 받았습니다. 나는 또한 적어도 XNUMX개월 전에 내가 생각했던 정도로는 여기에 실질적으로 변혁적인 무언가가 있다는 확신이 덜합니다. 아마도 내가 틀렸다는 것이 증명될 것입니다. 저는 이러한 도구가 잠재적이고 개발되지 않은 잠재력을 가지고 있다고 생각합니다. 하지만 그것은 바로 잠재성입니다.

나는 그들이 무엇인지에 대해 더 현실적이어야한다고 생각합니다. (인공지능이라기 보다는 확률프로그램이라고 부르는게 나음) 그리고 그것은 실제로 우리가 헛된 꿈에 시간과 에너지를 덜 쓰고 유용한 응용 프로그램을 만드는 데 더 집중한다는 것을 의미할 수 있습니다. 그런 의미에서 나는 여전히 무언가가 실현될 것이라는 호기심과 조심스럽게 낙관적이며, 비트코인, Nostr과 같은 확률 프로그램 및 프로토콜의 넥서스 어딘가에서 매우 유용한 무언가가 나타날 것이라고 믿습니다.

나는 우리가 그 일에 참여할 수 있기를 희망하며, 관심이 있다면 여러분도 참여하기를 바랍니다. 이를 위해 여러분의 하루를 모두 맡기고 이것이 언어 모델을 구축하는 데 필요한 사항에 대한 유용한 10분 통찰이 되었기를 바랍니다.

Aleksander Svetski의 게스트 게시물입니다. 표현된 의견은 전적으로 자신의 의견이며 반드시 BTC Inc 또는 Bitcoin Magazine의 의견을 반영하지는 않습니다.

타임 스탬프 :

더보기 Bitcoin Magazine