Hvordan bygge din egen Bitcoin-språkmodell

Hvordan bygge din egen Bitcoin-språkmodell

Dette er en meningsredaksjon av Aleksandar Svetski, forfatter av "The UnCommunist Manifesto" og grunnlegger av den Bitcoin-fokuserte språkmodellen Spirit of Satoshi.

Språkmodeller er i raseri, og mange mennesker tar bare grunnmodeller (oftest ChatGPT eller noe lignende) og kobler dem deretter til en vektordatabase slik at når folk stiller "modellen" et spørsmål, svarer den på svaret med kontekst fra denne vektordatabasen.

Hva er en vektor database? Jeg vil forklare det mer detaljert i et fremtidig essay, men en enkel måte å forstå det på er som en samling av informasjon lagret som databiter, som en språkmodell kan spørre etter og bruke for å produsere bedre svar. Se for deg "The Bitcoin Standard", delt inn i avsnitt og lagret i denne vektordatabasen. Du stiller denne nye "modellen" et spørsmål om pengenes historie. Den underliggende modellen vil faktisk spørre databasen, velge den mest relevante konteksten (noen avsnitt fra "The Bitcoin Standard") og deretter mate den inn i ledeteksten til den underliggende modellen (i mange tilfeller ChatGPT). Modellen skal da svare med et mer relevant svar. Dette er kult, og fungerer OK i noen tilfeller, men løser ikke de underliggende problemene med vanlig støy og skjevhet som de underliggende modellene er utsatt for under treningen.

Dette er hva vi prøver å gjøre på Spirit of Satoshi. Vi har bygget en modell som er beskrevet ovenfor for omtrent seks måneder siden, som du kan prøve ut her.. Du vil legge merke til at det ikke er dårlig med noen svar, men det kan ikke holde en samtale, og det fungerer veldig dårlig når det kommer til shitcoinery og ting som en ekte Bitcoiner ville vite.

Dette er grunnen til at vi har endret tilnærmingen vår og bygger en full språkmodell fra bunnen av. I dette essayet vil jeg snakke litt om det, for å gi deg en idé om hva det innebærer.

En mer 'basert' Bitcoin-språkmodell

Oppdraget med å bygge en mer "basert" språkmodell fortsetter. Det har vist seg å være mer involvert enn jeg hadde trodd, ikke fra en "teknisk komplisert" ståsted, men mer fra en "fan, dette er kjedelig" ståsted.

Alt handler om data. Og ikke mengden av data, men kvaliteten og formatet på data. Du har sikkert hørt nerder snakke om dette, og du setter ikke veldig pris på det før du faktisk begynner å mate tingene til en modell, og du får et resultat ... som ikke nødvendigvis var det du ønsket.

Datapipeline er der alt arbeidet er. Du må samle og kuratere dataene, så må du trekke ut den. Da må du programmatisk ren det (det er umulig å gjøre en førstegangsrens manuelt).

Så tar du disse programmatisk rensede, rå dataene, og du må forvandle det inn i flere data formater (tenk på spørsmål-og-svar-par, eller semantisk-sammenhengende biter og avsnitt). Dette må du også gjøre programmatisk, hvis du har å gjøre med masse data - som er tilfellet for en språkmodell. Morsomt nok er andre språkmodeller faktisk gode for denne oppgaven! Du bruker språkmodeller for å bygge nye språkmodeller.

På oppdraget om å bygge en mer "basert" språkmodell.

Deretter, fordi det sannsynligvis vil være masse søppel igjen der inne, og irrelevant søppel generert av hvilken som helst språkmodell du brukte til å transformere dataene programmatisk, må du gjøre en mer intens ren.

Dette er der du trenger å få menneskelig hjelp, fordi på dette stadiet ser det ut til at mennesker fortsatt er de eneste skapningene på planeten med byrået som er nødvendig for å differensiere og bestemme kvalitet. Algoritmer kan på en måte gjøre dette, men ikke så bra med språk ennå - spesielt i mer nyanserte, komparative sammenhenger - som er der Bitcoin rett og slett sitter.

I alle fall er det utrolig vanskelig å gjøre dette i stor skala med mindre du har en hær av mennesker til å hjelpe deg. Den hæren av mennesker kan være leiesoldater betalt av noen, som OpenAI som har mer penger enn Gud, eller de kan være misjonærer, som er hva Bitcoin-fellesskapet generelt er (vi er veldig heldige og takknemlige for dette hos Spirit of Satoshi). Enkeltpersoner går gjennom dataelementer og velger én etter én om de vil beholde, forkaste eller endre dataene.

Når dataene går gjennom denne prosessen, ender du opp med noe rent i den andre enden. Selvfølgelig er det flere forviklinger involvert her. Du må for eksempel sørge for at dårlige skuespillere som prøver å feile oppryddingsprosessen din blir luket ut, eller at deres innspill blir forkastet. Du kan gjøre det på en rekke måter, og alle gjør det litt annerledes. Du kan screene folk på vei inn, du kan bygge en slags intern konsensusmodell for opprydding slik at terskler må oppfylles for at dataelementer skal beholdes eller forkastes, osv. Hos Spirit of Satoshi gjør vi en blanding av begge, og jeg antar at vi får se hvor effektivt det er i løpet av de kommende månedene.

Nå ... når du har fått disse vakre rene dataene ut, slutten av denne "rørledning," du må da format det nok en gang som forberedelse til "trening" en modell.

Dette siste stadiet er der de grafiske prosesseringsenhetene (GPUer) kommer inn i bildet, og det er egentlig det folk flest tenker på når de hører om å bygge språkmodeller. Alle de andre tingene jeg dekket blir generelt ignorert.

Dette hjemme-stretch-stadiet innebærer å trene en serie modeller, og leke med parameterne, datablandingene, datakvantumet, modelltypene osv. Dette kan fort bli dyrt, så det er best å ha noen jævla gode data og det er bedre å starte med mindre modeller og bygge deg oppover.

Det hele er eksperimentelt, og det du får ut i den andre enden er... et resultat…

Det er utrolig de tingene vi mennesker tryller frem. Uansett…

Hos Spirit of Satoshi er resultatet fortsatt under utvikling, og vi jobber med det på et par måter:

  1. Vi ber frivillige hjelpe oss med å samle inn og kuratere de mest relevante dataene for modellen. Vi gjør det kl Nakamoto-depotet. Dette er et oppbevaringssted for hver bok, essay, artikkel, blogg, YouTube-video og podcast om og relatert til Bitcoin, og periferiutstyr som verkene til Friedrich Nietzsche, Oswald Spengler, Jordan Peterson, Hans-Hermann Hoppe, Murray Rothbard, Carl Jung, Bibelen osv.

    Du kan søke etter hva som helst der og få tilgang til URL, tekstfil eller PDF. Hvis en frivillig ikke finner noe, eller føler at det må inkluderes, kan de "legge til" en post. Hvis de imidlertid legger til søppel, blir det ikke akseptert. Ideelt sett vil frivillige sende inn dataene som en .txt-fil sammen med en lenke.

  2. Fellesskapsmedlemmer kan også faktisk hjelpe oss med å rense dataene og tjene sats. Husker du det misjonærstadiet jeg nevnte? Vel, dette er det. Vi ruller ut en hel verktøykasse som en del av dette, og deltakerne vil kunne spille «FUD buster» og «rank replies» og alt mulig annet. Foreløpig er det som en Tinder-aktig keep/cast/comment-opplevelse på datagrensesnitt for å rydde opp i det som er i pipelinen.

    Dette er en måte for folk som har brukt år på å lære om og forstå Bitcoin, for å forvandle dette "arbeidet" til innsats. Nei, de kommer ikke til å bli rike, men de kan bidra til å bidra til noe de kanskje anser som et verdig prosjekt, og tjene noe på veien.

Sannsynlighetsprogrammer, ikke AI

I noen få tidligere essays har jeg hevdet at "kunstig intelligens" er et mangelfullt begrep, fordi selv om det is kunstig, er det ikke intelligent - og dessuten har fryktpornoen rundt kunstig generell intelligens (AGI) vært helt ubegrunnet fordi det bokstavelig talt ikke er noen risiko for at denne tingen spontant blir sansende og dreper oss alle. Noen måneder senere, og jeg er enda mer overbevist om dette.

Jeg tenker tilbake på John Carters utmerkede artikkel "Jeg er allerede lei av generativ AI" og han var så spot on.

Det er egentlig ikke noe magisk, eller intelligent for den saks skyld, med noen av disse AI-tingene. Jo mer vi leker med det, jo mer tid vi bruker på å bygge vår egen, jo mer innser vi at det ikke er noen sans her. Det er ingen faktisk tenkning eller resonnement som skjer. Det er ikke noe byrå. Dette er bare "sannsynlighetsprogrammer."

Måten de er merket på, og begrepene som kastes rundt, enten det er "AI" eller "maskin læring” eller “agenter,” er faktisk der mesteparten av frykten, usikkerheten og tvilen ligger.

Disse etikettene er bare et forsøk på å beskrive et sett med prosesser, som egentlig er ulikt noe et menneske gjør. Problemet med språk er at vi umiddelbart begynner å antropomorfisere det for å forstå det. Og i ferd med å gjøre det, er det publikum eller lytteren som blåser liv i Frankensteins monster.

AI har Nei. annet liv enn det du gir det med din egen fantasi. Dette er omtrent det samme med enhver annen imaginær, eskatologisk trussel.

(Sett inn eksempler rundt klimaendringer, romvesener eller hva annet som skjer på Twitter/X.)

Dette er selvfølgelig veldig nyttig for globo-homo-byråkrater som ønsker å bruke et slikt verktøy/program/maskin til sine egne formål. De har snurret historier og fortellinger siden før de kunne gå, og dette er bare den siste å snurre. Og fordi folk flest er lemen og vil tro hva enn noen som høres noen få IQ-poeng smartere enn dem har å si, vil de bruke det til sin fordel.

Jeg husker at jeg snakket om at reguleringen kommer på trappene. Jeg la merke til at forrige uke eller uken før, er det nå "offisielle retningslinjer" eller noe lignende for generativ AI - med tillatelse fra våre byråkratiske overherrer. Hva dette betyr er det ingen som egentlig vet. Det er maskert i det samme useriøse språket som alle deres andre forskrifter er. Nettoresultatet er nok en gang: "Vi skriver reglene, vi får bruke verktøyene slik vi vil, du må bruke det slik vi forteller deg det, ellers."

Den mest latterlige delen er at en haug med mennesker jublet over dette, og tenkte at de på en eller annen måte er tryggere fra det imaginære monsteret som aldri var. Faktisk vil de sannsynligvis kreditere disse byråene med å "redde oss fra AGI" fordi det aldri ble noe av.

Det minner meg om dette:

På oppdraget om å bygge en mer "basert" språkmodell.

Da jeg la ut bildet ovenfor på Twitter, fortalte mengden av idioter som reagerte med ekte tro på at unngåelsen av disse katastrofene var et resultat av økt byråkratisk intervensjon meg alt jeg trengte å vite om nivået av kollektiv etterretning på den plattformen.

Likevel, her er vi. Igjen. Samme historie, nye karakterer.

Akk, det er egentlig lite vi kan gjøre med det, annet enn å fokusere på våre egne ting. Vi vil fortsette å gjøre det vi har satt oss for å gjøre.

Jeg har blitt mindre begeistret for «GenAI» generelt, og jeg har en følelse av at mye av hypen avtar etter hvert som folks oppmerksomhet beveger seg over på romvesener og politikk igjen. Jeg er også mindre overbevist om at det er noe vesentlig transformativt her - i hvert fall i den grad jeg trodde for seks måneder siden. Kanskje jeg blir bevist feil. Jeg tror disse verktøyene har latent, uutnyttet potensial, men det er bare det: latent.

Jeg tror vi må være mer realistiske om hva de er (i stedet for kunstig intelligens, er det bedre å kalle dem "sannsynlighetsprogrammer") og det kan faktisk bety at vi bruker mindre tid og energi på pipe dreams og fokuserer mer på å bygge nyttige applikasjoner. Sånn sett forblir jeg nysgjerrig og forsiktig optimistisk på at noe virkelig materialiserer seg, og tror at et eller annet sted i forbindelsen med Bitcoin, sannsynlighetsprogrammer og protokoller som Nostr, vil noe veldig nyttig dukke opp.

Jeg håper at vi kan ta del i det, og jeg vil gjerne at du også tar del i det hvis du er interessert. Til det formål skal jeg overlate dere alle til dagen deres, og håper dette var en nyttig 10-minutters innsikt i hva som kreves for å bygge en språkmodell.

Dette er et gjesteinnlegg av Aleksander Svetski. Uttrykte meninger er helt deres egne og reflekterer ikke nødvendigvis meningene til BTC Inc eller Bitcoin Magazine.

Tidstempel:

Mer fra Bitcoin Magazine