Kuinka rakentaa oma Bitcoin-kielimalli

Kuinka rakentaa oma Bitcoin-kielimalli

Tämä on Aleksandar Svetskin, "The UnCommunist Manifeston" kirjoittajan ja Bitcoiniin keskittyvän kielimallin Spirit of Satoshin perustajan, mielipidetoimitus.

Kielimallit ovat muotia, ja monet ihmiset ottavat vain perusmalleja (useimmiten ChatGPT tai jotain vastaavaa) ja yhdistävät ne sitten vektoritietokantaan, jotta kun ihmiset kysyvät "malliltaan" kysymyksen, se vastaa vastaukseen kontekstin kanssa. tästä vektoritietokannasta.

Mikä on a vektoritietokanta? Selitän sen yksityiskohtaisemmin tulevassa esseessä, mutta yksinkertainen tapa ymmärtää se on kokoelmana tietoa, joka on tallennettu tietopaloihin, jota kielimalli voi kysellä ja käyttää tuottaakseen parempia vastauksia. Kuvittele "Bitcoin-standardi", jaettu kappaleiksi ja tallennettu tähän vektoritietokantaan. Esität tälle uudelle "mallille" kysymyksen rahan historiasta. Taustalla oleva malli itse asiassa tekee kyselyn tietokannasta, valitsee osuvimman kontekstin (jokin kappale "Bitcoin-standardista") ja syöttää sen sitten taustalla olevan mallin kehotteeseen (monissa tapauksissa ChatGPT). Mallin pitäisi sitten vastata enemmän merkityksellinen vastaus. Tämä on siistiä ja toimii hyvin joissain tapauksissa, mutta ei ratkaise taustalla olevia valtavirran kohinan ja harhaan liittyviä ongelmia, joita taustalla olevat mallit ovat alttiina harjoittelunsa aikana.

Tätä yritämme tehdä Spirit of Satoshilla. Olemme rakentaneet yllä kuvatun kaltaisen mallin noin kuusi kuukautta sitten, jota voit mennä kokeilemaan tätä. Huomaat, että se ei ole huono joidenkin vastausten kanssa, mutta se ei pysty keskustelemaan, ja se toimii todella huonosti, kun on kyse shitcoinerysta ja asioista, jotka todellinen Bitcoiner tietäisi.

Tästä syystä olemme muuttaneet lähestymistapaamme ja rakentamassa koko kielimallia tyhjästä. Tässä esseessä puhun siitä hieman, jotta saat käsityksen siitä, mitä se sisältää.

"Perustuvampi" Bitcoin-kielimalli

Missio rakentaa "perustaisempi" kielimalli jatkuu. Se on todistettu olevan enemmän mukana kuin olin ajatellut, ei a "teknisesti monimutkainen" näkökulmasta, mutta enemmän a "vittu tämä on tylsää" näkökulmasta.

Kyse on tiedoista. Eikä tiedon määrä, vaan tiedon laatu ja muoto. Olet luultavasti kuullut nörttien puhuvan tästä, etkä todella arvosta sitä ennen kuin alat syöttää tavaraa mallille ja saat tuloksen… joka ei välttämättä ollut sitä mitä halusit.

Tietoputki on siellä, missä kaikki työ on. Sinun täytyy kerätä ja kappalainen tiedot, niin sinun täytyy uute se. Sitten sinun on tehtävä ohjelmallisesti puhdas se (ensimmäistä puhdistusta on mahdotonta tehdä manuaalisesti).

Sitten otat nämä ohjelmallisesti puhdistetut raakatiedot ja sinun on tehtävä muuttaa se useaan dataan formaatit (Ajattele kysymys-vastaus-pareja tai semanttisesti yhtenäisiä paloja ja kappaleita). Tämä sinun on tehtävä myös ohjelmallisesti, jos käsittelet paljon dataa – kuten kielimallissa. Hassua kyllä, muut kielimallit ovat todella hyviä tähän tehtävään! Käytät kielimalleja uusien kielimallien rakentamiseen.

Tehtävänä on rakentaa "perustaisempi" kielimalli.

Sitten, koska sinne jää todennäköisesti paljon roskaa ja mikä tahansa kielimalli, jota käytit tietojen ohjelmointiin muuntaessasi, luo merkityksetöntä roskaa, sinun on tehtävä tehokkaampi puhdas.

Tämä sieltä tarvitset ihmisapua, koska tässä vaiheessa näyttää siltä, ​​että ihmiset ovat edelleen ainoat olennot planeetalla, joilla on tarvittava kyky erottaa ja määrittää laatu. Algoritmit voivat tehdä tämän, mutta eivät vielä niin hyvin kielen kanssa – varsinkin vivahteellisemmissa ja vertailevissa yhteyksissä – missä Bitcoin on oivalla paikalla.

Joka tapauksessa tämän tekeminen suuressa mittakaavassa on uskomattoman vaikeaa, ellei sinulla ole joukko ihmisiä auttamaan sinua. Se ihmisten armeija voi olla jonkun maksamia palkkasotureita, kuten OpenAI, joka hänellä on enemmän rahaa kuin Jumalalla, tai he voivat olla lähetyssaarnaajia, mitä Bitcoin-yhteisö yleensä on (olemme erittäin onnellisia ja kiitollisia tästä Spirit of Satoshilla). Yksilöt käyvät läpi datakohteet ja valitsevat yksitellen, säilytetäänkö, hylätäänkö vai muokataanko tietoja.

Kun tiedot käyvät tämän prosessin läpi, toisessa päässä on jotain puhdasta. Tietenkin tähän liittyy enemmän monimutkaisuutta. Sinun on esimerkiksi varmistettava, että huonot toimijat, jotka yrittävät häiritä puhdistusprosessiasi, karsitaan pois tai heidän panoksensa hylätään. Voit tehdä sen useilla tavoilla, ja jokainen tekee sen hieman eri tavalla. Voit seuloa ihmisiä matkalla sisään, voit rakentaa jonkinlaisen sisäisen siivouksen konsensusmallin, jotta kynnykset on saavutettava datakohteiden säilyttämiselle tai hylkäämiselle jne. Spirit of Satoshissa teemme yhdistelmän molemmista, ja näemme, kuinka tehokas se on tulevina kuukausina.

Nyt… kun sinulla on nämä kauniit puhtaat tiedot, tämä loppu "putki,”Sinun täytyy sitten muoto se jälleen kerran valmistautuessaan "koulutus" malli.

Tässä viimeisessä vaiheessa graafiset prosessointiyksiköt (GPU) tulevat peliin, ja useimmat ihmiset ajattelevat sitä kuullessaan kielimallien rakentamisesta. Kaikki muut käsittelemäni asiat jätetään yleensä huomiotta.

Tämä kotivenytysvaihe sisältää mallisarjojen harjoittelun ja leikkimisen parametreilla, datasekoituksilla, datamäärällä, mallityypeillä jne. Tämä voi tulla nopeasti kalliiksi, joten sinulla on parasta saada helvetin hyvää dataa ja kannattaa aloittaa pienemmillä malleilla ja rakentaa tietä eteenpäin.

Se on kaikki kokeellista, ja se, mitä saat toisesta päästä, on… tulos…

On uskomattomia asioita, joita me ihmiset loihdimme. Joka tapauksessa…

Spirit of Satoshilla tuloksemme on vielä kesken, ja työskentelemme sen parissa parilla tavalla:

  1. Pyydämme vapaaehtoisia auttamaan meitä keräämään ja kuratoimaan mallin kannalta oleellisimmat tiedot. Teemme sen klo Nakamoton arkisto. Tämä on arkisto jokaisesta kirjasta, esseestä, artikkelista, blogista, YouTube-videosta ja podcastista Bitcoinista ja siihen liittyvistä oheislaitteista, kuten Friedrich Nietzschen, Oswald Spenglerin, Jordan Petersonin, Hans-Hermann Hoppen, Murray Rothbardin, Carl Jungin, Raamattu jne.

    Voit etsiä sieltä mitä tahansa ja käyttää URL-osoitetta, tekstitiedostoa tai PDF-tiedostoa. Jos vapaaehtoinen ei löydä jotain tai hänestä tuntuu, että se on sisällytettävä, hän voi "lisätä" tietueen. Jos he kuitenkin lisäävät roskaa, sitä ei hyväksytä. Ihannetapauksessa vapaaehtoiset lähettävät tiedot .txt-tiedostona linkin mukana.

  2. Myös yhteisön jäsenet voivat todella auttaa meitä puhdistamaan tiedot ja ansaitsemaan sat. Muistatko sen mainitsemani lähetystyövaiheen? No tämä on se. Otamme käyttöön kokonaisen työkalupakin osana tätä, ja osallistujat voivat pelata "FUD buster" ja "rank replies" ja kaikenlaisia ​​muita asioita. Toistaiseksi se on kuin Tinder-tyyppinen säilytä/hylkää/kommentoi kokemus datarajapinnassa siivoamaan, mitä on valmisteilla.

    Tämä on tapa ihmisille, jotka ovat viettäneet vuosia Bitcoinin oppimisessa ja ymmärtämisessä, muuttaa tuo "työ" satiksi. Ei, he eivät rikastu, mutta he voivat auttaa edistämään jotakin, jota he saattavat pitää arvokkaana projektina, ja ansaita jotain matkan varrella.

Todennäköisyysohjelmat, ei tekoäly

Muutamassa aikaisemmassa esseessä olen väittänyt, että "tekoäly" on virheellinen termi, koska vaikka se is keinotekoista, se on emme älykäs – ja lisäksi tekoälyä (AGI) ympäröivä pelkoporno on ollut täysin perusteeton, koska ei ole kirjaimellisesti mitään vaaraa, että tämä asia muuttuisi spontaanisti tuntevaksi ja tappaisi meidät kaikki. Muutama kuukausi ja olen vielä vakuuttuneempi tästä.

Muistan John Carterin erinomaisen artikkelin "Olen jo kyllästynyt generatiiviseen tekoälyyn" ja hän oli niin paikallaan.

Näissä tekoälyjutuissa ei todellakaan ole mitään maagista tai älykästä. Mitä enemmän leikimme sillä, mitä enemmän käytämme aikaa itse rakentamiseen, sitä enemmän ymmärrämme, ettei täällä ole mitään järkeä. Varsinaista ajattelua tai päättelyä ei tapahdu. Ei ole virastoa. Nämä ovat vain "todennäköisyysohjelmia".

Tapa, jolla ne on merkitty, ja termit ympärille, olipa kyseessä "AI" tai "kone". oppiminen" tai "agentit" on itse asiassa suurin pelko, epävarmuus ja epäilys.

Nämä etiketit ovat vain yritys kuvata joukko prosesseja, jotka ovat todella erilaisia ​​kuin mikään, mitä ihminen tekee. Kielen ongelma on se, että alamme välittömästi antropomorfisoida sitä saadaksemme siitä järkeä. Ja tätä tehdessään yleisö tai kuuntelija puhaltaa elämää Frankensteinin hirviöön.

AI on Nro muuta elämää kuin mitä annat sille omalla mielikuvituksellasi. Tämä on pitkälti sama minkä tahansa muun kuvitteellisen eskatologisen uhan kanssa.

(Lisää esimerkkejä ilmastonmuutoksesta, avaruusolennoista tai mistä tahansa muusta Twitterin/X:n tapahtumasta.)

Tämä on tietysti erittäin hyödyllistä globo-homo-byrokraateille, jotka haluavat käyttää mitä tahansa sellaista työkalua/ohjelmaa/konetta omiin tarkoituksiinsa. He ovat pyörittäneet tarinoita ja kertomuksia siitä lähtien, kun he eivät kyenneet kävelemään, ja tämä on vain viimeisin kehrätty. Ja koska useimmat ihmiset ovat lemmingejä ja uskovat mitä tahansa joku, joka kuulostaa muutaman älykkyyspisteen verran älykkäämmältä, he käyttävät sitä hyväkseen.

Muistan puhuneeni sääntelystä, joka on tulossa putkeen. Huomasin, että viime viikolla tai sitä edellisellä viikolla on nyt olemassa "virallisia ohjeita" tai jotain sellaista generatiiviselle tekoälylle - byrokraattisten yliherrojemme ansiosta. Mitä tämä tarkoittaa, kukaan ei todellakaan tiedä. Se on naamioitu samalla järjettömällä kielellä kuin kaikki muutkin säädökset. Lopputuloksena on jälleen kerran: "Kirjoitamme säännöt, saamme käyttää työkaluja haluamallamme tavalla, sinun on käytettävä niitä niin kuin me kerromme, tai muuten."

Naurettavinta on, että joukko ihmisiä hurrasi tästä, luullen olevansa jotenkin turvassa kuvitteellisesta hirviöstä, jota ei koskaan ollut. Itse asiassa he luultavasti antavat näille virastoille "pelastuksen AGI:lta", koska se ei koskaan toteutunut.

Siitä tulee mieleen tämä:

Tehtävänä on rakentaa "perustaisempi" kielimalli.

Kun julkaisin yllä olevan kuvan Twitterissä, se määrä idiootteja, jotka vastasivat aidosti uskoen, että näiden katastrofien välttäminen johtui lisääntyneestä byrokraattisesta väliintulosta, kertoi minulle kaiken, mitä minun piti tietää kyseisen alustan kollektiivisen älykkyyden tasosta.

Siitä huolimatta tässä ollaan. Taas kerran. Sama tarina, uudet hahmot.

Valitettavasti emme todellakaan voi tehdä asialle muuta kuin keskittyä omiin juttuihimme. Jatkamme sitä mitä olemme suunnitelleet.

Minusta on tullut vähemmän innostunut "GenAI:sta" yleensä, ja minusta tuntuu, että suuri hype on hiipumassa, kun ihmisten huomio siirtyy jälleen muukalaisiin ja politiikkaan. Olen myös vähemmän vakuuttunut siitä, että tässä on jotain olennaisesti mullistavaa - ainakin siinä määrin, kuin ajattelin kuusi kuukautta sitten. Ehkä minun osoitetaan olevan väärässä. Uskon, että näillä työkaluilla on piilevää, hyödyntämätöntä potentiaalia, mutta se on vain sitä: piilevä.

Mielestäni meidän on oltava realistisempia niiden suhteen (Tekoälyn sijaan on parempi kutsua niitä "todennäköisyysohjelmiksi") ja tämä saattaa itse asiassa tarkoittaa, että käytämme vähemmän aikaa ja energiaa unelmiin ja keskitymme enemmän hyödyllisten sovellusten rakentamiseen. Tässä mielessä pysyn uteliaana ja varovaisen optimistisena sen suhteen, että jotain toteutuu, ja uskon, että jossain Bitcoinin, todennäköisyysohjelmien ja protokollien, kuten Nostr, yhteydestä ilmaantuu jotain erittäin hyödyllistä.

Toivon, että voimme osallistua siihen, ja toivoisin, että myös sinä osallistut siihen, jos olet kiinnostunut. Tätä varten jätän teidät päivänne varaan, ja toivon, että tämä oli hyödyllinen 10 minuutin näkemys siitä, mitä kielimallin rakentamiseen tarvitaan.

Tämä on Aleksander Svetskin vieraspostaus. Esitetyt mielipiteet ovat täysin heidän omiaan eivätkä välttämättä vastaa BTC Inc:n tai Bitcoin Magazinen mielipiteitä.

Aikaleima:

Lisää aiheesta Bitcoin Magazine