Kuidas luua oma Bitcoini keelemudel

Kuidas luua oma Bitcoini keelemudel

See on Aleksandar Svetski, raamatu "The UnCommunist Manifesto" autor ja Bitcoinile keskendunud keelemudeli Spirit of Satoshi asutaja arvamustoimetus.

Keelemudelid on moes ja paljud inimesed võtavad lihtsalt alusmudeleid (enamasti ChatGPT või midagi sarnast) ja ühendavad need seejärel vektorandmebaasiga, nii et kui inimesed küsivad oma mudelilt küsimuse, vastab see vastusele kontekstiga. sellest vektori andmebaasist.

Mis on a vektori andmebaas? Selgitan seda üksikasjalikumalt tulevases essees, kuid lihtne viis selle mõistmiseks on teabekogum, mis on salvestatud andmetükkidena, mida keelemudel saab teha päringuid ja kasutada paremate vastuste saamiseks. Kujutage ette "Bitcoini standardit", mis on jagatud lõikudeks ja salvestatud sellesse vektorandmebaasi. Esitate sellele uuele "mudelile" küsimuse raha ajaloo kohta. Alusmudel teeb tegelikult päringu andmebaasist, valib kõige asjakohasema konteksti (mõni lõik jaotisest „The Bitcoin Standard”) ja seejärel sisestab selle aluseks oleva mudeli (paljudel juhtudel ChatGPT) viipa. Seejärel peaks mudel vastama rohkemaga asjakohane vastama. See on lahe ja töötab mõnel juhul hästi, kuid ei lahenda peavoolu müra ja kallutatuse põhiprobleeme, mida aluseks olevad mudelid oma koolituse ajal mõjutavad.

See on see, mida me Spirit of Satoshis teha püüame. Oleme umbes kuus kuud tagasi ehitanud ülalkirjeldatu sarnase mudeli, mida saate proovida siin. Märkate, et mõnede vastustega pole see halb, kuid see ei suuda vestlust pidada ja toimib väga halvasti, kui rääkida sittadest ja asjadest, mida tõeline Bitcoiner teaks.

Seetõttu oleme muutnud oma lähenemisviisi ja loome täieliku keelemudeli nullist. Selles essees räägin sellest veidi, et anda teile aimu, mida see endast kujutab.

„Põhisem” Bitcoini keelemudel

Missioon luua rohkem "põhist" keelemudel jätkub. See on osutunud rohkem kaasatuks, kui ma isegi arvasin, mitte a "tehniliselt keeruline" seisukohast, kuid rohkem a “Kurat, see on tüütu” seisukohast.

Kõik on seotud andmetega. Ja mitte andmete kvantiteet, vaid andmete kvaliteet ja formaat. Tõenäoliselt olete kuulnud nohikuid sellest rääkimas ja te ei hinda seda tegelikult enne, kui hakkate seda kraami modellile söötma ja saate tulemuse... mis ei olnud tingimata see, mida te tahtsite.

Andmekonveier on koht, kus on kogu töö. Sa pead koguma ja kureerima andmed, siis pead väljavõte seda. Siis tuleb programmiliselt puhastama see (esmakordset puhastust on võimatu käsitsi teha).

Seejärel võtate need programmiliselt puhastatud algandmed ja peate seda tegema muutma see mitmeks andmeks vormid (mõelge küsimuste ja vastuste paaridele või semantiliselt sidusatele tükkidele ja lõikudele). Seda peate tegema ka programmiliselt, kui tegelete suure hulga andmetega – mis kehtib keelemudeli puhul. Naljakas, teised keelemudelid on selle ülesande jaoks tegelikult head! Kasutate keelemudeleid uute keelemudelite koostamiseks.

Missioonil luua "põhisem" keelemudel.

Siis, kuna sinna jääb tõenäoliselt palju rämpsu ja mis tahes keelemudel, mida kasutasite andmete programmiliseks muutmiseks, tekitab ebaolulist prügi, peate tegema intensiivsema puhastama.

see see on koht, kus teil on vaja inimeste abi, sest praeguses etapis tundub, et inimesed on endiselt ainsad olendid planeedil, kellel on vaja eristada ja määrata kvaliteet. Algoritmid suudavad seda teha, kuid keelega mitte nii hästi – eriti nüansirikkamates ja võrdlevates kontekstides –, kus Bitcoin täpselt asub.

Igal juhul on seda ulatuslikult teha uskumatult raske, välja arvatud juhul, kui teil on abiks inimeste armee. See inimeste armee võivad olla palgasõdurid, kelle eest keegi maksab, näiteks OpenAI tal on rohkem raha kui jumalal, või nad võivad olla misjonärid, mida Bitcoini kogukond üldiselt on (meil on Spirit of Satoshis selle eest väga vedanud ja tänulikud). Üksikisikud läbivad andmeüksused ja valivad ükshaaval, kas andmed säilitada, tühistada või muuta.

Kui andmed selle protsessi läbivad, on teises otsas midagi puhast. Siin on muidugi rohkem keerukusi. Näiteks peate tagama, et halvad näitlejad, kes üritavad teie puhastusprotsessi rikkuda, eemaldatakse või nende panused visatakse kõrvale. Saate seda teha mitmel viisil ja igaüks teeb seda veidi erinevalt. Saate inimesi sissesõidul sõeluda, saate luua mingisuguse sisemise puhastamise konsensusmudeli, nii et andmeüksuste säilitamiseks või äraviskamiseks tuleb täita künniseid jne. Spirit of Satoshis teeme segu. ja ma arvan, et me näeme, kui tõhus see on lähikuudel.

Nüüd… kui teil on need ilusad puhtad andmed välja antud, selle lõpptorujuhe,” siis pead formaat see veel kord ettevalmistuseks "koolitus" mudel.

Selles viimases etapis tulevad mängu graafilised töötlemisüksused (GPU-d) ja see on see, millele enamik inimesi keelemudelite loomisest kuuldes mõtleb. Kõik muud asjad, mida ma käsitlesin, jäetakse üldiselt tähelepanuta.

See koduse venitamise etapp hõlmab mudelite seeria treenimist ja mängimist parameetrite, andmete segude, andmete kvantiteedi, mudelitüüpidega jne. See võib kiiresti kalliks minna, nii et teil on parem omada kuradi häid andmeid ja parem alustada väiksematest mudelitest ja liikuda edasi.

See kõik on eksperimentaalne ja see, mida saate teisest otsast, on … tulemus…

See on uskumatu, mida me, inimesed, välja mõtleme. Igatahes…

Spirit of Satoshis on meie tulemus veel tegemisel ja me töötame selle kallal mitmel viisil:

  1. Palume vabatahtlikel aidata meil mudeli jaoks kõige asjakohasemaid andmeid koguda ja kureerida. Me teeme seda kell Nakamoto hoidla. See on kõigi Bitcoini käsitlevate ja sellega seotud raamatute, esseede, artiklite, ajaveebi, YouTube'i videote ja taskuhäälingusaadete hoidla ning välisseadmete, nagu Friedrich Nietzsche, Oswald Spengleri, Jordan Petersoni, Hans-Hermann Hoppe, Murray Rothbardi, Carl Jungi, teosed. piibel jne.

    Saate sealt otsida kõike ja pääseda juurde URL-ile, tekstifailile või PDF-ile. Kui vabatahtlik ei leia midagi või tunneb, et see tuleb lisada, saab ta kirje lisada. Kui nad lisavad rämpsu, ei võeta seda vastu. Ideaalis esitavad vabatahtlikud andmed .txt-failina koos lingiga.

  2. Ka kogukonna liikmed saavad tegelikult aitab meil andmeid puhastada ja teenida sat. Kas mäletate seda misjonietappi, mida mainisin? No see on see. Selle osana laseme välja terve tööriistakasti ning osalejad saavad mängida "FUD-busterit" ja "vastuseid järjestades" ja kõikvõimalikke muid asju. Praegu on see nagu Tinderi stiilis säilitamise/viskamise/kommenteerimise kogemus andmeliideses, et puhastada see, mis on plaanis.

    See on viis inimestele, kes on aastaid Bitcoini tundma õppides ja sellest aru saanud, et muuta see "töö" satsiks. Ei, nad ei saa rikkaks, kuid nad võivad aidata panustada millessegi, mida nad võivad väärt projektiks pidada, ja teenida midagi.

Tõenäosusprogrammid, mitte AI

Mõnes varasemas essees olen väitnud, et "tehisintellekt" on vigane termin, sest kuigi see is kunstlik, see on mitte intelligentne – ja pealegi on tehisintellekti (AGI) ümbritsev hirmuporno olnud täiesti alusetu, sest puudub sõna otseses mõttes oht, et see asi muutuks spontaanselt tundlikuks ja tapaks meid kõiki. Paar kuud möödas ja olen selles veelgi enam veendunud.

Ma mõtlen tagasi John Carteri suurepärasele artiklile "Mul on generatiivsest tehisintellektist juba igav" ja ta oli nii täpne.

Selles tehisintellektis pole tegelikult midagi maagilist ega intelligentset. Mida rohkem me sellega mängime, mida rohkem aega kulutame tegelikult enda ehitamisele, seda enam mõistame, et siin pole mõistust. Tegelikku mõtlemist ega arutlemist ei toimu. Esindus puudub. Need on lihtsalt "tõenäosusprogrammid".

See, kuidas need on sildistatud, ja mõisted, mis on laiali paisatud, olgu selleks "AI" või "masin". õppimine” või „agendid” peitub tegelikult suurem osa hirmust, ebakindlusest ja kahtlusest.

Need sildid on lihtsalt katse kirjeldada protsesside kogumit, mis on tegelikult erinev kõigest, mida inimene teeb. Keele probleem on selles, et me hakkame seda kohe antropomorfiseerima, et sellest aru saada. Ja seda tehes on publik või kuulaja see, kes Frankensteini koletisele elu sisse puhub.

AI-l on ei muud elu kui see, mille sa talle oma kujutlusvõimega annad. See on peaaegu sama mis tahes muu kujutletava eshatoloogilise ohuga.

(Sisestage näiteid kliimamuutuste, tulnukate või muu kohta, mis Twitteris/X-is toimub.)

See on loomulikult väga kasulik globo-homo-bürokraatidele, kes soovivad kasutada mis tahes sellist tööriista/programmi/masinat oma eesmärkidel. Nad on lugusid ja narratiive keerutanud juba enne, kui nad kõndida said, ja see on alles viimane lugu. Ja kuna enamik inimesi on lemmingud ja usuvad seda, mida keegi, kes kõlab mõne IQ-punkti võrra targemana, ütleb, kasutavad nad seda enda huvides.

Mäletan, et rääkisime regulatsioonist, mis tuleb torujuhtme alla. Märkasin, et eelmisel või üle-eelmisel nädalal on generatiivse tehisintellekti jaoks nüüd olemas "ametlikud juhised" või midagi sellelaadset – tänu meie bürokraatlikele ülemustele. Mida see tähendab, ei tea tegelikult keegi. See on varjatud sama mõttetu keelekasutusse, nagu on kõik nende muud määrused. Lõpptulemus on taas kord: "Me kirjutame reeglid, saame kasutada tööriistu nii, nagu tahame, peate neid kasutama nii, nagu me teile ütleme, või muidu."

Kõige naeruväärsem on see, et hulk inimesi rõõmustas selle üle, arvates, et nad on kuidagi turvalisemad kujuteldava koletise eest, mida kunagi polnud. Tõenäoliselt tunnustavad nad neid agentuure "meie päästmise eest AGI-st", sest see ei realiseerunud kunagi.

See meenutab mulle seda:

Missioonil luua "põhisem" keelemudel.

Kui ma ülaltoodud pildi Twitterisse postitasin, ütles see idiootide hulk, kes vastasid siiras veendumusega, et nende katastroofide vältimine oli suurenenud bürokraatliku sekkumise tulemus, mulle kõik, mida ma selle platvormi kollektiivse intelligentsi taseme kohta teadma pidin.

Sellegipoolest oleme siin. Veel kord. Sama lugu, uued tegelased.

Kahjuks on meil tõesti vähe teha, kui ainult oma asjadele keskenduda. Teeme jätkuvalt seda, mida oleme ette võtnud.

Ma olen "GenAI"-st üldiselt vähem põnevil ja mul on tunne, et suur hüpe hakkab kaduma, kui inimeste tähelepanu liigub taas tulnukatele ja poliitikale. Ma olen ka vähem veendunud, et siin on midagi oluliselt muutvat – vähemalt sel määral, nagu arvasin kuus kuud tagasi. Võib-olla tõestatakse, et ma eksin. Ma arvan, et neil tööriistadel on varjatud, kasutamata potentsiaal, kuid see on lihtsalt see: varjatud.

Ma arvan, et peame olema nende suhtes realistlikumad (tehisintellekti asemel on parem nimetada neid "tõenäosusprogrammideks") ja see võib tegelikult tähendada, et kulutame vähem aega ja energiat unistustele ning keskendume rohkem kasulike rakenduste loomisele. Selles mõttes jään ma uudishimulikuks ja ettevaatlikult optimistlikuks, et midagi siiski realiseeruks, ning usun, et kuskil Bitcoini, tõenäosusprogrammide ja protokollide, nagu Nostr, vahelises seoses tekib midagi väga kasulikku.

Loodan, et saame sellest osa võtta ja soovin, et ka teie sellest osa võtaksite, kui olete huvitatud. Sel eesmärgil jätan teid kõik teie päeva hooleks ja loodan, et see oli kasulik 10-minutiline ülevaade keelemudeli loomiseks vajalikest asjadest.

See on Aleksander Svetski külalispostitus. Avaldatud arvamused on täielikult nende omad ja ei pruugi kajastada BTC Inc või Bitcoin Magazine'i arvamusi.

Ajatempel:

Veel alates Bitcoin ajakiri