Cara Membangun Model Bahasa Bitcoin Anda Sendiri

Cara Membangun Model Bahasa Bitcoin Anda Sendiri

Ini adalah editorial opini oleh Aleksandar Svetski, penulis “The UnCommunist Manifesto” dan pendiri model bahasa yang berfokus pada Bitcoin, Spirit of Satoshi.

Model bahasa sangat populer, dan banyak orang hanya mengambil model dasar (paling sering ChatGPT atau yang serupa) dan kemudian menghubungkannya ke database vektor sehingga ketika orang mengajukan pertanyaan "model" mereka, itu menanggapi jawaban dengan konteks dari database vektor ini.

Apa itu basis data vektor? Saya akan menjelaskannya secara lebih rinci dalam esai mendatang, namun cara sederhana untuk memahaminya adalah sebagai kumpulan informasi yang disimpan sebagai potongan data, yang dapat ditanyakan dan digunakan oleh model bahasa untuk menghasilkan respons yang lebih baik. Bayangkan “Standar Bitcoin,” dipecah menjadi beberapa paragraf, dan disimpan dalam database vektor ini. Anda menanyakan “model” baru ini pertanyaan tentang sejarah uang. Model yang mendasarinya akan menanyakan database, memilih bagian konteks yang paling relevan (beberapa paragraf dari “Standar Bitcoin”) dan kemudian memasukkannya ke dalam perintah model yang mendasarinya (dalam banyak kasus, ChatGPT). Model kemudian harus merespons dengan lebih banyak relevan menjawab. Ini keren, dan bekerja dengan baik dalam beberapa kasus, tetapi tidak menyelesaikan masalah mendasar dari kebisingan dan bias arus utama yang menjadi sasaran model yang mendasarinya selama pelatihan mereka.

Inilah yang kami coba lakukan di Spirit of Satoshi. Kami telah membuat model seperti yang dijelaskan di atas sekitar enam bulan lalu, yang dapat Anda coba di sini. Anda akan menyadari bahwa jawaban ini lumayan bagus, namun tidak dapat menampung percakapan, dan kinerjanya sangat buruk dalam hal shitcoinery dan hal-hal yang diketahui oleh para Bitcoiner sejati.

Inilah mengapa kami mengubah pendekatan kami dan membangun model bahasa lengkap dari awal. Dalam esai ini, saya akan berbicara sedikit tentang itu, untuk memberi Anda gambaran tentang apa yang diperlukan.

Model Bahasa Bitcoin yang Lebih 'Berbasis'

Misi untuk membangun model bahasa yang lebih “berbasis” terus berlanjut. Terbukti lebih terlibat daripada yang saya pikirkan, bukan dari a “rumit secara teknis” sudut pandang, tetapi lebih dari a “sialan ini membosankan” sudut.

Ini semua tentang data. Dan bukan kuantitas datanya, tapi kualitas dan format datanya. Anda mungkin pernah mendengar kutu buku berbicara tentang ini, dan Anda tidak terlalu menghargainya sampai Anda benar-benar mulai memberi makan barang-barang itu ke model, dan Anda mendapatkan hasil… yang belum tentu seperti yang Anda inginkan.

Pipa data adalah tempat semua pekerjaan dilakukan. Kamu harus mengumpulkan dan pendeta pembantu data, maka Anda harus ekstrak dia. Maka Anda harus secara terprogram membersihkan itu (tidak mungkin melakukan pembersihan pertama kali secara manual).

Kemudian Anda mengambil data mentah yang dibersihkan secara terprogram ini dan Anda harus melakukannya mengubah itu menjadi beberapa data format (pikirkan pasangan tanya jawab, atau potongan dan paragraf yang koheren secara semantik). Ini juga perlu Anda lakukan secara terprogram, jika Anda berurusan dengan banyak data — yang merupakan kasus untuk model bahasa. Cukup lucu, model bahasa lain sebenarnya bagus untuk tugas ini! Anda menggunakan model bahasa untuk membuat model bahasa baru.

Dengan misi membangun model bahasa yang lebih “berbasis”.

Kemudian, karena kemungkinan besar akan ada banyak sampah tertinggal di sana, dan sampah tidak relevan yang dihasilkan oleh model bahasa apa pun yang Anda gunakan untuk mengubah data secara terprogram, Anda perlu melakukan yang lebih intens membersihkan.

Kredensial mikro adalah di mana Anda perlu mendapatkan bantuan manusia, karena pada tahap ini, tampaknya manusia masih satu-satunya makhluk di planet ini dengan hak yang diperlukan untuk membedakan dan menentukan. kualitas. Algoritme dapat melakukan hal ini, tetapi belum begitu baik dengan bahasa — terutama dalam konteks yang lebih bernuansa dan komparatif — di mana Bitcoin berada.

Bagaimanapun, melakukan hal ini dalam skala besar sangatlah sulit kecuali Anda memiliki pasukan yang dapat membantu Anda. Pasukan orang itu bisa menjadi tentara bayaran yang dibayar oleh seseorang, seperti OpenAI yang mana mempunyai lebih banyak uang daripada Tuhan, atau mereka bisa menjadi misionaris, seperti itulah komunitas Bitcoin pada umumnya (kami sangat beruntung dan berterima kasih atas hal ini di Spirit of Satoshi). Individu memeriksa item data dan satu per satu memilih apakah akan menyimpan, membuang, atau memodifikasi data.

Setelah data melewati proses ini, Anda akan mendapatkan sesuatu yang bersih di ujung lainnya. Tentu saja, ada lebih banyak kerumitan yang terlibat di sini. Misalnya, Anda perlu memastikan bahwa aktor jahat yang mencoba merusak proses pembersihan Anda disingkirkan, atau masukan mereka dibuang. Anda dapat melakukannya dengan serangkaian cara, dan setiap orang melakukannya dengan cara yang sedikit berbeda. Anda dapat menyaring orang-orang yang masuk, Anda dapat membangun semacam model konsensus pembersihan internal sehingga ambang harus dipenuhi untuk item data yang akan disimpan atau dibuang, dll. Di Spirit of Satoshi, kami sedang melakukan perpaduan dari keduanya, dan saya kira kita akan melihat seberapa efektifnya dalam beberapa bulan mendatang.

Sekarang… setelah Anda mendapatkan data bersih yang indah ini di akhir “saluran pipa,” maka Anda perlu format sekali lagi sebagai persiapan untuk “latihan" sebuah contoh.

Tahap akhir ini adalah saat unit pemrosesan grafis (GPU) ikut bermain, dan itulah yang dipikirkan kebanyakan orang ketika mereka mendengar tentang membangun model bahasa. Semua hal lain yang saya bahas umumnya diabaikan.

Tahap home-stretch ini melibatkan pelatihan serangkaian model, dan bermain dengan parameter, campuran data, kuantum data, tipe model, dll. Ini bisa dengan cepat menjadi mahal, jadi sebaiknya Anda memiliki beberapa data yang sangat bagus dan Anda ' lebih baik memulai dengan model yang lebih kecil dan membangun jalan Anda.

Semuanya eksperimental, dan apa yang Anda dapatkan di ujung sana adalah… hasilnya…

Sungguh luar biasa hal-hal yang kita bayangkan sebagai manusia. Bagaimanapun…

Di Spirit of Satoshi, hasil kami masih dalam pembuatan, dan kami mengerjakannya dalam beberapa cara:

  1. Kami meminta para sukarelawan untuk membantu kami mengumpulkan dan menyusun data yang paling relevan untuk model tersebut. Kami melakukan itu di Repositori Nakamoto. Ini adalah gudang setiap buku, esai, artikel, blog, video YouTube dan podcast tentang dan terkait dengan Bitcoin, dan periferal seperti karya Friedrich Nietzsche, Oswald Spengler, Jordan Peterson, Hans-Hermann Hoppe, Murray Rothbard, Carl Jung, Alkitab, dll.

    Anda dapat mencari apa saja di sana dan mengakses URL, file teks, atau PDF. Jika seorang sukarelawan tidak dapat menemukan sesuatu, atau merasa perlu disertakan, mereka dapat "menambahkan" catatan. Jika mereka menambahkan sampah, itu tidak akan diterima. Idealnya, relawan akan mengirimkan data sebagai file .txt beserta tautannya.

  2. Anggota komunitas juga bisa sebenarnya membantu kami membersihkan data, dan mendapatkan sats. Ingat tahap misionaris yang saya sebutkan? Nah ini dia. Kami meluncurkan seluruh toolbox sebagai bagian dari ini, dan peserta akan dapat memainkan “FUD buster” dan “rank replies” dan segala macam hal lainnya. Untuk saat ini, ini seperti pengalaman simpan/buang/komentar ala Tinder pada antarmuka data untuk membersihkan apa yang ada di dalam saluran.

    Ini adalah cara bagi orang-orang yang telah menghabiskan waktu bertahun-tahun mempelajari dan memahami Bitcoin untuk mengubah “pekerjaan” itu menjadi sat. Tidak, mereka tidak akan menjadi kaya, tetapi mereka dapat membantu berkontribusi terhadap sesuatu yang mereka anggap sebagai proyek yang layak, dan mendapatkan sesuatu di sepanjang jalan.

Program Probabilitas, Bukan AI

Dalam beberapa esai sebelumnya, saya berpendapat bahwa "kecerdasan buatan" adalah istilah yang cacat, karena sementara itu is buatan, itu tidak cerdas - dan lebih jauh lagi, pornografi ketakutan seputar kecerdasan umum buatan (AGI) sama sekali tidak berdasar karena secara harfiah tidak ada risiko benda ini menjadi hidup secara spontan dan membunuh kita semua. Beberapa bulan kemudian dan saya bahkan lebih yakin akan hal ini.

Saya memikirkan kembali artikel John Carter yang sangat bagus “Saya Sudah Bosan Dengan AI Generatif” dan dia sangat tepat.

Benar-benar tidak ada yang ajaib, atau cerdas dalam hal ini, tentang semua hal AI ini. Semakin banyak kita bermain dengannya, semakin banyak waktu yang kita habiskan untuk benar-benar membangun milik kita sendiri, semakin kita menyadari bahwa tidak ada perasaan di sini. Tidak ada pemikiran atau penalaran yang sebenarnya terjadi. Tidak ada agensi. Ini hanyalah "program probabilitas".

Cara mereka diberi label, dan istilah yang digunakan, apakah itu "AI" atau "mesin". pengetahuan” atau “agen,” sebenarnya adalah tempat sebagian besar ketakutan, ketidakpastian, dan keraguan berada.

Label-label ini hanyalah upaya untuk menggambarkan serangkaian proses, yang benar-benar tidak seperti apa pun yang dilakukan manusia. Masalah dengan bahasa adalah kita segera mulai melakukan antropomorfisasi untuk membuatnya masuk akal. Dan dalam proses melakukan itu, penonton atau pendengarlah yang menghidupkan monster Frankenstein.

AI memiliki tidak hidup selain apa yang Anda berikan dengan imajinasi Anda sendiri. Ini hampir sama dengan ancaman eskatologis imajiner lainnya.

(Masukkan contoh seputar perubahan iklim, alien, atau apa pun yang terjadi di Twitter/X.)

Hal ini tentunya sangat berguna bagi para birokrat globo-homo yang ingin menggunakan alat/program/mesin tersebut untuk keperluannya sendiri. Mereka telah memutar cerita dan narasi sejak sebelum mereka bisa berjalan, dan ini baru yang terbaru. Dan karena kebanyakan orang lemming dan akan percaya apa pun yang dikatakan seseorang yang terdengar beberapa poin IQ lebih pintar daripada yang mereka katakan, mereka akan menggunakannya untuk keuntungan mereka.

Saya ingat berbicara tentang regulasi yang sedang berjalan. Saya perhatikan bahwa minggu lalu atau minggu sebelumnya, sekarang ada "pedoman resmi" atau semacamnya untuk AI generatif - milik penguasa birokrasi kita. Apa artinya ini, tidak ada yang benar-benar tahu. Itu ditutupi dengan bahasa tidak masuk akal yang sama dengan semua peraturan mereka yang lain. Hasil bersihnya adalah, sekali lagi, "Kami menulis aturan, kami dapat menggunakan alat sesuai keinginan kami, Anda harus menggunakannya seperti yang kami beri tahu, atau yang lain."

Bagian yang paling konyol adalah sekelompok orang bersorak tentang hal ini, berpikir bahwa mereka entah bagaimana lebih aman dari monster imajiner yang tidak pernah ada. Faktanya, mereka mungkin akan memuji agensi-agensi ini dengan “menyelamatkan kami dari AGI” karena hal itu tidak pernah terwujud.

Itu mengingatkan saya pada ini:

Dengan misi membangun model bahasa yang lebih “berbasis”.

Ketika saya memposting gambar di atas di Twitter, jumlah orang bodoh yang menanggapi dengan keyakinan tulus bahwa penghindaran bencana ini adalah hasil dari intervensi birokrasi yang meningkat memberi tahu saya semua yang perlu saya ketahui tentang tingkat kecerdasan kolektif di platform itu.

Namun demikian, inilah kami. Sekali lagi. Cerita yang sama, karakter baru.

Aduh — hanya sedikit yang bisa kita lakukan tentang itu, selain fokus pada urusan kita sendiri. Kami akan terus melakukan apa yang ingin kami lakukan.

Saya menjadi kurang bersemangat tentang "GenAI" secara umum, dan saya merasa bahwa banyak sensasi yang hilang saat perhatian orang beralih ke alien dan politik lagi. Saya juga kurang yakin bahwa ada sesuatu yang sangat transformatif di sini — setidaknya pada tingkat yang saya pikirkan enam bulan lalu. Mungkin saya akan terbukti salah. Menurut saya alat ini memiliki potensi terpendam dan belum dimanfaatkan, tetapi hanya itu: terpendam.

Saya pikir kita harus lebih realistis tentang siapa mereka (daripada kecerdasan buatan, lebih baik menyebutnya "program probabilitas") dan itu mungkin sebenarnya berarti kita menghabiskan lebih sedikit waktu dan energi untuk impian pipa dan lebih fokus untuk membangun aplikasi yang berguna. Dalam hal ini, saya tetap penasaran dan optimis dengan hati-hati bahwa sesuatu akan terwujud, dan percaya bahwa di suatu tempat di nexus Bitcoin, program probabilitas dan protokol seperti Nostr, sesuatu yang sangat berguna akan muncul.

Saya berharap kita dapat mengambil bagian di dalamnya, dan saya ingin Anda juga mengambil bagian di dalamnya jika Anda tertarik. Untuk itu, saya akan meninggalkan Anda semua untuk hari Anda, dan berharap ini adalah wawasan 10 menit yang berguna tentang apa yang diperlukan untuk membangun model bahasa.

Ini adalah posting tamu oleh Aleksander Svetski. Pendapat yang diungkapkan sepenuhnya milik mereka dan tidak mencerminkan pendapat BTC Inc atau Majalah Bitcoin.

Stempel Waktu:

Lebih dari Majalah Bitcoin