Kendi Bitcoin Dil Modelinizi Nasıl Oluşturursunuz?

Kendi Bitcoin Dil Modelinizi Nasıl Oluşturursunuz?

Bu, “Komünist Olmayan Manifesto”nun yazarı ve Bitcoin odaklı dil modeli Spirit of Satoshi'nin kurucusu Aleksandar Svetski'nin yazdığı bir görüş yazısıdır.

Dil modelleri çok revaçta ve birçok kişi sadece temel modelleri (çoğunlukla ChatGPT veya benzeri bir şey) alıp bunları bir vektör veritabanına bağlıyor, böylece insanlar "modellerine" bir soru sorduğunda, cevap bağlamla birlikte yanıtlanıyor. bu vektör veritabanından.

Nedir vektör veritabanı? Bunu gelecekteki bir makalede daha ayrıntılı olarak açıklayacağım, ancak bunu anlamanın basit bir yolu, bir dil modelinin sorgulayabileceği ve daha iyi yanıtlar üretmek için kullanabileceği, veri parçaları olarak depolanan bir bilgi koleksiyonudur. "Bitcoin Standardı"nın paragraflara bölündüğünü ve bu vektör veritabanında saklandığını hayal edin. Bu yeni “modele” paranın tarihi hakkında bir soru soruyorsunuz. Temel model aslında veritabanını sorgulayacak, bağlamın en alakalı parçasını seçecek (“Bitcoin Standardı”ndan bir paragraf) ve ardından onu temel modelin istemine (çoğu durumda ChatGPT) besleyecektir. Model daha sonra daha fazla yanıt vermelidir uygun cevap. Bu harikadır ve bazı durumlarda işe yarar, ancak temeldeki modellerin eğitimleri sırasında maruz kaldığı ana akım gürültü ve önyargının altında yatan sorunları çözmez.

Spirit of Satoshi'de yapmaya çalıştığımız şey bu. Yaklaşık altı ay önce yukarıda anlatılana benzer bir model oluşturduk, onu deneyebilirsin okuyun. Bazı yanıtlarda fena olmadığını fark edeceksiniz, ancak konuşmayı sürdüremiyor ve konu saçmalık ve gerçek bir Bitcoin meraklısının bileceği şeyler olduğunda gerçekten kötü performans gösteriyor.

Bu nedenle yaklaşımımızı değiştirdik ve sıfırdan tam bir dil modeli oluşturuyoruz. Bu yazıda size bunun ne anlama geldiğine dair bir fikir vermek için biraz bundan bahsedeceğim.

Daha 'Tabanlı' Bir Bitcoin Dil Modeli

Daha “tabanlı” bir dil modeli oluşturma misyonu devam ediyor. Düşündüğümden daha fazla dahil olduğu kanıtlandı, birinden değil “Teknik olarak karmaşık” bakış açısına göre ama daha çok “Lanet olsun bu çok sıkıcı” bakış açısı.

Her şey verilerle ilgili. Verinin miktarı değil, kalitesi ve formatı önemli. Muhtemelen meraklıların bunun hakkında konuştuğunu duymuşsunuzdur ve bir modeli gerçekten beslemeye başlayana ve bir sonuç elde edene kadar bunu gerçekten takdir etmezsiniz… ki bu kesinlikle istediğiniz şey değildi.

Veri hattı tüm işin yapıldığı yerdir. Yapmalısın toplamak ve papaz veriler, o zaman yapmanız gerekenler çıkarmak BT. O zaman programlı olarak yapmalısınız çamça (ilk çalıştırmada temizliği manuel olarak yapmak imkansızdır).

Daha sonra bu programlı olarak temizlenmiş ham verileri alırsınız ve şunları yapmanız gerekir: dönüştürmek birden fazla veriye formatları (soru-cevap çiftlerini veya anlamsal olarak tutarlı parçaları ve paragrafları düşünün). Eğer çok fazla veriyle uğraşıyorsanız, bunu programlı olarak da yapmanız gerekir; bu, dil modeli için de geçerlidir. Yeterince komik, diğer dil modelleri bu görev için aslında iyi! Yeni dil modelleri oluşturmak için dil modellerini kullanırsınız.

Daha "tabanlı" bir dil modeli oluşturma misyonuyla.

Sonra, çünkü orada büyük olasılıkla bir sürü önemsiz şey kalacak ve verileri programlı olarak dönüştürmek için kullandığınız dil modeli ne olursa olsun, alakasız çöpler üretilecek, daha yoğun bir işlem yapmanız gerekiyor. çamça.

Bu insan yardımı almanız gereken yer burası çünkü bu aşamada, insanlar hala gezegende farklılaşma ve belirleme için gerekli yetkiye sahip tek canlılar. kalite. Algoritmalar bunu bir nevi yapabilir, ancak dil konusunda henüz o kadar iyi değil - özellikle de daha incelikli, karşılaştırmalı bağlamlarda - Bitcoin'in tam olarak bulunduğu yer burası.

Her durumda, size yardım edecek bir ordunuz olmadığı sürece bunu geniş ölçekte yapmak inanılmaz derecede zordur. Bu insan ordusu, OpenAI gibi birinin parasını ödediği paralı askerler olabilir. Tanrıdan daha çok parası var, ya da misyoner olabilirler, ki Bitcoin topluluğu genel olarak böyledir (bunun için Spirit of Satoshi olarak çok şanslıyız ve minnettarız). Bireyler veri öğelerini gözden geçirir ve verileri saklamayı, atmayı veya değiştirmeyi tek tek seçer.

Veriler bu süreçten geçtikten sonra, diğer tarafta temiz bir şey elde edersiniz. Elbette burada daha fazla karmaşıklık var. Örneğin, temizleme sürecinizi berbat etmeye çalışan kötü aktörlerin ayıklandığından veya girdilerinin dikkate alınmadığından emin olmanız gerekir. Bunu bir dizi yolla yapabilirsiniz ve herkes bunu biraz farklı şekilde yapar. İnsanları içeri girerken tarayabilirsiniz, bir tür dahili temizleme fikir birliği modeli oluşturabilirsiniz, böylece veri öğelerinin saklanması veya atılması için eşiklerin karşılanması gerekir, vb. Spirit of Satoshi'de bir karışım yapıyoruz Her ikisinin de ne kadar etkili olduğunu sanırım önümüzdeki aylarda göreceğiz.

Şimdi… bunun sonunda bu güzel temiz veriye sahip olduğunuzda “boru hattı,"O halde yapmanız gerekenler biçim bir kez daha “hazırlık içinde”Eğitim" Bir örnek.

Bu son aşama, grafik işlem birimlerinin (GPU'lar) devreye girdiği yerdir ve çoğu insanın dil modelleri oluşturma konusunu duyduğunda aklına gelen şeydir. Ele aldığım diğer tüm şeyler genellikle göz ardı edilir.

Bu genel aşama, bir dizi modeli eğitmeyi ve parametrelerle, veri karışımlarıyla, veri kuantumuyla, model türleriyle vb. oynamayı içerir. Bu hızla pahalı hale gelebilir, bu yüzden çok iyi verilere sahip olsanız iyi olur ve bunu yaparsınız. Daha küçük modellerle başlayıp yolunuzu geliştirerek ilerlemeniz daha iyi olur.

Bunların hepsi deneysel ve diğer taraftan elde ettiğiniz şey... sonuç…

Biz insanların uydurduğu şeyler inanılmaz. Her neyse…

Spirit of Satoshi'de sonucumuz hâlâ yapım aşamasında ve bunun üzerinde birkaç şekilde çalışıyoruz:

  1. Gönüllülerden model için en uygun verileri toplamamıza ve düzenlememize yardımcı olmalarını istiyoruz. Bunu şu saatte yapıyoruz: Nakamoto Deposu. Bu, Bitcoin ve Friedrich Nietzsche, Oswald Spengler, Jordan Peterson, Hans-Hermann Hoppe, Murray Rothbard, Carl Jung'un çalışmaları gibi çevre birimleri ile ilgili ve bunlarla ilgili her kitap, makale, makale, blog, YouTube videosu ve podcast'in deposudur. İncil vb.

    Orada herhangi bir şeyi arayabilir ve URL'ye, metin dosyasına veya PDF'ye erişebilirsiniz. Gönüllü bir şey bulamazsa veya dahil edilmesi gerektiğini hissederse bir kayıt "ekleyebilir". Ancak önemsiz eklerlerse kabul edilmeyecektir. İdeal olarak, gönüllüler verileri bir bağlantıyla birlikte bir .txt dosyası olarak sunacaktır.

  2. Topluluk üyeleri ayrıca aslında verileri temizlememize ve sats kazanmamıza yardımcı olur. Bahsettiğim misyonerlik aşamasını hatırlıyor musun? İşte bu. Bunun bir parçası olarak eksiksiz bir araç kutusu sunuyoruz ve katılımcılar "FUD buster", "sıralama yanıtları" ve daha birçok şeyi oynayabilecek. Şimdilik, veri arayüzünde, sırada olanı temizlemek için Tinder benzeri bir saklama/atma/yorum yapma deneyimine benziyor.

    Bu, Bitcoin'i öğrenmek ve anlamak için yıllarını harcayan insanlar için bu "işi" sat'a dönüştürmenin bir yoludur. Hayır, zengin olmayacaklar ama değerli bir proje olarak gördükleri bir şeye katkıda bulunmaya yardımcı olabilirler ve bu yolda bir şeyler kazanabilirler.

Yapay Zeka Değil Olasılık Programları

Önceki birkaç yazımda "yapay zeka"nın kusurlu bir terim olduğunu savundum, çünkü is yapay, bu değil zeki - ve dahası, yapay genel zekayı (AGI) çevreleyen korku pornosu tamamen temelsiz çünkü bu şeyin kendiliğinden duyarlı hale gelip hepimizi öldürme riski gerçekten yok. Birkaç ay sonra buna daha da ikna oldum.

John Carter'ın mükemmel makalesine geri dönelim “Zaten Üretken Yapay Zekadan Sıkıldım” ve o çok dikkat çekiciydi.

Bu yapay zeka olaylarının hiçbirinde gerçekten büyülü veya zekice hiçbir şey yok. Onunla ne kadar çok oynarsak, aslında kendimizinkini inşa etmek için ne kadar çok zaman harcarsak, burada hiçbir duyarlık olmadığının o kadar farkına varırız. Gerçekte hiçbir düşünme ya da akıl yürütme gerçekleşmiyor. Ajans yok. Bunlar sadece “olasılık programlarıdır”.

Etiketlenme şekli ve ortalıkta dolaşan terimler, ister "Yapay Zeka" ister "makine" olsun öğrenme” veya “ajanlar” aslında korkunun, belirsizliğin ve şüphenin çoğunun yattığı yerdir.

Bu etiketler sadece bir insanın yaptığı hiçbir şeye benzemeyen bir dizi süreci tanımlama girişimidir. Dille ilgili sorun, onu anlamlandırabilmek için onu hemen antropomorfize etmeye başlamamızdır. Ve bunu yapma sürecinde Frankenstein'ın canavarına hayat veren kişi ya da dinleyicidir.

AI var yok hayır kendi hayal gücünüzle ona verdiğinizden başka bir hayat. Bu, diğer hayali, eskatolojik tehditlerle hemen hemen aynıdır.

(İklim değişikliği, uzaylılar veya Twitter/X'te olup bitenlerle ilgili örnekler ekleyin.)

Bu elbette herhangi bir aracı/programı/makineyi kendi amaçları için kullanmak isteyen küresel-homo bürokratlar için çok faydalıdır. Yürüyebildikleri zamandan beri hikayeler ve anlatılar uyduruyorlar ve bu sadece dönen son şey. Ve çoğu insan lemming olduğundan ve kendilerinden birkaç IQ puanı daha akıllı görünen birinin söylediği her şeye inanacağından, bunu kendi yararlarına kullanacaklar.

Boru hattından gelecek düzenlemeden bahsettiğimi hatırlıyorum. Geçen hafta ya da önceki hafta, bürokratik derebeylerimizin izniyle artık üretken yapay zeka için "resmi yönergeler" ya da buna benzer bir şeyin olduğunu fark ettim. Bunun ne anlama geldiğini gerçekten kimse bilmiyor. Diğer tüm düzenlemeleri gibi aynı saçma dille maskelenmiştir. Net sonuç bir kez daha şu oldu: "Kuralları biz yazarız, araçları istediğimiz gibi kullanırız, sen de onu bizim söylediğimiz şekilde kullanmalısın, yoksa."

İşin en saçma kısmı, bir grup insanın, hiçbir zaman var olmayan hayali canavara karşı bir şekilde daha güvende olduklarını düşünerek bunu alkışlamasıydı. Aslında, muhtemelen bu kuruluşların "bizi YGZ'den kurtardıklarını" övecekler çünkü bu hiçbir zaman gerçekleşmedi.

Bana şunu hatırlatıyor:

Daha "tabanlı" bir dil modeli oluşturma misyonuyla.

Yukarıdaki resmi Twitter'da yayınladığımda, bu felaketlerin önlenmesinin artan bürokratik müdahalenin bir sonucu olduğuna samimi bir inançla yanıt veren çok sayıda aptal bana o platformdaki kolektif zeka düzeyi hakkında bilmem gereken her şeyi söyledi.

Yine de işte buradayız. Bir kez daha. Aynı hikaye, yeni karakterler.

Ne yazık ki bu konuda kendi işimize odaklanmak dışında yapabileceğimiz çok az şey var. Yapmaya karar verdiğimiz şeyi yapmaya devam edeceğiz.

Genel olarak “GenAI” konusunda daha az heyecanlandım ve insanların dikkati yeniden uzaylılara ve politikaya yöneldikçe bu abartılı reklamın büyük bir kısmının azaldığı hissine kapılıyorum. Ayrıca burada esasen dönüştürücü bir şey olduğuna da daha az inanıyorum; en azından altı ay önce düşündüğüm ölçüde. Belki de yanıldığım kanıtlanır. Bu araçların gizli, kullanılmamış bir potansiyele sahip olduğunu düşünüyorum, ancak bu sadece: gizli.

Ne oldukları konusunda daha gerçekçi olmamız gerektiğini düşünüyorum. (yapay zeka yerine bunlara “olasılık programları” demek daha iyidir) ve bu aslında boş hayallere daha az zaman ve enerji harcadığımız ve faydalı uygulamalar geliştirmeye daha fazla odaklandığımız anlamına gelebilir. Bu anlamda, bir şeyin gerçekleşeceğine dair meraklı ve temkinli bir iyimserliği sürdürüyorum ve Bitcoin'in, olasılık programlarının ve Nostr gibi protokollerin bağlantı noktasında bir yerde çok faydalı bir şeyin ortaya çıkacağına inanıyorum.

Bunda yer alabileceğimizi umuyorum ve eğer ilgileniyorsanız sizin de katılmanızı çok isterim. Bu amaçla hepinizi kendi gününüzle baş başa bırakıyorum ve bunun bir dil modeli oluşturmak için ne gerektiğine dair 10 dakikalık yararlı bir fikir olduğunu umuyorum.

Bu Aleksander Svetski'nin misafir yazısı. İfade edilen görüşler tamamen kendilerine aittir ve BTC Inc veya Bitcoin Magazine'in görüşlerini yansıtmayabilir.

Zaman Damgası:

Den fazla Bitcoin Dergisi