วิธีสร้างโมเดลภาษา Bitcoin ของคุณเอง

วิธีสร้างโมเดลภาษา Bitcoin ของคุณเอง

นี่คือบทบรรณาธิการความคิดเห็นโดย Aleksandar Svetski ผู้เขียน “The UnCommunist Manifesto” และผู้ก่อตั้ง Spirit of Satoshi โมเดลภาษาที่เน้น Bitcoin

โมเดลภาษากำลังเป็นที่นิยม และหลายคนใช้โมเดลพื้นฐาน (ส่วนใหญ่มักจะเป็น ChatGPT หรืออะไรที่คล้ายกัน) แล้วเชื่อมต่อกับฐานข้อมูลเวกเตอร์ เพื่อที่ว่าเมื่อมีคนถามคำถาม "โมเดล" ของพวกเขา โมเดลจะตอบสนองต่อคำตอบพร้อมบริบท จากฐานข้อมูลเวกเตอร์นี้

อะไรคือ a ฐานข้อมูลเวกเตอร์? ฉันจะอธิบายรายละเอียดเพิ่มเติมในบทความต่อๆ ไป แต่วิธีง่ายๆ ที่จะทำความเข้าใจก็คือการรวบรวมข้อมูลที่เก็บไว้เป็นก้อนข้อมูล ซึ่งโมเดลภาษาสามารถสืบค้นและใช้เพื่อสร้างคำตอบที่ดีขึ้นได้ ลองนึกภาพ “มาตรฐาน Bitcoin” ที่แบ่งออกเป็นย่อหน้า และจัดเก็บไว้ในฐานข้อมูลเวกเตอร์นี้ คุณถามคำถาม “แบบจำลอง” ใหม่นี้เกี่ยวกับประวัติความเป็นมาของเงิน โมเดลต้นแบบจะสืบค้นฐานข้อมูล เลือกบริบทที่เกี่ยวข้องมากที่สุด (บางย่อหน้าจาก "The Bitcoin Standard") จากนั้นป้อนลงในพรอมต์ของโมเดลต้นแบบ (ในหลายกรณี ChatGPT) โมเดลควรตอบสนองมากขึ้น ตรงประเด็น คำตอบ. สิ่งนี้ยอดเยี่ยมและใช้งานได้ดีในบางกรณี แต่ไม่สามารถแก้ปัญหาพื้นฐานเกี่ยวกับเสียงรบกวนและอคติหลักที่โมเดลพื้นฐานต้องเผชิญระหว่างการฝึกอบรม

นี่คือสิ่งที่เราพยายามทำที่ Spirit of Satoshi เราได้สร้างแบบจำลองเหมือนกับที่อธิบายไว้ข้างต้นเมื่อประมาณหกเดือนที่แล้ว ซึ่งคุณสามารถทดลองใช้ได้ โปรดคลิกที่นี่เพื่ออ่านรายละเอียดเพิ่มเติม. คุณจะสังเกตได้ว่าคำตอบบางข้อก็ไม่ได้แย่ แต่ไม่สามารถพูดคุยได้ และมันทำงานได้แย่มากเมื่อพูดถึงเรื่องห่วยๆ และสิ่งต่าง ๆ ที่ Bitcoiner ตัวจริงจะรู้

นี่คือเหตุผลที่เราเปลี่ยนแนวทางของเราและกำลังสร้างโมเดลภาษาเต็มรูปแบบตั้งแต่เริ่มต้น ในบทความนี้ ฉันจะพูดถึงเรื่องนี้เล็กน้อยเพื่อให้คุณเข้าใจว่ามันเกี่ยวข้องกับอะไร

รูปแบบภาษา Bitcoin 'ตาม' มากขึ้น

ภารกิจในการสร้างโมเดลภาษาที่ "อิงตาม" มากขึ้นยังคงดำเนินต่อไป ได้รับการพิสูจน์แล้วว่ามีส่วนเกี่ยวข้องมากกว่าที่ฉันคิด ไม่ใช่จากก “ซับซ้อนทางเทคนิค” จุดยืน แต่เพิ่มเติมจากก “ไอ้นี่มันน่าเบื่อ” จุดยืน

ทุกอย่างเกี่ยวกับข้อมูล และไม่ใช่ปริมาณข้อมูล แต่เป็นคุณภาพและรูปแบบของข้อมูล คุณคงเคยได้ยินพวกเนิร์ดพูดถึงเรื่องนี้ และคุณก็ไม่ชอบมันจริงๆ จนกว่าคุณจะเริ่มให้อาหารแก่นางแบบจริงๆ และคุณก็ได้ผลลัพธ์... ซึ่งไม่จำเป็นว่าคุณต้องการอะไร

ไปป์ไลน์ข้อมูลคือที่ทำงานทั้งหมด คุณต้อง รวบรวม และ พระสอนศาสนา ข้อมูลแล้วคุณต้อง สารสกัด มัน. จากนั้นคุณต้องเขียนโปรแกรม ปลาเดยส์ มัน (เป็นไปไม่ได้ที่จะทำความสะอาดครั้งแรกด้วยตนเอง)

จากนั้นคุณนำข้อมูลดิบที่ทำความสะอาดโดยทางโปรแกรมนี้และคุณต้องทำ แปลง เป็นข้อมูลหลายๆ รูปแบบ (นึกถึงคู่คำถามและคำตอบ หรือกลุ่มและย่อหน้าที่สอดคล้องกันในเชิงความหมาย) คุณต้องทำสิ่งนี้ด้วยการเขียนโปรแกรม หากคุณต้องจัดการกับข้อมูลจำนวนมาก ซึ่งเป็นกรณีของโมเดลภาษา ตลกดี โมเดลภาษาอื่นๆ ก็ดีสำหรับงานนี้จริงๆ! คุณใช้โมเดลภาษาเพื่อสร้างโมเดลภาษาใหม่

ภารกิจในการสร้างโมเดลภาษาที่ "อิง" มากขึ้น

แล้วก็เนื่องจากอาจมีขยะจำนวนมากหลงเหลืออยู่ในนั้น และขยะที่ไม่เกี่ยวข้องซึ่งเกิดจากรูปแบบภาษาใดก็ตามที่คุณใช้ในการแปลงข้อมูลทางโปรแกรม คุณจึงต้องดำเนินการอย่างเข้มข้นมากขึ้น ปลาเดยส์.

เป็นที่ที่คุณต้องขอความช่วยเหลือจากมนุษย์ เพราะในขั้นตอนนี้ ดูเหมือนว่ามนุษย์ยังคงเป็นสิ่งมีชีวิตเพียงชนิดเดียวบนโลกที่มีหน่วยงานที่จำเป็นในการแยกแยะและกำหนด คุณภาพ. อัลกอริทึมสามารถทำเช่นนี้ได้ แต่ยังไม่ดีนักกับภาษา — โดยเฉพาะอย่างยิ่งในบริบทเปรียบเทียบที่เหมาะสมยิ่งขึ้น — ซึ่งเป็นจุดที่ Bitcoin ตั้งอยู่อย่างแท้จริง

ไม่ว่าในกรณีใด การทำเช่นนี้ในวงกว้างเป็นเรื่องยากอย่างไม่น่าเชื่อ เว้นแต่คุณจะมีคนจำนวนมากที่จะช่วยคุณ กองทัพผู้คนนั้นสามารถเป็นทหารรับจ้างที่ใครบางคนจ่ายให้ เช่น OpenAI ซึ่ง มีเงินมากกว่าพระเจ้าหรืออาจเป็นมิชชันนารี ซึ่งเป็นสิ่งที่ชุมชน Bitcoin โดยทั่วไปเป็น (เราโชคดีมากและรู้สึกขอบคุณสำหรับสิ่งนี้ที่ Spirit of Satoshi) แต่ละคนจะดูรายการข้อมูลและเลือกทีละรายการว่าจะเก็บ ทิ้ง หรือแก้ไขข้อมูล

เมื่อข้อมูลผ่านกระบวนการนี้ คุณจะจบลงด้วยสิ่งที่สะอาดในอีกด้านหนึ่ง แน่นอนว่ามีความซับซ้อนมากกว่านี้ ตัวอย่างเช่น คุณต้องตรวจสอบให้แน่ใจว่าผู้ไม่ประสงค์ดีที่พยายามทำให้กระบวนการทำความสะอาดของคุณไม่เรียบร้อยนั้นถูกกำจัดออกไป หรือข้อมูลที่ป้อนเข้ามานั้นถูกละทิ้งไป คุณสามารถทำได้หลายวิธี และทุกคนก็ทำได้แตกต่างกันเล็กน้อย คุณสามารถคัดกรองผู้คนที่กำลังเข้ามา คุณสามารถสร้างแบบจำลองฉันทามติในการล้างข้อมูลภายในบางประเภท เพื่อให้รายการข้อมูลต้องตรงตามเกณฑ์ที่จะเก็บหรือทิ้ง ฯลฯ ที่ Spirit of Satoshi เรากำลังผสมผสาน ของทั้งสองอย่าง และฉันคิดว่าเราจะมาดูกันว่ามันมีประสิทธิภาพแค่ไหนในอีกไม่กี่เดือนข้างหน้า

ตอนนี้…เมื่อคุณมีข้อมูลที่สะอาดสวยงามนี้ในตอนท้ายของสิ่งนี้ “ไปป์ไลน์,” จากนั้นคุณจะต้อง รูป อีกครั้งเพื่อเตรียมพร้อมสำหรับ “การอบรม” นางแบบ

ขั้นตอนสุดท้ายนี้คือส่วนที่หน่วยประมวลผลกราฟิก (GPU) เข้ามามีบทบาท และเป็นสิ่งที่คนส่วนใหญ่นึกถึงเมื่อได้ยินเกี่ยวกับการสร้างโมเดลภาษา สิ่งอื่น ๆ ทั้งหมดที่ฉันพูดถึงโดยทั่วไปจะถูกละเว้น

ขั้นตอนการยืดที่บ้านนี้เกี่ยวข้องกับการฝึกอบรมชุดของแบบจำลอง และการเล่นกับพารามิเตอร์ การผสมข้อมูล ควอนตัมของข้อมูล ประเภทของแบบจำลอง ฯลฯ สิ่งนี้อาจมีราคาแพงอย่างรวดเร็ว ดังนั้นคุณควรมีข้อมูลที่ดีเป็นที่สุดและคุณ ดีกว่าเริ่มต้นด้วยโมเดลขนาดเล็กและสร้างแนวทางของคุณ

ทั้งหมดเป็นการทดลอง และสิ่งที่คุณได้รับจากอีกด้านคือ... ผลลัพธ์…

เป็นเรื่องที่เหลือเชื่อที่มนุษย์เราคิดขึ้น ถึงอย่างไร…

ที่ Spirit of Satoshi ผลลัพธ์ของเรายังอยู่ในระหว่างการสร้าง และเรากำลังดำเนินการในสองสามวิธี:

  1. เราขอให้อาสาสมัครช่วยเรารวบรวมและดูแลจัดการข้อมูลที่เกี่ยวข้องมากที่สุดสำหรับแบบจำลอง เรากำลังทำสิ่งนั้นที่ พื้นที่เก็บข้อมูลนากาโมโตะ นี่คือพื้นที่เก็บข้อมูลของหนังสือ บทความ บทความ บล็อก วิดีโอ YouTube และพอดแคสต์ทุกเล่มเกี่ยวกับและเกี่ยวข้องกับ Bitcoin และอุปกรณ์ต่อพ่วงเช่นผลงานของ Friedrich Nietzsche, Oswald Spengler, Jordan Peterson, Hans-Hermann Hoppe, Murray Rothbard, Carl Jung, พระคัมภีร์ ฯลฯ

    คุณสามารถค้นหาอะไรก็ได้ที่นั่นและเข้าถึง URL ไฟล์ข้อความหรือ PDF หากอาสาสมัครไม่พบบางสิ่งหรือรู้สึกว่าจำเป็นต้องรวมไว้ พวกเขาสามารถ "เพิ่ม" บันทึกได้ หากพวกเขาเพิ่มขยะ มันจะไม่ถูกยอมรับ อาสาสมัครจะส่งข้อมูลเป็นไฟล์ .txt พร้อมกับลิงก์

  2. สมาชิกชุมชนยังสามารถ ช่วยเราล้างข้อมูลและรับ sats ได้จริง. จำขั้นตอนมิชชันนารีที่ฉันพูดถึงได้ไหม? ก็เท่านี้เอง เรากำลังเปิดตัวกล่องเครื่องมือทั้งหมดซึ่งเป็นส่วนหนึ่งของกิจกรรมนี้ และผู้เข้าร่วมจะสามารถเล่น “FUD Buster” และ “การตอบกลับอันดับ” และอื่นๆ อีกมากมาย สำหรับตอนนี้ มันเหมือนกับประสบการณ์การเก็บ/ทิ้ง/แสดงความคิดเห็นในรูปแบบ Tinder บนอินเทอร์เฟซข้อมูลเพื่อล้างสิ่งที่อยู่ในไปป์ไลน์

    นี่เป็นวิธีสำหรับผู้ที่ใช้เวลาหลายปีในการเรียนรู้และทำความเข้าใจเกี่ยวกับ Bitcoin เพื่อเปลี่ยน "งาน" ให้เป็น sats ไม่ พวกเขาจะไม่รวยขึ้น แต่พวกเขาสามารถช่วยมีส่วนร่วมในบางสิ่งที่พวกเขาอาจเห็นว่าเป็นโครงการที่คู่ควร และหารายได้ระหว่างทาง

โปรแกรมความน่าจะเป็น ไม่ใช่ AI

ในบทความสองสามฉบับก่อนหน้านี้ ฉันได้แย้งว่า "ปัญญาประดิษฐ์" เป็นคำที่มีข้อบกพร่อง เพราะในขณะที่มัน is เทียมก็ ไม่ ฉลาด — และยิ่งกว่านั้น ความกลัวลามกอนาจารเกี่ยวกับปัญญาประดิษฐ์ทั่วไป (AGI) นั้นไม่มีมูลความจริงเลย เพราะแท้จริงแล้วไม่มีความเสี่ยงที่สิ่งนี้จะกลายเป็นความรู้สึกที่เกิดขึ้นเองตามธรรมชาติและฆ่าพวกเราทุกคน ไม่กี่เดือนต่อมา และฉันก็มั่นใจมากขึ้นในเรื่องนี้

ฉันนึกย้อนกลับไปถึงบทความที่ยอดเยี่ยมของ John Carter “ฉันเบื่อแล้วกับ Generative AI” และเขาก็ตรงมาก

ไม่มีอะไรวิเศษหรือฉลาดในเรื่องนั้นเกี่ยวกับ AI นี้ ยิ่งเราเล่นกับมันมากเท่าไหร่ เรายิ่งใช้เวลาสร้างมันเองมากขึ้นเท่านั้น เรายิ่งตระหนักว่าที่นี่ไม่มีความรู้สึก ไม่มีการคิดหรือเหตุผลที่แท้จริงเกิดขึ้น ไม่มีหน่วยงานใด. สิ่งเหล่านี้เป็นเพียง "โปรแกรมความน่าจะเป็น"

วิธีการติดป้ายกำกับและคำศัพท์ต่างๆ ไม่ว่าจะเป็น "AI" หรือ "เครื่องจักร การเรียนรู้” หรือ “ตัวแทน” คือที่ซึ่งความกลัว ความไม่แน่นอน และความสงสัยส่วนใหญ่แฝงอยู่

ฉลากเหล่านี้เป็นเพียงความพยายามที่จะอธิบายชุดของกระบวนการซึ่งไม่เหมือนกับสิ่งที่มนุษย์ทำ ปัญหาเกี่ยวกับภาษาคือเราเริ่มเปลี่ยนรูปร่างมนุษย์ทันทีเพื่อให้เข้าใจได้ และในขั้นตอนของการทำเช่นนั้น ผู้ชมหรือผู้ฟังเป็นผู้หายใจชีวิตให้กับสัตว์ประหลาดของแฟรงเกนสไตน์

AI ได้ ไม่ ชีวิตนอกเหนือไปจากสิ่งที่คุณมอบให้ด้วยจินตนาการของคุณเอง สิ่งนี้เหมือนกันมากกับภัยคุกคามทางจินตนาการและโลกาวินาศอื่น ๆ

(แทรกตัวอย่างเกี่ยวกับการเปลี่ยนแปลงสภาพภูมิอากาศ มนุษย์ต่างดาว หรืออะไรก็ตามที่กำลังเกิดขึ้นใน Twitter/X)

แน่นอนว่าสิ่งนี้มีประโยชน์มากสำหรับข้าราชการ globo-homo ที่ต้องการใช้เครื่องมือ/โปรแกรม/เครื่องดังกล่าวเพื่อวัตถุประสงค์ของตนเอง พวกเขาปั่นเรื่องราวและเรื่องเล่าตั้งแต่ก่อนที่พวกเขาจะเดินได้ และนี่เป็นเพียงการปั่นเรื่องล่าสุด และเนื่องจากคนส่วนใหญ่เป็นพวกชอบท่องศัพท์ และจะเชื่ออะไรก็ตามที่มีไอคิวพอยท์ฉลาดกว่าที่พวกเขาพูด พวกเขาจะใช้สิ่งนั้นให้เป็นประโยชน์

ฉันจำได้ว่าพูดถึงกฎระเบียบที่ตามมา ฉันสังเกตเห็นว่าเมื่อสัปดาห์ที่แล้วหรือสัปดาห์ก่อน ตอนนี้มี "หลักเกณฑ์อย่างเป็นทางการ" หรือบางอย่างในลักษณะเดียวกันสำหรับ AI กำเนิด ซึ่งได้รับความอนุเคราะห์จากเจ้าเหนือหัวข้าราชการของเรา สิ่งนี้หมายความว่าอย่างไรไม่มีใครรู้จริงๆ มันถูกปกปิดด้วยภาษาที่ไร้สาระแบบเดียวกับที่กฎข้อบังคับอื่น ๆ ทั้งหมดของพวกเขาเป็น ผลลัพธ์ที่ได้ก็คือ “เราเขียนกฎ เราได้ใช้เครื่องมือตามที่เราต้องการ คุณต้องใช้มันตามที่เราบอกคุณ มิฉะนั้น”

ส่วนที่ไร้สาระที่สุดคือผู้คนจำนวนมากเชียร์เรื่องนี้โดยคิดว่าพวกเขาปลอดภัยกว่าสัตว์ประหลาดในจินตนาการที่ไม่เคยเป็นมาก่อน ในความเป็นจริง พวกเขาอาจจะให้เครดิตเอเจนซี่เหล่านี้ว่า “ช่วยเราจาก AGI” เพราะมันไม่เคยเกิดขึ้นจริง

มันทำให้ฉันนึกถึงสิ่งนี้:

ภารกิจในการสร้างโมเดลภาษาที่ "อิง" มากขึ้น

เมื่อฉันโพสต์ภาพด้านบนบน Twitter จำนวนคนงี่เง่าที่ตอบด้วยความเชื่ออย่างแท้จริงว่าการหลีกเลี่ยงหายนะเหล่านี้เป็นผลมาจากการแทรกแซงของระบบราชการที่เพิ่มขึ้น บอกฉันทุกอย่างที่ฉันจำเป็นต้องรู้เกี่ยวกับระดับของข่าวกรองร่วมบนแพลตฟอร์มนั้น

อย่างไรก็ตาม เราอยู่ที่นี่ อีกครั้ง เรื่องเดิม ตัวละครใหม่

อนิจจา — มีอะไรเล็กน้อยที่เราสามารถทำได้นอกเหนือจากการมุ่งเน้นไปที่สิ่งของของเราเอง เราจะทำในสิ่งที่เราตั้งใจไว้ต่อไป

โดยทั่วไปแล้วฉันรู้สึกตื่นเต้นน้อยลงเกี่ยวกับ "GenAI" และรู้สึกว่าโฆษณาจำนวนมากเริ่มหมดไปเมื่อความสนใจของผู้คนเปลี่ยนไปที่เอเลี่ยนและการเมืองอีกครั้ง ฉันยังไม่ค่อยมั่นใจนักว่ามีบางสิ่งที่เปลี่ยนแปลงไปอย่างมากที่นี่ — อย่างน้อยก็ในระดับที่ฉันคิดไว้เมื่อหกเดือนก่อน บางทีฉันอาจได้รับการพิสูจน์ว่าคิดผิด ฉันคิดว่าเครื่องมือเหล่านี้มีศักยภาพที่ซ่อนเร้นและยังไม่ได้ใช้ แต่มันก็แค่แฝงอยู่

ฉันคิดว่าเราต้องเป็นจริงมากขึ้นเกี่ยวกับสิ่งที่พวกเขาเป็น (แทนที่จะเรียกว่าปัญญาประดิษฐ์ ให้เรียกว่า "โปรแกรมความน่าจะเป็น") และนั่นอาจหมายความว่าเราใช้เวลาและพลังงานน้อยลงไปกับความฝันของท่อ และมุ่งเน้นที่การสร้างแอปพลิเคชันที่มีประโยชน์มากขึ้น ในแง่นั้น ฉันยังคงสงสัยและมองโลกในแง่ดีอย่างระแวดระวังว่ามีบางสิ่งเกิดขึ้นจริง และเชื่อว่าที่ไหนสักแห่งในจุดเชื่อมต่อของ Bitcoin โปรแกรมความน่าจะเป็นและโปรโตคอลเช่น Nostr จะมีบางสิ่งที่มีประโยชน์มากปรากฏขึ้น

ฉันหวังว่าเราจะสามารถมีส่วนร่วมในสิ่งนั้นได้ และฉันก็ยินดีให้คุณมีส่วนร่วมด้วยหากคุณสนใจ ด้วยเหตุนี้ ฉันจะปล่อยให้คุณทำวันของคุณ และหวังว่านี่จะเป็นข้อมูลเชิงลึก 10 นาทีที่เป็นประโยชน์เกี่ยวกับสิ่งที่ต้องใช้ในการสร้างโมเดลภาษา

นี่คือแขกโพสต์โดย Aleksander Svetski ความคิดเห็นที่แสดงเป็นความคิดเห็นของตนเองทั้งหมดและไม่จำเป็นต้องสะท้อนความคิดเห็นของ BTC Inc หรือ Bitcoin Magazine

ประทับเวลา:

เพิ่มเติมจาก นิตยสาร Bitcoin