كيف تبني نموذج لغة البيتكوين الخاص بك

كيف تبني نموذج لغة البيتكوين الخاص بك

هذه مقالة افتتاحية بقلم ألكسندر سفيتسكي ، مؤلف "The UnCommunist Manifesto" ومؤسس نموذج اللغة الذي يركز على Bitcoin Spirit of Satoshi.

نماذج اللغة شائعة ، وكثير من الناس يأخذون فقط نماذج الأساس (غالبًا ChatGPT أو شيء مشابه) ثم يربطونها بقاعدة بيانات متجهية بحيث عندما يسأل الأشخاص "نموذجهم" سؤالًا ، فإنه يستجيب للإجابة بالسياق من قاعدة بيانات المتجهات هذه.

ما هو قاعدة بيانات المتجهات؟ سأشرح ذلك بمزيد من التفصيل في مقالة مستقبلية، ولكن الطريقة البسيطة لفهمها هي أنها عبارة عن مجموعة من المعلومات المخزنة كأجزاء من البيانات، والتي يمكن لنموذج اللغة الاستعلام عنها واستخدامها لإنتاج استجابات أفضل. تخيل "معيار البيتكوين"، مقسمًا إلى فقرات، ومخزنًا في قاعدة البيانات المتجهة هذه. أنت تطرح على هذا "النموذج" الجديد سؤالاً حول تاريخ المال. سيقوم النموذج الأساسي فعليًا بالاستعلام عن قاعدة البيانات، واختيار الجزء الأكثر صلة بالسياق (بعض الفقرات من "معيار Bitcoin") ثم إدخاله في موجه النموذج الأساسي (في كثير من الحالات، ChatGPT). يجب أن يستجيب النموذج بعد ذلك بالمزيد ذات الصلة إجابة. هذا رائع ، ويعمل بشكل جيد في بعض الحالات ، لكنه لا يحل المشكلات الأساسية للضوضاء السائدة والتحيز التي تخضع لها النماذج الأساسية أثناء تدريبها.

هذا ما نحاول القيام به في روح ساتوشي. لقد قمنا ببناء نموذج مثل ما تم وصفه أعلاه منذ حوالي ستة أشهر، والذي يمكنك تجربته هنا. ستلاحظ أن الأمر ليس سيئًا مع بعض الإجابات، لكنه لا يمكنه إجراء محادثة، وأداءه ضعيف حقًا عندما يتعلق الأمر بالعملات الهراء والأشياء التي قد يعرفها مستخدم البيتكوين الحقيقي.

لهذا السبب قمنا بتغيير نهجنا وبناء نموذج لغة كامل من البداية. في هذا المقال ، سأتحدث قليلاً عن ذلك ، لأعطيك فكرة عما يستلزمه.

نموذج لغة بيتكوين أكثر "استنادًا إلى"

تستمر مهمة بناء نموذج لغوي أكثر "قائم على أساس". لقد ثبت أنه أكثر مشاركة مما كنت أتخيله ، وليس من a "معقدة تقنيًا" من وجهة نظر ، ولكن أكثر من أ "لعنة هذا ممل" وجهة نظر.

الأمر كله يتعلق بالبيانات. وليس كمية البيانات ، بل نوعية البيانات وشكلها. من المحتمل أنك سمعت مهووسين يتحدثون عن هذا ، وأنت لا تقدر ذلك حقًا حتى تبدأ في تغذية الأشياء إلى نموذج ، وتحصل على نتيجة ... والتي لم تكن بالضرورة ما تريده.

خط أنابيب البيانات هو المكان الذي يوجد فيه كل العمل. عليك أن جمع و قسيس البيانات ، ثم عليك استخراج هو - هي. ثم عليك برمجيا نظيف (من المستحيل إجراء تنظيف يدوي لأول مرة).

ثم تأخذ هذه البيانات الأولية التي تم تنظيفها برمجيًا وعليك القيام بذلك تحول إلى بيانات متعددة صيغ (فكر في أزواج الأسئلة والأجوبة ، أو الأجزاء والفقرات المترابطة لغويًا). هذا ما عليك القيام به برمجيًا ، إذا كنت تتعامل مع الكثير من البيانات - وهذا هو الحال بالنسبة لنموذج اللغة. من المضحك أن نماذج اللغات الأخرى جيدة بالفعل لهذه المهمة! أنت تستخدم نماذج اللغة لبناء نماذج لغة جديدة.

في مهمة بناء نموذج لغوي أكثر "استنادًا".

ثم، لأنه من المحتمل أن يكون هناك الكثير من القمامة المتبقية هناك ، والقمامة غير ذات الصلة الناتجة عن أي نموذج لغة استخدمته لتحويل البيانات برمجيًا ، فأنت بحاجة إلى القيام بمزيد من التركيز نظيف.

هذه هو المكان الذي تحتاج فيه إلى الحصول على مساعدة بشرية ، لأنه في هذه المرحلة ، يبدو أن البشر لا يزالون هم المخلوقات الوحيدة على هذا الكوكب مع الوكالة اللازمة للتمييز وتحديد جودة. يمكن للخوارزميات القيام بذلك نوعًا ما ، ولكن ليس جيدًا مع اللغة حتى الآن - خاصة في السياقات المقارنة الأكثر دقة - وهو المكان الذي يجلس فيه البيتكوين بشكل مباشر.

على أية حال، فإن القيام بذلك على نطاق واسع أمر صعب للغاية ما لم يكن لديك جيش من الأشخاص لمساعدتك. يمكن أن يكون هذا الجيش من الأشخاص مرتزقة يدفع لهم شخص ما، مثل OpenAI لديه مال أكثر من الله، أو يمكن أن يكونوا مبشرين، وهو ما يمثله مجتمع Bitcoin عمومًا (نحن محظوظون جدًا وممتنون لذلك في Spirit of Satoshi). يمر الأفراد عبر عناصر البيانات ويختارون واحدًا تلو الآخر ما إذا كانوا يريدون الاحتفاظ بالبيانات أو تجاهلها أو تعديلها.

بمجرد أن تمر البيانات بهذه العملية ، ينتهي بك الأمر بشيء نظيف على الطرف الآخر. بالطبع ، هناك المزيد من التعقيدات المتضمنة هنا. على سبيل المثال ، تحتاج إلى التأكد من التخلص من الجهات الفاعلة السيئة التي تحاول إفساد عملية التنظيف أو تجاهل مدخلاتها. يمكنك فعل ذلك بسلسلة من الطرق ، وكل شخص يفعل ذلك بطريقة مختلفة قليلاً. يمكنك فحص الأشخاص في الطريق ، ويمكنك بناء نوع من نموذج إجماع للتنظيف الداخلي بحيث يجب الوفاء بالحدود حتى يتم الاحتفاظ بعناصر البيانات أو التخلص منها ، وما إلى ذلك. في Spirit of Satoshi ، نقوم بعمل مزيج كلاهما ، وأعتقد أننا سنرى مدى فعاليته في الأشهر المقبلة.

الآن ... بمجرد حصولك على هذه البيانات النظيفة الجميلة في نهاية هذا "خط انابيب،ثم تحتاج إلى شكل مرة أخرى استعدادًا لـ "السلامه اولا" عارضة.

هذه المرحلة الأخيرة هي المكان الذي تلعب فيه وحدات المعالجة الرسومية (GPU) ، وهي حقًا ما يفكر فيه معظم الناس عندما يسمعون عن بناء نماذج لغوية. يتم تجاهل جميع الأشياء الأخرى التي غطيتها بشكل عام.

تتضمن مرحلة التمديد المنزلي هذه تدريب سلسلة من النماذج ، واللعب بالمعلمات ، ومزيج البيانات ، وكمية البيانات ، وأنواع النماذج ، وما إلى ذلك. يمكن أن يصبح هذا مكلفًا بسرعة ، لذلك من الأفضل أن يكون لديك بعض البيانات الجيدة واللعنة من الأفضل البدء بنماذج أصغر وبناء طريقك.

كل شيء تجريبي ، وما تحصل عليه من الطرف الآخر هو ... نتيجة…

إنه أمر لا يصدق الأشياء التي نستحضرها نحن البشر. على أي حال…

في Spirit of Satoshi ، لا تزال نتيجتنا في طور الإعداد ، ونعمل عليها بطريقتين:

  1. نطلب من المتطوعين مساعدتنا في جمع وتنظيم البيانات الأكثر صلة بالنموذج. نحن نفعل ذلك في مستودع ناكاموتو. هذا مستودع لكل كتاب، ومقالة، ومقالة، ومدونة، ومقاطع فيديو على اليوتيوب، وبودكاست حول أو تتعلق بالبيتكوين، والأجهزة الطرفية مثل أعمال فريدريش نيتشه، وأوزوالد شبنغلر، وجوردان بيترسون، وهانز هيرمان هوب، وموراي روثبارد، وكارل يونغ، الكتاب المقدس، الخ.

    يمكنك البحث عن أي شيء هناك والوصول إلى عنوان URL أو ملف نصي أو PDF. إذا لم يتمكن أحد المتطوعين من العثور على شيء ما ، أو شعر أنه بحاجة إلى تضمينه ، فيمكنه "إضافة" سجل. إذا قاموا بإضافة بريد غير هام ، فلن يتم قبوله. من الناحية المثالية ، سيرسل المتطوعون البيانات كملف .txt مع ارتباط.

  2. يمكن لأعضاء المجتمع أيضا ساعدنا فعليًا في تنظيف البيانات وكسب الشهادات. هل تذكرون تلك المرحلة التبشيرية التي ذكرتها؟ حسنا هذا هو. نحن نطرح مجموعة أدوات كاملة كجزء من هذا، وسيتمكن المشاركون من لعب "FUD Buster" و"ردود التصنيف" وجميع أنواع الأشياء الأخرى. في الوقت الحالي، يشبه الأمر تجربة الاحتفاظ/التجاهل/التعليق على Tinder على واجهة البيانات لتنظيف ما هو موجود في المسار.

    هذه طريقة للأشخاص الذين أمضوا سنوات في التعلم وفهم البيتكوين لتحويل هذا "العمل" إلى ساتس. لا ، لن يصبحوا أثرياء ، لكن يمكنهم المساهمة في شيء قد يعتبرونه مشروعًا جديرًا ، ويكسبون شيئًا على طول الطريق.

برامج الاحتمالات وليس الذكاء الاصطناعي

في عدد قليل من المقالات السابقة ، جادلت بأن "الذكاء الاصطناعي" مصطلح معيب ، لأنه بينما هو is إنه مصطنع ليس ذكي - وعلاوة على ذلك ، فإن الخوف من الإباحية المحيطة بالذكاء الاصطناعي العام (AGI) لا أساس له من الصحة تمامًا لأنه لا يوجد حرفيًا أي خطر من أن يصبح هذا الشيء حساسًا تلقائيًا ويقتلنا جميعًا. بعد بضعة أشهر وأنا مقتنع أكثر بهذا الأمر.

أعود بذاكرتي إلى مقالة جون كارتر الممتازة "أشعر بالملل بالفعل من الذكاء الاصطناعي التوليدي" وكان على الفور.

لا يوجد حقًا شيء سحري أو ذكي في هذا الشأن ، حول أي من عناصر الذكاء الاصطناعي هذه. كلما لعبنا بها ، كلما أمضينا وقتًا أكثر في بناء منطقتنا ، كلما أدركنا أنه لا يوجد إحساس هنا. لا يوجد تفكير أو تفكير فعلي يحدث. لا توجد وكالة. هذه مجرد "برامج احتمالية".

الطريقة التي يتم تسميتها بها ، والمصطلحات التي يتم طرحها ، سواء كانت "AI" أو "آلة تعلم"أو" العملاء "، هو في الواقع حيث يكمن معظم الخوف وعدم اليقين والشك.

هذه العلامات هي مجرد محاولة لوصف مجموعة من العمليات التي لا تشبه أي شيء يفعله الإنسان. تكمن مشكلة اللغة في أننا نبدأ فورًا في تجسيدها لفهمها. وأثناء القيام بذلك ، فإن الجمهور أو المستمع هو الذي يبث الحياة في وحش فرانكشتاين.

منظمة العفو الدولية لديها لا حياة غير ما تمنحه بخيالك. هذا هو نفسه إلى حد كبير مع أي تهديد خيالي آخر أخروى.

(أدخل أمثلة حول تغير المناخ أو الكائنات الفضائية أو أي شيء آخر يحدث على Twitter / X.)

هذا ، بالطبع ، مفيد جدًا للبيروقراطيين العالميين الذين يرغبون في استخدام أي أداة / برنامج / آلة لأغراضهم الخاصة. لقد قاموا بتدوير القصص والقصص منذ قبل أن يتمكنوا من المشي ، وهذا مجرد أحدث واحد يدور. ولأن معظم الناس قوارض وسيصدقون أي شخص يبدو أنه أكثر ذكاءً مما يقوله ، فإنهم سيستخدمون ذلك لمصلحتهم.

أتذكر الحديث عن التنظيم الذي ينزل على خط الأنابيب. لقد لاحظت أنه في الأسبوع الماضي أو الأسبوع الذي سبقه ، هناك الآن "إرشادات رسمية" أو شيء من هذا القبيل للذكاء الاصطناعي التوليدي - بإذن من أسيادنا البيروقراطيين. ماذا يعني هذا ، لا أحد يعرف حقًا. إنه مقنع بنفس اللغة غير المنطقية مثل جميع لوائحهم الأخرى. النتيجة النهائية هي ، مرة أخرى ، "نكتب القواعد ، ونستخدم الأدوات بالطريقة التي نريدها ، يجب أن تستخدمها بالطريقة التي نخبرك بها ، أو غير ذلك."

الجزء الأكثر سخافة هو أن مجموعة من الناس هتفوا لهذا الأمر ، معتقدين أنهم بطريقة ما أكثر أمانًا من الوحش الخيالي الذي لم يكن أبدًا. في الواقع ، من المحتمل أن ينسبوا الفضل إلى هذه الوكالات "لإنقاذنا من الذكاء الاصطناعي العام" لأنه لم يتحقق أبدًا.

يذكرني بهذا:

في مهمة بناء نموذج لغوي أكثر "استنادًا".

عندما نشرت الصورة أعلاه على Twitter ، أخبرني عدد الحمقى الذين استجابوا بإيمان حقيقي بأن تجنب هذه الكوارث كان نتيجة لزيادة التدخل البيروقراطي ، كل ما أحتاج لمعرفته حول مستوى الذكاء الجماعي على تلك المنصة.

ومع ذلك ، ها نحن ذا. مرة اخرى. نفس القصة ، شخصيات جديدة.

للأسف - ليس هناك الكثير مما يمكننا فعله حيال ذلك ، بخلاف التركيز على الأشياء الخاصة بنا. سنستمر في القيام بما قررنا القيام به.

لقد أصبحت أقل حماسة بشأن "GenAI" بشكل عام ، وشعرت أن الكثير من الضجيج يتلاشى مع انتقال انتباه الناس إلى الأجانب والسياسة مرة أخرى. أنا أيضًا أقل اقتناعًا بأن هناك شيئًا تحويليًا جوهريًا هنا - على الأقل إلى الدرجة التي اعتقدت قبل ستة أشهر. ربما أكون على خطأ. أعتقد أن هذه الأدوات لديها إمكانات كامنة وغير مستغلة ، لكنها مجرد: كامنة.

أعتقد أننا يجب أن نكون أكثر واقعية بشأن ما هم عليه (بدلاً من الذكاء الاصطناعي ، من الأفضل تسميتها "برامج الاحتمالات") وهذا قد يعني في الواقع أننا نقضي وقتًا وطاقة أقل في تحقيق الأحلام الزائفة والتركيز أكثر على بناء تطبيقات مفيدة. بهذا المعنى ، ما زلت أشعر بالفضول والتفاؤل بحذر بأن شيئًا ما قد تحقق بالفعل ، وأعتقد أنه في مكان ما في ارتباط البيتكوين ، ستظهر برامج وبروتوكولات الاحتمالات مثل Nostr ، شيء مفيد للغاية.

آمل أن نتمكن من المشاركة في ذلك ، وأود أن تشارك فيه أيضًا إذا كنت مهتمًا. تحقيقًا لهذه الغاية ، سأترككم جميعًا ليومكم ، وآمل أن تكون هذه نظرة ثاقبة مفيدة مدتها 10 دقائق حول ما يتطلبه بناء نموذج لغوي.

هذا منشور ضيف بواسطة ألكسندر سفيتسكي. الآراء المعبر عنها خاصة بها تمامًا ولا تعكس بالضرورة آراء BTC Inc أو Bitcoin Magazine.

الطابع الزمني:

اكثر من بيتكوين مجلة