اپنا بٹ کوائن لینگویج ماڈل کیسے بنائیں

اپنا بٹ کوائن لینگویج ماڈل کیسے بنائیں

یہ "The Uncommunist Manifesto" کے مصنف اور Bitcoin پر مرکوز لینگویج ماڈل Spirit of Satoshi کے بانی، Aleksandar Svetski کا ایک رائے کا اداریہ ہے۔

زبان کے ماڈل تمام غصے میں ہیں، اور بہت سے لوگ صرف فاؤنڈیشن ماڈل لے رہے ہیں (اکثر ChatGPT یا اس سے ملتی جلتی کوئی چیز) اور پھر انہیں ایک ویکٹر ڈیٹا بیس سے جوڑ رہے ہیں تاکہ جب لوگ اپنے "ماڈل" سے کوئی سوال پوچھیں، تو یہ سیاق و سباق کے ساتھ جواب دیتا ہے۔ اس ویکٹر ڈیٹا بیس سے۔

کیا ہے ویکٹر ڈیٹا بیس? میں مستقبل کے مضمون میں اس کی مزید تفصیل سے وضاحت کروں گا، لیکن اسے سمجھنے کا ایک آسان طریقہ ڈیٹا کے ٹکڑوں کے طور پر ذخیرہ شدہ معلومات کے مجموعے کے طور پر ہے، جسے زبان کا ماڈل استفسار کر سکتا ہے اور بہتر جوابات پیدا کرنے کے لیے استعمال کر سکتا ہے۔ "دی بٹ کوائن اسٹینڈرڈ" کا تصور کریں، پیراگراف میں تقسیم، اور اس ویکٹر ڈیٹا بیس میں محفوظ ہے۔ آپ اس نئے "ماڈل" سے پیسے کی تاریخ کے بارے میں ایک سوال پوچھتے ہیں۔ بنیادی ماڈل درحقیقت ڈیٹا بیس سے استفسار کرے گا، سیاق و سباق کا سب سے زیادہ متعلقہ حصہ منتخب کرے گا ("دی بٹ کوائن سٹینڈرڈ" سے کچھ پیراگراف) اور پھر اسے بنیادی ماڈل کے پرامپٹ میں فیڈ کرے گا (بہت سے معاملات میں، ChatGPT)۔ اس کے بعد ماڈل کو مزید جواب دینا چاہئے۔ متعلقہ جواب یہ ٹھنڈا ہے، اور کچھ معاملات میں ٹھیک کام کرتا ہے، لیکن مرکزی دھارے کے شور اور تعصب کے بنیادی مسائل کو حل نہیں کرتا ہے جو بنیادی ماڈلز اپنی تربیت کے دوران ہوتے ہیں۔

یہ وہی ہے جو ہم ساتوشی کی روح میں کرنے کی کوشش کر رہے ہیں۔ ہم نے ایک ماڈل بنایا ہے جیسا کہ اوپر بیان کیا گیا ہے تقریباً چھ ماہ پہلے، جسے آپ آزما سکتے ہیں۔ یہاں. آپ دیکھیں گے کہ یہ کچھ جوابات کے ساتھ برا نہیں ہے لیکن یہ بات چیت نہیں کر سکتا، اور یہ واقعی خراب کارکردگی کا مظاہرہ کرتا ہے جب بات shitcoinery اور ایسی چیزوں کی ہو جو ایک حقیقی Bitcoiner کو معلوم ہوتی ہے۔

یہی وجہ ہے کہ ہم نے اپنا نقطہ نظر تبدیل کیا ہے اور شروع سے ہی ایک مکمل زبان کا ماڈل بنا رہے ہیں۔ اس مضمون میں، میں اس کے بارے میں تھوڑی سی بات کروں گا، تاکہ آپ کو اندازہ ہو سکے کہ اس میں کیا شامل ہے۔

ایک مزید 'بیسڈ' بٹ کوائن لینگویج ماڈل

مزید "بنیاد" زبان کے ماڈل کی تعمیر کا مشن جاری ہے۔ یہ اس سے کہیں زیادہ ملوث ثابت ہوا ہے جو میں نے سوچا تھا، نہ کہ ایک سے "تکنیکی طور پر پیچیدہ" نقطہ نظر، لیکن ایک سے زیادہ "لعنت یہ تکلیف دہ ہے" موقف

یہ سب ڈیٹا کے بارے میں ہے۔ اور اعداد و شمار کی مقدار نہیں، لیکن ڈیٹا کا معیار اور فارمیٹ۔ آپ نے شاید بیوقوفوں کو اس کے بارے میں بات کرتے ہوئے سنا ہوگا، اور آپ واقعی اس کی تعریف نہیں کرتے جب تک کہ آپ حقیقت میں کسی ماڈل کو چیزیں کھلانا شروع نہیں کرتے، اور آپ کو نتیجہ ملتا ہے… جو ضروری نہیں تھا کہ آپ کیا چاہتے تھے۔

ڈیٹا پائپ لائن وہ جگہ ہے جہاں تمام کام ہوتے ہیں۔ آپ کو کرنا پڑے جمع اور ورزش ڈیٹا، پھر آپ کو کرنا ہوگا نکالنے یہ. پھر آپ کو پروگرام کے مطابق کرنا ہوگا۔ صاف یہ (دستی طور پر پہلی بار صاف کرنا ناممکن ہے)۔

پھر آپ اس پروگرام کے لحاظ سے صاف، خام ڈیٹا لیں اور آپ کو کرنا پڑے گا۔ تبدیل یہ ایک سے زیادہ ڈیٹا میں فارمیٹ (سوال اور جواب کے جوڑے، یا لفظی طور پر مربوط حصوں اور پیراگراف کے بارے میں سوچیں)۔ یہ آپ کو پروگرام کے لحاظ سے بھی کرنے کی ضرورت ہے، اگر آپ بہت سارے ڈیٹا سے نمٹ رہے ہیں - جو کہ زبان کے ماڈل کا معاملہ ہے۔ کافی مضحکہ خیز، دوسری زبان کے ماڈل اس کام کے لیے اصل میں اچھے ہیں! آپ نئے زبان کے ماڈلز بنانے کے لیے زبان کے ماڈل استعمال کرتے ہیں۔

مزید "بنیاد" زبان کا ماڈل بنانے کے مشن پر۔

پھر، کیونکہ ممکنہ طور پر وہاں بہت سا ردی باقی رہ جائے گا، اور جو بھی زبان کے ماڈل سے آپ نے ڈیٹا کو پروگرامی طور پر تبدیل کرنے کے لیے استعمال کیا ہے اس سے پیدا ہونے والا غیر متعلقہ کوڑا ہے، اس لیے آپ کو مزید کام کرنے کی ضرورت ہے۔ صاف.

یہ وہ جگہ ہے جہاں آپ کو انسانی مدد حاصل کرنے کی ضرورت ہے، کیونکہ اس مرحلے پر، ایسا لگتا ہے کہ انسان اب بھی کرہ ارض پر واحد مخلوق ہے جس میں فرق کرنے اور تعین کرنے کے لیے ضروری ایجنسی ہے۔ معیار. الگورتھم اس طرح کا کام کر سکتے ہیں، لیکن ابھی تک زبان کے ساتھ اتنا اچھا نہیں ہے - خاص طور پر زیادہ اہم، تقابلی سیاق و سباق میں - یہ وہ جگہ ہے جہاں Bitcoin بالکل بیٹھتا ہے۔

کسی بھی صورت میں، پیمانے پر یہ کرنا ناقابل یقین حد تک مشکل ہے جب تک کہ آپ کے پاس آپ کی مدد کے لیے لوگوں کی فوج نہ ہو۔ لوگوں کی وہ فوج کرائے کے سپاہی ہو سکتی ہے جس کی ادائیگی کسی کے ذریعے ہو سکتی ہے، جیسے OpenAI جو خدا سے زیادہ پیسہ ہے، یا وہ مشنری ہو سکتے ہیں، جو کہ بٹ کوائن کمیونٹی عام طور پر ہوتی ہے (ہم اسپرٹ آف ساتوشی میں اس کے لیے بہت خوش قسمت اور شکر گزار ہیں)۔ افراد ڈیٹا آئٹمز سے گزرتے ہیں اور ایک ایک کرکے منتخب کرتے ہیں کہ آیا ڈیٹا کو رکھنا، ضائع کرنا یا اس میں ترمیم کرنا ہے۔

ایک بار جب ڈیٹا اس عمل سے گزرتا ہے، تو آپ دوسرے سرے پر کچھ صاف کرتے ہیں۔ یقینا، یہاں مزید پیچیدگیاں شامل ہیں۔ مثال کے طور پر، آپ کو اس بات کو یقینی بنانا ہوگا کہ برے اداکار جو آپ کی صفائی کے عمل کو خراب کرنے کی کوشش کر رہے ہیں ان کو ختم کر دیا گیا ہے، یا ان کی معلومات کو ضائع کر دیا گیا ہے۔ آپ اسے کئی طریقوں سے کر سکتے ہیں، اور ہر کوئی اسے تھوڑا مختلف طریقے سے کرتا ہے۔ آپ راستے میں لوگوں کی اسکریننگ کر سکتے ہیں، آپ کسی قسم کا اندرونی کلین اپ متفقہ ماڈل بنا سکتے ہیں تاکہ ڈیٹا آئٹمز کو رکھنے یا ضائع کرنے کے لیے حدوں کو پورا کیا جائے۔ اسپرٹ آف ساتوشی میں، ہم ایک مرکب کر رہے ہیں۔ دونوں میں سے، اور میرا اندازہ ہے کہ ہم دیکھیں گے کہ آنے والے مہینوں میں یہ کتنا موثر ہے۔

اب… ایک بار جب آپ کو یہ خوبصورت صاف ڈیٹا مل جائے تو اس کے آخر میںپائپ لائن،"پھر آپ کو ضرورت ہے فارمیٹ اس کی تیاری میں ایک بار پھرتربیت"ایک ماڈل.

یہ آخری مرحلہ وہ ہے جہاں گرافیکل پروسیسنگ یونٹس (GPUs) کام میں آتے ہیں، اور واقعی وہی ہے جو زیادہ تر لوگ زبان کے ماڈل بنانے کے بارے میں سنتے ہی سوچتے ہیں۔ دوسری تمام چیزیں جن کا میں نے احاطہ کیا ہے عام طور پر نظر انداز کر دیا جاتا ہے۔

اس ہوم اسٹریچ اسٹیج میں ماڈلز کی ایک سیریز کی تربیت، اور پیرامیٹرز، ڈیٹا بلینڈز، ڈیٹا کی مقدار، ماڈل کی اقسام وغیرہ کے ساتھ کھیلنا شامل ہے۔ یہ بہت جلد مہنگا پڑ سکتا ہے، اس لیے آپ کے پاس بہت اچھا ڈیٹا ہے اور آپ' چھوٹے ماڈل کے ساتھ شروع کرنے اور اپنا راستہ بنانے سے بہتر ہے۔

یہ سب تجرباتی ہے، اور جو آپ دوسرے سرے سے حاصل کرتے ہیں وہ ہے… ایک نتیجہ…

یہ ناقابل یقین چیزیں ہیں جن کو ہم انسان بنا لیتے ہیں۔ بہرحال…

اسپرٹ آف ساتوشی میں، ہمارا نتیجہ ابھی تک تیار ہے، اور ہم اس پر کچھ طریقوں سے کام کر رہے ہیں:

  1. ہم رضاکاروں سے کہتے ہیں کہ وہ ماڈل کے لیے انتہائی متعلقہ ڈیٹا اکٹھا کرنے اور درست کرنے میں ہماری مدد کریں۔ ہم اس پر کر رہے ہیں۔ ناکاموٹو ذخیرہ۔ یہ بٹ کوائن کے بارے میں اور اس سے متعلق ہر کتاب، مضمون، مضمون، بلاگ، یوٹیوب ویڈیو اور پوڈ کاسٹ کا ذخیرہ ہے، اور فریڈرک نِٹشے، اوسوالڈ اسپینگلر، جورڈن پیٹرسن، ہنس-ہرمن ہوپ، مرے روتھبارڈ، کارل جنگ، کے کاموں کا ذخیرہ ہے۔ بائبل، وغیرہ

    آپ وہاں کچھ بھی تلاش کر سکتے ہیں اور یو آر ایل، ٹیکسٹ فائل یا پی ڈی ایف تک رسائی حاصل کر سکتے ہیں۔ اگر کوئی رضاکار کوئی چیز نہیں ڈھونڈ سکتا، یا محسوس کرتا ہے کہ اسے شامل کرنے کی ضرورت ہے، تو وہ ایک ریکارڈ "شامل" کر سکتے ہیں۔ اگر وہ ردی شامل کرتے ہیں، تو اسے قبول نہیں کیا جائے گا۔ مثالی طور پر، رضاکار ایک لنک کے ساتھ ڈیٹا کو .txt فائل کے طور پر جمع کرائیں گے۔

  2. کمیونٹی ممبران بھی کر سکتے ہیں۔ درحقیقت ڈیٹا صاف کرنے اور سیٹس حاصل کرنے میں ہماری مدد کریں۔. وہ مشنری مرحلہ یاد ہے جس کا میں نے ذکر کیا تھا؟ خیر یہ بات ہے۔ ہم اس کے حصے کے طور پر ایک مکمل ٹول باکس تیار کر رہے ہیں، اور شرکاء "FUD بسٹر" اور "رینک جوابات" اور ہر طرح کی دوسری چیزیں کھیل سکیں گے۔ ابھی کے لیے، یہ پائپ لائن میں موجود چیزوں کو صاف کرنے کے لیے ڈیٹا انٹرفیس پر Tinder-esque Keep/Discard/تبصرے کے تجربے کی طرح ہے۔

    یہ ان لوگوں کے لیے ایک طریقہ ہے جنہوں نے بٹ کوائن کے بارے میں سیکھنے اور سمجھنے میں برسوں گزارے ہیں تاکہ اس "کام" کو سیٹ میں تبدیل کر سکیں۔ نہیں۔

امکانی پروگرام، AI نہیں۔

کچھ پچھلے مضامین میں، میں نے دلیل دی ہے کہ "مصنوعی ذہانت" ایک ناقص اصطلاح ہے، کیونکہ جب یہ is مصنوعی، یہ ہے نوٹ ذہین - اور اس کے علاوہ، مصنوعی جنرل انٹیلی جنس (AGI) کے ارد گرد خوف فحش مکمل طور پر بے بنیاد ہے کیونکہ اس چیز کے بے ساختہ جذباتی ہونے اور ہم سب کو ہلاک کرنے کا لفظی طور پر کوئی خطرہ نہیں ہے۔ چند ماہ بعد اور میں اس سے بھی زیادہ قائل ہوں۔

میں جان کارٹر کے بہترین مضمون پر واپس سوچتا ہوں۔ "میں پہلے ہی جنریٹو اے آئی سے بور ہو چکا ہوں" اور وہ بہت جگہ پر تھا.

اس AI چیزوں میں سے کسی کے بارے میں واقعی کوئی جادوئی، یا اس معاملے میں ذہین نہیں ہے۔ جتنا زیادہ ہم اس کے ساتھ کھیلتے ہیں، اتنا ہی زیادہ وقت ہم اپنی تعمیر میں صرف کرتے ہیں، اتنا ہی ہمیں احساس ہوتا ہے کہ یہاں کوئی جذبات نہیں ہے۔ کوئی حقیقی سوچ یا استدلال نہیں ہو رہا ہے۔ کوئی ایجنسی نہیں ہے۔. یہ صرف "امکانی پروگرام" ہیں۔

جس طرح سے ان پر لیبل لگایا جاتا ہے، اور ان کے ارد گرد پھینکی گئی اصطلاحات، چاہے وہ "AI" ہو یا "مشین" سیکھنے"یا "ایجنٹ" دراصل وہ جگہ ہے جہاں زیادہ تر خوف، بے یقینی اور شک ہے۔

یہ لیبل صرف عمل کے ایک سیٹ کو بیان کرنے کی ایک کوشش ہیں، جو واقعی کسی بھی چیز کے برعکس ہیں جو انسان کرتا ہے۔ زبان کے ساتھ مسئلہ یہ ہے کہ ہم اس کا احساس دلانے کے لیے اسے فوری طور پر انسانی شکل دینا شروع کر دیتے ہیں۔ اور ایسا کرنے کے عمل میں، یہ سامعین یا سامعین ہیں جو فرینکنسٹائن کے عفریت میں زندگی کا سانس لیتے ہیں۔

AI کے پاس ہے۔ نہیں زندگی اس کے علاوہ جو آپ اسے اپنی تخیل سے دیتے ہیں۔ یہ کسی بھی دوسرے خیالی، eschatological خطرے کے ساتھ بہت یکساں ہے۔

(آب و ہوا کی تبدیلی، غیر ملکی یا ٹویٹر/X پر جو کچھ ہو رہا ہے اس کے ارد گرد مثالیں داخل کریں۔)

بلاشبہ یہ ان گلوبو ہومو بیوروکریٹس کے لیے بہت مفید ہے جو اپنے مقاصد کے لیے ایسے کسی بھی ٹول/پروگرام/مشین کو استعمال کرنا چاہتے ہیں۔ وہ چلنے سے پہلے ہی کہانیاں اور حکایتیں گھما رہے ہیں، اور یہ گھومنے کے لیے صرف تازہ ترین ہے۔ اور چونکہ زیادہ تر لوگ لیمنگ ہوتے ہیں اور جو کوئی ان کے مقابلے میں چند IQ پوائنٹس زیادہ ہوشیار لگتا ہے اس پر یقین کریں گے، وہ اسے اپنے فائدے کے لیے استعمال کریں گے۔

مجھے پائپ لائن کے نیچے آنے والے ریگولیشن کے بارے میں بات کرنا یاد ہے۔ میں نے دیکھا کہ پچھلے ہفتے یا اس سے ایک ہفتہ پہلے، اب "آفیشل گائیڈ لائنز" یا تخلیقی AI کے لیے کچھ ایسا ہی ہے - بشکریہ ہمارے بیوروکریٹک بالادست۔ اس کا کیا مطلب ہے، کوئی بھی نہیں جانتا۔ یہ اسی بے ہودہ زبان میں نقاب پوش ہے جو ان کے تمام دیگر ضوابط ہیں۔ خالص نتیجہ یہ ہے کہ، ایک بار پھر، "ہم اصول لکھتے ہیں، ہمیں ٹولز کا استعمال اس طرح کرنا پڑتا ہے جس طرح ہم چاہتے ہیں، آپ کو اسے اسی طرح استعمال کرنا چاہیے جس طرح ہم آپ کو بتاتے ہیں، ورنہ۔"

سب سے مضحکہ خیز حصہ یہ ہے کہ لوگوں کے ایک گروپ نے اس کے بارے میں خوشی کا اظہار کیا، یہ سوچ کر کہ وہ اس خیالی عفریت سے کسی طرح محفوظ ہیں جو کبھی نہیں تھا۔ درحقیقت، وہ شاید ان ایجنسیوں کو "ہمیں AGI سے بچانے" کا سہرا دیں گے کیونکہ یہ کبھی عملی نہیں ہوا۔

یہ مجھے اس کی یاد دلاتا ہے:

مزید "بنیاد" زبان کا ماڈل بنانے کے مشن پر۔

جب میں نے اوپر کی تصویر ٹویٹر پر پوسٹ کی تو بیوقوفوں کی تعداد جنہوں نے حقیقی یقین کے ساتھ جواب دیا کہ ان تباہیوں سے بچنا بیوروکریٹک مداخلت کا نتیجہ ہے، مجھے وہ سب کچھ بتایا جو مجھے اس پلیٹ فارم پر اجتماعی ذہانت کی سطح کے بارے میں جاننے کی ضرورت ہے۔

بہر حال، ہم یہاں ہیں۔ ایک بار پھر. وہی کہانی، نئے کردار۔

افسوس - اپنی چیزوں پر توجہ مرکوز کرنے کے علاوہ ہم اس کے بارے میں بہت کم کر سکتے ہیں۔ ہم وہ کام جاری رکھیں گے جو ہم نے کرنا تھا۔

میں عام طور پر "GenAI" کے بارے میں کم پرجوش ہو گیا ہوں، اور مجھے یہ احساس ہوتا ہے کہ لوگوں کی توجہ دوبارہ غیر ملکیوں اور سیاست کی طرف مبذول ہونے کے ساتھ ہی بہت ساری ہائپ ختم ہو رہی ہے۔ میں اس بات پر بھی کم قائل ہوں کہ یہاں کافی حد تک تبدیلی لانے والی چیز ہے - کم از کم اس حد تک جو میں نے چھ مہینے پہلے سوچا تھا۔ شاید میں غلط ثابت ہو جاؤں گا۔ مجھے لگتا ہے کہ ان ٹولز میں پوشیدہ، غیر استعمال شدہ صلاحیت ہے، لیکن یہ صرف اتنا ہے: اویکت۔

مجھے لگتا ہے کہ ہمیں اس بارے میں زیادہ حقیقت پسندانہ ہونا پڑے گا کہ وہ کیا ہیں۔ (مصنوعی ذہانت کے بجائے، انہیں "امکانی پروگرام" کہنا بہتر ہے) اور اس کا اصل مطلب یہ ہو سکتا ہے کہ ہم پائپ خوابوں پر کم وقت اور توانائی صرف کرتے ہیں اور مفید ایپلی کیشنز بنانے پر زیادہ توجہ مرکوز کرتے ہیں۔ اس لحاظ سے، میں متجسس اور محتاط طور پر پرامید رہتا ہوں کہ کچھ نہ کچھ حقیقت بنتا ہے، اور یقین رکھتا ہوں کہ Bitcoin کے گٹھ جوڑ میں، امکانی پروگرام اور پروٹوکول جیسے Nostr، کچھ بہت مفید چیز سامنے آئے گی۔

مجھے امید ہے کہ ہم اس میں حصہ لے سکتے ہیں، اور اگر آپ دلچسپی رکھتے ہیں تو میں آپ کے لیے بھی اس میں حصہ لینا پسند کروں گا۔ اس مقصد کے لیے، میں آپ سب کو آپ کے دن تک چھوڑ دوں گا، اور امید کرتا ہوں کہ یہ 10 منٹ کی مفید بصیرت تھی کہ زبان کا ماڈل بنانے میں کیا ضرورت ہے۔

یہ Aleksander Svetski کی ایک مہمان پوسٹ ہے۔ بیان کردہ آراء مکمل طور پر ان کی اپنی ہیں اور ضروری نہیں کہ وہ BTC Inc یا Bitcoin میگزین کی عکاسی کریں۔

ٹائم اسٹیمپ:

سے زیادہ بکٹکو میگزین