नया सिद्धांत बताता है कि चैटबॉट टेक्स्ट को समझ सकते हैं | क्वांटा पत्रिका

नया सिद्धांत बताता है कि चैटबॉट टेक्स्ट को समझ सकते हैं | क्वांटा पत्रिका

नया सिद्धांत बताता है कि चैटबॉट टेक्स्ट को समझ सकते हैं | क्वांटा पत्रिका प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ.

परिचय

बार्ड और चैटजीपीटी जैसे चैटबॉट्स के साथ कृत्रिम बुद्धिमत्ता पहले से कहीं अधिक शक्तिशाली लगती है, जो अलौकिक मानवीय पाठ तैयार करने में सक्षम है। लेकिन अपनी सभी प्रतिभाओं के बावजूद, ये बॉट अभी भी शोधकर्ताओं को आश्चर्यचकित करते हैं: ऐसे मॉडल बनाएं वास्तव में समझते हैं वे क्या कह रहे हैं? एआई अग्रणी ने कहा, "स्पष्ट रूप से, कुछ लोग मानते हैं कि वे ऐसा करते हैं।" ज्योफ हिंटन में हालिया बातचीत एंड्रयू एनजी के साथ, "और कुछ लोगों का मानना ​​है कि वे सिर्फ स्टोकेस्टिक तोते हैं।"

यह विचारोत्तेजक वाक्यांश 2021 से आया है काग़ज़ द्वारा सह-लेखक एमिली बेंडरवाशिंगटन विश्वविद्यालय में एक कम्प्यूटेशनल भाषाविद्। यह सुझाव देता है कि बड़े भाषा मॉडल (एलएलएम) - जो आधुनिक चैटबॉट्स का आधार बनते हैं - केवल उन सूचनाओं को मिलाकर पाठ उत्पन्न करते हैं जो उन्होंने पहले ही देखी हैं "बिना किसी अर्थ के संदर्भ के", लेखकों ने लिखा है, जो एलएलएम को "एक स्टोकेस्टिक तोता" बनाता है।

ये मॉडल आज के कई सबसे बड़े और बेहतरीन चैटबॉट्स को शक्ति प्रदान करते हैं, इसलिए हिंटन ने तर्क दिया कि यह निर्धारित करने का समय है कि वे क्या समझते हैं। उनके लिए यह प्रश्न अकादमिक से कहीं अधिक है। उन्होंने एनजी से कहा, "जब तक हमारी राय में ये मतभेद हैं", "हम खतरों के बारे में आम सहमति पर पहुंचने में सक्षम नहीं होंगे।"

नए शोध में उत्तर की जानकारी हो सकती है। द्वारा विकसित एक सिद्धांत संजीव अरोड़ा प्रिंसटन विश्वविद्यालय और अनिरुद्ध गोयलगूगल डीपमाइंड के एक शोध वैज्ञानिक का सुझाव है कि आज के सबसे बड़े एलएलएम स्टोकेस्टिक तोते नहीं हैं। लेखकों का तर्क है कि जैसे-जैसे ये मॉडल बड़े होते जाते हैं और अधिक डेटा पर प्रशिक्षित होते जाते हैं, वे व्यक्तिगत भाषा-संबंधी क्षमताओं में सुधार करते हैं और कौशल को इस तरह से संयोजित करके नए विकसित करते हैं जो समझने का संकेत देते हैं - ऐसे संयोजन जो प्रशिक्षण डेटा में मौजूद होने की संभावना नहीं थी .

यह सैद्धांतिक दृष्टिकोण, जो एक एलएलएम कैसे और क्यों इतनी सारी क्षमताओं को विकसित कर सकता है, इसके लिए गणितीय रूप से सिद्ध तर्क प्रदान करता है, ने हिंटन और अन्य जैसे विशेषज्ञों को आश्वस्त किया है। और जब अरोड़ा और उनकी टीम ने इसकी कुछ भविष्यवाणियों का परीक्षण किया, तो उन्होंने पाया कि इन मॉडलों ने लगभग बिल्कुल उम्मीद के मुताबिक व्यवहार किया। सभी खातों से, उन्होंने एक मजबूत मामला बनाया है कि सबसे बड़े एलएलएम केवल वही नहीं दोहरा रहे हैं जो उन्होंने पहले देखा है।

"[वे] केवल प्रशिक्षण डेटा में जो देखा गया है उसकी नकल नहीं कर सकते," ने कहा सेबास्टियन ब्यूबेक, माइक्रोसॉफ्ट रिसर्च में एक गणितज्ञ और कंप्यूटर वैज्ञानिक जो काम का हिस्सा नहीं थे। "यही मूल अंतर्दृष्टि है।"

अधिक डेटा, अधिक शक्ति

के उद्भव अप्रत्याशित और विविध क्षमताएँ एलएलएम में, यह कहना उचित होगा, एक आश्चर्य के रूप में आया। ये क्षमताएं सिस्टम के निर्माण और प्रशिक्षण के तरीके का स्पष्ट परिणाम नहीं हैं। एलएलएम एक विशाल कृत्रिम तंत्रिका नेटवर्क है, जो व्यक्तिगत कृत्रिम न्यूरॉन्स को जोड़ता है। इन कनेक्शनों को मॉडल के पैरामीटर के रूप में जाना जाता है, और उनकी संख्या एलएलएम के आकार को दर्शाती है। प्रशिक्षण में एलएलएम को अंतिम शब्द अस्पष्ट होने के साथ एक वाक्य देना शामिल है, उदाहरण के लिए, "ईंधन की कीमत एक हाथ और एक ___ है।" एलएलएम अपनी संपूर्ण शब्दावली में संभाव्यता वितरण की भविष्यवाणी करता है, इसलिए यदि यह जानता है, मान लीजिए, एक हजार शब्द, तो यह एक हजार संभावनाओं की भविष्यवाणी करता है। फिर यह वाक्य को पूरा करने के लिए सबसे संभावित शब्द चुनता है - संभवतः, "पैर।"

प्रारंभ में, एलएलएम में शब्दों का चयन ख़राब हो सकता है। प्रशिक्षण एल्गोरिथ्म तब एक नुकसान की गणना करता है - कुछ उच्च-आयामी गणितीय स्थान में, एलएलएम के उत्तर और मूल वाक्य में वास्तविक शब्द के बीच की दूरी - और मापदंडों को बदलने के लिए इस नुकसान का उपयोग करता है। अब, उसी वाक्य को देखते हुए, एलएलएम बेहतर संभाव्यता वितरण की गणना करेगा और इसका नुकसान थोड़ा कम होगा। एल्गोरिथम प्रशिक्षण डेटा (संभवतः अरबों वाक्य) में प्रत्येक वाक्य के लिए ऐसा करता है, जब तक कि एलएलएम का समग्र नुकसान स्वीकार्य स्तर तक कम न हो जाए। इसी तरह की प्रक्रिया का उपयोग उन वाक्यों पर एलएलएम का परीक्षण करने के लिए किया जाता है जो प्रशिक्षण डेटा का हिस्सा नहीं थे।

एक प्रशिक्षित और परीक्षण किया गया एलएलएम, जब एक नए टेक्स्ट प्रॉम्प्ट के साथ प्रस्तुत किया जाता है, तो सबसे संभावित अगला शब्द उत्पन्न करेगा, इसे प्रॉम्प्ट में जोड़ देगा, एक और अगला शब्द उत्पन्न करेगा, और इस तरह से जारी रखेगा, एक प्रतीत होता है सुसंगत उत्तर देगा। प्रशिक्षण प्रक्रिया में ऐसा कुछ भी नहीं सुझाया गया है कि अधिक मापदंडों और प्रशिक्षण डेटा का उपयोग करके निर्मित बड़े एलएलएम को उन कार्यों में भी सुधार करना चाहिए जिनके उत्तर देने के लिए तर्क की आवश्यकता होती है।

लेकिन वे करते हैं. काफी बड़े एलएलएम क्षमताओं का प्रदर्शन करते हैं - प्रारंभिक गणित की समस्याओं को हल करने से लेकर दूसरों के दिमाग में चल रही गतिविधियों के बारे में सवालों के जवाब देने तक - जो कि छोटे मॉडलों में नहीं होती हैं, भले ही वे सभी समान तरीकों से प्रशिक्षित होते हैं।

"वह [क्षमता] कहां से आई?" अरोड़ा को आश्चर्य हुआ। "और क्या यह सिर्फ अगले शब्द की भविष्यवाणी से सामने आ सकता है?"

कौशल को पाठ से जोड़ना

अरोड़ा ने ऐसे सवालों का विश्लेषणात्मक उत्तर देने के लिए गोयल के साथ मिलकर काम किया। अरोड़ा ने कहा, "हम यह समझने के लिए एक सैद्धांतिक रूपरेखा तैयार करने की कोशिश कर रहे थे कि उद्भव कैसे होता है।"

दोनों ने गणितीय वस्तुओं की ओर रुख किया जिन्हें यादृच्छिक ग्राफ़ कहा जाता है। एक ग्राफ़ रेखाओं (या किनारों) से जुड़े बिंदुओं (या नोड्स) का एक संग्रह है, और एक यादृच्छिक ग्राफ़ में किन्हीं दो नोड्स के बीच एक किनारे की उपस्थिति यादृच्छिक रूप से तय होती है - मान लीजिए, एक सिक्का फ्लिप द्वारा। सिक्का पक्षपाती हो सकता है, ताकि यह कुछ संभावना के साथ शीर्ष पर आ जाए p. यदि सिक्का गांठों की दी गई जोड़ी के शीर्ष पर आता है, तो उन दो गांठों के बीच एक किनारा बनता है; अन्यथा वे असंबद्ध रहते हैं। के मूल्य के रूप में p परिवर्तन, ग्राफ़ उनके गुणों में अचानक परिवर्तन दिखा सकते हैं. उदाहरण के लिए, जब p एक निश्चित सीमा से अधिक होने पर, पृथक नोड्स - जो किसी अन्य नोड से जुड़े नहीं हैं - अचानक गायब हो जाते हैं।

अरोड़ा और गोयल ने महसूस किया कि यादृच्छिक ग्राफ, जो कुछ निश्चित सीमाओं को पूरा करने के बाद अप्रत्याशित व्यवहार को जन्म देते हैं, एलएलएम के व्यवहार को मॉडल करने का एक तरीका हो सकता है। तंत्रिका नेटवर्क का विश्लेषण करना लगभग बहुत जटिल हो गया है, लेकिन गणितज्ञ लंबे समय से यादृच्छिक ग्राफ़ का अध्ययन कर रहे हैं और उनका विश्लेषण करने के लिए विभिन्न उपकरण विकसित किए हैं। शायद यादृच्छिक ग्राफ सिद्धांत शोधकर्ताओं को बड़े एलएलएम के स्पष्ट रूप से अप्रत्याशित व्यवहार को समझने और भविष्यवाणी करने का एक तरीका दे सकता है।

शोधकर्ताओं ने "द्विपक्षीय" ग्राफ़ पर ध्यान केंद्रित करने का निर्णय लिया, जिसमें दो प्रकार के नोड होते हैं। उनके मॉडल में, एक प्रकार का नोड पाठ के टुकड़ों का प्रतिनिधित्व करता है - व्यक्तिगत शब्द नहीं बल्कि वे टुकड़े जो कुछ पृष्ठों तक लंबे पैराग्राफ हो सकते हैं। ये नोड्स एक सीधी रेखा में व्यवस्थित होते हैं। उनके नीचे, दूसरी पंक्ति में, नोड्स का दूसरा सेट है। ये किसी दिए गए पाठ को समझने के लिए आवश्यक कौशल का प्रतिनिधित्व करते हैं। प्रत्येक कौशल लगभग कुछ भी हो सकता है। शायद एक नोड एलएलएम की "क्योंकि" शब्द को समझने की क्षमता का प्रतिनिधित्व करता है, जिसमें कार्य-कारण की कुछ धारणा शामिल होती है; दूसरा दो संख्याओं को विभाजित करने में सक्षम होने का प्रतिनिधित्व कर सकता है; एक और विडंबना का पता लगाने की क्षमता का प्रतिनिधित्व कर सकता है। अरोड़ा ने कहा, "अगर आप समझते हैं कि पाठ का टुकड़ा व्यंग्यात्मक है, तो बहुत सी चीजें उलट जाती हैं।" "यह शब्दों की भविष्यवाणी करने के लिए प्रासंगिक है।"

स्पष्ट होने के लिए, एलएलएम को कौशल को ध्यान में रखकर प्रशिक्षित या परीक्षण नहीं किया जाता है; वे केवल अगले शब्द की भविष्यवाणी को बेहतर बनाने के लिए बनाए गए हैं। लेकिन अरोड़ा और गोयल एलएलएम को उन कौशलों के नजरिए से समझना चाहते थे जो किसी एक पाठ को समझने के लिए आवश्यक हो सकते हैं। एक कौशल नोड और एक पाठ नोड के बीच, या कई कौशल नोड्स और एक पाठ नोड के बीच संबंध का मतलब है कि एलएलएम को उस नोड में पाठ को समझने के लिए उन कौशल की आवश्यकता है। साथ ही, पाठ के कई टुकड़े एक ही कौशल या कौशल के सेट से लिए जा सकते हैं; उदाहरण के लिए, व्यंग्य को समझने की क्षमता का प्रतिनिधित्व करने वाले कौशल नोड्स का एक सेट कई पाठ नोड्स से जुड़ जाएगा जहां विडंबना होती है।

अब चुनौती इन द्विपक्षीय ग्राफ़ को वास्तविक एलएलएम से जोड़ने और यह देखने की थी कि क्या ग्राफ़ शक्तिशाली क्षमताओं के उद्भव के बारे में कुछ बता सकते हैं। लेकिन शोधकर्ता वास्तविक एलएलएम के प्रशिक्षण या परीक्षण के बारे में किसी भी जानकारी पर भरोसा नहीं कर सके - ओपनएआई या डीपमाइंड जैसी कंपनियां अपने प्रशिक्षण या परीक्षण डेटा को सार्वजनिक नहीं करती हैं। इसके अलावा, अरोड़ा और गोयल यह भविष्यवाणी करना चाहते थे कि एलएलएम कैसे व्यवहार करेंगे क्योंकि वे और भी बड़े हो जाएंगे, और आगामी चैटबॉट्स के लिए ऐसी कोई जानकारी उपलब्ध नहीं है। हालाँकि, एक महत्वपूर्ण जानकारी थी जिस तक शोधकर्ता पहुँच सकते थे।

2021 से, एलएलएम और अन्य तंत्रिका नेटवर्क के प्रदर्शन का अध्ययन करने वाले शोधकर्ताओं ने एक सार्वभौमिक विशेषता उभर कर देखी है। उन्होंने देखा कि जैसे-जैसे एक मॉडल बड़ा होता जाता है, चाहे आकार में या प्रशिक्षण डेटा की मात्रा में, परीक्षण डेटा पर इसका नुकसान (प्रशिक्षण के बाद नए पाठों पर अनुमानित और सही उत्तरों के बीच का अंतर) बहुत विशिष्ट तरीके से कम हो जाता है। इन अवलोकनों को तंत्रिका स्केलिंग कानून नामक समीकरणों में संहिताबद्ध किया गया है। इसलिए अरोड़ा और गोयल ने अपने सिद्धांत को किसी व्यक्तिगत एलएलएम, चैटबॉट या प्रशिक्षण और परीक्षण डेटा के सेट के डेटा पर निर्भर नहीं करने के लिए डिज़ाइन किया, बल्कि सार्वभौमिक कानून पर इन सभी प्रणालियों का पालन करने की उम्मीद की जाती है: स्केलिंग कानूनों द्वारा अनुमानित नुकसान।

शायद, उन्होंने तर्क दिया, बेहतर प्रदर्शन - जैसा कि तंत्रिका स्केलिंग कानूनों द्वारा मापा गया था - बेहतर कौशल से संबंधित था। और इन बेहतर कौशलों को कौशल नोड्स को टेक्स्ट नोड्स से जोड़कर उनके द्विदलीय ग्राफ़ में परिभाषित किया जा सकता है। इस लिंक को स्थापित करना - तंत्रिका स्केलिंग कानूनों और द्विदलीय ग्राफ़ के बीच - वह कुंजी थी जो उन्हें आगे बढ़ने की अनुमति देगी।

कौशल को बढ़ाना

शोधकर्ताओं ने यह मानकर शुरुआत की कि एक काल्पनिक द्विदलीय ग्राफ मौजूद है जो परीक्षण डेटा पर एलएलएम के व्यवहार से मेल खाता है। परीक्षण डेटा पर एलएलएम के नुकसान में बदलाव को समझाने के लिए, उन्होंने ग्राफ़ का उपयोग करने के एक तरीके की कल्पना की ताकि यह वर्णन किया जा सके कि एलएलएम कौशल कैसे हासिल करता है।

उदाहरण के लिए, कौशल "विडंबना को समझता है।" इस विचार को एक कौशल नोड के साथ दर्शाया गया है, इसलिए शोधकर्ता यह देखना चाहते हैं कि यह कौशल नोड किस टेक्स्ट नोड से जुड़ता है। यदि इनमें से लगभग सभी जुड़े हुए टेक्स्ट नोड सफल हैं - जिसका अर्थ है कि इन नोड्स द्वारा दर्शाए गए टेक्स्ट पर एलएलएम की भविष्यवाणियां अत्यधिक सटीक हैं - तो एलएलएम इस विशेष कौशल में सक्षम है। लेकिन यदि कौशल नोड के कनेक्शन का एक निश्चित अंश से अधिक विफल पाठ नोड्स पर जाता है, तो एलएलएम इस कौशल में विफल हो जाता है।

इन द्विदलीय ग्राफ़ और एलएलएम के बीच इस संबंध ने अरोड़ा और गोयल को प्रॉक्सी द्वारा एलएलएम व्यवहार का विश्लेषण करने के लिए यादृच्छिक ग्राफ सिद्धांत के उपकरणों का उपयोग करने की अनुमति दी। इन ग्राफ़ों के अध्ययन से नोड्स के बीच कुछ संबंधों का पता चला। बदले में, इन रिश्तों को यह समझाने के लिए तार्किक और परीक्षण योग्य तरीके से अनुवादित किया गया कि बड़े मॉडलों ने अपनी अप्रत्याशित क्षमताओं को प्राप्त करने के लिए आवश्यक कौशल कैसे प्राप्त किए।

अरोड़ा और गोयल ने सबसे पहले एक मुख्य व्यवहार समझाया: क्यों बड़े एलएलएम व्यक्तिगत कौशल पर अपने छोटे समकक्षों की तुलना में अधिक कुशल हो जाते हैं। उन्होंने तंत्रिका स्केलिंग कानूनों द्वारा अनुमानित कम परीक्षण हानि के साथ शुरुआत की। एक ग्राफ़ में, इस निम्न परीक्षण हानि को विफल परीक्षण नोड्स के अंश में गिरावट द्वारा दर्शाया गया है। इसलिए कुल मिलाकर कम असफल परीक्षण नोड हैं। और यदि असफल परीक्षण नोड्स कम हैं, तो असफल परीक्षण नोड्स और कौशल नोड्स के बीच कम कनेक्शन हैं। इसलिए, बड़ी संख्या में कौशल नोड्स सफल परीक्षण नोड्स से जुड़े हुए हैं, जो मॉडल के लिए कौशल में बढ़ती क्षमता का सुझाव देते हैं। गोयल ने कहा, "नुकसान में बहुत मामूली कमी मशीन को इन कौशलों को हासिल करने की क्षमता प्रदान करती है।"

इसके बाद, जोड़ी को एक बड़े मॉडल की अप्रत्याशित क्षमताओं को समझाने का एक तरीका मिला। जैसे-जैसे एलएलएम का आकार बढ़ता है और इसकी परीक्षण हानि कम होती है, कौशल नोड्स के यादृच्छिक संयोजन व्यक्तिगत टेक्स्ट नोड्स से कनेक्शन विकसित करते हैं। इससे पता चलता है कि एलएलएम एक समय में एक से अधिक कौशल का उपयोग करने में भी बेहतर हो जाता है और कई कौशल का उपयोग करके पाठ तैयार करना शुरू कर देता है - संयोजन, कहते हैं, "क्योंकि" शब्द की समझ के साथ विडंबना का उपयोग करने की क्षमता - भले ही वे सटीक संयोजन हों प्रशिक्षण डेटा में पाठ के किसी भी भाग में कौशल मौजूद नहीं थे।

उदाहरण के लिए, एक एलएलएम की कल्पना करें जो पाठ उत्पन्न करने के लिए पहले से ही एक कौशल का उपयोग कर सकता है। यदि आप एलएलएम के मापदंडों या प्रशिक्षण डेटा की संख्या को परिमाण के क्रम से बढ़ाते हैं, तो यह पाठ उत्पन्न करने में समान रूप से सक्षम हो जाएगा जिसके लिए दो कौशल की आवश्यकता होती है। परिमाण के एक और क्रम पर जाएं, और एलएलएम अब उन कार्यों को कर सकता है जिनके लिए एक बार में चार कौशल की आवश्यकता होती है, फिर से उसी स्तर की योग्यता के साथ। बड़े एलएलएम में कौशल को एक साथ रखने के अधिक तरीके होते हैं, जिससे क्षमताओं का संयुक्त विस्फोट होता है।

और जैसे-जैसे एलएलएम को बढ़ाया जाता है, यह संभावना कि प्रशिक्षण डेटा में कौशल के इन सभी संयोजनों का सामना करना पड़ता है, तेजी से असंभव हो जाती है। यादृच्छिक ग्राफ सिद्धांत के नियमों के अनुसार, प्रत्येक संयोजन संभावित कौशल के यादृच्छिक नमूने से उत्पन्न होता है। इसलिए, यदि ग्राफ़ में लगभग 1,000 अंतर्निहित व्यक्तिगत कौशल नोड हैं, और आप चार कौशल को संयोजित करना चाहते हैं, तो चौथी शक्ति के लिए लगभग 1,000 - यानी, 1 ट्रिलियन - उन्हें संयोजित करने के संभावित तरीके हैं।

अरोड़ा और गोयल इसे इस बात के प्रमाण के रूप में देखते हैं कि सबसे बड़े एलएलएम केवल अपने प्रशिक्षण डेटा में देखे गए कौशल के संयोजन पर निर्भर नहीं हैं। ब्यूबेक सहमत हैं. "यदि कोई एलएलएम वास्तव में उन हजार कौशलों में से चार को मिलाकर उन कार्यों को करने में सक्षम है, तो उसे सामान्यीकरण करना होगा," उन्होंने कहा। मतलब, बहुत संभव है कि यह स्टोकेस्टिक तोता नहीं है।

सच्ची रचनात्मकता?

लेकिन अरोड़ा और गोयल सिद्धांत से परे जाना चाहते थे और अपने दावे का परीक्षण करना चाहते थे कि एलएलएम अधिक कौशल के संयोजन में बेहतर हो जाते हैं, और इस प्रकार सामान्यीकरण में, जैसे-जैसे उनका आकार और प्रशिक्षण डेटा बढ़ता है। वे अन्य साथियों के साथ मिलकर एक विधि तैयार की पाठ उत्पन्न करने के लिए एकाधिक कौशल का उपयोग करने की एलएलएम की क्षमता का मूल्यांकन करने के लिए "कौशल-मिश्रण" कहा जाता है।

एलएलएम का परीक्षण करने के लिए, टीम ने उसे बेतरतीब ढंग से चुने गए विषय पर तीन वाक्य तैयार करने के लिए कहा, जो कुछ बेतरतीब ढंग से चुने गए कौशल को दर्शाते हों। उदाहरण के लिए, उन्होंने जीपीटी-4 (एलएलएम जो चैटजीपीटी के सबसे शक्तिशाली संस्करण को शक्ति प्रदान करता है) को मूल रूप से द्वंद्वयुद्ध - तलवार की लड़ाई के बारे में लिखने के लिए कहा। इसके अलावा, उन्होंने इसे चार क्षेत्रों में कौशल प्रदर्शित करने के लिए कहा: स्व-सेवा पूर्वाग्रह, रूपक, सांख्यिकीय न्यायशास्त्र और सामान्य ज्ञान भौतिकी. GPT-4 ने उत्तर दिया: “स्टील [रूपक] के साथ इस नृत्य में मेरी जीत उतनी ही निश्चित है जितनी किसी वस्तु का जमीन पर गिरना [भौतिकी]। एक प्रसिद्ध द्वंद्ववादी के रूप में, मैं अपनी प्रतिष्ठा के अधिकांश अन्य [सांख्यिकीय न्यायशास्त्र] की तरह स्वाभाविक रूप से फुर्तीला हूं। हराना? यह केवल असमान युद्धक्षेत्र के कारण संभव है, मेरी अपर्याप्तता [स्वयं-सेवा पूर्वाग्रह] के कारण नहीं।'' जब इसके आउटपुट की जांच करने के लिए कहा गया, तो GPT-4 ने इसे तीन वाक्यों में घटा दिया।

परिचय

अरोरा ने कहा, "यह हेमिंग्वे या शेक्सपियर नहीं है, लेकिन टीम को भरोसा है कि यह उनकी बात साबित करता है: मॉडल ऐसा पाठ उत्पन्न कर सकता है जिसे वह संभवतः प्रशिक्षण डेटा में नहीं देख सकता था, कौशल प्रदर्शित करता है जो कुछ लोगों के तर्क को जोड़ता है समझ रहा है. उन्होंने कहा, जीपीटी-4 कौशल-मिश्रण परीक्षणों को भी पास कर रहा है, जिसके लिए लगभग 10% से 15% समय में छह कौशल की आवश्यकता होती है, जिससे पाठ के टुकड़े उत्पन्न होते हैं जो प्रशिक्षण डेटा में अस्तित्व में होना सांख्यिकीय रूप से असंभव है।

टीम ने अन्य एलएलएम के साथ-साथ अपने स्वयं के आउटपुट का मूल्यांकन करने के लिए जीपीटी-4 प्राप्त करके प्रक्रिया को स्वचालित कर दिया। अरोड़ा ने कहा कि मॉडल के लिए स्वयं का मूल्यांकन करना उचित है क्योंकि उसके पास मेमोरी नहीं है, इसलिए उसे यह याद नहीं है कि उसे वही पाठ उत्पन्न करने के लिए कहा गया था जिसका मूल्यांकन करने के लिए कहा जा रहा है। Google DeepMind के एक शोधकर्ता यासामान बहरी, जो AI की नींव पर काम करते हैं, स्वचालित दृष्टिकोण को "बहुत सरल और सुरुचिपूर्ण" पाते हैं।

जहां तक ​​सिद्धांत का सवाल है, यह सच है कि यह कुछ धारणाएं बनाता है, बुबेक ने कहा, लेकिन "ये धारणाएं किसी भी तरह से पागलपन नहीं हैं।" प्रयोगों से वे प्रभावित भी हुए। "जो [टीम] सैद्धांतिक रूप से साबित करती है, और अनुभवजन्य रूप से भी पुष्टि करती है, वह यह है कि संरचनागत सामान्यीकरण होता है, जिसका अर्थ है कि [एलएलएम] उन बिल्डिंग ब्लॉक्स को एक साथ रखने में सक्षम हैं जिन्हें कभी एक साथ नहीं रखा गया है," उन्होंने कहा। "यह, मेरे लिए, रचनात्मकता का सार है।"

अरोड़ा कहते हैं कि यह कार्य एलएलएम जो लिखते हैं उसकी सटीकता के बारे में कुछ नहीं कहता है। "वास्तव में, यह मौलिकता के लिए बहस कर रहा है," उन्होंने कहा। “ये चीज़ें दुनिया के प्रशिक्षण कोष में कभी मौजूद नहीं थीं। इसे कभी किसी ने नहीं लिखा. इसे मतिभ्रम करना होगा।

बहरहाल, हिंटन का मानना ​​है कि काम इस सवाल पर केंद्रित है कि क्या एलएलएम स्टोकेस्टिक तोते हैं। उन्होंने कहा, "यह दिखाने के लिए यह सबसे कठोर तरीका है जो मैंने देखा है कि जीपीटी-4 महज स्टोकेस्टिक तोते से कहीं अधिक है।" "वे दृढ़तापूर्वक प्रदर्शित करते हैं कि GPT-4 ऐसे पाठ उत्पन्न कर सकता है जो कौशल और विषयों को इस तरह से जोड़ता है जो लगभग निश्चित रूप से प्रशिक्षण डेटा में नहीं होता है।" (हमने नए काम पर उनके दृष्टिकोण के लिए बेंडर से संपर्क किया, लेकिन उन्होंने समय की कमी का हवाला देते हुए टिप्पणी करने से इनकार कर दिया।)

और वास्तव में, जैसा कि गणित भविष्यवाणी करता है, GPT-4 का प्रदर्शन इसके छोटे पूर्ववर्ती, GPT-3.5 से कहीं अधिक है - एक हद तक जिसने अरोड़ा को डरा दिया। “यह शायद सिर्फ मैं ही नहीं हूं,” उन्होंने कहा। “कई लोगों को यह थोड़ा अजीब लगा कि GPT-4, GPT-3.5 से कितना बेहतर था, और यह एक साल के भीतर हुआ। क्या इसका मतलब यह है कि एक और वर्ष में हम उस परिमाण का समान परिवर्तन देखेंगे? मुझें नहीं पता। केवल OpenAI ही जानता है।”

समय टिकट:

से अधिक क्वांटमगाज़ी