एक शिक्षक के रूप में GPT-4 के साथ छोटे भाषा मॉडल फलते-फूलते हैं | क्वांटा पत्रिका

एक शिक्षक के रूप में GPT-4 के साथ छोटे भाषा मॉडल फलते-फूलते हैं | क्वांटा पत्रिका

एक शिक्षक के रूप में GPT-4 के साथ छोटे भाषा मॉडल फलते-फूलते हैं | क्वांटा पत्रिका प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ.

परिचय

अंग्रेजी सीखना कोई आसान काम नहीं है, जैसा कि अनगिनत छात्र अच्छी तरह से जानते हैं। लेकिन जब छात्र एक कंप्यूटर है, तो एक दृष्टिकोण आश्चर्यजनक रूप से अच्छी तरह से काम करता है: बस इंटरनेट से पाठ के पहाड़ों को एक विशाल गणितीय मॉडल में फ़ीड करें जिसे तंत्रिका नेटवर्क कहा जाता है। ओपनएआई के चैटजीपीटी जैसे जेनरेटिव भाषा मॉडल के पीछे यही ऑपरेटिंग सिद्धांत है, जिसकी विभिन्न विषयों पर सुसंगत रूप से (यदि हमेशा सच्चाई से नहीं) बातचीत करने की क्षमता ने पिछले वर्ष में शोधकर्ताओं और जनता को आश्चर्यचकित कर दिया है।

लेकिन इस दृष्टिकोण की अपनी कमियां हैं। एक बात के लिए, विशाल पाठ अभिलेखागार को अत्याधुनिक भाषा मॉडल में परिवर्तित करने के लिए आवश्यक "प्रशिक्षण" प्रक्रिया महंगी और समय-गहन है। दूसरे के लिए, यहां तक ​​कि जो लोग बड़े भाषा मॉडल को प्रशिक्षित करते हैं उन्हें भी अपने आंतरिक कामकाज को समझने में कठिनाई होती है; बदले में, यह अनुमान लगाना कठिन हो जाता है कि वे कितने तरीकों से विफल हो सकते हैं।

इन कठिनाइयों का सामना करते हुए, कुछ शोधकर्ताओं ने प्रशिक्षण का विकल्प चुना है छोटे मॉडल छोटे डेटा सेट पर और फिर उनके व्यवहार का अध्ययन करें। “यह क्रमबद्ध करने जैसा है ड्रोसोफिला जीनोम बनाम मानव जीनोम का अनुक्रमण, ”ने कहा ऐली पावलिक, ब्राउन यूनिवर्सिटी में एक भाषा मॉडल शोधकर्ता।

अब, ए में काग़ज़ हाल ही में वैज्ञानिक प्रीप्रिंट सर्वर arxiv.org पर पोस्ट किया गया, माइक्रोसॉफ्ट शोधकर्ताओं की एक जोड़ी ने छोटे भाषा मॉडलों को प्रशिक्षित करने के लिए एक नई विधि पेश की है: उन्हें बच्चों की कहानियों के सख्त आहार पर उठाएं।

मशीन लर्निंग शोधकर्ताओं ने इस पाठ को अपनाया है। GPT-3.5, एक बड़ा भाषा मॉडल जो ChatGPT इंटरफ़ेस को शक्ति प्रदान करता है, इसमें लगभग 200 बिलियन पैरामीटर हैं, और इसे सैकड़ों अरब शब्दों वाले डेटा सेट पर प्रशिक्षित किया गया था। (ओपनएआई ने अपने उत्तराधिकारी, जीपीटी-4 के लिए संबंधित आंकड़े जारी नहीं किए हैं।) ऐसे बड़े मॉडलों के प्रशिक्षण के लिए आम तौर पर कम से कम 1,000 विशेष प्रोसेसर की आवश्यकता होती है जिन्हें जीपीयू कहा जाता है जो एक समय में हफ्तों तक समानांतर में चलते हैं। केवल कुछ कंपनियाँ ही आवश्यक संसाधन जुटा सकती हैं, विभिन्न मॉडलों को प्रशिक्षित करने और उनकी तुलना करने की बात तो दूर की बात है।

दोनों शोधकर्ताओं ने दिखाया कि आज की अत्याधुनिक प्रणालियों की तुलना में हजारों गुना छोटे भाषा मॉडल इस तरह से प्रशिक्षित होने पर तेजी से सुसंगत और व्याकरणिक कहानियां बताना सीख गए। उनके परिणाम नई शोध दिशाओं की ओर संकेत करते हैं जो बड़े मॉडलों को प्रशिक्षित करने और उनके व्यवहार को समझने में सहायक हो सकते हैं।

"मुझे यह पेपर बहुत जानकारीपूर्ण लगा," कहा चंद्र भागवतुलासिएटल में एलन इंस्टीट्यूट फॉर आर्टिफिशियल इंटेलिजेंस में एक भाषा मॉडल शोधकर्ता। "यह अवधारणा अपने आप में बेहद दिलचस्प है।"

एक ज़माने में

भाषा मॉडल के केंद्र में तंत्रिका नेटवर्क गणितीय संरचनाएं हैं जो मानव मस्तिष्क से प्रेरित हैं। प्रत्येक में परतों में व्यवस्थित कई कृत्रिम न्यूरॉन्स होते हैं, आसन्न परतों में न्यूरॉन्स के बीच कनेक्शन होते हैं। तंत्रिका नेटवर्क का व्यवहार इन कनेक्शनों की ताकत से नियंत्रित होता है, जिन्हें पैरामीटर कहा जाता है। एक भाषा मॉडल में, पैरामीटर नियंत्रित करते हैं कि मॉडल आगे कौन से शब्द उगल सकता है, प्रारंभिक संकेत और पहले से ही उत्पन्न शब्द दिए गए हैं।

एक मॉडल वास्तव में प्रशिक्षण के दौरान ही जीवंत होता है, जब वह बार-बार अपने प्रशिक्षण डेटा सेट में पाठ के साथ अपने आउटपुट की तुलना करता है और समानता बढ़ाने के लिए अपने मापदंडों को समायोजित करता है। यादृच्छिक मापदंडों वाले एक अप्रशिक्षित नेटवर्क को कोड की कुछ पंक्तियों से इकट्ठा करना बहुत आसान है, लेकिन यह केवल अस्पष्टता पैदा करेगा। प्रशिक्षण के बाद, यह अक्सर अपरिचित पाठ को जारी रख सकता है। बड़े मॉडल अक्सर अतिरिक्त फाइन-ट्यूनिंग से गुजरते हैं जो उन्हें सवालों के जवाब देना और निर्देशों का पालन करना सिखाता है, लेकिन प्रशिक्षण का बड़ा हिस्सा शब्द भविष्यवाणी में महारत हासिल करना है।

शब्द भविष्यवाणी में सफलता के लिए कई अलग-अलग कौशलों में महारत हासिल करने के लिए एक भाषा मॉडल की आवश्यकता होती है। उदाहरण के लिए, अंग्रेजी व्याकरण के नियम बताते हैं कि पाठ के विषय की परवाह किए बिना "गोइंग" शब्द के बाद अगला शब्द "टू" होने की संभावना है। इसके अलावा, एक प्रणाली को "फ्रांस की राजधानी है" और एक अनुच्छेद को पूरा करने के लिए तथ्यात्मक ज्ञान की आवश्यकता होती है शब्द "नहीं" तर्क की प्रारंभिक समझ की आवश्यकता है।

"कच्ची भाषा बहुत जटिल है," कहा टिमोथी गुयेन, डीपमाइंड में एक मशीन लर्निंग शोधकर्ता। "दिलचस्प भाषाई क्षमताएं पैदा करने के लिए, लोगों ने 'अधिक डेटा बेहतर है' का सहारा लिया है।"

परिचय

रोनेन एल्डनएक गणितज्ञ, जो जेनरेटिव भाषा मॉडल का अध्ययन करने के लिए 2022 में माइक्रोसॉफ्ट रिसर्च में शामिल हुआ, अपनी क्षमताओं का पता लगाने के लिए एक सस्ता और तेज़ तरीका विकसित करना चाहता था। ऐसा करने का स्वाभाविक तरीका एक छोटे डेटा सेट का उपयोग करना था, और बदले में इसका मतलब था कि उसे किसी विशिष्ट कार्य में विशेषज्ञता के लिए मॉडलों को प्रशिक्षित करना होगा, ताकि वे खुद को बहुत अधिक फैला न सकें। प्रारंभ में, वह गणित की एक निश्चित श्रेणी की समस्याओं को हल करने के लिए मॉडलों को प्रशिक्षित करना चाहते थे, लेकिन एक दोपहर, अपनी 5 वर्षीय बेटी के साथ समय बिताने के बाद, उन्हें एहसास हुआ कि बच्चों की कहानियाँ एकदम उपयुक्त थीं।

उन्होंने कहा, "यह सचमुच मेरे मन में तब आया जब मैंने उसकी एक कहानी पढ़ी।"

सुसंगत बच्चों की कहानियाँ उत्पन्न करने के लिए, एक भाषा मॉडल को दुनिया के बारे में तथ्यों को सीखने, पात्रों और घटनाओं पर नज़र रखने और व्याकरण के नियमों का पालन करने की आवश्यकता होगी - बड़े मॉडलों के सामने आने वाली चुनौतियों का सरल संस्करण। लेकिन बड़े पैमाने पर डेटा सेट पर प्रशिक्षित बड़े मॉडल उन नियमों के साथ-साथ अनगिनत अप्रासंगिक विवरण सीखते हैं जो वास्तव में मायने रखते हैं। एल्डन ने आशा व्यक्त की कि बच्चों की कहानियों की संक्षिप्तता और सीमित शब्दावली छोटे मॉडलों के लिए सीखने को अधिक प्रबंधनीय बना सकती है - जिससे उन्हें प्रशिक्षित करना और समझना दोनों आसान हो जाएगा।

हालाँकि, भाषा मॉडल की दुनिया में, "छोटा" सापेक्ष है: GPT-3.5 को प्रशिक्षित करने के लिए उपयोग किए जाने वाले डेटा सेट की तुलना में एक हजार गुना छोटे डेटा सेट में अभी भी लाखों कहानियाँ शामिल होने की आवश्यकता होगी। गुयेन ने कहा, "मुझे नहीं पता कि आप कितना पैसा खर्च करना चाहते हैं, लेकिन मैं अनुमान लगा रहा हूं कि आप [कुछ मिलियन] छोटी कहानियां लिखने के लिए पेशेवरों को नियुक्त नहीं करेंगे।"

ऐसे उत्सुक पाठकों को संतुष्ट करने के लिए एक असाधारण रूप से विपुल लेखक की आवश्यकता होगी, लेकिन एल्डन के मन में कुछ उम्मीदवार थे। छोटे भाषा मॉडलों के दर्शकों के लिए बड़े लोगों की तुलना में बेहतर कौन लिख सकता है?

खिलौनों की कहानियाँ

एल्डन ने तुरंत बड़े भाषा मॉडलों द्वारा निर्मित सिंथेटिक बच्चों की कहानियों की एक लाइब्रेरी बनाने की योजना बनाई। लेकिन उन्हें जल्द ही पता चला कि अत्याधुनिक मॉडल भी स्वाभाविक रूप से बहुत रचनात्मक नहीं हैं। एल्डन ने कहा, यदि आप जीपीटी-4 को 4 साल के बच्चों के लिए उपयुक्त कहानियाँ लिखने के लिए कहते हैं, तो "लगभग पाँचवीं कहानियाँ स्लाइड से डरकर पार्क में जाने वाले बच्चों के बारे में होंगी।" जहां तक ​​इंटरनेट का सवाल है, जाहिर तौर पर यह सर्वोत्कृष्ट प्रीस्कूल कहानी है।

इसका समाधान प्रॉम्प्ट में थोड़ी सी यादृच्छिकता जोड़ना था। सबसे पहले, एल्डन ने जीपीटी-4 का उपयोग 1,500 संज्ञाओं, क्रियाओं और विशेषणों की एक सूची तैयार करने के लिए किया, जिन्हें एक 4-वर्षीय बच्चा जानता हो सकता है - इतनी छोटी कि वह आसानी से इसे स्वयं जांच सके। फिर उन्होंने एक सरल कंप्यूटर प्रोग्राम लिखा जो बार-बार GPT-3.5 या GPT-4 को एक उम्र-उपयुक्त कहानी उत्पन्न करने के लिए प्रेरित करता था जिसमें सूची से तीन यादृच्छिक शब्द शामिल होते थे, साथ ही एक सुखद अंत या कथानक मोड़ जैसे अतिरिक्त यादृच्छिक रूप से चुने गए विवरण भी शामिल होते थे। परिणामी कहानियाँ, दयालुता से, डरावनी स्लाइडों पर कम केंद्रित थीं।

एल्डन के पास अब मांग पर प्रशिक्षण डेटा तैयार करने की एक प्रक्रिया थी, लेकिन उसे नहीं पता था कि एक कार्यात्मक मॉडल को प्रशिक्षित करने के लिए उसे कितनी कहानियों की आवश्यकता होगी, या उस मॉडल को कितना बड़ा होना चाहिए। तभी उन्होंने साथ मिलकर काम किया युआनझी लीमाइक्रोसॉफ्ट और कार्नेगी मेलन विश्वविद्यालय में एक मशीन लर्निंग शोधकर्ता, ने इस तथ्य का लाभ उठाते हुए विभिन्न संभावनाओं को आजमाया कि छोटे मॉडलों को बहुत जल्दी प्रशिक्षित किया जा सकता है। चरण 1 यह तय कर रहा था कि उनके मॉडलों का मूल्यांकन कैसे किया जाए।

परिचय

भाषा मॉडल अनुसंधान में - जैसा कि हर कक्षा में होता है - ग्रेडिंग एक कठिन विषय है। वहाँ है कोई पूर्ण रूब्रिक नहीं इसमें वह सब कुछ समाहित है जो शोधकर्ता जानना चाहते हैं, और जो मॉडल कुछ कार्यों में उत्कृष्टता प्राप्त करते हैं वे अक्सर दूसरों में शानदार ढंग से विफल हो जाते हैं। समय के साथ, शोधकर्ताओं ने स्पष्ट उत्तर वाले प्रश्नों के आधार पर विभिन्न मानक बेंचमार्क विकसित किए हैं, जो कि यदि आप विशिष्ट कौशल का मूल्यांकन करने का प्रयास कर रहे हैं तो यह एक अच्छा तरीका है। लेकिन एल्डन और ली की रुचि कुछ अधिक अस्पष्ट चीज़ों में थी: यदि आप भाषा को यथासंभव सरल बनाते हैं तो भाषा मॉडल वास्तव में कितने बड़े होने चाहिए?

एल्डन ने कहा, "सीधे यह जांचने के लिए कि मॉडल अंग्रेजी बोलता है या नहीं, मुझे लगता है कि केवल एक चीज जो आप कर सकते हैं वह है कि मॉडल को ओपन-एंडेड तरीके से अंग्रेजी उत्पन्न करने दें।"

ऐसे गुणात्मक प्रश्नों पर किसी मॉडल के प्रदर्शन को मापने के केवल दो तरीके हैं: मानव ग्रेडर पर भरोसा करें, या एक बार फिर जीपीटी-4 की ओर मुड़ें। दोनों शोधकर्ताओं ने बाद वाला रास्ता चुना, जिससे प्रभावी रूप से बड़े मॉडलों को पाठ्यपुस्तकें लिखने और निबंधों को ग्रेड देने की अनुमति मिल गई।

भागवतुला ने कहा कि उन्हें यह देखना अच्छा लगेगा कि मानव समीक्षकों की तुलना में जीपीटी-4 का मूल्यांकन कैसा है - जीपीटी-4 उन मॉडलों के प्रति पक्षपाती हो सकता है जिन्हें इसने प्रशिक्षित करने में मदद की है, और भाषा मॉडल की अपारदर्शिता ऐसे पूर्वाग्रहों को मापना कठिन बनाती है। लेकिन उन्हें नहीं लगता कि ऐसी सूक्ष्मताएं सिंथेटिक कहानियों के समान सेट पर प्रशिक्षित विभिन्न मॉडलों के बीच तुलना को प्रभावित करेंगी - एल्डन और ली के काम का मुख्य फोकस।

एल्डन और ली ने प्रशिक्षण के बाद अपने प्रत्येक छोटे मॉडल के मूल्यांकन के लिए दो-चरणीय प्रक्रिया का उपयोग किया। सबसे पहले, उन्होंने प्रशिक्षण डेटा सेट से अलग कहानी के पहले भाग के साथ छोटे मॉडल को प्रेरित किया ताकि यह 50 अलग-अलग परीक्षण कहानियों के साथ इस प्रक्रिया को दोहराते हुए एक नया अंत उत्पन्न कर सके। दूसरा, उन्होंने जीपीटी-4 को प्रत्येक छोटे मॉडल के अंत को तीन श्रेणियों - रचनात्मकता, व्याकरण और कहानी की शुरुआत के साथ निरंतरता के आधार पर ग्रेड करने का निर्देश दिया। फिर उन्होंने प्रत्येक श्रेणी में अंकों का औसत निकाला, और अंत में प्रति मॉडल तीन अंतिम ग्रेड प्राप्त किए।

इस प्रक्रिया के साथ, एल्डन और ली अंततः विभिन्न मॉडलों की तुलना करने और यह पता लगाने के लिए तैयार थे कि कौन से स्टार छात्र थे।

परीक्षण के परिणाम

कुछ प्रारंभिक अन्वेषण के बाद, दोनों शोधकर्ताओं ने लगभग 2 मिलियन कहानियों वाले एक प्रशिक्षण डेटा सेट पर समझौता किया। फिर उन्होंने टिनीस्टोरीज़ नामक इस डेटा सेट का उपयोग परतों की अलग-अलग संख्या के साथ 1 मिलियन से 30 मिलियन पैरामीटर आकार के मॉडल को प्रशिक्षित करने के लिए किया। यह त्वरित कार्य था: केवल चार जीपीयू का उपयोग करते हुए, इनमें से सबसे बड़े मॉडल को प्रशिक्षित करने में एक दिन से अधिक नहीं लगा।

सबसे छोटे मॉडलों को संघर्ष करना पड़ा। उदाहरण के लिए, एक परीक्षण कहानी की शुरुआत एक मतलबी दिखने वाले आदमी से होती है जो एक लड़की से कहता है कि वह उसकी बिल्ली ले लेगा। एक मिलियन-पैरामीटर वाली मॉडल उस उलझन में फंस गई जब लड़की बार-बार उस आदमी से कह रही थी कि वह उससे दोस्ती करना चाहती है। लेकिन बड़े वाले - जो अभी भी GPT-3.5 से हजारों गुना छोटे हैं - ने आश्चर्यजनक रूप से अच्छा प्रदर्शन किया। 28 मिलियन-पैरामीटर संस्करण ने एक सुसंगत कहानी बताई, हालांकि अंत गंभीर था: “केटी रोने लगी, लेकिन आदमी ने परवाह नहीं की। वह बिल्ली को ले गया और केटी ने अपनी बिल्ली को फिर कभी नहीं देखा। समाप्त।"

अपने स्वयं के मॉडल का परीक्षण करने के अलावा, एल्डन और ली ने OpenAI के GPT-2, 1.5 में जारी 2019 बिलियन-पैरामीटर मॉडल के लिए एक ही चुनौती पेश की। इसका प्रदर्शन बहुत खराब रहा - कहानी के अचानक समाप्त होने से पहले, आदमी ने लड़की को ले जाने की धमकी दी अदालत, जेल, अस्पताल, मुर्दाघर और अंत में श्मशान।

परिचय

गुयेन ने कहा कि यह रोमांचक है कि ऐसे छोटे मॉडल इतने धाराप्रवाह थे, लेकिन शायद आश्चर्य की बात नहीं है कि जीपीटी -2 को कार्य के साथ संघर्ष करना पड़ा: यह एक बड़ा मॉडल है लेकिन अत्याधुनिक से बहुत दूर है, और इसे बहुत अलग डेटा सेट पर प्रशिक्षित किया गया था। उन्होंने कहा, "केवल खिलौनों के साथ खेलने जैसे छोटे बच्चों के कार्यों पर प्रशिक्षण देने वाला बच्चा आपसे या मुझसे बेहतर प्रदर्शन कर सकता है।" "हम इस साधारण चीज़ में विशेषज्ञ नहीं थे।"

विभिन्न टाइनीस्टोरीज़ मॉडलों के बीच तुलना समान भ्रमित करने वाले कारकों से प्रभावित नहीं होती है। एल्डन और ली ने संकेत दिए कि कम परतों वाले लेकिन प्रति परत अधिक न्यूरॉन्स वाले नेटवर्क उन सवालों के जवाब देने में बेहतर थे जिनके लिए तथ्यात्मक ज्ञान की आवश्यकता थी; इसके विपरीत, अधिक परतों और प्रति परत कम न्यूरॉन्स वाले नेटवर्क कहानी के पहले के पात्रों और कथानक बिंदुओं पर नज़र रखने में बेहतर थे। भागवतुला को यह परिणाम विशेष रूप से दिलचस्प लगा। यदि इसे बड़े मॉडलों में दोहराया जा सकता है, तो उन्होंने कहा, "यह वास्तव में एक अच्छा परिणाम होगा जो इस काम से निकल सकता है।"

एल्डन और ली ने यह भी अध्ययन किया कि उनके छोटे मॉडलों की क्षमताएं प्रशिक्षण अवधि की अवधि पर कैसे निर्भर करती हैं। हर मामले में, मॉडलों ने पहले व्याकरण में महारत हासिल की और बाद में संगति में। एल्डन के लिए, यह पैटर्न दर्शाता है कि कैसे इनाम संरचनाओं में अंतर तंत्रिका नेटवर्क और बच्चों के बीच भाषा अधिग्रहण पैटर्न में अंतर पैदा करता है। भाषा मॉडलों के लिए, जो शब्दों की भविष्यवाणी करके सीखते हैं, "'मैं चाहता हूं' शब्दों पर प्रोत्साहन उतना ही बड़ा है जितना 'आइसक्रीम' शब्दों पर है," उन्होंने कहा। दूसरी ओर, बच्चे, "इस बात की परवाह नहीं करते कि वे कहते हैं 'मुझे कुछ आइसक्रीम चाहिए' या सिर्फ 'आइसक्रीम, आइसक्रीम, आइसक्रीम।'"

गुणवत्ता बनाम मात्रा

एल्डन और ली को उम्मीद है कि शोध अन्य शोधकर्ताओं को विभिन्न मॉडलों को प्रशिक्षित करने के लिए प्रेरित करेगा TinyStories डेटा सेट और उनकी क्षमताओं की तुलना करें। लेकिन अक्सर यह अनुमान लगाना कठिन होता है कि छोटे मॉडलों की कौन सी विशेषताएँ बड़े मॉडलों में भी दिखाई देंगी।

"शायद दृष्टि के माउस मॉडल वास्तव में मानव दृष्टि के अच्छे परदे के पीछे हैं, लेकिन क्या अवसाद के माउस मॉडल मानव अवसाद के अच्छे मॉडल हैं?" पावलिक ने कहा। "हर मामले के लिए यह थोड़ा अलग है।"

टाइनीस्टोरीज़ मॉडल की सफलता भी एक व्यापक सबक सुझाती है। प्रशिक्षण डेटा सेट संकलित करने के मानक दृष्टिकोण में इंटरनेट से पाठ को वैक्यूम करना और फिर कचरे को फ़िल्टर करना शामिल है। बड़े मॉडलों द्वारा उत्पन्न सिंथेटिक पाठ उच्च-गुणवत्ता वाले डेटा सेट को इकट्ठा करने का एक वैकल्पिक तरीका प्रदान कर सकता है जो इतना बड़ा नहीं होगा।

एल्डन ने कहा, "हमारे पास अधिक से अधिक सबूत हैं कि यह बहुत प्रभावी है, न केवल टिनीस्टोरीज़-आकार के मॉडल में बल्कि बड़े मॉडल में भी।" यह साक्ष्य एल्डन, ली और अन्य माइक्रोसॉफ्ट शोधकर्ताओं द्वारा अरब-पैरामीटर मॉडल के बारे में अनुवर्ती पत्रों की एक जोड़ी से आता है। में पहला पेपर, उन्होंने इंटरनेट से सावधानीपूर्वक क्यूरेटेड कोड के साथ-साथ GPT-3.5 द्वारा उत्पन्न कोड के स्निपेट्स का उपयोग करके प्रोग्रामिंग भाषा पायथन सीखने के लिए एक मॉडल को प्रशिक्षित किया। में दूसरा, उन्होंने एक सामान्य प्रयोजन भाषा मॉडल को प्रशिक्षित करने के लिए, विषयों की एक विस्तृत श्रृंखला को कवर करते हुए, सिंथेटिक "पाठ्यपुस्तकों" के साथ प्रशिक्षण डेटा सेट को बढ़ाया। अपने परीक्षणों में, दोनों मॉडलों की तुलना बड़े डेटा सेट पर प्रशिक्षित बड़े मॉडलों से अनुकूल रूप से की गई। लेकिन भाषा मॉडल का मूल्यांकन करना हमेशा मुश्किल होता है, और सिंथेटिक प्रशिक्षण डेटा दृष्टिकोण अभी भी अपनी प्रारंभिक अवस्था में है - अधिक स्वतंत्र परीक्षण आवश्यक हैं।

जैसे-जैसे अत्याधुनिक भाषा मॉडल बड़े होते जा रहे हैं, उनके छोटे चचेरे भाई-बहनों के आश्चर्यजनक निष्कर्ष इस बात की याद दिलाते हैं कि अभी भी बहुत कुछ है जो हम सबसे सरल मॉडल के बारे में भी नहीं समझते हैं। गुयेन को उम्मीद है कि टाइनीस्टोरीज़ द्वारा शुरू किए गए दृष्टिकोण की खोज करने वाले कई और पेपर देखने को मिलेंगे।

"सवाल यह है: आकार कहाँ और क्यों मायने रखता है?" उसने कहा। "इसका एक विज्ञान होना चाहिए, और उम्मीद है कि यह पेपर एक समृद्ध कहानी की शुरुआत है।"

समय टिकट:

से अधिक क्वांटमगाज़ी