परिचय
अंग्रेजी सीखना कोई आसान काम नहीं है, जैसा कि अनगिनत छात्र अच्छी तरह से जानते हैं। लेकिन जब छात्र एक कंप्यूटर है, तो एक दृष्टिकोण आश्चर्यजनक रूप से अच्छी तरह से काम करता है: बस इंटरनेट से पाठ के पहाड़ों को एक विशाल गणितीय मॉडल में फ़ीड करें जिसे तंत्रिका नेटवर्क कहा जाता है। ओपनएआई के चैटजीपीटी जैसे जेनरेटिव भाषा मॉडल के पीछे यही ऑपरेटिंग सिद्धांत है, जिसकी विभिन्न विषयों पर सुसंगत रूप से (यदि हमेशा सच्चाई से नहीं) बातचीत करने की क्षमता ने पिछले वर्ष में शोधकर्ताओं और जनता को आश्चर्यचकित कर दिया है।
लेकिन इस दृष्टिकोण की अपनी कमियां हैं। एक बात के लिए, विशाल पाठ अभिलेखागार को अत्याधुनिक भाषा मॉडल में परिवर्तित करने के लिए आवश्यक "प्रशिक्षण" प्रक्रिया महंगी और समय-गहन है। दूसरे के लिए, यहां तक कि जो लोग बड़े भाषा मॉडल को प्रशिक्षित करते हैं उन्हें भी अपने आंतरिक कामकाज को समझने में कठिनाई होती है; बदले में, यह अनुमान लगाना कठिन हो जाता है कि वे कितने तरीकों से विफल हो सकते हैं।
इन कठिनाइयों का सामना करते हुए, कुछ शोधकर्ताओं ने प्रशिक्षण का विकल्प चुना है छोटे मॉडल छोटे डेटा सेट पर और फिर उनके व्यवहार का अध्ययन करें। “यह क्रमबद्ध करने जैसा है ड्रोसोफिला जीनोम बनाम मानव जीनोम का अनुक्रमण, ”ने कहा ऐली पावलिक, ब्राउन यूनिवर्सिटी में एक भाषा मॉडल शोधकर्ता।
अब, ए में काग़ज़ हाल ही में वैज्ञानिक प्रीप्रिंट सर्वर arxiv.org पर पोस्ट किया गया, माइक्रोसॉफ्ट शोधकर्ताओं की एक जोड़ी ने छोटे भाषा मॉडलों को प्रशिक्षित करने के लिए एक नई विधि पेश की है: उन्हें बच्चों की कहानियों के सख्त आहार पर उठाएं।
मशीन लर्निंग शोधकर्ताओं ने इस पाठ को अपनाया है। GPT-3.5, एक बड़ा भाषा मॉडल जो ChatGPT इंटरफ़ेस को शक्ति प्रदान करता है, इसमें लगभग 200 बिलियन पैरामीटर हैं, और इसे सैकड़ों अरब शब्दों वाले डेटा सेट पर प्रशिक्षित किया गया था। (ओपनएआई ने अपने उत्तराधिकारी, जीपीटी-4 के लिए संबंधित आंकड़े जारी नहीं किए हैं।) ऐसे बड़े मॉडलों के प्रशिक्षण के लिए आम तौर पर कम से कम 1,000 विशेष प्रोसेसर की आवश्यकता होती है जिन्हें जीपीयू कहा जाता है जो एक समय में हफ्तों तक समानांतर में चलते हैं। केवल कुछ कंपनियाँ ही आवश्यक संसाधन जुटा सकती हैं, विभिन्न मॉडलों को प्रशिक्षित करने और उनकी तुलना करने की बात तो दूर की बात है।
दोनों शोधकर्ताओं ने दिखाया कि आज की अत्याधुनिक प्रणालियों की तुलना में हजारों गुना छोटे भाषा मॉडल इस तरह से प्रशिक्षित होने पर तेजी से सुसंगत और व्याकरणिक कहानियां बताना सीख गए। उनके परिणाम नई शोध दिशाओं की ओर संकेत करते हैं जो बड़े मॉडलों को प्रशिक्षित करने और उनके व्यवहार को समझने में सहायक हो सकते हैं।
"मुझे यह पेपर बहुत जानकारीपूर्ण लगा," कहा चंद्र भागवतुलासिएटल में एलन इंस्टीट्यूट फॉर आर्टिफिशियल इंटेलिजेंस में एक भाषा मॉडल शोधकर्ता। "यह अवधारणा अपने आप में बेहद दिलचस्प है।"
एक ज़माने में
भाषा मॉडल के केंद्र में तंत्रिका नेटवर्क गणितीय संरचनाएं हैं जो मानव मस्तिष्क से प्रेरित हैं। प्रत्येक में परतों में व्यवस्थित कई कृत्रिम न्यूरॉन्स होते हैं, आसन्न परतों में न्यूरॉन्स के बीच कनेक्शन होते हैं। तंत्रिका नेटवर्क का व्यवहार इन कनेक्शनों की ताकत से नियंत्रित होता है, जिन्हें पैरामीटर कहा जाता है। एक भाषा मॉडल में, पैरामीटर नियंत्रित करते हैं कि मॉडल आगे कौन से शब्द उगल सकता है, प्रारंभिक संकेत और पहले से ही उत्पन्न शब्द दिए गए हैं।
एक मॉडल वास्तव में प्रशिक्षण के दौरान ही जीवंत होता है, जब वह बार-बार अपने प्रशिक्षण डेटा सेट में पाठ के साथ अपने आउटपुट की तुलना करता है और समानता बढ़ाने के लिए अपने मापदंडों को समायोजित करता है। यादृच्छिक मापदंडों वाले एक अप्रशिक्षित नेटवर्क को कोड की कुछ पंक्तियों से इकट्ठा करना बहुत आसान है, लेकिन यह केवल अस्पष्टता पैदा करेगा। प्रशिक्षण के बाद, यह अक्सर अपरिचित पाठ को जारी रख सकता है। बड़े मॉडल अक्सर अतिरिक्त फाइन-ट्यूनिंग से गुजरते हैं जो उन्हें सवालों के जवाब देना और निर्देशों का पालन करना सिखाता है, लेकिन प्रशिक्षण का बड़ा हिस्सा शब्द भविष्यवाणी में महारत हासिल करना है।
शब्द भविष्यवाणी में सफलता के लिए कई अलग-अलग कौशलों में महारत हासिल करने के लिए एक भाषा मॉडल की आवश्यकता होती है। उदाहरण के लिए, अंग्रेजी व्याकरण के नियम बताते हैं कि पाठ के विषय की परवाह किए बिना "गोइंग" शब्द के बाद अगला शब्द "टू" होने की संभावना है। इसके अलावा, एक प्रणाली को "फ्रांस की राजधानी है" और एक अनुच्छेद को पूरा करने के लिए तथ्यात्मक ज्ञान की आवश्यकता होती है शब्द "नहीं" तर्क की प्रारंभिक समझ की आवश्यकता है।
"कच्ची भाषा बहुत जटिल है," कहा टिमोथी गुयेन, डीपमाइंड में एक मशीन लर्निंग शोधकर्ता। "दिलचस्प भाषाई क्षमताएं पैदा करने के लिए, लोगों ने 'अधिक डेटा बेहतर है' का सहारा लिया है।"
परिचय
रोनेन एल्डनएक गणितज्ञ, जो जेनरेटिव भाषा मॉडल का अध्ययन करने के लिए 2022 में माइक्रोसॉफ्ट रिसर्च में शामिल हुआ, अपनी क्षमताओं का पता लगाने के लिए एक सस्ता और तेज़ तरीका विकसित करना चाहता था। ऐसा करने का स्वाभाविक तरीका एक छोटे डेटा सेट का उपयोग करना था, और बदले में इसका मतलब था कि उसे किसी विशिष्ट कार्य में विशेषज्ञता के लिए मॉडलों को प्रशिक्षित करना होगा, ताकि वे खुद को बहुत अधिक फैला न सकें। प्रारंभ में, वह गणित की एक निश्चित श्रेणी की समस्याओं को हल करने के लिए मॉडलों को प्रशिक्षित करना चाहते थे, लेकिन एक दोपहर, अपनी 5 वर्षीय बेटी के साथ समय बिताने के बाद, उन्हें एहसास हुआ कि बच्चों की कहानियाँ एकदम उपयुक्त थीं।
उन्होंने कहा, "यह सचमुच मेरे मन में तब आया जब मैंने उसकी एक कहानी पढ़ी।"
सुसंगत बच्चों की कहानियाँ उत्पन्न करने के लिए, एक भाषा मॉडल को दुनिया के बारे में तथ्यों को सीखने, पात्रों और घटनाओं पर नज़र रखने और व्याकरण के नियमों का पालन करने की आवश्यकता होगी - बड़े मॉडलों के सामने आने वाली चुनौतियों का सरल संस्करण। लेकिन बड़े पैमाने पर डेटा सेट पर प्रशिक्षित बड़े मॉडल उन नियमों के साथ-साथ अनगिनत अप्रासंगिक विवरण सीखते हैं जो वास्तव में मायने रखते हैं। एल्डन ने आशा व्यक्त की कि बच्चों की कहानियों की संक्षिप्तता और सीमित शब्दावली छोटे मॉडलों के लिए सीखने को अधिक प्रबंधनीय बना सकती है - जिससे उन्हें प्रशिक्षित करना और समझना दोनों आसान हो जाएगा।
हालाँकि, भाषा मॉडल की दुनिया में, "छोटा" सापेक्ष है: GPT-3.5 को प्रशिक्षित करने के लिए उपयोग किए जाने वाले डेटा सेट की तुलना में एक हजार गुना छोटे डेटा सेट में अभी भी लाखों कहानियाँ शामिल होने की आवश्यकता होगी। गुयेन ने कहा, "मुझे नहीं पता कि आप कितना पैसा खर्च करना चाहते हैं, लेकिन मैं अनुमान लगा रहा हूं कि आप [कुछ मिलियन] छोटी कहानियां लिखने के लिए पेशेवरों को नियुक्त नहीं करेंगे।"
ऐसे उत्सुक पाठकों को संतुष्ट करने के लिए एक असाधारण रूप से विपुल लेखक की आवश्यकता होगी, लेकिन एल्डन के मन में कुछ उम्मीदवार थे। छोटे भाषा मॉडलों के दर्शकों के लिए बड़े लोगों की तुलना में बेहतर कौन लिख सकता है?
खिलौनों की कहानियाँ
एल्डन ने तुरंत बड़े भाषा मॉडलों द्वारा निर्मित सिंथेटिक बच्चों की कहानियों की एक लाइब्रेरी बनाने की योजना बनाई। लेकिन उन्हें जल्द ही पता चला कि अत्याधुनिक मॉडल भी स्वाभाविक रूप से बहुत रचनात्मक नहीं हैं। एल्डन ने कहा, यदि आप जीपीटी-4 को 4 साल के बच्चों के लिए उपयुक्त कहानियाँ लिखने के लिए कहते हैं, तो "लगभग पाँचवीं कहानियाँ स्लाइड से डरकर पार्क में जाने वाले बच्चों के बारे में होंगी।" जहां तक इंटरनेट का सवाल है, जाहिर तौर पर यह सर्वोत्कृष्ट प्रीस्कूल कहानी है।
इसका समाधान प्रॉम्प्ट में थोड़ी सी यादृच्छिकता जोड़ना था। सबसे पहले, एल्डन ने जीपीटी-4 का उपयोग 1,500 संज्ञाओं, क्रियाओं और विशेषणों की एक सूची तैयार करने के लिए किया, जिन्हें एक 4-वर्षीय बच्चा जानता हो सकता है - इतनी छोटी कि वह आसानी से इसे स्वयं जांच सके। फिर उन्होंने एक सरल कंप्यूटर प्रोग्राम लिखा जो बार-बार GPT-3.5 या GPT-4 को एक उम्र-उपयुक्त कहानी उत्पन्न करने के लिए प्रेरित करता था जिसमें सूची से तीन यादृच्छिक शब्द शामिल होते थे, साथ ही एक सुखद अंत या कथानक मोड़ जैसे अतिरिक्त यादृच्छिक रूप से चुने गए विवरण भी शामिल होते थे। परिणामी कहानियाँ, दयालुता से, डरावनी स्लाइडों पर कम केंद्रित थीं।
एल्डन के पास अब मांग पर प्रशिक्षण डेटा तैयार करने की एक प्रक्रिया थी, लेकिन उसे नहीं पता था कि एक कार्यात्मक मॉडल को प्रशिक्षित करने के लिए उसे कितनी कहानियों की आवश्यकता होगी, या उस मॉडल को कितना बड़ा होना चाहिए। तभी उन्होंने साथ मिलकर काम किया युआनझी लीमाइक्रोसॉफ्ट और कार्नेगी मेलन विश्वविद्यालय में एक मशीन लर्निंग शोधकर्ता, ने इस तथ्य का लाभ उठाते हुए विभिन्न संभावनाओं को आजमाया कि छोटे मॉडलों को बहुत जल्दी प्रशिक्षित किया जा सकता है। चरण 1 यह तय कर रहा था कि उनके मॉडलों का मूल्यांकन कैसे किया जाए।
परिचय
भाषा मॉडल अनुसंधान में - जैसा कि हर कक्षा में होता है - ग्रेडिंग एक कठिन विषय है। वहाँ है कोई पूर्ण रूब्रिक नहीं इसमें वह सब कुछ समाहित है जो शोधकर्ता जानना चाहते हैं, और जो मॉडल कुछ कार्यों में उत्कृष्टता प्राप्त करते हैं वे अक्सर दूसरों में शानदार ढंग से विफल हो जाते हैं। समय के साथ, शोधकर्ताओं ने स्पष्ट उत्तर वाले प्रश्नों के आधार पर विभिन्न मानक बेंचमार्क विकसित किए हैं, जो कि यदि आप विशिष्ट कौशल का मूल्यांकन करने का प्रयास कर रहे हैं तो यह एक अच्छा तरीका है। लेकिन एल्डन और ली की रुचि कुछ अधिक अस्पष्ट चीज़ों में थी: यदि आप भाषा को यथासंभव सरल बनाते हैं तो भाषा मॉडल वास्तव में कितने बड़े होने चाहिए?
एल्डन ने कहा, "सीधे यह जांचने के लिए कि मॉडल अंग्रेजी बोलता है या नहीं, मुझे लगता है कि केवल एक चीज जो आप कर सकते हैं वह है कि मॉडल को ओपन-एंडेड तरीके से अंग्रेजी उत्पन्न करने दें।"
ऐसे गुणात्मक प्रश्नों पर किसी मॉडल के प्रदर्शन को मापने के केवल दो तरीके हैं: मानव ग्रेडर पर भरोसा करें, या एक बार फिर जीपीटी-4 की ओर मुड़ें। दोनों शोधकर्ताओं ने बाद वाला रास्ता चुना, जिससे प्रभावी रूप से बड़े मॉडलों को पाठ्यपुस्तकें लिखने और निबंधों को ग्रेड देने की अनुमति मिल गई।
भागवतुला ने कहा कि उन्हें यह देखना अच्छा लगेगा कि मानव समीक्षकों की तुलना में जीपीटी-4 का मूल्यांकन कैसा है - जीपीटी-4 उन मॉडलों के प्रति पक्षपाती हो सकता है जिन्हें इसने प्रशिक्षित करने में मदद की है, और भाषा मॉडल की अपारदर्शिता ऐसे पूर्वाग्रहों को मापना कठिन बनाती है। लेकिन उन्हें नहीं लगता कि ऐसी सूक्ष्मताएं सिंथेटिक कहानियों के समान सेट पर प्रशिक्षित विभिन्न मॉडलों के बीच तुलना को प्रभावित करेंगी - एल्डन और ली के काम का मुख्य फोकस।
एल्डन और ली ने प्रशिक्षण के बाद अपने प्रत्येक छोटे मॉडल के मूल्यांकन के लिए दो-चरणीय प्रक्रिया का उपयोग किया। सबसे पहले, उन्होंने प्रशिक्षण डेटा सेट से अलग कहानी के पहले भाग के साथ छोटे मॉडल को प्रेरित किया ताकि यह 50 अलग-अलग परीक्षण कहानियों के साथ इस प्रक्रिया को दोहराते हुए एक नया अंत उत्पन्न कर सके। दूसरा, उन्होंने जीपीटी-4 को प्रत्येक छोटे मॉडल के अंत को तीन श्रेणियों - रचनात्मकता, व्याकरण और कहानी की शुरुआत के साथ निरंतरता के आधार पर ग्रेड करने का निर्देश दिया। फिर उन्होंने प्रत्येक श्रेणी में अंकों का औसत निकाला, और अंत में प्रति मॉडल तीन अंतिम ग्रेड प्राप्त किए।
इस प्रक्रिया के साथ, एल्डन और ली अंततः विभिन्न मॉडलों की तुलना करने और यह पता लगाने के लिए तैयार थे कि कौन से स्टार छात्र थे।
परीक्षण के परिणाम
कुछ प्रारंभिक अन्वेषण के बाद, दोनों शोधकर्ताओं ने लगभग 2 मिलियन कहानियों वाले एक प्रशिक्षण डेटा सेट पर समझौता किया। फिर उन्होंने टिनीस्टोरीज़ नामक इस डेटा सेट का उपयोग परतों की अलग-अलग संख्या के साथ 1 मिलियन से 30 मिलियन पैरामीटर आकार के मॉडल को प्रशिक्षित करने के लिए किया। यह त्वरित कार्य था: केवल चार जीपीयू का उपयोग करते हुए, इनमें से सबसे बड़े मॉडल को प्रशिक्षित करने में एक दिन से अधिक नहीं लगा।
सबसे छोटे मॉडलों को संघर्ष करना पड़ा। उदाहरण के लिए, एक परीक्षण कहानी की शुरुआत एक मतलबी दिखने वाले आदमी से होती है जो एक लड़की से कहता है कि वह उसकी बिल्ली ले लेगा। एक मिलियन-पैरामीटर वाली मॉडल उस उलझन में फंस गई जब लड़की बार-बार उस आदमी से कह रही थी कि वह उससे दोस्ती करना चाहती है। लेकिन बड़े वाले - जो अभी भी GPT-3.5 से हजारों गुना छोटे हैं - ने आश्चर्यजनक रूप से अच्छा प्रदर्शन किया। 28 मिलियन-पैरामीटर संस्करण ने एक सुसंगत कहानी बताई, हालांकि अंत गंभीर था: “केटी रोने लगी, लेकिन आदमी ने परवाह नहीं की। वह बिल्ली को ले गया और केटी ने अपनी बिल्ली को फिर कभी नहीं देखा। समाप्त।"
अपने स्वयं के मॉडल का परीक्षण करने के अलावा, एल्डन और ली ने OpenAI के GPT-2, 1.5 में जारी 2019 बिलियन-पैरामीटर मॉडल के लिए एक ही चुनौती पेश की। इसका प्रदर्शन बहुत खराब रहा - कहानी के अचानक समाप्त होने से पहले, आदमी ने लड़की को ले जाने की धमकी दी अदालत, जेल, अस्पताल, मुर्दाघर और अंत में श्मशान।
परिचय
गुयेन ने कहा कि यह रोमांचक है कि ऐसे छोटे मॉडल इतने धाराप्रवाह थे, लेकिन शायद आश्चर्य की बात नहीं है कि जीपीटी -2 को कार्य के साथ संघर्ष करना पड़ा: यह एक बड़ा मॉडल है लेकिन अत्याधुनिक से बहुत दूर है, और इसे बहुत अलग डेटा सेट पर प्रशिक्षित किया गया था। उन्होंने कहा, "केवल खिलौनों के साथ खेलने जैसे छोटे बच्चों के कार्यों पर प्रशिक्षण देने वाला बच्चा आपसे या मुझसे बेहतर प्रदर्शन कर सकता है।" "हम इस साधारण चीज़ में विशेषज्ञ नहीं थे।"
विभिन्न टाइनीस्टोरीज़ मॉडलों के बीच तुलना समान भ्रमित करने वाले कारकों से प्रभावित नहीं होती है। एल्डन और ली ने संकेत दिए कि कम परतों वाले लेकिन प्रति परत अधिक न्यूरॉन्स वाले नेटवर्क उन सवालों के जवाब देने में बेहतर थे जिनके लिए तथ्यात्मक ज्ञान की आवश्यकता थी; इसके विपरीत, अधिक परतों और प्रति परत कम न्यूरॉन्स वाले नेटवर्क कहानी के पहले के पात्रों और कथानक बिंदुओं पर नज़र रखने में बेहतर थे। भागवतुला को यह परिणाम विशेष रूप से दिलचस्प लगा। यदि इसे बड़े मॉडलों में दोहराया जा सकता है, तो उन्होंने कहा, "यह वास्तव में एक अच्छा परिणाम होगा जो इस काम से निकल सकता है।"
एल्डन और ली ने यह भी अध्ययन किया कि उनके छोटे मॉडलों की क्षमताएं प्रशिक्षण अवधि की अवधि पर कैसे निर्भर करती हैं। हर मामले में, मॉडलों ने पहले व्याकरण में महारत हासिल की और बाद में संगति में। एल्डन के लिए, यह पैटर्न दर्शाता है कि कैसे इनाम संरचनाओं में अंतर तंत्रिका नेटवर्क और बच्चों के बीच भाषा अधिग्रहण पैटर्न में अंतर पैदा करता है। भाषा मॉडलों के लिए, जो शब्दों की भविष्यवाणी करके सीखते हैं, "'मैं चाहता हूं' शब्दों पर प्रोत्साहन उतना ही बड़ा है जितना 'आइसक्रीम' शब्दों पर है," उन्होंने कहा। दूसरी ओर, बच्चे, "इस बात की परवाह नहीं करते कि वे कहते हैं 'मुझे कुछ आइसक्रीम चाहिए' या सिर्फ 'आइसक्रीम, आइसक्रीम, आइसक्रीम।'"
गुणवत्ता बनाम मात्रा
एल्डन और ली को उम्मीद है कि शोध अन्य शोधकर्ताओं को विभिन्न मॉडलों को प्रशिक्षित करने के लिए प्रेरित करेगा TinyStories डेटा सेट और उनकी क्षमताओं की तुलना करें। लेकिन अक्सर यह अनुमान लगाना कठिन होता है कि छोटे मॉडलों की कौन सी विशेषताएँ बड़े मॉडलों में भी दिखाई देंगी।
"शायद दृष्टि के माउस मॉडल वास्तव में मानव दृष्टि के अच्छे परदे के पीछे हैं, लेकिन क्या अवसाद के माउस मॉडल मानव अवसाद के अच्छे मॉडल हैं?" पावलिक ने कहा। "हर मामले के लिए यह थोड़ा अलग है।"
टाइनीस्टोरीज़ मॉडल की सफलता भी एक व्यापक सबक सुझाती है। प्रशिक्षण डेटा सेट संकलित करने के मानक दृष्टिकोण में इंटरनेट से पाठ को वैक्यूम करना और फिर कचरे को फ़िल्टर करना शामिल है। बड़े मॉडलों द्वारा उत्पन्न सिंथेटिक पाठ उच्च-गुणवत्ता वाले डेटा सेट को इकट्ठा करने का एक वैकल्पिक तरीका प्रदान कर सकता है जो इतना बड़ा नहीं होगा।
एल्डन ने कहा, "हमारे पास अधिक से अधिक सबूत हैं कि यह बहुत प्रभावी है, न केवल टिनीस्टोरीज़-आकार के मॉडल में बल्कि बड़े मॉडल में भी।" यह साक्ष्य एल्डन, ली और अन्य माइक्रोसॉफ्ट शोधकर्ताओं द्वारा अरब-पैरामीटर मॉडल के बारे में अनुवर्ती पत्रों की एक जोड़ी से आता है। में पहला पेपर, उन्होंने इंटरनेट से सावधानीपूर्वक क्यूरेटेड कोड के साथ-साथ GPT-3.5 द्वारा उत्पन्न कोड के स्निपेट्स का उपयोग करके प्रोग्रामिंग भाषा पायथन सीखने के लिए एक मॉडल को प्रशिक्षित किया। में दूसरा, उन्होंने एक सामान्य प्रयोजन भाषा मॉडल को प्रशिक्षित करने के लिए, विषयों की एक विस्तृत श्रृंखला को कवर करते हुए, सिंथेटिक "पाठ्यपुस्तकों" के साथ प्रशिक्षण डेटा सेट को बढ़ाया। अपने परीक्षणों में, दोनों मॉडलों की तुलना बड़े डेटा सेट पर प्रशिक्षित बड़े मॉडलों से अनुकूल रूप से की गई। लेकिन भाषा मॉडल का मूल्यांकन करना हमेशा मुश्किल होता है, और सिंथेटिक प्रशिक्षण डेटा दृष्टिकोण अभी भी अपनी प्रारंभिक अवस्था में है - अधिक स्वतंत्र परीक्षण आवश्यक हैं।
जैसे-जैसे अत्याधुनिक भाषा मॉडल बड़े होते जा रहे हैं, उनके छोटे चचेरे भाई-बहनों के आश्चर्यजनक निष्कर्ष इस बात की याद दिलाते हैं कि अभी भी बहुत कुछ है जो हम सबसे सरल मॉडल के बारे में भी नहीं समझते हैं। गुयेन को उम्मीद है कि टाइनीस्टोरीज़ द्वारा शुरू किए गए दृष्टिकोण की खोज करने वाले कई और पेपर देखने को मिलेंगे।
"सवाल यह है: आकार कहाँ और क्यों मायने रखता है?" उसने कहा। "इसका एक विज्ञान होना चाहिए, और उम्मीद है कि यह पेपर एक समृद्ध कहानी की शुरुआत है।"
- एसईओ संचालित सामग्री और पीआर वितरण। आज ही प्रवर्धित हो जाओ।
- प्लेटोडेटा.नेटवर्क वर्टिकल जेनरेटिव एआई। स्वयं को शक्तिवान बनाएं। यहां पहुंचें।
- प्लेटोआईस्ट्रीम। Web3 इंटेलिजेंस। ज्ञान प्रवर्धित। यहां पहुंचें।
- प्लेटोईएसजी. कार्बन, क्लीनटेक, ऊर्जा, पर्यावरण, सौर, कचरा प्रबंधन। यहां पहुंचें।
- प्लेटोहेल्थ। बायोटेक और क्लिनिकल परीक्षण इंटेलिजेंस। यहां पहुंचें।
- स्रोत: https://www.quantamagazine.org/tiny-language-models-thrive-with-gpt-4-as-a-teacher-20231005/
- :हैस
- :है
- :नहीं
- :कहाँ
- ][पी
- $यूपी
- 000
- 1
- 200
- 200 अरब
- 2019
- 2022
- 30
- 50
- 500
- a
- क्षमताओं
- क्षमता
- About
- अर्जन
- के पार
- जोड़ना
- इसके अलावा
- अतिरिक्त
- सटा हुआ
- लाभ
- को प्रभावित
- बाद
- फिर
- एलन
- अकेला
- साथ में
- पहले ही
- भी
- वैकल्पिक
- हमेशा
- an
- और
- एंड्रयू
- अन्य
- जवाब
- जवाब
- दिखाई देते हैं
- दृष्टिकोण
- उपयुक्त
- अभिलेखागार
- हैं
- उठता
- व्यवस्था की
- कला
- कृत्रिम
- कृत्रिम बुद्धिमत्ता
- AS
- At
- दर्शक
- संवर्धित
- लेखक
- दूर
- आधारित
- BE
- से पहले
- शुरू
- व्यवहार
- पीछे
- जा रहा है
- मानक
- बेहतर
- के बीच
- झुका हुआ
- पूर्वाग्रहों
- बड़ा
- बिलियन
- अरबों
- बिट
- के छात्रों
- दिमाग
- व्यापक
- भूरा
- लेकिन
- by
- बुलाया
- आया
- कर सकते हैं
- उम्मीदवारों
- क्षमताओं
- राजधानी
- कौन
- सावधानी से
- कार्नेगी मेलॉन
- मामला
- कैट
- श्रेणियाँ
- वर्ग
- कुछ
- चुनौती
- चुनौतियों
- विशेषताएँ
- अक्षर
- ChatGPT
- सस्ता
- चेक
- बच्चे
- चुना
- करने के लिए चुना
- कक्षा
- कोड
- सुसंगत
- आता है
- कंपनियों
- तुलना
- तुलना
- तुलना
- पूरा
- पूरा
- जटिल
- शामिल
- कंप्यूटर
- संकल्पना
- चिंतित
- कनेक्शन
- संगत
- शामिल
- शामिल हैं
- जारी रखने के
- नियंत्रण
- इसके विपरीत
- ठंडा
- इसी
- महंगा
- सका
- युगल
- कोर्ट
- कवर
- बनाना
- क्रिएटिव
- रचनात्मकता
- क्यूरेट
- तिथि
- डेटा सेट
- डेटा सेट
- दिन
- निर्णय लेने से
- Deepmind
- मांग
- अवसाद
- विस्तार
- विवरण
- विकसित करना
- विकसित
- आहार
- मतभेद
- विभिन्न
- कठिनाइयों
- सीधे
- की खोज
- अलग
- do
- कर देता है
- नहीं करता है
- dont
- कमियां
- करार दिया
- अवधि
- दौरान
- से प्रत्येक
- पूर्व
- आसान
- आसानी
- आसान
- प्रभावी
- प्रभावी रूप से
- गले लगा लिया
- समाहित
- समाप्त
- अंत
- अंग्रेज़ी
- पर्याप्त
- विशेष रूप से
- मूल्यांकन करें
- का मूल्यांकन
- मूल्यांकन
- और भी
- घटनाओं
- कभी
- प्रत्येक
- सब कुछ
- सबूत
- उदाहरण
- एक्सेल
- उत्तेजक
- उम्मीद
- अन्वेषण
- का पता लगाने
- तलाश
- असाधारण ढंग से
- का सामना करना पड़
- तथ्य
- कारकों
- तथ्यों
- असफल
- दूर
- और तेज
- कुछ
- कम
- आंकड़े
- छानने
- अंतिम
- अंत में
- खोज
- निष्कर्ष
- प्रथम
- फिट
- फोकस
- ध्यान केंद्रित
- का पालन करें
- के लिए
- पाया
- चार
- फ्रांस
- मित्रों
- से
- कार्यात्मक
- आगे
- सामान्य उद्देश्य
- उत्पन्न
- उत्पन्न
- उत्पादक
- विशाल
- लड़की
- दी
- जा
- अच्छा
- मिला
- शासित
- GPUs
- ग्रेड
- व्याकरण
- मुट्ठी
- विकट
- आगे बढ़ें
- था
- आधा
- हाथ
- खुश
- कठिन
- है
- he
- दिल
- मदद की
- सहायक
- उसे
- उच्च गुणवत्ता
- संकेत
- किराया
- उसके
- आशा
- उम्मीद है कि
- अस्पताल
- कैसे
- How To
- HTTPS
- मानव
- सैकड़ों
- i
- बर्फ
- आइसक्रीम
- विचार
- if
- दिखाता है
- तुरंत
- in
- प्रोत्साहन
- शामिल
- बढ़ना
- स्वतंत्र
- जानकारीपूर्ण
- प्रारंभिक
- शुरू में
- प्रेरित
- संस्थान
- निर्देश
- बुद्धि
- रुचि
- दिलचस्प
- इंटरफेस
- इंटरनेट
- में
- पेचीदा
- शुरू की
- IT
- आईटी इस
- खुद
- जेल
- में शामिल हो गए
- केवल
- रखना
- रखना
- जानना
- ज्ञान
- भाषा
- बड़ा
- बड़ा
- सबसे बड़ा
- बाद में
- परत
- परतों
- नेतृत्व
- जानें
- सीखा
- सीख रहा हूँ
- कम से कम
- कम
- सबक
- चलो
- दे
- Li
- पुस्तकालय
- जीवन
- पसंद
- संभावित
- सीमित
- पंक्तियां
- सूची
- थोड़ा
- तर्क
- मशीन
- यंत्र अधिगम
- पत्रिका
- मुख्य
- बनाना
- बनाता है
- निर्माण
- आदमी
- प्रबंधनीय
- बहुत
- विशाल
- मास्टर
- माहिर
- गणित
- गणितीय
- बात
- मई..
- me
- मतलब
- माप
- मेलॉन
- तरीका
- माइक्रोसॉफ्ट
- हो सकता है
- दस लाख
- लाखों
- मन
- आदर्श
- मॉडल
- धन
- अधिक
- बहुत
- प्राकृतिक
- लगभग
- आवश्यक
- आवश्यकता
- की जरूरत है
- नेटवर्क
- नेटवर्क
- तंत्रिका
- तंत्रिका नेटवर्क
- तंत्रिका जाल
- न्यूरॉन्स
- कभी नहीँ
- नया
- अगला
- गुयेन
- नहीं
- विख्यात
- संज्ञाओं
- अभी
- संख्या
- निरीक्षण
- of
- प्रस्ताव
- अक्सर
- on
- एक बार
- ONE
- लोगों
- केवल
- धुँधलापन
- OpenAI
- परिचालन
- or
- आदेश
- अन्य
- अन्य
- आउट
- उत्पादन
- के ऊपर
- अपना
- जोड़ा
- काग़ज़
- कागजात
- समानांतर
- पैरामीटर
- पार्क
- मार्ग
- अतीत
- पैटर्न
- पैटर्न उपयोग करें
- स्टाफ़
- प्रति
- उत्तम
- प्रदर्शन
- प्रदर्शन
- शायद
- अवधि
- बीड़ा उठाया
- प्लेटो
- प्लेटो डेटा इंटेलिजेंस
- प्लेटोडाटा
- खेल
- अंक
- संभावनाओं
- संभव
- तैनात
- शक्तियां
- भविष्यवाणी करना
- की भविष्यवाणी
- भविष्यवाणी
- प्रारंभिक
- प्रस्तुत
- सिद्धांत
- समस्याओं
- प्रक्रिया
- प्रक्रिया
- प्रोसेसर
- उत्पादन
- पेशेवरों
- कार्यक्रम
- प्रोग्रामिंग
- सार्वजनिक
- अजगर
- गुणात्मक
- क्वांटमगाज़ी
- प्रश्न
- प्रशन
- त्वरित
- जल्दी से
- सर्वोत्कृष्ट
- उठाना
- बिना सोचे समझे
- अनियमितता
- रेंज
- लेकर
- तेजी
- पढ़ना
- पाठकों
- तैयार
- एहसास हुआ
- वास्तव में
- हाल ही में
- भले ही
- सापेक्ष
- रिहा
- भरोसा करना
- बार बार
- दोहराया
- अपेक्षित
- की आवश्यकता होती है
- अपेक्षित
- अनुसंधान
- शोधकर्ता
- शोधकर्ताओं
- उपयुक्त संसाधन चुनें
- परिणाम
- जिसके परिणामस्वरूप
- परिणाम
- इनाम
- धनी
- लगभग
- मार्ग
- नियम
- दौड़ना
- कहा
- वही
- देखा
- कहना
- भयभीत
- विज्ञान
- वैज्ञानिक
- सीएटल
- दूसरा
- देखना
- अनुक्रमण
- सर्वर
- सेट
- सेट
- बसे
- वह
- कम
- चाहिए
- पता चला
- समान
- सरल
- सरल
- को आसान बनाने में
- केवल
- आकार
- कौशल
- स्लाइड्स
- छोटा
- छोटे
- So
- समाधान
- हल
- कुछ
- कुछ
- जल्दी
- बोलता हे
- विशेषज्ञ
- विशेषीकृत
- विशिष्ट
- बिताना
- खर्च
- विस्तार
- मानक
- तारा
- शुरू
- राज्य
- राज्य के-the-कला
- तना
- कदम
- फिर भी
- कहानियों
- कहानी
- शक्ति
- कठोर
- संरचनाओं
- छात्र
- छात्र
- अध्ययन
- अध्ययन
- विषय
- सफलता
- ऐसा
- सुझाव
- पता चलता है
- सुपर
- आश्चर्य चकित
- आश्चर्य की बात
- कृत्रिम
- प्रणाली
- सिस्टम
- लेना
- ले जा
- कार्य
- कार्य
- मिलकर
- कहना
- कह रही
- परीक्षण
- परीक्षण
- परीक्षण
- टेक्स्ट
- से
- कि
- RSI
- राज्य
- दुनिया
- लेकिन हाल ही
- उन
- अपने
- फिर
- इन
- वे
- बात
- सोचना
- इसका
- उन
- हालांकि?
- हज़ार
- हजारों
- की धमकी
- तीन
- कामयाब होना
- पहर
- बार
- सेवा मेरे
- आज का दि
- बोला था
- भी
- ले गया
- विषय
- विषय
- की ओर
- ट्रैक
- रेलगाड़ी
- प्रशिक्षित
- प्रशिक्षण
- परिणत
- वास्तव में
- कोशिश
- की कोशिश कर रहा
- मोड़
- मोड़
- दो
- आम तौर पर
- गुज़रना
- समझना
- समझ
- अनजान
- विश्वविद्यालय
- के ऊपर
- प्रयुक्त
- का उपयोग
- विभिन्न
- परिवर्तनीय
- व्यापक
- संस्करण
- संस्करणों
- बनाम
- बहुत
- दृष्टि
- करना चाहते हैं
- जरूरत है
- था
- मार्ग..
- तरीके
- we
- webp
- सप्ताह
- कुंआ
- थे
- कब
- या
- कौन कौन से
- कौन
- किसका
- क्यों
- चौड़ा
- विस्तृत श्रृंखला
- मर्जी
- साथ में
- शब्द
- शब्द
- काम
- कामकाज
- कार्य
- विश्व
- बदतर
- होगा
- लिखना
- लिखा था
- वर्ष
- आप
- जेफिरनेट