मेटा के मेगा लैंग्वेज मॉडल लीक के रूप में LLaMA ड्रामा

मेटा के मेगा लैंग्वेज मॉडल लीक के रूप में LLaMA ड्रामा

मेटा के मेगा भाषा मॉडल के रूप में एलएलएएमए नाटक प्लेटोब्लॉकचेन डेटा इंटेलिजेंस को लीक करता है। लंबवत खोज. ऐ.

LLaMA, मेटा का नवीनतम बड़ा भाषा मॉडल, ऑनलाइन लीक हो गया है और केवल अनुसंधान उद्देश्यों के लिए पहुंच को सीमित करने के स्पष्ट प्रयासों के बावजूद डाउनलोड के लिए उपलब्ध है।

फेसबुक का मालिक की घोषणा फरवरी में यह डर के साथ खेलने के लिए शिक्षाविदों, सरकारी प्रकारों और कंपनियों का चयन करने के लिए एक सीमित फैशन में मॉडल जारी कर रहा था लामा दुरूपयोग किया जा सकता है। लेकिन जानकारी मुक्त होना चाहती है, या कम से कम कुछ लोग चाहते हैं कि यह हो, और मेटा के निर्माण ने वैसे भी ऑनलाइन अपना रास्ता खोज लिया है, जिसकी शुरुआत टोरेंट लीक से हुई है।

वाक्य-भविष्यवाणी करने वाले बड़े भाषा मॉडल, जो इनपुट संकेतों से पाठ के अंश उत्पन्न करते हैं, लगातार विकसित हुए हैं, किसी के लेखन को स्वत: पूरा करने से लेकर प्राकृतिक भाषा का उपयोग करने के लिए कहे जाने पर कार्य करने में सक्षम चैटबॉट तक।

विशेषज्ञों ने चेतावनी दी है कि इस तकनीक का इस्तेमाल आने वाले वर्षों में बड़ी मात्रा में नकली समाचार, स्पैम, फ़िशिंग ईमेल, गलत सूचना, उकसावे के निर्माण को स्वचालित करने के लिए किया जा सकता है। इन मॉडलों का निर्माण करने वाले संगठन अक्सर सॉफ्टवेयर को एपीआई के पीछे लपेटे में रखते हैं, या सीमित संस्करण या डेमो जारी करते हैं। 

"बड़े भाषा मॉडल में पूर्वाग्रह, जहरीली टिप्पणियों और मतिभ्रम के जोखिमों को दूर करने के लिए अभी और अधिक शोध किए जाने की आवश्यकता है," मेटा कहा पिछले सप्ताह।

"अन्य मॉडलों की तरह, LLaMA इन चुनौतियों को साझा करता है। एक नींव मॉडल के रूप में, LLaMA को बहुमुखी होने के लिए डिज़ाइन किया गया है और इसे कई अलग-अलग उपयोग के मामलों में लागू किया जा सकता है, एक विशिष्ट कार्य के लिए डिज़ाइन किए गए ठीक-ट्यून मॉडल की तुलना में।

"ईमानदारी बनाए रखने और दुरुपयोग को रोकने के लिए, हम अनुसंधान उपयोग के मामलों पर केंद्रित एक गैर-वाणिज्यिक लाइसेंस के तहत अपना मॉडल जारी कर रहे हैं। अकादमिक शोधकर्ताओं को मामले-दर-मामले के आधार पर मॉडल तक पहुंच प्रदान की जाएगी; जो सरकार, नागरिक समाज और शिक्षा जगत के संगठनों से संबद्ध हैं; और दुनिया भर में उद्योग अनुसंधान प्रयोगशालाएँ।

कैसे करें मार्गदर्शक

लेकिन मेटा के एलएलएएमए तक पहुंच को नियंत्रित करने के प्रयास व्यर्थ प्रतीत होते हैं, या ऐसा प्रतीत होता है। मॉडल को चुनिंदा बोफिन्स, और उद्योग और नागरिक समाज के लोगों के साथ साझा करने के तुरंत बाद, 4Chan पर किसी ने पीयर-टू-पीयर फ़ाइल शेयरिंग के माध्यम से पूरे मॉडल को प्राप्त करने के बारे में विवरण पोस्ट किया, और अंततः यह सब कैसे डाउनलोड करना है, इस पर निर्देश GitHub पर प्रकाशित किए गए थे।

हमेशा की तरह, इस तरह के सामान को टोरेंट से लाते समय सावधानी बरतें, अगर किसी ने वहां कुछ नापाक चीज छिपाई हो। हमें बताया गया है कि 65 बिलियन-पैरामीटर मॉडल लगभग 220GB डिस्क स्थान लेता है।

हम ध्यान दें कि GitHub के माध्यम से उपलब्ध LLaMA की प्रतियां वैध प्रतीत होती हैं। शॉन प्रेसर, ए एआई इंजीनियर जिसने माइक्रोसॉफ्ट की कोड-शेयरिंग साइट पर डाउनलोड निर्देश लिखे, उसने हमें मॉडल से सफलतापूर्वक टेक्स्ट जेनरेट करने के स्क्रीनशॉट दिखाए। उनका मानना ​​है कि एक शोधकर्ता, जिसे मेटा से मॉडल तक पहुंच दी गई थी, ने इसे लीक कर दिया, जिससे संभवतः इसका उम्मीद से अधिक व्यापक वितरण हुआ।

अपने षड्यंत्र सिद्धांत इंजन प्रारंभ करें।

प्रेसर का मानना ​​​​है कि मॉडल को बिना किसी चेतावनी के स्वतंत्र रूप से जारी करना इसे केवल स्वीकृत शिक्षाविदों तक सीमित करने से बेहतर है। "मुझे लगता है कि अच्छाई बुराई से कम से कम दस गुना अधिक होगी। शायद 100x के करीब," उन्होंने बताया रजिस्टर

प्रशिक्षण और अत्याधुनिक बड़े भाषा मॉडल चलाना महंगा है, आम तौर पर बोलना; केवल वे संगठन जिनके पास जीपीयू और अन्य बुनियादी ढांचे के ढेर तक पहुंच है, वे उन्हें बनाने, ट्विक करने और परीक्षण करने की स्थिति में हैं। मेटा में एआई शोधकर्ता छोटे होने के लिए LLaMA का निर्माण किया, इसे आज के वाणिज्यिक मॉडलों की तुलना में अधिक कॉम्पैक्ट बनाते हुए और इस प्रकार गैर-तुच्छ आईटी बजट के बिना शिक्षाविदों और डेवलपर्स के लिए अधिक सुलभ है। 

मेटा के मशीन-लर्निंग गुरुओं ने दावा किया कि उनका सिस्टम ओपनएआई के जीपीटी-3 से बेहतर प्रदर्शन करता है और अन्य बड़े भाषा मॉडल, जैसे कि Google के 540-बिलियन-पैरामीटर PaLM या डीपमाइंड के 70-बिलियन-पैरामीटर चिनचिला जितना अच्छा है। छोटे आकार का मतलब है कि उन वैज्ञानिकों के लिए इसका उपयोग करना आसान होना चाहिए जिनके पास कम कम्प्यूटेशनल संसाधन हैं। और हाँ, वहाँ सभी आकृतियों और आकारों के ढेर सारे भाषा मॉडल मौजूद हैं; यह केवल OpenAI और Facebook से कहीं अधिक है।

LLaMA को इसे चलाने के लिए अभी भी सैकड़ों गीगाबाइट स्टोरेज और अच्छी मात्रा में कंप्यूटिंग की आवश्यकता होती है। मॉडल को तैयार करना और चलाना भी आसान नहीं है, जब तक कि आप इस तरह की प्रणालियों को संभालने के आदी न हों, और इसे और अधिक नापाक गतिविधियों के लिए पुन: उपयोग करने के लिए अतिरिक्त तकनीकी विशेषज्ञता की भी आवश्यकता होगी। मॉडल लीक होने के बावजूद, मेटा ने कहा कि वह LLaMA को केवल चयनित शोधकर्ताओं के साथ साझा करना जारी रखेगा। 

हमारा मानना ​​है कि मौजूदा रिलीज रणनीति हमें जिम्मेदारी और खुलेपन को संतुलित करने की अनुमति देती है

एक प्रवक्ता ने बताया, "यह मेटा का लक्ष्य अनुसंधान समुदाय के सदस्यों के साथ अत्याधुनिक एआई मॉडल साझा करना है ताकि हमें उन मॉडलों का मूल्यांकन और सुधार करने में मदद मिल सके।" रजिस्टर.

“LLaMA को अनुसंधान उद्देश्यों के लिए साझा किया गया था, जो इस बात के अनुरूप है कि हमने पिछले बड़े भाषा मॉडल कैसे साझा किए हैं। जबकि मॉडल सभी के लिए सुलभ नहीं है, और कुछ ने अनुमोदन प्रक्रिया को दरकिनार करने की कोशिश की है, हम मानते हैं कि वर्तमान रिलीज़ रणनीति हमें जिम्मेदारी और खुलेपन को संतुलित करने की अनुमति देती है।

दूसरे शब्दों में, फेसबुक समूह अपनी तकनीक को वितरित करने के अपने दृष्टिकोण के साथ खड़ा है।

बड़े भाषा मॉडल जारी करने के मेटा के हाल के प्रयास सुचारू रूप से नहीं चले हैं। पिछले साल इसका बातूनी BlenderBot था आलोचना गलत सूचना और सेमेटिक विरोधी विचारों को फैलाने के लिए। गैलेक्टिका, वैज्ञानिक ज्ञान को संक्षेप में प्रस्तुत करने के लिए डिजाइन किया गया था हटाया फर्जी और नस्लवादी सामग्री बनाने के लिए इसे लॉन्च किए जाने के तीन दिन बाद। ®

समय टिकट:

से अधिक रजिस्टर