इस एआई सुपरकंप्यूटर में 13.5 मिलियन कोर हैं- और इसे केवल तीन दिनों में प्लेटोब्लॉकचैन डेटा इंटेलिजेंस में बनाया गया था। लंबवत खोज। ऐ।

इस एआई सुपरकंप्यूटर में 13.5 मिलियन कोर हैं—और इसे केवल तीन दिनों में बनाया गया था

कृत्रिम बुद्धि एक आंसू पर है। मशीनें बोल सकती हैं, लिख सकती हैं, खेल खेल सकती हैं और मूल चित्र, वीडियो और संगीत उत्पन्न कर सकती हैं। लेकिन जैसे-जैसे एआई की क्षमताएं बढ़ी हैं, वैसे-वैसे इसके एल्गोरिदम भी बढ़े हैं।

एक दशक पहले, मशीन लर्निंग एल्गोरिदम लाखों आंतरिक कनेक्शनों पर निर्भर थे, या पैरामीटर। आज के एल्गोरिदम नियमित रूप से सैकड़ों अरबों में पहुंचते हैं और यहां तक ​​कि खरबों पैरामीटर. शोधकर्ताओं का कहना है कि स्केलिंग करने से अभी भी प्रदर्शन लाभ मिलता है, और दसियों खरबों मापदंडों वाले मॉडल कम क्रम में आ सकते हैं।

इतने बड़े मॉडलों को प्रशिक्षित करने के लिए, आपको शक्तिशाली कंप्यूटरों की आवश्यकता होती है। जबकि 2010 की शुरुआत में एआई मुट्ठी भर ग्राफिक्स प्रोसेसिंग यूनिट-कंप्यूटर चिप्स पर चलता था, जो एआई-कंप्यूटिंग जरूरतों के लिए समानांतर प्रसंस्करण में उत्कृष्टता प्राप्त करता है। बेतहाशा वृद्धि हुई है, और शीर्ष मॉडलों को अब सैकड़ों या हजारों की आवश्यकता है। ओपनएआई, माइक्रोसॉफ्ट, मेटा, और अन्य कार्य को संभालने के लिए समर्पित सुपरकंप्यूटर बना रहे हैं, और उनका कहना है कि ये एआई मशीनें ग्रह पर सबसे तेज रैंक करती हैं।

लेकिन यहां तक ​​​​कि एआई स्केलिंग के लिए जीपीयू महत्वपूर्ण रहे हैं- उदाहरण के लिए, एनवीडिया का ए 100 अभी भी एआई क्लस्टर्स में सबसे तेज़, सबसे अधिक इस्तेमाल किए जाने वाले चिप्स में से एक है- विशेष रूप से एआई के लिए डिज़ाइन किए गए वीडर विकल्प हाल के वर्षों में पॉप अप हुए हैं।

सेरेब्रस ऐसा ही एक विकल्प प्रदान करता है।

एआई का भोजन बनाना

डिनर प्लेट का आकार - लगभग 8.5 इंच एक तरफ - कंपनी का वेफर स्केल इंजन है दुनिया में सबसे बड़ी सिलिकॉन चिप, एक सिलिकॉन वेफर पर 2.6 ट्रिलियन ट्रांजिस्टर और 850,000 कोर उकेरे हुए हैं। प्रत्येक वेफ़र स्केल इंजन कंपनी के CS-2 कंप्यूटर के हृदय के रूप में कार्य करता है।

अकेले, CS-2 एक जानवर है, लेकिन पिछले साल सेरेब्रस ने एक योजना का अनावरण किया CS-2s को मेमोरीएक्स नामक बाहरी मेमोरी सिस्टम के साथ जोड़ने के लिए और CS-2s को स्वार्मएक्स नामक सिस्टम से जोड़ने के लिए। कंपनी ने कहा कि नई तकनीक 192 चिप्स और ट्रेन मॉडल को आज के सबसे बड़े, सबसे उन्नत एआई से बड़े पैमाने के दो ऑर्डर से जोड़ सकती है।

सेरेब्रस के सीईओ और कोफाउंडर एंड्रयू फेल्डमैन ने कहा, "उद्योग 1-ट्रिलियन-पैरामीटर मॉडल से आगे बढ़ रहा है, और हम उस सीमा को परिमाण के दो क्रमों से बढ़ा रहे हैं, मस्तिष्क-स्तरीय तंत्रिका नेटवर्क को 120 ट्रिलियन पैरामीटर के साथ सक्षम कर रहे हैं।"

उस समय यह सब सैद्धांतिक था। लेकिन पिछले हफ्ते, द कंपनी ने घोषणा की उन्होंने 16 CS-2s को एक साथ विश्व स्तरीय AI सुपरकंप्यूटर में जोड़ा था।

एंड्रोमेडा से मिलें

नई मशीन, जिसे एंड्रोमेडा कहा जाता है, में 13.5 मिलियन कोर हैं जो 16-बिट आधी सटीकता पर एक एक्सफ़्लॉप (प्रति सेकंड एक क्विंटिलियन संचालन) पर गति करने में सक्षम हैं। इसके मूल में अद्वितीय चिप के कारण, एंड्रोमेडा की तुलना अधिक पारंपरिक सीपीयू और जीपीयू पर चलने वाले सुपर कंप्यूटरों से आसानी से नहीं की जाती है, लेकिन फेल्डमैन ने बताया एचपीसी के तार एंड्रोमेडा मोटे तौर पर Argonne National Laboratory के पोलारिस सुपरकंप्यूटर के बराबर है, जो रैंक करता है दुनिया में 17वां सबसे तेज, नवीनतम टॉप 500 सूची के अनुसार।

प्रदर्शन के अलावा, एंड्रोमेडा का त्वरित निर्माण समय, लागत और पदचिह्न उल्लेखनीय हैं। Argonne पोलारिस स्थापित करना शुरू किया 2021 की गर्मियों में, और सुपरकंप्यूटर करीब एक साल बाद लाइव हुए. इसमें 40 रैक लगते हैं, फाइलिंग-कैबिनेट जैसे बाड़े में सुपरकंप्यूटर घटक होते हैं। तुलनात्मक रूप से, एंड्रोमेडा की कीमत $35 मिलियन थी - इसकी शक्ति की एक मशीन के लिए एक मामूली कीमत - ली गई इकट्ठा करने के लिए सिर्फ तीन दिन, और मात्र 16 रैक का उपयोग करता है।

सेरेब्रस ने OpenAI के बड़े भाषा मॉडल GPT-3 के पांच संस्करणों के साथ-साथ Eleuther AI के ओपन सोर्स GPT-J और GPT-NeoX को प्रशिक्षित करके सिस्टम का परीक्षण किया। और सेरेब्रस के अनुसार, शायद सबसे महत्वपूर्ण खोज यह है कि एंड्रोमेडा ने बड़े भाषा मॉडल के लिए एआई वर्कलोड के "नियर-परफेक्ट लीनियर स्केलिंग" को प्रदर्शित किया। संक्षेप में, इसका मतलब है कि जैसे ही अतिरिक्त CS-2 जोड़े जाते हैं, प्रशिक्षण समय आनुपातिक रूप से घट जाता है।

आमतौर पर, कंपनी ने कहा, जैसे ही आप अधिक चिप्स जोड़ते हैं, प्रदर्शन लाभ कम हो जाता है। दूसरी ओर, सेरेब्रस की WSE चिप अधिक कुशलता से स्केल करने के लिए साबित हो सकती है क्योंकि इसके 850,000 कोर सिलिकॉन के एक ही टुकड़े पर एक दूसरे से जुड़े हुए हैं। और तो और, प्रत्येक कोर के ठीक बगल में एक मेमोरी मॉड्यूल है। एक साथ लिया गया, चिप कोर और मेमोरी के बीच डेटा को बंद करने में लगने वाले समय को कम कर देता है।

"लीनियर स्केलिंग का मतलब है कि जब आप एक से दो सिस्टम में जाते हैं, तो आपके काम को पूरा होने में आधा समय लगता है। कंप्यूटिंग में यह एक बहुत ही असामान्य संपत्ति है," फेल्डमैन ने बताया एचपीसी के तार. और, उन्होंने कहा, यह 16 कनेक्टेड सिस्टम से आगे बढ़ सकता है।

सेरेब्रस के स्वयं के परीक्षण से परे, रैखिक स्केलिंग के परिणाम भी Argonne National Laboratory में काम के दौरान प्रदर्शित किए गए थे जहाँ शोधकर्ताओं ने Covid-3 जीनोम के लंबे अनुक्रमों पर GPT-19-XL बड़ी भाषा एल्गोरिथम को प्रशिक्षित करने के लिए एंड्रोमेडा का उपयोग किया था।

बेशक, हालांकि सिस्टम 16 CS-2s से आगे बढ़ सकता है, किस हद तक रैखिक स्केलिंग बनी रहती है, यह देखा जाना बाकी है। इसके अलावा, हम अभी तक यह नहीं जानते हैं कि सेरेब्रस अन्य एआई चिप्स के खिलाफ आमने-सामने कैसे प्रदर्शन करता है। एनवीडिया और इंटेल जैसे एआई चिप निर्माता शुरू हो गए हैं नियमित तृतीय-पक्ष बेंचमार्किंग में भाग लेना MLperf की पसंद से। सेरेब्रस को अभी भाग लेना है।

स्पेस टू स्पेयर

फिर भी, दृष्टिकोण सुपरकंप्यूटिंग की दुनिया में अपनी जगह बना रहा है, और बड़ी भाषा एआई में निरंतर स्केलिंग एक प्रमुख उपयोग मामला है। दरअसल, फेल्डमैन बोला था वायर्ड पिछले साल कि कंपनी पहले से ही OpenAI के इंजीनियरों से बात कर रही थी, जो बड़े भाषा मॉडल में अग्रणी है। (ओपनएआई के संस्थापक, सैम ऑल्टमैन, सेरेब्रस में भी एक निवेशक हैं।)

2020 में रिलीज़ होने पर, OpenAI के बड़े भाषा मॉडल GPT-3 ने खेल को प्रदर्शन और आकार दोनों के मामले में बदल दिया। 175 बिलियन मापदंडों पर वजनी, यह उस समय का सबसे बड़ा AI मॉडल था और इसने अपनी क्षमताओं से शोधकर्ताओं को आश्चर्यचकित कर दिया था। तब से, भाषा मॉडल खरबों मापदंडों तक पहुँच चुके हैं, और बड़े मॉडल आगामी हो सकते हैं। अफवाहें हैं- बस इतना ही, अभी तक - कि OpenAI निकट भविष्य में GPT-4 जारी करेगा और यह GPT-3 से एक और छलांग होगी। (हमें उस गिनती पर प्रतीक्षा करनी होगी और देखना होगा।)

उस ने कहा, उनकी क्षमताओं के बावजूद, बड़े भाषा मॉडल न तो परिपूर्ण हैं और न ही सार्वभौमिक रूप से पसंद किए जाते हैं। उनकी खामियों में ऐसे आउटपुट शामिल हैं जो झूठे, पक्षपाती और आक्रामक हो सकते हैं। वैज्ञानिक ग्रंथों पर प्रशिक्षित मेटा का गैलेक्टिका है एक ताजा उदाहरण. एक डेटासेट के बावजूद खुले इंटरनेट पर प्रशिक्षण की तुलना में विषाक्तता का खतरा कम हो सकता है, मॉडल को आसानी से हानिकारक और गलत पाठ उत्पन्न करने के लिए उकसाया गया और केवल तीन दिनों में नीचे खींच लिया गया। क्या शोधकर्ता भाषा एआई की कमियों को हल कर सकते हैं अनिश्चित है।

लेकिन ऐसा लगता है कि स्केलिंग अप तब तक जारी रहेगा जब तक कि ह्रासमान प्रतिफल शुरू न हो जाए। अगली छलांग निकट ही हो सकती है—और हमारे पास ऐसा करने के लिए पहले से ही हार्डवेयर हो सकते हैं।

छवि क्रेडिट: सेरेब्रल

समय टिकट:

से अधिक विलक्षणता हब