सिंगल इमेज से Google का जिन्न AI क्राफ्ट गेम्स

एकल छवियों से Google का जिन्न AI क्राफ्ट गेम्स

Google ने कृत्रिम बुद्धिमत्ता में अपने चल रहे निवेश के हिस्से के रूप में, मोबाइल गेम बनाने के लिए एक ऐप जिनी की घोषणा की है। 

Google के AI स्टार्टअप डीपमाइंड द्वारा विकसित जेनरेटिव AI मॉडल जिनी ने एक लाइव डेमो प्रदर्शित किया। जिन्न सैकड़ों हजारों गेमप्ले वीडियो से गेम मैकेनिक्स सीखता है और न्यूनतम संकेतों के साथ खेलने योग्य गेम तैयार कर सकता है।

यह भी पढ़ें: फिगर एआई श्रम-समाधान ह्यूमनॉइड रोबोटिक्स के लिए $675 मिलियन जुटाएगा

जिन्न का अनावरण

जैसा कि Google के आधिकारिक डीपमाइंड में कहा गया है ब्लॉग पोस्ट, जिनी एक मूलभूत विश्व मॉडल है जिसे ऑनलाइन वीडियो का उपयोग करके प्रशिक्षित किया गया है। मॉडल द्वारा "सिंथेटिक छवियों, तस्वीरों और यहां तक ​​कि रेखाचित्रों से खेलने योग्य (क्रिया-नियंत्रित) दुनिया की एक अंतहीन विविधता" का उत्पादन किया जा सकता है।

जेनी, जनरेटिव इंटरैक्टिव एनवायरनमेंट का संक्षिप्त रूप, Google और ब्रिटिश कोलंबिया विश्वविद्यालय के बीच साझेदारी में विकसित किया गया था। केवल एक छवि के साथ, यह उपयोगकर्ता संकेतों के आधार पर कॉन्ट्रा और सुपर मारियो ब्रदर्स जैसे साइड-स्क्रॉलिंग 2डी प्लेटफ़ॉर्मर उत्पन्न कर सकता है।

हालाँकि, Google DeepMind ने घोषणा के दौरान कहा कि वह जिनी के रूप में जनरेटिव आर्टिफिशियल इंटेलिजेंस (AI) के लिए एक "नया प्रतिमान" पेश कर रहा है। इसके अतिरिक्त, कंपनी ने भाषा, छवियों और यहां तक ​​कि वीडियो के माध्यम से उपन्यास और रचनात्मक सामग्री उत्पन्न करने में सक्षम जेनेरिक एआई मॉडल के उद्भव को स्वीकार किया।

Google के अनुसार, 200,000 घंटों के बिना पर्यवेक्षित सार्वजनिक इंटरनेट गेमिंग वीडियो का एक महत्वपूर्ण हिस्सा जिन पर जिनी को प्रशिक्षित किया गया था, पूर्ण आभासी वास्तविकता गेम के बजाय 2D प्लेटफ़ॉर्मर हैं।

जिन्न की विशिष्टताएँ

जब आयामों की बात आती है, तो जिन्न 11 बिलियन मापदंडों पर खड़ा होता है। मॉडल में एक स्पेटियोटेम्पोरल वीडियो टोकननाइज़र, एक ऑटोरेग्रेसिव डायनेमिक्स मॉडल और एक सरल और स्केलेबल अव्यक्त एक्शन मॉडल भी शामिल है। ये विशिष्टताएं जिनी को प्रशिक्षण के दौरान लेबल या अन्य डोमेन-विशिष्ट आवश्यकताओं के बिना भी, फ्रेम-दर-फ्रेम उत्पन्न वातावरण में कार्य करने में सक्षम बनाती हैं।

इसके अतिरिक्त, केवल-वीडियो डेटा पर प्रशिक्षित होने के बावजूद, जिनी को इंटरैक्टिव और नियंत्रणीय वातावरण का एक विविध सेट उत्पन्न करने का निर्देश दिया जा सकता है। जिन्न कई जेनेरिक एआई मॉडल के विपरीत, जो भाषाई छवियों और यहां तक ​​कि वीडियो के साथ रचनात्मक सामग्री का उत्पादन कर सकते हैं, सिर्फ एक इमेज प्रॉम्प्ट के साथ खेलने योग्य वातावरण बना सकता है।

हालाँकि, Google DeepMind डेवलपर टिम रॉकटाशेल ने एक्स (पूर्व में ट्विटर) पर कहा कि वे आगमनात्मक पूर्वाग्रहों को जोड़ने के बजाय पैमाने पर ध्यान केंद्रित करते हैं।

उन्होंने कहा कि वे 200डी प्लेटफॉर्मर्स से 2k घंटे से अधिक के वीडियो के डेटासेट का उपयोग करते हैं और 11बी विश्व मॉडल को प्रशिक्षित करते हैं। बिना पर्यवेक्षित तरीके से, जिन्न विभिन्न अव्यक्त क्रियाओं को सीखता है जो लगातार पात्रों को नियंत्रित करती हैं।

सिंगल इमेज से Google का जिन्न AI क्राफ्ट गेम्स
फोटो साभार: गूगल

जिन्न की क्षमताएँ

के अनुसार गूगल शोधकर्ताओं, जिन्न तीन मॉडलों द्वारा संचालित होता है: एक गतिशील मॉडल जो भविष्यवाणी करता है कि अगले फ्रेम में क्या होगा, एक वीडियो टोकननाइज़र जो कच्चे वीडियो फ्रेम को अलग टोकन में बदल देता है, और एक अव्यक्त एक्शन मॉडल जो वीडियो फ्रेम के बीच की क्रियाओं का अनुमान लगा सकता है।

एक्शन या टेक्स्ट एनोटेशन पर प्रशिक्षित किए बिना गेम के प्राथमिक चरित्र की पहचान करने की जिनी के मूलभूत मॉडल की क्षमता इसकी अनूठी विशेषताओं में से एक है। इसे चलाने वाले मॉडलों के लिए धन्यवाद, उपयोगकर्ता आसानी से चरित्र को नियंत्रित कर सकता है ऐ-जनरेटेड आभासी वास्तविकता वातावरण.

रॉकटाशेल ने यह भी कहा कि जिनी अन्य मीडिया को गेम में बदल सकता है। जिन्न को Google DeepMind अनुसंधान पत्र में विभिन्न इनपुट से विभिन्न क्रिया-नियंत्रणीय आभासी दुनिया बनाने के लिए कहा जा सकता है।

इसके अलावा, रॉकटाशेल ने कहा कि मॉडल किसी भी छवि को खेलने योग्य 2डी दुनिया में बदल सकता है। उनके अनुसार, जिन्न मानव-डिज़ाइन की गई रचनाओं जैसे रेखाचित्र, उदाहरण के लिए, सेनेका और कैस्पियन की सुंदर कलाकृतियाँ, जो दुनिया के अब तक के दो सबसे कम उम्र के रचनाकारों हैं, को जीवंत कर सकता है।

समय टिकट:

से अधिक मेटान्यूज