گوگل اے آئی نے 30,000 گھنٹے ویڈیو گیمز دیکھے — اب یہ اپنا بناتا ہے

گوگل اے آئی نے 30,000 گھنٹے ویڈیو گیمز دیکھے — اب یہ اپنا بناتا ہے

ایک Google AI نے 30,000 گھنٹے کی ویڈیو گیمز دیکھی — اب یہ اپنا پلیٹو بلاکچین ڈیٹا انٹیلی جنس بناتا ہے۔ عمودی تلاش۔ عی

AI کافی مقدار میں روشنی اور حرارت پیدا کرتا رہتا ہے۔ ٹیکسٹ اور امیجز میں بہترین ماڈلز—اب سبسکرپشنز کو کمانڈ کر رہے ہیں اور کنزیومر پروڈکٹس میں بنے ہوئے ہیں—انچوں کا مقابلہ کر رہے ہیں۔ OpenAI، Google، اور Anthropic سبھی، کم و بیش، گردن اور گردن ہیں۔

اس کے بعد یہ کوئی تعجب کی بات نہیں ہے کہ اے آئی کے محققین تخلیقی ماڈلز کو نئے علاقے میں دھکیلنا چاہتے ہیں۔ چونکہ AI کو ڈیٹا کی بہت زیادہ مقدار کی ضرورت ہوتی ہے، اس لیے پیشن گوئی کرنے کا ایک طریقہ یہ ہے کہ معاملات کہاں جا رہے ہیں یہ دیکھنا ہے کہ کون سا ڈیٹا وسیع پیمانے پر آن لائن دستیاب ہے، لیکن پھر بھی بڑے پیمانے پر استعمال نہیں کیا گیا۔

ویڈیو، جس میں بہت کچھ ہے، ایک واضح اگلا قدم ہے۔ درحقیقت، پچھلے مہینے، OpenAI نے پیش نظارہ کیا ایک نیا ٹیکسٹ ٹو ویڈیو AI جس کا نام سورا ہے۔ جس نے تماشائیوں کو دنگ کر دیا۔

لیکن ویڈیو گیمز کا کیا ہوگا؟

پوچھیں اور وصول کریں۔

اس سے پتہ چلتا ہے کہ آن لائن گیمر کی بہت سی ویڈیوز موجود ہیں۔ گوگل ڈیپ مائنڈ کا کہنا ہے کہ اس نے 30,000 گھنٹے کی کیوریٹڈ ویڈیو فوٹیج پر ایک نئے AI، جنی کو تربیت دی جس میں گیمرز کو سادہ پلیٹ فارمرز کھیلتے ہوئے دکھایا گیا ہے۔ اب یہ اپنی مثالیں بنا سکتا ہے۔.

جنی ایک سادہ تصویر، تصویر، یا خاکے کو ایک انٹرایکٹو ویڈیو گیم میں بدل دیتا ہے۔

فوری طور پر، ایک کردار اور اس کے ارد گرد کی ڈرائنگ کا کہنا ہے کہ، AI پھر کسی کھلاڑی سے کردار کو اس کی دنیا میں منتقل کرنے کے لیے ان پٹ لے سکتا ہے۔ ایک بلاگ پوسٹ میں، ڈیپ مائنڈ نے جنی کی تخلیقات کو 2D مناظر میں گھومتے ہوئے، پلیٹ فارم کے درمیان گھومتے یا چھلانگ لگاتے ہوئے دکھایا۔ جیسے سانپ اپنی دم کھاتا ہے، ان میں سے کچھ دنیایں AI سے تیار کردہ تصاویر سے بھی حاصل کی گئی تھیں۔

روایتی ویڈیو گیمز کے برعکس، جنی ان انٹرایکٹو دنیاوں کو فریم کے لحاظ سے تیار کرتا ہے۔ حرکت کرنے کے لیے ایک پرامپٹ اور کمانڈ دیے جانے پر، یہ اگلے فریموں کی ممکنہ طور پر پیشین گوئی کرتا ہے اور انہیں اڑتے ہوئے تخلیق کرتا ہے۔ یہاں تک کہ اس نے parallax کے احساس کو شامل کرنا سیکھا، پلیٹ فارمرز میں ایک عام خصوصیت جہاں پیش منظر پس منظر سے زیادہ تیزی سے حرکت کرتا ہے۔

خاص طور پر، AI کی تربیت میں لیبل شامل نہیں تھے۔ بلکہ، جنی نے ان پٹ کمانڈز کو باہم مربوط کرنا سیکھا — جیسے، بائیں، دائیں، یا چھلانگ — ان گیم کی نقل و حرکت کے ساتھ صرف اس کی تربیت میں مثالوں کا مشاہدہ کر کے۔ یعنی، جب ویڈیو میں ایک کردار بائیں طرف چلا جاتا ہے، تو وہاں کمانڈ کو حرکت سے جوڑنے والا کوئی لیبل نہیں تھا۔ جنی نے خود ہی اس حصے کا پتہ لگایا۔ اس کا مطلب ہے، ممکنہ طور پر، مستقبل کے ورژنز کو زیادہ سے زیادہ قابل اطلاق ویڈیو پر تربیت دی جا سکتی ہے جتنی آن لائن ہے۔

AI تصور کا ایک متاثر کن ثبوت ہے، لیکن یہ ابھی تک ترقی میں بہت ابتدائی ہے، اور ڈیپ مائنڈ ابھی اس ماڈل کو پبلک کرنے کا منصوبہ نہیں بنا رہا ہے۔

گیمز بذات خود پکسلیٹڈ ورلڈز ہیں جو ایک فریم فی سیکنڈ کی رفتار سے چل رہی ہیں۔ مقابلے کے لحاظ سے، عصری ویڈیو گیمز 60 یا 120 فریم فی سیکنڈ کو مار سکتے ہیں۔ اس کے علاوہ، تمام تخلیقی الگورتھم کی طرح، جنی عجیب یا متضاد بصری نمونے تیار کرتا ہے۔ یہ "غیر حقیقی مستقبل" کو فریب دینے کا بھی خطرہ ہے۔ ٹیم نے اپنے مقالے میں AI کی وضاحت کرتے ہوئے لکھا.

اس نے کہا، یقین کرنے کی چند وجوہات ہیں جن میں یہاں سے بہتری آئے گی۔

Whipping Up Worlds

کیونکہ AI بغیر لیبل والے آن لائن ویڈیوز سے سیکھ سکتا ہے اور اب بھی ایک معمولی سائز ہے—صرف 11 بلین پیرامیٹرز—اس میں اضافہ کرنے کے کافی مواقع ہیں۔ مزید معلومات پر تربیت یافتہ بڑے ماڈل ڈرامائی طور پر بہتر ہوتے ہیں۔ اور ایک کے ساتھ بڑھتی ہوئی صنعت تخمینہ پر مرکوز ہے۔- وہ عمل جس کے ذریعے ایک تربیت یافتہ AI کام انجام دیتا ہے، جیسے کہ تصاویر یا متن بنانا — اس کے تیز تر ہونے کا امکان ہے۔

ڈیپ مائنڈ کا کہنا ہے کہ جنن لوگوں کی مدد کر سکتا ہے، جیسے کہ پیشہ ور ڈویلپرز، ویڈیو گیمز بنانے میں۔ لیکن OpenAI کی طرح — جس کا خیال ہے کہ سورا ویڈیوز سے زیادہ کے بارے میں ہے — ٹیم بڑی سوچ رہی ہے۔ نقطہ نظر ویڈیو گیمز سے آگے بڑھ سکتا ہے۔

ایک مثال: AI جو روبوٹ کو کنٹرول کر سکتا ہے۔. ٹیم نے مختلف کاموں کو مکمل کرنے والے روبوٹک ہتھیاروں کی ویڈیو پر ایک الگ ماڈل کو تربیت دی۔ ماڈل نے روبوٹ کو جوڑنا اور مختلف اشیاء کو سنبھالنا سیکھا۔

ڈیپ مائنڈ نے یہ بھی کہا کہ جنی سے تیار کردہ ویڈیو گیم ماحول AI ایجنٹوں کو تربیت دینے کے لیے استعمال کیا جا سکتا ہے۔ یہ کوئی نئی حکمت عملی نہیں ہے۔ 2021 کے ایک مقالے میں، ایک اور ڈیپ مائنڈ ٹیم نے XLand نامی ایک ویڈیو گیم کا خاکہ پیش کیا۔ جو کہ AI ایجنٹوں اور ایک AI اوور لارڈ کے ذریعہ تیار کیا گیا تھا جو انہیں چیلنج کرنے کے لیے ٹاسک اور گیمز تیار کرتا ہے۔ یہ خیال کہ AI میں اگلے بڑے قدم کے لیے الگورتھم کی ضرورت ہوگی جو ایک دوسرے کو تربیت دے سکیں یا مصنوعی تربیتی ڈیٹا تیار کر سکیں۔ کرشن حاصل کرنا.

یہ سب AI میں پیشرفت دکھانے کے لیے OpenAI اور Google کے درمیان ایک شدید مقابلے کا تازہ ترین سالو ہے۔ جبکہ دوسرے میدان میں، انتھروپک کی طرح، GPT-4 کی طرح ملٹی موڈل ماڈلز کو آگے بڑھا رہے ہیں، گوگل اور اوپن اے آئی بھی الگورتھم پر توجہ مرکوز کرتے نظر آتے ہیں جو دنیا کی تقلید کرتے ہیں۔ اس طرح کے الگورتھم منصوبہ بندی اور تعامل میں بہتر ہوسکتے ہیں۔ دونوں AI ایجنٹوں کے لیے اہم مہارتیں ہوں گی جو دونوں تنظیمیں تیار کرنے کا ارادہ رکھتی ہیں۔

"جینی کو ایسی تصاویر کے ساتھ اشارہ کیا جا سکتا ہے جو اس نے پہلے کبھی نہیں دیکھی ہیں، جیسے کہ حقیقی دنیا کی تصاویر یا خاکے، جو لوگوں کو ان کی تصوراتی ورچوئل دنیا کے ساتھ بات چیت کرنے کے قابل بناتے ہیں - بنیادی طور پر دنیا کے ایک بنیادی ماڈل کے طور پر کام کرتے ہیں،" محققین نے لکھا۔ جنی بلاگ پوسٹ. "ہم توجہ مرکوز کرتے ہیں 2D پلیٹفارمر گیمز اور روبوٹکس کی ویڈیوز لیکن ہمارا طریقہ عمومی ہے اور اسے کسی بھی قسم کے ڈومین کے لیے کام کرنا چاہیے، اور یہ کبھی بھی بڑے انٹرنیٹ ڈیٹاسیٹس کے لیے قابل توسیع ہے۔"

اسی طرح، جب اوپن اے آئی نے پچھلے مہینے سورا کا پیش نظارہ کیا، محققین نے مشورہ دیا کہ اس سے کچھ اور بنیادی بات ہو سکتی ہے: ایک عالمی سمیلیٹر۔ یعنی، ایسا لگتا ہے کہ دونوں ٹیمیں آن لائن ویڈیو کے بہت زیادہ ذخیرہ کو AI کو اپنی ویڈیو بنانے کے لیے تربیت دینے کے طریقے کے طور پر دیکھتی ہیں، ہاں، بلکہ دنیا میں، آن لائن یا آف، زیادہ مؤثر طریقے سے سمجھنے اور کام کرنے کے لیے بھی۔

آیا یہ منافع دیتا ہے، یا پائیدار طویل مدتی ہے، یہ ایک کھلا سوال ہے۔ انسانی دماغ روشنی کے بلب کی طاقت پر کام کرتا ہے۔ جنریٹو AI پورے ڈیٹا سینٹرز کو استعمال کرتا ہے۔ لیکن یہ بہتر ہے کہ ابھی کھیل میں موجود قوتوں کو کم نہ سمجھا جائے — ٹیلنٹ، ٹیک، دماغ، اور نقد کے لحاظ سے — جس کا مقصد نہ صرف AI کو بہتر بنانا ہے بلکہ اسے مزید موثر بنانا ہے۔

ہم نے متن، تصاویر، آڈیو، اور تینوں میں ایک ساتھ متاثر کن پیش رفت دیکھی ہے۔ ویڈیوز برتن میں پھینکا جانے والا اگلا جزو ہے، اور وہ اس سے بھی زیادہ طاقتور مرکب بنا سکتے ہیں۔

تصویری کریڈٹ: Google DeepMind

ٹائم اسٹیمپ:

سے زیادہ یکسانیت مرکز