Google AI ดูวิดีโอเกม 30,000 ชั่วโมง—ตอนนี้กลายเป็นของตัวเองแล้ว

Google AI ดูวิดีโอเกม 30,000 ชั่วโมง—ตอนนี้กลายเป็นของตัวเองแล้ว

Google AI ดูวิดีโอเกม 30,000 ชั่วโมง—ตอนนี้สร้างข้อมูลอัจฉริยะของ PlatoBlockchain ของตัวเองแล้ว ค้นหาแนวตั้ง AI.

AI ยังคงสร้างแสงสว่างและความร้อนอย่างต่อเนื่อง โมเดลที่ดีที่สุดในข้อความและรูปภาพ—ซึ่งปัจจุบันรองรับการสมัครสมาชิกและถูกถักทอเป็นสินค้าอุปโภคบริโภค—กำลังแข่งขันกันในระดับนิ้ว OpenAI, Google และ Anthropic ล้วนแต่เป็นคอและคอไม่มากก็น้อย

จึงไม่น่าแปลกใจเลยที่นักวิจัย AI กำลังมองหาที่จะผลักดันโมเดลเชิงกำเนิดไปสู่ดินแดนใหม่ เนื่องจาก AI ต้องการข้อมูลจำนวนมหาศาล วิธีหนึ่งในการคาดการณ์ว่าสิ่งต่างๆ จะเป็นอย่างไรต่อไปคือการดูว่าข้อมูลใดบ้างที่หาได้ทั่วไปทางออนไลน์ แต่ส่วนใหญ่ยังไม่ได้นำไปใช้

วิดีโอที่มีมากมายเป็นขั้นตอนต่อไปที่ชัดเจน อันที่จริงเมื่อเดือนที่แล้ว OpenAI ได้แสดงตัวอย่างแล้ว AI การแปลงข้อความเป็นวิดีโอใหม่ที่เรียกว่า Sora ที่ทำให้ผู้พบเห็นตะลึง

แต่แล้ววิดีโอเกม…ล่ะ?

ถามและรับ

ปรากฎว่ามีวิดีโอเกมเมอร์ออนไลน์อยู่บ้าง Google DeepMind กล่าวว่าได้ฝึกฝน AI ตัวใหม่ Genie บนวิดีโอความยาว 30,000 ชั่วโมงที่รวบรวมไว้ซึ่งแสดงให้นักเล่นเกมเล่นเกมแพลตฟอร์มง่ายๆ ลองนึกถึงเกม Nintendo ยุคแรกๆ และ ตอนนี้มันสามารถสร้างตัวอย่างของตัวเองได้แล้ว.

Genie เปลี่ยนรูปภาพ ภาพถ่าย หรือภาพร่างธรรมดาให้เป็นวิดีโอเกมแบบโต้ตอบ

เมื่อได้รับแจ้ง เช่น วาดภาพตัวละครและสภาพแวดล้อม AI สามารถรับข้อมูลจากผู้เล่นเพื่อเคลื่อนย้ายตัวละครผ่านโลกของมัน ในบล็อกโพสต์ DeepMind แสดงให้เห็นผลงานสร้างสรรค์ของ Genie ที่ใช้ทิวทัศน์ 2 มิติ เดินไปรอบๆ หรือกระโดดไปมาระหว่างแพลตฟอร์ม เช่นเดียวกับงูที่กินหาง โลกเหล่านี้บางส่วนมีที่มาจากภาพที่ AI สร้างขึ้นด้วยซ้ำ

ตรงกันข้ามกับวิดีโอเกมทั่วไป Genie สร้างโลกเชิงโต้ตอบเหล่านี้ทีละเฟรม เมื่อได้รับแจ้งและคำสั่งให้ย้าย ระบบจะคาดการณ์เฟรมถัดไปที่น่าจะเป็นไปได้มากที่สุดและสร้างเฟรมเหล่านั้นได้ทันที มันยังเรียนรู้ที่จะรวมความรู้สึกของพารัลแลกซ์ ซึ่งเป็นคุณสมบัติทั่วไปในเกมแพลตฟอร์มที่พื้นหน้าเคลื่อนที่เร็วกว่าพื้นหลัง

น่าสังเกตที่การฝึกอบรมของ AI ไม่มีป้ายกำกับ แต่ Genie เรียนรู้ที่จะเชื่อมโยงคำสั่งอินพุต เช่น ไปทางซ้าย ขวา หรือกระโดด กับการเคลื่อนไหวในเกม เพียงแค่สังเกตตัวอย่างในการฝึกฝน นั่นคือเมื่อตัวละครในวิดีโอย้ายไปทางซ้าย ไม่มีป้ายกำกับที่เชื่อมโยงคำสั่งกับการเคลื่อนไหว จีนี่คิดส่วนนั้นออกมาด้วยตัวเอง นั่นหมายความว่าเวอร์ชันในอนาคตอาจมีการฝึกอบรมเกี่ยวกับวิดีโอที่เกี่ยวข้องได้มากเท่ากับที่มีทางออนไลน์

AI เป็นข้อพิสูจน์แนวคิดที่น่าประทับใจ แต่ยังอยู่ในช่วงเริ่มต้นของการพัฒนา และ DeepMind ยังไม่ได้วางแผนที่จะเผยแพร่แบบจำลองสู่สาธารณะ

เกมดังกล่าวเป็นโลกแบบพิกเซลที่สตรีมมิ่งด้วยความเร็วหนึ่งเฟรมต่อวินาที เมื่อเปรียบเทียบกันแล้ว วิดีโอเกมร่วมสมัยสามารถแสดงผลได้ที่ 60 หรือ 120 เฟรมต่อวินาที นอกจากนี้ เช่นเดียวกับอัลกอริธึมกำเนิดทั้งหมด Genie สร้างสิ่งประดิษฐ์ทางภาพที่แปลกหรือไม่สอดคล้องกัน นอกจากนี้ยังมีแนวโน้มที่จะทำให้เกิดภาพหลอน "อนาคตที่ไม่สมจริง" ทีมงานเขียนไว้ในรายงานที่อธิบายถึง AI.

ที่กล่าวว่ามีเหตุผลบางประการที่เชื่อได้ว่า Genie จะปรับปรุงจากที่นี่

วิปปิ้งโลก

เนื่องจาก AI สามารถเรียนรู้จากวิดีโอออนไลน์ที่ไม่มีป้ายกำกับและยังมีขนาดที่พอเหมาะ—เพียง 11 พันล้านพารามิเตอร์—จึงมีโอกาสมากมายที่จะขยายขนาด โมเดลขนาดใหญ่ที่ได้รับการฝึกอบรมเกี่ยวกับข้อมูลเพิ่มเติมมักจะได้รับการปรับปรุงอย่างมาก และด้วยก อุตสาหกรรมที่กำลังเติบโตมุ่งเน้นไปที่การอนุมาน—กระบวนการที่ AI ที่ได้รับการฝึกมาทำงาน เช่น การสร้างรูปภาพหรือข้อความ—มีแนวโน้มว่าจะเร็วขึ้น

DeepMind กล่าวว่า Genie สามารถช่วยเหลือผู้คนได้ เช่นเดียวกับนักพัฒนามืออาชีพ ในการสร้างวิดีโอเกม แต่เช่นเดียวกับ OpenAI ที่เชื่อว่า Sora เป็นมากกว่าวิดีโอ ทีมกำลังคิดใหญ่ขึ้น วิธีการนี้สามารถไปได้ดีกว่าวิดีโอเกม

ตัวอย่างหนึ่ง: AI ที่สามารถควบคุมหุ่นยนต์ได้. ทีมงานได้ฝึกโมเดลแยกต่างหากในวิดีโอเกี่ยวกับแขนหุ่นยนต์ที่ทำงานต่างๆ แบบจำลองได้เรียนรู้ที่จะควบคุมหุ่นยนต์และจัดการกับวัตถุต่างๆ

DeepMind ยังกล่าวอีกว่าสภาพแวดล้อมวิดีโอเกมที่สร้างโดย Genie สามารถใช้ในการฝึกอบรมตัวแทน AI ได้ มันไม่ใช่กลยุทธ์ใหม่ ในรายงานปี 2021 อีกฉบับหนึ่ง ทีม DeepMind สรุปวิดีโอเกมชื่อ XLand ที่ถูกเติมโดยเจ้าหน้าที่ AI และเจ้าเหนือหัวของ AI ที่สร้างภารกิจและเกมเพื่อท้าทายพวกเขา แนวคิดที่ว่าก้าวสำคัญต่อไปของ AI จะต้องใช้อัลกอริธึมที่สามารถฝึกอบรมซึ่งกันและกันหรือสร้างข้อมูลการฝึกอบรมแบบสังเคราะห์ได้ ดึงดูดฉุด.

ทั้งหมดนี้ถือเป็นการระดมพลครั้งล่าสุดในการแข่งขันอันดุเดือดระหว่าง OpenAI และ Google เพื่อแสดงความก้าวหน้าในด้าน AI ขณะที่คนอื่นๆ ในวงการ เหมือนมานุษยวิทยากำลังพัฒนาโมเดลหลายรูปแบบที่ก้าวหน้าคล้ายกับ GPT-4 ดูเหมือนว่า Google และ OpenAI จะมุ่งเน้นไปที่อัลกอริธึมที่จำลองโลก อัลกอริธึมดังกล่าวอาจจะดีกว่าในการวางแผนและการโต้ตอบ ทั้งสองจะเป็นทักษะที่สำคัญสำหรับตัวแทน AI ที่ทั้งสององค์กรดูเหมือนจะตั้งใจผลิต

“จินนี่สามารถถูกกระตุ้นด้วยภาพที่ไม่เคยเห็นมาก่อน เช่น ภาพถ่ายหรือภาพร่างในโลกแห่งความเป็นจริง ทำให้ผู้คนสามารถโต้ตอบกับโลกเสมือนจริงที่พวกเขาจินตนาการได้ โดยทำหน้าที่เป็นแบบจำลองของโลกพื้นฐาน” นักวิจัยเขียนไว้ใน โพสต์ในบล็อกของ จีนี่. “เรามุ่งเน้นที่ วิดีโอของเกมแพลตฟอร์ม 2 มิติและหุ่นยนต์ แต่วิธีการของเราเป็นแบบทั่วไปและควรใช้ได้กับโดเมนทุกประเภท และสามารถปรับขนาดชุดข้อมูลอินเทอร์เน็ตที่ใหญ่ขึ้นได้”

ในทำนองเดียวกัน เมื่อ OpenAI ดูตัวอย่าง Sora เมื่อเดือนที่แล้ว นักวิจัยแนะนำว่าอาจประกาศบางสิ่งที่เป็นรากฐานมากกว่านั้น นั่นก็คือ เครื่องจำลองโลก นั่นคือทั้งสองทีมดูเหมือนจะมองว่าแคชขนาดมหึมาของวิดีโอออนไลน์เป็นวิธีฝึก AI ให้สร้างวิดีโอของตัวเอง ใช่ แต่ยังช่วยให้เข้าใจและดำเนินการในโลกออนไลน์หรือออฟไลน์ได้อย่างมีประสิทธิภาพมากขึ้น

ไม่ว่าสิ่งนี้จะจ่ายเงินปันผลหรือยั่งยืนในระยะยาวหรือไม่นั้นเป็นคำถามเปิด สมองของมนุษย์ทำงานโดยใช้พลังงานที่มีมูลค่าเท่ากับหลอดไฟ generative AI ใช้ศูนย์ข้อมูลทั้งหมด แต่เป็นการดีที่สุดที่จะไม่ดูถูกดูแคลนกองกำลังที่กำลังเล่นอยู่ในตอนนี้ ในแง่ของความสามารถ เทคโนโลยี สมอง และเงินสด โดยมีเป้าหมายที่ไม่เพียงแต่ปรับปรุง AI แต่ยังทำให้มีประสิทธิภาพมากขึ้นอีกด้วย

เราได้เห็นความก้าวหน้าที่น่าประทับใจในด้านข้อความ รูปภาพ เสียง และทั้งสามอย่างพร้อมกัน วิดีโอคือส่วนผสมถัดไปที่ถูกโยนลงในหม้อ และอาจช่วยเพิ่มประสิทธิภาพในการชงอีกด้วย

เครดิตภาพ: Google DeepMind

ประทับเวลา:

เพิ่มเติมจาก Hub เอกพจน์