DeepMind'ın Robotlara Yönelik ChatGPT Benzeri Beyni, Robotların İnternetten Öğrenmesine Olanak Sağlıyor

DeepMind'in Robotlar için ChatGPT Benzeri Beyni, Onların İnternetten Öğrenmelerini Sağlıyor

ChatGPT, geçen yılın Kasım ayında teknoloji sahnesine çıktığından beri, insanların her türlü materyali yazmasına, kod üretmesine ve bilgi bulmasına yardımcı oluyor. BT ve diğer büyük dil modelleri (LLM'ler), müşteri hizmetleri çağrılarını yanıtlamaktan fast food siparişlerini almaya kadar görevleri kolaylaştırdı. LLM'lerin kısa sürede insanlar için ne kadar faydalı olduğu göz önüne alındığında, robotlar için ChatGPT'nin yeni şeyler öğrenme ve yapma becerilerini nasıl etkileyebilir? Google DeepMind'daki araştırmacılar, bulgularını bulmaya karar verdiler ve bulgularını bir dergide yayınladılar. blog yazısı ve geçen hafta yayınlanan kağıt.

Sistemlerine RT-2 diyorlar. Robotik transformatör 2'nin kısaltmasıdır ve halefidir. robotik trafo 1şirketin geçen yılın sonunda piyasaya sürdüğü. RT-1, küçük bir dil ve vizyon programına dayalıydı ve birçok görevi yerine getirmek için özel olarak eğitildi. Yazılım, Alphabet X'lerde kullanıldı. Gündelik Robotlar700'den fazla farklı görevi yüzde 97 başarı oranıyla yapmalarını sağlıyor. Ancak eğitilmedikleri yeni görevleri yapmaları istendiğinde, RT-1 kullanan robotlar zamanın yalnızca yüzde 32'sinde başarılı oldu.

RT-2 bu oranı neredeyse iki katına çıkarıyor ve kendisinden istenen sürenin yüzde 62'sinde yeni görevleri başarıyla yerine getiriyor. Araştırmacılar RT-2'yi bir vizyon-dil-eylem (VLA) modeli olarak adlandırıyorlar. Yeni beceriler öğrenmek için çevrimiçi gördüğü metin ve resimleri kullanır. Bu göründüğü kadar basit değil; yazılımın önce bir kavramı "anlamasını", ardından bu anlayışı bir komuta veya bir dizi talimata uygulamasını ve ardından bu talimatları karşılayan eylemleri gerçekleştirmesini gerektirir.

Makalenin yazarlarının verdiği bir örnek, çöplerin atılmasıdır. Önceki modellerde, robotun yazılımının önce çöpü tanımlaması için eğitilmesi gerekiyordu. Örneğin, yanında kabuğu olan bir masanın üzerinde soyulmuş bir muz varsa, bota kabuğun çöp olduğu gösterilirken muz değil. Daha sonra kabuğun nasıl alınacağı, bir çöp kutusuna nasıl taşınacağı ve orada nasıl bırakılacağı öğretilecekti.

RT-2 biraz farklı çalışıyor. Model, internetten gelen bir sürü bilgi ve veriyle eğitildiğinden, çöpün ne olduğu konusunda genel bir anlayışa sahiptir ve çöpü atmak için eğitilmemiş olsa da, bu görevi tamamlamak için gerekli adımları bir araya getirebilir.

Araştırmacıların RT-2'yi eğitmek için kullandıkları LLM'ler şunlardır: PaLI-X (55 milyar parametreli bir vizyon ve dil modeli) ve PALM-E (Google'ın 12 milyar parametreyle robotlar için özel olarak geliştirilmiş, somutlaştırılmış çok modlu bir dil modeli dediği şey). "Parametre", bir makine öğrenimi modelinin eğitim verilerine göre tanımladığı bir özniteliği ifade eder. LLM'ler söz konusu olduğunda, bir cümledeki kelimeler arasındaki ilişkileri modellerler ve belirli bir kelimeden önce veya sonra başka bir kelime gelme olasılığını tartarlar.

Modeller, dev bir veri kümesindeki sözcükler arasındaki ilişkileri ve kalıpları bularak kendi çıkarımlarından öğrenir. Sonunda farklı kavramların birbirleriyle nasıl ilişkili olduğunu anlayabilir ve bağlamı ayırt edebilirler. RT-2'nin durumunda, bu bilgiyi robotik eylemler için genelleştirilmiş talimatlara çevirir.

Bu eylemler, robot için, genellikle doğal dil metnini kelime parçaları biçiminde temsil etmek için kullanılan belirteçler olarak temsil edilir. Bu durumda, belirteçler bir eylemin parçalarıdır ve yazılım, bir eylemi gerçekleştirmek için birden çok belirteci bir araya getirir. Bu yapı aynı zamanda yazılımın düşünce zinciri muhakemesi gerçekleştirmesini sağlar, yani bir dereceye kadar muhakeme gerektiren sorulara veya istemlere yanıt verebilir.

Ekibin verdiği örnekler arasında, çekiç olmadığında çekiç olarak kullanılacak bir nesnenin seçilmesi (robot bir kaya seçer) ve yorgun bir kişi için en iyi içeceğin seçilmesi (robot bir enerji içeceği seçer) yer alır.

DeepMind'ın Robotlar için ChatGPT Benzeri Beyni, Robotların İnternet'ten Öğrenmesini Sağlıyor PlatoBlockchain Veri Zekası. Dikey Arama. Ai.
Resim Kredisi: Google DeepMind

Araştırmacılar, bir Google'da "RT-2, maruz kaldığı robotik verilerin ötesinde gelişmiş genelleme yetenekleri ve anlamsal ve görsel anlayış gösteriyor" diye yazdı. blog yazısı. "Bu, yeni komutları yorumlamayı ve nesne kategorileri veya üst düzey açıklamalar hakkında akıl yürütme gibi temel akıl yürütme yaparak kullanıcı komutlarına yanıt vermeyi içerir."

Hayali genel amaçlı robotlar Bir evde, ticari bir ortamda veya endüstriyel bir ortamda olsun, insanlara ne olursa olsun yardımcı olabilecek bu, robotlar hareket halindeyken öğrenene kadar elde edilemez. Bizim için en temel içgüdü gibi görünen şey, robotlar için, bağlamı anlamanın, içinden akıl yürütmenin ve ortaya çıkması beklenmeyen sorunları çözmek için harekete geçmenin karmaşık bir bileşimidir. Onları çeşitli planlanmamış senaryolara uygun şekilde tepki verecek şekilde programlamak imkansızdır, bu nedenle tıpkı insanlar gibi genelleme yapabilmeleri ve deneyimlerden öğrenebilmeleri gerekir.

RT-2 bu yönde atılmış bir adımdır. Araştırmacılar, RT-2'nin semantik ve görsel kavramları genelleştirebilse de henüz kendi başına yeni eylemleri öğrenemediğini kabul ediyor. Bunun yerine, zaten bildiği eylemleri yeni senaryolara uygular. Belki RT-3 veya 4, bu becerileri bir sonraki seviyeye taşıyabilecektir. Bu arada, ekip son noktayı koyarken blog yazısı, "İnsan merkezli ortamlarda yardımcı robotları mümkün kılmak için yapılması gereken çok fazla iş olmasına rağmen, RT-2 bize robot bilimi için heyecan verici bir geleceğin çok yakın olduğunu gösteriyor."

Resim Kredi: Google DeepMind

Zaman Damgası:

Den fazla Tekillik Merkezi