Trò chuyện của DeepMind Bộ não giống GPT dành cho robot cho phép chúng học hỏi từ Internet

Được xuất bản lại bởi Plato

Người theo dõi: 0

Kể từ khi ChatGPT bùng nổ trong lĩnh vực công nghệ vào tháng XNUMX năm ngoái, nó đã giúp mọi người viết tất cả các loại tài liệu, tạo mã và tìm thông tin. Nó và các mô hình ngôn ngữ lớn (LLM) khác đã tạo điều kiện thuận lợi cho các nhiệm vụ từ thực hiện các cuộc gọi dịch vụ khách hàng đến nhận đơn đặt hàng thức ăn nhanh. Dựa vào mức độ hữu ích của các LLM đối với con người trong thời gian ngắn chúng xuất hiện, ChatGPT dành cho rô-bốt có thể ảnh hưởng như thế nào đến khả năng học hỏi và làm những điều mới của chúng? Các nhà nghiên cứu tại Google DeepMind đã quyết định tìm hiểu và công bố phát hiện của họ trong một blog đăng bài và giấy phát hành tuần trước.

Họ gọi hệ thống của họ là RT-2. Nó là viết tắt của robot transformer 2, và nó là sự kế thừa của robot biến áp 1, mà công ty đã phát hành vào cuối năm ngoái. RT-1 dựa trên một chương trình ngôn ngữ và tầm nhìn nhỏ và được huấn luyện đặc biệt để thực hiện nhiều nhiệm vụ. Phần mềm này đã được sử dụng trong Alphabet X's Robot hàng ngày, cho phép họ thực hiện hơn 700 nhiệm vụ khác nhau với tỷ lệ thành công 97%. Nhưng khi được yêu cầu thực hiện các nhiệm vụ mới mà chúng chưa được đào tạo, rô-bốt sử dụng RT-1 chỉ thành công 32% thời gian.

RT-2 gần như tăng gấp đôi tỷ lệ này, thực hiện thành công các nhiệm vụ mới 62% thời gian được yêu cầu. Các nhà nghiên cứu gọi RT-2 là mô hình hành động ngôn ngữ hình ảnh (VLA). Nó sử dụng văn bản và hình ảnh mà nó nhìn thấy trực tuyến để học các kỹ năng mới. Điều đó không đơn giản như nó có vẻ; nó yêu cầu phần mềm trước tiên phải “hiểu” một khái niệm, sau đó áp dụng sự hiểu biết đó vào một lệnh hoặc tập hợp các hướng dẫn, sau đó thực hiện các hành động đáp ứng các hướng dẫn đó.

Một ví dụ mà các tác giả của bài báo đưa ra là xử lý rác. Trong các mô hình trước đó, phần mềm của robot trước tiên phải được đào tạo để xác định thùng rác. Ví dụ: nếu có một quả chuối đã bóc vỏ trên bàn với vỏ bên cạnh, bot sẽ được hiển thị rằng vỏ là rác trong khi chuối thì không. Sau đó, nó sẽ được dạy cách nhặt vỏ, bỏ vào thùng rác và bỏ vào đó.

Tuy nhiên, RT-2 hoạt động hơi khác một chút. Vì mô hình đã được đào tạo về vô số thông tin và dữ liệu từ internet, nên nó có hiểu biết chung về rác là gì và mặc dù không được đào tạo về cách vứt rác, nhưng nó có thể ghép các bước lại với nhau để hoàn thành nhiệm vụ này.

Các LLM mà các nhà nghiên cứu sử dụng để đào tạo RT-2 là PaLI-X (một mô hình ngôn ngữ và tầm nhìn với 55 tỷ tham số), và PaLM-E (cái mà Google gọi là mô hình ngôn ngữ đa phương thức được thể hiện, được phát triển riêng cho rô-bốt, với 12 tỷ tham số). “Tham số” dùng để chỉ một thuộc tính mà mô hình máy học xác định dựa trên dữ liệu đào tạo của nó. Trong trường hợp của LLM, họ mô hình hóa mối quan hệ giữa các từ trong một câu và cân nhắc khả năng một từ nhất định sẽ được đặt trước hoặc theo sau bởi một từ khác.

Thông qua việc tìm kiếm các mối quan hệ và mẫu giữa các từ trong tập dữ liệu khổng lồ, các mô hình học hỏi từ những suy luận của chính chúng. Cuối cùng, họ có thể tìm ra cách các khái niệm khác nhau liên quan với nhau và phân biệt ngữ cảnh. Trong trường hợp của RT-2, nó chuyển kiến thức đó thành các hướng dẫn tổng quát cho các hành động của robot.

Những hành động đó được biểu thị cho robot dưới dạng mã thông báo, thường được sử dụng để biểu thị văn bản ngôn ngữ tự nhiên ở dạng các đoạn từ. Trong trường hợp này, mã thông báo là một phần của hành động và phần mềm xâu chuỗi nhiều mã thông báo lại với nhau để thực hiện một hành động. Cấu trúc này cũng cho phép phần mềm thực hiện suy luận theo chuỗi suy nghĩ, nghĩa là phần mềm có thể trả lời các câu hỏi hoặc lời nhắc yêu cầu một số mức độ suy luận.

Các ví dụ mà nhóm đưa ra bao gồm chọn một vật dùng làm búa khi không có búa (rô-bốt chọn một viên đá) và chọn đồ uống tốt nhất cho một người mệt mỏi (rô-bốt chọn nước tăng lực).

Trò chuyện của DeepMind Bộ não giống GPT dành cho rô-bốt cho phép chúng học hỏi từ Internet Trí thông minh dữ liệu chuỗi khối Plato. Tìm kiếm dọc. Ái. — *Tín dụng hình ảnh: Google DeepMind*

“RT-2 cho thấy khả năng khái quát hóa được cải thiện cũng như sự hiểu biết về ngữ nghĩa và hình ảnh ngoài dữ liệu robot mà nó tiếp xúc,” các nhà nghiên cứu đã viết trong Google blog đăng bài. “Điều này bao gồm diễn giải các lệnh mới và phản hồi các lệnh của người dùng bằng cách thực hiện suy luận thô sơ, chẳng hạn như suy luận về danh mục đối tượng hoặc mô tả cấp cao.”

Ước mơ của robot đa năng điều đó có thể giúp con người với bất cứ điều gì có thể xảy ra—dù là trong nhà, môi trường thương mại hay môi trường công nghiệp—sẽ không thể đạt được cho đến khi rô-bốt có thể học khi đang di chuyển. Điều dường như là bản năng cơ bản nhất đối với chúng ta, đối với robot, là sự kết hợp phức tạp giữa việc hiểu bối cảnh, khả năng suy luận thông qua nó và thực hiện các hành động để giải quyết các vấn đề không lường trước được sẽ xuất hiện. Lập trình cho chúng phản ứng phù hợp với nhiều tình huống ngoài dự kiến là không thể, vì vậy chúng cần có khả năng khái quát hóa và học hỏi kinh nghiệm, giống như con người.

RT-2 là một bước đi theo hướng này. Tuy nhiên, các nhà nghiên cứu thừa nhận rằng mặc dù RT-2 có thể khái quát hóa các khái niệm ngữ nghĩa và hình ảnh, nhưng nó vẫn chưa thể tự học các hành động mới. Thay vào đó, nó áp dụng các hành động mà nó đã biết cho các tình huống mới. Có lẽ RT-3 hoặc 4 sẽ có thể đưa những kỹ năng này lên một tầm cao mới. Trong khi chờ đợi, khi nhóm kết luận trong blog đăng bài, “Mặc dù vẫn còn rất nhiều việc phải làm để tạo điều kiện cho rô bốt hữu ích trong môi trường lấy con người làm trung tâm, nhưng RT-2 cho chúng ta thấy một tương lai thú vị cho ngành rô bốt chỉ trong tầm tay.”

Ảnh: Google DeepMind

Phân phối nội dung và PR được hỗ trợ bởi SEO. Được khuếch đại ngay hôm nay.
PlatoData.Network Vertical Generative Ai. Trao quyền cho chính mình. Truy cập Tại đây.
PlatoAiStream. Thông minh Web3. Kiến thức khuếch đại. Truy cập Tại đây.
Trung tâmESG. Ô tô / Xe điện, Than đá, công nghệ sạch, Năng lượng, Môi trường Hệ mặt trời, Quản lý chất thải. Truy cập Tại đây.
BlockOffsets. Hiện đại hóa quyền sở hữu bù đắp môi trường. Truy cập Tại đây.
nguồn: https://singularityhub.com/2023/08/02/deepminds-chatgpt-like-brain-for-robots-lets-them-learn-from-the-internet/

Dấu thời gian: Tháng Tám 2, 2023

Dấu thời gian: Tháng 14, 2022

DeepMind's ChatGPT-Like Brain for Robots Cho phép chúng học từ Internet

Được xuất bản lại bởi Plato

Thêm từ Trung tâm cá biệt

'Những ngôi sao đen': Vật chất tối có thể hình thành những ngôi sao đang phát nổ—Việc tìm ra chúng có thể giúp tiết lộ những gì nó được tạo ra

Các nhà khoa học đã sử dụng CRISPR để theo dõi mọi gen người về chức năng của nó

Những câu chuyện công nghệ tuyệt vời trong tuần này từ khắp nơi trên web (đến hết ngày 10 tháng XNUMX)

Các nhà khoa học đã nghiên cứu dải băng ở Nam Cực trong hơn 10,000 năm. Phát hiện của họ nắm giữ cái nhìn sâu sắc cho tương lai

Pin xe điện có thể đáp ứng nhu cầu lưu trữ quy mô lưới vào năm 2030

Thuộc địa không gian: Quang hợp nhân tạo có thể là chìa khóa để duy trì sự sống ngoài trái đất

Một công ty Thụy Điển muốn biến đổi gió ngoài khơi bằng tuabin trục dọc

Nhà máy thịt nuôi cấy lớn nhất thế giới đang được xây dựng tại Mỹ

Phần cứng năng lượng mặt trời dựa trên không gian vừa được đưa vào quỹ đạo để thử nghiệm

Có những cách rẻ hơn, bền vững hơn so với khử mặn để đáp ứng nhu cầu nước của chúng ta

Về chúng tôi

Tìm kiếm dọc & Ai

Nền tảng

NHẬN THÔNG TIN

Tài khoản