AI tự học cho thấy những điểm tương đồng với cách thức hoạt động của bộ não Trí thông minh dữ liệu PlatoBlockchain. Tìm kiếm dọc. Ái.

Trí tuệ nhân tạo tự huấn luyện cho thấy những điểm tương đồng với cách thức hoạt động của bộ não

Trong một thập kỷ nay, nhiều hệ thống trí tuệ nhân tạo ấn tượng nhất đã được dạy bằng cách sử dụng một kho dữ liệu được gắn nhãn khổng lồ. Ví dụ: một hình ảnh có thể được gắn nhãn “mèo mướp” hoặc “mèo hổ” để “huấn luyện” một mạng thần kinh nhân tạo để phân biệt chính xác một con mèo mướp với một con hổ. Chiến lược vừa thành công ngoạn mục vừa thiếu sót một cách đáng tiếc.

Việc đào tạo "có giám sát" như vậy đòi hỏi dữ liệu được con người gắn nhãn một cách công phu và mạng nơ-ron thường đi tắt, học cách liên kết các nhãn với thông tin tối thiểu và đôi khi hời hợt. Ví dụ: một mạng nơ-ron có thể sử dụng sự hiện diện của cỏ để nhận ra ảnh của một con bò, bởi vì những con bò thường được chụp trên cánh đồng.

“Chúng tôi đang nâng cao một thế hệ các thuật toán giống như những học sinh kém tuổi [những người] không đến lớp cả học kỳ và sau đó vào đêm trước trận chung kết, họ đang nhồi nhét,” nói Alexei Efros, một nhà khoa học máy tính tại Đại học California, Berkeley. "Họ không thực sự học tài liệu, nhưng họ làm tốt trong bài kiểm tra."

Hơn nữa, đối với các nhà nghiên cứu quan tâm đến sự giao thoa giữa trí thông minh của động vật và máy móc, việc “học có giám sát” này có thể bị giới hạn ở những gì nó có thể tiết lộ về bộ não sinh học. Động vật - bao gồm cả con người - không sử dụng các tập dữ liệu được gắn nhãn để học. Phần lớn, họ tự khám phá môi trường và khi làm như vậy, họ có được sự hiểu biết phong phú và mạnh mẽ về thế giới.

Giờ đây, một số nhà khoa học thần kinh tính toán đã bắt đầu khám phá mạng lưới thần kinh đã được đào tạo với ít hoặc không có dữ liệu do con người gán nhãn. Các thuật toán "học tập tự giám sát" này đã chứng tỏ sự thành công to lớn tại mô hình hóa ngôn ngữ của con người và gần đây là nhận dạng hình ảnh. Trong nghiên cứu gần đây, các mô hình tính toán của hệ thống thính giác và thị giác của động vật có vú được xây dựng bằng mô hình học tập tự giám sát đã cho thấy sự tương ứng chặt chẽ hơn với chức năng não so với các mô hình học tập có giám sát của chúng. Đối với một số nhà khoa học thần kinh, có vẻ như các mạng lưới nhân tạo đang bắt đầu tiết lộ một số phương pháp thực tế mà bộ não của chúng ta sử dụng để học.

Giám sát không đúng luật

Các mô hình não lấy cảm hứng từ mạng nơ-ron nhân tạo ra đời cách đây khoảng 10 năm, cùng thời điểm với mạng nơ-ron có tên AlexNet đã cách mạng hóa nhiệm vụ phân loại các hình ảnh không xác định. Mạng lưới đó, giống như tất cả các mạng nơ-ron, được tạo ra từ các lớp nơ-ron nhân tạo, các đơn vị tính toán tạo thành các kết nối với nhau có thể khác nhau về cường độ hoặc "trọng lượng". Nếu một mạng nơ-ron không phân loại được hình ảnh một cách chính xác, thuật toán học tập sẽ cập nhật trọng số của các kết nối giữa các nơ-ron để làm cho việc phân loại sai đó ít có khả năng xảy ra hơn trong vòng đào tạo tiếp theo. Thuật toán lặp lại quá trình này nhiều lần với tất cả các hình ảnh huấn luyện, điều chỉnh trọng số, cho đến khi tỷ lệ lỗi của mạng ở mức thấp có thể chấp nhận được.

Cùng lúc đó, các nhà khoa học thần kinh đã phát triển các mô hình tính toán đầu tiên của hệ thống thị giác linh trưởng, sử dụng mạng nơ-ron như AlexNet và các mạng kế thừa của nó. Sự hợp nhất trông có vẻ đầy hứa hẹn: Khi khỉ và lưới thần kinh nhân tạo được hiển thị những hình ảnh giống nhau, chẳng hạn, hoạt động của tế bào thần kinh thực và tế bào thần kinh nhân tạo cho thấy một sự tương ứng hấp dẫn. Các mô hình nhân tạo về thính giác và phát hiện mùi được theo sau.

Nhưng khi lĩnh vực này tiến triển, các nhà nghiên cứu nhận ra những hạn chế của việc đào tạo có giám sát. Ví dụ, vào năm 2017, Leon Gatys, một nhà khoa học máy tính tại Đại học Tübingen ở Đức, và các đồng nghiệp của ông đã chụp ảnh một chiếc Ford Model T, sau đó phủ một họa tiết da báo lên bức ảnh, tạo ra một hình ảnh kỳ lạ nhưng dễ nhận ra. . Một mạng nơ-ron nhân tạo hàng đầu đã phân loại chính xác hình ảnh gốc là Model T, nhưng coi hình ảnh đã sửa đổi là một con báo. Nó đã cố định vào kết cấu và không hiểu gì về hình dạng của một chiếc xe hơi (hoặc một con báo, vì vấn đề đó).

Các chiến lược học tập tự giám sát được thiết kế để tránh những vấn đề như vậy. Trong cách tiếp cận này, con người không gắn nhãn dữ liệu. Thay vào đó, “các nhãn đến từ chính dữ liệu,” cho biết Friedemann Zenke, một nhà khoa học thần kinh tính toán tại Viện Nghiên cứu Y sinh Friedrich Miescher ở Basel, Thụy Sĩ. Các thuật toán tự giám sát về cơ bản tạo ra khoảng trống trong dữ liệu và yêu cầu mạng nơ-ron điền vào chỗ trống. Ví dụ, trong cái gọi là mô hình ngôn ngữ lớn, thuật toán huấn luyện sẽ hiển thị cho mạng nơ-ron một vài từ đầu tiên của câu và yêu cầu nó dự đoán từ tiếp theo. Khi được đào tạo với một kho văn bản khổng lồ thu thập được từ internet, mô hình dường như để học cấu trúc cú pháp của ngôn ngữ, thể hiện khả năng ngôn ngữ ấn tượng - tất cả đều không có nhãn hiệu hoặc sự giám sát bên ngoài.

Một nỗ lực tương tự đang được tiến hành trong thị giác máy tính. Cuối năm 2021, Khai Minh Hà và các đồng nghiệp đã tiết lộ “bộ mã hóa tự động có mặt nạ, ”Được xây dựng dựa trên kỹ thuật được tiên phong bởi nhóm của Efros vào năm 2016. Thuật toán học tập tự giám sát che giấu các hình ảnh một cách ngẫu nhiên, che khuất gần XNUMX/XNUMX mỗi hình ảnh. Bộ mã hóa tự động có mặt nạ biến các phần được che giấu thành các biểu diễn tiềm ẩn - các mô tả toán học được nén chứa thông tin quan trọng về một đối tượng. (Trong trường hợp là một hình ảnh, biểu diễn tiềm ẩn có thể là một mô tả toán học ghi lại hình dạng của một đối tượng trong ảnh, trong số những thứ khác.) Sau đó, một bộ giải mã sẽ chuyển đổi những biểu diễn đó thành hình ảnh đầy đủ.

Thuật toán học tập tự giám sát đào tạo sự kết hợp bộ mã hóa-giải mã để biến hình ảnh có mặt nạ thành phiên bản đầy đủ của chúng. Bất kỳ sự khác biệt nào giữa hình ảnh thực và hình ảnh được dựng lại sẽ được đưa trở lại hệ thống để giúp nó học hỏi. Quá trình này lặp lại cho một tập hợp các hình ảnh đào tạo cho đến khi tỷ lệ lỗi của hệ thống ở mức thấp thích hợp. Trong một ví dụ, khi một bộ mã hóa tự động che mặt đã được đào tạo được hiển thị hình ảnh trước đó không nhìn thấy của một xe buýt với gần 80% nó bị che khuất, hệ thống đã tái tạo thành công cấu trúc của xe buýt.

“Đây là một kết quả rất, rất ấn tượng,” Efros nói.

Các đại diện tiềm ẩn được tạo ra trong một hệ thống như thế này dường như chứa thông tin sâu hơn đáng kể so với các chiến lược trước đó có thể bao gồm. Hệ thống có thể tìm hiểu hình dạng của một chiếc ô tô, chẳng hạn - hoặc một con báo - chứ không chỉ là các mẫu của chúng. “Và đây thực sự là ý tưởng cơ bản của việc học tự giám sát - bạn xây dựng kiến ​​thức của mình từ dưới lên,” Efros nói. Không phải nhồi nhét vào phút cuối để vượt qua các bài kiểm tra.

Bộ não tự giám sát

Trong những hệ thống như thế này, một số nhà khoa học thần kinh nhìn thấy tiếng vang về cách chúng ta học. “Tôi nghĩ chắc chắn rằng 90% những gì bộ não làm là học tập tự giám sát,” nói Blake Richards, một nhà khoa học thần kinh tính toán tại Đại học McGill và Mila, Viện Trí tuệ Nhân tạo Quebec. Bộ não sinh học được cho là liên tục dự đoán, chẳng hạn như vị trí trong tương lai của một vật thể khi nó di chuyển hoặc từ tiếp theo trong một câu, giống như một thuật toán học tập tự giám sát cố gắng dự đoán khoảng trống trong một hình ảnh hoặc một đoạn văn bản. Và bộ não cũng tự học hỏi từ những sai lầm của chúng - chỉ một phần nhỏ phản hồi của bộ não chúng ta đến từ một nguồn bên ngoài nói rằng về cơ bản, “câu trả lời sai”.

Ví dụ, hãy xem xét hệ thống thị giác của con người và các loài linh trưởng khác. Đây là hệ thống được nghiên cứu tốt nhất về tất cả các hệ thống giác quan của động vật, nhưng các nhà khoa học thần kinh đã phải vật lộn để giải thích tại sao chúng lại bao gồm hai con đường riêng biệt: luồng thị giác bụng, chịu trách nhiệm nhận dạng các vật thể và khuôn mặt, và luồng thị giác lưng, xử lý chuyển động (“ con đường cái gì ”và“ ở đâu ”tương ứng).

Richards và nhóm của ông đã tạo ra một mô hình tự giám sát gợi ý câu trả lời. Họ đào tạo một AI kết hợp hai mạng nơ-ron khác nhau: Mạng thứ nhất, được gọi là kiến ​​trúc ResNet, được thiết kế để xử lý hình ảnh; mạng thứ hai, được gọi là mạng lặp lại, có thể theo dõi chuỗi các đầu vào trước đó để đưa ra dự đoán về đầu vào dự kiến ​​tiếp theo. Để đào tạo AI kết hợp, nhóm bắt đầu với một chuỗi, chẳng hạn, 10 khung hình từ một video và để ResNet xử lý từng khung hình một. Sau đó, mạng lặp lại dự đoán sự thể hiện tiềm ẩn của khung hình thứ 11, trong khi không chỉ đơn giản là khớp với 10 khung hình đầu tiên. Thuật toán học tập tự giám sát đã so sánh dự đoán với giá trị thực tế và hướng dẫn các mạng nơ-ron cập nhật trọng số của chúng để làm cho dự đoán tốt hơn.

Nhóm của Richards nhận thấy rằng một AI được đào tạo với một ResNet duy nhất có khả năng nhận dạng đối tượng tốt, nhưng không phân loại chuyển động. Nhưng khi họ chia ResNet đơn lẻ thành hai, tạo ra hai con đường (mà không thay đổi tổng số tế bào thần kinh), AI đã phát triển các biểu diễn cho các đối tượng trong một và cho chuyển động ở bên kia, cho phép phân loại xuôi dòng các thuộc tính này - giống như bộ não của chúng ta có thể làm.

Để kiểm tra thêm AI, nhóm nghiên cứu đã cho chuột xem một bộ video mà các nhà nghiên cứu tại Viện Khoa học Não Allen ở Seattle đã chiếu trước đó cho chuột. Giống như động vật linh trưởng, chuột có vùng não chuyên biệt cho hình ảnh tĩnh và chuyển động. Các nhà nghiên cứu Allen đã ghi lại hoạt động thần kinh trong vỏ não thị giác của chuột khi các con vật xem video.

Ở đây, nhóm của Richards cũng tìm thấy những điểm tương đồng trong cách AI và bộ não sống phản ứng với video. Trong quá trình huấn luyện, một trong những con đường trong mạng lưới thần kinh nhân tạo trở nên giống với vùng bụng, vùng phát hiện đối tượng của não chuột và con đường khác trở nên giống với vùng lưng tập trung vào chuyển động.

Kết quả cho thấy hệ thống thị giác của chúng ta có hai con đường chuyên biệt vì chúng giúp dự đoán tương lai thị giác, Richards nói; một con đường duy nhất không đủ tốt.

Các mô hình của hệ thống thính giác của con người cũng kể một câu chuyện tương tự. Vào tháng XNUMX, một nhóm dẫn đầu bởi Vua Jean Rémi, một nhà khoa học nghiên cứu tại Meta AI, đã đào tạo một AI được gọi là Wav2Vec 2.0, sử dụng mạng nơ-ron để chuyển đổi âm thanh thành các biểu diễn tiềm ẩn. Các nhà nghiên cứu che dấu một số biểu diễn này, sau đó đưa vào một mạng nơ-ron thành phần khác được gọi là máy biến áp. Trong quá trình đào tạo, máy biến áp dự đoán thông tin bị che. Trong quá trình này, toàn bộ AI học cách biến âm thanh thành các biểu diễn tiềm ẩn - một lần nữa, không cần nhãn. Nhóm nghiên cứu đã sử dụng khoảng 600 giờ dữ liệu giọng nói để đào tạo mạng, “đó là khoảng thời gian mà một đứa trẻ sẽ nhận được trong [] hai năm đầu tiên trải nghiệm,” King nói.

Sau khi hệ thống được đào tạo, các nhà nghiên cứu đã phát các phần của sách nói bằng tiếng Anh, Pháp và Quan Thoại. Sau đó, các nhà nghiên cứu so sánh hiệu suất của AI với dữ liệu từ 412 người - sự kết hợp của những người bản ngữ nói ba ngôn ngữ đã nghe cùng một đoạn âm thanh trong khi não của họ được chụp trong máy quét fMRI. King nói rằng mạng lưới thần kinh của ông và bộ não con người, bất chấp hình ảnh fMRI ồn ào và có độ phân giải thấp, “không chỉ tương quan với nhau, mà chúng còn tương quan theo kiểu có hệ thống”: Hoạt động trong các lớp đầu tiên của AI phù hợp với hoạt động trong vỏ não thính giác chính, trong khi hoạt động của các lớp sâu nhất của AI phù hợp với hoạt động ở các lớp cao hơn trong não, trong trường hợp này là vỏ não trước trán. Richards nói: “Đó thực sự là một dữ liệu đẹp. “Nó không phải là kết luận, nhưng [đó] là một bằng chứng thuyết phục khác cho thấy rằng, thực sự, cách chúng ta học ngôn ngữ phần lớn là do cố gắng dự đoán những điều tiếp theo sẽ được nói.”

Các bệnh lý chưa được bảo đảm

Không phải ai cũng bị thuyết phục. Josh McDermott, một nhà khoa học thần kinh tính toán tại Viện Công nghệ Massachusetts, đã nghiên cứu các mô hình nhận thức về thị giác và thính giác bằng cách sử dụng cả học tập có giám sát và tự giám sát. Phòng thí nghiệm của anh ấy đã thiết kế cái mà anh ấy gọi là “metamers”, tổng hợp các tín hiệu âm thanh và hình ảnh mà đối với con người, chỉ là tiếng ồn khó hiểu. Tuy nhiên, đối với một mạng nơ-ron nhân tạo, các metamers dường như không thể phân biệt được với các tín hiệu thực. Điều này cho thấy rằng các biểu diễn hình thành trong các lớp sâu hơn của mạng nơ-ron, ngay cả khi học tự giám sát, không khớp với các biểu diễn trong não của chúng ta. Các phương pháp học tập tự giám sát này “là sự tiến bộ theo nghĩa là bạn có thể học các cách biểu diễn có thể hỗ trợ rất nhiều hành vi nhận dạng mà không cần tất cả các nhãn này,” McDermott nói. "Nhưng họ vẫn có rất nhiều bệnh lý của những người mẫu được giám sát."

Bản thân các thuật toán cũng cần nhiều công việc hơn. Ví dụ: trong Wav2Vec 2.0 của Meta AI, AI chỉ dự đoán các biểu diễn âm thanh tiềm ẩn trong vài chục mili giây - ít thời gian hơn so với thời gian cần thiết để phát ra tiếng ồn khác biệt về mặt tri giác, chứ chưa nói đến một từ. King nói: “Có rất nhiều thứ cần phải làm để làm điều gì đó tương tự như những gì bộ não làm.

Thực sự hiểu được chức năng của não sẽ đòi hỏi nhiều hơn việc học tự giám sát. Đầu tiên, bộ não chứa đầy các kết nối phản hồi, trong khi các mô hình hiện tại có rất ít kết nối như vậy, nếu có. Bước tiếp theo rõ ràng sẽ là sử dụng phương pháp học tự giám sát để đào tạo các mạng lặp lại cao - một quá trình khó khăn - và xem hoạt động trong các mạng đó so với hoạt động thực của não như thế nào. Bước quan trọng khác sẽ là kết hợp hoạt động của các tế bào thần kinh nhân tạo trong các mô hình học tập tự giám sát với hoạt động của các tế bào thần kinh sinh học riêng lẻ. “Hy vọng rằng, trong tương lai, kết quả của [chúng tôi] cũng sẽ được xác nhận với các bản ghi đơn tế bào,” King nói.

Nếu những điểm tương đồng quan sát được giữa não bộ và mô hình học tập tự giám sát phù hợp với các nhiệm vụ giác quan khác, thì đó sẽ là một dấu hiệu mạnh mẽ hơn cho thấy bất kỳ phép thuật nào mà bộ não của chúng ta có thể thực hiện đều yêu cầu học tập tự giám sát dưới một số hình thức. King nói: “Nếu chúng ta tìm thấy những điểm tương đồng có hệ thống giữa các hệ thống khác nhau, thì có lẽ sẽ không có nhiều cách để xử lý thông tin theo cách thông minh,” King nói. “Ít nhất, đó là một giả thuyết tuyệt vời mà chúng tôi muốn làm việc cùng.”

Dấu thời gian:

Thêm từ tạp chí lượng tử