Bộ giải mã hoạt động não bộ này chuyển ý tưởng thành văn bản chỉ bằng cách quét não

Bộ giải mã hoạt động não bộ này chuyển ý tưởng thành văn bản chỉ bằng cách quét não

Ngôn ngữ và lời nói là cách chúng ta thể hiện những suy nghĩ bên trong của mình. Nhưng các nhà thần kinh học đã bỏ qua nhu cầu về lời nói có thể nghe được, ít nhất là trong phòng thí nghiệm. Thay vào đó, họ khai thác trực tiếp vào cỗ máy sinh học tạo ra ngôn ngữ và ý tưởng: bộ não.

Bằng cách sử dụng quét não và một lượng lớn công nghệ máy học, một nhóm từ Đại học Texas ở Austin đã phát triển một “bộ giải mã ngôn ngữ” để nắm bắt ý chính của những gì một người nghe được chỉ dựa trên kiểu kích hoạt não của họ. Khác xa với một chú ngựa một mánh, bộ giải mã cũng có thể dịch lời nói tưởng tượng và thậm chí tạo phụ đề mô tả cho phim câm bằng cách sử dụng hoạt động thần kinh.

Đây là kicker: phương pháp này không cần phẫu thuật. Thay vì dựa vào các điện cực cấy ghép, lắng nghe các xung điện trực tiếp từ tế bào thần kinh, công nghệ thần kinh sử dụng hình ảnh cộng hưởng từ chức năng (fMRI), một quy trình hoàn toàn không xâm lấn, để tạo bản đồ não tương ứng với ngôn ngữ.

Để rõ ràng, công nghệ không đọc tâm trí. Trong mỗi trường hợp, bộ giải mã tạo ra các diễn giải nắm bắt được ý chung của một câu hoặc một đoạn văn. Nó không sao chép từng từ đơn lẻ. Tuy nhiên, đó cũng là sức mạnh của bộ giải mã.

Tiến sĩ Alexander Huth, tác giả chính của nghiên cứu cho biết trong một cuộc họp báo: “Chúng tôi nghĩ rằng bộ giải mã đại diện cho một thứ gì đó sâu sắc hơn ngôn ngữ. “Chúng tôi có thể khôi phục ý tưởng tổng thể…và xem ý tưởng phát triển như thế nào, ngay cả khi các từ chính xác bị mất.”

Nghiên cứu, xuất bản tuần này trong Nature Neuroscience, đại diện cho một cú hích đầu tiên mạnh mẽ vào phương pháp không xâm lấn giao diện não-máy để giải mã ngôn ngữ—một vấn đề nổi tiếng khó khăn. Với sự phát triển hơn nữa, công nghệ này có thể giúp những người mất khả năng nói lấy lại khả năng giao tiếp với thế giới bên ngoài.

Công trình cũng mở ra những con đường mới để tìm hiểu về cách ngôn ngữ được mã hóa trong não và để các nhà khoa học AI đào sâu vào “hộp đen” của các mô hình học máy xử lý lời nói và ngôn ngữ.

Huth nói: “Còn lâu mới đến… chúng tôi hơi sốc khi thấy nó hoạt động tốt như vậy.

giải mã ngôn ngữ

Dịch hoạt động của não thành lời nói không phải là mới. Một nghiên cứu trước đây các điện cực được sử dụng đặt trực tiếp vào não của bệnh nhân bị liệt. Bằng cách lắng nghe sự trao đổi điện của các tế bào thần kinh, nhóm nghiên cứu đã có thể tái tạo lại các từ đầy đủ từ bệnh nhân.

Huth quyết định chọn một con đường thay thế, nếu táo bạo. Thay vì dựa vào phẫu thuật thần kinh, anh ấy đã chọn phương pháp không xâm lấn: fMRI.

Huth nói: “Kỳ vọng của các nhà khoa học thần kinh nói chung rằng bạn có thể làm được điều này với fMRI là khá thấp.

Có rất nhiều lý do. Không giống như các thiết bị cấy ghép trực tiếp vào hoạt động thần kinh, fMRI đo mức độ oxy trong máu thay đổi như thế nào. Đây được gọi là tín hiệu ĐẬM. Do các vùng não hoạt động tích cực hơn cần nhiều oxy hơn nên các phản ứng ĐẬM hoạt động như một đại diện đáng tin cậy cho hoạt động thần kinh. Nhưng nó đi kèm với các vấn đề. Các tín hiệu chậm so với việc đo các vụ nổ điện và các tín hiệu có thể bị nhiễu.

Tuy nhiên, fMRI có một ưu điểm lớn so với cấy ghép não: nó có thể theo dõi toàn bộ não ở độ phân giải cao. So với việc thu thập dữ liệu từ một cục vàng trong một vùng, nó cung cấp cái nhìn toàn cảnh về các chức năng nhận thức cấp cao hơn—bao gồm cả ngôn ngữ.

Với việc giải mã ngôn ngữ, hầu hết các nghiên cứu trước đây đều tập trung vào vỏ não vận động, một khu vực kiểm soát cách miệng và thanh quản di chuyển để tạo ra lời nói, hay còn gọi là “cấp độ bề mặt” trong quá trình xử lý ngôn ngữ để phát âm. Nhóm của Huth quyết định nâng cao một khái niệm trừu tượng: đi sâu vào lĩnh vực của suy nghĩ và ý tưởng.

Vào ẩn số

Nhóm nhận ra rằng họ cần hai điều ngay từ đầu. Một, một bộ dữ liệu quét não chất lượng cao để đào tạo bộ giải mã. Hai, một khuôn khổ học máy để xử lý dữ liệu.

Để tạo cơ sở dữ liệu bản đồ não bộ, bảy tình nguyện viên đã quét não liên tục khi họ nghe các câu chuyện podcast trong khi đo hoạt động thần kinh của họ bên trong máy MRI. Nằm bên trong một nam châm khổng lồ, ồn ào không phải là niềm vui đối với bất kỳ ai và nhóm đã cẩn thận để giữ cho các tình nguyện viên quan tâm và cảnh giác, vì sự chú ý ảnh hưởng đến việc giải mã.

Đối với mỗi người, tập dữ liệu khổng lồ tiếp theo được đưa vào một khuôn khổ do máy học cung cấp. Nhờ sự bùng nổ gần đây của các mô hình máy học giúp xử lý ngôn ngữ tự nhiên, nhóm đã có thể khai thác các tài nguyên đó và dễ dàng xây dựng bộ giải mã.

Nó có nhiều thành phần. Đầu tiên là mô hình mã hóa sử dụng GPT gốc, tiền thân của ChatGPT phổ biến rộng rãi. Mô hình lấy từng từ và dự đoán não sẽ phản ứng như thế nào. Tại đây, nhóm đã tinh chỉnh GPT bằng cách sử dụng tổng cộng hơn 200 triệu từ từ các nhận xét và podcast trên Reddit.

Phần thứ hai này sử dụng một kỹ thuật phổ biến trong học máy gọi là giải mã Bayesian. Thuật toán đoán từ tiếp theo dựa trên một chuỗi trước đó và sử dụng từ được đoán để kiểm tra phản ứng thực tế của bộ não.

Ví dụ: một tập podcast có cốt truyện “bố tôi không cần nó…”. Khi được đưa vào bộ giải mã dưới dạng lời nhắc, nó sẽ đi kèm với các phản hồi tiềm năng: “nhiều”, “đúng”, “kể từ”, v.v. So sánh hoạt động của não được dự đoán với từng từ với hoạt động được tạo ra từ từ thực tế đã giúp bộ giải mã trau dồi mô hình hoạt động não của mỗi người và sửa lỗi.

Sau khi lặp lại quy trình với những từ được dự đoán chính xác nhất, khía cạnh giải mã của chương trình cuối cùng đã học được “dấu vân tay thần kinh” duy nhất của mỗi người về cách họ xử lý ngôn ngữ.

Một phiên dịch thần kinh

Để chứng minh khái niệm, nhóm đã so sánh các câu trả lời đã giải mã với văn bản câu chuyện thực tế.

Nó đến gần một cách đáng ngạc nhiên, nhưng chỉ cho ý chính chung. Ví dụ: một câu chuyện, “chúng tôi bắt đầu trao đổi những câu chuyện về cuộc sống của mình, cả hai chúng tôi đều đến từ phía bắc,” được giải mã là “chúng tôi bắt đầu nói về những trải nghiệm của mình ở khu vực anh ấy sinh ra. Tôi đến từ phía bắc.”

Huth giải thích rằng điều này được mong đợi. Bởi vì fMRI khá ồn ào và chậm chạp nên gần như không thể nắm bắt và giải mã từng từ. Bộ giải mã được cung cấp một mớ hỗn độn các từ và cần phân tách ý nghĩa của chúng bằng cách sử dụng các tính năng như lần lượt của cụm từ.

bộ giải mã quét não kích thích thực tế và được giải mã
Tín dụng hình ảnh: Đại học Texas ở Austin

Ngược lại, ý tưởng thường tồn tại lâu hơn và thay đổi tương đối chậm. Vì fMRI có độ trễ khi đo hoạt động thần kinh nên nó nắm bắt các khái niệm và suy nghĩ trừu tượng tốt hơn các từ cụ thể.

Cách tiếp cận cấp cao này có đặc quyền. Mặc dù thiếu độ trung thực, nhưng bộ giải mã nắm bắt được mức độ biểu diễn ngôn ngữ cao hơn so với các nỗ lực trước đó, bao gồm cả các tác vụ không chỉ giới hạn ở lời nói. Trong một thử nghiệm, các tình nguyện viên đã xem một đoạn phim hoạt hình về một cô gái bị rồng tấn công mà không có bất kỳ âm thanh nào. Chỉ sử dụng hoạt động của não, bộ giải mã đã mô tả cảnh từ góc nhìn của nhân vật chính như một câu chuyện dựa trên văn bản. Nói cách khác, bộ giải mã có thể dịch trực tiếp thông tin hình ảnh thành một câu chuyện dựa trên sự thể hiện ngôn ngữ được mã hóa trong hoạt động của não.

Tương tự, bộ giải mã cũng dựng lại những câu chuyện tưởng tượng dài một phút từ các tình nguyện viên.

Huth cho biết: “Sau hơn một thập kỷ nghiên cứu về công nghệ này, “thật bất ngờ và thú vị khi cuối cùng nó cũng hoạt động”.

Mặc dù bộ giải mã không đọc chính xác suy nghĩ, nhưng nhóm đã cẩn thận đánh giá sự riêng tư về tinh thần. Trong một loạt các thử nghiệm, họ phát hiện ra rằng bộ giải mã chỉ hoạt động với sự tham gia tích cực về mặt tinh thần của các tình nguyện viên. Tác giả đầu tiên Jerry Tang cho biết, việc yêu cầu những người tham gia đếm theo thứ tự bảy, đặt tên cho các loài động vật khác nhau hoặc tự xây dựng những câu chuyện của riêng họ trong đầu sẽ nhanh chóng làm suy giảm bộ giải mã. Nói cách khác, bộ giải mã có thể bị “chống lại một cách có ý thức”.

Hiện tại, công nghệ này chỉ hoạt động sau nhiều tháng quét não cẩn thận trong một chiếc máy ồn ào khi nằm yên hoàn toàn – khó có thể sử dụng trong lâm sàng. Nhóm đang nghiên cứu chuyển công nghệ sang fNIRS (quang phổ cận hồng ngoại chức năng), đo nồng độ oxy trong máu trong não. Mặc dù có độ phân giải thấp hơn fMRI, nhưng fNIRS dễ mang theo hơn nhiều vì phần cứng chính là một thiết bị giống như mũ bơi có thể dễ dàng nhét dưới áo hoodie.

Huth cho biết: “Với các điều chỉnh, chúng tôi sẽ có thể dịch thiết lập hiện tại sang bán buôn fNIRS.

Nhóm cũng đang lên kế hoạch sử dụng các mô hình ngôn ngữ mới hơn để tăng độ chính xác của bộ giải mã và có khả năng kết nối các ngôn ngữ khác nhau. Bởi vì các ngôn ngữ có một biểu diễn thần kinh chung trong não, nên về lý thuyết, bộ giải mã có thể mã hóa một ngôn ngữ và sử dụng các tín hiệu thần kinh để giải mã ngôn ngữ đó sang một ngôn ngữ khác.

Đó là một “hướng đi thú vị trong tương lai,” Huth nói.

Ảnh: Jerry Tang/Martha Morales/Đại học Texas ở Austin

Dấu thời gian:

Thêm từ Trung tâm cá biệt