Lý thuyết mới cho thấy Chatbots có thể hiểu văn bản | Tạp chí Quanta

Lý thuyết mới cho thấy Chatbots có thể hiểu văn bản | Tạp chí Quanta

Lý thuyết mới cho thấy Chatbots có thể hiểu văn bản | Tạp chí Quanta PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái.

Giới thiệu

Trí tuệ nhân tạo dường như mạnh mẽ hơn bao giờ hết, với các chatbot như Bard và ChatGPT có khả năng tạo ra văn bản giống con người một cách kỳ lạ. Nhưng với tất cả tài năng của mình, những con bot này vẫn khiến các nhà nghiên cứu băn khoăn: Làm những mô hình như vậy thực sự hiểu họ đang nói gì vậy? “Rõ ràng, một số người tin là như vậy,” nhà tiên phong về AI cho biết Geoff Hinton trong một cuộc trò chuyện gần đây với Andrew Ng, “và một số người tin rằng họ chỉ là những con vẹt ngẫu nhiên.”

Cụm từ gợi này xuất phát từ năm 2021 giấy đồng tác giả Emily Bender, một nhà ngôn ngữ học tính toán tại Đại học Washington. Nó gợi ý rằng các mô hình ngôn ngữ lớn (LLM) - tạo thành nền tảng của các chatbot hiện đại - chỉ tạo ra văn bản bằng cách kết hợp thông tin mà chúng đã thấy “mà không có bất kỳ tham chiếu nào đến ý nghĩa”, các tác giả viết, điều này khiến LLM trở thành “một con vẹt ngẫu nhiên”.

Những mô hình này hỗ trợ nhiều chatbot lớn nhất và tốt nhất hiện nay, vì vậy Hinton lập luận rằng đã đến lúc xác định mức độ hiểu của chúng. Đối với ông, câu hỏi này không chỉ mang tính học thuật. Ông nói với Ng: “Chừng nào chúng ta còn có những khác biệt đó” về quan điểm, “chúng ta sẽ không thể đi đến thống nhất về những mối nguy hiểm”.

Nghiên cứu mới có thể có những gợi ý về câu trả lời. Một lý thuyết được phát triển bởi Sanjeev Arora của Đại học Princeton và Anirudh Goyal, một nhà khoa học nghiên cứu tại Google DeepMind, gợi ý rằng LLM lớn nhất hiện nay không phải là những con vẹt ngẫu nhiên. Các tác giả lập luận rằng khi các mô hình này ngày càng lớn hơn và được đào tạo trên nhiều dữ liệu hơn, chúng sẽ cải thiện các khả năng liên quan đến ngôn ngữ của từng cá nhân và cũng phát triển những khả năng mới bằng cách kết hợp các kỹ năng theo cách gợi ý về sự hiểu biết - những sự kết hợp khó có thể tồn tại trong dữ liệu đào tạo .

Cách tiếp cận lý thuyết này, cung cấp một lập luận có thể chứng minh được về mặt toán học về cách thức và lý do LLM có thể phát triển nhiều khả năng như vậy, đã thuyết phục được các chuyên gia như Hinton và những người khác. Và khi Arora và nhóm của ông kiểm tra một số dự đoán của nó, họ phát hiện ra rằng những mô hình này hoạt động gần như chính xác như mong đợi. Từ tất cả các tài khoản, họ đã chứng minh rõ ràng rằng các LLM lớn nhất không chỉ lặp lại những gì họ đã thấy trước đây.

“[Họ] không thể chỉ bắt chước những gì đã thấy trong dữ liệu huấn luyện,” nói Sébastien Bubeck, một nhà toán học và nhà khoa học máy tính tại Microsoft Research, người không tham gia công việc. “Đó là cái nhìn sâu sắc cơ bản.”

Nhiều dữ liệu hơn, nhiều sức mạnh hơn

Sự xuất hiện của khả năng bất ngờ và đa dạng trong LLM, công bằng mà nói, điều đó thật bất ngờ. Những khả năng này không phải là hệ quả hiển nhiên của cách xây dựng và đào tạo hệ thống. LLM là một mạng lưới thần kinh nhân tạo khổng lồ, kết nối các nơ-ron nhân tạo riêng lẻ. Các kết nối này được gọi là tham số của mô hình và số lượng của chúng biểu thị kích thước của LLM. Việc đào tạo bao gồm việc cung cấp cho LLM một câu với từ cuối cùng bị che khuất, ví dụ: “Nhiên liệu tốn một cánh tay và ___.” LLM dự đoán phân bố xác suất trên toàn bộ từ vựng của nó, vì vậy nếu nó biết, chẳng hạn, một nghìn từ, nó sẽ dự đoán một nghìn xác suất. Sau đó, nó chọn từ có khả năng nhất để hoàn thành câu - có lẽ là “chân”.

Ban đầu, LLM có thể chọn từ kém. Sau đó, thuật toán huấn luyện sẽ tính toán mức mất mát - khoảng cách, trong một không gian toán học nhiều chiều, giữa câu trả lời của LLM và từ thực tế trong câu gốc - và sử dụng khoản mất mát này để điều chỉnh các tham số. Bây giờ, với cùng một câu, LLM sẽ tính toán phân bố xác suất tốt hơn và tổn thất của nó sẽ thấp hơn một chút. Thuật toán thực hiện điều này cho mỗi câu trong dữ liệu huấn luyện (có thể là hàng tỷ câu), cho đến khi tổn thất tổng thể của LLM giảm xuống mức có thể chấp nhận được. Một quy trình tương tự được sử dụng để kiểm tra LLM trên các câu không có trong dữ liệu huấn luyện.

Một LLM đã được đào tạo và kiểm tra, khi được đưa ra một lời nhắc văn bản mới, sẽ tạo ra từ tiếp theo có khả năng xảy ra nhất, nối nó vào lời nhắc, tạo một từ tiếp theo khác và tiếp tục theo cách này, tạo ra một câu trả lời có vẻ mạch lạc. Không có gì trong quá trình đào tạo gợi ý rằng các LLM lớn hơn, được xây dựng bằng cách sử dụng nhiều tham số và dữ liệu đào tạo hơn, cũng sẽ cải thiện các nhiệm vụ đòi hỏi lý luận để trả lời.

Nhưng họ làm vậy. LLM đủ lớn thể hiện khả năng - từ giải các bài toán cơ bản đến trả lời các câu hỏi về những gì đang diễn ra trong tâm trí người khác - mà các mô hình nhỏ hơn không có, mặc dù tất cả chúng đều được đào tạo theo những cách tương tự nhau.

“[Khả năng] đó xuất hiện từ đâu?” Arora tự hỏi. “Và điều đó có thể xuất hiện chỉ từ dự đoán từ tiếp theo không?”

Kết nối kỹ năng với văn bản

Arora hợp tác với Goyal để trả lời những câu hỏi như vậy một cách phân tích. Arora nói: “Chúng tôi đang cố gắng đưa ra một khuôn khổ lý thuyết để hiểu sự xuất hiện diễn ra như thế nào.

Bộ đôi đã chuyển sang các đối tượng toán học gọi là đồ thị ngẫu nhiên. Biểu đồ là một tập hợp các điểm (hoặc nút) được kết nối bằng các đường (hoặc cạnh) và trong biểu đồ ngẫu nhiên, sự hiện diện của một cạnh giữa hai nút bất kỳ được xác định ngẫu nhiên - chẳng hạn như bằng cách lật đồng xu. Đồng xu có thể bị sai lệch, do đó nó xuất hiện mặt ngửa với một xác suất nào đó p. Nếu đồng xu xuất hiện mặt ngửa cho một cặp nút nhất định, thì một cạnh sẽ hình thành giữa hai nút đó; nếu không thì chúng vẫn không được kết nối. Như giá trị của p thay đổi, đồ thị có thể hiển thị sự chuyển đổi đột ngột trong thuộc tính của chúng. Ví dụ khi p vượt quá một ngưỡng nhất định, các nút bị cô lập - những nút không được kết nối với bất kỳ nút nào khác - đột ngột biến mất.

Arora và Goyal nhận ra rằng các biểu đồ ngẫu nhiên làm phát sinh các hành vi không mong muốn sau khi chúng đáp ứng các ngưỡng nhất định có thể là một cách để mô hình hóa hành vi của LLM. Mạng lưới thần kinh gần như trở nên quá phức tạp để phân tích, nhưng các nhà toán học đã nghiên cứu đồ thị ngẫu nhiên trong một thời gian dài và đã phát triển nhiều công cụ khác nhau để phân tích chúng. Có lẽ lý thuyết đồ thị ngẫu nhiên có thể giúp các nhà nghiên cứu hiểu và dự đoán những hành vi không mong đợi của các LLM lớn.

Các nhà nghiên cứu quyết định tập trung vào biểu đồ “lưỡng cực”, chứa hai loại nút. Trong mô hình của họ, một loại nút đại diện cho các đoạn văn bản - không phải các từ riêng lẻ mà là các đoạn có thể dài một đoạn văn đến vài trang. Các nút này được sắp xếp theo một đường thẳng. Bên dưới chúng, ở một dòng khác, là tập hợp các nút khác. Chúng đại diện cho các kỹ năng cần thiết để hiểu được một đoạn văn bản nhất định. Mỗi kỹ năng có thể là hầu hết mọi thứ. Có lẽ một nút thể hiện khả năng hiểu từ “bởi vì” của LLM, từ này kết hợp một số khái niệm về quan hệ nhân quả; một số khác có thể đại diện cho khả năng chia hai số; một điều khác có thể đại diện cho khả năng phát hiện sự mỉa mai. Arora nói: “Nếu bạn hiểu rằng đoạn văn bản đó mang tính mỉa mai thì rất nhiều thứ sẽ bị đảo lộn. “Điều đó có liên quan đến việc dự đoán từ ngữ.”

Nói rõ hơn, LLM không được đào tạo hoặc kiểm tra các kỹ năng; chúng được xây dựng chỉ để cải thiện khả năng dự đoán từ tiếp theo. Nhưng Arora và Goyal muốn hiểu LLM từ góc độ các kỹ năng có thể cần thiết để hiểu một văn bản. Kết nối giữa nút kỹ năng và nút văn bản hoặc giữa nhiều nút kỹ năng và nút văn bản, có nghĩa là LLM cần những kỹ năng đó để hiểu văn bản trong nút đó. Ngoài ra, nhiều đoạn văn bản có thể rút ra từ cùng một kỹ năng hoặc bộ kỹ năng; ví dụ: một tập hợp các nút kỹ năng thể hiện khả năng hiểu sự mỉa mai sẽ kết nối với nhiều nút văn bản nơi xảy ra tình huống trớ trêu.

Thử thách bây giờ là kết nối các biểu đồ lưỡng cực này với LLM thực tế và xem liệu các biểu đồ đó có thể tiết lộ điều gì đó về sự xuất hiện của các khả năng mạnh mẽ hay không. Nhưng các nhà nghiên cứu không thể dựa vào bất kỳ thông tin nào về việc đào tạo hoặc thử nghiệm LLM thực tế - các công ty như OpenAI hoặc DeepMind không công khai dữ liệu đào tạo hoặc kiểm tra của họ. Ngoài ra, Arora và Goyal muốn dự đoán LLM sẽ hoạt động như thế nào khi chúng ngày càng lớn hơn và không có thông tin nào như vậy cho các chatbot sắp tới. Tuy nhiên, có một thông tin quan trọng mà các nhà nghiên cứu có thể truy cập.

Kể từ năm 2021, các nhà nghiên cứu nghiên cứu hiệu suất của LLM và các mạng thần kinh khác đã nhận thấy một đặc điểm chung đã xuất hiện. Họ nhận thấy rằng khi một mô hình trở nên lớn hơn, dù về kích thước hay số lượng dữ liệu huấn luyện, sự mất mát của nó đối với dữ liệu kiểm tra (sự khác biệt giữa câu trả lời được dự đoán và câu trả lời đúng trên văn bản mới, sau khi đào tạo) sẽ giảm theo một cách rất cụ thể. Những quan sát này đã được hệ thống hóa thành các phương trình gọi là định luật tỉ lệ thần kinh. Vì vậy, Arora và Goyal đã thiết kế lý thuyết của họ không phụ thuộc vào dữ liệu từ bất kỳ LLM, chatbot hay tập hợp dữ liệu đào tạo và kiểm tra riêng lẻ nào, mà phụ thuộc vào quy luật phổ quát mà các hệ thống này đều phải tuân theo: tổn thất được dự đoán theo quy luật tỷ lệ.

Họ lập luận rằng có thể hiệu suất được cải thiện - được đo bằng quy luật thang đo thần kinh - có liên quan đến việc cải thiện các kỹ năng. Và những kỹ năng được cải thiện này có thể được xác định trong biểu đồ lưỡng cực của chúng bằng cách kết nối các nút kỹ năng với các nút văn bản. Thiết lập mối liên kết này - giữa các quy luật chia tỷ lệ thần kinh và đồ thị lưỡng cực - là chìa khóa cho phép họ tiếp tục.

Mở rộng kỹ năng

Các nhà nghiên cứu bắt đầu bằng cách giả định rằng tồn tại một biểu đồ lưỡng cực giả định tương ứng với hành vi của LLM trên dữ liệu thử nghiệm. Để giải thích sự thay đổi về việc LLM mất dữ liệu kiểm tra, họ đã tưởng tượng ra cách sử dụng biểu đồ để mô tả cách LLM đạt được các kỹ năng.

Lấy ví dụ, kỹ năng “hiểu được sự mỉa mai”. Ý tưởng này được thể hiện bằng một nút kỹ năng, vì vậy các nhà nghiên cứu xem xét xem nút kỹ năng này kết nối với nút văn bản nào. Nếu hầu hết tất cả các nút văn bản được kết nối này đều thành công - nghĩa là các dự đoán của LLM về văn bản được biểu thị bởi các nút này có độ chính xác cao - thì LLM có đủ năng lực về kỹ năng cụ thể này. Nhưng nếu nhiều hơn một phần nhất định các kết nối của nút kỹ năng chuyển đến các nút văn bản không thành công thì LLM sẽ không thực hiện được kỹ năng này.

Mối liên hệ giữa các biểu đồ lưỡng cực này và LLM cho phép Arora và Goyal sử dụng các công cụ của lý thuyết biểu đồ ngẫu nhiên để phân tích hành vi LLM bằng proxy. Nghiên cứu các biểu đồ này cho thấy mối quan hệ nhất định giữa các nút. Ngược lại, những mối quan hệ này được chuyển sang một cách hợp lý và có thể kiểm chứng được để giải thích cách các mô hình lớn đạt được những kỹ năng cần thiết để đạt được những khả năng bất ngờ của chúng.

Arora và Goyal lần đầu tiên giải thích một hành vi chính: tại sao LLM lớn hơn lại trở nên có tay nghề cao hơn so với các đối tác nhỏ hơn về kỹ năng cá nhân. Họ bắt đầu với tỷ lệ mất kiểm tra thấp hơn được dự đoán bởi các quy luật tỷ lệ thần kinh. Trong biểu đồ, tổn thất kiểm tra thấp hơn này được biểu thị bằng sự sụt giảm tỷ lệ các nút kiểm tra không thành công. Vì vậy, nhìn chung có ít nút thử nghiệm thất bại hơn. Và nếu có ít nút kiểm tra không thành công hơn thì sẽ có ít kết nối hơn giữa các nút kiểm tra không thành công và nút kỹ năng. Do đó, số lượng nút kỹ năng lớn hơn được kết nối với các nút thử nghiệm thành công, cho thấy năng lực kỹ năng ngày càng tăng của mô hình. Goyal cho biết: “Chỉ cần giảm một chút tổn thất cũng có thể giúp máy đạt được năng lực của những kỹ năng này”.

Tiếp theo, cặp đôi tìm ra cách giải thích những khả năng bất ngờ của một mô hình lớn hơn. Khi kích thước của LLM tăng lên và độ mất kiểm tra của nó giảm đi, sự kết hợp ngẫu nhiên của các nút kỹ năng sẽ phát triển các kết nối đến các nút văn bản riêng lẻ. Điều này gợi ý rằng LLM cũng tiến bộ hơn trong việc sử dụng nhiều kỹ năng cùng một lúc và bắt đầu tạo văn bản bằng nhiều kỹ năng - chẳng hạn như kết hợp khả năng sử dụng sự mỉa mai với sự hiểu biết về từ “bởi vì” - ngay cả khi những sự kết hợp chính xác đó của kỹ năng không có trong bất kỳ đoạn văn bản nào trong dữ liệu đào tạo.

Ví dụ, hãy tưởng tượng một LLM có thể sử dụng một kỹ năng để tạo văn bản. Nếu bạn tăng số lượng tham số hoặc dữ liệu huấn luyện của LLM lên gấp bội, nó sẽ trở nên có khả năng tương tự trong việc tạo văn bản yêu cầu hai kỹ năng. Đi lên một cấp độ lớn hơn và giờ đây LLM có thể thực hiện các nhiệm vụ đòi hỏi bốn kỹ năng cùng một lúc, với cùng mức năng lực. Các LLM lớn hơn có nhiều cách kết hợp các kỹ năng lại với nhau hơn, điều này dẫn đến sự bùng nổ tổng hợp các khả năng.

Và khi LLM được mở rộng quy mô, khả năng nó gặp phải tất cả sự kết hợp các kỹ năng này trong dữ liệu đào tạo ngày càng khó xảy ra. Theo các quy tắc của lý thuyết đồ thị ngẫu nhiên, mọi sự kết hợp đều phát sinh từ việc lấy mẫu ngẫu nhiên các kỹ năng có thể có. Vì vậy, nếu có khoảng 1,000 nút kỹ năng riêng lẻ cơ bản trong biểu đồ và bạn muốn kết hợp bốn kỹ năng, thì có khoảng 1,000 mũ lũy thừa thứ tư - tức là 1 nghìn tỷ - các cách có thể để kết hợp chúng.

Arora và Goyal coi đây là bằng chứng cho thấy LLM lớn nhất không chỉ dựa vào sự kết hợp các kỹ năng mà họ thấy trong dữ liệu đào tạo của mình. Bubeck đồng ý. Ông nói: “Nếu một LLM thực sự có thể thực hiện những nhiệm vụ đó bằng cách kết hợp bốn trong số hàng nghìn kỹ năng đó, thì nó phải thực hiện việc khái quát hóa. Có nghĩa là, rất có thể nó không phải là một con vẹt ngẫu nhiên.

Sự sáng tạo thực sự?

Nhưng Arora và Goyal muốn vượt ra ngoài lý thuyết và kiểm tra tuyên bố của họ rằng LLM trở nên tốt hơn trong việc kết hợp nhiều kỹ năng hơn và do đó có khả năng khái quát hóa cao hơn khi quy mô và dữ liệu đào tạo của chúng tăng lên. Cùng với các đồng nghiệp khác, họ thiết kế một phương pháp được gọi là “kết hợp kỹ năng” để đánh giá khả năng LLM sử dụng nhiều kỹ năng để tạo văn bản.

Để kiểm tra LLM, nhóm đã yêu cầu nó tạo ra ba câu về một chủ đề được chọn ngẫu nhiên để minh họa một số kỹ năng được chọn ngẫu nhiên. Ví dụ: họ yêu cầu GPT-4 (LLM cung cấp phiên bản mạnh nhất của ChatGPT) viết về đấu tay đôi - về cơ bản là đấu kiếm. Hơn nữa, họ yêu cầu nó thể hiện các kỹ năng trong bốn lĩnh vực: thành kiến ​​ích kỷ, ẩn dụ, tam đoạn luận thống kê và vật lý kiến ​​thức thông thường.. GPT-4 đã trả lời: “Chiến thắng của tôi trong điệu nhảy với [ẩn dụ] thép này chắc chắn giống như việc một vật thể rơi xuống đất [vật lý]. Là một đấu sĩ nổi tiếng, tôi vốn đã nhanh nhẹn, giống như hầu hết những người khác [tâm đoạn luận thống kê] về danh tiếng của tôi. Đánh bại? Chỉ có thể thực hiện được do chiến trường không đồng đều chứ không phải do sự kém cỏi của tôi [thành kiến ​​ích kỷ].” Khi được yêu cầu kiểm tra đầu ra của nó, GPT-4 đã giảm nó xuống còn ba câu.

Giới thiệu

“Đó không phải là Hemingway hay Shakespeare,” Arora nói, nhưng nhóm tự tin rằng điều đó chứng minh quan điểm của họ: Mô hình có thể tạo ra văn bản mà nó không thể thấy trong dữ liệu đào tạo, hiển thị các kỹ năng bổ sung cho những gì một số người sẽ tranh luận là sự hiểu biết. Ông cho biết, GPT-4 thậm chí còn vượt qua các bài kiểm tra kết hợp kỹ năng yêu cầu sáu kỹ năng trong khoảng 10% đến 15% thời gian, tạo ra các đoạn văn bản không thể tồn tại về mặt thống kê trong dữ liệu đào tạo.

Nhóm cũng đã tự động hóa quy trình bằng cách nhờ GPT-4 đánh giá kết quả đầu ra của chính nó, cùng với kết quả của các LLM khác. Arora cho biết thật công bằng khi mô hình tự đánh giá vì nó không có bộ nhớ nên nó không nhớ rằng nó được yêu cầu tạo ra chính văn bản mà nó được yêu cầu đánh giá. Yasaman Bahri, nhà nghiên cứu tại Google DeepMind, người làm việc trên nền tảng AI, nhận thấy cách tiếp cận tự động “rất đơn giản và tinh tế”.

Về lý thuyết, đúng là nó đưa ra một số giả định, Bubeck nói, nhưng “những giả định này không hề điên rồ chút nào”. Ông cũng bị ấn tượng bởi các thí nghiệm. “Điều mà [nhóm] chứng minh về mặt lý thuyết và cũng xác nhận về mặt thực nghiệm, là có sự khái quát hóa về mặt cấu trúc, nghĩa là [LLM] có thể ghép các khối xây dựng lại với nhau mà chưa bao giờ được ghép lại với nhau,” ông nói. “Đối với tôi, đây là bản chất của sự sáng tạo.”

Arora cho biết thêm rằng tác phẩm không nói lên điều gì về tính chính xác của những gì LLM viết. “Trên thực tế, nó đang tranh cãi về tính độc đáo,” ông nói. “Những thứ này chưa bao giờ tồn tại trong kho dữ liệu huấn luyện của thế giới. Chưa có ai từng viết điều này. Nó phải gây ảo giác.”

Tuy nhiên, Hinton cho rằng công trình này đặt ra câu hỏi liệu LLM có phải là những con vẹt ngẫu nhiên hay không. Ông nói: “Đây là phương pháp nghiêm ngặt nhất mà tôi từng thấy để chứng minh rằng GPT-4 không chỉ là một con vẹt ngẫu nhiên đơn thuần. “Họ chứng minh một cách thuyết phục rằng GPT-4 có thể tạo ra văn bản kết hợp các kỹ năng và chủ đề theo những cách gần như chắc chắn không xảy ra trong dữ liệu đào tạo.” (Chúng tôi đã liên hệ với Bender để biết quan điểm của cô ấy về tác phẩm mới, nhưng cô ấy từ chối bình luận với lý do thiếu thời gian.)

Và thực sự, như toán học dự đoán, hiệu suất của GPT-4 vượt xa so với người tiền nhiệm nhỏ hơn của nó, GPT-3.5 — đến mức khiến Arora sợ hãi. “Có lẽ không chỉ có tôi,” anh nói. “Nhiều người cảm thấy hơi kỳ lạ khi GPT-4 tốt hơn GPT-3.5 đến mức nào và điều đó đã xảy ra trong vòng một năm. Điều đó có nghĩa là trong một năm nữa chúng ta sẽ có sự thay đổi tương tự ở mức độ đó phải không? Tôi không biết. Chỉ OpenAI mới biết.”

Dấu thời gian:

Thêm từ tạp chí lượng tử