Các mô hình ngôn ngữ nhỏ phát triển mạnh với GPT-4 với tư cách là giáo viên | Tạp chí Quanta

Các mô hình ngôn ngữ nhỏ phát triển mạnh với GPT-4 với tư cách là giáo viên | Tạp chí Quanta

Các mô hình ngôn ngữ nhỏ phát triển mạnh với GPT-4 với tư cách là giáo viên | Tạp chí Quanta PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái.

Giới thiệu

Học tiếng Anh không phải là một việc dễ dàng, như vô số học sinh đều biết. Nhưng khi học sinh sử dụng máy tính, có một cách tiếp cận có hiệu quả đáng ngạc nhiên: Đơn giản chỉ cần đưa hàng núi văn bản từ internet vào một mô hình toán học khổng lồ gọi là mạng lưới thần kinh. Đó là nguyên tắc hoạt động đằng sau các mô hình ngôn ngữ tổng quát như ChatGPT của OpenAI, có khả năng trò chuyện mạch lạc (nếu không phải lúc nào cũng trung thực) về nhiều chủ đề đã khiến các nhà nghiên cứu và công chúng ngạc nhiên trong năm qua.

Nhưng cách tiếp cận này có nhược điểm của nó. Trước hết, quy trình “đào tạo” cần thiết để chuyển các kho lưu trữ văn bản khổng lồ thành các mô hình ngôn ngữ hiện đại rất tốn kém và tốn nhiều thời gian. Mặt khác, ngay cả những người đào tạo các mô hình ngôn ngữ lớn cũng khó hiểu được hoạt động bên trong của chúng; đến lượt nó, điều đó khiến cho việc dự đoán nhiều cách họ có thể thất bại trở nên khó khăn.

Trước những khó khăn này, một số nhà nghiên cứu đã lựa chọn đào tạo mô hình nhỏ hơn trên các tập dữ liệu nhỏ hơn và sau đó nghiên cứu hành vi của chúng. “Nó giống như sắp xếp thứ tự Drosophila bộ gen so với giải trình tự bộ gen của con người,” cho biết Ellie Pavlick, một nhà nghiên cứu mô hình ngôn ngữ tại Đại học Brown.

Bây giờ, trong một giấy gần đây được đăng lên máy chủ in sẵn khoa học arxiv.org, một cặp nhà nghiên cứu của Microsoft đã giới thiệu một phương pháp mới để đào tạo các mô hình ngôn ngữ nhỏ bé: Nuôi dạy chúng theo chế độ ăn kiêng nghiêm ngặt với những câu chuyện dành cho trẻ em.

Các nhà nghiên cứu học máy đã chấp nhận bài học này. GPT-3.5, mô hình ngôn ngữ lớn hỗ trợ giao diện ChatGPT, có gần 200 tỷ tham số và được đào tạo trên bộ dữ liệu bao gồm hàng trăm tỷ từ. (OpenAI chưa công bố số liệu tương ứng cho người kế nhiệm của nó, GPT-4.) Việc đào tạo các mô hình lớn như vậy thường cần ít nhất 1,000 bộ xử lý chuyên dụng được gọi là GPU chạy song song trong nhiều tuần liền. Chỉ một số công ty có thể tập hợp được các nguồn lực cần thiết chứ đừng nói đến việc đào tạo và so sánh các mô hình khác nhau.

Hai nhà nghiên cứu đã chỉ ra rằng các mô hình ngôn ngữ nhỏ hơn hàng nghìn lần so với các hệ thống hiện đại ngày nay đã nhanh chóng học được cách kể những câu chuyện nhất quán và đúng ngữ pháp khi được đào tạo theo cách này. Kết quả của họ gợi ý những hướng nghiên cứu mới có thể hữu ích cho việc đào tạo các mô hình lớn hơn và hiểu rõ hành vi của chúng.

“Tôi thấy bài viết này rất nhiều thông tin,” nói Chandra Bhagavatula, một nhà nghiên cứu mô hình ngôn ngữ tại Viện Trí tuệ nhân tạo Allen ở Seattle. “Bản thân ý tưởng này đã cực kỳ thú vị rồi.”

Ngay xửa ngay xưa

Mạng lưới thần kinh ở trung tâm của các mô hình ngôn ngữ là các cấu trúc toán học được lấy cảm hứng từ bộ não con người. Mỗi cái chứa nhiều nơ-ron nhân tạo được sắp xếp thành từng lớp, với các kết nối giữa các nơ-ron ở các lớp liền kề. Hành vi của mạng lưới thần kinh bị chi phối bởi sức mạnh của các kết nối này, được gọi là các tham số. Trong mô hình ngôn ngữ, các tham số kiểm soát những từ mà mô hình có thể đưa ra tiếp theo, đưa ra lời nhắc ban đầu và những từ mà mô hình đã tạo.

Một mô hình chỉ thực sự trở nên sống động trong quá trình đào tạo, khi nó liên tục so sánh đầu ra của chính nó với văn bản trong tập dữ liệu huấn luyện và điều chỉnh các tham số của nó để tăng độ tương đồng. Một mạng chưa được huấn luyện với các tham số ngẫu nhiên rất dễ được lắp ráp từ một vài dòng mã, nhưng nó sẽ chỉ tạo ra những từ vô nghĩa. Sau khi đào tạo, nó thường có thể tiếp tục văn bản lạ một cách hợp lý. Các mô hình lớn hơn thường được tinh chỉnh thêm để dạy họ trả lời các câu hỏi và làm theo hướng dẫn, nhưng phần lớn quá trình đào tạo là nắm vững khả năng dự đoán từ.

Thành công trong việc đoán từ đòi hỏi một mô hình ngôn ngữ phải thành thạo nhiều kỹ năng khác nhau. Ví dụ, các quy tắc ngữ pháp tiếng Anh gợi ý rằng từ tiếp theo sau từ “go” có thể là “to”, bất kể chủ đề của văn bản là gì. Ngoài ra, một hệ thống cần có kiến ​​thức thực tế để hoàn thành “thủ đô của nước Pháp” và hoàn thành một đoạn văn có chứa từ “không” đòi hỏi phải nắm vững logic cơ bản.

“Ngôn ngữ thô rất phức tạp,” nói Timothy Nguyễn, một nhà nghiên cứu về máy học tại DeepMind. “Để phát sinh khả năng ngôn ngữ thú vị, người ta đã dùng đến 'càng nhiều dữ liệu càng tốt.'"

Giới thiệu

Ronen Eldan, một nhà toán học đã tham gia Microsoft Research vào năm 2022 để nghiên cứu các mô hình ngôn ngữ tổng quát, muốn phát triển một cách rẻ hơn và nhanh hơn để khám phá khả năng của họ. Cách tự nhiên để làm điều đó là sử dụng một tập dữ liệu nhỏ và điều đó có nghĩa là anh ấy phải đào tạo các mô hình để chuyên môn hóa vào một nhiệm vụ cụ thể, để họ không bị dàn trải quá mỏng. Ban đầu, ông muốn đào tạo các mô hình để giải một số bài toán nhất định, nhưng vào một buổi chiều, sau khi dành thời gian cho cô con gái 5 tuổi, ông nhận ra rằng những câu chuyện dành cho trẻ em hoàn toàn phù hợp.

“Tôi thực sự cảm thấy điều đó sau khi đọc cho cô ấy một câu chuyện,” anh nói.

Để tạo ra những câu chuyện trẻ em mạch lạc, một mô hình ngôn ngữ sẽ cần tìm hiểu các sự kiện về thế giới, theo dõi các nhân vật và sự kiện cũng như tuân thủ các quy tắc ngữ pháp - phiên bản đơn giản hơn của những thách thức mà các mô hình lớn phải đối mặt. Nhưng các mô hình lớn được đào tạo trên các tập dữ liệu khổng lồ sẽ học được vô số chi tiết không liên quan cùng với các quy tắc thực sự quan trọng. Eldan hy vọng sự ngắn gọn và vốn từ vựng hạn chế trong các câu chuyện dành cho trẻ em có thể giúp việc học của các mô hình nhỏ trở nên dễ quản lý hơn - khiến chúng dễ huấn luyện hơn và dễ hiểu hơn.

Tuy nhiên, trong thế giới của các mô hình ngôn ngữ, “nhỏ” chỉ là tương đối: Một tập dữ liệu nhỏ hơn một nghìn lần so với tập dữ liệu được sử dụng để huấn luyện GPT-3.5 vẫn cần chứa hàng triệu câu chuyện. “Tôi không biết bạn muốn chi bao nhiêu tiền, nhưng tôi đoán bạn sẽ không thuê chuyên gia để viết [vài triệu] truyện ngắn,” Nguyễn nói.

Phải cần một tác giả cực kỳ xuất sắc mới có thể làm hài lòng những độc giả phàm ăn như vậy, nhưng Eldan đã nghĩ đến một vài ứng cử viên. Ai viết cho khán giả những mô hình ngôn ngữ nhỏ tốt hơn những mô hình ngôn ngữ lớn?

Câu chuyện đồ chơi

Eldan ngay lập tức bắt đầu tạo ra một thư viện truyện thiếu nhi tổng hợp được tạo ra bởi các mô hình ngôn ngữ lớn. Nhưng anh sớm phát hiện ra rằng ngay cả những người mẫu hiện đại nhất cũng không phải lúc nào cũng có tính sáng tạo cao. Eldan nói, nếu bạn chỉ bảo GPT-4 viết những câu chuyện phù hợp cho trẻ 4 tuổi, “khoảng XNUMX/XNUMX số câu chuyện sẽ nói về những đứa trẻ đến công viên vì sợ cầu trượt”. Đó rõ ràng là câu chuyện tinh túy nhất ở lứa tuổi mẫu giáo, xét về mặt internet.

Giải pháp là thêm một chút ngẫu nhiên vào lời nhắc. Đầu tiên, Eldan sử dụng GPT-4 để tạo danh sách 1,500 danh từ, động từ và tính từ mà một đứa trẻ 4 tuổi có thể biết - đủ ngắn để bé có thể dễ dàng tự kiểm tra. Sau đó, anh ấy viết một chương trình máy tính đơn giản sẽ liên tục nhắc GPT-3.5 hoặc GPT-4 tạo ra một câu chuyện phù hợp với lứa tuổi bao gồm ba từ ngẫu nhiên trong danh sách, cùng với một chi tiết được chọn ngẫu nhiên bổ sung như một kết thúc có hậu hoặc tình tiết khúc mắc. May mắn thay, những câu chuyện sau đó ít tập trung vào những slide đáng sợ hơn.

Eldan hiện đã có quy trình tạo dữ liệu đào tạo theo yêu cầu, nhưng anh không biết mình cần bao nhiêu câu chuyện để đào tạo một mô hình chức năng hoặc mô hình đó cần lớn đến mức nào. Đó là lúc anh ấy hợp tác với Nguyên Chí Lý, một nhà nghiên cứu về máy học tại Microsoft và Đại học Carnegie Mellon, để thử các khả năng khác nhau, tận dụng thực tế là các mô hình nhỏ có thể được đào tạo rất nhanh. Bước 1 là quyết định cách đánh giá mô hình của họ.

Giới thiệu

Trong nghiên cứu mô hình ngôn ngữ - cũng như trong mọi lớp học - việc chấm điểm là một chủ đề khó khăn. có không có phiếu tự đánh giá hoàn hảo nó gói gọn mọi thứ mà các nhà nghiên cứu muốn biết, và những mô hình xuất sắc ở một số nhiệm vụ thường thất bại một cách ngoạn mục ở những nhiệm vụ khác. Theo thời gian, các nhà nghiên cứu đã phát triển nhiều tiêu chuẩn khác nhau dựa trên các câu hỏi có câu trả lời rõ ràng, đây là một cách tiếp cận tốt nếu bạn đang cố gắng đánh giá các kỹ năng cụ thể. Nhưng Eldan và Li quan tâm đến một điều mơ hồ hơn: Các mô hình ngôn ngữ thực sự cần lớn đến mức nào nếu bạn đơn giản hóa ngôn ngữ càng nhiều càng tốt?

Eldan nói: “Để kiểm tra trực tiếp xem mô hình có nói được tiếng Anh hay không, tôi nghĩ điều duy nhất bạn có thể làm là để mô hình tạo ra tiếng Anh theo cách mở”.

Chỉ có hai cách để đo lường hiệu suất của mô hình đối với các câu hỏi định tính như vậy: Dựa vào người chấm điểm hoặc quay lại GPT-4 một lần nữa. Hai nhà nghiên cứu đã chọn con đường thứ hai, cho phép các mô hình lớn vừa viết sách giáo khoa vừa chấm điểm bài luận một cách hiệu quả.

Bhagavatula cho biết ông muốn xem các đánh giá của GPT-4 như thế nào so với đánh giá của những người đánh giá con người - GPT-4 có thể thiên về các mô hình mà nó đã giúp đào tạo và tính không rõ ràng của các mô hình ngôn ngữ khiến khó định lượng những thành kiến ​​đó. Nhưng anh ấy không nghĩ rằng sự tinh tế như vậy sẽ ảnh hưởng đến việc so sánh giữa các mô hình khác nhau được đào tạo trên các tập hợp câu chuyện tổng hợp tương tự - trọng tâm chính trong công việc của Eldan và Li.

Eldan và Li đã sử dụng quy trình hai bước để đánh giá từng mô hình nhỏ của họ sau khi đào tạo. Đầu tiên, họ nhắc mô hình nhỏ với nửa đầu câu chuyện khác biệt với nửa đầu câu chuyện trong tập dữ liệu huấn luyện để nó tạo ra một phần kết mới, lặp lại quy trình này với 50 câu chuyện thử nghiệm khác nhau. Thứ hai, họ hướng dẫn GPT-4 chấm điểm từng phần kết của mô hình nhỏ dựa trên ba loại - tính sáng tạo, ngữ pháp và tính nhất quán với phần đầu câu chuyện. Sau đó, họ tính điểm trung bình ở mỗi hạng mục và đưa ra ba điểm cuối cùng cho mỗi mẫu.

Với quy trình này trong tay, Eldan và Li cuối cùng đã sẵn sàng so sánh các mô hình khác nhau và tìm ra đâu là học sinh xuất sắc.

Kết quả kiểm tra

Sau một số thăm dò sơ bộ, hai nhà nghiên cứu đã quyết định chọn một tập dữ liệu huấn luyện chứa khoảng 2 triệu câu chuyện. Sau đó, họ sử dụng tập dữ liệu này, được đặt tên là TinyStories, để đào tạo các mô hình có kích thước từ 1 triệu đến 30 triệu tham số, với số lượng lớp khác nhau. Đó là công việc nhanh chóng: Chỉ sử dụng bốn GPU, mô hình lớn nhất trong số này mất không quá một ngày để đào tạo.

Những mô hình nhỏ nhất đều gặp khó khăn. Ví dụ, một câu chuyện thử nghiệm bắt đầu bằng việc một người đàn ông có vẻ ngoài xấu tính nói với một cô gái rằng anh ta sẽ mang theo con mèo của cô ấy. Một người mẫu có hàng triệu thông số bị mắc kẹt trong một vòng lặp khi cô gái liên tục nói với người đàn ông rằng cô ấy muốn làm bạn. Nhưng những cái lớn hơn - vẫn nhỏ hơn hàng nghìn lần so với GPT-3.5 - hoạt động tốt một cách đáng ngạc nhiên. Phiên bản 28 triệu thông số kể một câu chuyện mạch lạc, dù cái kết có phần nghiệt ngã: “Katie bắt đầu khóc, nhưng người đàn ông đó không quan tâm. Anh ta đã mang con mèo đi và Katie không bao giờ gặp lại con mèo của mình nữa. Kết thúc."

Ngoài việc thử nghiệm các mô hình của riêng họ, Eldan và Li còn đưa ra thách thức tương tự với GPT-2 của OpenAI, một mô hình có 1.5 tỷ thông số được phát hành vào năm 2019. Tình hình còn tệ hơn nhiều - trước khi câu chuyện kết thúc đột ngột, người đàn ông đe dọa sẽ bắt cô gái. đến tòa án, nhà tù, bệnh viện, nhà xác và cuối cùng là lò hỏa táng.

Giới thiệu

Nguyên cho biết thật thú vị khi những mô hình nhỏ bé như vậy lại trôi chảy đến vậy, nhưng có lẽ không ngạc nhiên khi GPT-2 phải vật lộn với nhiệm vụ: Đó là một mô hình lớn hơn nhưng khác xa với công nghệ hiện đại và nó được đào tạo trên một tập dữ liệu rất khác. Ông lưu ý: “Một đứa trẻ mới biết đi chỉ huấn luyện các nhiệm vụ dành cho trẻ mới biết đi, chẳng hạn như chơi với một số đồ chơi, có thể làm tốt hơn bạn hoặc tôi”. “Chúng tôi không chuyên về điều đơn giản này.”

Việc so sánh giữa các mô hình TinyStories khác nhau không gặp phải các yếu tố gây nhiễu giống nhau. Eldan và Li đã quan sát thấy các gợi ý rằng các mạng có ít lớp hơn nhưng có nhiều nơ-ron trên mỗi lớp sẽ trả lời tốt hơn các câu hỏi đòi hỏi kiến ​​thức thực tế; ngược lại, các mạng có nhiều lớp hơn và ít nơ-ron hơn trên mỗi lớp sẽ tốt hơn trong việc theo dõi các nhân vật và điểm cốt truyện từ trước đó trong câu chuyện. Bhagavatula nhận thấy kết quả này đặc biệt hấp dẫn. Ông nói, nếu nó có thể được nhân rộng trong các mô hình lớn hơn, “đó sẽ là một kết quả thực sự tuyệt vời có thể bắt nguồn từ công việc này”.

Eldan và Li cũng nghiên cứu xem khả năng của người mẫu nhỏ của họ phụ thuộc như thế nào vào thời gian đào tạo. Trong mọi trường hợp, người mẫu nắm vững ngữ pháp trước và tính nhất quán sau. Đối với Eldan, mô hình này minh họa sự khác biệt trong cấu trúc phần thưởng dẫn đến sự khác biệt trong mô hình tiếp thu ngôn ngữ giữa mạng lưới thần kinh và trẻ em. Đối với các mô hình ngôn ngữ học bằng cách dự đoán các từ, “sự khuyến khích đối với từ 'Tôi muốn có' cũng lớn như đối với từ 'kem'," ông nói. Mặt khác, trẻ em “không quan tâm đến việc chúng nói 'Con muốn ăn một ít kem' hay chỉ 'kem, kem, kem'”.

Chất lượng so với số lượng

Eldan và Li hy vọng rằng nghiên cứu này sẽ thúc đẩy các nhà nghiên cứu khác đào tạo các mô hình khác nhau về bộ dữ liệu TinyStories và so sánh khả năng của họ. Nhưng thường rất khó để dự đoán những đặc điểm nào của mô hình nhỏ cũng sẽ xuất hiện ở mô hình lớn hơn.

“Có thể các mô hình thị giác của chuột thực sự là đại diện tốt cho tầm nhìn của con người, nhưng liệu mô hình chuột bị trầm cảm có phải là mô hình tốt cho chứng trầm cảm của con người không?” Pavlick nói. “Đối với mỗi trường hợp, nó có một chút khác biệt.”

Sự thành công của các mô hình TinyStories còn gợi ra một bài học rộng lớn hơn. Cách tiếp cận tiêu chuẩn để biên soạn các tập dữ liệu đào tạo bao gồm việc thu thập văn bản trên internet và sau đó lọc rác. Văn bản tổng hợp được tạo bởi các mô hình lớn có thể cung cấp một cách khác để tập hợp các tập dữ liệu chất lượng cao mà không cần phải quá lớn.

Eldan cho biết: “Chúng tôi ngày càng có nhiều bằng chứng cho thấy điều này rất hiệu quả, không chỉ ở các mô hình cỡ TinyStories mà còn ở các mô hình lớn hơn”. Bằng chứng đó đến từ một cặp bài báo tiếp theo về mô hình tỷ tham số của Eldan, Li và các nhà nghiên cứu khác của Microsoft. bên trong giấy đầu tiên, họ đã đào tạo một mô hình để học ngôn ngữ lập trình Python bằng cách sử dụng các đoạn mã do GPT-3.5 tạo ra cùng với mã được tuyển chọn cẩn thận từ internet. bên trong 2, họ đã tăng cường tập dữ liệu huấn luyện bằng các “sách giáo khoa” tổng hợp, bao gồm nhiều chủ đề khác nhau, để đào tạo một mô hình ngôn ngữ có mục đích chung. Trong các thử nghiệm của họ, cả hai mô hình đều được so sánh thuận lợi với các mô hình lớn hơn được đào tạo trên các tập dữ liệu lớn hơn. Nhưng việc đánh giá các mô hình ngôn ngữ luôn khó khăn và phương pháp tiếp cận dữ liệu đào tạo tổng hợp vẫn còn ở giai đoạn sơ khai - cần có nhiều bài kiểm tra độc lập hơn.

Khi các mô hình ngôn ngữ tiên tiến ngày càng phát triển lớn hơn, những phát hiện đáng ngạc nhiên từ những người anh em nhỏ bé của chúng là lời nhắc nhở rằng vẫn còn nhiều điều chúng ta chưa hiểu về ngay cả những mô hình đơn giản nhất. Nguyên hy vọng sẽ thấy thêm nhiều bài viết khám phá cách tiếp cận do TinyStories tiên phong.

“Câu hỏi đặt ra là: Kích thước ở đâu và tại sao lại quan trọng?” anh ấy nói. “Cần phải có một nền khoa học về điều đó, và bài báo này hy vọng là sự khởi đầu của một câu chuyện phong phú.”

Dấu thời gian:

Thêm từ tạp chí lượng tử