Meta ra mắt mô hình ngôn ngữ lớn Llama thế hệ thứ ba

Meta ra mắt mô hình ngôn ngữ lớn Llama thế hệ thứ ba

Meta đã tung ra mô hình ngôn ngữ lớn (LLM) mới nhất của mình – có tên là Llama 3 – và tuyên bố nó sẽ thách thức các mô hình lớn hơn nhiều từ Google, Mistral và Anthropic.

Lộ diện trong thời gian dài thông báo vào thứ Năm, Llama 3 có sẵn các phiên bản từ 400 tỷ đến hơn XNUMX tỷ thông số. Để tham khảo, OpenAI và các mô hình lớn nhất của Google đang đạt gần hai nghìn tỷ tham số.

Hiện tại, chúng tôi chỉ có quyền truy cập vào các biến thể văn bản tham số 3 tỷ và 70 tỷ của Llama XNUMX. Meta vẫn chưa hoàn thành việc đào tạo các mô hình lớn nhất và phức tạp nhất của mình nhưng gợi ý rằng chúng sẽ đa ngôn ngữ và đa phương thức – nghĩa là chúng được tập hợp từ nhiều mô hình được tối ưu hóa cho miền nhỏ hơn.

Ngay cả với chỉ 70 tỷ thông số, Meta khẳng định Llama 3 vẫn có đủ khả năng cạnh tranh với các mô hình lớn hơn nhiều.

Meta tuyên bố Llama3-8B và 70B có thể hoạt động tốt hơn nhiều so với các mẫu lớn hơn bao gồm Gemini Pro và Antrhopic's Claude 3

Meta khẳng định Llama3-8B và 70B có thể hoạt động tốt hơn nhiều so với các mẫu lớn hơn bao gồm Gemini Pro và Antrhopic's Claude 3 - Nhấp để phóng to

Dữ liệu tốt hơn, mô hình tốt hơn

Theo Meta, một trong những lợi ích lớn nhất đến từ việc sử dụng tokenizer với vốn từ vựng 128,000 token. Trong ngữ cảnh LLM, mã thông báo có thể là một vài ký tự, toàn bộ từ hoặc thậm chí là cụm từ. AI chia đầu vào của con người thành mã thông báo, sau đó sử dụng vốn từ vựng về mã thông báo của chúng để tạo đầu ra.

Meta giải thích rằng mã thông báo của nó giúp mã hóa ngôn ngữ hiệu quả hơn, tăng hiệu suất đáng kể. Lợi ích bổ sung đã đạt được bằng cách sử dụng bộ dữ liệu chất lượng cao hơn và các bước tinh chỉnh bổ sung sau khi đào tạo để cải thiện hiệu suất và độ chính xác tổng thể của mô hình.

Cụ thể, Meta tiết lộ Llama 3 đã được đào tạo trước trên hơn 15 nghìn tỷ token được thu thập từ các nguồn có sẵn công khai.

Tập dữ liệu huấn luyện của Llama 3 lớn hơn bảy lần và chứa mã nhiều hơn bốn lần so với Llama 2. phát động chỉ chín tháng trước. Tuy nhiên, như người ta thường nói, “rác vào, rác ra” - vì vậy Meta tuyên bố họ đã phát triển một loạt quy trình lọc dữ liệu để đảm bảo Llama 3 được đào tạo về càng ít thông tin xấu càng tốt.

Các biện pháp kiểm soát chất lượng đó bao gồm cả bộ lọc heuristic và NSFW, cũng như tính năng loại bỏ trùng lặp dữ liệu và bộ phân loại văn bản được sử dụng để dự đoán chất lượng thông tin trước khi đào tạo. Meta thậm chí còn sử dụng mô hình Llama 2 cũ hơn của mình – được cho là “có khả năng xác định dữ liệu chất lượng cao một cách đáng ngạc nhiên” – để giúp tách lúa mì khỏi trấu.

Năm phần trăm dữ liệu đào tạo đến từ hơn 30 ngôn ngữ, mà Meta dự đoán trong tương lai sẽ giúp mang lại nhiều khả năng đa ngôn ngữ đáng kể hơn cho mô hình. Hiện tại, Mạng xã hội™️ cho biết người dùng không nên mong đợi mức độ hiệu suất tương tự ở các ngôn ngữ khác ngoài tiếng Anh.

Việc đào tạo các mô hình nhỏ trên một tập dữ liệu lớn như vậy thường được coi là lãng phí thời gian tính toán và thậm chí tạo ra độ chính xác giảm dần. Sự kết hợp lý tưởng giữa dữ liệu đào tạo để tính toán tài nguyên được gọi là “Chinchilla tối ưu” [PDF] số tiền. Theo Meta, đối với mô hình 3 tỷ tham số như Llama8-200B, con số này sẽ là khoảng XNUMX tỷ token.

Tuy nhiên, trong quá trình thử nghiệm, Meta nhận thấy hiệu suất của Llama 3 tiếp tục được cải thiện ngay cả khi được đào tạo trên các tập dữ liệu lớn hơn. “Cả hai mô hình tham số 70 tỷ và 15 tỷ của chúng tôi đều tiếp tục cải thiện logarit tuyến tính sau khi chúng tôi đào tạo chúng với số lượng lên tới XNUMX nghìn tỷ token,” biz viết.

Có vẻ như kết quả là một mô hình tương đối nhỏ gọn có khả năng tạo ra kết quả tương đương với các mô hình lớn hơn nhiều. Sự đánh đổi trong điện toán có thể được coi là đáng giá vì các mô hình nhỏ hơn thường dễ suy luận hơn và do đó dễ triển khai trên quy mô lớn hơn.

Với độ chính xác 8 bit, mô hình 8 tỷ tham số chỉ cần 4GB bộ nhớ. Việc giảm độ chính xác xuống XNUMX bit – sử dụng phần cứng hỗ trợ hoặc sử dụng lượng tử hóa để nén mô hình – sẽ giảm yêu cầu bộ nhớ xuống khoảng một nửa.

Meta đã huấn luyện mô hình trên một cặp cụm điện toán, mỗi cụm chứa 24,000 GPU Nvidia. Như bạn có thể tưởng tượng, việc đào tạo trên một cụm lớn như vậy tuy nhanh hơn nhưng cũng đặt ra một số thách thức – khả năng xảy ra lỗi trong quá trình đào tạo sẽ tăng lên.

Để giảm thiểu điều này, Meta giải thích rằng họ đã phát triển một hệ thống đào tạo tự động hóa việc phát hiện, xử lý và bảo trì lỗi. Hyperscaler cũng bổ sung thêm hệ thống giám sát và lưu trữ lỗi để giảm chi phí cho điểm kiểm tra và khôi phục trong trường hợp quá trình đào tạo bị gián đoạn. Và sau khi hoàn thành, Meta đưa các mô hình vào một loạt các bước kiểm tra và tinh chỉnh sau đào tạo.

Cùng với Llama3-8B và 70B, Meta cũng triển khai các công cụ an toàn và tin cậy mới và cập nhật – bao gồm Llama Guard 2 và Cybersec Eval 2, để giúp người dùng bảo vệ mô hình khỏi các cuộc tấn công lạm dụng và/hoặc tấn công tiêm nhiễm ngay lập tức. Code Shield là một phần bổ sung khác cung cấp các rào chắn được thiết kế để giúp lọc mã không an toàn do Llama 3 tạo ra.

Như chúng tôi đã báo cáo trước đây, việc tạo mã được hỗ trợ bởi LLM đã dẫn đến một số điều thú vị vectơ tấn công mà Meta đang tìm cách tránh.

Sự có sẵn

Trong vài tháng tới, Meta có kế hoạch tung ra các mô hình bổ sung – bao gồm một mô hình có hơn 400 tỷ tham số và hỗ trợ chức năng, ngôn ngữ bổ sung cũng như cửa sổ ngữ cảnh lớn hơn. Cái sau sẽ cho phép người dùng hỏi những truy vấn lớn hơn, phức tạp hơn – như tóm tắt một khối văn bản lớn.

Llama3-8B và 70B hiện có sẵn để tải xuống từ Meta's trang mạng. Amazon Web Services, Microsoft Azure, Google Cloud, Hugging Face và các dịch vụ khác cũng có kế hoạch cung cấp mô hình để triển khai trên nền tảng của họ.

Nếu bạn muốn thử nghiệm Llama3 trên máy của mình, bạn có thể xem hướng dẫn của chúng tôi về cách chạy LLM cục bộ tại đây. Sau khi cài đặt xong, bạn có thể khởi chạy nó bằng cách chạy:

ollama chạy llama3

Hãy vui vẻ và cho chúng tôi biết nó diễn ra như thế nào. ®

Dấu thời gian:

Thêm từ Đăng ký