Kịch tính của LLaMA khi mô hình ngôn ngữ lớn của Meta bị rò rỉ

Kịch tính của LLaMA khi mô hình ngôn ngữ lớn của Meta bị rò rỉ

Bộ phim truyền hình LLaMA với tư cách là mô hình ngôn ngữ lớn của Meta làm rò rỉ PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

LLaMA, mô hình ngôn ngữ lớn mới nhất của Meta, đã bị rò rỉ trực tuyến và có sẵn để tải xuống, bất chấp những nỗ lực rõ ràng nhằm hạn chế quyền truy cập chỉ cho mục đích nghiên cứu.

ông chủ facebook công bố vào tháng Hai, nó đã phát hành mô hình một cách hạn chế để chọn các học giả, loại hình chính phủ và các công ty để chơi trong bối cảnh sợ hãi cuộc gọi có thể bị lạm dụng. Nhưng thông tin luôn muốn được miễn phí, hoặc ít nhất là một số người nhất định muốn nó, và sự sáng tạo của Meta dù sao cũng đã tìm được đường trực tuyến, bắt đầu bằng một vụ rò rỉ torrent.

Các mô hình ngôn ngữ lớn dự đoán câu, tạo ra các đoạn văn bản từ lời nhắc nhập liệu, đã phát triển đều đặn, từ tự động hoàn thành bài viết của một người đến chatbot có khả năng thực hiện các tác vụ khi được yêu cầu bằng ngôn ngữ tự nhiên.

Các chuyên gia đã cảnh báo rằng công nghệ này có thể được sử dụng để tự động hóa việc sản xuất một lượng lớn tin tức giả mạo, thư rác, email lừa đảo, thông tin sai lệch, kích động, v.v. trong nhiều năm tới. Các tổ chức xây dựng các mô hình này thường giữ kín phần mềm, đằng sau các API hoặc phát hành các phiên bản hoặc bản trình diễn giới hạn. 

“Vẫn còn nhiều nghiên cứu cần được thực hiện để giải quyết các rủi ro về thành kiến, bình luận độc hại và ảo giác trong các mô hình ngôn ngữ lớn,” Meta nói tuần trước.

“Giống như các mô hình khác, LLaMA chia sẻ những thách thức này. Là một mô hình nền tảng, LLaMA được thiết kế linh hoạt và có thể áp dụng cho nhiều trường hợp sử dụng khác nhau, so với một mô hình tinh chỉnh được thiết kế cho một nhiệm vụ cụ thể.

“Để duy trì tính toàn vẹn và ngăn chặn việc sử dụng sai mục đích, chúng tôi sẽ phát hành mô hình của mình theo giấy phép phi thương mại tập trung vào các trường hợp sử dụng nghiên cứu. Quyền truy cập vào mô hình sẽ được cấp trên cơ sở từng trường hợp cụ thể cho các nhà nghiên cứu học thuật; những người liên kết với các tổ chức trong chính phủ, xã hội dân sự và học viện; và các phòng thí nghiệm nghiên cứu công nghiệp trên khắp thế giới.”

Hướng dẫn Cách làm

Nhưng những nỗ lực của Meta để kiểm soát quyền truy cập vào LLaMA dường như là vô ích, hoặc có vẻ như vậy. Ngay sau khi chia sẻ mô hình với các nhà tài trợ được chọn và những người trong ngành và xã hội dân sự, ai đó trên 4Chan đã đăng thông tin chi tiết về cách lấy toàn bộ mô hình thông qua chia sẻ tệp ngang hàng và cuối cùng hướng dẫn cách tải về tất cả đã được xuất bản trên GitHub.

Như mọi khi, hãy thận trọng khi tìm nạp những thứ như thế này từ torrent phòng trường hợp ai đó giấu thứ gì đó bất chính trong đó. Mô hình 65 tỷ tham số chiếm khoảng 220 GB dung lượng ổ đĩa, chúng tôi được biết.

Chúng tôi lưu ý rằng các bản sao của LLaMA có sẵn thông qua GitHub dường như là hợp pháp. Shawn Presser, một kỹ sư AI người đã viết hướng dẫn tải xuống trên trang web chia sẻ mã của Microsoft, đã cho chúng tôi xem ảnh chụp màn hình về việc anh ấy tạo thành công văn bản từ mô hình. Anh ấy tin rằng một nhà nghiên cứu được cấp quyền truy cập vào mô hình từ Meta đã làm rò rỉ nó, dẫn đến việc nó có thể được phân phối rộng hơn dự kiến.

Bắt đầu động cơ lý thuyết âm mưu của bạn.

Presser cho rằng việc phát hành mô hình một cách tự do mà không cần báo trước sẽ tốt hơn là chỉ giới hạn nó trong phạm vi các học giả đã được phê duyệt. “Tôi nghĩ cái tốt sẽ nhiều hơn cái xấu, ít nhất là gấp mười lần. Có lẽ gần gấp 100 lần, anh ấy nói Đăng ký

Nhìn chung, việc đào tạo và vận hành các mô hình ngôn ngữ lớn tiên tiến nhất rất tốn kém; chỉ những tổ chức có quyền truy cập vào hàng đống GPU và cơ sở hạ tầng khác mới có thể xây dựng, tinh chỉnh và thử nghiệm chúng. Các nhà nghiên cứu AI tại Meta xây dựng LLaMA nhỏ hơn, làm cho nó nhỏ gọn hơn so với các mô hình thương mại ngày nay và do đó dễ tiếp cận hơn đối với các học giả và nhà phát triển mà không cần ngân sách CNTT không tầm thường. 

Các chuyên gia máy học của Meta tuyên bố hệ thống của họ vượt trội so với GPT-3 của OpenAI và tốt như các mô hình ngôn ngữ lớn khác, chẳng hạn như PaLM 540 tỷ tham số của Google hoặc Chinchilla 70 tỷ tham số của DeepMind. Kích thước nhỏ hơn có nghĩa là nó sẽ dễ sử dụng hơn đối với các nhà khoa học có ít tài nguyên máy tính hơn. Và vâng, có rất nhiều mô hình ngôn ngữ với đủ hình dạng và kích cỡ; nó không chỉ là OpenAI và Facebook.

LLaMA vẫn yêu cầu hàng trăm gigabyte dung lượng lưu trữ và một lượng máy tính kha khá để chạy nó. Việc thiết lập và chạy mô hình cũng không dễ dàng, trừ khi bạn đã quen với việc xử lý các hệ thống kiểu này và việc sử dụng lại mô hình cho các hoạt động bất chính hơn cũng sẽ yêu cầu chuyên môn kỹ thuật cao hơn. Mặc dù mô hình đã bị rò rỉ, Meta cho biết họ sẽ chỉ tiếp tục chia sẻ LLaMA với các nhà nghiên cứu được chọn. 

Chúng tôi tin rằng chiến lược phát hành hiện tại cho phép chúng tôi cân bằng giữa trách nhiệm và sự cởi mở

Người phát ngôn cho biết: “Mục tiêu của Meta là chia sẻ các mô hình AI tiên tiến nhất với các thành viên của cộng đồng nghiên cứu để giúp chúng tôi đánh giá và cải thiện các mô hình đó”. Đăng ký.

“LLaMA được chia sẻ cho mục đích nghiên cứu, phù hợp với cách chúng tôi đã chia sẻ các mô hình ngôn ngữ lớn trước đây. Mặc dù không phải tất cả mọi người đều có thể truy cập mô hình và một số người đã cố gắng phá vỡ quy trình phê duyệt, nhưng chúng tôi tin rằng chiến lược phát hành hiện tại cho phép chúng tôi cân bằng giữa trách nhiệm và sự cởi mở.”

Nói cách khác, nhóm Facebook ủng hộ phương pháp phân phối công nghệ của mình.

Những nỗ lực gần đây của Meta để phát hành các mô hình ngôn ngữ lớn không diễn ra suôn sẻ. Năm ngoái BlenderBot tán gẫu của nó là chỉ trích để truyền bá thông tin sai lệch và quan điểm bài Do Thái. Galactica, được thiết kế để tóm tắt kiến ​​thức khoa học, là loại bỏ ba ngày sau khi nó được đưa ra để tạo nội dung giả mạo và phân biệt chủng tộc. ®

Dấu thời gian:

Thêm từ Đăng ký