AI ngày nay là trí tuệ nhân tạo nhân tạo

Được xuất bản lại bởi Plato

Người theo dõi: 0

Today's AI is artificial artificial artificial intelligence PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Công nhân được thuê thông qua các dịch vụ cộng đồng như Amazon Mechanical Turk đang sử dụng các mô hình ngôn ngữ lớn để hoàn thành nhiệm vụ của họ – điều này có thể có tác động dây chuyền tiêu cực đến các mô hình AI trong tương lai.

Dữ liệu rất quan trọng đối với AI. Các nhà phát triển cần bộ dữ liệu rõ ràng, chất lượng cao để xây dựng hệ thống máy học chính xác và đáng tin cậy. Tuy nhiên, việc tổng hợp dữ liệu có giá trị, hàng đầu có thể rất tẻ nhạt. Các công ty thường chuyển sang các nền tảng của bên thứ ba như Amazon Mechanical Turk để hướng dẫn nhóm công nhân giá rẻ thực hiện các nhiệm vụ lặp đi lặp lại – chẳng hạn như dán nhãn đồ vật, mô tả tình huống, phiên âm đoạn văn và chú thích văn bản.

Đầu ra của chúng có thể được làm sạch và đưa vào một mô hình để huấn luyện mô hình tái tạo hoạt động đó ở quy mô tự động, lớn hơn nhiều.

Do đó, các mô hình AI được xây dựng dựa trên sức lao động của con người: con người làm việc chăm chỉ, cung cấp hàng núi ví dụ đào tạo cho các hệ thống AI mà các tập đoàn có thể sử dụng để kiếm hàng tỷ đô la.

Tuy nhiên, một thử nghiệm được thực hiện bởi các nhà nghiên cứu tại École polytechnique fédérale de Lausanne (EPFL) ở Thụy Sĩ đã kết luận rằng những công nhân được huy động từ cộng đồng này đang sử dụng các hệ thống AI – chẳng hạn như chatbot ChatGPT của OpenAI – để thực hiện các công việc lặt vặt trực tuyến.

Không nên đào tạo một mô hình trên đầu ra của chính nó. Chúng ta có thể thấy các mô hình AI được đào tạo dựa trên dữ liệu không phải do con người tạo ra mà bởi các mô hình AI khác - thậm chí có thể là các mô hình tương tự. Điều đó có thể dẫn đến chất lượng đầu ra thảm hại, nhiều sai lệch hơn và các tác động không mong muốn khác.

Cuộc thí nghiệm

Các học giả đã tuyển dụng 44 nông nô Mechanical Turk để tóm tắt phần tóm tắt của 16 tài liệu nghiên cứu y học và ước tính rằng 33 đến 46 phần trăm đoạn văn bản do các công nhân gửi được tạo ra bằng các mô hình ngôn ngữ lớn. Công nhân đám đông thường được trả lương thấp – sử dụng AI để tự động tạo phản hồi cho phép họ làm việc nhanh hơn và đảm nhận nhiều công việc hơn để tăng lương.

Nhóm Thụy Sĩ đã đào tạo một bộ phân loại để dự đoán liệu các bài nộp từ Turkers là do con người hay do AI tạo ra. Các học giả cũng ghi lại các lần gõ phím của công nhân của họ để phát hiện xem liệu các nông nô có sao chép và dán văn bản lên nền tảng hay tự họ nhập các mục nhập của họ hay không. Luôn có khả năng ai đó sử dụng chatbot và sau đó nhập đầu ra theo cách thủ công – nhưng chúng tôi cho rằng điều đó khó xảy ra.

Manoel Ribeiro, đồng tác giả của nghiên cứu và một nghiên cứu sinh tại EPFL, nói Đăng ký trong tuần này.

“Mặc dù các phương pháp truyền thống cố gắng phát hiện văn bản tổng hợp 'trong bất kỳ ngữ cảnh nào', nhưng cách tiếp cận của chúng tôi tập trung vào việc phát hiện văn bản tổng hợp trong tình huống cụ thể của chúng tôi."

Trình phân loại không hoàn hảo trong việc xác định xem ai đó đã sử dụng hệ thống AI hay sản xuất tác phẩm của chính họ. Các học giả đã kết hợp đầu ra của bộ phân loại của họ với dữ liệu gõ phím để chắc chắn hơn khi ai đó sao chép từ bot hoặc tạo tài liệu của riêng họ.

Dữ liệu con người là tiêu chuẩn vàng, bởi vì chúng ta quan tâm đến con người

Ribeiro nói với chúng tôi: “Chúng tôi đã quản lý để xác thực kết quả của mình bằng cách sử dụng dữ liệu gõ phím mà chúng tôi cũng thu thập được từ MTurk. “Ví dụ: chúng tôi thấy rằng tất cả các văn bản không được sao chép đều được chúng tôi phân loại là 'thật', điều này cho thấy rằng có rất ít thông tin sai lệch."

Mã và dữ liệu được sử dụng để chạy thử nghiệm có thể được tìm thấy ở đây, trên GitHub.

Có một lý do khác khiến thử nghiệm khó có thể là một đại diện hoàn toàn công bằng về số lượng công nhân thực sự đang sử dụng AI để tự động hóa các nhiệm vụ của nguồn cộng đồng. Các tác giả lưu ý rằng nhiệm vụ tóm tắt văn bản rất phù hợp với các mô hình ngôn ngữ lớn so với các loại công việc khác – nghĩa là kết quả của chúng có thể sai lệch hơn đối với số lượng nhân viên sử dụng các công cụ như ChatGPT cao hơn.

Bộ dữ liệu gồm 46 câu trả lời từ 44 công nhân của họ cũng nhỏ. Các công nhân được trả 1 đô la cho mỗi bản tóm tắt văn bản, điều này một lần nữa có thể chỉ khuyến khích việc sử dụng AI.

Các nhà nghiên cứu lập luận rằng các mô hình ngôn ngữ lớn sẽ trở nên tồi tệ hơn nếu chúng ngày càng được đào tạo về nội dung giả mạo do AI tạo ra được thu thập từ các nền tảng nguồn cộng đồng. Các trang phục như OpenAI giữ bí mật chính xác cách họ huấn luyện các mẫu mới nhất của mình và có thể không phụ thuộc nhiều vào những thứ như Mechanical Turk, nếu có. Điều đó nói rằng, nhiều mô hình khác có thể dựa vào công nhân của con người, do đó có thể sử dụng bot để tạo dữ liệu đào tạo, đây là một vấn đề.

Mechanical Turk, chẳng hạn, được bán trên thị trường với tư cách là nhà cung cấp “các giải pháp ghi nhãn dữ liệu cho các mô hình máy học”.

“Dữ liệu của con người là tiêu chuẩn vàng, bởi vì chúng tôi quan tâm đến con người chứ không phải các mô hình ngôn ngữ lớn,” Riberio nói. “Tôi sẽ không dùng một loại thuốc chỉ được thử nghiệm trên mô hình sinh học Drosophila,” anh ấy nói như một ví dụ.

Các nhà nghiên cứu lập luận rằng các phản hồi do các mô hình AI ngày nay tạo ra thường khá nhạt nhẽo hoặc tầm thường và không nắm bắt được sự phức tạp và đa dạng trong khả năng sáng tạo của con người.

Robert West, đồng tác giả của bài báo và là trợ lý giáo sư tại trường khoa học máy tính và truyền thông của EPFL, nói với chúng tôi: “Đôi khi những gì chúng tôi muốn nghiên cứu với dữ liệu có nguồn gốc từ cộng đồng chính là cách con người không hoàn hảo.

Khi AI tiếp tục được cải thiện, có khả năng công việc sử dụng nguồn lực cộng đồng sẽ thay đổi. Riberio suy đoán rằng các mô hình ngôn ngữ lớn có thể thay thế một số công nhân trong các nhiệm vụ cụ thể. “Tuy nhiên, nghịch lý thay, dữ liệu của con người có thể quý giá hơn bao giờ hết và do đó, có thể các nền tảng này sẽ có thể triển khai các cách để ngăn chặn việc sử dụng mô hình ngôn ngữ lớn và đảm bảo nó vẫn là nguồn dữ liệu của con người.”

Ai biết được – có lẽ con người thậm chí có thể cộng tác với các mô hình ngôn ngữ lớn để tạo ra phản hồi, ông nói thêm. ®

Phân phối nội dung và PR được hỗ trợ bởi SEO. Được khuếch đại ngay hôm nay.
EVM tài chính. Giao diện hợp nhất cho tài chính phi tập trung. Truy cập Tại đây.
Tập đoàn truyền thông lượng tử. Khuếch đại IR/PR. Truy cập Tại đây.
PlatoAiStream. Thông minh dữ liệu Web3. Kiến thức khuếch đại. Truy cập Tại đây.
nguồn: https://go.theregister.com/feed/www.theregister.com/2023/06/16/crowd_workers_bots_ai_training/

Dấu thời gian: 16 Tháng Sáu, 2023

Dấu thời gian: 18 Tháng Năm, 2023

Trí tuệ nhân tạo ngày nay là trí tuệ nhân tạo nhân tạo

Được xuất bản lại bởi Plato

Cuộc thí nghiệm

Thêm từ Đăng ký

Bản chất của sự thay đổi

Google, Apple đang đàm phán thỏa thuận đưa Gemini lên iDevices

Singapore cải thiện AI sử dụng để phát hiện người hút thuốc

LHQ thông qua nghị quyết AI do Hoa Kỳ tài trợ và không ràng buộc

Spotify hiện sử dụng AI để sao chép giọng nói của podcaster sang tiếng Tây Ban Nha

Tin 'chính': Microsoft đưa phím tắt chatbot Bing vào Windows 11

AI có đến với công việc của bạn không? Vâng, có thể, nhưng nó phụ thuộc vào

Về chúng tôi

Tìm kiếm dọc & Ai

Nền tảng

NHẬN THÔNG TIN

Tài khoản