Công nhân được thuê thông qua các dịch vụ cộng đồng như Amazon Mechanical Turk đang sử dụng các mô hình ngôn ngữ lớn để hoàn thành nhiệm vụ của họ – điều này có thể có tác động dây chuyền tiêu cực đến các mô hình AI trong tương lai.
Dữ liệu rất quan trọng đối với AI. Các nhà phát triển cần bộ dữ liệu rõ ràng, chất lượng cao để xây dựng hệ thống máy học chính xác và đáng tin cậy. Tuy nhiên, việc tổng hợp dữ liệu có giá trị, hàng đầu có thể rất tẻ nhạt. Các công ty thường chuyển sang các nền tảng của bên thứ ba như Amazon Mechanical Turk để hướng dẫn nhóm công nhân giá rẻ thực hiện các nhiệm vụ lặp đi lặp lại – chẳng hạn như dán nhãn đồ vật, mô tả tình huống, phiên âm đoạn văn và chú thích văn bản.
Đầu ra của chúng có thể được làm sạch và đưa vào một mô hình để huấn luyện mô hình tái tạo hoạt động đó ở quy mô tự động, lớn hơn nhiều.
Do đó, các mô hình AI được xây dựng dựa trên sức lao động của con người: con người làm việc chăm chỉ, cung cấp hàng núi ví dụ đào tạo cho các hệ thống AI mà các tập đoàn có thể sử dụng để kiếm hàng tỷ đô la.
Tuy nhiên, một thử nghiệm được thực hiện bởi các nhà nghiên cứu tại École polytechnique fédérale de Lausanne (EPFL) ở Thụy Sĩ đã kết luận rằng những công nhân được huy động từ cộng đồng này đang sử dụng các hệ thống AI – chẳng hạn như chatbot ChatGPT của OpenAI – để thực hiện các công việc lặt vặt trực tuyến.
Không nên đào tạo một mô hình trên đầu ra của chính nó. Chúng ta có thể thấy các mô hình AI được đào tạo dựa trên dữ liệu không phải do con người tạo ra mà bởi các mô hình AI khác - thậm chí có thể là các mô hình tương tự. Điều đó có thể dẫn đến chất lượng đầu ra thảm hại, nhiều sai lệch hơn và các tác động không mong muốn khác.
Cuộc thí nghiệm
Các học giả đã tuyển dụng 44 nông nô Mechanical Turk để tóm tắt phần tóm tắt của 16 tài liệu nghiên cứu y học và ước tính rằng 33 đến 46 phần trăm đoạn văn bản do các công nhân gửi được tạo ra bằng các mô hình ngôn ngữ lớn. Công nhân đám đông thường được trả lương thấp – sử dụng AI để tự động tạo phản hồi cho phép họ làm việc nhanh hơn và đảm nhận nhiều công việc hơn để tăng lương.
Nhóm Thụy Sĩ đã đào tạo một bộ phân loại để dự đoán liệu các bài nộp từ Turkers là do con người hay do AI tạo ra. Các học giả cũng ghi lại các lần gõ phím của công nhân của họ để phát hiện xem liệu các nông nô có sao chép và dán văn bản lên nền tảng hay tự họ nhập các mục nhập của họ hay không. Luôn có khả năng ai đó sử dụng chatbot và sau đó nhập đầu ra theo cách thủ công – nhưng chúng tôi cho rằng điều đó khó xảy ra.
Manoel Ribeiro, đồng tác giả của nghiên cứu và một nghiên cứu sinh tại EPFL, nói Đăng ký trong tuần này.
“Mặc dù các phương pháp truyền thống cố gắng phát hiện văn bản tổng hợp 'trong bất kỳ ngữ cảnh nào', nhưng cách tiếp cận của chúng tôi tập trung vào việc phát hiện văn bản tổng hợp trong tình huống cụ thể của chúng tôi."
Trình phân loại không hoàn hảo trong việc xác định xem ai đó đã sử dụng hệ thống AI hay sản xuất tác phẩm của chính họ. Các học giả đã kết hợp đầu ra của bộ phân loại của họ với dữ liệu gõ phím để chắc chắn hơn khi ai đó sao chép từ bot hoặc tạo tài liệu của riêng họ.
Dữ liệu con người là tiêu chuẩn vàng, bởi vì chúng ta quan tâm đến con người
Ribeiro nói với chúng tôi: “Chúng tôi đã quản lý để xác thực kết quả của mình bằng cách sử dụng dữ liệu gõ phím mà chúng tôi cũng thu thập được từ MTurk. “Ví dụ: chúng tôi thấy rằng tất cả các văn bản không được sao chép đều được chúng tôi phân loại là 'thật', điều này cho thấy rằng có rất ít thông tin sai lệch."
Mã và dữ liệu được sử dụng để chạy thử nghiệm có thể được tìm thấy ở đây, trên GitHub.
Có một lý do khác khiến thử nghiệm khó có thể là một đại diện hoàn toàn công bằng về số lượng công nhân thực sự đang sử dụng AI để tự động hóa các nhiệm vụ của nguồn cộng đồng. Các tác giả lưu ý rằng nhiệm vụ tóm tắt văn bản rất phù hợp với các mô hình ngôn ngữ lớn so với các loại công việc khác – nghĩa là kết quả của chúng có thể sai lệch hơn đối với số lượng nhân viên sử dụng các công cụ như ChatGPT cao hơn.
Bộ dữ liệu gồm 46 câu trả lời từ 44 công nhân của họ cũng nhỏ. Các công nhân được trả 1 đô la cho mỗi bản tóm tắt văn bản, điều này một lần nữa có thể chỉ khuyến khích việc sử dụng AI.
Các nhà nghiên cứu lập luận rằng các mô hình ngôn ngữ lớn sẽ trở nên tồi tệ hơn nếu chúng ngày càng được đào tạo về nội dung giả mạo do AI tạo ra được thu thập từ các nền tảng nguồn cộng đồng. Các trang phục như OpenAI giữ bí mật chính xác cách họ huấn luyện các mẫu mới nhất của mình và có thể không phụ thuộc nhiều vào những thứ như Mechanical Turk, nếu có. Điều đó nói rằng, nhiều mô hình khác có thể dựa vào công nhân của con người, do đó có thể sử dụng bot để tạo dữ liệu đào tạo, đây là một vấn đề.
Mechanical Turk, chẳng hạn, được bán trên thị trường với tư cách là nhà cung cấp “các giải pháp ghi nhãn dữ liệu cho các mô hình máy học”.
“Dữ liệu của con người là tiêu chuẩn vàng, bởi vì chúng tôi quan tâm đến con người chứ không phải các mô hình ngôn ngữ lớn,” Riberio nói. “Tôi sẽ không dùng một loại thuốc chỉ được thử nghiệm trên mô hình sinh học Drosophila,” anh ấy nói như một ví dụ.
Các nhà nghiên cứu lập luận rằng các phản hồi do các mô hình AI ngày nay tạo ra thường khá nhạt nhẽo hoặc tầm thường và không nắm bắt được sự phức tạp và đa dạng trong khả năng sáng tạo của con người.
Robert West, đồng tác giả của bài báo và là trợ lý giáo sư tại trường khoa học máy tính và truyền thông của EPFL, nói với chúng tôi: “Đôi khi những gì chúng tôi muốn nghiên cứu với dữ liệu có nguồn gốc từ cộng đồng chính là cách con người không hoàn hảo.
Khi AI tiếp tục được cải thiện, có khả năng công việc sử dụng nguồn lực cộng đồng sẽ thay đổi. Riberio suy đoán rằng các mô hình ngôn ngữ lớn có thể thay thế một số công nhân trong các nhiệm vụ cụ thể. “Tuy nhiên, nghịch lý thay, dữ liệu của con người có thể quý giá hơn bao giờ hết và do đó, có thể các nền tảng này sẽ có thể triển khai các cách để ngăn chặn việc sử dụng mô hình ngôn ngữ lớn và đảm bảo nó vẫn là nguồn dữ liệu của con người.”
Ai biết được – có lẽ con người thậm chí có thể cộng tác với các mô hình ngôn ngữ lớn để tạo ra phản hồi, ông nói thêm. ®
- Phân phối nội dung và PR được hỗ trợ bởi SEO. Được khuếch đại ngay hôm nay.
- EVM tài chính. Giao diện hợp nhất cho tài chính phi tập trung. Truy cập Tại đây.
- Tập đoàn truyền thông lượng tử. Khuếch đại IR/PR. Truy cập Tại đây.
- PlatoAiStream. Thông minh dữ liệu Web3. Kiến thức khuếch đại. Truy cập Tại đây.
- nguồn: https://go.theregister.com/feed/www.theregister.com/2023/06/16/crowd_workers_bots_ai_training/
- : có
- :là
- :không phải
- $ LÊN
- 16
- 7
- a
- Có khả năng
- Giới thiệu
- tóm tắt
- học giả
- chính xác
- thêm
- một lần nữa
- AI
- Tất cả
- cho phép
- Ngoài ra
- luôn luôn
- đàn bà gan dạ
- an
- và
- Một
- bất kì
- phương pháp tiếp cận
- LÀ
- lập luận
- nhân tạo
- trí tuệ nhân tạo
- AS
- Trợ lý
- At
- tác giả
- tự động hóa
- Tự động
- tự động
- xa
- BE
- bởi vì
- được
- thiên vị
- tỷ
- dịu dàng
- Bot
- chương trình
- xây dựng
- xây dựng
- nhưng
- by
- CAN
- nắm bắt
- mà
- nhất định
- cơ hội
- thay đổi
- chatbot
- ChatGPT
- giá rẻ
- phân loại
- Đóng
- CO
- Đồng tác giả
- mã
- hợp tác
- kết hợp
- Giao tiếp
- Các công ty
- so
- hoàn thành
- hoàn toàn
- phức tạp
- máy tính
- kết luận
- thực hiện
- nội dung
- bối cảnh
- liên tiếp
- Tổng công ty
- có thể
- sáng tạo
- quan trọng
- đám đông
- dữ liệu
- bộ dữ liệu
- phát triển
- phát triển
- tai hại
- SỰ ĐA DẠNG
- do
- đô la
- mỗi
- hiệu ứng
- khuyến khích
- cuối
- đảm bảo
- ước tính
- Ngay cả
- BAO GIỜ
- chính xác
- ví dụ
- ví dụ
- thử nghiệm
- công bằng
- giả mạo
- sai
- nhanh hơn
- Fed
- vài
- tập trung
- Trong
- tìm thấy
- từ
- tương lai
- tạo ra
- tạo ra
- được
- GitHub
- Gói Vàng
- Tiêu chuẩn vàng
- Có
- he
- nặng nề
- chất lượng cao
- cao hơn
- Độ đáng tin của
- Tuy nhiên
- HTTPS
- Nhân loại
- Con người
- i
- xác định
- if
- thực hiện
- nâng cao
- in
- Tăng lên
- lên
- Sự thông minh
- trong
- isn
- IT
- ITS
- việc làm
- jpg
- Giữ
- ghi nhãn
- nhân công
- Ngôn ngữ
- lớn
- lớn hơn
- mới nhất
- dẫn
- học tập
- Lượt thích
- Có khả năng
- đăng nhập
- Thấp
- máy
- học máy
- làm cho
- quản lý
- thủ công
- nhiều
- vật liệu
- Có thể..
- có nghĩa là
- cơ khí
- y khoa
- nghiên cứu y học
- y học
- Phương pháp luận
- phương pháp
- Might
- kiểu mẫu
- mô hình
- chi tiết
- nhiều
- Cần
- tiêu cực
- con số
- đối tượng
- of
- thường
- on
- ONE
- Trực tuyến
- có thể
- OpenAI
- or
- Nền tảng khác
- vfoXNUMXfipXNUMXhfpiXNUMXufhpiXNUMXuf
- đầu ra
- riêng
- thanh toán
- Giấy
- giấy tờ
- bên
- Trả
- người
- phần trăm
- hoàn hảo
- Thực hiện
- có lẽ
- nền tảng
- Nền tảng
- plato
- Thông tin dữ liệu Plato
- PlatoDữ liệu
- Rất nhiều
- Hồ bơi
- quyền lực
- Quí
- Chính xác
- dự đoán
- ngăn chặn
- Vấn đề
- Sản xuất
- Giáo sư
- nhà cung cấp dịch vụ
- cung cấp
- chất lượng
- thực
- có thật không
- lý do
- đề nghị
- đáng tin cậy
- dựa
- vẫn còn
- lặp đi lặp lại
- thay thế
- đại diện
- nghiên cứu
- nhà nghiên cứu
- phản ứng
- Kết quả
- ROBERT
- chạy
- s
- Nói
- tương tự
- Quy mô
- kịch bản
- Trường học
- Khoa học
- Bí mật
- xem
- DỊCH VỤ
- tình huống
- nhỏ
- Giải pháp
- một số
- Một người nào đó
- nguồn
- riêng
- Tiêu chuẩn
- Sinh viên
- Học tập
- Đệ trình
- trình
- như vậy
- Gợi ý
- tóm tắt
- TÓM TẮT
- Thụy Sĩ
- switzerland
- sợi tổng hợp
- hệ thống
- hệ thống
- Hãy
- Nhiệm vụ
- nhiệm vụ
- nhóm
- thử nghiệm
- thử nghiệm
- hơn
- việc này
- Sản phẩm
- Tương lai
- cung cấp their dịch
- Them
- tự
- sau đó
- Đó
- Kia là
- họ
- điều
- Thứ ba
- điều này
- tuần này
- đến
- bây giờ
- quá
- công cụ
- đối với
- truyền thống
- Train
- đào tạo
- Hội thảo
- thử
- XOAY
- loại
- không
- không mong muốn
- us
- Sử dụng
- sử dụng
- đã sử dụng
- sử dụng
- sử dụng
- thường
- HIỆU LỰC
- Quý báu
- rất
- thông qua
- tiền lương
- muốn
- là
- cách
- we
- tuần
- TỐT
- là
- hướng Tây
- Điều gì
- khi nào
- liệu
- cái nào
- trong khi
- sẽ
- với
- Công việc
- làm việc
- công nhân
- tệ hơn
- zephyrnet