Dữ liệu tổng hợp có thể mang lại những cải tiến hiệu suất thực sự trong học máy

Được xuất bản lại bởi Plato

Người theo dõi: 0

Nhận dạng hành động đã được cải thiện đáng kể với bộ dữ liệu video quy mô lớn. Tuy nhiên, các bộ dữ liệu này đi kèm với các vấn đề liên quan đến chi phí giám tuyển, quyền riêng tư, đạo đức, thành kiến và bản quyền. Vì thế, MIT các nhà khoa học đang chuyển sang bộ dữ liệu tổng hợp.

Chúng được tạo bởi máy tính sử dụng mô hình 3D của cảnh, vật thể và con người để nhanh chóng tạo ra nhiều clip hành động cụ thể khác nhau — không có vấn đề bản quyền tiềm ẩn hoặc lo ngại về đạo đức đi kèm với dữ liệu thực.

Dữ liệu tổng hợp có tốt như dữ liệu thực không?

Một nhóm các nhà khoa học tại MIT, Phòng thí nghiệm trí tuệ nhân tạo MIT-IBM Watson và Đại học Boston đã tìm cách trả lời câu hỏi này. Họ đã tạo ra một bộ dữ liệu tổng hợp gồm 150,000 video clip thể hiện nhiều hành động của con người và được đào tạo máy học các mô hình sử dụng tập dữ liệu này. Sau đó, họ hiển thị sáu bộ dữ liệu phim được lấy từ thế giới thực cho các mô hình này để kiểm tra xem họ có thể tiếp nhận các hành động trong các bản ghi đó tốt như thế nào.

Các nhà khoa học nhận thấy rằng các mô hình được đào tạo tổng hợp thậm chí còn hoạt động tốt hơn các mô hình được đào tạo trên dữ liệu thực đối với các video có ít đối tượng nền hơn.

Khám phá này có thể hỗ trợ việc sử dụng các bộ dữ liệu tổng hợp của các nhà khoa học để hỗ trợ các mô hình thực hiện chính xác hơn các nhiệm vụ thực tế. Để giảm bớt một số lo ngại về đạo đức, quyền riêng tư và bản quyền liên quan đến việc sử dụng bộ dữ liệu thực tế, nó cũng có thể hỗ trợ các nhà nghiên cứu xác định ứng dụng học máy nào phù hợp nhất để đào tạo với dữ liệu tổng hợp.

Rogerio Feris, nhà khoa học chính và quản lý tại Phòng thí nghiệm trí tuệ nhân tạo MIT-IBM Watson cho biết: “Mục tiêu cuối cùng trong nghiên cứu của chúng tôi là thay thế việc đào tạo trước dữ liệu thực bằng đào tạo trước dữ liệu tổng hợp. Có một chi phí khi tạo một hành động trong dữ liệu tổng hợp, nhưng sau khi hoàn thành, bạn có thể tạo hình ảnh hoặc video không giới hạn bằng cách thay đổi tư thế, ánh sáng, v.v. Đó là vẻ đẹp của dữ liệu tổng hợp.”

Các nhà khoa học đã bắt đầu bằng cách biên soạn một Đào tạo trước và chuyển giao hành động tổng hợp mới (SynAPT), sử dụng ba bộ dữ liệu có sẵn công khai gồm các video clip tổng hợp ghi lại các hành động của con người. Nó chứa gần 150 danh mục hành động, với 1,000 video clip cho mỗi danh mục.

Ba mô hình máy học đã được đào tạo trước để nhận ra các hành động bằng cách sử dụng tập dữ liệu sau khi nó được tạo. Đào tạo trước là quá trình dạy một nhiệm vụ mẫu trước khi dạy nó một nhiệm vụ khác. Mô hình được đào tạo trước có thể sử dụng các tham số mà nó đã học để giúp nó học một nhiệm vụ mới với tập dữ liệu mới nhanh hơn và hiệu quả hơn. Điều này được mô phỏng theo cách mọi người học hỏi, đó là sử dụng lại thông tin trong quá khứ khi chúng ta biết điều gì đó mới. Mô hình được huấn luyện trước đã được thử nghiệm bằng cách sử dụng sáu bộ dữ liệu gồm các video clip thực, mỗi bộ ghi lại các lớp hành động khác với các lớp trong dữ liệu huấn luyện.

Các nhà khoa học đã rất ngạc nhiên khi thấy rằng cả ba mô hình tổng hợp đều vượt trội so với các mô hình được đào tạo bằng các video clip thực tế trên bốn trong số sáu bộ dữ liệu. Độ chính xác của chúng là cao nhất đối với các bộ dữ liệu chứa các video clip có “độ lệch đối tượng cảnh thấp”. Điều đó có nghĩa là mô hình không thể nhận ra hành động bằng cách nhìn vào nền hoặc các đối tượng khác trong cảnh — nó phải tập trung vào chính hành động đó.

Ferris nói, “Trong các video có độ lệch đối tượng-cảnh thấp, tính năng động theo thời gian của các hành động quan trọng hơn hình thức của đối tượng hoặc nền và điều đó dường như được ghi lại tốt bằng dữ liệu tổng hợp.”

“Sự thiên vị đối tượng cảnh cao có thể đóng vai trò là một trở ngại. Mô hình có thể phân loại sai một hành động bằng cách nhìn vào một đối tượng thay vì chính hành động đó. Nó có thể gây nhầm lẫn cho người mẫu.”

Đồng tác giả Rameswar Panda, một nhân viên nghiên cứu tại Phòng thí nghiệm AI Watson của MIT-IBM, cho biết: “Dựa trên những kết quả này, các nhà nghiên cứu muốn đưa nhiều lớp hành động hơn và các nền tảng video tổng hợp bổ sung vào công việc trong tương lai, cuối cùng tạo ra một danh mục các mô hình đã được đào tạo trước bằng cách sử dụng dữ liệu tổng hợp.”

“Chúng tôi muốn xây dựng các mô hình có hiệu suất rất giống hoặc thậm chí tốt hơn so với các mô hình hiện có trong tài liệu, nhưng không bị ràng buộc bởi bất kỳ thành kiến hoặc mối lo ngại nào về bảo mật.”

Sooyoung Jin, đồng tác giả và nghiên cứu sinh sau tiến sĩ của CSAIL, cho biết: “Họ cũng muốn kết hợp công việc của mình với nghiên cứu nhằm tìm cách tạo ra các video tổng hợp chính xác và chân thực hơn, điều này có thể nâng cao hiệu suất của các mô hình.”

“Chúng tôi sử dụng bộ dữ liệu tổng hợp để ngăn chặn các vấn đề về quyền riêng tư hoặc xu hướng theo ngữ cảnh hoặc xã hội, nhưng mô hình học được gì? Nó có học được điều gì không thiên vị không?”

Đồng tác giả Samarth Mishra, một sinh viên tốt nghiệp tại Đại học Boston (BU), nói, “Mặc dù có chi phí thấp hơn để có được dữ liệu tổng hợp được chú thích tốt, nhưng hiện tại, chúng tôi không có bộ dữ liệu có quy mô để cạnh tranh với bộ dữ liệu có chú thích lớn nhất với video thực. Bằng cách thảo luận về các chi phí và mối quan tâm khác nhau với các video thực và cho thấy hiệu quả của dữ liệu tổng hợp, chúng tôi hy vọng sẽ thúc đẩy các nỗ lực theo hướng này.”

Tạp chí tham khảo: