Dữ liệu tổng hợp là gì? Các loại, trường hợp sử dụng và ứng dụng của chúng cho học máy và quyền riêng tư

Được xuất bản lại bởi Plato

Người theo dõi: 0

Lĩnh vực Khoa học dữ liệu và Học máy đang phát triển từng ngày. Vì các mô hình và thuật toán mới đang được đề xuất theo thời gian, các thuật toán và mô hình mới này cần dữ liệu khổng lồ để đào tạo và thử nghiệm. Các mô hình Deep Learning ngày nay đang trở nên rất phổ biến và những mô hình đó cũng ngốn dữ liệu. Có được lượng dữ liệu khổng lồ như vậy trong bối cảnh của các báo cáo vấn đề khác nhau là một quá trình khá ghê tởm, tốn thời gian và tốn kém. Dữ liệu được thu thập từ các tình huống thực tế, điều này làm tăng trách nhiệm pháp lý về bảo mật và các mối lo ngại về quyền riêng tư. Hầu hết dữ liệu là riêng tư và được bảo vệ bởi các luật và quy định về quyền riêng tư, điều này cản trở việc chia sẻ và di chuyển dữ liệu giữa các tổ chức hoặc đôi khi giữa các bộ phận khác nhau của một tổ chức—dẫn đến việc thử nghiệm và kiểm tra sản phẩm bị trì hoãn. Vì vậy, câu hỏi đặt ra làm thế nào vấn đề này có thể được giải quyết? Làm cách nào để dữ liệu có thể truy cập và cởi mở hơn mà không gây lo ngại về quyền riêng tư của ai đó?

Giải pháp cho vấn đề này là một cái gì đó được gọi là Dữ liệu tổng hợp.

Vậy, Dữ liệu tổng hợp là gì?

Theo định nghĩa, dữ liệu tổng hợp được tạo ra một cách giả tạo hoặc theo thuật toán và gần giống với cấu trúc và thuộc tính cơ bản của dữ liệu thực tế. Nếu dữ liệu tổng hợp là tốt, không thể phân biệt được với dữ liệu thực.

Có thể có bao nhiêu loại dữ liệu tổng hợp khác nhau?

Câu trả lời cho câu hỏi này rất mở, vì dữ liệu có thể có nhiều dạng, nhưng chủ yếu chúng ta có

dữ liệu văn bản
Dữ liệu âm thanh hoặc hình ảnh (ví dụ: Hình ảnh, video và âm thanh)
Dữ liệu dạng bảng

Các trường hợp sử dụng dữ liệu tổng hợp cho học máy

Chúng tôi sẽ chỉ thảo luận về các trường hợp sử dụng chỉ ba loại dữ liệu tổng hợp, như đã đề cập ở trên.

Sử dụng dữ liệu văn bản tổng hợp để đào tạo các mô hình NLP

Dữ liệu tổng hợp có các ứng dụng trong lĩnh vực xử lý ngôn ngữ tự nhiên. Chẳng hạn, nhóm Alexa AI tại Amazon sử dụng dữ liệu tổng hợp để hoàn thành tập huấn luyện cho hệ thống NLU (hiểu ngôn ngữ tự nhiên) của họ. Nó cung cấp cho họ cơ sở vững chắc để đào tạo ngôn ngữ mới mà không cần có hoặc đủ dữ liệu tương tác của người tiêu dùng.

Sử dụng dữ liệu tổng hợp để đào tạo thuật toán tầm nhìn

Hãy thảo luận về một trường hợp sử dụng rộng rãi ở đây. Giả sử chúng ta muốn phát triển một thuật toán để phát hiện hoặc đếm số lượng khuôn mặt trong một hình ảnh. Chúng ta có thể sử dụng GAN hoặc một số mạng tổng quát khác để tạo khuôn mặt người thực tế, tức là khuôn mặt không tồn tại trong thế giới thực, để huấn luyện mô hình. Một ưu điểm khác là chúng tôi có thể tạo bao nhiêu dữ liệu tùy thích từ các thuật toán này mà không vi phạm quyền riêng tư của bất kỳ ai. Nhưng chúng tôi không thể sử dụng dữ liệu thực vì nó chứa khuôn mặt của một số cá nhân, vì vậy một số chính sách quyền riêng tư hạn chế sử dụng dữ liệu đó.

Một trường hợp sử dụng khác là thực hiện học tăng cường trong môi trường mô phỏng. Giả sử chúng ta muốn thử nghiệm một cánh tay rô-bốt được thiết kế để lấy một đồ vật và đặt nó vào hộp. Một thuật toán học tăng cường được thiết kế cho mục đích này. Chúng ta cần thực hiện các thí nghiệm để kiểm tra nó vì đây là cách thuật toán học tăng cường học. Thiết lập một thử nghiệm trong một tình huống thực tế khá tốn kém và tốn thời gian, hạn chế số lượng thử nghiệm khác nhau mà chúng tôi có thể thực hiện. Nhưng nếu chúng ta thực hiện các thí nghiệm trong môi trường mô phỏng, thì việc thiết lập thí nghiệm sẽ tương đối rẻ vì nó sẽ không yêu cầu nguyên mẫu cánh tay rô-bốt.

Công dụng của dữ liệu dạng bảng

Dữ liệu tổng hợp dạng bảng là dữ liệu được tạo nhân tạo bắt chước dữ liệu trong thế giới thực được lưu trữ trong bảng. Dữ liệu này được cấu trúc theo hàng và cột. Các bảng này có thể chứa bất kỳ dữ liệu nào, chẳng hạn như danh sách phát nhạc. Đối với mỗi bài hát, trình phát nhạc của bạn lưu trữ một loạt thông tin: tên, ca sĩ, thời lượng, thể loại, v.v. Nó cũng có thể là một hồ sơ tài chính như giao dịch ngân hàng, giá cổ phiếu, v.v.

Dữ liệu dạng bảng tổng hợp liên quan đến các giao dịch ngân hàng được sử dụng để huấn luyện các mô hình và thiết kế các thuật toán nhằm phát hiện các giao dịch gian lận. Dữ liệu giá cổ phiếu trong quá khứ có thể được sử dụng để đào tạo và thử nghiệm các mô hình dự đoán giá cổ phiếu trong tương lai.

Một trong những lợi thế đáng kể của việc sử dụng dữ liệu tổng hợp trong học máy là nhà phát triển có quyền kiểm soát dữ liệu; anh ấy có thể thực hiện các thay đổi đối với dữ liệu theo nhu cầu kiểm tra bất kỳ ý tưởng nào và thử nghiệm điều đó. Trong khi đó, nhà phát triển có thể thử nghiệm mô hình trên dữ liệu tổng hợp và nó sẽ đưa ra ý tưởng rất rõ ràng về cách thức hoạt động của mô hình trên dữ liệu thực tế. Nếu nhà phát triển muốn thử một mô hình và đợi dữ liệu thực, thì việc thu thập dữ liệu có thể mất vài tuần hoặc thậm chí vài tháng. Do đó, trì hoãn sự phát triển và đổi mới của công nghệ.

Bây giờ chúng ta đã sẵn sàng thảo luận về cách dữ liệu tổng hợp giúp giải quyết các vấn đề liên quan đến quyền riêng tư của dữ liệu.

Nhiều ngành phụ thuộc vào dữ liệu do khách hàng của họ tạo ra để đổi mới và phát triển, nhưng dữ liệu đó chứa Thông tin nhận dạng cá nhân (PII) và luật về quyền riêng tư quy định chặt chẽ việc xử lý dữ liệu đó. Ví dụ: Quy định chung về bảo vệ dữ liệu (GDPR) nghiêm cấm việc sử dụng mà không được sự đồng ý rõ ràng khi tổ chức thu thập dữ liệu.‍ Vì dữ liệu tổng hợp rất giống với cấu trúc cơ bản của dữ liệu thực, đồng thời, đảm bảo rằng không cá nhân hiện diện trong dữ liệu thực có thể được xác định lại từ dữ liệu tổng hợp. Do đó, việc xử lý và chia sẻ dữ liệu tổng hợp có ít quy định hơn nhiều, dẫn đến sự phát triển và đổi mới nhanh hơn cũng như dễ dàng truy cập dữ liệu.

Kết luận

Dữ liệu tổng hợp có nhiều lợi thế đáng kể. Nó cho phép các nhà phát triển ML kiểm soát các thử nghiệm và tăng tốc độ phát triển vì dữ liệu hiện có thể truy cập được nhiều hơn. Nó thúc đẩy sự hợp tác trên quy mô lớn hơn vì dữ liệu có thể chia sẻ miễn phí. Ngoài ra, dữ liệu tổng hợp đảm bảo bảo vệ quyền riêng tư của các cá nhân khỏi dữ liệu thực.

Cây nho

” data-medium-file=”https://www.marktechpost.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-225×300.jpg” data-large-file=”https://www.marktechpost.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-768×1024.jpg”>

Vineet Kumar là thực tập sinh tư vấn tại MarktechPost. Anh hiện đang theo học bằng Cử nhân tại Học viện Công nghệ Ấn Độ (IIT), Kanpur. Anh ấy là một người đam mê Machine Learning. Anh ấy đam mê nghiên cứu và những tiến bộ mới nhất trong Deep Learning, Computer Vision và các lĩnh vực liên quan.

<!–

Dấu thời gian: Tháng Mười Một 12, 2022Tháng Mười Một 14, 2022