Cách đánh giá chất lượng của dữ liệu tổng hợp – đo lường từ góc độ độ trung thực, tiện ích và quyền riêng tư PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Cách đánh giá chất lượng của dữ liệu tổng hợp – đo lường từ góc độ trung thực, tiện ích và quyền riêng tư

Trong một thế giới ngày càng tập trung vào dữ liệu, các doanh nghiệp phải tập trung vào việc thu thập cả thông tin vật lý có giá trị và tạo ra thông tin mà họ cần nhưng không thể nắm bắt dễ dàng. Truy cập dữ liệu, quy định và tuân thủ là nguồn lực cản trở ngày càng tăng đối với sự đổi mới trong lĩnh vực phân tích và trí tuệ nhân tạo (AI).

Đối với các lĩnh vực được quản lý chặt chẽ như Dịch vụ tài chính, Chăm sóc sức khỏe, Khoa học đời sống, Ô tô, Robot và Sản xuất, vấn đề thậm chí còn lớn hơn. Nó gây ra các rào cản đối với thiết kế hệ thống, chia sẻ dữ liệu (Nội bộ và bên ngoài), kiếm tiền, phân tích và học máy (ML).

Dữ liệu tổng hợp là một công cụ giải quyết nhiều thách thức về dữ liệu, đặc biệt là các vấn đề về AI và phân tích như bảo vệ quyền riêng tư, tuân thủ quy định, khả năng tiếp cận, sự khan hiếm dữ liệu và sai lệch. Điều này cũng bao gồm chia sẻ dữ liệu và thời gian để có dữ liệu (và do đó là thời gian đưa ra thị trường).

Dữ liệu tổng hợp được tạo theo thuật toán. Nó phản ánh các thuộc tính và mẫu thống kê từ dữ liệu nguồn. Nhưng quan trọng là nó không chứa các điểm dữ liệu nhạy cảm, riêng tư hoặc cá nhân.

Bạn đặt câu hỏi về dữ liệu tổng hợp và nhận được câu trả lời giống như từ dữ liệu thực.

Trong của chúng tôi bài trước, chúng tôi đã trình bày cách sử dụng các mạng đối thủ như Mạng đối thủ sáng tạo (GANS) để tạo bộ dữ liệu dạng bảng nhằm tăng cường đào tạo mô hình gian lận tín dụng.

Đối với các bên liên quan trong kinh doanh để áp dụng dữ liệu tổng hợp cho các dự án ML và phân tích của họ, điều bắt buộc là không chỉ đảm bảo rằng dữ liệu tổng hợp được tạo sẽ phù hợp với mục đích và các ứng dụng hạ nguồn dự kiến, mà còn để họ có thể đo lường và chứng minh chất lượng của dữ liệu được tạo ra.

Với các nghĩa vụ pháp lý và đạo đức ngày càng tăng trong việc bảo vệ quyền riêng tư, một trong những điểm mạnh của dữ liệu tổng hợp là khả năng xóa thông tin nhạy cảm và nguyên bản trong quá trình tổng hợp. Do đó, ngoài chất lượng, chúng tôi cần các số liệu để đánh giá rủi ro rò rỉ thông tin cá nhân, nếu có, và đánh giá rằng quá trình tạo không phải là "ghi nhớ" hoặc sao chép bất kỳ dữ liệu gốc nào.

Để đạt được tất cả những điều này, chúng tôi có thể ánh xạ chất lượng của dữ liệu tổng hợp thành các thứ nguyên, giúp người dùng, các bên liên quan và chúng tôi hiểu rõ hơn về dữ liệu được tạo.

Ba khía cạnh của đánh giá chất lượng dữ liệu tổng hợp

Dữ liệu tổng hợp được tạo ra được đo lường dựa trên ba khía cạnh chính:

  1. Fidelity
  2. Tiện ích
  3. Quyền riêng tư

Đây là một số câu hỏi về bất kỳ dữ liệu tổng hợp được tạo nào cần được trả lời bằng báo cáo chất lượng dữ liệu tổng hợp:

  • Dữ liệu tổng hợp này giống như thế nào so với tập huấn luyện ban đầu?
  • Dữ liệu tổng hợp này hữu ích như thế nào đối với các ứng dụng tiếp theo của chúng tôi?
  • Có bất kỳ thông tin nào bị rò rỉ từ dữ liệu đào tạo ban đầu vào dữ liệu tổng hợp không?
  • Có bất kỳ dữ liệu nào được coi là nhạy cảm trong thế giới thực (từ các bộ dữ liệu khác không được sử dụng để đào tạo mô hình) đã vô tình được mô hình của chúng tôi tổng hợp không?

Các chỉ số dịch từng một trong các thứ nguyên này cho người dùng cuối hơi linh hoạt. Rốt cuộc, dữ liệu được tạo có thể khác nhau về phân phối, kích thước và hành vi. Chúng cũng phải dễ nắm bắt và diễn giải.

Cuối cùng, các chỉ số phải hoàn toàn dựa trên dữ liệu và không yêu cầu bất kỳ kiến ​​thức trước hoặc thông tin cụ thể nào về miền. Tuy nhiên, nếu người dùng muốn áp dụng các quy tắc và ràng buộc cụ thể áp dụng cho một miền kinh doanh cụ thể, thì họ có thể xác định chúng trong quá trình tổng hợp để đảm bảo rằng độ trung thực của miền cụ thể được đáp ứng.

Chúng tôi xem xét từng chỉ số này chi tiết hơn trong các phần sau.

Số liệu để hiểu độ trung thực

Trong bất kỳ dự án khoa học dữ liệu nào, chúng ta phải hiểu liệu một tập hợp mẫu nhất định có liên quan đến vấn đề mà chúng ta đang giải quyết hay không. Tương tự, đối với quá trình đánh giá mức độ phù hợp của dữ liệu tổng hợp được tạo ra, chúng ta phải đánh giá nó theo khía cạnh lòng trung thành so với bản gốc.

Biểu diễn trực quan của các số liệu này làm cho chúng dễ hiểu hơn. Chúng tôi có thể minh họa liệu lực lượng và tỷ lệ của các danh mục có được tôn trọng hay không, mối tương quan giữa các biến khác nhau có được giữ nguyên hay không, v.v.

Trực quan hóa dữ liệu không chỉ giúp đánh giá chất lượng của dữ liệu tổng hợp mà còn là một trong những bước đầu tiên trong vòng đời của khoa học dữ liệu để hiểu rõ hơn về dữ liệu.

Hãy đi sâu vào một số chỉ số về độ trung thực một cách chi tiết hơn.

So sánh thống kê thăm dò

Trong các so sánh thống kê khám phá, các tính năng của bộ dữ liệu gốc và tổng hợp được khám phá bằng cách sử dụng các biện pháp thống kê chính, chẳng hạn như giá trị trung bình, trung vị, độ lệch chuẩn, giá trị riêng biệt, giá trị bị thiếu, cực tiểu, cực đại, phạm vi tứ phân vị cho các đối tượng liên tục và số của các bản ghi trên mỗi danh mục, các giá trị bị thiếu trên mỗi danh mục và các ký tự xuất hiện nhiều nhất cho các thuộc tính phân loại.

Việc so sánh này nên được tiến hành giữa tập dữ liệu tạm giữ ban đầu và dữ liệu tổng hợp. Đánh giá này sẽ tiết lộ liệu các bộ dữ liệu được so sánh có giống nhau về mặt thống kê hay không. Nếu không, thì chúng tôi sẽ hiểu được các tính năng và biện pháp nào khác nhau. Bạn nên xem xét đào tạo lại và tạo lại dữ liệu tổng hợp với các tham số khác nếu ghi nhận sự khác biệt đáng kể.

Thử nghiệm này hoạt động như một sàng lọc ban đầu để đảm bảo rằng dữ liệu tổng hợp có độ trung thực hợp lý với tập dữ liệu gốc và do đó có thể trải qua thử nghiệm nghiêm ngặt hơn một cách hữu ích.

Điểm tương đồng biểu đồ

Điểm tương tự biểu đồ đo lường phân phối biên của từng tính năng của bộ dữ liệu gốc và tổng hợp.

Điểm tương tự được giới hạn giữa XNUMX và XNUMX, với điểm XNUMX cho biết rằng các phân phối dữ liệu tổng hợp trùng lặp hoàn toàn với các phân phối của dữ liệu gốc.

Điểm số gần bằng một sẽ giúp người dùng tin tưởng rằng tập dữ liệu loại trừ và tập dữ liệu tổng hợp giống nhau về mặt thống kê.

Điểm thông tin lẫn nhau

Điểm thông tin lẫn nhau đo lường sự phụ thuộc lẫn nhau của hai tính năng, bằng số hoặc phân loại, cho biết lượng thông tin có thể thu được từ một tính năng bằng cách quan sát một tính năng khác.

Thông tin lẫn nhau có thể đo lường các mối quan hệ phi tuyến tính, mang lại sự hiểu biết toàn diện hơn về chất lượng dữ liệu tổng hợp vì nó cho phép chúng tôi hiểu mức độ bảo toàn các mối quan hệ của biến.

Điểm một cho thấy rằng sự phụ thuộc lẫn nhau giữa các đặc điểm đã được nắm bắt một cách hoàn hảo trong dữ liệu tổng hợp.

điểm tương quan

Điểm tương quan đo lường mức độ tương quan trong tập dữ liệu gốc đã được nắm bắt trong dữ liệu tổng hợp.

Mối tương quan giữa hai hoặc nhiều cột cực kỳ quan trọng đối với các ứng dụng ML, giúp khám phá mối quan hệ giữa các tính năng và biến mục tiêu, đồng thời giúp tạo một mô hình được đào tạo tốt.

Điểm tương quan được giới hạn giữa XNUMX và XNUMX, với điểm XNUMX cho thấy các mối tương quan đã được khớp hoàn hảo.

Không giống như dữ liệu dạng bảng có cấu trúc mà chúng ta thường gặp trong các vấn đề về dữ liệu, một số loại dữ liệu có cấu trúc có một hành vi cụ thể trong đó các quan sát trong quá khứ có khả năng ảnh hưởng đến quan sát tiếp theo. Chúng được gọi là dữ liệu chuỗi thời gian hoặc dữ liệu tuần tự – ví dụ: tập dữ liệu với các phép đo nhiệt độ phòng hàng giờ.

Hành vi này có nghĩa là có yêu cầu xác định một số chỉ số nhất định có thể đo lường cụ thể chất lượng của các bộ dữ liệu chuỗi thời gian này

Tự tương quan và điểm tự tương quan một phần

Mặc dù tương tự như tương quan, tự tương quan cho thấy mối quan hệ của một chuỗi thời gian ở giá trị hiện tại vì nó liên quan đến các giá trị trước đó. Việc loại bỏ các ảnh hưởng của độ trễ thời gian trước đó sẽ tạo ra hiện tượng tự tương quan một phần. Do đó, điểm số tự tương quan đo lường mức độ dữ liệu tổng hợp nắm bắt được mức độ tự tương quan quan trọng hoặc tương quan một phần từ tập dữ liệu gốc.

Số liệu để hiểu tiện ích

Bây giờ chúng tôi có thể đã nhận ra một cách thống kê rằng dữ liệu tổng hợp tương tự như tập dữ liệu gốc. Ngoài ra, chúng ta cũng phải đánh giá mức độ hiệu quả của bộ dữ liệu được tổng hợp đối với các vấn đề khoa học dữ liệu phổ biến khi được đào tạo về một số thuật toán ML.

Sử dụng những thứ sau tiện ích số liệu, chúng tôi mong muốn xây dựng niềm tin rằng chúng tôi thực sự có thể đạt được hiệu suất trên các ứng dụng hạ nguồn liên quan đến hiệu suất của dữ liệu gốc.

tỷ số dự đoán

Việc đo lường hiệu suất của dữ liệu tổng hợp so với dữ liệu thực ban đầu có thể được thực hiện thông qua các mô hình ML. Điểm số của mô hình xuôi dòng nắm bắt chất lượng của dữ liệu tổng hợp bằng cách so sánh hiệu suất của các mô hình ML được đào tạo trên cả bộ dữ liệu gốc và tổng hợp cũng như được xác thực trên dữ liệu thử nghiệm bị giữ lại từ bộ dữ liệu gốc. Điều này cung cấp một Đào tạo Điểm kiểm tra thực tế tổng hợp (TSTR) Đào tạo Real Test Real (TRTR) lần lượt cho điểm.

Điểm TSTR, TRTR và Điểm tầm quan trọng của tính năng (Hình ảnh của tác giả)

Điểm số kết hợp nhiều loại thuật toán ML đáng tin cậy nhất cho các nhiệm vụ hồi quy hoặc phân loại. Việc sử dụng một số bộ phân loại và bộ hồi quy đảm bảo rằng điểm số có thể khái quát hóa hơn trên hầu hết các thuật toán, để dữ liệu tổng hợp có thể được coi là hữu ích trong tương lai.

Cuối cùng, nếu điểm TSTR và điểm TRTR tương đương nhau, thì điều này cho thấy rằng dữ liệu tổng hợp có chất lượng được sử dụng để đào tạo các mô hình ML hiệu quả cho các ứng dụng trong thế giới thực.

Điểm quan trọng của tính năng

Liên quan nhiều đến điểm dự đoán, điểm tầm quan trọng của tính năng (FI) mở rộng nó bằng cách thêm khả năng diễn giải vào điểm TSTR và TRTR.

Điểm F1 so sánh các thay đổi và tính ổn định của thứ tự quan trọng của đối tượng địa lý thu được với điểm dự đoán. Một bộ dữ liệu tổng hợp được coi là có tính hữu ích cao nếu nó mang lại cùng một thứ tự về tầm quan trọng của tính năng như dữ liệu thực ban đầu.

điểm số QS

Để đảm bảo rằng một mô hình được đào tạo dựa trên dữ liệu mới được tạo của chúng tôi sẽ tạo ra các câu trả lời giống nhau cho cùng một câu hỏi như một mô hình được đào tạo bằng dữ liệu gốc, chúng tôi sử dụng Qscore. Điều này đo lường hiệu suất xuôi dòng của dữ liệu tổng hợp bằng cách chạy nhiều truy vấn dựa trên tổng hợp ngẫu nhiên trên cả bộ dữ liệu tổng hợp và gốc (và giữ lại).

Ý tưởng ở đây là cả hai truy vấn này sẽ trả về kết quả tương tự nhau.

Điểm QScore cao đảm bảo rằng các ứng dụng xuôi dòng sử dụng hoạt động truy vấn và tổng hợp có thể cung cấp giá trị gần bằng với giá trị của tập dữ liệu gốc.

Các số liệu để hiểu về quyền riêng tư

Với riêng tư đã có sẵn, đó là nghĩa vụ đạo đức và yêu cầu pháp lý để đảm bảo rằng thông tin nhạy cảm được bảo vệ.

Trước khi dữ liệu tổng hợp này có thể được chia sẻ tự do và sử dụng cho các ứng dụng hạ nguồn, chúng tôi phải xem xét các chỉ số về quyền riêng tư có thể giúp bên liên quan hiểu vị trí của dữ liệu tổng hợp được tạo so với dữ liệu gốc xét về mức độ rò rỉ thông tin. Hơn nữa, chúng ta phải đưa ra các quyết định quan trọng liên quan đến cách chia sẻ và sử dụng dữ liệu tổng hợp.

Tỷ số trận đấu chính xác

Một đánh giá trực tiếp và trực quan về quyền riêng tư là tìm kiếm các bản sao của dữ liệu thực trong số các bản ghi tổng hợp. Điểm khớp chính xác đếm số bản ghi thực có thể được tìm thấy trong tập hợp tổng hợp.

Điểm số phải bằng XNUMX, cho biết rằng không có thông tin thực tế nào hiện diện như vốn có trong dữ liệu tổng hợp. Số liệu này hoạt động như một cơ chế sàng lọc trước khi chúng tôi đánh giá thêm các số liệu về quyền riêng tư.

Điểm riêng tư của hàng xóm

Hơn nữa, điểm riêng tư của hàng xóm đo lường tỷ lệ các bản ghi tổng hợp có thể quá giống với bản ghi thực. Điều này có nghĩa là, mặc dù chúng không phải là bản sao trực tiếp, nhưng chúng là những điểm rò rỉ quyền riêng tư tiềm ẩn và là nguồn thông tin hữu ích cho các cuộc tấn công suy luận.

Điểm số được tính bằng cách tiến hành tìm kiếm hàng xóm gần nhất theo chiều cao trên dữ liệu tổng hợp trùng lặp với dữ liệu gốc.

Điểm suy luận thành viên

Trong vòng đời của khoa học dữ liệu, sau khi một mô hình đã được đào tạo, nó không còn cần quyền truy cập vào các mẫu đào tạo nữa và có thể đưa ra dự đoán về dữ liệu chưa nhìn thấy. Tương tự, trong trường hợp của chúng ta, một khi mô hình bộ tổng hợp được đào tạo, các mẫu dữ liệu tổng hợp có thể được tạo mà không cần dữ liệu gốc.

Thông qua một kiểu tấn công gọi là “tấn công suy luận thành viên”, những kẻ tấn công có thể cố gắng tiết lộ dữ liệu đã được sử dụng để tạo dữ liệu tổng hợp mà không có quyền truy cập vào dữ liệu gốc. Điều này dẫn đến sự thỏa hiệp về quyền riêng tư.

Điểm suy luận thành viên đo lường khả năng thành công của một cuộc tấn công suy luận thành viên.

điểm suy luận thành viên

Điểm thấp cho thấy tính khả thi của suy luận rằng một bản ghi cụ thể là thành viên của tập dữ liệu huấn luyện dẫn đến việc tạo dữ liệu tổng hợp. Nói cách khác, các cuộc tấn công có thể suy ra chi tiết của một bản ghi riêng lẻ, do đó ảnh hưởng đến quyền riêng tư.

Điểm suy luận thành viên cao cho thấy rằng kẻ tấn công khó có thể xác định xem một bản ghi cụ thể có phải là một phần của tập dữ liệu gốc được sử dụng để tạo dữ liệu tổng hợp hay không. Điều này cũng có nghĩa là không có thông tin cá nhân nào bị xâm phạm thông qua dữ liệu tổng hợp.

Khái niệm giữ lại

Một phương pháp hay nhất quan trọng mà chúng ta phải tuân theo là đảm bảo rằng dữ liệu tổng hợp là đủ chung và không quá khớp với dữ liệu gốc mà dữ liệu được đào tạo. Trong luồng khoa học dữ liệu điển hình, trong khi xây dựng các mô hình ML, chẳng hạn như bộ phân loại Rừng ngẫu nhiên, chúng tôi đặt dữ liệu thử nghiệm sang một bên, đào tạo các mô hình bằng cách sử dụng dữ liệu đào tạo và đánh giá các chỉ số trên dữ liệu thử nghiệm chưa nhìn thấy.

Tương tự như vậy, đối với dữ liệu tổng hợp, chúng tôi giữ lại một mẫu dữ liệu gốc – thường được gọi là tập dữ liệu giữ lại hoặc dữ liệu thử nghiệm giữ lại không nhìn thấy – và đánh giá dữ liệu tổng hợp đã tạo dựa trên tập dữ liệu giữ lại.

Tập dữ liệu holdout dự kiến ​​sẽ là một đại diện của dữ liệu gốc, chưa được nhìn thấy khi dữ liệu tổng hợp được tạo. Do đó, điều quan trọng là phải có điểm số tương tự cho tất cả các chỉ số khi so sánh bản gốc với bộ dữ liệu tạm giữ và bộ dữ liệu tổng hợp.

Khi đạt được các điểm tương tự, chúng tôi có thể xác định rằng các điểm dữ liệu tổng hợp không phải là kết quả của việc ghi nhớ các điểm dữ liệu gốc, trong khi vẫn giữ nguyên độ trung thực và tiện ích.

Lời cuối

Thế giới đang bắt đầu hiểu tầm quan trọng chiến lược của dữ liệu tổng hợp. Với tư cách là nhà khoa học dữ liệu và người tạo dữ liệu, nhiệm vụ của chúng tôi là xây dựng niềm tin vào dữ liệu tổng hợp mà chúng tôi tạo ra và đảm bảo rằng dữ liệu đó có mục đích.

Dữ liệu tổng hợp đang phát triển thành một thứ bắt buộc phải có trong bộ công cụ phát triển khoa học dữ liệu. Tạp chí Công nghệ MIT đã lưu ý dữ liệu tổng hợp là một trong những công nghệ đột phá của năm 2022. Chúng tôi không thể tưởng tượng việc xây dựng các mô hình AI có giá trị tuyệt vời mà không có dữ liệu tổng hợp, tuyên bố Gartner.

Theo McKinsey, dữ liệu tổng hợp giảm thiểu chi phí và rào cản mà nếu không bạn sẽ gặp phải khi phát triển thuật toán hoặc truy cập dữ liệu.

Việc tạo dữ liệu tổng hợp là về việc biết các ứng dụng xuôi dòng và hiểu sự đánh đổi giữa các thứ nguyên khác nhau đối với chất lượng của dữ liệu tổng hợp.

Tổng kết

Là người dùng dữ liệu tổng hợp, điều cần thiết là xác định ngữ cảnh của trường hợp sử dụng mà mọi mẫu tổng hợp sẽ được sử dụng trong tương lai. Cũng giống như dữ liệu thực, chất lượng của dữ liệu tổng hợp phụ thuộc vào trường hợp sử dụng dự định, cũng như các tham số được chọn để tổng hợp.

Ví dụ: giữ các ngoại lệ trong dữ liệu tổng hợp như trong dữ liệu gốc sẽ hữu ích cho trường hợp sử dụng phát hiện gian lận. Tuy nhiên, nó không hữu ích trong trường hợp sử dụng chăm sóc sức khỏe với những lo ngại về quyền riêng tư, vì các ngoại lệ thường có thể là rò rỉ thông tin.

Hơn nữa, tồn tại sự đánh đổi giữa độ trung thực, tiện ích và quyền riêng tư. Không thể tối ưu hóa dữ liệu cho cả ba dữ liệu cùng một lúc. Các số liệu này cho phép các bên liên quan ưu tiên những gì cần thiết cho từng trường hợp sử dụng và quản lý các kỳ vọng từ dữ liệu tổng hợp được tạo.

Cuối cùng, khi chúng tôi nhìn thấy các giá trị của từng chỉ số và khi chúng đáp ứng được kỳ vọng, các bên liên quan có thể tin tưởng vào các giải pháp mà họ xây dựng bằng cách sử dụng dữ liệu tổng hợp.

Các trường hợp sử dụng cho dữ liệu tổng hợp có cấu trúc bao gồm nhiều loại ứng dụng từ dữ liệu thử nghiệm để phát triển phần mềm đến tạo các nhánh kiểm soát Tổng hợp trong các thử nghiệm lâm sàng.

Tiếp cận để khám phá những cơ hội này hoặc xây dựng một PoC để chứng minh giá trị.


Cách đánh giá chất lượng của dữ liệu tổng hợp – đo lường từ góc độ độ trung thực, tiện ích và quyền riêng tư PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.Faris Haddad là Trưởng nhóm Dữ liệu & Thông tin chuyên sâu trong nhóm Theo đuổi Chiến lược AABG. Anh ấy giúp các doanh nghiệp thành công trong việc định hướng dữ liệu.

Dấu thời gian:

Thêm từ Học máy AWS