Hướng dẫn phân tích bao bọc dữ liệu

Được xuất bản lại bởi Plato

Người theo dõi: 0

24 Tháng hai, 2014
Vasilis Vryniotis
. 3 Bình luận

Phân tích phong bì dữ liệu, còn được gọi là DEA, là một phương pháp phi tham số để thực hiện phân tích biên giới. Nó sử dụng lập trình tuyến tính để ước tính hiệu quả của nhiều đơn vị ra quyết định và nó thường được sử dụng trong sản xuất, quản lý và kinh tế. Kỹ thuật này lần đầu tiên được đề xuất bởi Charnes, Cooper và Rhodes năm 1978 và kể từ đó nó trở thành một công cụ có giá trị để ước tính giới hạn sản xuất.

Cập nhật: Khung học máy của Datumbox hiện là nguồn mở và miễn phí tải về. Kiểm tra gói com.datumbox.framework.algorithm.dea để xem việc triển khai Phân tích phong bì dữ liệu trong Java.

Khi tôi lần đầu tiên bắt gặp phương pháp này cách đây 5-6 năm, tôi đã rất ngạc nhiên bởi tính độc đáo của thuật toán, tính đơn giản của nó và sự thông minh của những ý tưởng mà nó sử dụng. Tôi thậm chí còn ngạc nhiên hơn khi thấy rằng kỹ thuật này hoạt động tốt bên ngoài các ứng dụng thông thường của nó (nghiên cứu tài chính, hoạt động, v.v.) vì nó có thể được áp dụng thành công trong Tiếp thị trực tuyến, Xếp hạng Công cụ Tìm kiếm và để tạo các số liệu tổng hợp. Mặc dù vậy, ngày nay DEA hầu như chỉ được thảo luận trong bối cảnh kinh doanh. Đó là lý do tại sao, trong bài viết này, tôi sẽ trình bày những ý tưởng cơ bản và khung toán học đằng sau DEA và trong bài tiếp theo tôi sẽ chỉ cho bạn một số ứng dụng mới của thuật toán trên các ứng dụng web.

Tại sao Phân tích phong bì dữ liệu lại thú vị?

Phân tích bao bì dữ liệu là một phương pháp cho phép chúng tôi so sánh và xếp hạng các bản ghi (cửa hàng, nhân viên, nhà máy, trang web, chiến dịch tiếp thị, v.v.) dựa trên các đặc điểm của chúng (trọng lượng, kích thước, chi phí, doanh thu và các chỉ số hoặc KPI khác) mà không cần đưa ra bất kỳ giả định trước nào về tầm quan trọng hoặc trọng lượng của các tính năng. Phần thú vị nhất của kỹ thuật này là nó cho phép chúng tôi so sánh các bản ghi bao gồm nhiều đối tượng địa lý có các đơn vị đo lường hoàn toàn khác nhau. Điều này có nghĩa là chúng tôi có thể có các bản ghi với các tính năng được đo bằng km, kg hoặc đơn vị tiền tệ và vẫn có thể so sánh, xếp hạng chúng và tìm ra các bản ghi hoạt động tốt nhất / kém nhất và trung bình. Nghe có vẻ thú vị? Hãy đọc tiếp.

Mô tả và các giả định của Phân tích Bao bì Dữ liệu

Dữ liệu-bao thư-phân tích-đồ thị
Như chúng ta đã thảo luận trước đó, DEA là một phương pháp được phát minh để đo lường năng suất trong kinh doanh. Vì vậy, một số ý tưởng của nó xuất phát từ cách đo lường năng suất trong bối cảnh này. Một trong những đặc điểm cốt lõi của phương pháp này là tách các đặc trưng của bản ghi thành hai loại: đầu vào và đầu ra. Ví dụ, nếu chúng ta đo hiệu suất của một chiếc ô tô, chúng ta có thể nói rằng đầu vào là lít xăng và đầu ra là số km mà nó đi được.

Trong DEA, tất cả các tính năng phải tích cực và người ta cho rằng giá trị của chúng càng cao thì đầu vào / đầu ra của chúng càng nhiều. Ngoài ra, Phân tích phong bì dữ liệu giả định rằng các tính năng có thể được kết hợp tuyến tính dưới dạng tổng có trọng số của các trọng số không âm và tạo thành một tỷ lệ giữa đầu vào và đầu ra sẽ đo lường hiệu quả của mỗi bản ghi. Để một bản ghi hoạt động hiệu quả, nó phải cho chúng ta một đầu ra “tốt” so với đầu vào được cung cấp. Hiệu quả được đo lường bằng tỷ lệ giữa đầu ra và đầu vào và sau đó so sánh với tỷ lệ của các bản ghi khác.

Ý tưởng khéo léo đằng sau DEA

Những gì chúng tôi đề cập cho đến nay là một nhận thức / thực hành chung. Chúng tôi sử dụng đầu vào và đầu ra, tổng và tỷ lệ có trọng số để xếp hạng hồ sơ của chúng tôi. Ý tưởng thông minh của DEA là trong cách tính toán trọng lượng của các đối tượng địa lý. Thay vì phải đặt trọng số của các tính năng và quyết định tầm quan trọng của chúng trước khi chúng tôi chạy phân tích, Phân tích bao bì dữ liệu sẽ tính toán chúng từ dữ liệu. Hơn nữa, trọng lượng KHÔNG giống nhau cho mọi bản ghi!

Đây là cách DEA chọn trọng số: Chúng tôi cố gắng tối đa hóa tỷ lệ của mọi bản ghi bằng cách chọn trọng số đặc trưng thích hợp; đồng thời, mặc dù chúng ta phải đảm bảo rằng nếu chúng ta sử dụng cùng một trọng số để tính tỷ lệ của tất cả các bản ghi khác, thì không bản ghi nào trong số chúng sẽ lớn hơn 1.

Ý tưởng lúc đầu nghe có vẻ hơi lạ. Điều này sẽ không dẫn đến việc tính toán các tỷ lệ có trọng số khác nhau? Câu trả lời là có. Điều này không có nghĩa là chúng ta thực sự tính toán các tỷ lệ khác nhau cho mọi bản ghi sao? Câu trả lời một lần nữa là có. Vì vậy, làm thế nào để điều này hoạt động? Câu trả lời rất đơn giản: Đối với mọi bản ghi, dựa trên các đặc điểm của nó, chúng tôi cố gắng tìm ra “tình huống lý tưởng” (trọng số) trong đó tỷ lệ của nó càng cao càng tốt và do đó làm cho nó hiệu quả nhất có thể. NHƯNG đồng thời, với “tình huống lý tưởng” này, không có tỷ lệ đầu ra / đầu vào nào của các bản ghi khác phải lớn hơn 1, có nghĩa là chúng không thể hiệu quả hơn 100%! Khi chúng tôi tính toán tỷ lệ của tất cả các bản ghi trong mỗi “tình huống lý tưởng”, chúng tôi sử dụng tỷ lệ của chúng để xếp hạng chúng.

Vì vậy, ý tưởng chính của DEA có thể được tóm tắt như sau: “Tìm tình huống lý tưởng mà chúng ta có thể đạt được điểm tỷ lệ tốt nhất dựa trên các đặc điểm của mỗi bản ghi. Sau đó, tính toán tỷ lệ lý tưởng này của mỗi bản ghi và sử dụng nó để so sánh hiệu quả của chúng ”.

Hãy xem một ví dụ

Hãy xem một ví dụ mà chúng ta có thể sử dụng DEA.

Giả sử chúng ta quan tâm đến việc đánh giá hiệu quả của các cửa hàng siêu thị của một chuỗi cụ thể dựa trên một số đặc điểm: tổng số nhân viên, quy mô cửa hàng tính theo mét vuông, doanh số bán hàng và lượng khách hàng. mà họ phục vụ trung bình hàng tháng. Rõ ràng là việc tìm kiếm các cửa hàng hiệu quả nhất đòi hỏi chúng ta phải so sánh các bản ghi với nhiều tính năng.

Để áp dụng DEA, chúng ta phải xác định đâu là đầu vào và đầu ra của mình. Trong trường hợp này, đầu ra rõ ràng là số lượng bán hàng và số lượng khách hàng mà họ phục vụ. Đầu vào là số lượng nhân viên và quy mô của cửa hàng. Nếu chúng tôi chạy DEA, chúng tôi sẽ ước tính tỷ lệ đầu ra trên đầu vào cho mọi cửa hàng theo trọng lượng lý tưởng (như đã thảo luận ở trên). Khi chúng tôi có tỷ lệ của chúng, chúng tôi sẽ xếp hạng chúng theo hiệu quả của chúng.

Đó là giờ toán học!

Bây giờ chúng ta đã có trực giác về cách DEA hoạt động, đã đến lúc đi sâu vào các phép toán.

Tỷ lệ hiệu quả của một bản ghi i cụ thể với đầu vào x và đầu ra y (cả hai vectơ đặc trưng có giá trị dương) được ước tính bằng cách sử dụng công thức sau:

Trong đó u và v là trọng số của mỗi đầu ra và đầu vào của bản ghi, s là số đặc điểm đầu ra và m là số đặc điểm đầu vào.

Bài toán tìm trọng số lý tưởng / tốt nhất cho một bản ghi cụ thể tôi có thể được xây dựng như sau:

Một lần nữa, ở trên chỉ là cách toán học để tìm trọng số u và v tối đa hóa hiệu quả của bản ghi i, với điều kiện là các trọng số đó sẽ không làm cho bất kỳ bản ghi nào khác hiệu quả hơn 100%.

Để giải quyết vấn đề này, chúng ta phải sử dụng lập trình tuyến tính. Thật không may, lập trình tuyến tính không cho phép chúng ta sử dụng phân số và do đó chúng ta cần biến đổi công thức của bài toán như sau:

dea10
dea12

Chúng ta nên nhấn mạnh rằng bài toán lập trình tuyến tính ở trên sẽ cho chúng ta trọng số tốt nhất cho bản ghi i và tính hiệu quả của nó theo các trọng số tối ưu đó. Điều tương tự phải được lặp lại cho mọi bản ghi trong tập dữ liệu của chúng tôi. Vì vậy, nếu chúng ta có n bản ghi, chúng ta phải giải n bài toán tuyến tính riêng biệt. Đây là mã giả về cách DEA hoạt động:

ratio_scores = [];
for every record i {
    i_ratio = get_maximum_effectiveness();
    ratio_scores[i] = i_ratio;
}

Hạn chế của phân tích bao bì dữ liệu

DEA là một kỹ thuật tuyệt vời nhưng nó có những hạn chế của nó. Bạn phải hiểu rằng DEA giống như một hộp đen. Vì trọng số được sử dụng trong tỷ lệ hiệu quả của mỗi bản ghi là khác nhau, cố gắng giải thích cách thức và lý do tại sao mỗi điểm được tính là vô nghĩa. Thông thường, chúng tôi tập trung vào thứ hạng của các bản ghi hơn là vào giá trị thực tế của điểm hiệu quả. Cũng lưu ý rằng sự tồn tại của các điểm cực trị có thể khiến điểm số có giá trị rất thấp.

Hãy nhớ rằng DEA sử dụng kết hợp tuyến tính của các đối tượng địa lý để ước tính tỷ lệ. Vì vậy, nếu việc kết hợp chúng một cách tuyến tính là không phù hợp trong ứng dụng của chúng ta, chúng ta phải áp dụng các phép biến đổi trên các đối tượng địa lý và làm cho chúng có thể được kết hợp một cách tuyến tính. Một nhược điểm khác của kỹ thuật này là chúng ta phải giải quyết càng nhiều vấn đề lập trình tuyến tính với số lượng bản ghi, một thứ đòi hỏi nhiều tài nguyên tính toán.

Một vấn đề khác mà DEA phải đối mặt là nó không hoạt động tốt với dữ liệu chiều cao. Để sử dụng DEA, số chiều d = m + s phải thấp hơn đáng kể so với số lượng quan sát. Chạy DEA khi d rất gần hoặc lớn hơn n không mang lại kết quả hữu ích vì rất có thể tất cả các bản ghi sẽ được tìm thấy là tối ưu. Lưu ý rằng khi bạn thêm một biến đầu ra mới (thứ nguyên), tất cả các bản ghi có giá trị lớn nhất trong thứ nguyên này sẽ được tìm thấy là tối ưu.

Cuối cùng, chúng ta cần lưu ý rằng ở dạng chung của thuật toán, trọng số của các tính năng trong DEA được ước tính từ dữ liệu và do đó chúng không sử dụng bất kỳ thông tin trước nào về tầm quan trọng của các tính năng mà chúng ta có thể có trong vấn đề của mình (tất nhiên có thể kết hợp thông tin này như những ràng buộc trong bài toán tuyến tính của chúng tôi). Ngoài ra, điểm hiệu quả được tính toán thực sự là tỷ lệ hiệu quả giới hạn trên của mỗi bản ghi vì chúng được tính trong "tình huống lý tưởng". Điều này có nghĩa là DEA có thể là một giải pháp tốt khi không thể đưa ra bất kỳ giả định nào về tầm quan trọng của các tính năng nhưng nếu chúng tôi có bất kỳ thông tin trước nào hoặc chúng tôi có thể định lượng tầm quan trọng của chúng thì nên sử dụng các kỹ thuật thay thế.

Trong bài viết tiếp theo, tôi sẽ chỉ cho bạn cách phát triển việc triển khai Phân tích bao bì dữ liệu trong JAVA và chúng tôi sẽ sử dụng phương pháp này để ước tính mức độ phổ biến của các trang web và bài báo trong các mạng truyền thông xã hội.

Nếu bạn thích bài viết, hãy dành một chút thời gian để chia sẻ nó trên Twitter hoặc Facebook. 🙂

Dấu thời gian: 24 Tháng hai, 201416 Tháng Bảy, 2022

Dấu thời gian: Tháng Hai 25, 2017

Hướng dẫn phân tích bao bọc dữ liệu

Được xuất bản lại bởi Plato

Tại sao Phân tích phong bì dữ liệu lại thú vị?

Mô tả và các giả định của Phân tích Bao bì Dữ liệu

Ý tưởng khéo léo đằng sau DEA

Hãy xem một ví dụ

Đó là giờ toán học!

Hạn chế của phân tích bao bì dữ liệu

Thêm từ Hộp dữ liệu

Phát hành khung máy học Datumbox v0.8.2

Cách khắc phục các giới hạn liên kết tượng trưng của Dropbox trên Linux

Đã phát hành khung máy học Datumbox 0.6.0

Lớp Batch Chuẩn hóa của Keras bị hỏng

Sử dụng Trí tuệ nhân tạo để giải quyết Trò chơi 2048 (mã JAVA)

Mô hình hỗn hợp hữu hạn dựa trên phân phối Dirichlet

Xem trước TorchVision v0.11 - Hồi ức của một nhà phát triển TorchVision - 2

Cách xây dựng Công cụ phân tích tình cảm Facebook của riêng bạn

Mô hình hỗn hợp quy trình Dirichlet

Cách cài đặt và sử dụng Khung máy học Datumbox

5 mẹo để đào tạo đa GPU với Keras

Tìm hiểu kỹ thuật toán Đề xuất ALS của Spark

Về chúng tôi

Tìm kiếm dọc & Ai

Nền tảng

NHẬN THÔNG TIN

Tài khoản