10 hình ảnh học máy tuyệt vời mà bạn nên biết vào năm 2023

Yellowbrick để tạo các sơ đồ học máy với ít mã hơn

Photo by david pisnoy on Unsplash

Trực quan hóa dữ liệu đóng một vai trò quan trọng trong học máy.

Các trường hợp sử dụng trực quan hóa dữ liệu trong học máy bao gồm:

  • Điều chỉnh siêu tham số
  • Đánh giá hiệu suất mô hình
  • Xác nhận các giả định mô hình
  • Tìm ngoại lệ
  • Lựa chọn các tính năng quan trọng nhất
  • Xác định các mẫu và mối tương quan giữa các tính năng

Các hình ảnh trực quan liên quan trực tiếp đến những điều quan trọng ở trên trong học máy được gọi là trực quan học máy.

Tạo trực quan hóa máy học đôi khi là một quá trình phức tạp vì nó yêu cầu rất nhiều mã để viết ngay cả bằng Python. Nhưng, nhờ mã nguồn mở của Python gạch vàng thư viện, ngay cả những hình ảnh học máy phức tạp cũng có thể được tạo với ít mã hơn. Thư viện đó mở rộng API Scikit-learning và cung cấp các chức năng cấp cao để chẩn đoán trực quan mà Scikit-learning không cung cấp.

Hôm nay, tôi sẽ thảo luận chi tiết về các loại trực quan hóa máy học sau đây, các trường hợp sử dụng của chúng và cách triển khai Yellowbrick.

Trực quan hóa ML của Yellowbrick
-----------------------------
01. Sơ đồ thành phần Priniciapal
02. Đường cong xác thực
03. Đường cong học tập
04. Sơ đồ khuỷu tay
05. Âm mưu bóng
06. Âm mưu mất cân bằng giai cấp
07. Lô đất dư
08. Sơ đồ lỗi dự đoán
09. Đồ thị khoảng cách của Cook
10. Tính năng quan trọng

của DINTEK

Việc cài đặt Yellowbrick có thể được thực hiện bằng cách chạy một trong các lệnh sau.

  • đánh rớt trình cài đặt gói:
pip cài đặt yellowbrick
  • chung cư trình cài đặt gói:
cài đặt conda -c Districtdatalabs yellowbrick

Sử dụng gạch vàng

Trình hiển thị Yellowbrick có cú pháp giống như Scikit-learning. Trình hiển thị trực quan là một đối tượng học từ dữ liệu để tạo ra trực quan hóa. Nó thường được sử dụng với công cụ ước tính Scikit-learning. Để đào tạo một trình hiển thị, chúng tôi gọi phương thức fit() của nó.

Lưu cốt truyện

Để lưu một biểu đồ được tạo bằng trình hiển thị Yellowbrick, chúng tôi gọi phương thức show() như sau. Thao tác này sẽ lưu biểu đồ dưới dạng tệp PNG trên đĩa.

Visualizer.show(outpath="name_of_the_plot.png")

Sử dụng

Biểu đồ thành phần chính trực quan hóa dữ liệu chiều cao trong biểu đồ phân tán 2D hoặc 3D. Do đó, biểu đồ này cực kỳ hữu ích để xác định các mẫu quan trọng trong dữ liệu nhiều chiều.

Triển khai Yellowbrick

Tạo cốt truyện này bằng phương pháp truyền thống rất phức tạp và tốn thời gian. Trước tiên, chúng ta cần áp dụng PCA cho tập dữ liệu và sau đó sử dụng thư viện matplotlib để tạo biểu đồ phân tán.

Thay vào đó, chúng ta có thể sử dụng lớp trình hiển thị PCA của Yellowbrick để đạt được chức năng tương tự. Nó sử dụng phương pháp phân tích thành phần chính, giảm kích thước của tập dữ liệu và tạo biểu đồ phân tán với 2 hoặc 3 dòng mã! Tất cả những gì chúng ta cần làm là chỉ định một số đối số từ khóa trong lớp PCA().

Hãy lấy một ví dụ để hiểu rõ hơn về điều này. Ở đây, chúng tôi sử dụng các ung thư vú tập dữ liệu (xem Citation ở cuối) có 30 tính năng và 569 mẫu của hai lớp (Độc ác Nhẹ). Do dữ liệu có nhiều chiều (30 tính năng), không thể vẽ biểu đồ dữ liệu gốc trong biểu đồ phân tán 2D hoặc 3D trừ khi chúng tôi áp dụng PCA cho tập dữ liệu.

Đoạn mã sau giải thích cách chúng ta có thể sử dụng trình hiển thị PCA của Yellowbrick để tạo biểu đồ phân tán 2D của tập dữ liệu 30 chiều.

(Mã theo tác giả)
Sơ đồ thành phần chính - 2D (Hình ảnh của tác giả)

Chúng ta cũng có thể tạo biểu đồ phân tán 3D bằng cách đặt projection=3trong lớp PCA().

(Mã theo tác giả)
Sơ đồ thành phần chính - 3D (Ảnh của tác giả)

Các thông số quan trọng nhất của trình hiển thị PCA bao gồm:

  • tỉ lệ: bool, mặc định True. Điều này cho biết liệu dữ liệu có nên được thu nhỏ hay không. Chúng ta nên chia tỷ lệ dữ liệu trước khi chạy PCA. Học nhiều hơn về tại đây.
  • chiếu: int, mặc định là 2. Khi projection=2, một biểu đồ phân tán 2D được tạo. Khi nào projection=3, một biểu đồ phân tán 3D được tạo.
  • các lớp học: danh sách, mặc định None. Điều này chỉ ra các nhãn lớp cho mỗi lớp trong y. Tên lớp sẽ là nhãn cho chú giải.

Sử dụng

Đường cong xác nhận biểu thị ảnh hưởng của một duy nhất siêu tham số trên tàu và bộ xác thực. Bằng cách nhìn vào đường cong, chúng ta có thể xác định các điều kiện trang bị thừa, trang bị thiếu và vừa phải của mô hình đối với các giá trị được chỉ định của siêu tham số đã cho. Khi có nhiều siêu tham số để điều chỉnh cùng một lúc, không thể sử dụng đường cong xác thực. Ngay lập tức, bạn có thể sử dụng tìm kiếm dạng lưới hoặc tìm kiếm ngẫu nhiên.

Triển khai Yellowbrick

Tạo một đường cong xác nhận bằng phương pháp truyền thống rất phức tạp và tốn thời gian. Thay vào đó, chúng ta có thể sử dụng trình hiển thị ValidationCurve của Yellowbrick.

Để vẽ một đường cong xác thực trong Yellowbirck, chúng ta sẽ xây dựng một trình phân loại rừng ngẫu nhiên bằng cách sử dụng cùng một ung thư vú tập dữ liệu (xem Citation cuối cùng). Chúng ta sẽ vẽ sơ đồ ảnh hưởng của max_deep siêu tham số trong mô hình rừng ngẫu nhiên.

Đoạn mã sau giải thích cách chúng ta có thể sử dụng trình hiển thị Đường cong xác thực của Yellowbrick để tạo đường cong xác thực bằng cách sử dụng ung thư vú tập dữ liệu.

(Mã theo tác giả)
Đường cong xác thực (Ảnh của tác giả)

Mô hình bắt đầu overfit sau khi max_deep giá trị của 6. Khi max_depth=6, mô hình rất phù hợp với dữ liệu đào tạo và cũng khái quát hóa tốt trên dữ liệu mới chưa thấy.

Các tham số quan trọng nhất của trình hiển thị ValidationCurve bao gồm:

  • ước tính: Đây có thể là bất kỳ mô hình ML Scikit-learning nào, chẳng hạn như cây quyết định, rừng ngẫu nhiên, máy vectơ hỗ trợ, v.v.
  • thông số_name: Đây là tên của siêu tham số mà chúng tôi muốn theo dõi.
  • tham số_range: Điều này bao gồm các giá trị có thể cho thông số_name.
  • cv: int, xác định số nếp gấp cho xác thực chéo.
  • chấm điểm: dây, chứa phương pháp tính điểm của mô hình. Để phân loại, chính xác được ưa thích.

Sử dụng

Đường cong học tập vẽ sơ đồ các lỗi hoặc độ chính xác của quá trình đào tạo và xác thực so với số lượng kỷ nguyên hoặc số lượng phiên bản đào tạo. Bạn có thể nghĩ rằng cả đường cong học tập và xác thực đều giống nhau, nhưng số lần lặp lại được vẽ trong trục x của đường cong học tập trong khi các giá trị của siêu tham số được vẽ trong trục x của đường cong xác thực.

Việc sử dụng đường cong học tập bao gồm:

  • Đường cong học tập được sử dụng để phát hiện thiếu trang bị, quá mứcđúng rồi điều kiện của mô hình.
  • Đường cong học tập được sử dụng để xác định sđộ hội tụ thấp, dao động, dao động lệch phahội tụ thích hợp các tình huống khi tìm tốc độ học tập tối ưu của mạng thần kinh hoặc mô hình ML.
  • Đường cong học tập được sử dụng để xem mô hình của chúng tôi được hưởng lợi bao nhiêu từ việc thêm nhiều dữ liệu đào tạo hơn. Khi được sử dụng theo cách này, trục x hiển thị số lượng phiên bản đào tạo.

Triển khai Yellowbrick

Tạo đường cong học tập bằng phương pháp truyền thống rất phức tạp và tốn thời gian. Thay vào đó, chúng ta có thể sử dụng trình hiển thị LearningCurve của Yellowbrick.

Để vẽ sơ đồ đường cong học tập ở Yellowbirck, chúng ta sẽ xây dựng bộ phân loại vectơ hỗ trợ bằng cách sử dụng cùng một ung thư vú tập dữ liệu (xem Citation cuối cùng).

Đoạn mã sau giải thích cách chúng ta có thể sử dụng trình hiển thị LearningCurve của Yellowbrick để tạo đường cong xác thực bằng cách sử dụng ung thư vú tập dữ liệu.

(Mã theo tác giả)
Đường cong học tập (Ảnh của tác giả)

Mô hình sẽ không được hưởng lợi từ việc thêm nhiều phiên bản đào tạo. Mô hình đã được đào tạo với 569 trường hợp đào tạo. Độ chính xác xác thực không được cải thiện sau 175 phiên bản đào tạo.

Các tham số quan trọng nhất của trình hiển thị LearningCurve bao gồm:

  • ước tính: Đây có thể là bất kỳ mô hình ML Scikit-learning nào, chẳng hạn như cây quyết định, rừng ngẫu nhiên, máy vectơ hỗ trợ, v.v.
  • cv: int, xác định số nếp gấp cho xác thực chéo.
  • chấm điểm: dây, chứa phương pháp tính điểm của mô hình. Để phân loại, chính xác được ưa thích.

Sử dụng

Biểu đồ Elbow được sử dụng để chọn số cụm tối ưu trong phân cụm K-Means. Mô hình phù hợp nhất tại điểm mà khuỷu tay xuất hiện trong biểu đồ đường. Khuỷu tay là điểm uốn trên biểu đồ.

Triển khai Yellowbrick

Tạo biểu đồ Khuỷu tay bằng phương pháp truyền thống rất phức tạp và tốn thời gian. Thay vào đó, chúng ta có thể sử dụng KElbowVisualizer của Yellowbrick.

Để vẽ sơ đồ đường cong học tập ở Yellowbirck, chúng ta sẽ xây dựng mô hình phân cụm K-Means bằng cách sử dụng iris tập dữ liệu (xem Citation cuối cùng).

Đoạn mã sau giải thích cách chúng ta có thể sử dụng KElbowVisualizer của Yellowbrick để tạo biểu đồ Elbow bằng cách sử dụng iris tập dữ liệu.

(Mã theo tác giả)
Sơ đồ khuỷu tay (Ảnh của tác giả)

Sản phẩm khuỷu tay xảy ra tại k=4 (được chú thích bằng đường đứt nét). Biểu đồ chỉ ra rằng số cụm tối ưu cho mô hình là 4. Nói cách khác, mô hình phù hợp tốt với 4 cụm.

Các tham số quan trọng nhất của KElbowVisualizer bao gồm:

  • ước tính: Ví dụ mô hình K-Means
  • k: int hoặc tuple. Nếu là số nguyên, nó sẽ tính điểm cho các cụm trong khoảng (2, k). Nếu là một bộ, nó sẽ tính điểm cho các cụm trong phạm vi đã cho, ví dụ: (3, 11).

Sử dụng

Biểu đồ hình bóng được sử dụng để chọn số cụm tối ưu trong phân cụm K-Means và cũng để phát hiện sự mất cân bằng của cụm. Biểu đồ này cung cấp kết quả rất chính xác so với biểu đồ Elbow.

Triển khai Yellowbrick

Tạo biểu đồ hình bóng bằng phương pháp truyền thống rất phức tạp và tốn thời gian. Thay vào đó, chúng ta có thể sử dụng SilhouetteVisualizer của Yellowbrick.

Để tạo biểu đồ hình bóng ở Yellowbirck, chúng tôi sẽ xây dựng mô hình phân cụm K-Means bằng cách sử dụng iris tập dữ liệu (xem Citation cuối cùng).

Các khối mã sau đây giải thích cách chúng ta có thể sử dụng SilhouetteVisualizer của Yellowbrick để tạo các ô bóng bằng cách sử dụng iris tập dữ liệu với các giá trị k (số cụm) khác nhau.

k = 2

(Mã theo tác giả)
Biểu đồ hình bóng có 2 cụm (k=2), (Hình ảnh của tác giả)

Bằng cách thay đổi số lượng cụm trong lớp KMeans(), chúng ta có thể thực thi đoạn mã trên vào các thời điểm khác nhau để tạo các biểu đồ bóng khi k=3, k=4 và k=5.

k = 3

Biểu đồ hình bóng có 3 cụm (k=3), (Hình ảnh của tác giả)

k = 4

Biểu đồ hình bóng có 4 cụm (k=4), (Hình ảnh của tác giả)

k = 5

Biểu đồ hình bóng có 4 cụm (k=5), (Hình ảnh của tác giả)

Biểu đồ hình bóng chứa một hình con dao trên mỗi cụm. Mỗi hình dao được tạo bởi các thanh đại diện cho tất cả các điểm dữ liệu trong cụm. Vì vậy, chiều rộng của hình con dao biểu thị số lượng tất cả các phiên bản trong cụm. Chiều dài thanh biểu thị Hệ số Silhouette cho từng trường hợp. Đường đứt nét biểu thị điểm bóng - Nguồn: Phân cụm K-Means thực hành (do tôi viết).

Một biểu đồ có hình dạng con dao có chiều rộng gần bằng nhau cho chúng ta biết các cụm được cân bằng tốt và có số lượng phiên bản gần như bằng nhau trong mỗi cụm — một trong những giả định quan trọng nhất trong phân cụm K-Means.

Khi các thanh trong hình con dao kéo dài đường đứt nét, các cụm được phân tách rõ ràng — một giả định quan trọng khác trong phân cụm K-Means.

Khi k=3, các cụm được cân bằng và phân tách tốt. Vì vậy, số cụm tối ưu trong ví dụ của chúng tôi là 3.

Các thông số quan trọng nhất của SilhouetteVisualizer bao gồm:

  • ước tính: Ví dụ mô hình K-Means
  • màu sắc: chuỗi, một tập hợp các màu được sử dụng cho mỗi hình dạng con dao. 'yellowbrick' hoặc một trong các chuỗi bản đồ màu Matplotlib, chẳng hạn như 'Accent', 'Set1', v.v.

Sử dụng

Biểu đồ mất cân bằng lớp phát hiện sự mất cân bằng của các lớp trong cột mục tiêu trong bộ dữ liệu phân loại.

Mất cân bằng lớp xảy ra khi một lớp có nhiều phiên bản hơn đáng kể so với lớp kia. Ví dụ: tập dữ liệu liên quan đến phát hiện email spam có 9900 trường hợp cho danh mục “Không phải thư rác” và chỉ 100 trường hợp cho danh mục “Thư rác”. Mô hình sẽ không nắm bắt được tầng lớp thiểu số (các Thư rác thể loại). Do đó, mô hình sẽ không chính xác trong việc dự đoán tầng lớp thiểu số khi xảy ra mất cân bằng giai cấp — Nguồn: 20 sai lầm hàng đầu của Machine Learning và Deep Learning bí mật xảy ra đằng sau hậu trường (do tôi viết).

Triển khai Yellowbrick

Tạo biểu đồ mất cân bằng lớp bằng phương pháp truyền thống rất phức tạp và tốn thời gian. Thay vào đó, chúng ta có thể sử dụng trình hiển thị ClassBalance của Yellowbrick.

Để vẽ biểu đồ mất cân bằng giai cấp ở Yellowbirck, chúng ta sẽ sử dụng ung thư vú tập dữ liệu (tập dữ liệu phân loại, xem Citation cuối cùng).

Đoạn mã sau giải thích cách chúng ta có thể sử dụng trình hiển thị ClassBalance của Yellowbrick để tạo biểu đồ mất cân bằng lớp bằng cách sử dụng ung thư vú tập dữ liệu.

(Mã theo tác giả)
Âm mưu mất cân bằng giai cấp (Ảnh của tác giả)

Có hơn 200 trường hợp trong Độc ác lớp và hơn 350 trường hợp trong Nhẹ lớp. Do đó, chúng ta không thể thấy nhiều sự mất cân bằng lớp ở đây mặc dù các thể hiện không được phân bổ đồng đều giữa hai lớp.

Các tham số quan trọng nhất của trình hiển thị ClassBalance bao gồm:

  • nhãn: danh sách, tên của các lớp duy nhất trong cột mục tiêu.

Sử dụng

Biểu đồ phần dư trong hồi quy tuyến tính được sử dụng để xác định xem phần dư (giá trị quan sát-giá trị dự đoán) có không tương quan (độc lập) hay không bằng cách phân tích phương sai của lỗi trong mô hình hồi quy.

Biểu đồ phần dư được tạo bằng cách vẽ phần dư so với các dự đoán. Nếu có bất kỳ loại mẫu nào giữa dự đoán và phần dư, điều đó xác nhận rằng mô hình hồi quy phù hợp không hoàn hảo. Nếu các điểm được phân tán ngẫu nhiên quanh trục x, thì mô hình hồi quy phù hợp với dữ liệu.

Triển khai Yellowbrick

Tạo biểu đồ phần dư bằng phương pháp truyền thống rất phức tạp và tốn thời gian. Thay vào đó, chúng ta có thể sử dụng trình hiển thị ResidualsPlot của Yellowbrick.

Để vẽ biểu đồ phần dư trong Yellowbirck, chúng ta sẽ sử dụng Quảng cáo (Quảng cáo.csv, Xem Citation ở cuối) tập dữ liệu.

Đoạn mã sau giải thích cách chúng ta có thể sử dụng trình hiển thị ResidualsPlot của Yellowbrick để tạo biểu đồ phần dư bằng cách sử dụng Quảng cáo tập dữ liệu.

(Mã theo tác giả)
Lô đất dư (Ảnh của tác giả)

Chúng ta có thể thấy rõ ràng một số loại mô hình phi tuyến tính giữa dự đoán và phần dư trong đồ thị phần dư. Mô hình hồi quy được trang bị không hoàn hảo, nhưng nó đủ tốt.

Các tham số quan trọng nhất của trình hiển thị ResidualsPlot bao gồm:

  • ước tính: Đây có thể là bất kỳ biến hồi quy Scikit-learning nào.
  • lịch sử: bool, mặc định True. Có nên vẽ biểu đồ của phần dư hay không, biểu đồ này được sử dụng để kiểm tra một giả định khác — Phần dư được phân phối chuẩn xấp xỉ với giá trị trung bình bằng 0 và độ lệch chuẩn cố định.

Sử dụng

Biểu đồ lỗi dự đoán trong hồi quy tuyến tính là một phương pháp đồ họa được sử dụng để đánh giá mô hình hồi quy.

Biểu đồ lỗi dự đoán được tạo bằng cách vẽ các dự đoán dựa trên các giá trị mục tiêu thực tế.

Nếu mô hình đưa ra dự đoán rất chính xác, thì các điểm phải nằm trên đường 45 độ. Mặt khác, các điểm được phân tán xung quanh dòng đó.

Triển khai Yellowbrick

Tạo biểu đồ lỗi dự đoán bằng phương pháp truyền thống rất phức tạp và tốn thời gian. Thay vào đó, chúng ta có thể sử dụng trình hiển thị PredictionError của Yellowbrick.

Để vẽ biểu đồ lỗi dự đoán trong Yellowbirck, chúng tôi sẽ sử dụng Quảng cáo (Quảng cáo.csv, Xem Citation ở cuối) tập dữ liệu.

Đoạn mã sau giải thích cách chúng ta có thể sử dụng trình hiển thị PredictionError của Yellowbrick để tạo biểu đồ phần dư bằng cách sử dụng Quảng cáo tập dữ liệu.

(Mã theo tác giả)
Sơ đồ lỗi dự đoán (Ảnh của tác giả)

Các điểm không chính xác trên đường 45 độ, nhưng mô hình là đủ tốt.

Các tham số quan trọng nhất của trình hiển thị PredictionError bao gồm:

  • ước tính: Đây có thể là bất kỳ biến hồi quy Scikit-learning nào.
  • xác thực: bool, mặc định True. Có nên vẽ đường 45 độ hay không.

Sử dụng

Khoảng cách của Cook đo lường tác động của các phiên bản đối với hồi quy tuyến tính. Các trường hợp có tác động lớn được coi là ngoại lệ. Tập dữ liệu có số lượng ngoại lệ lớn không phù hợp với hồi quy tuyến tính mà không cần xử lý trước. Đơn giản, biểu đồ khoảng cách của Cook được sử dụng để phát hiện các giá trị ngoại lệ trong tập dữ liệu.

Triển khai Yellowbrick

Tạo biểu đồ khoảng cách của Cook bằng phương pháp truyền thống rất phức tạp và tốn thời gian. Thay vào đó, chúng ta có thể sử dụng trình hiển thị CooksDistance của Yellowbrick.

Để vẽ biểu đồ khoảng cách của Cook ở Yellowbirck, chúng ta sẽ sử dụng Quảng cáo (Quảng cáo.csv, Xem Citation ở cuối) tập dữ liệu.

Đoạn mã sau giải thích cách chúng ta có thể sử dụng trình hiển thị CooksDistance của Yellowbrick để tạo biểu đồ khoảng cách của Cook bằng cách sử dụng Quảng cáo tập dữ liệu.

(Mã theo tác giả)
Đồ thị khoảng cách của Cook (Ảnh của tác giả)

Có một số quan sát mở rộng đường ngưỡng (ngang màu đỏ). Họ là những người ngoại lệ. Vì vậy, chúng ta nên chuẩn bị dữ liệu trước khi thực hiện bất kỳ mô hình hồi quy nào.

Các thông số quan trọng nhất của trình hiển thị CooksDistance bao gồm:

  • draw_threshold: bool, mặc định True. Có nên vẽ đường ngưỡng hay không.

Sử dụng

Biểu đồ tầm quan trọng của tính năng được sử dụng để chọn các tính năng quan trọng cần thiết tối thiểu để tạo ra một mô hình ML. Vì không phải tất cả các tính năng đều đóng góp như nhau cho mô hình nên chúng tôi có thể xóa các tính năng ít quan trọng hơn khỏi mô hình. Điều đó sẽ làm giảm độ phức tạp của mô hình. Các mô hình đơn giản dễ đào tạo và giải thích.

Biểu đồ tầm quan trọng của tính năng trực quan hóa tầm quan trọng tương đối của từng tính năng.

Triển khai Yellowbrick

Tạo biểu đồ tầm quan trọng của đối tượng địa lý bằng phương pháp truyền thống rất phức tạp và tốn thời gian. Thay vào đó, chúng ta có thể sử dụng trình hiển thị FeatureImportances của Yellowbrick.

Để vẽ biểu đồ tầm quan trọng của tính năng trong Yellowbirck, chúng tôi sẽ sử dụng ung thư vú tập dữ liệu (xem Citation ở cuối) chứa 30 tính năng.

Đoạn mã sau giải thích cách chúng ta có thể sử dụng trình hiển thị FeatureImportances của Yellowbrick để tạo biểu đồ tầm quan trọng của tính năng bằng cách sử dụng ung thư vú tập dữ liệu.

(Mã theo tác giả)
Tính năng quan trọng (Ảnh của tác giả)

Không phải tất cả 30 tính năng trong tập dữ liệu đều đóng góp nhiều cho mô hình. Chúng tôi có thể xóa các tính năng có thanh nhỏ khỏi tập dữ liệu và điều chỉnh lại mô hình với các tính năng đã chọn.

Các tham số quan trọng nhất của trình hiển thị FeatureImportances bao gồm:

  • ước tính: Bất kì Công cụ ước tính Scikit-learning hỗ trợ một trong hai feature_importances_ thuộc tính hoặc coef_ thuộc tính.
  • quan hệ: bool, mặc định True. Có nên biểu thị tầm quan trọng tương đối dưới dạng phần trăm hay không. Nếu False, điểm số thô của tầm quan trọng của tính năng được hiển thị.
  • tuyệt đối: bool, mặc định False. Có nên chỉ xem xét độ lớn của các hệ số bằng cách tránh dấu âm hay không.
  1. Sơ đồ thành phần chính: PCA(), Cách sử dụng — Trực quan hóa dữ liệu nhiều chiều trong biểu đồ phân tán 2D hoặc 3D có thể được sử dụng để xác định các mẫu quan trọng trong dữ liệu nhiều chiều.
  2. Đường cong xác thực: Đường cong xác thực (), Cách sử dụng — Biểu đồ ảnh hưởng của một duy nhất siêu tham số trên tàu và bộ xác thực.
  3. Đường cong học tập: Đường cong học tập(), Cách sử dụng — Phát hiện thiếu trang bị, quá mứcđúng rồi điều kiện của một mô hình, Xác định sđộ hội tụ thấp, dao động, dao động lệch phahội tụ thích hợp các tình huống khi tìm tốc độ học tập tối ưu của mạng thần kinh, Cho biết mô hình của chúng tôi được hưởng lợi bao nhiêu từ việc bổ sung thêm dữ liệu đào tạo.
  4. Âm mưu khuỷu tay: KElbowVisualizer(), Cách sử dụng — Chọn số cụm tối ưu trong phân cụm K-Means.
  5. Cốt truyện hình bóng: Hình bóngVisualizer(), Cách sử dụng — Chọn số cụm tối ưu trong phân cụm K-Means, Phát hiện sự mất cân bằng cụm trong phân cụm K-Means.
  6. Cốt truyện mất cân bằng giai cấp: Cân bằng lớp(), Cách sử dụng — Phát hiện sự mất cân bằng của các lớp trong cột mục tiêu trong bộ dữ liệu phân loại.
  7. Âm mưu dư thừa: Phần dưPlot(), Cách sử dụng — Xác định xem phần dư (giá trị quan sát-giá trị dự đoán) không tương quan (độc lập) hay không bằng cách phân tích phương sai của lỗi trong mô hình hồi quy.
  8. Âm mưu lỗi dự đoán: Dự đoánError(), Cách sử dụng — Một phương pháp đồ họa được sử dụng để đánh giá một mô hình hồi quy.
  9. Âm mưu khoảng cách của Cook: Khoảng cách nấu ăn (), Cách sử dụng — Phát hiện các giá trị ngoại lệ trong tập dữ liệu dựa trên khoảng cách của Cook đối với các phiên bản.
  10. Cốt truyện tầm quan trọng của tính năng: Tính năng quan trọng (), Cách sử dụng — Chọn các tính năng quan trọng cần thiết tối thiểu dựa trên tầm quan trọng tương đối của từng tính năng để tạo ra một mô hình ML.

Đây là phần cuối của bài viết ngày hôm nay.

Vui lòng cho tôi biết nếu bạn có bất kỳ câu hỏi hoặc phản hồi nào.

Đọc tiếp theo (Được khuyến nghị)

  • Yellowbrick để trực quan hóa tầm quan trọng của các tính năng bằng cách sử dụng một dòng mã
  • Giải thích về đường cong xác thực - Vẽ biểu đồ ảnh hưởng của một siêu tham số
  • Vẽ đường cong học tập để phân tích hiệu suất đào tạo của mạng thần kinh
  • Phân cụm K-Means thực hành

Hỗ trợ tôi với tư cách là một nhà văn

Tôi hy vọng bạn thích đọc bài viết này. Nếu bạn muốn ủng hộ tôi với tư cách là một nhà văn, vui lòng cân nhắc đăng ký thành viên để có quyền truy cập không giới hạn vào Medium. Nó chỉ tốn 5$ mỗi tháng và tôi sẽ nhận được một phần phí thành viên của bạn.

Cảm ơn bạn rất nhiều vì sự hỗ trợ liên tục của bạn! Hẹn gặp lại bạn ở bài viết tiếp theo. Chúc mọi người học tập vui vẻ!

Thông tin bộ dữ liệu ung thư vú

  • Trích dẫn: Dua, D. và Graff, C. (2019). Kho lưu trữ học máy của UCI [http://archive.ics.uci.edu/ml]. Irvine, CA: Đại học California, Trường Thông tin và Khoa học Máy tính.
  • nguồn: https://archive.ics.uci.edu/ml/datasets/breast+cancer+wisconsin+(diagnostic)
  • Giấy phép: Tiến sĩ William H. Wolberg (Khoa Ngoại Tổng quát
    Đại học Wisconsin), Phố W. Nick (Khoa Khoa học máy tính
    Đại học Wisconsin) và Olvi L. Mangasarian (Khoa Khoa học Máy tính, Đại học Wisconsin) giữ bản quyền của bộ dữ liệu này. Nick Street đã tặng bộ dữ liệu này cho công chúng theo Giấy phép quốc tế Creative Commons Attribution 4.0 (CC BY 4.0). Bạn có thể tìm hiểu thêm về các loại giấy phép tập dữ liệu khác nhau tại đây.

Thông tin bộ dữ liệu Iris

  • Trích dẫn: Dua, D. và Graff, C. (2019). Kho lưu trữ học máy của UCI [http://archive.ics.uci.edu/ml]. Irvine, CA: Đại học California, Trường Thông tin và Khoa học Máy tính.
  • nguồn: https://archive.ics.uci.edu/ml/datasets/iris
  • Giấy phép: ra ngư dân giữ bản quyền của tập dữ liệu này. Michael Marshall đã tặng bộ dữ liệu này cho công chúng theo Giấy phép dành riêng cho miền công cộng Creative Commons (CC0). Bạn có thể tìm hiểu thêm về các loại giấy phép tập dữ liệu khác nhau tại đây.

Thông tin tập dữ liệu quảng cáo

dự án

10 hình ảnh trực quan tuyệt vời về học máy mà bạn nên biết vào năm 2023 Được xuất bản lại từ nguồn https://towardsdatascience.com/10-amazing-machine-learning-visualizations-you- Should-know-in-2023-528282940582?source=rss—-7f60cf5620c9— 4 qua https://towardsdatascience.com/feed

<!–

->

Dấu thời gian:

Thêm từ Tư vấn chuỗi khối