Chuẩn bị dữ liệu thống nhất và đào tạo mô hình với Amazon SageMaker Data Wrangler và Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Chuẩn bị dữ liệu thống nhất và đào tạo mô hình với Amazon SageMaker Data Wrangler và Amazon SageMaker Autopilot

Máy học sử dụng nhiên liệu dữ liệu (ML); chất lượng của dữ liệu có ảnh hưởng trực tiếp đến chất lượng của các mô hình ML. Do đó, việc cải thiện chất lượng dữ liệu và sử dụng các kỹ thuật thiết kế tính năng phù hợp là rất quan trọng để tạo ra các mô hình ML chính xác. Những người thực hành ML thường lặp đi lặp lại một cách cẩn thận về kỹ thuật tính năng, lựa chọn thuật toán và các khía cạnh khác của ML để tìm kiếm các mô hình tối ưu tổng quát hóa tốt trên dữ liệu thế giới thực và mang lại kết quả mong muốn. Vì tốc độ kinh doanh có ý nghĩa không cân xứng, nên quá trình lặp đi lặp lại và vô cùng tẻ nhạt này có thể dẫn đến sự chậm trễ của dự án và mất cơ hội kinh doanh.

Trình sắp xếp dữ liệu Amazon SageMaker giảm thời gian tổng hợp và chuẩn bị dữ liệu cho ML từ vài tuần xuống còn vài phút, và Amazon SageMaker Tự động lái tự động xây dựng, đào tạo và điều chỉnh các mô hình ML tốt nhất dựa trên dữ liệu của bạn. Với Autopilot, bạn vẫn duy trì toàn quyền kiểm soát và khả năng hiển thị dữ liệu và mô hình của mình. Cả hai dịch vụ đều được xây dựng có mục đích để giúp những người thực hành ML làm việc hiệu quả hơn và đẩy nhanh thời gian để nâng cao giá trị.

Data Wrangler hiện cung cấp trải nghiệm thống nhất cho phép bạn chuẩn bị dữ liệu và đào tạo liền mạch mô hình ML trong Autopilot. Với tính năng mới ra mắt này, giờ đây bạn có thể chuẩn bị dữ liệu của mình trong Data Wrangler và dễ dàng khởi chạy các thử nghiệm Autopilot trực tiếp từ giao diện người dùng (UI) của Data Wrangler. Chỉ với một vài cú nhấp chuột, bạn có thể tự động xây dựng, đào tạo và điều chỉnh các mô hình ML, giúp việc sử dụng các kỹ thuật kỹ thuật tính năng hiện đại dễ dàng hơn, đào tạo các mô hình ML chất lượng cao và hiểu rõ hơn từ dữ liệu của bạn nhanh hơn.

Trong bài đăng này, chúng tôi thảo luận về cách bạn có thể sử dụng trải nghiệm tích hợp mới này trong Data Wrangler để phân tích tập dữ liệu và dễ dàng xây dựng mô hình ML chất lượng cao trong Autopilot.

Tổng quan về tập dữ liệu

Người da đỏ Pima là một nhóm bản địa sống ở Mexico và Arizona, Hoa Kỳ. Nghiên cứu cho thấy người da đỏ Pima là nhóm dân số có nguy cơ cao mắc bệnh đái tháo đường. Dự đoán xác suất rủi ro và khả năng dễ mắc bệnh mãn tính như tiểu đường của một cá nhân là một nhiệm vụ quan trọng trong việc cải thiện sức khỏe và hạnh phúc của nhóm thiểu số thường ít đại diện này.

Chúng tôi sử dụng Tập dữ liệu công khai về bệnh tiểu đường ở Ấn Độ Pima để dự đoán tính nhạy cảm của một cá nhân với bệnh tiểu đường. Chúng tôi tập trung vào sự tích hợp mới giữa Data Wrangler và Autopilot để chuẩn bị dữ liệu và tự động tạo mô hình ML mà không cần viết một dòng mã nào.

Tập dữ liệu chứa thông tin về phụ nữ Ấn Độ Pima từ 21 tuổi trở lên và bao gồm một số biến dự báo y tế (độc lập) và một biến mục tiêu (phụ thuộc), Kết quả. Biểu đồ sau đây mô tả các cột trong tập dữ liệu của chúng tôi.

Cột Họ tên Mô tả
Mang thai Số lần mang thai
Glucose Nồng độ glucose huyết tương trong một bài kiểm tra dung nạp glucose đường uống trong vòng 2 giờ
Huyết áp Huyết áp tâm trương (mm Hg)
Độ dày da Độ dày nếp gấp da cơ tam đầu (mm)
Insulin Insulin huyết thanh 2 giờ (mu U / ml)
BMI Chỉ số khối cơ thể (trọng lượng tính bằng kg / (chiều cao tính bằng m) ^ 2)
Bệnh tiểu đường Chức năng phả hệ bệnh tiểu đường
Độ tuổi Tuổi trong năm
Kết quả Biến mục tiêu

Tập dữ liệu chứa 768 bản ghi, với tổng số 9 tính năng. Chúng tôi lưu trữ tập dữ liệu này trong Nhóm lưu trữ đơn giản của Amazon (Amazon S3) dưới dạng tệp CSV và sau đó nhập CSV trực tiếp vào luồng Data Wrangler từ Amazon S3.

Tổng quan về giải pháp

Sơ đồ sau đây tóm tắt những gì chúng tôi đạt được trong bài đăng này. [KT1]

Chuẩn bị dữ liệu thống nhất và đào tạo mô hình với Amazon SageMaker Data Wrangler và Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Các nhà khoa học dữ liệu, bác sĩ và các chuyên gia lĩnh vực y tế khác cung cấp dữ liệu bệnh nhân với thông tin về mức đường huyết, huyết áp, chỉ số khối cơ thể và các tính năng khác được sử dụng để dự đoán khả năng mắc bệnh tiểu đường. Với tập dữ liệu trong Amazon S3, chúng tôi nhập tập dữ liệu vào Data Wrangler để thực hiện phân tích dữ liệu khám phá (EDA), lập hồ sơ dữ liệu, kỹ thuật tính năng và tách tập dữ liệu thành huấn luyện và kiểm tra để xây dựng và đánh giá mô hình.

Sau đó, chúng tôi sử dụng tích hợp tính năng mới của Autopilot để nhanh chóng xây dựng mô hình trực tiếp từ giao diện Data Wrangler. Chúng tôi chọn mô hình tốt nhất của Autopilot dựa trên mô hình có điểm F-beta cao nhất. Sau khi Autopilot tìm thấy mô hình tốt nhất, chúng tôi chạy Chuyển đổi hàng loạt SageMaker công việc trên bộ kiểm tra (giữ lại) với các tạo tác mô hình của mô hình tốt nhất để đánh giá.

Các chuyên gia y tế có thể cung cấp dữ liệu mới cho mô hình đã được xác thực để đưa ra dự đoán xem bệnh nhân có khả năng mắc bệnh tiểu đường hay không. Với những hiểu biết này, các chuyên gia y tế có thể bắt đầu điều trị sớm để cải thiện sức khỏe và hạnh phúc của các nhóm dân số dễ bị tổn thương. Các chuyên gia y tế cũng có thể giải thích dự đoán của mô hình bằng cách tham khảo chi tiết của mô hình trong Autopilot vì họ có khả năng hiển thị đầy đủ về khả năng giải thích, hiệu suất và hiện vật của mô hình. Khả năng hiển thị này cùng với việc xác nhận mô hình từ bộ thử nghiệm giúp các chuyên gia y tế tin tưởng hơn vào khả năng dự đoán của mô hình.

Chúng tôi hướng dẫn bạn qua các bước cấp cao sau đây.

  1. Nhập tập dữ liệu từ Amazon S3.
  2. Thực hiện EDA và cấu hình dữ liệu với Data Wrangler.
  3. Thực hiện kỹ thuật tính năng để xử lý các giá trị ngoại lệ và thiếu.
  4. Tách dữ liệu thành các tập huấn luyện và thử nghiệm.
  5. Đào tạo và xây dựng một mô hình với Autopilot.
  6. Kiểm tra mô hình trên một mẫu chờ bằng sổ ghi chép SageMaker.
  7. Phân tích xác nhận và kiểm tra hiệu suất của tập hợp.

Điều kiện tiên quyết

Hoàn thành các bước điều kiện tiên quyết sau:

  1. Tải lên tập dữ liệu vào một nhóm S3 mà bạn chọn.
  2. Đảm bảo rằng bạn có các quyền cần thiết. Để biết thêm thông tin, hãy tham khảo Bắt đầu với Data Wrangler.
  3. Thiết lập miền SageMaker được định cấu hình để sử dụng Data Wrangler. Để được hướng dẫn, hãy tham khảo Tích hợp vào Miền Amazon SageMaker.

Nhập tập dữ liệu của bạn với Data Wrangler

Bạn có thể tích hợp luồng dữ liệu Data Wrangler vào quy trình làm việc ML của mình để đơn giản hóa và hợp lý hóa quá trình tiền xử lý dữ liệu và kỹ thuật tính năng bằng cách sử dụng ít hoặc không cần mã hóa. Hoàn thành các bước sau:

  1. Tạo một cái mới Luồng Data Wrangler.

Nếu đây là lần đầu tiên bạn mở Data Wrangler, bạn có thể phải đợi vài phút để nó sẵn sàng.

  1. Chọn tập dữ liệu được lưu trữ trong Amazon S3 và nhập nó vào Data Wrangler.

Chuẩn bị dữ liệu thống nhất và đào tạo mô hình với Amazon SageMaker Data Wrangler và Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Sau khi nhập tập dữ liệu, bạn sẽ thấy phần đầu của luồng dữ liệu trong Giao diện người dùng Data Wrangler. Bây giờ bạn có một sơ đồ.

  1. Chọn dấu cộng bên cạnh Loại dữ liệu Và chọn Chỉnh sửa để xác nhận rằng Data Wrangler tự động suy ra các kiểu dữ liệu chính xác cho các cột dữ liệu của bạn.

Chuẩn bị dữ liệu thống nhất và đào tạo mô hình với Amazon SageMaker Data Wrangler và Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Nếu các loại dữ liệu không chính xác, bạn có thể dễ dàng sửa đổi chúng thông qua giao diện người dùng. Nếu có nhiều nguồn dữ liệu, bạn có thể nối hoặc nối chúng.

Bây giờ chúng ta có thể tạo một phân tích và thêm các phép biến đổi.

Thực hiện phân tích dữ liệu khám phá với báo cáo thông tin chi tiết về dữ liệu

Phân tích dữ liệu thăm dò là một phần quan trọng của quy trình làm việc ML. Chúng tôi có thể sử dụng báo cáo thông tin chi tiết về dữ liệu mới từ Data Wrangler để hiểu rõ hơn về hồ sơ và phân phối dữ liệu của chúng tôi. Báo cáo bao gồm thống kê tóm tắt, cảnh báo chất lượng dữ liệu, thông tin chi tiết về cột mục tiêu, mô hình nhanh và thông tin về các hàng bất thường và trùng lặp.

  1. Chọn dấu cộng bên cạnh Loại dữ liệu Và chọn Nhận thông tin chi tiết về dữ liệu.

Chuẩn bị dữ liệu thống nhất và đào tạo mô hình với Amazon SageMaker Data Wrangler và Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

  1. Trong Mục tiêu cột, chọn Kết quả.
  2. Trong Loại vấn đềvà (tùy chọn) chọn phân loại.
  3. Chọn Tạo.

Chuẩn bị dữ liệu thống nhất và đào tạo mô hình với Amazon SageMaker Data Wrangler và Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Kết quả hiển thị dữ liệu tóm tắt với thống kê tập dữ liệu.

Chuẩn bị dữ liệu thống nhất và đào tạo mô hình với Amazon SageMaker Data Wrangler và Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Chúng tôi cũng có thể xem sự phân bố của các hàng được gắn nhãn bằng biểu đồ, ước tính về chất lượng dự đoán mong đợi của mô hình với tính năng mô hình nhanh và bảng tóm tắt tính năng.

Chuẩn bị dữ liệu thống nhất và đào tạo mô hình với Amazon SageMaker Data Wrangler và Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Chuẩn bị dữ liệu thống nhất và đào tạo mô hình với Amazon SageMaker Data Wrangler và Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Chúng tôi không đi vào chi tiết phân tích báo cáo thông tin chi tiết về dữ liệu; tham khảo Tăng tốc chuẩn bị dữ liệu với chất lượng dữ liệu và thông tin chi tiết trong Amazon SageMaker Data Wrangler để biết thêm chi tiết về cách bạn có thể sử dụng báo cáo thông tin chi tiết về dữ liệu để đẩy nhanh các bước chuẩn bị dữ liệu của mình.

Thực hiện kỹ thuật tính năng

Bây giờ chúng tôi đã lập hồ sơ và phân tích sự phân bố của các cột đầu vào của chúng tôi ở cấp độ cao, việc cân nhắc đầu tiên để cải thiện chất lượng dữ liệu của chúng tôi có thể là xử lý các giá trị bị thiếu.

Ví dụ: chúng tôi biết rằng các số không (0) cho Insulin cột đại diện cho các giá trị bị thiếu. Chúng tôi có thể làm theo khuyến nghị để thay thế các số không bằng NaN. Nhưng khi xem xét kỹ hơn, chúng tôi thấy rằng giá trị nhỏ nhất là 0 đối với các cột khác, chẳng hạn như Glucose, BloodPressure, SkinThicknessBMI. Chúng tôi cần một cách để xử lý các giá trị bị thiếu, nhưng cần phải nhạy cảm với các cột có số không là dữ liệu hợp lệ. Hãy xem cách chúng tôi có thể sửa lỗi này.

Trong tạp chí Chi tiết tính năng , báo cáo nêu ra một Giá trị bị thiếu được ngụy trang cảnh báo cho tính năng Insulin.

Chuẩn bị dữ liệu thống nhất và đào tạo mô hình với Amazon SageMaker Data Wrangler và Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Chuẩn bị dữ liệu thống nhất và đào tạo mô hình với Amazon SageMaker Data Wrangler và Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Bởi vì các số không trong Insulin trên thực tế, cột này bị thiếu dữ liệu, chúng tôi sử dụng Chuyển đổi regex thành bị thiếu biến đổi để biến đổi các giá trị không thành trống (thiếu các giá trị).

  1. Chọn dấu cộng bên cạnh Ngày loại Và chọn Thêm biến đổi.
  2.  Chọn Tìm kiếm và chỉnh sửa.
  3. Trong Chuyển đổi, chọn Chuyển đổi regex thành bị thiếu.
  4. Trong Đầu vào cột, chọn các cột Insulin, Glucose, BloodPressure, SkinThicknessBMI.
  5. Trong Họa tiết, đi vào 0.
  6. Chọn Xem trướcThêm để lưu bước này.

0 mục dưới Insulin, Glucose, BloodPressure, SkinThicknessBMI hiện đang bị thiếu các giá trị.

Chuẩn bị dữ liệu thống nhất và đào tạo mô hình với Amazon SageMaker Data Wrangler và Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Data Wrangler cung cấp cho bạn một vài tùy chọn khác để sửa các giá trị bị thiếu.

  1. Chúng tôi xử lý các giá trị bị thiếu bằng cách tính giá trị trung bình gần đúng cho Glucose cột.

Chuẩn bị dữ liệu thống nhất và đào tạo mô hình với Amazon SageMaker Data Wrangler và Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Chúng tôi cũng muốn đảm bảo rằng các tính năng của chúng tôi có cùng quy mô. Chúng tôi không muốn vô tình tăng thêm trọng lượng cho một đối tượng địa lý nhất định chỉ vì chúng chứa một phạm vi số lớn hơn. Chúng tôi bình thường hóa các tính năng của mình để làm điều này.

  1. Thêm mới Xử lý số biến đổi và lựa chọn Quy mô giá trị.
  2. Trong Máy cào, chọn Tỷ lệ tối thiểu-tối đa.
  3. Trong Các cột đầu vào, chọn các cột Pregnancies, BloodPressure, Glucose, SkinThickness, Insulin, BMIAge.
  4. Thiết lập min đến 0Max đến 1.

Điều này đảm bảo rằng các tính năng của chúng tôi nằm giữa các giá trị 01.

Chuẩn bị dữ liệu thống nhất và đào tạo mô hình với Amazon SageMaker Data Wrangler và Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Bây giờ chúng tôi đã tạo một số tính năng, chúng tôi chia bộ dữ liệu của mình thành đào tạo và thử nghiệm trước khi chúng tôi xây dựng mô hình.

Chia dữ liệu thành đào tạo và thử nghiệm

Trong giai đoạn xây dựng mô hình của quy trình ML của bạn, bạn kiểm tra tính hiệu quả của mô hình bằng cách chạy các dự đoán hàng loạt. Bạn có thể dành một tập dữ liệu thử nghiệm hoặc lưu giữ để đánh giá nhằm xem mô hình của bạn hoạt động như thế nào bằng cách so sánh các dự đoán với sự thật cơ bản. Nói chung, nếu nhiều dự đoán của mô hình phù hợp với true nhãn, chúng tôi có thể xác định mô hình đang hoạt động tốt.

Chúng tôi sử dụng Data Wrangler để chia nhỏ tập dữ liệu của mình để thử nghiệm. Chúng tôi giữ lại 90% tập dữ liệu của mình để đào tạo vì chúng tôi có một tập dữ liệu tương đối nhỏ. 10% còn lại của tập dữ liệu của chúng tôi đóng vai trò là tập dữ liệu thử nghiệm. Chúng tôi sử dụng tập dữ liệu này để xác thực mô hình Autopilot sau trong bài đăng này.

Chúng tôi phân chia dữ liệu của mình bằng cách chọn Tách dữ liệu biến đổi và lựa chọn Phân chia ngẫu nhiên như một phương pháp. Chúng tôi chỉ định 0.9 là tỷ lệ phân chia cho đào tạo và 0.1 cho thử nghiệm.

Chuẩn bị dữ liệu thống nhất và đào tạo mô hình với Amazon SageMaker Data Wrangler và Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Với quá trình chuyển đổi dữ liệu và các bước kỹ thuật có tính năng đã hoàn tất, chúng tôi hiện đã sẵn sàng đào tạo một mô hình.

Đào tạo và xác nhận mô hình

Chúng tôi có thể sử dụng tích hợp Data Wrangler mới với Autopilot để đào tạo trực tiếp một mô hình từ giao diện người dùng luồng dữ liệu Data Wrangler.

  1. Chọn dấu cộng bên cạnh Bộ dữ liệu Và chọn Mô hình tàu hỏa.

Chuẩn bị dữ liệu thống nhất và đào tạo mô hình với Amazon SageMaker Data Wrangler và Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

  1. Trong Vị trí Amazon S3, chỉ định vị trí Amazon S3 nơi SageMaker xuất dữ liệu của bạn.

Autopilot sử dụng vị trí này để tự động huấn luyện một mô hình, giúp bạn tiết kiệm thời gian khỏi việc phải xác định vị trí đầu ra của luồng Data Wrangler, sau đó phải xác định vị trí đầu vào của dữ liệu huấn luyện Autopilot. Điều này giúp cho trải nghiệm liền mạch hơn.

  1. Chọn Xuất khẩu và Đào tạo để bắt đầu xây dựng mô hình bằng Autopilot.

Chuẩn bị dữ liệu thống nhất và đào tạo mô hình với Amazon SageMaker Data Wrangler và Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Autopilot tự động chọn vị trí đầu vào và đầu ra dữ liệu đào tạo. Bạn chỉ cần xác định cột mục tiêu và nhấp vào Tạo thử nghiệm để đào tạo mô hình của bạn.

Chuẩn bị dữ liệu thống nhất và đào tạo mô hình với Amazon SageMaker Data Wrangler và Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Kiểm tra mô hình trên một mẫu giữ lại

Khi Autopilot hoàn thành thử nghiệm, chúng tôi có thể xem kết quả đào tạo và khám phá mô hình tốt nhất.

Chuẩn bị dữ liệu thống nhất và đào tạo mô hình với Amazon SageMaker Data Wrangler và Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Chuẩn bị dữ liệu thống nhất và đào tạo mô hình với Amazon SageMaker Data Wrangler và Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

  1. Chọn Xem chi tiết mô hình cho mô hình mong muốn của bạn, sau đó chọn HIỆU QUẢ trên trang chi tiết mô hình.

Chuẩn bị dữ liệu thống nhất và đào tạo mô hình với Amazon SageMaker Data Wrangler và Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Sản phẩm HIỆU QUẢ tab hiển thị một số thử nghiệm đo lường mô hình, bao gồm ma trận nhầm lẫn, khu vực dưới đường cong độ chính xác / thu hồi (AUCPR) và khu vực dưới đường cong đặc tính hoạt động của máy thu (ROC). Những điều này minh họa hiệu suất xác thực tổng thể của mô hình, nhưng chúng không cho chúng ta biết liệu mô hình có khái quát hóa tốt hay không. Chúng tôi vẫn cần chạy các đánh giá trên dữ liệu thử nghiệm chưa được nhìn thấy để xem mô hình dự đoán chính xác như thế nào nếu một cá nhân sẽ mắc bệnh tiểu đường.

Để đảm bảo mô hình tổng quát hóa đủ tốt, chúng tôi dành mẫu thử nghiệm để lấy mẫu độc lập. Chúng ta có thể làm như vậy trong giao diện người dùng luồng Data Wrangler.

  1.  Chọn dấu cộng bên cạnh Bộ dữ liệu, chọn Xuất khẩu sang, và lựa chọn Amazon S3.

Chuẩn bị dữ liệu thống nhất và đào tạo mô hình với Amazon SageMaker Data Wrangler và Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

  1. Chỉ định đường dẫn Amazon S3.

Chúng tôi đề cập đến đường dẫn này khi chúng tôi chạy suy luận hàng loạt để xác thực trong phần tiếp theo.

  1. Tạo sổ ghi chép SageMaker mới để thực hiện tham khảo hàng loạt trên mẫu tạm giữ và đánh giá hiệu suất thử nghiệm. Tham khảo phần sau Repo GitHub cho một mẫu máy tính xách tay để chạy suy luận hàng loạt để xác nhận.

Phân tích xác thực và kiểm tra hiệu suất của tập hợp

Khi quá trình chuyển đổi hàng loạt hoàn tất, chúng tôi tạo một ma trận nhầm lẫn để so sánh kết quả thực tế và dự đoán của tập dữ liệu giữ lại.

Chúng tôi thấy 23 mặt tích cực thực sự và 33 tiêu cực thực sự từ kết quả của chúng tôi. Trong trường hợp của chúng tôi, kết quả dương tính thực sự đề cập đến mô hình dự đoán chính xác một người mắc bệnh tiểu đường. Ngược lại, âm tính thực sự đề cập đến mô hình dự đoán chính xác một cá nhân là không mắc bệnh tiểu đường.

Chuẩn bị dữ liệu thống nhất và đào tạo mô hình với Amazon SageMaker Data Wrangler và Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Trong trường hợp của chúng tôi, độ chính xác và thu hồi là những thước đo quan trọng. Về cơ bản, độ chính xác đo lường tất cả những người được dự đoán mắc bệnh tiểu đường, bao nhiêu người thực sự mắc bệnh tiểu đường? Ngược lại, việc thu hồi giúp đo lường tất cả những người thực sự mắc bệnh tiểu đường, bao nhiêu người được dự đoán là mắc bệnh tiểu đường? Ví dụ: bạn có thể muốn sử dụng một mô hình có độ chính xác cao vì bạn muốn điều trị cho càng nhiều người càng tốt, đặc biệt nếu giai đoạn đầu của việc điều trị không có tác dụng đối với những người không mắc bệnh tiểu đường (đây là dương tính giả - những người được dán nhãn là mắc bệnh trong khi thực tế thì không).

Chúng tôi cũng vẽ vùng dưới đồ thị đường cong ROC (AUC) để đánh giá kết quả. AUC càng cao, mô hình càng tốt trong việc phân biệt giữa các lớp, trong trường hợp của chúng tôi là mô hình hoạt động tốt như thế nào trong việc phân biệt bệnh nhân có và không mắc bệnh tiểu đường.

Chuẩn bị dữ liệu thống nhất và đào tạo mô hình với Amazon SageMaker Data Wrangler và Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Kết luận

Trong bài đăng này, chúng tôi đã trình bày cách tích hợp xử lý dữ liệu của bạn, tính năng kỹ thuật và xây dựng mô hình bằng Data Wrangler và Autopilot. Chúng tôi đã nêu bật cách bạn có thể dễ dàng đào tạo và điều chỉnh một mô hình bằng Autopilot trực tiếp từ giao diện người dùng Data Wrangler. Với tính năng tích hợp này, chúng tôi có thể nhanh chóng xây dựng một mô hình sau khi hoàn thành kỹ thuật tính năng mà không cần viết bất kỳ mã nào. Sau đó, chúng tôi đã tham khảo mô hình tốt nhất của Autopilot để chạy dự đoán hàng loạt bằng cách sử dụng lớp AutoML với SageMaker Python SDK.

Các giải pháp mã thấp và AutoML như Data Wrangler và Autopilot loại bỏ nhu cầu phải có kiến ​​thức mã hóa sâu để xây dựng các mô hình ML mạnh mẽ. Bắt đầu sử dụng Data Wrangler ngay hôm nay để trải nghiệm việc xây dựng các mô hình ML dễ dàng như thế nào bằng cách sử dụng Máy lái tự động SageMaker.


Về các tác giả

Chuẩn bị dữ liệu thống nhất và đào tạo mô hình với Amazon SageMaker Data Wrangler và Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.Peter Chung là Kiến trúc sư giải pháp cho AWS và rất đam mê giúp khách hàng khám phá thông tin chi tiết từ dữ liệu của họ. Ông đã và đang xây dựng các giải pháp để giúp các tổ chức đưa ra quyết định dựa trên dữ liệu ở cả khu vực công và tư nhân. Anh ấy có tất cả các chứng chỉ AWS cũng như hai chứng chỉ GCP. Anh ấy thích cà phê, nấu ăn, năng động và dành thời gian cho gia đình.

Chuẩn bị dữ liệu thống nhất và đào tạo mô hình với Amazon SageMaker Data Wrangler và Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.Pradeep Reddy là Giám đốc Sản phẩm Cấp cao trong nhóm SageMaker Low / No Code ML, bao gồm SageMaker Autopilot, SageMaker Automatic Model Tuner. Ngoài giờ làm việc, Pradeep thích đọc sách, chạy và tìm hiểu với các máy tính có kích thước bằng lòng bàn tay như raspberry pi và các công nghệ tự động hóa gia đình khác.

Chuẩn bị dữ liệu thống nhất và đào tạo mô hình với Amazon SageMaker Data Wrangler và Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.Arunprasath Shankar là Kiến trúc sư chuyên về giải pháp trí tuệ nhân tạo và máy học (AI / ML) của AWS, giúp khách hàng toàn cầu mở rộng quy mô các giải pháp AI của họ một cách hiệu quả và hiệu quả trên đám mây. Khi rảnh rỗi, Arun thích xem phim khoa học viễn tưởng và nghe nhạc cổ điển.

Chuẩn bị dữ liệu thống nhất và đào tạo mô hình với Amazon SageMaker Data Wrangler và Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.Srujan Gopu là Kỹ sư Frontend cấp cao trong SageMaker Low Code / No Code ML giúp khách hàng sử dụng các sản phẩm Autopilot và Canvas. Khi không viết mã, Srujan thích chạy bộ với chú chó Max của mình, nghe sách nói và phát triển trò chơi VR.

Dấu thời gian:

Thêm từ Học máy AWS