Điều chỉnh lại các tham số đã đào tạo trên các tập dữ liệu lớn bằng cách sử dụng Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Trang bị lại các thông số đã đào tạo trên tập dữ liệu lớn bằng Amazon SageMaker Data Wrangler

Trình sắp xếp dữ liệu Amazon SageMaker giúp bạn hiểu, tổng hợp, biến đổi và chuẩn bị dữ liệu cho máy học (ML) từ một giao diện trực quan duy nhất. Nó chứa hơn 300 chuyển đổi dữ liệu tích hợp để bạn có thể nhanh chóng chuẩn hóa, chuyển đổi và kết hợp các tính năng mà không phải viết bất kỳ mã nào.

Những người thực hành khoa học dữ liệu tạo, quan sát và xử lý dữ liệu để giải quyết các vấn đề kinh doanh khi họ cần chuyển đổi và trích xuất các tính năng từ bộ dữ liệu. Các biến đổi chẳng hạn như mã hóa thứ tự hoặc mã hóa một lần tìm hiểu mã hóa trên tập dữ liệu của bạn. Các đầu ra được mã hóa này được gọi là các tham số được đào tạo. Khi bộ dữ liệu thay đổi theo thời gian, có thể cần phải điều chỉnh lại mã hóa trên dữ liệu chưa xem trước đó để giữ cho quy trình chuyển đổi phù hợp với dữ liệu của bạn.

Chúng tôi rất vui mừng được công bố tính năng tham số được đào tạo điều chỉnh lại, tính năng này cho phép bạn sử dụng các tham số được đào tạo trước đó và điều chỉnh lại chúng theo ý muốn. Trong bài đăng này, chúng tôi trình bày cách sử dụng tính năng này.

Tổng quan về tính năng tái trang bị Data Wrangler

Chúng tôi minh họa cách hoạt động của tính năng này bằng ví dụ sau, trước khi chúng tôi đi sâu vào chi tiết cụ thể của tính năng thông số được huấn luyện về trang bị lại.

Giả sử tập dữ liệu khách hàng của bạn có một tính năng phân loại cho country được biểu diễn dưới dạng các chuỗi như AustraliaSingapore. Các thuật toán ML yêu cầu đầu vào số; do đó, các giá trị phân loại này phải được mã hóa thành các giá trị số. Mã hóa dữ liệu phân loại là quá trình tạo biểu diễn số cho các danh mục. Ví dụ: nếu quốc gia danh mục của bạn có các giá trị AustraliaSingapore, bạn có thể mã hóa thông tin này thành hai vectơ: [1, 0] để biểu diễn Australia và [0, 1] để đại diện Singapore. Biến đổi được sử dụng ở đây là mã hóa một lần và đầu ra được mã hóa mới phản ánh các tham số được đào tạo.

Sau khi đào tạo mô hình, theo thời gian, khách hàng của bạn có thể tăng lên và bạn có nhiều giá trị khác biệt hơn trong danh sách quốc gia. Tập dữ liệu mới có thể chứa một danh mục khác, India, không phải là một phần của tập dữ liệu gốc, điều này có thể ảnh hưởng đến độ chính xác của mô hình. Do đó, cần phải đào tạo lại mô hình của bạn với dữ liệu mới đã được thu thập theo thời gian.

Để khắc phục sự cố này, bạn cần làm mới mã hóa để bao gồm danh mục mới và cập nhật biểu diễn vectơ theo tập dữ liệu mới nhất của bạn. Trong ví dụ của chúng tôi, mã hóa phải phản ánh danh mục mới cho country, Đó là India. Chúng tôi thường gọi quá trình làm mới mã hóa này là một hoạt động tái trang bị. Sau khi bạn thực hiện thao tác chỉnh sửa lại, bạn sẽ nhận được mã hóa mới: Australia: [1, 0, 0], Singapore: [0, 1, 0] và India: [0, 0, 1]. Việc điều chỉnh lại mã hóa one-hot và sau đó đào tạo lại mô hình trên tập dữ liệu mới sẽ mang lại kết quả dự đoán có chất lượng tốt hơn.

Tính năng tham số được đào tạo lại của Data Wrangler hữu ích trong các trường hợp sau:

  • Dữ liệu mới được thêm vào tập dữ liệu – Việc đào tạo lại mô hình ML là cần thiết khi tập dữ liệu được bổ sung thêm dữ liệu mới. Để đạt được kết quả tối ưu, chúng ta cần điều chỉnh lại các tham số được đào tạo trên tập dữ liệu mới.
  • Đào tạo về tập dữ liệu đầy đủ sau khi thực hiện kỹ thuật tính năng trên dữ liệu mẫu - Đối với một tập dữ liệu lớn, một mẫu của tập dữ liệu được xem xét để học các tham số được đào tạo, có thể không đại diện cho toàn bộ tập dữ liệu của bạn. Chúng ta cần học lại các tham số đã được đào tạo trên tập dữ liệu hoàn chỉnh.

Sau đây là một số biến đổi Trình sắp xếp dữ liệu phổ biến nhất được thực hiện trên tập dữ liệu được hưởng lợi từ tùy chọn tham số được đào tạo lại:

Để biết thêm thông tin về các phép biến đổi trong Data Wrangler, hãy tham khảo Chuyển đổi dữ liệu.

Trong bài đăng này, chúng tôi trình bày cách xử lý các tham số được đào tạo này trên các tập dữ liệu bằng Data Wrangler. Bạn có thể sử dụng dòng Data Wrangler trong các công việc sản xuất để xử lý lại dữ liệu của mình khi dữ liệu phát triển và thay đổi.

Tổng quan về giải pháp

Đối với bài đăng này, chúng tôi trình bày cách sử dụng tính năng tham số được đào tạo lại của Data Wrangler với tập dữ liệu có sẵn công khai trên Kaggle: Dữ liệu về Nhà ở tại Hoa Kỳ từ Zillow, Tài sản rao bán tại Hoa Kỳ. Nó có giá bán nhà trên các phân phối địa lý khác nhau của các ngôi nhà.

Sơ đồ sau đây minh họa kiến ​​trúc cấp cao của Data Wrangler bằng cách sử dụng tính năng tham số được đào tạo lại. Chúng tôi cũng cho thấy ảnh hưởng đến chất lượng dữ liệu mà không cần điều chỉnh lại tham số được đào tạo và đối chiếu kết quả ở cuối.

Quy trình làm việc bao gồm các bước sau:

  1. Thực hiện phân tích dữ liệu khám phá – Tạo một luồng mới trên Data Wrangler để bắt đầu phân tích dữ liệu khám phá (EDA). Nhập dữ liệu kinh doanh để hiểu, làm sạch, tổng hợp, biến đổi và chuẩn bị dữ liệu của bạn cho đào tạo. tham khảo Khám phá các khả năng của Amazon SageMaker Data Wrangler với bộ dữ liệu mẫu để biết thêm chi tiết về cách thực hiện EDA với Data Wrangler.
  2. Tạo một công việc xử lý dữ liệu – Bước này xuất tất cả các phép biến đổi mà bạn đã thực hiện trên tập dữ liệu dưới dạng tệp luồng được lưu trữ trong tệp đã định cấu hình Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3) vị trí. Công việc xử lý dữ liệu với tệp luồng do Data Wrangler tạo ra sẽ áp dụng các phép biến đổi và các tham số được đào tạo đã học được trên tập dữ liệu của bạn. Khi công việc xử lý dữ liệu hoàn tất, các tệp đầu ra được tải lên vị trí Amazon S3 được định cấu hình trong nút đích. Lưu ý rằng tùy chọn tái trang bị bị tắt theo mặc định. Để thay thế cho việc thực hiện công việc xử lý ngay lập tức, bạn cũng có thể lên lịch một công việc xử lý trong một vài cú nhấp chuột bằng Data Wrangler – Tạo công việc để chạy vào những thời điểm cụ thể.
  3. Tạo một công việc xử lý dữ liệu với tính năng tham số được đào tạo lại – Chọn tính năng điều chỉnh lại thông số đã đào tạo mới trong khi tạo công việc để thực thi việc học lại các thông số đã đào tạo trên tập dữ liệu đầy đủ hoặc được củng cố của bạn. Theo cấu hình vị trí Amazon S3 để lưu trữ tệp luồng, công việc xử lý dữ liệu sẽ tạo hoặc cập nhật tệp luồng mới. Nếu bạn định cấu hình cùng một vị trí Amazon S3 như ở Bước 2, thì công việc xử lý dữ liệu sẽ cập nhật tệp luồng được tạo ở Bước 2, tệp này có thể được sử dụng để giữ cho luồng của bạn liên quan đến dữ liệu của bạn. Khi hoàn thành công việc xử lý, các tệp đầu ra được tải lên bộ chứa S3 được định cấu hình của nút đích. Bạn có thể sử dụng quy trình đã cập nhật trên toàn bộ tập dữ liệu của mình cho quy trình sản xuất.

Điều kiện tiên quyết

Trước khi bắt đầu, hãy tải tập dữ liệu lên bộ chứa S3, sau đó nhập tập dữ liệu đó vào Data Wrangler. Để biết hướng dẫn, hãy tham khảo Nhập dữ liệu từ Amazon S3.

Bây giờ chúng ta hãy đi qua các bước được đề cập trong sơ đồ kiến ​​trúc.

Thực hiện EDA trong Data Wrangler

Để thử tính năng tham số được đào tạo lại, hãy thiết lập phân tích và chuyển đổi sau trong Data Wrangler. Khi kết thúc thiết lập EDA, Data Wrangler tạo một tệp luồng được ghi lại với các tham số được đào tạo từ tập dữ liệu.

  1. Tạo một quy trình mới trong Amazon SageMaker Data Wrangler để phân tích dữ liệu khám phá.
  2. Nhập dữ liệu kinh doanh mà bạn đã tải lên Amazon S3.
  3. Bạn có thể xem trước dữ liệu và các tùy chọn để chọn loại tệp, dấu phân cách, lấy mẫu, v.v. Đối với ví dụ này, chúng tôi sử dụng K đầu tiên tùy chọn lấy mẫu do Data Wrangler cung cấp để nhập 50,000 bản ghi đầu tiên từ tập dữ liệu.
  4. Chọn Nhập khẩu.

Điều chỉnh lại các tham số đã đào tạo trên các tập dữ liệu lớn bằng cách sử dụng Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

  1. Sau khi bạn kiểm tra đối sánh kiểu dữ liệu được Data Wrangler áp dụng, hãy thêm một phân tích mới.

Điều chỉnh lại các tham số đã đào tạo trên các tập dữ liệu lớn bằng cách sử dụng Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

  1. Trong Loại phân tích, chọn Báo cáo chất lượng dữ liệu và thông tin chi tiết.
  2. Chọn Tạo.

Với Báo cáo chất lượng dữ liệu và thông tin chi tiết, bạn nhận được bản tóm tắt ngắn gọn về tập dữ liệu với thông tin chung như giá trị bị thiếu, giá trị không hợp lệ, loại tính năng, số lượng ngoại lệ và hơn thế nữa. Bạn có thể chọn các tính năng property_typecity để áp dụng các phép biến đổi trên tập dữ liệu để hiểu tính năng tham số được đào tạo lại.

Hãy tập trung vào tính năng property_type từ tập dữ liệu. Trong báo cáo của Chi tiết tính năng , bạn có thể thấy property_type, là một tính năng phân loại và sáu giá trị duy nhất được lấy từ 50,000 tập dữ liệu được lấy mẫu bởi Data Wrangler. Bộ dữ liệu hoàn chỉnh có thể có nhiều danh mục hơn cho đối tượng địa lý property_type. Đối với một tính năng có nhiều giá trị duy nhất, bạn có thể thích mã hóa thứ tự hơn. Nếu đối tượng địa lý có một vài giá trị duy nhất, thì có thể sử dụng phương pháp mã hóa một lần. Đối với ví dụ này, chúng tôi chọn mã hóa một lần trên property_type.

Điều chỉnh lại các tham số đã đào tạo trên các tập dữ liệu lớn bằng cách sử dụng Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Tương tự, đối với city tính năng, là loại dữ liệu văn bản có số lượng lớn các giá trị duy nhất, hãy áp dụng mã hóa thứ tự cho tính năng này.

Điều chỉnh lại các tham số đã đào tạo trên các tập dữ liệu lớn bằng cách sử dụng Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

  1. Điều hướng đến luồng Trình sắp xếp dữ liệu, chọn dấu cộng rồi chọn Thêm biến đổi.

Điều chỉnh lại các tham số đã đào tạo trên các tập dữ liệu lớn bằng cách sử dụng Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

  1. Chọn Mã hóa phân loại tùy chọn để chuyển đổi các tính năng phân loại.

Điều chỉnh lại các tham số đã đào tạo trên các tập dữ liệu lớn bằng cách sử dụng Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Từ Báo cáo thông tin chi tiết và chất lượng dữ liệu, tính năng property_type hiển thị sáu danh mục độc đáo: CONDO, LOT, MANUFACTURED, SINGLE_FAMILY, MULTI_FAMILYTOWNHOUSE.

  1. Trong Chuyển đổi, chọn Mã hóa một nóng.

Điều chỉnh lại các tham số đã đào tạo trên các tập dữ liệu lớn bằng cách sử dụng Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Sau khi áp dụng tính năng mã hóa một lần nóng property_type, bạn có thể xem trước tất cả sáu danh mục dưới dạng các tính năng riêng biệt được thêm dưới dạng các cột mới. Lưu ý rằng 50,000 bản ghi đã được lấy mẫu từ tập dữ liệu của bạn để tạo bản xem trước này. Trong khi chạy tác vụ xử lý Trình sắp xếp dữ liệu với dòng này, các biến đổi này được áp dụng cho toàn bộ tập dữ liệu của bạn.

Điều chỉnh lại các tham số đã đào tạo trên các tập dữ liệu lớn bằng cách sử dụng Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

  1. Thêm một biến đổi mới và chọn Mã hóa Categorical để áp dụng một biến đổi trên tính năng city, có số lượng lớn hơn các giá trị văn bản phân loại duy nhất.
  2. Để mã hóa tính năng này thành biểu diễn số, hãy chọn Mã hóa thông thường cho Chuyển đổi.

Điều chỉnh lại các tham số đã đào tạo trên các tập dữ liệu lớn bằng cách sử dụng Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Điều chỉnh lại các tham số đã đào tạo trên các tập dữ liệu lớn bằng cách sử dụng Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

  1. Chọn Xem trước trên biến đổi này.

Bạn có thể thấy rằng tính năng phân loại city được ánh xạ tới các giá trị thứ tự trong cột đầu ra e_city.

  1. Thêm bước này bằng cách chọn Cập nhật.

Điều chỉnh lại các tham số đã đào tạo trên các tập dữ liệu lớn bằng cách sử dụng Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

  1. Bạn có thể đặt đích thành Amazon S3 để lưu trữ các phép biến đổi đã áp dụng trên tập dữ liệu nhằm tạo đầu ra dưới dạng tệp CSV.

Điều chỉnh lại các tham số đã đào tạo trên các tập dữ liệu lớn bằng cách sử dụng Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Data Wrangler lưu trữ quy trình công việc mà bạn đã xác định trong giao diện người dùng dưới dạng tệp luồng và tải lên vị trí Amazon S3 của công việc xử lý dữ liệu đã định cấu hình. Tệp dòng này được sử dụng khi bạn tạo các công việc xử lý Trình sắp xếp dữ liệu để áp dụng các biến đổi trên các tập dữ liệu lớn hơn hoặc để chuyển đổi dữ liệu gia cố mới nhằm đào tạo lại mô hình.

Khởi chạy một công việc xử lý dữ liệu Data Wrangler mà không cần kích hoạt chỉnh sửa lại

Giờ đây, bạn có thể thấy cách tùy chọn chỉnh sửa lại sử dụng các tham số được đào tạo trên bộ dữ liệu mới. Đối với phần trình diễn này, chúng tôi xác định hai công việc xử lý Data Wrangler hoạt động trên cùng một dữ liệu. Công việc xử lý đầu tiên sẽ không cho phép tái trang bị; đối với công việc xử lý thứ hai, chúng tôi sử dụng trang bị lại. Chúng tôi so sánh các hiệu ứng ở cuối.

  1. Chọn Tạo việc làm để bắt đầu một công việc xử lý dữ liệu với Data Wrangler.

Điều chỉnh lại các tham số đã đào tạo trên các tập dữ liệu lớn bằng cách sử dụng Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

  1. Trong Tên công việc, nhập tên.
  2. Theo Thông số được đào tạo, không chọn Tái trang bị.
  3. Chọn Định cấu hình công việc.

Điều chỉnh lại các tham số đã đào tạo trên các tập dữ liệu lớn bằng cách sử dụng Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

  1. Định cấu hình các thông số công việc như loại phiên bản, kích thước khối lượng và vị trí Amazon S3 để lưu trữ tệp luồng đầu ra.
  2. Data Wrangler tạo một tệp dòng trong vị trí tệp dòng S3. Luồng sử dụng các phép biến đổi để huấn luyện các tham số và sau đó chúng tôi sử dụng tùy chọn điều chỉnh lại để huấn luyện lại các tham số này.
  3. Chọn Tạo.

Điều chỉnh lại các tham số đã đào tạo trên các tập dữ liệu lớn bằng cách sử dụng Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Đợi công việc xử lý dữ liệu hoàn tất để xem dữ liệu đã chuyển đổi trong bộ chứa S3 được định cấu hình ở nút đích.

Khởi chạy một công việc xử lý dữ liệu Data Wrangler khi đã bật chỉnh sửa lại

Hãy tạo một công việc xử lý khác được bật với tính năng tham số được đào tạo lại được bật. Tùy chọn này thực thi các tham số được đào tạo đã học lại trên toàn bộ tập dữ liệu. Khi công việc xử lý dữ liệu này hoàn tất, một tệp luồng sẽ được tạo hoặc cập nhật vào vị trí Amazon S3 đã định cấu hình.

  1. Chọn Tạo việc làm.

Điều chỉnh lại các tham số đã đào tạo trên các tập dữ liệu lớn bằng cách sử dụng Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

  1. Trong Tên công việc, nhập tên.
  2. Trong Thông số được đào tạo, lựa chọn Tái trang bị.
  3. Nếu bạn chọn Xem tất cả, bạn có thể xem lại tất cả các tham số được đào tạo.

Điều chỉnh lại các tham số đã đào tạo trên các tập dữ liệu lớn bằng cách sử dụng Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

  1. Chọn Định cấu hình công việc.
  2. Nhập vị trí tệp luồng Amazon S3.
  3. Chọn Tạo.

Điều chỉnh lại các tham số đã đào tạo trên các tập dữ liệu lớn bằng cách sử dụng Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Đợi công việc xử lý dữ liệu hoàn tất.

Tham khảo bộ chứa S3 đã định cấu hình trong nút đích để xem dữ liệu do tác vụ xử lý dữ liệu chạy các biến đổi đã xác định tạo ra.

Xuất sang mã Python để chạy các công việc xử lý Data Wrangler

Là một giải pháp thay thế cho việc bắt đầu các công việc xử lý bằng cách sử dụng tùy chọn Tạo công việc trong Trình sắp xếp dữ liệu, bạn có thể kích hoạt các công việc xử lý dữ liệu bằng cách xuất luồng Trình sắp xếp dữ liệu sang sổ ghi chép Jupyter. Data Wrangler tạo sổ ghi chép Jupyter với đầu vào, đầu ra, cấu hình công việc xử lý và mã để kiểm tra trạng thái công việc. Bạn có thể thay đổi hoặc cập nhật các tham số theo yêu cầu chuyển đổi dữ liệu của mình.

  1. Chọn dấu cộng bên cạnh cuối cùng Chuyển đổi nút.
  2. Chọn Xuất khẩu đến và Amazon S3 (Qua Máy tính xách tay Jupyter).

Điều chỉnh lại các tham số đã đào tạo trên các tập dữ liệu lớn bằng cách sử dụng Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Bạn có thể thấy sổ ghi chép Jupyter được mở với đầu vào, đầu ra, cấu hình công việc xử lý và mã để kiểm tra trạng thái công việc.

  1. Để thực thi tùy chọn tái trang bị các tham số được đào tạo thông qua mã, hãy đặt refit tham số để True.

Điều chỉnh lại các tham số đã đào tạo trên các tập dữ liệu lớn bằng cách sử dụng Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.So sánh kết quả công việc xử lý dữ liệu

Sau khi các công việc xử lý Trình sắp xếp dữ liệu hoàn tất, bạn phải tạo hai luồng Trình sắp xếp dữ liệu mới với đầu ra được tạo bởi các công việc xử lý dữ liệu được lưu trữ trong đích Amazon S3 đã định cấu hình.

Bạn có thể tham khảo vị trí đã định cấu hình trong thư mục đích của Amazon S3 để xem lại đầu ra của các tác vụ xử lý dữ liệu.

Điều chỉnh lại các tham số đã đào tạo trên các tập dữ liệu lớn bằng cách sử dụng Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Để kiểm tra kết quả công việc xử lý, hãy tạo hai luồng Trình sắp xếp dữ liệu mới bằng cách sử dụng Báo cáo thông tin chi tiết và Chất lượng dữ liệu để so sánh kết quả chuyển đổi.

  1. Tạo một quy trình mới trong Amazon SageMaker Data Wrangler.
  2. Nhập tác vụ xử lý dữ liệu mà không cần chỉnh sửa lại tệp đầu ra đã bật từ Amazon S3.
  3. Thêm một phân tích mới.
  4. Trong Loại phân tích, chọn Báo cáo chất lượng dữ liệu và thông tin chi tiết.
  5. Chọn Tạo.

Điều chỉnh lại các tham số đã đào tạo trên các tập dữ liệu lớn bằng cách sử dụng Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.
Điều chỉnh lại các tham số đã đào tạo trên các tập dữ liệu lớn bằng cách sử dụng Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Lặp lại các bước trên và tạo luồng sắp xếp dữ liệu mới để phân tích đầu ra của công việc xử lý dữ liệu khi đã bật điều chỉnh lại.

Bây giờ, hãy xem kết quả đầu ra của các công việc xử lý cho tính năng này property_type bằng cách sử dụng Báo cáo thông tin chi tiết và chất lượng dữ liệu. Cuộn đến chi tiết tính năng trên danh sách Báo cáo dữ liệu và thông tin chi tiết feature_type.

Công việc xử lý tham số được đào tạo trang bị lại đã trang bị lại các tham số được đào tạo trên toàn bộ tập dữ liệu và mã hóa giá trị mới APARTMENT với bảy giá trị riêng biệt trên tập dữ liệu đầy đủ.

Điều chỉnh lại các tham số đã đào tạo trên các tập dữ liệu lớn bằng cách sử dụng Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Công việc xử lý bình thường đã áp dụng các tham số được đào tạo tập dữ liệu mẫu, chỉ có sáu giá trị riêng biệt cho property_type tính năng. Đối với dữ liệu với feature_type APARTMENT, Các chiến lược xử lý không hợp lệ Bỏ qua được áp dụng và công việc xử lý dữ liệu không tìm hiểu danh mục mới này. Mã hóa một lần nóng đã bỏ qua danh mục mới này có trên dữ liệu mới và mã hóa bỏ qua danh mục APARTMENT.

Điều chỉnh lại các tham số đã đào tạo trên các tập dữ liệu lớn bằng cách sử dụng Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Bây giờ chúng ta hãy tập trung vào một tính năng khác, city. Công việc xử lý tham số được đào tạo trang bị lại đã học lại tất cả các giá trị có sẵn cho city tính năng, xem xét dữ liệu mới.

Như được hiển thị trong Tóm tắt tính năng phần của báo cáo, cột tính năng được mã hóa mới e_city có 100% tham số hợp lệ bằng cách sử dụng tính năng tham số được đào tạo lại.

Điều chỉnh lại các tham số đã đào tạo trên các tập dữ liệu lớn bằng cách sử dụng Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Ngược lại, công việc xử lý bình thường có 82.4% giá trị bị thiếu trong cột tính năng được mã hóa mới e_city. Hiện tượng này là do chỉ tập hợp mẫu gồm các tham số được đào tạo đã học mới được áp dụng trên tập dữ liệu đầy đủ và không áp dụng sửa chữa lại cho công việc xử lý dữ liệu.

Điều chỉnh lại các tham số đã đào tạo trên các tập dữ liệu lớn bằng cách sử dụng Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Các biểu đồ sau mô tả tính năng được mã hóa theo thứ tự e_city. Biểu đồ đầu tiên là của tính năng được chuyển đổi với tùy chọn trang bị lại.

Điều chỉnh lại các tham số đã đào tạo trên các tập dữ liệu lớn bằng cách sử dụng Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Biểu đồ tiếp theo là của tính năng được chuyển đổi mà không có tùy chọn trang bị lại. Cột màu cam hiển thị các giá trị bị thiếu (NaN) trong Báo cáo thông tin chi tiết và chất lượng dữ liệu. Các giá trị mới không được học từ tập dữ liệu mẫu được thay thế thành Không phải là Số (NaN) như được định cấu hình trong giao diện người dùng của Trình sắp xếp dữ liệu chiến lược xử lý không hợp lệ.

Điều chỉnh lại các tham số đã đào tạo trên các tập dữ liệu lớn bằng cách sử dụng Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Công việc xử lý dữ liệu với thông số được huấn luyện chỉnh sửa lại đã học lại property_typecity các tính năng xem xét các giá trị mới từ toàn bộ tập dữ liệu. Nếu không có tham số được đào tạo điều chỉnh lại, công việc xử lý dữ liệu chỉ sử dụng các tham số được đào tạo đã học trước của tập dữ liệu được lấy mẫu. Sau đó, nó áp dụng chúng cho dữ liệu mới, nhưng các giá trị mới không được xem xét để mã hóa. Điều này sẽ có ý nghĩa về độ chính xác của mô hình.

Làm sạch

Khi bạn không sử dụng Data Wrangler, điều quan trọng là phải tắt phiên bản mà nó chạy để tránh phát sinh thêm phí.

Để tránh mất công việc, hãy lưu luồng dữ liệu của bạn trước khi tắt Data Wrangler.

  1. Để lưu luồng dữ liệu của bạn vào Xưởng sản xuất Amazon SageMaker, chọn Tập tin, sau đó chọn Lưu dữ liệu Wrangler Flow. Data Wrangler tự động lưu luồng dữ liệu của bạn cứ sau 60 giây.
  2. Để tắt phiên bản Data Wrangler, trong Studio, hãy chọn Phiên bản và hạt nhân đang chạy.
  3. Theo ĐANG CHẠY CÁC ỨNG DỤNG, chọn biểu tượng tắt bên cạnh ứng dụng sagemaker-data-wrangler-1.0.

Điều chỉnh lại các tham số đã đào tạo trên các tập dữ liệu lớn bằng cách sử dụng Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

  1. Chọn Tắt tất cả xác nhận.

Điều chỉnh lại các tham số đã đào tạo trên các tập dữ liệu lớn bằng cách sử dụng Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Data Wrangler chạy trên một phiên bản ml.m5.4xlarge. Phiên bản này biến mất khỏi CẢI TIẾN CHẠY khi bạn tắt ứng dụng Data Wrangler.

Sau khi bạn tắt ứng dụng Data Wrangler, nó phải khởi động lại vào lần tiếp theo bạn mở tệp luồng Data Wrangler. Quá trình này có thể mất vài phút.

Kết luận

Trong bài đăng này, chúng tôi đã cung cấp tổng quan về tính năng tham số được đào tạo lại trong Data Wrangler. Với tính năng mới này, bạn có thể lưu trữ các tham số được đào tạo trong luồng Trình sắp xếp dữ liệu và các công việc xử lý dữ liệu sẽ sử dụng các tham số được đào tạo để áp dụng các phép biến đổi đã học trên các tập dữ liệu lớn hoặc tập dữ liệu gia cố. Bạn có thể áp dụng tùy chọn này để vector hóa các tính năng văn bản, dữ liệu số và xử lý các giá trị ngoại lệ.

Việc duy trì các tham số được đào tạo trong suốt quá trình xử lý dữ liệu của vòng đời ML giúp đơn giản hóa và giảm bớt các bước xử lý dữ liệu, hỗ trợ kỹ thuật tính năng mạnh mẽ cũng như hỗ trợ đào tạo mô hình và đào tạo củng cố trên dữ liệu mới.

Chúng tôi khuyến khích bạn dùng thử tính năng mới này cho các yêu cầu xử lý dữ liệu của mình.


Giới thiệu về tác giả

Điều chỉnh lại các tham số đã đào tạo trên các tập dữ liệu lớn bằng cách sử dụng Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái. Hariharan Suresh là Kiến trúc sư giải pháp cấp cao tại AWS. Anh ấy đam mê cơ sở dữ liệu, học máy và thiết kế các giải pháp sáng tạo. Trước khi gia nhập AWS, Hariharan là kiến ​​trúc sư sản phẩm, chuyên gia triển khai ngân hàng lõi và nhà phát triển, đồng thời làm việc với các tổ chức BFSI trong hơn 11 năm. Ngoài công nghệ, anh ấy thích dù lượn và đạp xe.

Điều chỉnh lại các tham số đã đào tạo trên các tập dữ liệu lớn bằng cách sử dụng Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.Santosh Kulkarni là Kiến trúc sư Giải pháp Doanh nghiệp tại Amazon Web Services, người làm việc với các khách hàng thể thao ở Úc. Anh ấy đam mê xây dựng các ứng dụng phân tán quy mô lớn để giải quyết các vấn đề kinh doanh bằng cách sử dụng kiến ​​thức của mình về AI / ML, dữ liệu lớn và phát triển phần mềm.

Điều chỉnh lại các tham số đã đào tạo trên các tập dữ liệu lớn bằng cách sử dụng Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.Vishaal Kapoor là Nhà khoa học ứng dụng cấp cao với AWS AI. Anh ấy rất đam mê giúp khách hàng hiểu dữ liệu của họ trong Data Wrangler. Khi rảnh rỗi, anh ấy đạp xe leo núi, trượt ván và dành thời gian cho gia đình.

Điều chỉnh lại các tham số đã đào tạo trên các tập dữ liệu lớn bằng cách sử dụng Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.Aniketh Manjunath là Kỹ sư phát triển phần mềm tại Amazon SageMaker. Anh ấy giúp hỗ trợ Amazon SageMaker Data Wrangler và đam mê các hệ thống máy học phân tán. Ngoài công việc, anh ấy thích đi bộ đường dài, xem phim và chơi cricket.

Dấu thời gian:

Thêm từ Học máy AWS