Trình sắp xếp dữ liệu Amazon SageMaker giảm thời gian tổng hợp và chuẩn bị dữ liệu cho máy học (ML) từ hàng tuần xuống còn vài phút. Với Data Wrangler, bạn có thể chọn và truy vấn dữ liệu chỉ bằng vài cú nhấp chuột, nhanh chóng chuyển đổi dữ liệu với hơn 300 chuyển đổi dữ liệu tích hợp và hiểu dữ liệu của bạn bằng hình ảnh trực quan tích hợp mà không cần viết bất kỳ mã nào.
Ngoài ra, bạn có thể tạo biến đổi tùy chỉnh duy nhất cho yêu cầu của bạn. Biến đổi tùy chỉnh cho phép bạn viết các biến đổi tùy chỉnh bằng PySpark, Pandas hoặc SQL.
Data Wrangler hiện hỗ trợ tùy chỉnh Chức năng do người dùng xác định của Pandas (UDF) có thể xử lý các tập dữ liệu lớn một cách hiệu quả. Bạn có thể chọn từ hai chế độ Pandas UDF tùy chỉnh: Pandas và Python. Cả hai chế độ đều cung cấp giải pháp hiệu quả để xử lý bộ dữ liệu và chế độ bạn chọn tùy thuộc vào sở thích của bạn.
Trong bài đăng này, chúng tôi trình bày cách sử dụng biến đổi Pandas UDF mới ở một trong hai chế độ.
Tổng quan về giải pháp
Tại thời điểm viết bài này, bạn có thể nhập bộ dữ liệu vào Data Wrangler từ Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3), amazon Athena, Amazon RedShift, Databricks và Bông tuyết. Đối với bài đăng này, chúng tôi sử dụng Amazon S3 để lưu trữ 2014 Bộ dữ liệu đánh giá Amazon.
Dữ liệu có một cột gọi là reviewText
chứa văn bản do người dùng tạo. Văn bản cũng chứa một số ngưng từ, là những từ phổ biến không cung cấp nhiều thông tin, chẳng hạn như “a”, “an” và “the”. Loại bỏ các từ dừng là một bước tiền xử lý phổ biến trong quy trình xử lý ngôn ngữ tự nhiên (NLP). Chúng tôi có thể tạo một chức năng tùy chỉnh để xóa các từ dừng khỏi đánh giá.
Tạo một biến đổi Pandas UDF tùy chỉnh
Hãy xem qua quy trình tạo hai biến đổi Pandas UDF tùy chỉnh của Data Wrangler bằng chế độ Pandas và Python.
- Tải về Bộ dữ liệu đánh giá Digital Music và tải nó lên Amazon S3.
- Mở Xưởng sản xuất Amazon SageMaker và tạo một luồng Trình sắp xếp dữ liệu mới.
- Theo Nhập dữ liệu, chọn Amazon S3 và điều hướng đến vị trí tập dữ liệu.
- Trong Loại tập tin, chọn jsonl.
Một bản xem trước của dữ liệu sẽ được hiển thị trong bảng.
- Chọn Nhập khẩu tiến hành với.
- Sau khi dữ liệu của bạn được nhập, hãy chọn dấu cộng bên cạnh Loại dữ liệu Và chọn Thêm biến đổi.
- Chọn Biến đổi tùy chỉnh.
- Trên trình đơn thả xuống, Python (Hàm do người dùng xác định).
Bây giờ chúng tôi tạo biến đổi tùy chỉnh của mình để xóa các từ dừng.
- Chỉ định cột đầu vào, cột đầu ra, kiểu trả về và chế độ của bạn.
Ví dụ sau sử dụng chế độ Pandas. Điều này có nghĩa là hàm sẽ chấp nhận và trả về một chuỗi Pandas có cùng độ dài. Bạn có thể coi chuỗi Pandas là một cột trong bảng hoặc một đoạn của cột. Đây là chế độ Pandas UDF hiệu quả nhất vì Pandas có thể vectơ hóa các hoạt động trên các lô giá trị trái ngược với từng giá trị một. Các pd.Series
gợi ý loại được yêu cầu trong chế độ Pandas.
Nếu bạn thích sử dụng Python thuần túy hơn là API Pandas, chế độ Python cho phép bạn chỉ định một hàm Python thuần túy chấp nhận một đối số và trả về một giá trị duy nhất. Ví dụ sau tương đương với mã Pandas trước đó về đầu ra. Gợi ý nhập không bắt buộc trong chế độ Python.
- Chọn Thêm để thêm biến đổi tùy chỉnh của bạn.
Kết luận
Data Wrangler có hơn 300 biến đổi tích hợp sẵn và bạn cũng có thể thêm các biến đổi tùy chỉnh theo yêu cầu của mình. Trong bài đăng này, chúng tôi đã trình bày cách xử lý tập dữ liệu với biến đổi Pandas UDF tùy chỉnh mới của Data Wrangler, sử dụng cả chế độ Pandas và Python. Bạn có thể sử dụng một trong hai chế độ dựa trên sở thích của mình. Để tìm hiểu thêm về Data Wrangler, hãy tham khảo Tạo và sử dụng Luồng trình xử lý dữ liệu.
Về các tác giả
Ben Harris là một kỹ sư phần mềm có kinh nghiệm thiết kế, triển khai và duy trì các đường dẫn dữ liệu có thể mở rộng cũng như các giải pháp máy học trên nhiều lĩnh vực khác nhau. Ben đã xây dựng các hệ thống để thu thập và ghi nhãn dữ liệu, phân loại hình ảnh và văn bản, mô hình hóa theo trình tự, nhúng và phân cụm, cùng nhiều hệ thống khác.
Haider Naqvi là Kiến trúc sư giải pháp tại AWS. Ông có nhiều kinh nghiệm về Phát triển phần mềm và Kiến trúc doanh nghiệp. Anh ấy tập trung vào việc hỗ trợ khách hàng đạt được kết quả kinh doanh với AWS. Anh ấy sống ở New York.
Vishal Srivastava là Người quản lý tài khoản kỹ thuật tại AWS. Với kiến thức nền tảng về Phát triển phần mềm và Phân tích, anh ấy chủ yếu làm việc với lĩnh vực dịch vụ tài chính và các khách hàng doanh nghiệp bản địa kỹ thuật số, đồng thời hỗ trợ hành trình đám mây của họ. Trong thời gian rảnh rỗi, anh ấy thích đi du lịch cùng gia đình.
- Coinsmart. Sàn giao dịch Bitcoin và tiền điện tử tốt nhất Châu Âu.
- Platoblockchain. Web3 Metaverse Intelligence. Khuếch đại kiến thức. TRUY CẬP MIỄN PHÍ.
- CryptoHawk. Radar Altcoin. Dùng thử miễn phí.
- Nguồn: https://aws.amazon.com/blogs/machine-learning/pandas-user-define-functions-are-now-available-in-amazon-sagemaker-data-wrangler/
- "
- 10
- 100
- 9
- Giới thiệu
- Tài khoản
- ngang qua
- đàn bà gan dạ
- trong số
- phân tích
- api
- kiến trúc
- có sẵn
- AWS
- lý lịch
- được xây dựng trong
- kinh doanh
- Chọn
- phân loại
- đám mây
- mã
- bộ sưu tập
- Cột
- Chung
- chứa
- tạo
- Tạo
- khách hàng
- khách hàng
- dữ liệu
- chứng minh
- chứng minh
- phụ thuộc
- triển khai
- thiết kế
- Phát triển
- kỹ thuật số
- lĩnh vực
- hiệu quả
- hiệu quả
- cho phép
- ky sư
- Doanh nghiệp
- ví dụ
- kinh nghiệm
- mở rộng
- gia đình
- tài chính
- dịch vụ tài chính
- dòng chảy
- tập trung
- tiếp theo
- Miễn phí
- chức năng
- Độ đáng tin của
- Hướng dẫn
- HTTPS
- hình ảnh
- thông tin
- đầu vào
- IT
- Tham gia
- ghi nhãn
- Ngôn ngữ
- lớn
- LEARN
- học tập
- địa điểm thư viện nào
- máy
- học máy
- giám đốc
- Trận đấu
- ML
- chi tiết
- hầu hết
- Âm nhạc
- Tự nhiên
- Newyork
- Hoạt động
- Chuẩn bị
- Xem trước
- quá trình
- xử lý
- cho
- Nhanh chóng
- Mau
- cần phải
- Yêu cầu
- trở lại
- Trả về
- Đánh giá
- khả năng mở rộng
- ngành
- Loạt Sách
- DỊCH VỤ
- Đơn giản
- Phần mềm
- phát triển phần mềm
- Kỹ sư phần mềm
- giải pháp
- Giải pháp
- không gian
- là gắn
- hàng
- Hỗ trợ
- hệ thống
- Kỹ thuật
- Thông qua
- thời gian
- mã thông báo
- Tokens
- Chuyển đổi
- đi du lịch
- hiểu
- độc đáo
- sử dụng
- giá trị
- nhiều
- không có
- từ
- công trinh
- viết