Tăng tốc độ phát triển ML bằng cách sử dụng kho tính năng SageMaker và nén cửa hàng ngoại tuyến Apache Iceberg

Được xuất bản lại bởi Plato

Người theo dõi: 0

Ngày nay, các công ty đang thiết lập các cửa hàng tính năng để cung cấp kho lưu trữ trung tâm nhằm mở rộng quy mô phát triển ML giữa các đơn vị kinh doanh và nhóm khoa học dữ liệu. Khi dữ liệu tính năng tăng về kích thước và độ phức tạp, các nhà khoa học dữ liệu cần có khả năng truy vấn hiệu quả các kho lưu trữ tính năng này để trích xuất các bộ dữ liệu để thử nghiệm, đào tạo mô hình và chấm điểm hàng loạt.

Cửa hàng tính năng Amazon SageMaker là một giải pháp quản lý tính năng được xây dựng có mục đích giúp các nhà khoa học dữ liệu và kỹ sư ML lưu trữ, khám phá và chia sẻ dữ liệu được tuyển chọn một cách an toàn được sử dụng trong quy trình đào tạo và dự đoán. Cửa hàng tính năng SageMaker hiện hỗ trợ tảng băng Apache như một định dạng bảng để lưu trữ các tính năng. Điều này giúp tăng tốc quá trình phát triển mô hình bằng cách cho phép thực hiện truy vấn nhanh hơn khi trích xuất bộ dữ liệu đào tạo ML, tận dụng tính năng nén bảng Iceberg. Tùy thuộc vào thiết kế của các nhóm tính năng và quy mô của chúng, bạn có thể trải nghiệm các cải tiến hiệu suất truy vấn đào tạo từ 10 đến 100 lần bằng cách sử dụng khả năng mới này.

Đến cuối bài viết này, bạn sẽ biết cách tạo các nhóm đối tượng bằng định dạng Iceberg, thực hiện các quy trình quản lý bảng của Iceberg bằng cách sử dụng định dạng Iceberg. amazon Athenavà lên lịch để các tác vụ này chạy tự động. Nếu bạn là người dùng Spark, bạn cũng sẽ học cách thực hiện các quy trình tương tự bằng Spark và kết hợp chúng vào môi trường Spark và tự động hóa của riêng bạn.

Cửa hàng tính năng SageMaker và Apache Iceberg

Cửa hàng tính năng Amazon SageMaker là một kho lưu trữ tập trung các tính năng và siêu dữ liệu liên quan, cho phép các nhóm nhà khoa học dữ liệu làm việc trên các dự án hoặc mô hình ML khác nhau dễ dàng phát hiện và sử dụng lại các tính năng.

Cửa hàng tính năng SageMaker bao gồm chế độ trực tuyến và ngoại tuyến để quản lý các tính năng. Cửa hàng trực tuyến được sử dụng cho các trường hợp sử dụng suy luận thời gian thực có độ trễ thấp. Cửa hàng ngoại tuyến chủ yếu được sử dụng để dự đoán hàng loạt và đào tạo mô hình. Cửa hàng ngoại tuyến là cửa hàng chỉ nối thêm và có thể được sử dụng để lưu trữ và truy cập dữ liệu tính năng lịch sử. Với cửa hàng ngoại tuyến, người dùng có thể lưu trữ và cung cấp các tính năng để khám phá và chấm điểm hàng loạt, đồng thời trích xuất bộ dữ liệu chính xác tại thời điểm để đào tạo mô hình.

Dữ liệu cửa hàng ngoại tuyến được lưu trữ trong bộ chứa Amazon Simple Storage Service (Amazon S3) trong tài khoản AWS của bạn. Kho tính năng SageMaker tự động xây dựng Danh mục dữ liệu AWS Glue trong quá trình tạo nhóm tính năng. Khách hàng cũng có thể truy cập dữ liệu cửa hàng ngoại tuyến bằng thời gian chạy Spark và thực hiện xử lý dữ liệu lớn để phân tích tính năng ML và các trường hợp sử dụng kỹ thuật tính năng.

Các định dạng bảng cung cấp một cách để trừu tượng hóa các tệp dữ liệu dưới dạng bảng. Trong những năm qua, nhiều định dạng bảng đã xuất hiện để hỗ trợ các trường hợp sử dụng danh mục, quản trị và giao dịch ACID. tảng băng Apache là một định dạng bảng mở cho các bộ dữ liệu phân tích rất lớn. Nó quản lý các tập hợp tệp lớn dưới dạng bảng và nó hỗ trợ các hoạt động hồ dữ liệu phân tích hiện đại như chèn, cập nhật, xóa và truy vấn du hành thời gian ở cấp độ bản ghi. Iceberg theo dõi các tệp dữ liệu riêng lẻ trong một bảng thay vì trong các thư mục. Điều này cho phép người viết tạo tệp dữ liệu tại chỗ (tệp không bị di chuyển hoặc thay đổi) và chỉ thêm tệp vào bảng trong một cam kết rõ ràng. Trạng thái bảng được duy trì trong các tệp siêu dữ liệu. Tất cả các thay đổi đối với trạng thái bảng tạo ra một phiên bản tệp siêu dữ liệu mới thay thế nguyên tử siêu dữ liệu cũ hơn. Tệp siêu dữ liệu bảng theo dõi lược đồ bảng, cấu hình phân vùng và các thuộc tính khác.

Iceberg có tích hợp với các dịch vụ AWS. Ví dụ, bạn có thể sử dụng Keo AWS Danh mục dữ liệu làm cơ sở lưu trữ cho các bảng Iceberg và Athena hỗ trợ các truy vấn đọc, du hành thời gian, ghi và DDL cho các bảng Apache Iceberg sử dụng định dạng Apache Parquet cho dữ liệu và danh mục AWS Glue cho kho dữ liệu di động của chúng.

Với Cửa hàng tính năng SageMaker, giờ đây bạn có thể tạo các nhóm tính năng với định dạng bảng Iceberg thay thế cho định dạng Keo tiêu chuẩn mặc định. Cùng với đó, khách hàng có thể tận dụng định dạng bảng mới để sử dụng các tính năng nén tệp và cắt xén dữ liệu của Iceberg nhằm đáp ứng các yêu cầu tối ưu hóa và trường hợp sử dụng của họ. Iceberg cũng cho phép khách hàng thực hiện xóa, truy vấn du hành thời gian, giao dịch đồng thời cao và truy vấn hiệu suất cao hơn.

Bằng cách kết hợp Iceberg dưới dạng định dạng bảng và các hoạt động bảo trì bảng như nén, khách hàng sẽ có được hiệu suất truy vấn nhanh hơn khi làm việc với các nhóm tính năng ngoại tuyến trên quy mô lớn, cho phép họ xây dựng bộ dữ liệu đào tạo ML nhanh hơn.

Sơ đồ sau đây cho thấy cấu trúc của cửa hàng ngoại tuyến sử dụng Iceberg làm định dạng bảng.

Trong các phần tiếp theo, bạn sẽ tìm hiểu cách tạo các nhóm tính năng bằng định dạng Iceberg, thực thi các quy trình quản lý bảng của Iceberg bằng AWS Athena và sử dụng các dịch vụ AWS để lên lịch cho các tác vụ này chạy theo yêu cầu hoặc theo lịch. Nếu bạn là người dùng Spark, bạn cũng sẽ học cách thực hiện các quy trình tương tự bằng Spark.

Đối với hướng dẫn từng bước, chúng tôi cũng cung cấp một mẫu máy tính xách tay, có thể tìm thấy trong GitHub. Trong bài đăng này, chúng tôi sẽ làm nổi bật những phần quan trọng nhất.

Tạo các nhóm tính năng bằng định dạng bảng Iceberg

Trước tiên, bạn cần chọn Iceberg làm định dạng bảng khi tạo các nhóm tính năng mới. Một tham số tùy chọn mới TableFormat có thể được thiết lập một cách tương tác bằng cách sử dụng Amazon SageMaker Studio hoặc thông qua mã bằng API hoặc SDK. Tham số này chấp nhận các giá trị ICEBERG or GLUE (đối với định dạng AWS Glue hiện tại). Đoạn mã sau đây chỉ cho bạn cách tạo một nhóm đối tượng sử dụng định dạng Iceberg và FeatureGroup.create API của SageMaker SDK.

orders_feature_group_iceberg.create(
s3_uri=f"s3://{s3_bucket_name}/{prefix}",
record_identifier_name=record_identifier_feature_name,
event_time_feature_name=event_time_feature_name,
role_arn=role,
enable_online_store=True,
table_format=TableFormatEnum.ICEBERG
)

Bảng sẽ được tạo và đăng ký tự động trong AWS Glue Data Catalog.

Bây giờ là orders_feature_group_iceberg được tạo, bạn có thể nhập các tính năng bằng cách sử dụng kênh nhập mà bạn chọn. Trong ví dụ này, chúng tôi nhập các bản ghi bằng cách sử dụng FeatureGroup.ingest() API, nhập các bản ghi từ Khung dữ liệu Pandas. Bạn cũng có thể sử dụng FeatureGroup().put_record API để nhập các bản ghi riêng lẻ hoặc để xử lý các nguồn phát trực tuyến. Người dùng Spark cũng có thể nhập dữ liệu Spark bằng cách sử dụng Đầu nối tia lửa.

orders_fg = FeatureGroup(name=orders_feature_group_iceberg_name,
sagemaker_session=feature_store_session)
orders_fg.ingest(data_frame=order_data, wait=True)

Bạn có thể xác minh rằng các bản ghi đã được nhập thành công bằng cách chạy truy vấn đối với kho tính năng ngoại tuyến. Bạn cũng có thể điều hướng đến vị trí S3 và xem cấu trúc thư mục mới.

Thực hiện các thủ tục quản lý bảng Iceberg

amazon Athena là một công cụ truy vấn SQL không có máy chủ hỗ trợ thủ tục quản lý Iceberg. Trong phần này, bạn sẽ sử dụng Athena để thu gọn nhóm tính năng ngoại tuyến mà bạn đã tạo theo cách thủ công. Lưu ý rằng bạn sẽ cần sử dụng công cụ Athena phiên bản 3. Đối với điều này, bạn có thể tạo một nhóm làm việc mới hoặc định cấu hình một nhóm làm việc hiện có và chọn công cụ Athena được đề xuất phiên bản 3. Để biết thêm thông tin và hướng dẫn thay đổi phiên bản công cụ Athena của bạn, hãy tham khảo Thay đổi phiên bản công cụ Athena.

Khi dữ liệu tích lũy vào một bảng Iceberg, các truy vấn có thể dần trở nên kém hiệu quả hơn do thời gian xử lý cần thiết để mở các tệp bổ sung tăng lên. Nén tối ưu hóa bố cục cấu trúc của bảng mà không làm thay đổi nội dung bảng.

Để thực hiện nén, bạn sử dụng OPTIMIZE table REWRITE DATA lệnh bảo trì bàn nén trong Athena. Cú pháp sau đây cho biết cách tối ưu hóa bố cục dữ liệu của một nhóm đối tượng được lưu trữ bằng định dạng bảng Iceberg. Các sagemaker_featurestore đại diện cho tên của cơ sở dữ liệu Cửa hàng tính năng SageMaker và orders-feature-group-iceberg-post-comp-03-14-05-17-1670076334 là tên bảng nhóm tính năng của chúng tôi.

OPTIMIZE sagemaker_featurestore.orders-feature-group-iceberg-post-comp-03-14-05-17-1670076334 REWRITE DATA USING BIN_PACK

Sau khi chạy lệnh tối ưu hóa, bạn sử dụng VACUUM thủ tục, thực hiện hết hạn ảnh chụp nhanh và loại bỏ các tệp mồ côi. Những hành động này làm giảm kích thước siêu dữ liệu và xóa các tệp không ở trạng thái bảng hiện tại và cũng cũ hơn khoảng thời gian lưu giữ được chỉ định cho bảng.

VACUUM sagemaker_featurestore.orders-feature-group-iceberg-post-comp-03-14-05-17-1670076334

Lưu ý rằng các thuộc tính bảng có thể định cấu hình bằng Athena's ALTER TABLE. Để biết ví dụ về cách thực hiện việc này, hãy xem phần tài liệu Athena. Đối với CHÂN KHÔNG, vacuum_min_snapshots_to_keep và vacuum_max_snapshot_age_seconds có thể được sử dụng để định cấu hình các tham số cắt ảnh chụp nhanh.

Chúng ta hãy xem tác động hiệu suất của việc chạy tính năng nén trên bảng nhóm tính năng mẫu. Đối với mục đích thử nghiệm, chúng tôi đã nhập các bản ghi tính năng đơn đặt hàng giống nhau vào hai nhóm tính năng, orders-feature-group-iceberg-pre-comp-02-11-03-06-1669979003 và orders-feature-group-iceberg-post-comp-03-14-05-17-1670076334, sử dụng tác vụ xử lý SageMaker song song với Scikit-Learn, dẫn đến 49,908,135 đối tượng được lưu trữ trong Amazon S3 và tổng kích thước là 106.5 GiB.

Chúng tôi chạy truy vấn để chọn ảnh chụp nhanh mới nhất không trùng lặp và không xóa bản ghi trên nhóm tính năng orders-feature-group-iceberg-pre-comp-02-11-03-06-1669979003. Trước khi nén, truy vấn mất 1 giờ 27 phút.

Sau đó chúng tôi chạy đầm trên orders-feature-group-iceberg-post-comp-03-14-05-17-1670076334 sử dụng truy vấn Athena OPTIMIZE, truy vấn này đã nén bảng nhóm tính năng thành 109,851 đối tượng trong Amazon S3 và tổng kích thước là 2.5 GiB. Nếu sau đó chúng tôi chạy cùng một truy vấn sau khi nén, thời gian chạy của nó giảm xuống còn 1 phút 13 giây.

Với tính năng nén tệp Iceberg, thời gian thực hiện truy vấn được cải thiện đáng kể. Đối với cùng một truy vấn, thời gian chạy giảm từ 1 giờ 27 phút xuống 1 phút 13 giây, nhanh hơn 71 lần.

Lập lịch nén Iceberg với các dịch vụ AWS

Trong phần này, bạn sẽ tìm hiểu cách tự động hóa quy trình quản lý bảng để thu gọn kho tính năng ngoại tuyến của mình. Sơ đồ sau đây minh họa kiến trúc để tạo các nhóm tính năng ở định dạng bảng Iceberg và giải pháp quản lý bảng hoàn toàn tự động, bao gồm các hoạt động dọn dẹp và nén tệp.

Ở cấp độ cao, bạn tạo một nhóm đối tượng bằng cách sử dụng định dạng bảng Iceberg và nhập các bản ghi vào cửa hàng đối tượng trực tuyến. Các giá trị tính năng được tự động sao chép từ cửa hàng trực tuyến sang cửa hàng ngoại tuyến trước đây. Athena được sử dụng để chạy các thủ tục quản lý Iceberg. Để lên lịch các thủ tục, bạn thiết lập một Keo AWS công việc bằng cách sử dụng tập lệnh shell Python và tạo lịch công việc AWS Glue.

Thiết lập công việc keo AWS

Bạn sử dụng công việc AWS Glue để thực hiện các hoạt động bảo trì bảng Iceberg theo lịch trình. Trước tiên, bạn cần tạo vai trò IAM cho AWS Glue để có quyền truy cập Amazon Athena, Amazon S3 và CloudWatch.

Tiếp theo, bạn cần tạo một tập lệnh Python để chạy các thủ tục Iceberg. Bạn có thể tìm thấy kịch bản mẫu trong GitHub. Tập lệnh sẽ thực thi truy vấn TỐI ƯU bằng boto3.

optimize_sql = f"optimize {database}.{table} rewrite data using bin_pack"

Tập lệnh đã được tham số hóa bằng AWS Glue getResolvedOptions(args, options) chức năng tiện ích cho phép bạn truy cập vào các đối số được chuyển đến tập lệnh của bạn khi bạn chạy một công việc. Trong ví dụ này, Khu vực AWS, cơ sở dữ liệu Iceberg và bảng cho nhóm tính năng của bạn, nhóm làm việc Athena và thư mục kết quả vị trí đầu ra của Athena có thể được chuyển dưới dạng tham số cho tác vụ, giúp tập lệnh này có thể tái sử dụng trong môi trường của bạn.

Cuối cùng, bạn tạo tác vụ AWS Glue thực tế để chạy tập lệnh dưới dạng shell trong AWS Glue.

Điều hướng đến bảng điều khiển AWS Glue.
Chọn việc làm bên dưới AWS Glue Studio.
Chọn Trình chỉnh sửa tập lệnh Python Shell.
Chọn Tải lên và chỉnh sửa tập lệnh hiện có. Nhấp chuột Tạo.
Sản phẩm Chi tiết công việc nút cho phép bạn định cấu hình công việc AWS Glue. Bạn cần chọn vai trò IAM mà bạn đã tạo trước đó. Lựa chọn Python 3.9 hoặc phiên bản Python mới nhất hiện có.
Trong cùng một tab, bạn cũng có thể xác định một số tùy chọn cấu hình khác, chẳng hạn như Số lần thử lại or thời gian chờ công việc. Trong Thuộc tính nâng cao, bạn có thể thêm tham số công việc để thực thi tập lệnh, như minh họa trong ảnh chụp màn hình ví dụ bên dưới.
Nhấp chuột Lưu.

Trong tạp chí Lịch tab, bạn có thể xác định lịch chạy quy trình bảo trì cửa hàng tính năng. Ví dụ: ảnh chụp màn hình sau đây cho bạn biết cách thực hiện công việc theo lịch trình 6 giờ một lần.

Bạn có thể theo dõi các lần chạy công việc để hiểu các chỉ số thời gian chạy như trạng thái hoàn thành, thời lượng và thời gian bắt đầu. Bạn cũng có thể kiểm tra Nhật ký CloudWatch cho công việc AWS Glue để kiểm tra xem quy trình có chạy thành công hay không.

Thực hiện các tác vụ quản lý bảng Iceberg với Spark

Khách hàng cũng có thể sử dụng Spark để quản lý công việc đầm nén và phương pháp bảo trì. Để biết thêm chi tiết về quy trình Spark, hãy xem Tài liệu Spark.

Trước tiên, bạn cần định cấu hình một số thuộc tính chung.

%%configure -f
{
  "conf": {
    "spark.sql.catalog.smfs": "org.apache.iceberg.spark.SparkCatalog",
    "spark.sql.catalog.smfs.catalog-impl": "org.apache.iceberg.aws.glue.GlueCatalog",
    "spark.sql.catalog.smfs.warehouse": "",
    "spark.sql.extensions":"org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions",
    "spark.sql.catalog.smfs.glue.skip-name-validation": "true"
  }
}

Đoạn mã sau có thể được sử dụng để tối ưu hóa các nhóm tính năng thông qua Spark.

spark.sql(f"""CALL smfs.system.rewrite_data_files(table => '{DATABASE}.`{ICEBERG_TABLE}`')""")

Sau đó, bạn có thể thực hiện hai quy trình bảo trì bảng tiếp theo để xóa các ảnh chụp nhanh cũ hơn và các tệp mồ côi không còn cần thiết.

spark.sql(f"""CALL smfs.system.expire_snapshots(table => '{DATABASE}.`{ICEBERG_TABLE}`', older_than => TIMESTAMP '{one_day_ago}', retain_last => 1)""")
spark.sql(f"""CALL smfs.system.remove_orphan_files(table => '{DATABASE}.`{ICEBERG_TABLE}`')""")

Sau đó, bạn có thể kết hợp các lệnh Spark ở trên vào môi trường Spark của mình. Ví dụ: bạn có thể tạo một công việc thực hiện tối ưu hóa ở trên theo lịch trình mong muốn hoặc trong một quy trình sau khi nhập.

Để khám phá ví dụ về mã hoàn chỉnh và dùng thử trong tài khoản của riêng bạn, hãy xem phần Repo GitHub.

Kết luận

Cửa hàng tính năng SageMaker cung cấp giải pháp quản lý tính năng được xây dựng có mục đích để giúp các tổ chức mở rộng quy mô phát triển ML giữa các nhóm khoa học dữ liệu. Trong bài đăng này, chúng tôi đã giải thích cách bạn có thể tận dụng Apache Iceberg dưới dạng định dạng bảng và các hoạt động bảo trì bảng chẳng hạn như nén để hưởng lợi từ các truy vấn nhanh hơn đáng kể khi làm việc với các nhóm tính năng ngoại tuyến ở quy mô lớn và kết quả là xây dựng bộ dữ liệu đào tạo nhanh hơn. Hãy dùng thử và cho chúng tôi biết suy nghĩ của bạn trong phần nhận xét.

Giới thiệu về tác giả

Arnaud Lauer là Kiến trúc sư giải pháp đối tác cấp cao trong nhóm Khu vực công tại AWS. Anh ấy giúp các đối tác và khách hàng hiểu được cách sử dụng tốt nhất các công nghệ AWS để biến nhu cầu kinh doanh thành giải pháp. Ông có hơn 17 năm kinh nghiệm trong việc cung cấp và kiến trúc các dự án chuyển đổi kỹ thuật số trong nhiều ngành công nghiệp, bao gồm khu vực công, năng lượng và hàng tiêu dùng. Arnaud có 12 chứng chỉ AWS, bao gồm cả Chứng nhận Chuyên môn ML.

Ioan Catana là Kiến trúc sư giải pháp chuyên gia về máy học và trí tuệ nhân tạo tại AWS. Anh ấy giúp khách hàng phát triển và mở rộng các giải pháp ML của họ trên Đám mây AWS. Ioan có hơn 20 năm kinh nghiệm chủ yếu về thiết kế kiến trúc phần mềm và kỹ thuật đám mây.

Đánh dấu Roy là Kiến trúc sư chính về Máy học cho AWS, giúp khách hàng thiết kế và xây dựng các giải pháp AI / ML. Công việc của Mark bao gồm một loạt các trường hợp sử dụng ML, với mối quan tâm chính là tầm nhìn máy tính, học sâu và mở rộng ML trong toàn doanh nghiệp. Ông đã giúp đỡ các công ty trong nhiều ngành, bao gồm bảo hiểm, dịch vụ tài chính, truyền thông và giải trí, chăm sóc sức khỏe, tiện ích và sản xuất. Mark có sáu chứng chỉ AWS, bao gồm cả Chứng nhận Chuyên môn ML. Trước khi gia nhập AWS, Mark là kiến trúc sư, nhà phát triển và nhà lãnh đạo công nghệ trong hơn 25 năm, trong đó có 19 năm trong lĩnh vực dịch vụ tài chính.

Brandon Chatham là một kỹ sư phần mềm của nhóm SageMaker Feature Store. Anh ấy có niềm đam mê sâu sắc với việc xây dựng các hệ thống tao nhã mang dữ liệu lớn và máy học đến tầm tay của mọi người.

Dấu thời gian: 21 Tháng mười hai, 202222 Tháng mười hai, 2022

Dấu thời gian: Tháng Mười Một 28, 2023

Tăng tốc độ phát triển ML bằng cách sử dụng Cửa hàng tính năng SageMaker và nén cửa hàng ngoại tuyến Apache Iceberg

Được xuất bản lại bởi Plato

Cửa hàng tính năng SageMaker và Apache Iceberg

Tạo các nhóm tính năng bằng định dạng bảng Iceberg

Thực hiện các thủ tục quản lý bảng Iceberg

Lập lịch nén Iceberg với các dịch vụ AWS

Thiết lập công việc keo AWS

Thực hiện các tác vụ quản lý bảng Iceberg với Spark

Kết luận

Giới thiệu về tác giả

Thêm từ Học máy AWS

Cách OCX Cognition giảm thời gian phát triển mô hình ML từ vài tuần xuống vài ngày và thời gian cập nhật mô hình từ vài ngày xuống thời gian thực bằng cách sử dụng AWS Step Functions và Amazon SageMaker | Dịch vụ web của Amazon

Cải thiện khả năng trích xuất dữ liệu và xử lý tài liệu với Amazon Textract

Bản địa hóa AWS sử dụng Amazon Dịch để mở rộng quy mô bản địa hóa

Tích hợp các nền tảng SaaS với Amazon SageMaker để kích hoạt các ứng dụng dựa trên ML | Dịch vụ web của Amazon

Suy luận ML tiết kiệm chi phí với các mô hình đa khung trên Amazon SageMaker

Về chúng tôi

Tìm kiếm dọc & Ai

Nền tảng

NHẬN THÔNG TIN

Tài khoản