Xây dựng quy trình học máy quản lý rủi ro trên Amazon SageMaker không cần mã PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Xây dựng quy trình công việc học máy quản lý rủi ro trên Amazon SageMaker mà không cần mã

Kể từ cuộc khủng hoảng tài chính toàn cầu, quản lý rủi ro đã đóng một vai trò quan trọng trong việc định hình việc ra quyết định cho các ngân hàng, bao gồm cả việc dự đoán tình trạng cho vay đối với khách hàng tiềm năng. Đây thường là một bài tập sử dụng nhiều dữ liệu yêu cầu máy học (ML). Tuy nhiên, không phải tất cả các tổ chức đều có đủ nguồn lực và chuyên môn về khoa học dữ liệu để xây dựng quy trình làm việc ML quản lý rủi ro.

Amazon SageMaker là một nền tảng ML được quản lý hoàn toàn cho phép các kỹ sư dữ liệu và nhà phân tích kinh doanh xây dựng, đào tạo và triển khai các mô hình ML một cách nhanh chóng và dễ dàng. Các kỹ sư dữ liệu và nhà phân tích kinh doanh có thể cộng tác bằng cách sử dụng khả năng không mã / mã thấp của SageMaker. Kỹ sư dữ liệu có thể sử dụng Trình sắp xếp dữ liệu Amazon SageMaker để nhanh chóng tổng hợp và chuẩn bị dữ liệu cho việc xây dựng mô hình mà không cần viết mã. Sau đó, các nhà phân tích kinh doanh có thể sử dụng giao diện trỏ và nhấp trực quan của Canvas SageMaker của Amazon để tự tạo ra các dự đoán ML chính xác.

Trong bài đăng này, chúng tôi cho thấy các kỹ sư dữ liệu và nhà phân tích kinh doanh cộng tác để xây dựng quy trình ML liên quan đến việc chuẩn bị dữ liệu, xây dựng mô hình và suy luận mà không cần viết mã.

Tổng quan về giải pháp

Mặc dù phát triển ML là một quá trình phức tạp và lặp đi lặp lại, nhưng bạn có thể tổng quát một quy trình làm việc ML vào các giai đoạn chuẩn bị dữ liệu, phát triển mô hình và triển khai mô hình.

Xây dựng quy trình học máy quản lý rủi ro trên Amazon SageMaker không cần mã PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Data Wrangler và Canvas tóm tắt sự phức tạp của việc chuẩn bị dữ liệu và phát triển mô hình, vì vậy bạn có thể tập trung vào việc cung cấp giá trị cho doanh nghiệp của mình bằng cách rút ra thông tin chi tiết từ dữ liệu của bạn mà không cần phải là chuyên gia phát triển mã. Sơ đồ kiến ​​trúc sau đây nêu bật các thành phần trong giải pháp không mã / mã thấp.

Xây dựng quy trình học máy quản lý rủi ro trên Amazon SageMaker không cần mã PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3) đóng vai trò là kho lưu trữ dữ liệu của chúng tôi cho dữ liệu thô, dữ liệu được thiết kế và tạo tác mô hình. Bạn cũng có thể chọn nhập dữ liệu từ Amazon RedShift, amazon Athena, Databricks và Snowflake.

Với tư cách là nhà khoa học dữ liệu, chúng tôi sử dụng Data Wrangler để phân tích dữ liệu khám phá và kỹ thuật tính năng. Mặc dù Canvas có thể chạy các tác vụ kỹ thuật tính năng, nhưng kỹ thuật tính năng thường yêu cầu một số kiến ​​thức về thống kê và miền để làm phong phú tập dữ liệu thành dạng phù hợp để phát triển mô hình. Do đó, chúng tôi giao trách nhiệm này cho các kỹ sư dữ liệu để họ có thể chuyển đổi dữ liệu mà không cần viết mã bằng Data Wrangler.

Sau khi chuẩn bị dữ liệu, chúng tôi chuyển trách nhiệm xây dựng mô hình cho các nhà phân tích dữ liệu, những người có thể sử dụng Canvas để đào tạo mô hình mà không cần phải viết bất kỳ mã nào.

Cuối cùng, chúng tôi thực hiện các dự đoán đơn lẻ và hàng loạt trực tiếp trong Canvas từ mô hình kết quả mà không cần phải tự triển khai các điểm cuối của mô hình.

Tổng quan về tập dữ liệu

Chúng tôi sử dụng các tính năng của SageMaker để dự đoán trạng thái của khoản vay bằng cách sử dụng phiên bản sửa đổi của Lending Club's bộ dữ liệu phân tích khoản vay công khai. Tập dữ liệu chứa dữ liệu về khoản vay cho các khoản vay được phát hành từ năm 2007–2011. Các cột mô tả khoản vay và người vay là đặc điểm của chúng tôi. Cột loan_status là biến mục tiêu, là những gì chúng tôi đang cố gắng dự đoán.

Để chứng minh trong Data Wrangler, chúng tôi chia tập dữ liệu thành hai tệp CSV: phần mộtphần hai. Chúng tôi đã xóa một số cột khỏi tập dữ liệu ban đầu của Lending Club để đơn giản hóa bản trình diễn. Tập dữ liệu của chúng tôi chứa hơn 37,000 hàng và 21 cột tính năng, như được mô tả trong bảng sau.

Tên cột dọc Mô tả
loan_status Tình trạng hiện tại của khoản vay (biến mục tiêu).
loan_amount Số tiền được liệt kê của khoản vay mà người đi vay áp dụng. Nếu bộ phận tín dụng giảm số tiền cho vay, nó được phản ánh trong giá trị này.
funded_amount_by_investors Tổng số tiền nhà đầu tư cam kết cho khoản vay đó tại thời điểm đó.
term Số lần thanh toán khoản vay. Giá trị tính theo tháng và có thể là 36 hoặc 60.
interest_rate Lãi suất của khoản vay.
installment Khoản thanh toán hàng tháng mà người vay nợ nếu khoản vay có nguồn gốc.
grade LC chỉ định mức cho vay.
sub_grade LC được chỉ định nâng cấp khoản vay.
employment_length Thời gian tuyển dụng tính theo năm. Các giá trị có thể nằm trong khoảng từ 0–10, trong đó 0 có nghĩa là dưới một năm và 10 có nghĩa là mười năm trở lên.
home_ownership Tình trạng sở hữu nhà do người vay cung cấp khi đăng ký. Các giá trị của chúng tôi là THUÊ, SỞ HỮU, THẾ CHẤP và KHÁC.
annual_income Thu nhập tự báo cáo hàng năm do người vay cung cấp trong quá trình đăng ký.
verification_status Cho biết thu nhập đã được LC xác minh hay chưa.
issued_amount Tháng mà khoản vay được tài trợ.
purpose Một danh mục do người vay cung cấp cho yêu cầu vay.
dti Một tỷ lệ được tính toán bằng cách sử dụng tổng các khoản thanh toán nợ hàng tháng của người vay trên tổng số nghĩa vụ nợ, không bao gồm thế chấp và khoản vay LC được yêu cầu, chia cho thu nhập hàng tháng tự báo cáo của người đi vay.
earliest_credit_line Tháng mà hạn mức tín dụng được báo cáo sớm nhất của người đi vay đã được mở.
inquiries_last_6_months Số lượng yêu cầu trong 6 tháng qua (không bao gồm các câu hỏi về ô tô và thế chấp).
open_credit_lines Số hạn mức tín dụng mở trong hồ sơ tín dụng của người đi vay.
derogatory_public_records Số lượng hồ sơ công khai bị xúc phạm.
revolving_line_utilization_rate Tỷ lệ sử dụng dòng quay vòng, hoặc số tiền tín dụng mà người đi vay đang sử dụng so với tất cả các khoản tín dụng quay vòng hiện có.
total_credit_lines Tổng số hạn mức tín dụng hiện có trong hồ sơ tín dụng của người vay.

Chúng tôi sử dụng tập dữ liệu này để chuẩn bị dữ liệu và đào tạo mô hình của chúng tôi.

Điều kiện tiên quyết

Hoàn thành các bước điều kiện tiên quyết sau:

  1. Tải lên cả hai tệp cho vay vào một nhóm S3 mà bạn chọn.
  2. Đảm bảo rằng bạn có các quyền cần thiết. Để biết thêm thông tin, hãy tham khảo Bắt đầu với Data Wrangler.
  3. Thiết lập miền SageMaker được định cấu hình để sử dụng Data Wrangler. Để được hướng dẫn, hãy tham khảo Tích hợp vào Miền Amazon SageMaker.

Nhập dữ liệu

Tạo luồng dữ liệu Data Wrangler mới từ Giao diện người dùng Amazon SageMaker Studio.

Xây dựng quy trình học máy quản lý rủi ro trên Amazon SageMaker không cần mã PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Nhập dữ liệu từ Amazon S3 bằng cách chọn các tệp CSV từ nhóm S3 nơi bạn đã đặt tập dữ liệu của mình. Sau khi nhập cả hai tệp, bạn có thể thấy hai luồng công việc riêng biệt trong Dòng dữ liệu lượt xem.

Bạn có thể chọn một số tùy chọn lấy mẫu khi nhập dữ liệu của mình trong luồng Data Wrangler. Việc lấy mẫu có thể hữu ích khi bạn có tập dữ liệu quá lớn để chuẩn bị tương tác hoặc khi bạn muốn duy trì tỷ lệ các sự kiện hiếm gặp trong tập dữ liệu được lấy mẫu của mình. Vì tập dữ liệu của chúng tôi nhỏ nên chúng tôi không sử dụng lấy mẫu.

Chuẩn bị dữ liệu

Đối với trường hợp sử dụng của chúng tôi, chúng tôi có hai tập dữ liệu với một cột chung: id. Bước đầu tiên trong quá trình chuẩn bị dữ liệu, chúng tôi muốn kết hợp các tệp này bằng cách nối chúng. Để được hướng dẫn, hãy tham khảo Chuyển đổi dữ liệu.

Xây dựng quy trình học máy quản lý rủi ro trên Amazon SageMaker không cần mã PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Chúng tôi sử dụng Tham gia bước chuyển đổi dữ liệu và sử dụng Bên trong tham gia loại trên id cột.

Xây dựng quy trình học máy quản lý rủi ro trên Amazon SageMaker không cần mã PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Kết quả của việc chuyển đổi phép nối của chúng tôi, Data Wrangler tạo ra hai cột bổ sung: id_0id_1. Tuy nhiên, những cột này là không cần thiết cho mục đích xây dựng mô hình của chúng tôi. Chúng tôi loại bỏ các cột thừa này bằng cách sử dụng Quản lý các cột bước biến đổi.

Xây dựng quy trình học máy quản lý rủi ro trên Amazon SageMaker không cần mã PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.
Xây dựng quy trình học máy quản lý rủi ro trên Amazon SageMaker không cần mã PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Chúng tôi đã nhập các tập dữ liệu của mình, nối chúng và loại bỏ các cột không cần thiết. Giờ đây, chúng tôi đã sẵn sàng làm giàu dữ liệu của mình thông qua kỹ thuật tính năng và chuẩn bị cho việc xây dựng mô hình.

Thực hiện kỹ thuật tính năng

Chúng tôi đã sử dụng Data Wrangler để chuẩn bị dữ liệu. Bạn cũng có thể sử dụng Tính năng Báo cáo thông tin chi tiết và chất lượng dữ liệu trong Data Wrangler để xác minh chất lượng dữ liệu của bạn và phát hiện các bất thường trong dữ liệu của bạn. Các nhà khoa học dữ liệu thường cần sử dụng những thông tin chi tiết về dữ liệu này để áp dụng hiệu quả kiến ​​thức miền phù hợp vào các tính năng kỹ thuật. Đối với bài đăng này, chúng tôi giả định rằng chúng tôi đã hoàn thành các đánh giá chất lượng này và có thể chuyển sang kỹ thuật tính năng.

Trong bước này, chúng tôi áp dụng một số phép biến đổi cho các cột số, phân loại và văn bản.

Trước tiên, chúng tôi chuẩn hóa lãi suất để chia tỷ lệ các giá trị trong khoảng từ 0–1. Chúng tôi làm điều này bằng cách sử dụng Xử lý số chuyển đổi để mở rộng quy mô interest_rate cột sử dụng tỷ lệ tối thiểu-tối đa. Mục đích của việc chuẩn hóa (hoặc chuẩn hóa) là để loại bỏ sự sai lệch khỏi mô hình của chúng tôi. Các biến được đo lường ở các tỷ lệ khác nhau sẽ không đóng góp như nhau vào quá trình học mô hình. Do đó, một hàm chuyển đổi như một biến đổi tỷ lệ tối thiểu giúp chuẩn hóa các đối tượng địa lý.

Xây dựng quy trình học máy quản lý rủi ro trên Amazon SageMaker không cần mã PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Để chuyển đổi một biến phân loại thành một giá trị số, chúng tôi sử dụng mã hóa một nóng. Chúng tôi chọn Mã hóa phân loại biến đổi, sau đó chọn Mã hóa một nóng. Mã hóa một nóng cải thiện khả năng dự đoán của mô hình ML. Quá trình này chuyển đổi một giá trị phân loại thành một đối tượng địa lý mới bằng cách gán giá trị nhị phân 1 hoặc 0 cho đối tượng địa lý. Ví dụ đơn giản, nếu bạn có một cột có giá trị là yes or no, mã hóa một nóng sẽ chuyển đổi cột đó thành hai cột: a Yes cột và một No cột. Giá trị có sẽ có 1 trong Yes và một số 0 trong No cột. Mã hóa một lần làm cho dữ liệu của chúng tôi hữu ích hơn vì các giá trị số có thể dễ dàng xác định xác suất cho các dự đoán của chúng tôi hơn.

Cuối cùng, chúng tôi đánh lông employer_title để biến đổi các giá trị chuỗi của nó thành một vectơ số. Chúng tôi áp dụng Đếm Vectorizer và một tokenizer tiêu chuẩn trong vectơ hóa biến đổi. Token hóa chia nhỏ một câu hoặc chuỗi văn bản thành các từ, trong khi công cụ vector hóa chuyển đổi dữ liệu văn bản thành dạng máy có thể đọc được. Những từ này được biểu diễn dưới dạng vectơ.

Xây dựng quy trình học máy quản lý rủi ro trên Amazon SageMaker không cần mã PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Với tất cả các bước kỹ thuật tính năng đã hoàn thành, chúng tôi có thể xuất dữ liệu và xuất kết quả vào nhóm S3 của chúng tôi. Ngoài ra, bạn có thể xuất luồng của mình dưới dạng mã Python hoặc sổ ghi chép Jupyter để tạo đường dẫn với chế độ xem của bạn bằng cách sử dụng Đường ống Amazon SageMaker. Hãy xem xét điều này khi bạn muốn chạy các bước kỹ thuật tính năng của mình trên quy mô lớn hoặc như một phần của đường ống ML.

Xây dựng quy trình học máy quản lý rủi ro trên Amazon SageMaker không cần mã PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Bây giờ chúng ta có thể sử dụng tệp đầu ra Data Wrangler làm đầu vào cho Canvas. Chúng tôi tham chiếu đây là tập dữ liệu trong Canvas để xây dựng mô hình ML của chúng tôi.

Xây dựng quy trình học máy quản lý rủi ro trên Amazon SageMaker không cần mã PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Trong trường hợp của chúng tôi, chúng tôi đã xuất tập dữ liệu đã chuẩn bị của mình sang nhóm Studio mặc định với output tiếp đầu ngữ. Chúng tôi tham chiếu vị trí tập dữ liệu này khi tải dữ liệu vào Canvas để xây dựng mô hình tiếp theo.

Xây dựng và đào tạo mô hình ML của bạn với Canvas

Trên bảng điều khiển SageMaker, khởi chạy ứng dụng Canvas. Để xây dựng mô hình ML từ dữ liệu đã chuẩn bị ở phần trước, chúng ta thực hiện các bước sau:

  1. Nhập tập dữ liệu đã chuẩn bị vào Canvas từ nhóm S3.

Xây dựng quy trình học máy quản lý rủi ro trên Amazon SageMaker không cần mã PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Chúng tôi tham chiếu cùng một đường dẫn S3 mà chúng tôi đã xuất kết quả Data Wrangler từ phần trước.

  1. Tạo mô hình mới trong Canvas và đặt tên cho nó loan_prediction_model.
  2. Chọn tập dữ liệu đã nhập và thêm nó vào đối tượng mô hình.

Xây dựng quy trình học máy quản lý rủi ro trên Amazon SageMaker không cần mã PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Để Canvas xây dựng một mô hình, chúng ta phải chọn cột mục tiêu.

  1. Bởi vì mục tiêu của chúng tôi là dự đoán xác suất khả năng hoàn trả khoản vay của người cho vay, chúng tôi chọn loan_status cột.

Canvas tự động xác định loại câu lệnh vấn đề ML. Tại thời điểm viết bài, Canvas hỗ trợ các vấn đề hồi quy, phân loại và dự báo chuỗi thời gian. Bạn có thể chỉ định loại sự cố hoặc để Canvas tự động suy ra sự cố từ dữ liệu của bạn.

Xây dựng quy trình học máy quản lý rủi ro trên Amazon SageMaker không cần mã PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

  1. Chọn tùy chọn của bạn để bắt đầu quá trình xây dựng mô hình: Xây dựng nhanh chóng or Xây dựng tiêu chuẩn.

Sản phẩm Xây dựng nhanh chóng tùy chọn sử dụng tập dữ liệu của bạn để đào tạo một mô hình trong vòng 2–15 phút. Điều này hữu ích khi bạn đang thử nghiệm với tập dữ liệu mới để xác định xem tập dữ liệu bạn có có đủ để đưa ra dự đoán hay không. Chúng tôi sử dụng tùy chọn này cho bài đăng này.

Sản phẩm Xây dựng tiêu chuẩn tùy chọn chọn độ chính xác theo tốc độ và sử dụng khoảng 250 ứng viên mô hình để đào tạo mô hình. Quá trình này thường mất 1–2 giờ.

Sau khi mô hình được xây dựng, bạn có thể xem lại kết quả của mô hình. Canvas ước tính rằng mô hình của bạn có thể dự đoán đúng kết quả 82.9% thời gian. Kết quả của riêng bạn có thể thay đổi do sự thay đổi trong các mô hình đào tạo.

Xây dựng quy trình học máy quản lý rủi ro trên Amazon SageMaker không cần mã PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Ngoài ra, bạn có thể đi sâu vào phân tích chi tiết của mô hình để hiểu thêm về mô hình.

Mức độ quan trọng của tính năng thể hiện tầm quan trọng ước tính của từng tính năng trong việc dự đoán cột mục tiêu. Trong trường hợp này, cột hạn mức tín dụng có tác động đáng kể nhất trong việc dự đoán liệu khách hàng có trả lại số tiền vay hay không, tiếp theo là lãi suất và thu nhập hàng năm.

Xây dựng quy trình học máy quản lý rủi ro trên Amazon SageMaker không cần mã PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Ma trận nhầm lẫn trong Các chỉ số nâng cao phần chứa thông tin cho người dùng muốn hiểu sâu hơn về hiệu suất mô hình của họ.

Xây dựng quy trình học máy quản lý rủi ro trên Amazon SageMaker không cần mã PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Trước khi bạn có thể triển khai mô hình của mình cho khối lượng công việc sản xuất, hãy sử dụng Canvas để kiểm tra mô hình. Canvas quản lý điểm cuối mô hình của chúng tôi và cho phép chúng tôi đưa ra dự đoán trực tiếp trong giao diện người dùng Canvas.

  1. Chọn Dự đoán và xem xét các phát hiện trên Dự đoán hàng loạt or Dự đoán duy nhất tab.

Trong ví dụ sau, chúng tôi đưa ra một dự đoán duy nhất bằng cách sửa đổi các giá trị để dự đoán biến mục tiêu của chúng tôi loan_status trong thời gian thực

Xây dựng quy trình học máy quản lý rủi ro trên Amazon SageMaker không cần mã PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Chúng tôi cũng có thể chọn một tập dữ liệu lớn hơn và để Canvas thay mặt chúng tôi tạo ra các dự đoán hàng loạt.

Xây dựng quy trình học máy quản lý rủi ro trên Amazon SageMaker không cần mã PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Kết luận

Học máy từ đầu đến cuối rất phức tạp và lặp đi lặp lại, và thường liên quan đến nhiều cá tính, công nghệ và quy trình. Data Wrangler và Canvas cho phép cộng tác giữa các nhóm mà không yêu cầu các nhóm này viết bất kỳ mã nào.

Một kỹ sư dữ liệu có thể dễ dàng chuẩn bị dữ liệu bằng Data Wrangler mà không cần viết bất kỳ mã nào và chuyển tập dữ liệu đã chuẩn bị cho một nhà phân tích kinh doanh. Sau đó, một nhà phân tích kinh doanh có thể dễ dàng xây dựng các mô hình ML chính xác chỉ với một vài cú nhấp chuột bằng Canvas và nhận được các dự đoán chính xác trong thời gian thực hoặc hàng loạt.

Bắt đầu với Data Wrangler sử dụng các công cụ này mà không cần phải quản lý bất kỳ cơ sở hạ tầng nào. Bạn có thể thiết lập Canvas nhanh chóng và ngay lập tức bắt đầu tạo mô hình ML để hỗ trợ nhu cầu kinh doanh của bạn.


Về các tác giả

Xây dựng quy trình học máy quản lý rủi ro trên Amazon SageMaker không cần mã PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.Peter Chung là Kiến trúc sư giải pháp cho AWS và rất đam mê giúp khách hàng khám phá thông tin chi tiết từ dữ liệu của họ. Ông đã và đang xây dựng các giải pháp để giúp các tổ chức đưa ra quyết định dựa trên dữ liệu ở cả khu vực công và tư nhân. Anh ấy có tất cả các chứng chỉ AWS cũng như hai chứng chỉ GCP.

Xây dựng quy trình học máy quản lý rủi ro trên Amazon SageMaker không cần mã PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái. Meenakshisundaram Thandavarayan là chuyên gia cao cấp về AI / ML của AWS. Anh ấy giúp các tài khoản chiến lược công nghệ cao trên hành trình AI và ML của họ. Anh ấy rất đam mê về AI theo hướng dữ liệu.

Xây dựng quy trình học máy quản lý rủi ro trên Amazon SageMaker không cần mã PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.Dan Ferguson là Kiến trúc sư Giải pháp tại AWS, có trụ sở tại New York, Hoa Kỳ. Là một chuyên gia về dịch vụ máy học, Dan làm việc để hỗ trợ khách hàng trong hành trình tích hợp quy trình làm việc ML một cách hiệu quả, hiệu quả và bền vững.

Dấu thời gian:

Thêm từ Học máy AWS