Xây dựng, chia sẻ, triển khai: Cách các nhà phân tích kinh doanh và nhà khoa học dữ liệu đạt được thời gian tiếp thị nhanh hơn bằng cách sử dụng ML không mã và Amazon SageMaker Canvas

Được xuất bản lại bởi Plato

Người theo dõi: 0

Học máy (ML) giúp các tổ chức tăng doanh thu, thúc đẩy tăng trưởng kinh doanh và giảm chi phí bằng cách tối ưu hóa các chức năng kinh doanh cốt lõi trên nhiều ngành dọc, chẳng hạn như dự báo nhu cầu, chấm điểm tín dụng, định giá, dự đoán tình hình chuyển nhà của khách hàng, xác định ưu đãi tốt nhất tiếp theo, dự đoán lô hàng trễ và nâng cao chất lượng sản xuất. Các chu kỳ phát triển ML truyền thống mất nhiều tháng và đòi hỏi kỹ năng khoa học dữ liệu và kỹ thuật ML khan hiếm. Ý tưởng của các nhà phân tích cho mô hình ML thường nằm trong đống hồ sơ tồn đọng dài chờ băng thông của nhóm khoa học dữ liệu, trong khi các nhà khoa học dữ liệu tập trung vào các dự án ML phức tạp hơn đòi hỏi bộ kỹ năng đầy đủ của họ.

Để giúp phá vỡ thế bế tắc này, chúng tôi đã đã giới thiệu Amazon SageMaker Canvas, một giải pháp ML không mã có thể giúp các công ty đẩy nhanh việc phân phối các giải pháp ML xuống hàng giờ hoặc hàng ngày. SageMaker Canvas cho phép các nhà phân tích dễ dàng sử dụng dữ liệu có sẵn trong các hồ dữ liệu, kho dữ liệu và kho dữ liệu hoạt động; xây dựng các mô hình ML; và sử dụng chúng để đưa ra các dự đoán một cách tương tác và cho điểm hàng loạt trên các tập dữ liệu hàng loạt — tất cả mà không cần viết một dòng mã nào.

Trong bài đăng này, chúng tôi chỉ ra cách SageMaker Canvas cho phép hợp tác giữa các nhà khoa học dữ liệu và các nhà phân tích kinh doanh, đạt được thời gian tiếp thị nhanh hơn và đẩy nhanh sự phát triển của các giải pháp ML. Các nhà phân tích có được không gian làm việc ML không mã của riêng họ trong SageMaker Canvas mà không cần phải trở thành chuyên gia ML. Sau đó, các nhà phân tích có thể chia sẻ các mô hình của họ từ Canvas với một vài cú nhấp chuột, các nhà khoa học dữ liệu sẽ có thể làm việc với Xưởng sản xuất Amazon SageMaker, một môi trường phát triển tích hợp ML end-to-end (IDE). Bằng cách làm việc cùng nhau, các nhà phân tích kinh doanh có thể mang lại kiến thức miền của họ và kết quả của thử nghiệm, trong khi các nhà khoa học dữ liệu có thể tạo hiệu quả các đường ống và hợp lý hóa quy trình.

Hãy cùng tìm hiểu sâu về quy trình làm việc sẽ như thế nào.

Các nhà phân tích kinh doanh xây dựng một mô hình, sau đó chia sẻ nó

Để hiểu cách SageMaker Canvas đơn giản hóa sự hợp tác giữa các nhà phân tích kinh doanh và nhà khoa học dữ liệu (hoặc các kỹ sư ML), trước tiên chúng ta tiếp cận quy trình với tư cách là một nhà phân tích kinh doanh. Trước khi bạn bắt đầu, hãy tham khảo Công bố Amazon SageMaker Canvas - Khả năng học máy trực quan, không cần mã cho các nhà phân tích kinh doanh để biết hướng dẫn về cách xây dựng và thử nghiệm mô hình với SageMaker Canvas.

Đối với bài đăng này, chúng tôi sử dụng phiên bản sửa đổi của Bộ dữ liệu phát hiện gian lận thẻ tín dụng từ Kaggle, một tập dữ liệu nổi tiếng về vấn đề phân loại nhị phân. Tập dữ liệu ban đầu rất mất cân bằng — nó có rất ít mục nhập được phân loại là lớp phủ định (giao dịch bất thường). Bất kể phân phối tính năng mục tiêu là gì, chúng tôi vẫn có thể sử dụng tập dữ liệu này, vì SageMaker Canvas xử lý sự mất cân bằng này khi nó đào tạo và điều chỉnh một mô hình tự động. Tập dữ liệu này bao gồm khoảng 9 triệu ô. Bạn cũng có thể tải xuống phiên bản thu gọn của tập dữ liệu này. Kích thước tập dữ liệu nhỏ hơn nhiều, vào khoảng 500,000 ô, vì nó đã được lấy mẫu thiếu ngẫu nhiên và sau đó được lấy mẫu quá mức bằng kỹ thuật SMOTE để đảm bảo rằng càng ít thông tin càng tốt bị mất trong quá trình này. Việc chạy toàn bộ thử nghiệm với tập dữ liệu đã giảm này sẽ khiến bạn mất $ 0 theo Bậc miễn phí của SageMaker Canvas.

Sau khi xây dựng mô hình, các nhà phân tích có thể sử dụng nó để đưa ra dự đoán trực tiếp trong Canvas cho các yêu cầu riêng lẻ hoặc cho toàn bộ tập dữ liệu đầu vào hàng loạt.

Các mô hình được xây dựng bằng Canvas Standard Build cũng có thể dễ dàng được chia sẻ chỉ bằng một cú nhấp chuột với các nhà khoa học dữ liệu và kỹ sư ML sử dụng SageMaker Studio. Điều này cho phép nhà khoa học dữ liệu xác nhận hiệu suất của mô hình bạn đã xây dựng và cung cấp phản hồi. Các kỹ sư ML có thể chọn mô hình của bạn và tích hợp mô hình đó với các quy trình làm việc và sản phẩm hiện có cho công ty và khách hàng của bạn. Lưu ý rằng tại thời điểm viết bài này, không thể chia sẻ mô hình được xây dựng bằng Canvas Quick Build hoặc mô hình dự báo chuỗi thời gian.

Chia sẻ một mô hình qua giao diện người dùng Canvas rất đơn giản:

Trên trang hiển thị các mô hình mà bạn đã tạo, hãy chọn một mô hình.
Chọn Chia sẻ.
Chọn một hoặc nhiều phiên bản của mô hình mà bạn muốn chia sẻ.
Theo tùy chọn, bao gồm ghi chú cung cấp thêm bối cảnh về mô hình hoặc trợ giúp bạn đang tìm kiếm.
Chọn Tạo liên kết SageMaker Studio.
Sao chép liên kết đã tạo.

Và đó là nó! Giờ đây, bạn có thể chia sẻ liên kết với đồng nghiệp của mình qua Slack, email hoặc bất kỳ phương thức nào khác mà bạn ưa thích. Nhà khoa học dữ liệu cần phải ở trong cùng một miền SageMaker Studio để truy cập vào mô hình của bạn, vì vậy hãy đảm bảo đây là trường hợp của quản trị viên tổ chức của bạn.

Các nhà khoa học dữ liệu truy cập thông tin mô hình từ SageMaker Studio

Bây giờ, chúng ta hãy đóng vai một nhà khoa học dữ liệu hoặc kỹ sư ML và xem mọi thứ theo quan điểm của họ bằng cách sử dụng SageMaker Studio.

Liên kết được chia sẻ bởi nhà phân tích sẽ đưa chúng ta đến SageMaker Studio, IDE dựa trên đám mây đầu tiên cho quy trình làm việc ML end-to-end.

Tab tự động mở ra và hiển thị tổng quan về mô hình do nhà phân tích tạo trong SageMaker Canvas. Bạn có thể nhanh chóng xem tên mô hình, loại sự cố ML, phiên bản mô hình và người dùng nào đã tạo mô hình (trong ID người dùng Canvas trường). Bạn cũng có quyền truy cập vào thông tin chi tiết về tập dữ liệu đầu vào và mô hình tốt nhất mà SageMaker có thể tạo ra. Chúng ta sẽ đi sâu vào vấn đề đó ở phần sau của bài viết.

trên Tập dữ liệu đầu vào , bạn cũng có thể xem luồng dữ liệu từ nguồn đến tập dữ liệu đầu vào. Trong trường hợp này, chỉ một nguồn dữ liệu được sử dụng và không có thao tác nối nào được áp dụng, do đó, một nguồn duy nhất được hiển thị. Bạn có thể phân tích số liệu thống kê và chi tiết về tập dữ liệu bằng cách chọn Mở sổ ghi chép thăm dò dữ liệu. Sổ ghi chép này cho phép bạn khám phá dữ liệu có sẵn trước khi đào tạo mô hình và chứa phân tích biến mục tiêu, mẫu dữ liệu đầu vào, thống kê và mô tả về cột và hàng, cũng như thông tin hữu ích khác cho nhà khoa học dữ liệu biết thêm về tập dữ liệu. Để tìm hiểu thêm về báo cáo này, hãy tham khảo Báo cáo thăm dò dữ liệu.

Sau khi phân tích tập dữ liệu đầu vào, hãy chuyển sang tab thứ hai của tổng quan về mô hình, Công việc AutoML. Tab này chứa mô tả về công việc AutoML khi bạn chọn tùy chọn Bản dựng Chuẩn trong SageMaker Canvas.

Công nghệ AutoML bên dưới SageMaker Canvas giúp loại bỏ sự nặng nhọc của việc xây dựng các mô hình ML. Nó tự động xây dựng, đào tạo và điều chỉnh mô hình ML tốt nhất dựa trên dữ liệu của bạn bằng cách sử dụng phương pháp tiếp cận tự động, đồng thời cho phép bạn duy trì toàn quyền kiểm soát và khả năng hiển thị. Khả năng hiển thị này trên các mô hình ứng cử viên đã tạo cũng như các siêu tham số được sử dụng trong quá trình AutoML được chứa trong sổ ghi chép thế hệ ứng cử viên, có sẵn trên tab này.

Sản phẩm Công việc AutoML tab cũng chứa danh sách mọi mô hình được xây dựng như một phần của quy trình AutoML, được sắp xếp theo chỉ số mục tiêu F1. Để làm nổi bật mô hình tốt nhất trong số các công việc đào tạo đã đưa ra, một thẻ có vòng tròn màu xanh lục được sử dụng trong Mô hình tốt nhất cột. Bạn cũng có thể dễ dàng hình dung các số liệu khác được sử dụng trong giai đoạn đào tạo và đánh giá, chẳng hạn như điểm chính xác và Diện tích dưới đường cong (AUC). Để tìm hiểu thêm về các mô hình mà bạn có thể đào tạo trong công việc AutoML và các chỉ số được sử dụng để đánh giá hiệu suất của mô hình được đào tạo, hãy tham khảo Hỗ trợ mô hình, số liệu và xác thực.

Để tìm hiểu thêm về mô hình, bây giờ bạn có thể nhấp chuột phải vào mô hình tốt nhất và chọn Mở chi tiết mô hình. Ngoài ra, bạn có thể chọn Mô hình tốt nhất liên kết ở đầu Tổng quan về mô hình phần bạn đã truy cập lần đầu tiên.

Trang chi tiết mô hình chứa rất nhiều thông tin hữu ích liên quan đến mô hình hoạt động tốt nhất với dữ liệu đầu vào này. Đầu tiên chúng ta hãy tập trung vào phần tóm tắt ở đầu trang. Ảnh chụp màn hình ví dụ trước cho thấy rằng, trong số hàng trăm lần chạy đào tạo mô hình, một mô hình XGBoost hoạt động tốt nhất trên tập dữ liệu đầu vào. Tại thời điểm viết bài này, SageMaker Canvas có thể đào tạo ba loại thuật toán ML: trình học tuyến tính, XGBoost và perceptron nhiều lớp (MLP), mỗi thuật toán có nhiều loại đường ống tiền xử lý và siêu tham số. Để tìm hiểu thêm về từng thuật toán, hãy tham khảo trang thuật toán được hỗ trợ.

SageMaker cũng bao gồm một chức năng giải thích nhờ vào việc triển khai hiệu quả và có thể mở rộng hạt nhânSHAP, dựa trên khái niệm giá trị Shapley từ lĩnh vực lý thuyết trò chơi hợp tác để gán cho mỗi tính năng một giá trị quan trọng cho một dự đoán cụ thể. Điều này cho phép minh bạch về cách mô hình đạt được dự đoán của nó và rất hữu ích để xác định tầm quan trọng của tính năng. Có thể tải xuống một báo cáo hoàn chỉnh về khả năng giải thích bao gồm tầm quan trọng của tính năng ở định dạng PDF, sổ ghi chép hoặc dữ liệu thô. Trong báo cáo đó, một bộ số liệu rộng hơn được hiển thị cũng như danh sách đầy đủ các siêu thông số được sử dụng trong công việc AutoML. Để tìm hiểu thêm về cách SageMaker cung cấp các công cụ giải thích được tích hợp cho các giải pháp AutoML và thuật toán ML tiêu chuẩn, hãy xem Sử dụng các công cụ giải thích được tích hợp và cải thiện chất lượng mô hình bằng Amazon SageMaker Autopilot.

Cuối cùng, các tab khác trong chế độ xem này hiển thị thông tin về chi tiết hiệu suất (ma trận nhầm lẫn, đường cong nhớ lại độ chính xác, đường cong ROC), các tạo tác được sử dụng cho các đầu vào và được tạo ra trong công việc AutoML và chi tiết mạng.

Tại thời điểm này, nhà khoa học dữ liệu có hai lựa chọn: triển khai trực tiếp mô hình hoặc tạo một đường dẫn đào tạo có thể được lên lịch hoặc kích hoạt theo cách thủ công hoặc tự động. Các phần sau cung cấp một số thông tin chi tiết về cả hai tùy chọn.

Triển khai mô hình trực tiếp

Nếu nhà khoa học dữ liệu hài lòng với kết quả thu được từ công việc AutoML, họ có thể triển khai trực tiếp mô hình từ Chi tiết mô hình trang. Nó đơn giản như việc lựa chọn Triển khai mô hình bên cạnh tên kiểu máy.

SageMaker hiển thị cho bạn hai tùy chọn để triển khai: một điểm cuối thời gian thực, được cung cấp bởi Điểm cuối Amazon SageMakervà suy luận theo lô, được cung cấp bởi Chuyển đổi hàng loạt Amazon SageMaker.

SageMaker cũng cung cấp các chế độ suy luận khác. Để tìm hiểu thêm, hãy xem Triển khai các mô hình để suy luận.

Để bật chế độ dự đoán thời gian thực, bạn chỉ cần đặt tên cho điểm cuối, loại phiên bản và số lượng phiên bản. Bởi vì mô hình này không yêu cầu tài nguyên máy tính nặng, bạn có thể sử dụng phiên bản dựa trên CPU với số lượng ban đầu là 1. Bạn có thể tìm hiểu thêm về các loại phiên bản khác nhau có sẵn và thông số kỹ thuật của chúng trên Trang giá của Amazon SageMaker (bên trong Định giá theo yêu cầu chọn phần Suy luận theo thời gian thực chuyển hướng). Nếu bạn không biết mình nên chọn phiên bản nào để triển khai, bạn cũng có thể yêu cầu SageMaker tìm phiên bản tốt nhất cho bạn theo KPI của bạn bằng cách sử dụng Đề xuất suy luận của SageMaker. Bạn cũng có thể cung cấp các tham số tùy chọn bổ sung, liên quan đến việc bạn có muốn nắm bắt dữ liệu yêu cầu và phản hồi đến hoặc từ điểm cuối hay không. Điều này có thể hữu ích nếu bạn đang lên kế hoạch giám sát mô hình của bạn. Bạn cũng có thể chọn nội dung bạn muốn cung cấp như một phần trong phản hồi của mình — cho dù đó chỉ là dự đoán hay xác suất dự đoán, xác suất của tất cả các lớp và nhãn mục tiêu.

Để chạy công việc tính điểm hàng loạt, nhận dự đoán cho toàn bộ tập hợp đầu vào cùng một lúc, bạn có thể khởi chạy công việc chuyển đổi hàng loạt từ Bảng điều khiển quản lý AWS hoặc thông qua SageMaker Python SDK. Để tìm hiểu thêm về biến đổi hàng loạt, hãy tham khảo Sử dụng biến đổi hàng loạt và các sổ tay ví dụ.

Xác định một quy trình đào tạo

Các mô hình ML có thể rất hiếm khi được coi là tĩnh và không thay đổi, bởi vì chúng trôi dạt khỏi đường cơ sở mà chúng đã được đào tạo. Dữ liệu trong thế giới thực phát triển theo thời gian và có nhiều mẫu và thông tin chi tiết hơn xuất hiện từ đó, những dữ liệu này có thể được mô hình ban đầu được đào tạo dựa trên dữ liệu lịch sử nắm bắt hoặc không. Để giải quyết vấn đề này, bạn có thể thiết lập một quy trình đào tạo tự động đào tạo lại các mô hình của bạn với dữ liệu mới nhất có sẵn.

Khi xác định đường dẫn này, một trong những tùy chọn của nhà khoa học dữ liệu là sử dụng lại AutoML cho đường dẫn đào tạo. Bạn có thể khởi chạy một công việc AutoML theo chương trình bằng cách gọi API create_auto_ml_job () từ SDK AWS Boto3. Bạn có thể gọi hoạt động này từ một AWS Lambda chức năng trong một Chức năng bước AWS quy trình làm việc hoặc từ LambdaStep trong Đường ống Amazon SageMaker.

Ngoài ra, nhà khoa học dữ liệu có thể sử dụng kiến thức, tạo tác và siêu tham số thu được từ công việc AutoML để xác định một đường dẫn đào tạo hoàn chỉnh. Bạn cần các tài nguyên sau:

Thuật toán hoạt động tốt nhất cho trường hợp sử dụng - Bạn đã có được thông tin này từ bản tóm tắt của mô hình do Canvas tạo. Đối với trường hợp sử dụng này, đó là thuật toán tích hợp XGBoost. Để biết hướng dẫn về cách sử dụng SageMaker Python SDK để đào tạo thuật toán XGBoost với SageMaker, hãy tham khảo Sử dụng XGBoost với SageMaker Python SDK.

Các siêu tham số được tạo ra bởi công việc AutoML - Những thứ này có sẵn trong Giải thích tiết diện. Bạn có thể sử dụng chúng làm đầu vào khi xác định công việc đào tạo với SageMaker Python SDK.

Mã kỹ thuật tính năng được cung cấp trong phần Phần mềm - Bạn có thể sử dụng mã này để xử lý trước dữ liệu trước khi đào tạo (ví dụ: thông qua Amazon SageMaker Processing) hoặc trước khi suy luận (ví dụ: như một phần của đường dẫn suy luận SageMaker).

Bạn có thể kết hợp các tài nguyên này như một phần của đường dẫn SageMaker. Chúng tôi bỏ qua chi tiết triển khai trong bài đăng này — hãy theo dõi để biết thêm nội dung về chủ đề này.

Kết luận

SageMaker Canvas cho phép bạn sử dụng ML để tạo dự đoán mà không cần viết bất kỳ mã nào. Một nhà phân tích kinh doanh có thể tự động bắt đầu sử dụng nó với bộ dữ liệu cục bộ, cũng như dữ liệu đã được lưu trữ trên Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3), Amazon RedShift, hoặc Snowflake. Chỉ với một vài cú nhấp chuột, họ có thể chuẩn bị và kết hợp tập dữ liệu của mình, phân tích độ chính xác ước tính, xác minh cột nào có tác động, đào tạo mô hình hoạt động tốt nhất và tạo dự đoán hàng loạt hoặc riêng lẻ mới, tất cả mà không cần đến một nhà khoa học dữ liệu chuyên nghiệp. Sau đó, nếu cần, họ có thể chia sẻ mô hình với một nhóm các nhà khoa học dữ liệu hoặc kỹ sư MLOps, những người nhập các mô hình vào SageMaker Studio và làm việc cùng với nhà phân tích để đưa ra giải pháp sản xuất.

Các nhà phân tích kinh doanh có thể thu thập thông tin chi tiết từ dữ liệu của họ một cách độc lập mà không cần có bằng cấp về ML và không cần phải viết một dòng mã nào. Giờ đây, các nhà khoa học dữ liệu có thể có thêm thời gian để làm việc trong các dự án thách thức hơn có thể sử dụng tốt hơn kiến thức sâu rộng của họ về AI và ML.

Chúng tôi tin rằng sự hợp tác mới này sẽ mở ra cánh cửa để xây dựng nhiều giải pháp ML mạnh mẽ hơn cho doanh nghiệp của bạn. Giờ đây, bạn có các nhà phân tích cung cấp thông tin chi tiết có giá trị về doanh nghiệp, đồng thời cho phép các nhà khoa học dữ liệu và kỹ sư ML giúp tinh chỉnh, điều chỉnh và mở rộng khi cần thiết.

Tài Nguyên Bổ Sung

Để tìm hiểu thêm về cách SageMaker có thể trợ giúp thêm cho các nhà phân tích kinh doanh, hãy tham khảo Amazon SageMaker dành cho nhà phân tích kinh doanh.
Để tìm hiểu thêm về cách SageMaker cho phép các nhà khoa học dữ liệu phát triển, đào tạo và triển khai các mô hình ML của họ, hãy xem Amazon SageMaker dành cho các nhà khoa học dữ liệu.
Để biết thêm thông tin về cách SageMaker có thể hỗ trợ các kỹ sư MLOps hợp lý hóa vòng đời ML bằng MLOps, hãy tham khảo Amazon SageMaker dành cho Kỹ sư MLOps.

Về các tác giả

Davide Gallitelli là Kiến trúc sư Giải pháp Chuyên gia về AI / ML trong khu vực EMEA. Anh ấy có trụ sở tại Brussels và làm việc chặt chẽ với khách hàng trên khắp Benelux. Anh ấy đã là một nhà phát triển từ khi còn rất trẻ, bắt đầu viết mã ở tuổi 7. Anh ấy bắt đầu học AI / ML ở trường đại học, và yêu nó kể từ đó.

Đánh dấu Roy là Kiến trúc sư chính về Máy học cho AWS, giúp khách hàng thiết kế và xây dựng các giải pháp AI / ML. Công việc của Mark bao gồm một loạt các trường hợp sử dụng ML, với mối quan tâm chính là tầm nhìn máy tính, học sâu và mở rộng ML trong toàn doanh nghiệp. Ông đã giúp đỡ các công ty trong nhiều ngành, bao gồm bảo hiểm, dịch vụ tài chính, truyền thông và giải trí, chăm sóc sức khỏe, tiện ích và sản xuất. Mark có sáu chứng chỉ AWS, bao gồm cả Chứng nhận Chuyên môn ML. Trước khi gia nhập AWS, Mark là kiến trúc sư, nhà phát triển và nhà lãnh đạo công nghệ trong hơn 25 năm, trong đó có 19 năm trong lĩnh vực dịch vụ tài chính.

Dấu thời gian: 10 Tháng ba, 2022

Dấu thời gian: Tháng Bảy 20, 2022

Được xuất bản lại bởi Plato

Sách trắng: Các phương pháp hay nhất về máy học trong chăm sóc sức khỏe và khoa học đời sống

Giảm chi phí và thời gian phát triển với chế độ cục bộ của Amazon SageMaker Pipelines

MLOps để suy luận hàng loạt với chức năng giám sát và đào tạo lại mô hình bằng Amazon SageMaker, HashiCorp Terraform và GitLab CI/CD | Dịch vụ web của Amazon

Đổi mới trải nghiệm dữ liệu: Sử dụng trí tuệ nhân tạo tổng quát và kiến trúc dữ liệu hiện đại để khám phá những hiểu biết sâu sắc | Dịch vụ web của Amazon

Kiểm duyệt, phân loại và xử lý tài liệu bằng Amazon Rekognition và Amazon Textract

Xây dựng nhắm mục tiêu theo ngữ cảnh dựa trên phân loại bằng cách sử dụng AWS Media Intelligence và Hugging Face BERT

Về chúng tôi

Tìm kiếm dọc & Ai

Nền tảng

NHẬN THÔNG TIN

Tài khoản