Nhiều ứng dụng dành cho bảo trì thiết bị công nghiệp, giám sát thương mại, quản lý đội xe và tối ưu hóa tuyến đường được xây dựng bằng cách sử dụng trình điều khiển và API Cassandra mã nguồn mở để xử lý dữ liệu ở tốc độ cao và độ trễ thấp. Việc tự quản lý các bảng Cassandra có thể tốn thời gian và tốn kém. Amazon Keyspaces (dành cho Apache Cassandra) cho phép bạn thiết lập, bảo mật và mở rộng các bảng Cassandra trong Đám mây AWS mà không cần quản lý cơ sở hạ tầng bổ sung.
Trong bài đăng này, chúng tôi sẽ hướng dẫn bạn các Dịch vụ AWS liên quan đến đào tạo các mô hình máy học (ML) sử dụng Amazon Keyspaces ở cấp độ cao và cung cấp hướng dẫn từng bước để nhập dữ liệu từ Amazon Keyspaces vào Amazon SageMaker và đào tạo một mô hình có thể được sử dụng cho một trường hợp sử dụng phân khúc khách hàng cụ thể.
AWS có nhiều dịch vụ để giúp các doanh nghiệp triển khai các quy trình ML trên đám mây.
AWS ML Stack có ba lớp. Ở lớp giữa là SageMaker, cung cấp cho các nhà phát triển, nhà khoa học dữ liệu và kỹ sư ML khả năng xây dựng, đào tạo và triển khai các mô hình ML trên quy mô lớn. Nó loại bỏ sự phức tạp khỏi mỗi bước của quy trình ML để bạn có thể dễ dàng triển khai các trường hợp sử dụng ML của mình hơn. Điều này bao gồm bất cứ điều gì từ bảo trì dự đoán đến tầm nhìn máy tính để dự đoán các hành vi của khách hàng. Khách hàng đạt được sự cải thiện đến 10 lần về năng suất của các nhà khoa học dữ liệu với SageMaker.
Apache Cassandra là một lựa chọn phổ biến cho các trường hợp sử dụng nhiều đọc với dữ liệu không có cấu trúc hoặc bán cấu trúc. Ví dụ: một doanh nghiệp giao đồ ăn phổ biến ước tính thời gian giao hàng và khách hàng bán lẻ có thể thường xuyên sử dụng thông tin danh mục sản phẩm trong Cơ sở dữ liệu Apache Cassandra. Không gian phím Amazon là một dịch vụ cơ sở dữ liệu tương thích với Apache Cassandra không máy chủ có thể mở rộng, khả dụng cao và được quản lý. Bạn không cần cung cấp, vá lỗi hoặc quản lý máy chủ và bạn không cần cài đặt, bảo trì hoặc vận hành phần mềm. Các bảng có thể tự động tăng và giảm quy mô và bạn chỉ phải trả tiền cho các tài nguyên mà bạn sử dụng. Amazon Keyspaces cho phép bạn chạy khối lượng công việc Cassandra của mình trên AWS bằng cách sử dụng cùng một mã ứng dụng Cassandra và các công cụ dành cho nhà phát triển mà bạn sử dụng ngày nay.
SageMaker cung cấp một bộ thuật toán tích hợp để giúp các nhà khoa học dữ liệu và những người thực hành ML bắt đầu đào tạo và triển khai các mô hình ML một cách nhanh chóng. Trong bài đăng này, chúng tôi sẽ chỉ cho bạn cách khách hàng bán lẻ có thể sử dụng lịch sử mua hàng của khách hàng trong Cơ sở dữ liệu Keyspaces và nhắm mục tiêu các phân khúc khách hàng khác nhau cho các chiến dịch tiếp thị.
K-có nghĩa là là một thuật toán học tập không giám sát. Nó cố gắng tìm các nhóm rời rạc trong dữ liệu, trong đó các thành viên của một nhóm càng giống nhau càng tốt và càng khác càng tốt với các thành viên của các nhóm khác. Bạn xác định các thuộc tính mà bạn muốn thuật toán sử dụng để xác định độ tương tự. SageMaker sử dụng phiên bản sửa đổi của thuật toán phân cụm k-mean quy mô web. So với phiên bản gốc của thuật toán, phiên bản được sử dụng bởi SageMaker chính xác hơn. Tuy nhiên, giống như thuật toán ban đầu, nó mở rộng quy mô thành bộ dữ liệu lớn và mang lại những cải tiến trong thời gian đào tạo.
Tổng quan về giải pháp
Các hướng dẫn giả định rằng bạn sẽ sử dụng SageMaker Studio để chạy mã. Mã liên kết đã được chia sẻ trên AWS Mẫu GitHub. Làm theo hướng dẫn trong phòng thí nghiệm, bạn có thể làm như sau:
- Cài đặt các phụ thuộc cần thiết.
- Kết nối với Amazon Keyspaces, tạo Bảng và nhập dữ liệu mẫu.
- Xây dựng mô hình ML phân loại bằng cách sử dụng dữ liệu trong Amazon Keyspaces.
- Khám phá kết quả mô hình.
- Dọn dẹp tài nguyên mới tạo.
Sau khi hoàn tất, bạn sẽ tích hợp SageMaker với Amazon Keyspaces để đào tạo các mô hình ML như trong hình sau.
Bây giờ bạn có thể làm theo hướng dẫn từng bước một trong bài đăng này để nhập dữ liệu thô được lưu trữ trong Amazon Keyspaces bằng SageMaker và dữ liệu do đó được truy xuất để xử lý ML.
Điều kiện tiên quyết
Đầu tiên, điều hướng đến SageMaker.
Tiếp theo, nếu đây là lần đầu tiên bạn sử dụng SageMaker, hãy chọn Bắt Đầu.
Tiếp theo, chọn Thiết lập miền SageMaker.
Tiếp theo, tạo một hồ sơ người dùng mới với Tên - người làm hiền triết, Và chọn Tạo vai trò mới trong Vai trò thực thi mặc định phần phụ.
Tiếp theo, trong màn hình bật lên, hãy chọn bất kỳ Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3) và chọn Tạo vai trò.
Vai trò này sẽ được sử dụng trong các bước sau để cho phép SageMaker truy cập Bảng không gian phím bằng thông tin xác thực tạm thời từ vai trò. Điều này giúp loại bỏ nhu cầu lưu trữ tên người dùng và mật khẩu trong sổ ghi chép.
Tiếp theo, truy xuất vai trò được liên kết với người làm hiền triết đã được tạo ở bước trước từ phần tóm tắt.
Sau đó, điều hướng đến Bảng điều khiển AWS và tra cứu Quản lý quyền truy cập và nhận dạng AWS (IAM). Trong IAM, điều hướng đến Vai trò. Trong Roles, tìm kiếm vai trò thực thi được xác định ở bước trước.
Tiếp theo, chọn vai trò đã xác định ở bước trước và chọn Thêm quyền. Trong menu thả xuống xuất hiện, hãy chọn Tạo Chính sách Nội tuyến. SageMaker cho phép bạn cung cấp cấp độ truy cập chi tiết hạn chế những hành động mà người dùng / ứng dụng có thể thực hiện dựa trên các yêu cầu kinh doanh.
Sau đó, chọn tab JSON và sao chép chính sách từ phần Ghi chú của Github trang. Chính sách này cho phép sổ ghi chép SageMaker kết nối với Keyspaces và truy xuất dữ liệu để xử lý thêm.
Sau đó, chọn Thêm quyền một lần nữa và từ trình đơn thả xuống, và chọn Đính kèm chính sách.
Tra cứu chính sách AmazonKeyspacesFullAccess và chọn hộp kiểm bên cạnh kết quả phù hợp và chọn Đính kèm chính sách.
Xác minh rằng phần chính sách quyền bao gồm AmazonS3FullAccess
, AmazonSageMakerFullAccess
, AmazonKeyspacesFullAccess
, cũng như chính sách nội tuyến mới được thêm vào.
Tiếp theo, điều hướng đến SageMaker Studio bằng Bảng điều khiển AWS và chọn SageMaker Studio. Khi đó, chọn Khởi chạy ứng dụng và chọn Studio.
Hướng dẫn về sổ tay
Cách ưa thích để kết nối với Keyspaces từ SageMaker Notebook là sử dụng Quy trình AWS Signature Version 4 (SigV4) dựa Thông tin xác thực tạm thời để xác thực. Trong trường hợp này, chúng tôi KHÔNG cần tạo hoặc lưu trữ thông tin đăng nhập Keyspaces và có thể sử dụng thông tin đăng nhập để xác thực với plugin SigV4. Thông tin xác thực bảo mật tạm thời bao gồm ID khóa truy cập và khóa truy cập bí mật. Tuy nhiên, chúng cũng bao gồm một mã thông báo bảo mật cho biết khi nào thông tin xác thực hết hạn. Trong bài đăng này, chúng tôi sẽ tạo vai trò IAM và tạo thông tin xác thực bảo mật tạm thời.
Đầu tiên, chúng tôi cài đặt một trình điều khiển (cassandra-sigv4). Trình điều khiển này cho phép bạn thêm thông tin xác thực vào các yêu cầu API của mình bằng Quy trình AWS Signature Version 4 (SigV4). Sử dụng plugin, bạn có thể cung cấp cho người dùng và ứng dụng thông tin đăng nhập ngắn hạn để truy cập Amazon Keyspaces (dành cho Apache Cassandra) bằng cách sử dụng vai trò và người dùng IAM. Sau đó, bạn sẽ nhập một chứng chỉ bắt buộc cùng với các gói phụ thuộc bổ sung. Cuối cùng, bạn sẽ cho phép sổ ghi chép đảm nhận vai trò nói chuyện với Keyspaces.
Tiếp theo, kết nối với Amazon Keyspaces và đọc dữ liệu hệ thống từ Keyspaces vào Pandas DataFrame để xác thực kết nối.
Tiếp theo, chuẩn bị dữ liệu để đào tạo trên tập dữ liệu thô. Trong sổ ghi chép python được liên kết với bài đăng này, hãy sử dụng tập dữ liệu bán lẻ được tải xuống từ tại đâyvà xử lý nó. Mục tiêu kinh doanh của chúng tôi với bộ dữ liệu là tập hợp các khách hàng bằng cách sử dụng một cuộc gọi số liệu cụ thể RFM. Mô hình RFM dựa trên ba yếu tố định lượng:
- Lần truy cập gần đây: Khách hàng đã mua hàng gần đây như thế nào.
- Tần suất: Tần suất khách hàng mua hàng.
- Giá trị tiền tệ: Số tiền khách hàng chi ra để mua hàng.
Phân tích RFM bằng số xếp hạng khách hàng trong mỗi ba loại này, thường theo thang điểm từ 1 đến 5 (số càng cao, kết quả càng tốt). Khách hàng "tốt nhất" sẽ nhận được điểm số cao nhất trong mọi hạng mục. Chúng tôi sẽ sử dụng chức năng tùy biến dựa trên Lượng tử của gấu trúc (qcut). Nó sẽ giúp tách các giá trị thành các nhóm có kích thước bằng nhau dựa trên hoặc dựa trên các lượng tử mẫu.
Trong ví dụ này, chúng tôi sử dụng CQL để đọc các bản ghi từ bảng Keyspace. Trong một số trường hợp sử dụng ML, bạn có thể cần đọc cùng một dữ liệu từ cùng một bảng Keyspaces nhiều lần. Trong trường hợp này, chúng tôi khuyên bạn nên lưu dữ liệu của mình vào một nhóm Amazon S3 để tránh phát sinh thêm chi phís đọc từ Amazon Keyspaces. Tùy thuộc vào tình huống của bạn, bạn cũng có thể sử dụng Amazon EMR đến ăn vào một tệp Amazon S3 rất lớn vào SageMaker.
Tiếp theo, chúng tôi đào tạo mô hình ML bằng thuật toán KMeans và đảm bảo rằng các cụm được tạo. Trong trường hợp cụ thể này, bạn sẽ thấy rằng các cụm đã tạo được in, cho thấy rằng các khách hàng trong tập dữ liệu thô đã được nhóm lại với nhau dựa trên các thuộc tính khác nhau trong tập dữ liệu. Thông tin cụm này có thể được sử dụng cho các chiến dịch tiếp thị được nhắm mục tiêu.
(Tùy chọn) Tiếp theo, chúng tôi lưu các phân khúc khách hàng đã được xác định bởi mô hình ML trở lại bảng Amazon Keyspaces để tiếp thị mục tiêu. Một công việc hàng loạt có thể đọc dữ liệu này và chạy các chiến dịch được nhắm mục tiêu cho khách hàng trong các phân đoạn cụ thể.
Cuối cùng chúng ta dọn dẹp tài nguyên được tạo trong hướng dẫn này để tránh phát sinh thêm phí.
Có thể mất vài giây đến một phút để hoàn thành việc xóa vùng phím và bảng. Khi bạn xóa một không gian phím, không gian khóa và tất cả các bảng của nó sẽ bị xóa và bạn ngừng tích lũy các khoản phí từ chúng.
Kết luận
Bài đăng này đã chỉ cho bạn cách nhập dữ liệu khách hàng từ Amazon Keyspaces vào SageMaker và đào tạo mô hình phân nhóm cho phép bạn phân khúc khách hàng. Bạn có thể sử dụng thông tin này để tiếp thị mục tiêu, do đó cải thiện đáng kể KPI doanh nghiệp của bạn. Để tìm hiểu thêm về Amazon Keyspaces, hãy xem lại các tài nguyên sau:
- Huấn luyện các mô hình Machine Learning bằng cách sử dụng Amazon Keyspaces làm nguồn dữ liệu (Sổ tay SageMaker)
- Kết nối với Amazon Keyspaces từ máy tính để bàn của bạn bằng IDE IntelliJ, PyCharm hoặc DataGrip
- Tham chiếu ngôn ngữ CQL cho không gian khóa Amazon (dành cho Apache Cassandra)
- Cách thiết lập quyền truy cập dòng lệnh vào Amazon Keyspaces (dành cho Apache Cassandra) bằng cách sử dụng hình ảnh Docker của bộ công cụ dành cho nhà phát triển mới
- Quản lý quyền truy cập và danh tính cho Amazon Keyspaces (dành cho Apache Cassandra)
- Kết nối với Amazon Keyspaces từ SageMaker với thông tin đăng nhập dành riêng cho dịch vụ
- Lần gần đây, tần suất, giá trị tiền tệ (RFM)
- Tham khảo mã Kaggle
Về các tác giả
Vadim Lyakhovich là Kiến trúc sư Giải pháp Cấp cao tại AWS ở Khu vực Vịnh San Francisco giúp khách hàng chuyển sang AWS. Ông đang làm việc với các tổ chức khác nhau, từ các doanh nghiệp lớn đến các công ty khởi nghiệp nhỏ để hỗ trợ những đổi mới của họ. Anh ấy cũng đang giúp khách hàng xây dựng các giải pháp có thể mở rộng, bảo mật và tiết kiệm chi phí trên AWS.
Parth Patel là Kiến trúc sư Giải pháp tại AWS ở Khu vực Vịnh San Francisco. Parth hướng dẫn khách hàng đẩy nhanh hành trình đến với đám mây và giúp họ sử dụng đám mây AWS thành công. Ông tập trung vào ML và Hiện đại hóa ứng dụng.
Ram Pathangi là Kiến trúc sư Giải pháp tại AWS ở Khu vực Vịnh San Francisco. Ông đã giúp khách hàng trong các ngành Nông nghiệp, Bảo hiểm, Ngân hàng, Bán lẻ, Chăm sóc sức khỏe & Khoa học Đời sống, Khách sạn và Công nghệ cao vận hành thành công công việc kinh doanh của họ trên đám mây AWS. Anh ấy chuyên về Cơ sở dữ liệu, Phân tích và ML.
- Coinsmart. Sàn giao dịch Bitcoin và tiền điện tử tốt nhất Châu Âu.
- Platoblockchain. Web3 Metaverse Intelligence. Khuếch đại kiến thức. TRUY CẬP MIỄN PHÍ.
- CryptoHawk. Radar Altcoin. Dùng thử miễn phí.
- Nguồn: https://aws.amazon.com/blogs/machine-learning/train-machine-learning-models-using-amazon-keyspaces-as-a-data-source/
- '
- "
- &
- 10
- 100
- 9
- có khả năng
- Giới thiệu
- đẩy nhanh tiến độ
- truy cập
- chính xác
- Đạt được
- hành động
- thêm vào
- nông nghiệp
- trước
- thuật toán
- Tất cả
- đàn bà gan dạ
- phân tích
- phân tích
- Một
- api
- API
- ứng dụng
- Các Ứng Dụng
- các ứng dụng
- KHU VỰC
- sự chú ý
- thuộc tính
- Xác thực
- tự động
- có sẵn
- AWS
- Ngân hàng
- vịnh
- Blog
- biên giới
- xây dựng
- kinh doanh
- các doanh nghiệp
- cuộc gọi
- Chiến dịch
- mà
- trường hợp
- Phân loại
- Giấy chứng nhận
- tải
- sự lựa chọn
- phân loại
- đám mây
- mã
- so
- máy tính
- Kết nối
- liên quan
- An ủi
- chi phí-hiệu quả
- có thể
- đất nước
- tạo
- tạo ra
- Credentials
- khách hàng
- khách hàng
- dữ liệu
- tập dữ liệu
- Cơ sở dữ liệu
- cơ sở dữ liệu
- cung cấp
- giao hàng
- Tùy
- triển khai
- triển khai
- máy tính để bàn
- Xác định
- Nhà phát triển
- phát triển
- khác nhau
- phu bến tàu
- xuống
- trình điều khiển
- Rơi
- suốt trong
- dễ dàng
- Kỹ sư
- doanh nghiệp
- Trang thiết bị
- dự toán
- ví dụ
- thực hiện
- các yếu tố
- Tên
- lần đầu tiên
- VÒI
- tập trung
- theo
- tiếp theo
- thực phẩm
- Francisco
- chức năng
- xa hơn
- nói chung
- tạo ra
- nhận được
- GitHub
- rất nhiều
- Nhóm
- Các nhóm
- Hướng dẫn
- cho sức khoẻ
- Chăm sóc sức khỏe
- giúp đỡ
- giúp đỡ
- Cao
- cao hơn
- cao
- lịch sử
- Độ đáng tin của
- Hướng dẫn
- Tuy nhiên
- HTTPS
- Bản sắc
- hình ảnh
- thực hiện
- cải thiện
- cải thiện
- bao gồm
- bao gồm
- chỉ số
- công nghiệp
- thông tin
- Cơ sở hạ tầng
- đổi mới
- cài đặt, dựng lên
- bảo hiểm
- tích hợp
- IT
- Việc làm
- cuộc hành trình
- Key
- phòng thí nghiệm
- Ngôn ngữ
- lớn
- phóng
- lớp
- LEARN
- học tập
- Cấp
- Khoa học đời sống
- Xem
- trung thành
- máy
- học máy
- thực hiện
- duy trì
- LÀM CHO
- quản lý
- quản lý
- quản lý
- quản lý
- Marketing
- lớn
- phù hợp
- Các thành viên
- ML
- kiểu mẫu
- mô hình
- Tiền tệ
- tiền
- giám sát
- chi tiết
- hầu hết
- nhiều
- cần thiết
- máy tính xách tay
- con số
- hoạt động
- tối ưu hóa
- tổ chức
- Nền tảng khác
- gói
- riêng
- Mật khẩu
- Vá
- Trả
- Plugin
- Chính sách
- điều luật
- Phổ biến
- có thể
- tiềm năng
- dự đoán
- Chuẩn bị
- trước
- giá
- chính
- quá trình
- Quy trình
- xử lý
- Sản phẩm
- năng suất
- Hồ sơ
- hứa hẹn
- cho
- cung cấp
- mua
- mua hàng
- định lượng
- Mau
- khác nhau,
- Nguyên
- Reading
- nhận
- gần đây
- giới thiệu
- hồ sơ
- yêu cầu
- cần phải
- Yêu cầu
- Thông tin
- Kết quả
- bán lẻ
- xem xét
- Nguy cơ
- Vai trò
- Route
- chạy
- San
- San Francisco
- SC
- khả năng mở rộng
- Quy mô
- KHOA HỌC
- các nhà khoa học
- Màn
- Tìm kiếm
- giây
- an toàn
- an ninh
- thẻ bảo mật
- phân khúc
- phân khúc
- phân đoạn
- Không có máy chủ
- dịch vụ
- DỊCH VỤ
- định
- chia sẻ
- thời gian ngắn
- thể hiện
- tương tự
- Đơn giản
- ngủ
- nhỏ
- So
- Phần mềm
- rắn
- Giải pháp
- một số
- chuyên
- ngăn xếp
- bắt đầu
- Startups
- là gắn
- hàng
- phòng thu
- Thành công
- hỗ trợ
- hệ thống
- hệ thống
- Thảo luận
- Mục tiêu
- nhắm mục tiêu
- tạm thời
- Sản phẩm
- Thông qua
- thời gian
- thời gian
- bây giờ
- bên nhau
- mã thông báo
- bộ công cụ
- công cụ
- hàng đầu
- thương mại
- Hội thảo
- sử dụng
- trường hợp sử dụng
- Người sử dụng
- giá trị
- khác nhau
- phiên bản
- ngành dọc
- tầm nhìn
- Điều gì
- ở trong
- không có
- đang làm việc
- sẽ
- trên màn hình