Sử dụng Amazon DocumentDB để xây dựng các giải pháp machine learning không cần mã trong Amazon SageMaker Canvas | Dịch vụ web của Amazon

Sử dụng Amazon DocumentDB để xây dựng các giải pháp machine learning không cần mã trong Amazon SageMaker Canvas | Dịch vụ web của Amazon

Chúng tôi rất vui mừng thông báo về việc ra mắt Amazon DocumentDB (với khả năng tương thích MongoDB) Hội nhập với Canvas SageMaker của Amazon, cho phép khách hàng của Amazon DocumentDB xây dựng và sử dụng các giải pháp AI và máy học (ML) tổng hợp mà không cần viết mã. Amazon DocumentDB là cơ sở dữ liệu tài liệu JSON gốc được quản lý toàn phần giúp vận hành khối lượng công việc tài liệu quan trọng một cách đơn giản và tiết kiệm chi phí ở hầu hết mọi quy mô mà không cần quản lý cơ sở hạ tầng. Amazon SageMaker Canvas là không gian làm việc ML không có mã cung cấp các mô hình sẵn sàng sử dụng, bao gồm các mô hình nền tảng cũng như khả năng chuẩn bị dữ liệu cũng như xây dựng và triển khai các mô hình tùy chỉnh.

Trong bài đăng này, chúng tôi thảo luận cách đưa dữ liệu được lưu trữ trong Amazon DocumentDB vào SageMaker Canvas và sử dụng dữ liệu đó để xây dựng mô hình ML cho phân tích dự đoán. Không cần tạo và duy trì đường dẫn dữ liệu, bạn sẽ có thể hỗ trợ các mô hình ML bằng dữ liệu phi cấu trúc được lưu trữ trong Amazon DocumentDB.

Tổng quan về giải pháp

Hãy giả sử bạn đóng vai một nhà phân tích kinh doanh cho một công ty giao đồ ăn. Ứng dụng di động của bạn lưu trữ thông tin về các nhà hàng trong Amazon DocumentDB nhờ khả năng mở rộng và khả năng lược đồ linh hoạt. Bạn muốn thu thập thông tin chi tiết về dữ liệu này và xây dựng mô hình ML để dự đoán cách xếp hạng các nhà hàng mới, nhưng gặp khó khăn khi thực hiện phân tích trên dữ liệu phi cấu trúc. Bạn gặp phải tắc nghẽn vì bạn cần phải dựa vào các nhóm kỹ thuật dữ liệu và khoa học dữ liệu để hoàn thành các mục tiêu này.

Sự tích hợp mới này giải quyết những vấn đề này bằng cách làm cho việc đưa dữ liệu Amazon DocumentDB vào SageMaker Canvas trở nên đơn giản và ngay lập tức bắt đầu chuẩn bị và phân tích dữ liệu cho ML. Ngoài ra, SageMaker Canvas loại bỏ sự phụ thuộc vào chuyên môn ML để xây dựng các mô hình chất lượng cao và tạo dự đoán.

Chúng tôi trình bày cách sử dụng dữ liệu Amazon DocumentDB để xây dựng mô hình ML trong SageMaker Canvas theo các bước sau:

  1. Tạo trình kết nối Amazon DocumentDB trong SageMaker Canvas.
  2. Phân tích dữ liệu bằng cách sử dụng AI tổng hợp.
  3. Chuẩn bị dữ liệu cho machine learning.
  4. Xây dựng mô hình và đưa ra dự đoán.

Điều kiện tiên quyết

Để triển khai giải pháp này, hãy hoàn thành các điều kiện tiên quyết sau:

  1. Có quyền truy cập của quản trị viên Đám mây AWS với Quản lý truy cập và nhận dạng AWS (TÔI LÀ) người sử dụng với các quyền cần thiết để hoàn tất quá trình tích hợp.
  2. Hoàn tất thiết lập môi trường bằng cách sử dụng Hình thành đám mây AWS thông qua một trong các tùy chọn sau:
    1. Triển khai mẫu CloudFormation vào VPC mới – Tùy chọn này xây dựng môi trường AWS mới bao gồm VPC, mạng con riêng tư, nhóm bảo mật, vai trò thực thi IAM, Amazon Cloud9, điểm cuối VPC bắt buộcMiền SageMaker. Sau đó, nó triển khai Amazon DocumentDB vào VPC mới này. Tải về mẫu hoặc khởi chạy nhanh ngăn xếp CloudFormation bằng cách chọn Khởi chạy Stack:
      Khởi chạy ngăn xếp CloudFormation
    2. Triển khai mẫu CloudFormation vào VPC hiện có – Tùy chọn này tạo các điểm cuối VPC bắt buộc, vai trò thực thi IAM và miền SageMaker trong VPC hiện có với các mạng con riêng tư. Tải về mẫu hoặc khởi chạy nhanh ngăn xếp CloudFormation bằng cách chọn Khởi chạy Stack:
      Khởi chạy ngăn xếp CloudFormation

Lưu ý rằng nếu bạn đang tạo miền SageMaker mới, bạn phải định cấu hình miền đó ở trong một VPC riêng tư không có quyền truy cập Internet để có thể thêm trình kết nối vào Amazon DocumentDB. Để tìm hiểu thêm, hãy tham khảo Định cấu hình Amazon SageMaker Canvas trong VPC mà không cần truy cập internet.

  1. Thực hiện theo các hướng dẫn để tải dữ liệu nhà hàng mẫu vào Amazon DocumentDB.
  2. Thêm quyền truy cập vào Amazon Bedrock và mô hình Anthropic Claude trong đó. Để biết thêm thông tin, xem Thêm quyền truy cập mô hình.

Tạo trình kết nối Amazon DocumentDB trong SageMaker Canvas

Sau khi bạn tạo miền SageMaker, hãy hoàn tất các bước sau:

  1. Trên bảng điều khiển Amazon DocumentDB, chọn Học máy không cần mã trong khung điều hướng.
  2. Theo Chọn một tên miền và hồ sơ¸ chọn miền SageMaker và hồ sơ người dùng của bạn.
  3. Chọn Khởi chạy Canvas để khởi chạy SageMaker Canvas trong tab mới.
    Sử dụng Amazon DocumentDB để xây dựng các giải pháp machine learning không cần mã trong Amazon SageMaker Canvas | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái.

Khi SageMaker Canvas tải xong, bạn sẽ đến Luồng dữ liệu tab.

  1. Chọn Tạo để tạo ra một luồng dữ liệu mới.
    Sử dụng Amazon DocumentDB để xây dựng các giải pháp machine learning không cần mã trong Amazon SageMaker Canvas | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái.
  2. Nhập tên cho luồng dữ liệu của bạn và chọn Tạo.
  3. Thêm kết nối Amazon DocumentDB mới bằng cách chọn Nhập dữ liệu, sau đó chọn Bảng cho Loại tập dữ liệu.
  4. trên Nhập dữ liệu trang, cho Nguồn dữ liệu, chọn Tài liệuDBThêm kết nối.
    Sử dụng Amazon DocumentDB để xây dựng các giải pháp machine learning không cần mã trong Amazon SageMaker Canvas | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái.
  5. Nhập tên kết nối, chẳng hạn như demo và chọn cụm Amazon DocumentDB mà bạn mong muốn.

Lưu ý rằng SageMaker Canvas sẽ điền trước menu thả xuống với các cụm trong cùng một VPC với miền SageMaker của bạn.

  1. Nhập tên người dùng, mật khẩu và tên cơ sở dữ liệu.
  2. Cuối cùng, chọn tùy chọn đọc của bạn.

Để bảo vệ hiệu suất của các phiên bản chính, SageMaker Canvas mặc định Trung, nghĩa là nó sẽ chỉ đọc từ các phiên bản phụ. Khi ưu tiên đọc là Ưu tiên thứ cấp, SageMaker Canvas đọc từ các phiên bản phụ có sẵn nhưng sẽ đọc từ phiên bản chính nếu không có phiên bản phụ. Để biết thêm thông tin về cách định cấu hình kết nối Amazon DocumentDB, hãy xem phần Kết nối với cơ sở dữ liệu được lưu trữ trong AWS.

  1. Chọn Thêm kết nối.
    Sử dụng Amazon DocumentDB để xây dựng các giải pháp machine learning không cần mã trong Amazon SageMaker Canvas | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái.

Nếu kết nối thành công, bạn sẽ thấy các bộ sưu tập trong cơ sở dữ liệu Amazon DocumentDB của mình được hiển thị dưới dạng bảng.

  1. Kéo bảng lựa chọn của bạn vào khung vẽ trống. Đối với bài đăng này, chúng tôi thêm dữ liệu nhà hàng của chúng tôi.

100 hàng đầu tiên được hiển thị dưới dạng bản xem trước.

  1. Để bắt đầu phân tích và chuẩn bị dữ liệu của bạn, hãy chọn Nhập dữ liệu.
    Sử dụng Amazon DocumentDB để xây dựng các giải pháp machine learning không cần mã trong Amazon SageMaker Canvas | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái.
  2. Nhập tên tập dữ liệu và chọn Nhập dữ liệu.

Phân tích dữ liệu bằng AI tổng quát

Tiếp theo, chúng tôi muốn hiểu rõ hơn về dữ liệu của mình và tìm kiếm các mẫu. SageMaker Canvas cung cấp giao diện ngôn ngữ tự nhiên để phân tích và chuẩn bị dữ liệu. Khi mà Ngày tải tab, bạn có thể bắt đầu trò chuyện với dữ liệu của mình bằng các bước sau:

  1. Chọn Trò chuyện để chuẩn bị dữ liệu.
    Sử dụng Amazon DocumentDB để xây dựng các giải pháp machine learning không cần mã trong Amazon SageMaker Canvas | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái.
  2. Thu thập thông tin chi tiết về dữ liệu của bạn bằng cách đặt các câu hỏi giống như các mẫu được hiển thị trong ảnh chụp màn hình sau.
    Sử dụng Amazon DocumentDB để xây dựng các giải pháp machine learning không cần mã trong Amazon SageMaker Canvas | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái.

Để tìm hiểu thêm về cách sử dụng ngôn ngữ tự nhiên để khám phá và chuẩn bị dữ liệu, hãy tham khảo Sử dụng ngôn ngữ tự nhiên để khám phá và chuẩn bị dữ liệu với khả năng mới của Amazon SageMaker Canvas.

Hãy hiểu sâu hơn về chất lượng dữ liệu của chúng tôi bằng cách sử dụng Báo cáo thông tin chi tiết và chất lượng dữ liệu SageMaker Canvas, báo cáo này tự động đánh giá chất lượng dữ liệu và phát hiện những bất thường.

  1. trên phân tích tab, chọn Báo cáo chất lượng dữ liệu và thông tin chi tiết.
  2. Chọn rating làm cột mục tiêu và Hồi quy làm loại vấn đề, sau đó chọn Tạo.

Điều này sẽ mô phỏng việc đào tạo mô hình và cung cấp thông tin chi tiết về cách chúng tôi có thể cải thiện dữ liệu cho máy học. Báo cáo hoàn chỉnh được tạo ra trong vài phút.

Báo cáo của chúng tôi cho thấy rằng 2.47% hàng trong mục tiêu của chúng tôi thiếu giá trị—chúng tôi sẽ giải quyết vấn đề đó trong bước tiếp theo. Ngoài ra, phân tích cho thấy rằng address line 2, nametype_of_food các tính năng có sức mạnh dự đoán cao nhất trong dữ liệu của chúng tôi. Điều này cho thấy thông tin cơ bản về nhà hàng như vị trí và ẩm thực có thể có tác động lớn đến xếp hạng.

Sử dụng Amazon DocumentDB để xây dựng các giải pháp machine learning không cần mã trong Amazon SageMaker Canvas | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái.

Chuẩn bị dữ liệu cho machine learning

SageMaker Canvas cung cấp hơn 300 phép biến đổi tích hợp để chuẩn bị dữ liệu đã nhập của bạn. Để biết thêm thông tin về các tính năng chuyển đổi của SageMaker Canvas, hãy tham khảo Chuẩn bị dữ liệu với các phép biến đổi nâng cao. Hãy thêm một số phép biến đổi để dữ liệu của chúng ta sẵn sàng cho việc huấn luyện mô hình ML.

  1. Điều hướng trở lại Dòng dữ liệu trang bằng cách chọn tên luồng dữ liệu của bạn ở đầu trang.
  2. Chọn dấu cộng bên cạnh Loại dữ liệu Và chọn Thêm biến đổi.
    Sử dụng Amazon DocumentDB để xây dựng các giải pháp machine learning không cần mã trong Amazon SageMaker Canvas | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái.
  3. Chọn Thêm bước.
  4. Hãy đổi tên address line 2 cột đến cities.
    1. Chọn Quản lý các cột.
    2. Chọn Đổi tên cột cho Chuyển đổi.
    3. Chọn address line 2 cho Cột đầu vào, đi vào cities cho Tên mới, và lựa chọn Thêm.
      Sử dụng Amazon DocumentDB để xây dựng các giải pháp machine learning không cần mã trong Amazon SageMaker Canvas | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái.
  5. Ngoài ra, hãy bỏ đi một số cột không cần thiết.
    1. Thêm một biến đổi mới.
    2. Trong Chuyển đổi, chọn Thả cột.
    3. Trong Các cột để thả, chọn URLrestaurant_id.
    4. Chọn Thêm.
      Sử dụng Amazon DocumentDB để xây dựng các giải pháp machine learning không cần mã trong Amazon SageMaker Canvas | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái.[
  6. Của chúng tôi rating cột tính năng có một số giá trị bị thiếu, vì vậy hãy điền vào các hàng đó giá trị trung bình của cột này.
    1. Thêm một biến đổi mới.
    2. Trong Chuyển đổi, chọn quy tội.
    3. Trong Loại cột, chọn Numeric.
    4. Trong Các cột đầu vào, chọn rating cột.
    5. Trong chiến lược áp đặt, chọn Nghĩa là.
    6. Trong Cột đầu ra, đi vào rating_avg_filled.
    7. Chọn Thêm.
      Sử dụng Amazon DocumentDB để xây dựng các giải pháp machine learning không cần mã trong Amazon SageMaker Canvas | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái.
  7. Chúng ta có thể bỏ rating cột vì chúng ta có một cột mới chứa các giá trị đã được điền.
  8. Bởi vì type_of_food về bản chất là phân loại, chúng tôi sẽ muốn mã hóa nó bằng số. Hãy mã hóa tính năng này bằng kỹ thuật mã hóa one-hot.
    1. Thêm một biến đổi mới.
    2. Trong Chuyển đổi, chọn Mã hóa một nóng.
    3. Đối với cột Đầu vào, chọn type_of_food.
    4. Trong Chiến lược xử lý không hợp lệchọn Giữ.
    5. Trong Kiểu đầu rachọn Cột.
    6. Trong Cột đầu ra, đi vào encoded.
    7. Chọn Thêm.
      Sử dụng Amazon DocumentDB để xây dựng các giải pháp machine learning không cần mã trong Amazon SageMaker Canvas | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái.

Xây dựng mô hình và đưa ra dự đoán

Bây giờ chúng ta đã chuyển đổi dữ liệu của mình, hãy huấn luyện một mô hình ML số để dự đoán xếp hạng cho các nhà hàng.

  1. Chọn Tạo mô hình.
  2. Trong Tên tập dữ liệu, nhập tên để xuất tập dữ liệu.
  3. Chọn Xuất khẩu và chờ dữ liệu được chuyển đổi được xuất.
    Sử dụng Amazon DocumentDB để xây dựng các giải pháp machine learning không cần mã trong Amazon SageMaker Canvas | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái.
  4. Chọn Tạo mô hình liên kết ở góc dưới bên trái của trang.

Bạn cũng có thể chọn tập dữ liệu từ tính năng Data Wrangler ở bên trái trang.

Sử dụng Amazon DocumentDB để xây dựng các giải pháp machine learning không cần mã trong Amazon SageMaker Canvas | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái.

  1. Nhập tên mẫu.
  2. Chọn Phân tích tiên đoán, sau đó chọn Tạo.
  3. Chọn rating_avg_filled làm cột mục tiêu.

SageMaker Canvas tự động chọn loại mô hình phù hợp.

  1. Chọn Xem trước mô hình để đảm bảo không có vấn đề về chất lượng dữ liệu.
  2. Chọn Xây dựng nhanh chóng để xây dựng mô hình.
    Sử dụng Amazon DocumentDB để xây dựng các giải pháp machine learning không cần mã trong Amazon SageMaker Canvas | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái.

Quá trình tạo mô hình sẽ mất khoảng 2–15 phút để hoàn thành.

Bạn có thể xem trạng thái mô hình sau khi mô hình kết thúc quá trình đào tạo. Mô hình của chúng tôi có RSME là 0.422, có nghĩa là mô hình thường dự đoán xếp hạng của một nhà hàng trong khoảng +/- 0.422 so với giá trị thực tế, một xấp xỉ chắc chắn cho thang xếp hạng từ 1–6.

Sử dụng Amazon DocumentDB để xây dựng các giải pháp machine learning không cần mã trong Amazon SageMaker Canvas | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái.

  1. Cuối cùng, bạn có thể tạo dự đoán mẫu bằng cách điều hướng đến Dự đoán tab.
    Sử dụng Amazon DocumentDB để xây dựng các giải pháp machine learning không cần mã trong Amazon SageMaker Canvas | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái.

Làm sạch

Để tránh phát sinh phí trong tương lai, hãy xóa tài nguyên bạn đã tạo khi theo dõi bài đăng này. SageMaker Canvas tính phí cho bạn trong suốt phiên và chúng tôi khuyên bạn nên đăng xuất khỏi SageMaker Canvas khi không sử dụng. tham khảo Đăng xuất khỏi Amazon SageMaker Canvas để biết thêm chi tiết.

Kết luận

Trong bài đăng này, chúng tôi đã thảo luận về cách bạn có thể sử dụng SageMaker Canvas cho AI và ML tổng hợp với dữ liệu được lưu trữ trong Amazon DocumentDB. Trong ví dụ của chúng tôi, chúng tôi đã chỉ ra cách một nhà phân tích có thể nhanh chóng xây dựng mô hình ML chất lượng cao bằng cách sử dụng tập dữ liệu mẫu về nhà hàng.

Chúng tôi đã trình bày các bước để triển khai giải pháp, từ nhập dữ liệu từ Amazon DocumentDB đến xây dựng mô hình ML trong SageMaker Canvas. Toàn bộ quá trình được hoàn thành thông qua giao diện trực quan mà không cần viết một dòng mã nào.

Để bắt đầu hành trình ML mã thấp/không mã của bạn, hãy tham khảo Canvas SageMaker của Amazon.


Giới thiệu về tác giả

Sử dụng Amazon DocumentDB để xây dựng các giải pháp machine learning không cần mã trong Amazon SageMaker Canvas | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái.Adeleke Coker là Kiến trúc sư Giải pháp Toàn cầu của AWS. Anh ấy làm việc với khách hàng trên toàn cầu để cung cấp hướng dẫn và hỗ trợ kỹ thuật trong việc triển khai khối lượng công việc sản xuất trên quy mô lớn trên AWS. Trong thời gian rảnh rỗi, anh ấy thích học, đọc sách, chơi game và xem các sự kiện thể thao.

Sử dụng Amazon DocumentDB để xây dựng các giải pháp machine learning không cần mã trong Amazon SageMaker Canvas | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái. Gururaj S Bayari là Kiến trúc sư giải pháp chuyên gia DocumentDB cấp cao tại AWS. Anh ấy thích giúp đỡ khách hàng sử dụng cơ sở dữ liệu được xây dựng có mục đích của Amazon. Anh ấy giúp khách hàng thiết kế, đánh giá và tối ưu hóa quy mô internet cũng như khối lượng công việc hiệu suất cao được cung cấp bởi cơ sở dữ liệu NoSQL và/hoặc Quan hệ.

Sử dụng Amazon DocumentDB để xây dựng các giải pháp machine learning không cần mã trong Amazon SageMaker Canvas | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái.Tim Pusateri là Giám đốc sản phẩm cấp cao tại AWS, nơi anh làm việc trên Amazon SageMaker Canvas. Mục tiêu của anh là giúp khách hàng nhanh chóng nhận được giá trị từ AI/ML. Ngoài công việc, anh ấy thích hoạt động ngoài trời, chơi ghi-ta, xem nhạc sống và dành thời gian cho gia đình và bạn bè.

Sử dụng Amazon DocumentDB để xây dựng các giải pháp machine learning không cần mã trong Amazon SageMaker Canvas | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái.Pratik Das là Giám đốc sản phẩm tại AWS. Anh thích làm việc với những khách hàng đang tìm cách xây dựng khối lượng công việc linh hoạt và nền tảng dữ liệu vững chắc trên đám mây. Ông mang đến kiến ​​thức chuyên môn khi làm việc với các doanh nghiệp về các sáng kiến ​​hiện đại hóa, phân tích và chuyển đổi dữ liệu.

Sử dụng Amazon DocumentDB để xây dựng các giải pháp machine learning không cần mã trong Amazon SageMaker Canvas | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái.Varma Gottumukkala là Kiến trúc sư giải pháp chuyên gia cơ sở dữ liệu cấp cao tại AWS có trụ sở tại Dallas Fort Worth. Varma làm việc với khách hàng về chiến lược cơ sở dữ liệu và kiến ​​trúc khối lượng công việc của họ bằng cách sử dụng cơ sở dữ liệu được xây dựng theo mục đích của AWS. Trước khi gia nhập AWS, ông đã làm việc chuyên sâu với cơ sở dữ liệu quan hệ, cơ sở dữ liệu NOSQL và nhiều ngôn ngữ lập trình trong 22 năm qua.

Dấu thời gian:

Thêm từ Học máy AWS