Bài đăng này được đồng viết bởi Jyoti Sharma và Sharmo Sarkar từ Vericast.
Đối với bất kỳ vấn đề nào về máy học (ML), nhà khoa học dữ liệu bắt đầu bằng cách làm việc với dữ liệu. Điều này bao gồm thu thập, khám phá và hiểu các khía cạnh kinh doanh và kỹ thuật của dữ liệu, cùng với việc đánh giá mọi thao tác có thể cần thiết cho quy trình xây dựng mô hình. Một khía cạnh của việc chuẩn bị dữ liệu này là kỹ thuật tính năng.
Kỹ thuật tính năng đề cập đến quy trình trong đó các biến có liên quan được xác định, chọn và thao tác để chuyển đổi dữ liệu thô thành các dạng hữu ích và có thể sử dụng hơn để sử dụng với thuật toán ML được sử dụng để huấn luyện mô hình và thực hiện suy luận dựa trên mô hình đó. Mục tiêu của quá trình này là tăng hiệu suất của thuật toán và kết quả là mô hình dự đoán. Quy trình kỹ thuật tính năng bao gồm một số giai đoạn, bao gồm tạo tính năng, chuyển đổi dữ liệu, trích xuất tính năng và lựa chọn tính năng.
Xây dựng một nền tảng cho kỹ thuật tính năng tổng quát là một nhiệm vụ phổ biến đối với những khách hàng cần sản xuất nhiều mô hình ML với các bộ dữ liệu khác nhau. Loại nền tảng này bao gồm việc tạo ra một quy trình được điều khiển theo chương trình để tạo ra dữ liệu được thiết kế theo tính năng, hoàn thiện, sẵn sàng cho việc đào tạo mô hình mà ít có sự can thiệp của con người. Tuy nhiên, khái quát hóa kỹ thuật tính năng là một thách thức. Mỗi vấn đề kinh doanh là khác nhau, mỗi bộ dữ liệu là khác nhau, khối lượng dữ liệu rất khác nhau giữa các khách hàng và chất lượng dữ liệu cũng như tính chính xác của một cột nhất định (trong trường hợp dữ liệu có cấu trúc) có thể đóng một vai trò quan trọng trong sự phức tạp của kỹ thuật tính năng quá trình. Ngoài ra, tính chất động của dữ liệu của khách hàng cũng có thể dẫn đến sự chênh lệch lớn về thời gian xử lý và tài nguyên cần thiết để hoàn thành kỹ thuật tính năng một cách tối ưu.
khách hàng AWS xác thực là một công ty giải pháp tiếp thị đưa ra các quyết định dựa trên dữ liệu để tăng ROI tiếp thị cho khách hàng của mình. Nền tảng Machine Learning dựa trên đám mây nội bộ của Vericast, được xây dựng dựa trên quy trình CRISP-ML(Q), sử dụng nhiều dịch vụ AWS khác nhau, bao gồm Amazon SageMaker, Chế biến Amazon SageMaker, AWS Lambdavà Chức năng bước AWS, để tạo ra các mô hình tốt nhất có thể phù hợp với dữ liệu của khách hàng cụ thể. Nền tảng này nhằm mục đích nắm bắt khả năng lặp lại của các bước xây dựng các quy trình công việc ML khác nhau và gộp chúng thành các mô-đun quy trình công việc có thể khái quát hóa tiêu chuẩn trong nền tảng.
Trong bài đăng này, chúng tôi chia sẻ cách Vericast tối ưu hóa tính năng kỹ thuật bằng SageMaker Xử lý.
Tổng quan về giải pháp
Nền tảng học máy của Vericast hỗ trợ triển khai nhanh hơn các mô hình kinh doanh mới dựa trên quy trình công việc hiện có hoặc kích hoạt nhanh hơn các mô hình hiện có cho khách hàng mới. Ví dụ: mô hình dự đoán xu hướng gửi thư trực tiếp hoàn toàn khác với mô hình dự đoán mức độ nhạy cảm với phiếu giảm giá của khách hàng của khách hàng Vericast. Chúng giải quyết các vấn đề kinh doanh khác nhau và do đó có các kịch bản sử dụng khác nhau trong thiết kế chiến dịch tiếp thị. Nhưng từ quan điểm ML, cả hai có thể được hiểu là mô hình phân loại nhị phân và do đó có thể chia sẻ nhiều bước chung từ góc độ quy trình làm việc ML, bao gồm điều chỉnh và đào tạo mô hình, đánh giá, khả năng diễn giải, triển khai và suy luận.
Vì các mô hình này là các bài toán phân loại nhị phân (theo thuật ngữ ML), nên chúng tôi đang tách khách hàng của một công ty thành hai loại (nhị phân): những nhóm sẽ phản hồi tích cực với chiến dịch và những nhóm không phản hồi. Hơn nữa, những ví dụ này được coi là phân loại không cân bằng vì dữ liệu được sử dụng để đào tạo mô hình sẽ không chứa số lượng khách hàng sẽ và sẽ không phản hồi thuận lợi như nhau.
Việc tạo ra một mô hình thực sự như thế này tuân theo mô hình tổng quát được thể hiện trong sơ đồ sau.
Hầu hết quy trình này giống nhau đối với bất kỳ phân loại nhị phân nào ngoại trừ bước kỹ thuật tính năng. Đây có lẽ là bước phức tạp nhất nhưng đôi khi bị bỏ qua trong quy trình. Các mô hình ML chủ yếu phụ thuộc vào các tính năng được sử dụng để tạo ra nó.
Nền tảng Machine Learning dựa trên đám mây của Vericast nhằm mục đích khái quát hóa và tự động hóa các bước kỹ thuật tính năng cho các quy trình ML khác nhau và tối ưu hóa hiệu suất của chúng trên chỉ số chi phí so với thời gian bằng cách sử dụng các tính năng sau:
- Thư viện kỹ thuật tính năng của nền tảng – Điều này bao gồm một tập hợp các biến đổi không ngừng phát triển đã được thử nghiệm để mang lại các tính năng có thể khái quát hóa chất lượng cao dựa trên các khái niệm khách hàng cụ thể (ví dụ: nhân khẩu học của khách hàng, chi tiết sản phẩm, chi tiết giao dịch, v.v.).
- Trình tối ưu hóa tài nguyên thông minh – Nền tảng này sử dụng khả năng cơ sở hạ tầng theo yêu cầu của AWS để tạo ra loại tài nguyên xử lý tối ưu nhất cho công việc kỹ thuật tính năng cụ thể dựa trên mức độ phức tạp dự kiến của bước và lượng dữ liệu cần để xử lý.
- Mở rộng quy mô động của các công việc kỹ thuật tính năng – Một sự kết hợp của nhiều dịch vụ AWS khác nhau được sử dụng cho việc này, nhưng đáng chú ý nhất là Xử lý SageMaker. Điều này đảm bảo rằng nền tảng tạo ra các tính năng chất lượng cao một cách tiết kiệm chi phí và kịp thời.
Bài đăng này tập trung vào điểm thứ ba trong danh sách này và cho biết cách đạt được quy mô động của các công việc Xử lý SageMaker để đạt được khung xử lý dữ liệu được quản lý, hiệu quả và tiết kiệm chi phí hơn cho khối lượng dữ liệu lớn.
Xử lý SageMaker cho phép khối lượng công việc chạy các bước để xử lý trước hoặc xử lý sau dữ liệu, kỹ thuật tính năng, xác thực dữ liệu và đánh giá mô hình trên SageMaker. Nó cũng cung cấp một môi trường được quản lý và loại bỏ sự phức tạp của việc nâng hạng nặng không phân biệt cần thiết để thiết lập và duy trì cơ sở hạ tầng cần thiết để chạy khối lượng công việc. Hơn nữa, Xử lý SageMaker cung cấp giao diện API để chạy, giám sát và đánh giá khối lượng công việc.
Đang chạy SageMaker Các công việc xử lý diễn ra hoàn toàn trong một cụm SageMaker được quản lý, với các công việc riêng lẻ được đặt vào các thùng chứa phiên bản trong thời gian chạy. Cụm, phiên bản và vùng chứa được quản lý báo cáo các chỉ số cho amazoncloudwatch, bao gồm việc sử dụng GPU, CPU, bộ nhớ, bộ nhớ GPU, chỉ số ổ đĩa và ghi nhật ký sự kiện.
Các tính năng này mang lại lợi ích cho các nhà khoa học và kỹ sư dữ liệu Vericast bằng cách hỗ trợ phát triển quy trình tiền xử lý tổng quát và trừu tượng hóa khó khăn trong việc duy trì môi trường được tạo để chạy chúng. Tuy nhiên, các vấn đề kỹ thuật có thể phát sinh do tính chất động của dữ liệu và các tính năng đa dạng của nó có thể được đưa vào một giải pháp chung như vậy. Hệ thống phải đưa ra dự đoán ban đầu có giáo dục về kích thước của cụm và các phiên bản cấu thành nó. Dự đoán này cần đánh giá các tiêu chí của dữ liệu và suy ra các yêu cầu về CPU, bộ nhớ và đĩa. Dự đoán này có thể hoàn toàn phù hợp và thực hiện đầy đủ cho công việc, nhưng trong những trường hợp khác thì có thể không. Đối với một công việc tiền xử lý và tập dữ liệu nhất định, CPU có thể không đủ kích thước, dẫn đến hiệu suất xử lý đạt mức tối đa và thời gian hoàn thành kéo dài. Tệ hơn nữa, bộ nhớ có thể trở thành một vấn đề, dẫn đến hiệu suất kém hoặc các sự kiện hết bộ nhớ khiến toàn bộ công việc không thành công.
Lưu ý đến những rào cản kỹ thuật này, Vericast bắt đầu tạo ra một giải pháp. Chúng cần duy trì bản chất chung chung và phù hợp với bức tranh lớn hơn về quy trình tiền xử lý linh hoạt trong các bước liên quan. Điều quan trọng là phải giải quyết cả nhu cầu tiềm năng để mở rộng quy mô môi trường trong trường hợp hiệu suất bị ảnh hưởng và phục hồi một cách duyên dáng sau sự kiện như vậy hoặc khi một công việc kết thúc sớm vì bất kỳ lý do gì.
Giải pháp do Vericast xây dựng để giải quyết vấn đề này sử dụng một số dịch vụ AWS hoạt động cùng nhau để đạt được mục tiêu kinh doanh của họ. Nó được thiết kế để khởi động lại và mở rộng quy mô cụm Xử lý SageMaker dựa trên các chỉ số hiệu suất được quan sát bằng cách sử dụng các hàm Lambda giám sát công việc. Để không bị mất việc khi một sự kiện mở rộng quy mô diễn ra hoặc để phục hồi sau khi một công việc bị dừng đột ngột, một dịch vụ dựa trên điểm kiểm tra đã được đưa ra sử dụng Máy phát điện Amazon và lưu trữ dữ liệu được xử lý một phần trong Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3) khi các bước hoàn tất. Kết quả cuối cùng là một giải pháp tự động mở rộng quy mô, mạnh mẽ và được giám sát linh hoạt.
Sơ đồ sau đây cho thấy tổng quan cấp cao về cách thức hoạt động của hệ thống.
Trong các phần sau, chúng ta sẽ thảo luận chi tiết hơn về các thành phần của giải pháp.
Khởi tạo giải pháp
Hệ thống giả định rằng một quy trình riêng biệt sẽ bắt đầu giải pháp. Ngược lại, thiết kế này không được thiết kế để hoạt động một mình vì nó sẽ không tạo ra bất kỳ thành phần tạo tác hoặc đầu ra nào, mà hoạt động như một triển khai phụ cho một trong các hệ thống sử dụng công việc Xử lý SageMaker. Trong trường hợp của Vericast, giải pháp được bắt đầu bằng cách gọi từ bước Step Functions bắt đầu trong một mô-đun khác của hệ thống lớn hơn.
Sau khi giải pháp bắt đầu và lần chạy đầu tiên được kích hoạt, cấu hình tiêu chuẩn cơ sở sẽ được đọc từ bảng DynamoDB. Cấu hình này được sử dụng để đặt tham số cho công việc Xử lý SageMaker và có các giả định ban đầu về nhu cầu cơ sở hạ tầng. Công việc Xử lý SageMaker hiện đã bắt đầu.
Giám sát siêu dữ liệu và đầu ra
Khi công việc bắt đầu, một hàm Lambda ghi siêu dữ liệu xử lý công việc (cấu hình công việc hiện tại và thông tin nhật ký khác) vào bảng nhật ký DynamoDB. Thông tin nhật ký và siêu dữ liệu này duy trì lịch sử của công việc, cấu hình ban đầu và liên tục của công việc cũng như các dữ liệu quan trọng khác.
Tại một số điểm nhất định, khi hoàn thành các bước trong công việc, dữ liệu điểm kiểm tra sẽ được thêm vào bảng nhật ký DynamoDB. Dữ liệu đầu ra đã xử lý được chuyển sang Amazon S3 để phục hồi nhanh chóng nếu cần.
Hàm Lambda này cũng thiết lập một Sự kiện Amazon quy tắc giám sát công việc đang chạy cho trạng thái của nó. Cụ thể, quy tắc này đang theo dõi công việc để quan sát nếu trạng thái công việc thay đổi thành stopping
hoặc là trong một stopped
tình trạng. Quy tắc EventBridge này đóng một vai trò quan trọng trong việc khởi động lại công việc nếu xảy ra lỗi hoặc xảy ra sự kiện tự động thay đổi quy mô theo kế hoạch.
Giám sát số liệu CloudWatch
Hàm Lambda cũng đặt cảnh báo CloudWatch dựa trên biểu thức toán học chỉ số trong tác vụ xử lý, theo dõi chỉ số của tất cả các phiên bản về mức sử dụng CPU, mức sử dụng bộ nhớ và mức sử dụng ổ đĩa. Loại cảnh báo (số liệu) này sử dụng ngưỡng cảnh báo của CloudWatch. Cảnh báo tạo các sự kiện dựa trên giá trị của chỉ số hoặc biểu thức liên quan đến các ngưỡng trong một số khoảng thời gian.
Trong trường hợp sử dụng của Vericast, biểu thức ngưỡng được thiết kế để xem xét các phiên bản trình điều khiển và trình thực thi là riêng biệt, với các số liệu được theo dõi riêng cho từng phiên bản. Bằng cách tách chúng ra, Vericast biết cái nào gây ra báo động. Điều này rất quan trọng để quyết định cách mở rộng quy mô cho phù hợp:
- Nếu số liệu của người thực thi vượt qua ngưỡng, bạn nên chia tỷ lệ theo chiều ngang
- Nếu số liệu trình điều khiển vượt qua ngưỡng, việc chia tỷ lệ theo chiều ngang có thể sẽ không hữu ích, vì vậy chúng tôi phải chia tỷ lệ theo chiều dọc
Biểu thức chỉ số cảnh báo
Vericast có thể truy cập các chỉ số sau trong quá trình đánh giá quy mô và lỗi:
- Sử dụng CPU – Tổng mức sử dụng của từng lõi CPU riêng lẻ
- Bộ nhớ – Phần trăm bộ nhớ được sử dụng bởi các vùng chứa trên một phiên bản
- Sử dụng đĩa – Tỷ lệ phần trăm dung lượng ổ đĩa được sử dụng bởi các bộ chứa trên một phiên bản
- Sử dụng GPU – Tỷ lệ phần trăm đơn vị GPU được bộ chứa sử dụng trên một phiên bản
- GPUMemorySử dụng – Tỷ lệ phần trăm bộ nhớ GPU được sử dụng bởi các bộ chứa trên một phiên bản
Khi viết bài này, Vericast chỉ xem xét CPUUtilization
, MemoryUtilization
và DiskUtilization
. Trong tương lai, họ có ý định xem xét GPUUtilization
và GPUMemoryUtilization
là tốt.
Mã sau đây là một ví dụ về cảnh báo CloudWatch dựa trên biểu thức toán học số liệu cho tính năng tự động thay đổi quy mô của Vericast:
Biểu thức này minh họa rằng cảnh báo CloudWatch đang xem xét DriverMemoryUtilization (memoryDriver)
, CPUUtilization (cpuDriver)
, DiskUtilization (diskDriver)
, ExecutorMemoryUtilization (memoryExec)
, CPUUtilization (cpuExec)
và DiskUtilization (diskExec)
như các chỉ số giám sát. Số 80 trong biểu thức trước là viết tắt của giá trị ngưỡng.
Ở đây, IF((cpuDriver) > 80, 1, 0
ngụ ý rằng nếu mức sử dụng CPU của trình điều khiển vượt quá 80%, thì 1 được chỉ định làm ngưỡng khác 0. IF(AVG(METRICS("memoryExec")) > 80, 1, 0
ngụ ý rằng tất cả các số liệu với chuỗi memoryExec
trong đó được xem xét và trung bình được tính trên đó. Nếu phần trăm sử dụng bộ nhớ trung bình đó vượt quá 80, thì 1 được chỉ định làm ngưỡng khác 0.
Toán tử logic OR
được sử dụng trong biểu thức để hợp nhất tất cả các hoạt động sử dụng trong biểu thức—nếu bất kỳ hoạt động sử dụng nào đạt đến ngưỡng của nó, hãy kích hoạt cảnh báo.
Để biết thêm thông tin về cách sử dụng cảnh báo số liệu của CloudWatch dựa trên các biểu thức toán học số liệu, hãy tham khảo Tạo cảnh báo CloudWatch dựa trên biểu thức toán số liệu.
Giới hạn cảnh báo của CloudWatch
CloudWatch giới hạn số lượng chỉ số cho mỗi cảnh báo là 10. Điều này có thể gây ra hạn chế nếu bạn cần xem xét nhiều chỉ số hơn mức này.
Để khắc phục hạn chế này, Vericast đã đặt cảnh báo dựa trên kích thước tổng thể của cụm. Một cảnh báo được tạo cho mỗi ba phiên bản (đối với ba phiên bản, sẽ có một cảnh báo vì điều đó sẽ thêm tối đa chín chỉ số). Giả sử phiên bản trình điều khiển được xem xét riêng, thì một cảnh báo riêng khác sẽ được tạo cho phiên bản trình điều khiển. Do đó, tổng số cảnh báo được tạo gần tương đương với một phần ba số nút thực thi và một nút bổ sung cho phiên bản trình điều khiển. Trong mỗi trường hợp, số lượng chỉ số trên mỗi cảnh báo nằm dưới giới hạn 10 chỉ số.
Điều gì xảy ra khi ở trạng thái báo động
Nếu đạt đến ngưỡng xác định trước, báo thức sẽ chuyển sang trạng thái alarm
nhà nước, trong đó sử dụng Dịch vụ thông báo đơn giản của Amazon (Amazon SNS) để gửi thông báo. Trong trường hợp này, nó sẽ gửi thông báo qua email tới tất cả người đăng ký với thông tin chi tiết về cảnh báo trong tin nhắn.
Amazon SNS cũng được sử dụng làm công cụ kích hoạt một chức năng Lambda dừng công việc Xử lý SageMaker hiện đang chạy vì chúng tôi biết rằng công việc đó có thể sẽ không thành công. Chức năng này cũng ghi nhật ký vào bảng nhật ký liên quan đến sự kiện.
Quy tắc EventBridge được thiết lập khi bắt đầu công việc sẽ thông báo rằng công việc đã đi vào giai đoạn stopping
trạng thái một vài giây sau đó. Sau đó, quy tắc này sẽ chạy lại hàm Lambda đầu tiên để bắt đầu lại công việc.
Quá trình mở rộng động
Hàm Lambda đầu tiên sau khi chạy hai lần trở lên sẽ biết rằng một công việc trước đó đã bắt đầu và hiện đã dừng. Hàm này sẽ trải qua quá trình tương tự để nhận cấu hình cơ sở từ công việc ban đầu trong bảng nhật ký DynamoDB và cũng sẽ truy xuất cấu hình đã cập nhật từ bảng nội bộ. Cấu hình được cập nhật này là cấu hình đồng bằng tài nguyên được đặt dựa trên loại tỷ lệ. Loại chia tỷ lệ được xác định từ siêu dữ liệu cảnh báo như được mô tả trước đó.
Cấu hình ban đầu cộng với delta tài nguyên được sử dụng vì một cấu hình mới và công việc Xử lý SageMaker mới được bắt đầu với các tài nguyên tăng lên.
Quá trình này tiếp tục cho đến khi công việc hoàn tất thành công và có thể dẫn đến nhiều lần khởi động lại nếu cần, thêm nhiều tài nguyên hơn mỗi lần.
Kết quả của Vericast
Giải pháp thay đổi quy mô tự động tùy chỉnh này đã góp phần làm cho Nền tảng học máy của Vericast trở nên mạnh mẽ hơn và có khả năng chịu lỗi cao hơn. Giờ đây, nền tảng này có thể xử lý khối lượng công việc của các khối lượng dữ liệu khác nhau một cách duyên dáng với sự can thiệp tối thiểu của con người.
Trước khi triển khai giải pháp này, việc ước tính các yêu cầu tài nguyên cho tất cả các mô-đun dựa trên Spark trong quy trình là một trong những trở ngại lớn nhất của quy trình giới thiệu ứng dụng khách mới. Quy trình công việc sẽ không thành công nếu khối lượng dữ liệu khách hàng tăng lên hoặc chi phí sẽ không hợp lý nếu khối lượng dữ liệu giảm trong quá trình sản xuất.
Với mô-đun mới này, các lỗi quy trình công việc do hạn chế về tài nguyên đã giảm gần 80%. Một số lỗi còn lại hầu hết là do hạn chế về tài khoản AWS và ngoài quy trình tự động mở rộng quy mô. Chiến thắng lớn nhất của Vericast với giải pháp này là họ có thể dễ dàng đưa vào các khách hàng và quy trình làm việc mới. Vericast dự kiến sẽ tăng tốc quá trình lên ít nhất 60–70%, với dữ liệu vẫn đang được thu thập để đưa ra con số cuối cùng.
Mặc dù đây được coi là một thành công của Vericast, nhưng có một chi phí đi kèm với nó. Dựa trên bản chất của mô-đun này và khái niệm thay đổi quy mô động nói chung, quy trình công việc có xu hướng mất khoảng 30% thời gian (trường hợp trung bình) lâu hơn so với quy trình làm việc có cụm được điều chỉnh tùy chỉnh cho từng mô-đun trong quy trình làm việc. Vericast tiếp tục tối ưu hóa trong lĩnh vực này, tìm cách cải thiện giải pháp bằng cách kết hợp khởi tạo tài nguyên dựa trên kinh nghiệm cho từng mô-đun máy khách.
Sharmo Sarkar, Giám đốc cấp cao, Nền tảng máy học tại Vericast, cho biết: “Khi chúng tôi tiếp tục mở rộng việc sử dụng AWS và SageMaker, tôi muốn dành một chút thời gian để nêu bật thành quả đáng kinh ngạc của Nhóm dịch vụ khách hàng AWS của chúng tôi, các Kiến trúc sư giải pháp AWS tận tâm, và Dịch vụ chuyên nghiệp AWS mà chúng tôi làm việc cùng. Sự hiểu biết sâu sắc của họ về AWS và SageMaker đã cho phép chúng tôi thiết kế một giải pháp đáp ứng mọi nhu cầu của chúng tôi, đồng thời cung cấp cho chúng tôi tính linh hoạt và khả năng mở rộng mà chúng tôi yêu cầu. Chúng tôi rất biết ơn khi có một nhóm hỗ trợ tài năng và hiểu biết như vậy về phía chúng tôi.”
Kết luận
Trong bài đăng này, chúng tôi đã chia sẻ cách SageMaker và SageMaker Xử lý đã cho phép Vericast xây dựng khung xử lý dữ liệu được quản lý, hiệu quả và tiết kiệm chi phí cho khối lượng dữ liệu lớn. Bằng cách kết hợp sức mạnh và tính linh hoạt của Xử lý SageMaker với các dịch vụ AWS khác, họ có thể dễ dàng theo dõi quy trình kỹ thuật tính năng chung. Chúng có thể tự động phát hiện các sự cố tiềm ẩn do thiếu điện toán, bộ nhớ và các yếu tố khác, đồng thời tự động triển khai chia tỷ lệ theo chiều dọc và chiều ngang khi cần.
SageMaker và các công cụ của nó cũng có thể giúp nhóm của bạn đạt được các mục tiêu ML. Để tìm hiểu thêm về Xử lý SageMaker và cách nó có thể hỗ trợ khối lượng công việc xử lý dữ liệu của bạn, hãy tham khảo Xử lý dữ liệu. Nếu bạn mới bắt đầu với ML và đang tìm kiếm các ví dụ và hướng dẫn, Khởi động Amazon SageMaker có thể giúp bạn bắt đầu. JumpStart là một trung tâm ML mà từ đó bạn có thể truy cập các thuật toán tích hợp với các mô hình nền tảng được đào tạo trước để giúp bạn thực hiện các tác vụ như tóm tắt bài viết và tạo hình ảnh cũng như các giải pháp dựng sẵn để giải quyết các trường hợp sử dụng phổ biến.
Cuối cùng, nếu bài đăng này giúp bạn hoặc truyền cảm hứng cho bạn giải quyết vấn đề, chúng tôi rất muốn nghe về nó! Xin vui lòng chia sẻ ý kiến và phản hồi của bạn.
Về các tác giả
Anthony McClure là Kiến trúc sư giải pháp đối tác cấp cao của nhóm AWS SaaS Factory. Anthony cũng rất quan tâm đến machine learning và trí tuệ nhân tạo khi làm việc với Cộng đồng lĩnh vực kỹ thuật AWS ML/AI để hỗ trợ khách hàng đưa các giải pháp machine learning của họ vào thực tế.
Jyoti Sharma là Kỹ sư khoa học dữ liệu với nhóm nền tảng máy học tại Vericast. Cô ấy đam mê tất cả các khía cạnh của khoa học dữ liệu và tập trung vào việc thiết kế cũng như triển khai Nền tảng học máy phân tán và có khả năng mở rộng cao.
Sharmo Sarkar là Quản lý cấp cao tại Vericast. Ông lãnh đạo Nền tảng máy học trên nền tảng đám mây và Nhóm R&D ML của Nền tảng tiếp thị tại Vericast. Anh ấy có nhiều kinh nghiệm về Phân tích dữ liệu lớn, Điện toán phân tán và Xử lý ngôn ngữ tự nhiên. Ngoài công việc, anh ấy thích lái xe mô tô, đi bộ đường dài và đạp xe trên những con đường mòn trên núi.
- Phân phối nội dung và PR được hỗ trợ bởi SEO. Được khuếch đại ngay hôm nay.
- PlatoAiStream. Thông minh dữ liệu Web3. Kiến thức khuếch đại. Truy cập Tại đây.
- Đúc kết tương lai với Adryenn Ashley. Truy cập Tại đây.
- Mua và bán cổ phần trong các công ty PRE-IPO với PREIPO®. Truy cập Tại đây.
- nguồn: https://aws.amazon.com/blogs/machine-learning/how-vericast-optimized-feature-engineering-using-amazon-sagemaker-processing/
- : có
- :là
- :không phải
- :Ở đâu
- $ LÊN
- 1
- 10
- 100
- 15%
- 7
- a
- Giới thiệu
- truy cập
- cho phù hợp
- Tài khoản
- Đạt được
- kích hoạt
- hành vi
- thêm vào
- thêm
- thêm
- thêm vào
- đầy đủ
- Sau
- chống lại
- AIDS
- Mục tiêu
- báo động
- thuật toán
- thuật toán
- Tất cả
- cô đơn
- dọc theo
- Đã
- Ngoài ra
- đàn bà gan dạ
- Amazon SageMaker
- số lượng
- an
- phân tích
- và
- Một
- Anthony
- bất kì
- api
- thích hợp
- kiến trúc
- LÀ
- KHU VỰC
- xung quanh
- bài viết
- nhân tạo
- trí tuệ nhân tạo
- AS
- khía cạnh
- các khía cạnh
- giao
- hỗ trợ
- At
- tự động
- tự động hóa
- tự động
- Trung bình cộng
- AWS
- Dịch vụ chuyên nghiệp của AWS
- cơ sở
- dựa
- BE
- bởi vì
- trở nên
- được
- được
- Lợi ích
- BEST
- Ngoài
- lớn
- Dữ Liệu Lớn.
- lớn nhất
- tăng
- cả hai
- Đưa
- xây dựng
- Xây dựng
- xây dựng
- được xây dựng trong
- kinh doanh
- nhưng
- by
- tính
- cuộc gọi
- Chiến dịch
- CAN
- Có thể có được
- Chụp
- trường hợp
- trường hợp
- Nguyên nhân
- gây ra
- nhất định
- thách thức
- Những thay đổi
- tốt nghiệp lớp XNUMX
- các lớp học
- phân loại
- khách hàng
- giới thiệu khách hàng
- khách hàng
- đám mây
- cụm
- mã
- Cột
- kết hợp
- kết hợp
- đến
- Bình luận
- Chung
- cộng đồng
- công ty
- hoàn thành
- Hoàn thành
- phức tạp
- phức tạp
- các thành phần
- Thỏa hiệp
- Tính
- máy tính
- khái niệm
- khái niệm
- Cấu hình
- Hãy xem xét
- xem xét
- xem xét
- xem xét
- khó khăn
- chứa
- Container
- tiếp tục
- liên tiếp
- Phí Tổn
- chi phí-hiệu quả
- có thể
- phiếu
- tạo
- tạo ra
- tạo
- tiêu chuẩn
- Vượt qua
- Current
- Hiện nay
- khách hàng
- khách hàng
- khách hàng
- dữ liệu
- Phân tích dữ liệu
- Chuẩn bị dữ liệu
- xử lý dữ liệu
- khoa học dữ liệu
- nhà khoa học dữ liệu
- hướng dữ liệu
- bộ dữ liệu
- quyết định
- quyết định
- dành riêng
- sâu
- đồng bằng
- Nhân khẩu học
- phụ thuộc
- triển khai
- mô tả
- Thiết kế
- thiết kế
- thiết kế
- chi tiết
- chi tiết
- xác định
- Phát triển
- khác nhau
- khác nhau
- Khó khăn
- trực tiếp
- Giảm giá
- thảo luận
- phân phối
- phân phối máy tính
- điều khiển
- trình điều khiển
- hai
- năng động
- năng động
- mỗi
- Sớm hơn
- dễ dàng
- dễ dàng
- hay
- kích hoạt
- cho phép
- ky sư
- Kỹ Sư
- Kỹ sư
- đảm bảo
- Toàn bộ
- Môi trường
- môi trường
- như nhau
- Tương đương
- đánh giá
- đánh giá
- đánh giá
- Sự kiện
- sự kiện
- ví dụ
- ví dụ
- Trừ
- hiện tại
- Mở rộng
- dự kiến
- kỳ vọng
- kinh nghiệm
- Khám phá
- biểu thức
- mở rộng
- Trải nghiệm sâu sắc
- các yếu tố
- nhà máy
- FAIL
- Không
- Đặc tính
- Tính năng
- Fed
- thông tin phản hồi
- vài
- lĩnh vực
- cuối cùng
- kết thúc
- Tên
- phù hợp với
- Linh hoạt
- linh hoạt
- tập trung
- tiếp theo
- sau
- Trong
- các hình thức
- Nền tảng
- Khung
- từ
- đầy đủ
- chức năng
- chức năng
- Hơn nữa
- tương lai
- thu thập
- Tổng Quát
- tạo ra
- tạo
- thế hệ
- được
- nhận được
- được
- Go
- mục tiêu
- Các mục tiêu
- Đi
- tốt
- GPU
- biết ơn
- hướng dẫn
- có
- xử lý
- xảy ra
- Có
- có
- he
- Nghe
- nặng
- nâng nặng
- giúp đỡ
- giúp
- cấp độ cao
- chất lượng cao
- Đánh dấu
- cao
- lịch sử
- Ngang
- theo chiều ngang
- Độ đáng tin của
- Hướng dẫn
- Tuy nhiên
- HTML
- http
- HTTPS
- Hub
- Nhân loại
- Vượt rào
- i
- xác định
- if
- minh họa
- hình ảnh
- thực hiện
- thực hiện
- thực hiện
- quan trọng
- nâng cao
- in
- Mặt khác
- bao gồm
- Bao gồm
- kết hợp
- Tăng lên
- tăng
- đáng kinh ngạc
- hệ thống riêng biệt,
- Cá nhân
- thông tin
- Cơ sở hạ tầng
- ban đầu
- Đồng tu
- ví dụ
- cụ
- Sự thông minh
- ý định
- quan tâm
- Giao thức
- nội bộ
- can thiệp
- trong
- tham gia
- vấn đề
- các vấn đề
- IT
- ITS
- Việc làm
- việc làm
- jpg
- chỉ
- Loại
- Biết
- Thiếu sót
- Ngôn ngữ
- lớn
- phần lớn
- lớn hơn
- một lát sau
- Dẫn
- LEARN
- học tập
- ít nhất
- Thư viện
- nâng
- giới hạn
- hạn chế
- giới hạn
- Danh sách
- ít
- đăng nhập
- khai thác gỗ
- hợp lý
- còn
- tìm kiếm
- thua
- yêu
- máy
- học máy
- duy trì
- Duy trì
- duy trì
- làm cho
- LÀM CHO
- Làm
- quản lý
- giám đốc
- thao tác
- cách thức
- nhiều
- Marketing
- toán học
- Có thể..
- Gặp gỡ
- Bộ nhớ
- tin nhắn
- Siêu dữ liệu
- số liệu
- Metrics
- Might
- tâm
- tối thiểu
- ML
- kiểu mẫu
- mô hình
- Mô-đun
- Modules
- thời điểm
- Màn Hình
- theo dõi
- giám sát
- màn hình
- chi tiết
- hầu hết
- chủ yếu
- núi
- nhiều
- phải
- Tự nhiên
- Xử lý ngôn ngữ tự nhiên
- Thiên nhiên
- Cần
- cần thiết
- cần
- nhu cầu
- Mới
- các nút
- đáng chú ý
- Để ý..
- thông báo
- thông báo
- tại
- con số
- mục tiêu
- tuân theo
- of
- thường
- on
- Theo yêu cầu
- onboard
- Tiếp nhận nhận việc
- ONE
- đang diễn ra
- có thể
- nhà điều hành
- tối ưu
- Tối ưu hóa
- tối ưu hóa
- or
- nguyên
- Nền tảng khác
- vfoXNUMXfipXNUMXhfpiXNUMXufhpiXNUMXuf
- ra
- Kết quả
- đầu ra
- bên ngoài
- kết thúc
- tổng thể
- Vượt qua
- tổng quan
- thông số
- một phần
- riêng
- đối tác
- Đi qua
- đam mê
- Họa tiết
- tỷ lệ phần trăm
- Thực hiện
- hiệu suất
- có lẽ
- kinh nguyệt
- quan điểm
- hình ảnh
- đường ống dẫn
- Nơi
- kế hoạch
- nền tảng
- Nền tảng
- plato
- Thông tin dữ liệu Plato
- PlatoDữ liệu
- Play
- đóng
- xin vui lòng
- thêm
- Điểm
- điểm
- người nghèo
- có thể
- Bài đăng
- tiềm năng
- quyền lực
- dự đoán
- trước
- có lẽ
- Vấn đề
- vấn đề
- quá trình
- Xử lý
- xử lý
- sản xuất
- Sản phẩm
- Sản lượng
- chuyên nghiệp
- cho
- cung cấp
- cung cấp
- đặt
- chất lượng
- Nhanh chóng
- nhanh hơn
- R & D
- hơn
- Nguyên
- đạt
- Đọc
- sẵn sàng
- Thực tế
- lý do
- hồ sơ
- Phục hồi
- phục hồi
- Giảm
- đề cập
- liên quan
- có liên quan
- vẫn
- còn lại
- báo cáo
- cần phải
- Yêu cầu
- tài nguyên
- Thông tin
- Trả lời
- kết quả
- kết quả
- mạnh mẽ
- Vai trò
- khoảng
- Quy tắc
- chạy
- chạy
- SaaS
- nhà làm hiền triết
- tương tự
- nói
- khả năng mở rộng
- khả năng mở rộng
- Quy mô
- mở rộng quy mô
- Giải pháp chia tỷ lệ
- kịch bản
- Khoa học
- Nhà khoa học
- các nhà khoa học
- giây
- phần
- chọn
- lựa chọn
- gửi
- gửi
- cao cấp
- Độ nhạy
- riêng biệt
- ngăn cách
- dịch vụ
- DỊCH VỤ
- định
- bộ
- một số
- Chia sẻ
- chia sẻ
- sharma
- chị ấy
- thể hiện
- Chương trình
- bên
- có ý nghĩa
- tương tự
- Đơn giản
- Kích thước máy
- So
- giải pháp
- Giải pháp
- động SOLVE
- Không gian
- riêng
- đặc biệt
- tốc độ
- Quay
- giai đoạn
- Tiêu chuẩn
- đứng
- Bắt đầu
- bắt đầu
- bắt đầu
- Tiểu bang
- Trạng thái
- Bước
- Các bước
- Vẫn còn
- dừng lại
- dừng lại
- Dừng
- là gắn
- cửa hàng
- Chuỗi
- mạnh mẽ
- cấu trúc
- thuê bao
- thành công
- Thành công
- như vậy
- hỗ trợ
- hệ thống
- hệ thống
- bàn
- phù hợp
- Hãy
- mất
- tài năng
- Nhiệm vụ
- nhiệm vụ
- nhóm
- đội
- Kỹ thuật
- về
- hơn
- việc này
- Sản phẩm
- Tương lai
- cung cấp their dịch
- Them
- sau đó
- Đó
- vì thế
- Kia là
- họ
- Thứ ba
- điều này
- những
- số ba
- ngưỡng
- Thông qua
- thời gian
- thời gian
- đến
- bên nhau
- công cụ
- Tổng số:
- Train
- Hội thảo
- giao dịch
- chi tiết giao dịch
- Chuyển đổi
- Chuyển đổi
- biến đổi
- kích hoạt
- được kích hoạt
- hai
- kiểu
- điển hình
- Dưới
- sự hiểu biết
- các đơn vị
- cho đến khi
- cập nhật
- us
- có thể dùng được
- Sử dụng
- sử dụng
- ca sử dụng
- đã sử dụng
- sử dụng
- xác nhận
- giá trị
- khác nhau
- thẳng đứng
- khối lượng
- khối lượng
- vs
- muốn
- là
- xem
- Đường..
- we
- TỐT
- khi nào
- cái nào
- CHÚNG TÔI LÀ
- toàn bộ
- hoàn toàn
- sẽ
- giành chiến thắng
- với
- ở trong
- Công việc
- Luồng công việc
- đang làm việc
- công trinh
- tệ hơn
- sẽ
- viết
- nhưng
- Năng suất
- Bạn
- trên màn hình
- zephyrnet