Xây dựng một đường ống phân tích tình cảm MLOps sử dụng Amazon SageMaker Ground Truth và Databricks MLflow

Được xuất bản lại bởi Plato

Người theo dõi: 0

Khi ngày càng có nhiều tổ chức chuyển sang học máy (ML) để thu hút những hiểu biết sâu sắc hơn, hai trở ngại chính mà họ gặp phải là ghi nhãn và quản lý vòng đời. Gắn nhãn là việc xác định dữ liệu và thêm nhãn để cung cấp ngữ cảnh để một mô hình ML có thể học hỏi từ đó. Các nhãn có thể chỉ ra một cụm từ trong tệp âm thanh, một chiếc ô tô trong một bức ảnh hoặc một cơ quan trong MRI. Ghi nhãn dữ liệu là cần thiết để cho phép các mô hình ML hoạt động dựa trên dữ liệu. Quản lý vòng đời liên quan đến quá trình thiết lập thử nghiệm ML và ghi lại tập dữ liệu, thư viện, phiên bản và mô hình được sử dụng để nhận kết quả. Một nhóm có thể chạy hàng trăm thử nghiệm trước khi quyết định một cách tiếp cận. Quay lại và tạo lại cách tiếp cận đó có thể khó khăn nếu không có hồ sơ về các yếu tố của thử nghiệm đó.

Nhiều ví dụ và hướng dẫn ML bắt đầu với một tập dữ liệu bao gồm một giá trị đích. Tuy nhiên, dữ liệu trong thế giới thực không phải lúc nào cũng có giá trị mục tiêu như vậy. Ví dụ, trong phân tích tình cảm, một người thường có thể đưa ra đánh giá về việc đánh giá là tích cực, tiêu cực hay hỗn hợp. Nhưng các bài phê bình được tạo thành từ một tập hợp các văn bản không có giá trị phán xét gắn liền với nó. Để tạo ra một học có giám sát để giải quyết vấn đề này, một tập dữ liệu có nhãn chất lượng cao là điều cần thiết. Sự thật về mặt đất của Amazon SageMaker là một dịch vụ ghi nhãn dữ liệu được quản lý hoàn toàn giúp dễ dàng xây dựng bộ dữ liệu đào tạo có độ chính xác cao cho ML.

Đối với các tổ chức sử dụng Databricks làm nền tảng phân tích và dữ liệu của họ trên AWS để thực hiện các tác vụ trích xuất, chuyển đổi và tải (ETL), mục tiêu cuối cùng thường là đào tạo mô hình học tập có giám sát. Trong bài đăng này, chúng tôi chỉ ra cách Databricks tích hợp với Ground Truth và Amazon SageMaker để ghi nhãn dữ liệu và phân phối mô hình.

Tổng quan về giải pháp

Ground Truth là một dịch vụ ghi nhãn dữ liệu được quản lý hoàn toàn giúp dễ dàng xây dựng bộ dữ liệu đào tạo có độ chính xác cao cho ML. Thông qua bảng điều khiển Ground Truth, chúng tôi có thể tạo quy trình làm việc gắn nhãn dữ liệu tùy chỉnh hoặc tích hợp trong vài phút. Các dòng công việc này hỗ trợ nhiều trường hợp sử dụng khác nhau, bao gồm các đám mây điểm 3D, video, hình ảnh và văn bản. Ngoài ra, Ground Truth còn cung cấp tính năng gắn nhãn dữ liệu tự động, sử dụng mô hình ML để gắn nhãn dữ liệu của chúng tôi.

Chúng tôi đào tạo mô hình của mình trên tập dữ liệu Đánh giá của khách hàng Amazon được công bố công khai. Ở cấp độ cao, các bước như sau:

Trích xuất một tập dữ liệu thô để được gắn nhãn và di chuyển nó đến Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3).
Thực hiện việc gắn nhãn bằng cách tạo một công việc gắn nhãn trong SageMaker.
Xây dựng và đào tạo một mô hình người học tuyến tính Scikit-learning đơn giản để phân loại tình cảm của văn bản đánh giá trên nền tảng Databricks bằng cách sử dụng một mẫu máy tính xách tay.
Sử dụng Dòng chảy ML các thành phần để tạo và thực hiện MLOps và lưu các tạo tác mô hình.
Triển khai mô hình dưới dạng điểm cuối SageMaker bằng cách sử dụng Thư viện MLflow SageMaker để suy luận trong thời gian thực.

Sơ đồ sau minh họa hành trình ghi nhãn và ML bằng cách sử dụng Ground Truth và MLflow.

Tạo công việc gắn nhãn trong SageMaker

Từ tập dữ liệu Đánh giá của khách hàng Amazon, chúng tôi chỉ trích xuất các phần văn bản vì chúng tôi đang xây dựng mô hình phân tích cảm xúc. Sau khi giải nén, chúng tôi đặt văn bản vào một thùng S3 và sau đó tạo công việc gắn nhãn Sự thật trên mặt đất thông qua bảng điều khiển SageMaker.

trên Tạo công việc dán nhãn trang, điền vào tất cả các trường bắt buộc. Là một phần của bước trên trang này, Ground Truth cho phép bạn tạo tệp kê khai công việc. Ground Truth sử dụng tệp kê khai đầu vào để xác định số lượng tệp hoặc đối tượng trong tác vụ gắn nhãn để số tác vụ phù hợp được tạo và gửi đến người gắn nhãn là người (hoặc máy). Tệp được lưu tự động trong nhóm S3. Bước tiếp theo là xác định danh mục nhiệm vụ và lựa chọn nhiệm vụ. Trong trường hợp sử dụng này, chúng tôi chọn bản văn là danh mục nhiệm vụ và Phân loại văn bản với một nhãn duy nhất để lựa chọn nhiệm vụ, có nghĩa là văn bản đánh giá sẽ có một cảm xúc duy nhất: tích cực, tiêu cực hoặc trung tính.

Cuối cùng, chúng tôi viết hướng dẫn đơn giản nhưng ngắn gọn cho người gắn nhãn về cách gắn nhãn dữ liệu văn bản. Hướng dẫn được hiển thị trên công cụ ghi nhãn và bạn có thể tùy chọn xem lại chế độ xem của trình chú thích tại thời điểm này. Cuối cùng, chúng tôi gửi công việc và theo dõi tiến trình trên bảng điều khiển.

Trong khi công việc gắn nhãn đang diễn ra, chúng tôi cũng có thể xem dữ liệu được gắn nhãn trên Đầu ra chuyển hướng. Chúng tôi có thể theo dõi từng văn bản và nhãn đánh giá và xem công việc được thực hiện bởi con người hay máy móc. Chúng tôi có thể chọn 100% công việc dán nhãn do con người thực hiện hoặc chọn chú thích máy móc, điều này giúp tăng tốc công việc và giảm chi phí lao động.

Khi công việc hoàn tất, bản tóm tắt công việc gắn nhãn chứa các liên kết đến tệp kê khai đầu ra và tập dữ liệu được gắn nhãn. Chúng tôi cũng có thể truy cập Amazon S3 và tải xuống cả hai từ thư mục thùng S3 của chúng tôi.

Xây dựng quy trình phân tích cảm tính MLOps bằng cách sử dụng Amazon SageMaker Ground Truth và Databricks MLflow PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Trong các bước tiếp theo, chúng tôi sử dụng sổ ghi chép Databricks, Dòng chảy MLvà tập dữ liệu được gắn nhãn bởi Ground Truth để xây dựng Học hỏi mô hình.

Tải xuống tập dữ liệu được gắn nhãn từ Amazon S3

Chúng tôi bắt đầu bằng cách tải xuống tập dữ liệu được gắn nhãn từ Amazon S3. Tệp kê khai được lưu ở định dạng JSON và chúng tôi tải nó vào một Spark DataFrame trong Databricks. Để đào tạo mô hình phân tích tình cảm, chúng tôi chỉ cần văn bản đánh giá và cảm nhận đã được chú thích bởi công việc gắn nhãn Sự thật nền. Chúng tôi sử dụng select () để trích xuất hai tính năng đó. Sau đó, chúng tôi chuyển đổi tập dữ liệu từ PySpark DataFrame thành Pandas DataFrame, vì thuật toán Scikit-learning yêu cầu định dạng Pandas DataFrame.

Tiếp theo, chúng tôi sử dụng Scikit-learning CountVectorizer để chuyển văn bản đánh giá thành vectơ bigram bằng cách đặt ngram_range giá trị tối đa thành 2. CountVectorizer chuyển đổi văn bản thành một ma trận số lượng mã thông báo. Sau đó, chúng tôi sử dụng TfidfTransformer để chuyển đổi véc tơ bigram thành định dạng tần số tài liệu nghịch đảo tần số (TF-IDF).

Chúng tôi so sánh điểm số chính xác cho quá trình đào tạo được thực hiện bằng vector bigram so với bigram với TF-IDF. TF-IDF là một thước đo thống kê đánh giá mức độ liên quan của một từ với một tài liệu trong bộ sưu tập tài liệu. Vì văn bản đánh giá có xu hướng tương đối ngắn, chúng ta có thể quan sát TF-IDF ảnh hưởng như thế nào đến hiệu suất của mô hình dự đoán.

Xây dựng quy trình phân tích cảm tính MLOps bằng cách sử dụng Amazon SageMaker Ground Truth và Databricks MLflow PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Thiết lập thử nghiệm MLflow

MLflow được phát triển bởi Databricks và hiện là một dự án mã nguồn mở. MLflow quản lý vòng đời ML, vì vậy bạn có thể theo dõi, tạo lại và xuất bản các thử nghiệm một cách dễ dàng.

Để thiết lập thử nghiệm MLflow, chúng tôi sử dụng mlflow.sklearn.autolog() để cho phép tự động ghi nhật ký các siêu tham số, chỉ số và tạo tác mô hình bất cứ khi nào estimator.fit(), estimator.fit_predict(), và estimator.fit_transform() được gọi là. Ngoài ra, bạn có thể thực hiện việc này theo cách thủ công bằng cách gọi mlflow.log_param() và mlflow.log_metric().

Chúng tôi phù hợp tập dữ liệu đã chuyển đổi thành một bộ phân loại tuyến tính với tính năng học Stochastic Gradient Descent (SGD). Với SGD, gradient của tổn thất được ước tính từng mẫu một và mô hình được cập nhật cùng với lịch trình độ bền giảm dần.

Hai tập dữ liệu mà chúng tôi đã chuẩn bị trước đó được chuyển đến train_and_show_scores() chức năng cho đào tạo. Sau khi đào tạo, chúng ta cần đăng ký một mô hình và lưu các hiện vật của nó. Chúng tôi sử dụng mlflow.sklearn.log_model() làm như vậy.

Trước khi triển khai, chúng tôi xem xét kết quả của thử nghiệm và chọn hai thử nghiệm (một cho bigram và một cho bigram với TF-IDF) để so sánh. Trong trường hợp sử dụng của chúng tôi, mô hình thứ hai được đào tạo với bigram TF-IDF hoạt động tốt hơn một chút, vì vậy chúng tôi chọn mô hình đó để triển khai. Sau khi mô hình được đăng ký, chúng tôi triển khai mô hình, chuyển từ giai đoạn mô hình sang sản xuất. Chúng tôi có thể thực hiện điều này trên giao diện người dùng MLflow hoặc trong mã bằng cách sử dụng transition_model_version_stage().

Xây dựng quy trình phân tích cảm tính MLOps bằng cách sử dụng Amazon SageMaker Ground Truth và Databricks MLflow PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Triển khai và kiểm tra mô hình như một điểm cuối của SageMaker

Trước khi triển khai mô hình được đào tạo, chúng tôi cần xây dựng vùng chứa Docker để lưu trữ mô hình trong SageMaker. Chúng tôi thực hiện việc này bằng cách chạy một lệnh MLflow đơn giản để xây dựng và đẩy vùng chứa đến Đăng ký container đàn hồi Amazon (Amazon ECR) trong tài khoản AWS của chúng tôi.

Bây giờ chúng tôi có thể tìm thấy URI hình ảnh trên bảng điều khiển Amazon ECR. Chúng tôi chuyển URI hình ảnh dưới dạng image_url tham số và sử dụng DEPLOYMENT_MODE_CREATE cho tham số chế độ nếu đây là một triển khai mới. Nếu cập nhật một điểm cuối hiện có với một phiên bản mới, hãy sử dụng DEPLOYMENT_MODE_REPLACE.

Để kiểm tra điểm cuối SageMaker, chúng ta tạo một hàm lấy tên điểm cuối và dữ liệu đầu vào làm tham số của nó.

Xây dựng quy trình phân tích cảm tính MLOps bằng cách sử dụng Amazon SageMaker Ground Truth và Databricks MLflow PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Kết luận

Trong bài đăng này, chúng tôi đã chỉ cho bạn cách sử dụng Ground Truth để gắn nhãn cho tập dữ liệu thô và sử dụng dữ liệu được gắn nhãn để đào tạo một bộ phân loại tuyến tính đơn giản bằng Scikit-learning. Trong ví dụ này, chúng tôi sử dụng MLflow để theo dõi các siêu tham số và chỉ số, đăng ký mô hình cấp sản xuất và triển khai mô hình được đào tạo tới SageMaker làm điểm cuối. Cùng với Databricks để xử lý dữ liệu, bạn có thể tự động hóa toàn bộ ca sử dụng này, vì vậy khi dữ liệu mới được đưa vào, nó có thể được gắn nhãn và xử lý thành mô hình. Bằng cách tự động hóa các đường ống và mô hình này, các nhóm khoa học dữ liệu có thể tập trung vào các trường hợp sử dụng mới và khám phá thêm thông tin chi tiết thay vì dành thời gian quản lý các bản cập nhật dữ liệu hàng ngày.

Để bắt đầu, hãy xem Sử dụng Amazon SageMaker Ground Truth để gắn nhãn dữ liệu và đăng ký một 14 ngày dùng thử miễn phí Databricks trên AWS. Để tìm hiểu thêm về cách Databricks tích hợp với SageMaker, cũng như các dịch vụ AWS khác như Keo AWS và Amazon RedShift, Hãy truy cập Databricks trên AWS.

Ngoài ra, hãy xem các tài nguyên sau được sử dụng trong bài đăng này:

Sử dụng những thứ sau máy tính xách tay để bắt đầu.

Về các tác giả

Xây dựng quy trình phân tích cảm tính MLOps bằng cách sử dụng Amazon SageMaker Ground Truth và Databricks MLflow PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái. Rumi Olsen là Kiến trúc sư Giải pháp trong Chương trình Đối tác AWS. Cô ấy chuyên về các giải pháp máy chủ và không máy chủ trong vai trò hiện tại của mình và có kiến thức nền tảng về công nghệ xử lý ngôn ngữ tự nhiên. Cô dành phần lớn thời gian rảnh rỗi để cùng con gái khám phá thiên nhiên vùng Tây Bắc Thái Bình Dương.

Igor Alekseev là Kiến trúc sư giải pháp đối tác tại AWS về Dữ liệu và Phân tích. Igor làm việc với các đối tác chiến lược để giúp họ xây dựng các kiến trúc phức tạp, được tối ưu hóa AWS. Trước khi gia nhập AWS, với tư cách là Kiến trúc sư Giải pháp / Dữ liệu, anh đã thực hiện nhiều dự án về Dữ liệu lớn, bao gồm một số hồ dữ liệu trong hệ sinh thái Hadoop. Là một Kỹ sư dữ liệu, anh ấy đã tham gia vào việc áp dụng AI / ML để phát hiện gian lận và tự động hóa văn phòng. Các dự án của Igor thuộc nhiều lĩnh vực khác nhau bao gồm truyền thông, tài chính, an toàn công cộng, sản xuất và chăm sóc sức khỏe. Trước đó, Igor đã từng làm việc với tư cách là kỹ sư / trưởng nhóm công nghệ đầy đủ về ngăn xếp.

Naseer Ahmed là một Kiến trúc sư Giải pháp Đối tác Sr. tại Databricks hỗ trợ hoạt động kinh doanh AWS của mình. Naseer chuyên về Kho dữ liệu, Kinh doanh thông minh, Phát triển ứng dụng, Vùng chứa, Máy chủ, Kiến trúc Máy học trên AWS. Anh ấy đã được bầu chọn là SME của năm 2021 tại Databricks và là một người đam mê tiền điện tử.

Dấu thời gian: 4 Tháng Tư, 2022

Cho phép người khiếm thị nghe tài liệu bằng Amazon Textract và Amazon Polly

Cụm nguồn:

Học máy AWS

Nút nguồn: 1197157

Dấu thời gian: Tháng 3, 2022

Xây dựng đường ống phân tích tình cảm MLOps bằng Amazon SageMaker Ground Truth và Databricks MLflow

Được xuất bản lại bởi Plato

Tổng quan về giải pháp

Tạo công việc gắn nhãn trong SageMaker

Tải xuống tập dữ liệu được gắn nhãn từ Amazon S3

Thiết lập thử nghiệm MLflow

Triển khai và kiểm tra mô hình như một điểm cuối của SageMaker

Kết luận

Về các tác giả

Thêm từ Học máy AWS

Huấn luyện, tinh chỉnh và triển khai các nhóm tùy chỉnh một cách hiệu quả bằng Amazon SageMaker | Dịch vụ web của Amazon

Hướng dẫn của bạn về AI/ML tại AWS re:Invent 2022

Tạo phân tích phản thực tế về phản ứng của ngô với nitơ bằng các giải pháp Amazon SageMaker JumpStart

Triển khai các mô hình ngôn ngữ lớn trên AWS Inferentia2 bằng cách sử dụng các bộ chứa suy luận mô hình lớn

Chạy sổ ghi chép dưới dạng tác vụ hàng loạt trong Amazon SageMaker Studio Lab

Xử lý tài liệu thông minh với các dịch vụ AWS AI: Phần 2

Cho phép người khiếm thị nghe tài liệu bằng Amazon Textract và Amazon Polly

Về chúng tôi

Tìm kiếm dọc & Ai

Nền tảng

NHẬN THÔNG TIN

Tài khoản