Khi ngày càng có nhiều tổ chức chuyển sang học máy (ML) để thu hút những hiểu biết sâu sắc hơn, hai trở ngại chính mà họ gặp phải là ghi nhãn và quản lý vòng đời. Gắn nhãn là việc xác định dữ liệu và thêm nhãn để cung cấp ngữ cảnh để một mô hình ML có thể học hỏi từ đó. Các nhãn có thể chỉ ra một cụm từ trong tệp âm thanh, một chiếc ô tô trong một bức ảnh hoặc một cơ quan trong MRI. Ghi nhãn dữ liệu là cần thiết để cho phép các mô hình ML hoạt động dựa trên dữ liệu. Quản lý vòng đời liên quan đến quá trình thiết lập thử nghiệm ML và ghi lại tập dữ liệu, thư viện, phiên bản và mô hình được sử dụng để nhận kết quả. Một nhóm có thể chạy hàng trăm thử nghiệm trước khi quyết định một cách tiếp cận. Quay lại và tạo lại cách tiếp cận đó có thể khó khăn nếu không có hồ sơ về các yếu tố của thử nghiệm đó.
Nhiều ví dụ và hướng dẫn ML bắt đầu với một tập dữ liệu bao gồm một giá trị đích. Tuy nhiên, dữ liệu trong thế giới thực không phải lúc nào cũng có giá trị mục tiêu như vậy. Ví dụ, trong phân tích tình cảm, một người thường có thể đưa ra đánh giá về việc đánh giá là tích cực, tiêu cực hay hỗn hợp. Nhưng các bài phê bình được tạo thành từ một tập hợp các văn bản không có giá trị phán xét gắn liền với nó. Để tạo ra một học có giám sát để giải quyết vấn đề này, một tập dữ liệu có nhãn chất lượng cao là điều cần thiết. Sự thật về mặt đất của Amazon SageMaker là một dịch vụ ghi nhãn dữ liệu được quản lý hoàn toàn giúp dễ dàng xây dựng bộ dữ liệu đào tạo có độ chính xác cao cho ML.
Đối với các tổ chức sử dụng Databricks làm nền tảng phân tích và dữ liệu của họ trên AWS để thực hiện các tác vụ trích xuất, chuyển đổi và tải (ETL), mục tiêu cuối cùng thường là đào tạo mô hình học tập có giám sát. Trong bài đăng này, chúng tôi chỉ ra cách Databricks tích hợp với Ground Truth và Amazon SageMaker để ghi nhãn dữ liệu và phân phối mô hình.
Tổng quan về giải pháp
Ground Truth là một dịch vụ ghi nhãn dữ liệu được quản lý hoàn toàn giúp dễ dàng xây dựng bộ dữ liệu đào tạo có độ chính xác cao cho ML. Thông qua bảng điều khiển Ground Truth, chúng tôi có thể tạo quy trình làm việc gắn nhãn dữ liệu tùy chỉnh hoặc tích hợp trong vài phút. Các dòng công việc này hỗ trợ nhiều trường hợp sử dụng khác nhau, bao gồm các đám mây điểm 3D, video, hình ảnh và văn bản. Ngoài ra, Ground Truth còn cung cấp tính năng gắn nhãn dữ liệu tự động, sử dụng mô hình ML để gắn nhãn dữ liệu của chúng tôi.
Chúng tôi đào tạo mô hình của mình trên tập dữ liệu Đánh giá của khách hàng Amazon được công bố công khai. Ở cấp độ cao, các bước như sau:
- Trích xuất một tập dữ liệu thô để được gắn nhãn và di chuyển nó đến Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3).
- Thực hiện việc gắn nhãn bằng cách tạo một công việc gắn nhãn trong SageMaker.
- Xây dựng và đào tạo một mô hình người học tuyến tính Scikit-learning đơn giản để phân loại tình cảm của văn bản đánh giá trên nền tảng Databricks bằng cách sử dụng một mẫu máy tính xách tay.
- Sử dụng Dòng chảy ML các thành phần để tạo và thực hiện MLOps và lưu các tạo tác mô hình.
- Triển khai mô hình dưới dạng điểm cuối SageMaker bằng cách sử dụng Thư viện MLflow SageMaker để suy luận trong thời gian thực.
Sơ đồ sau minh họa hành trình ghi nhãn và ML bằng cách sử dụng Ground Truth và MLflow.
Tạo công việc gắn nhãn trong SageMaker
Từ tập dữ liệu Đánh giá của khách hàng Amazon, chúng tôi chỉ trích xuất các phần văn bản vì chúng tôi đang xây dựng mô hình phân tích cảm xúc. Sau khi giải nén, chúng tôi đặt văn bản vào một thùng S3 và sau đó tạo công việc gắn nhãn Sự thật trên mặt đất thông qua bảng điều khiển SageMaker.
trên Tạo công việc dán nhãn trang, điền vào tất cả các trường bắt buộc. Là một phần của bước trên trang này, Ground Truth cho phép bạn tạo tệp kê khai công việc. Ground Truth sử dụng tệp kê khai đầu vào để xác định số lượng tệp hoặc đối tượng trong tác vụ gắn nhãn để số tác vụ phù hợp được tạo và gửi đến người gắn nhãn là người (hoặc máy). Tệp được lưu tự động trong nhóm S3. Bước tiếp theo là xác định danh mục nhiệm vụ và lựa chọn nhiệm vụ. Trong trường hợp sử dụng này, chúng tôi chọn bản văn là danh mục nhiệm vụ và Phân loại văn bản với một nhãn duy nhất để lựa chọn nhiệm vụ, có nghĩa là văn bản đánh giá sẽ có một cảm xúc duy nhất: tích cực, tiêu cực hoặc trung tính.
Cuối cùng, chúng tôi viết hướng dẫn đơn giản nhưng ngắn gọn cho người gắn nhãn về cách gắn nhãn dữ liệu văn bản. Hướng dẫn được hiển thị trên công cụ ghi nhãn và bạn có thể tùy chọn xem lại chế độ xem của trình chú thích tại thời điểm này. Cuối cùng, chúng tôi gửi công việc và theo dõi tiến trình trên bảng điều khiển.
Trong khi công việc gắn nhãn đang diễn ra, chúng tôi cũng có thể xem dữ liệu được gắn nhãn trên Đầu ra chuyển hướng. Chúng tôi có thể theo dõi từng văn bản và nhãn đánh giá và xem công việc được thực hiện bởi con người hay máy móc. Chúng tôi có thể chọn 100% công việc dán nhãn do con người thực hiện hoặc chọn chú thích máy móc, điều này giúp tăng tốc công việc và giảm chi phí lao động.
Khi công việc hoàn tất, bản tóm tắt công việc gắn nhãn chứa các liên kết đến tệp kê khai đầu ra và tập dữ liệu được gắn nhãn. Chúng tôi cũng có thể truy cập Amazon S3 và tải xuống cả hai từ thư mục thùng S3 của chúng tôi.
Trong các bước tiếp theo, chúng tôi sử dụng sổ ghi chép Databricks, Dòng chảy MLvà tập dữ liệu được gắn nhãn bởi Ground Truth để xây dựng Học hỏi mô hình.
Tải xuống tập dữ liệu được gắn nhãn từ Amazon S3
Chúng tôi bắt đầu bằng cách tải xuống tập dữ liệu được gắn nhãn từ Amazon S3. Tệp kê khai được lưu ở định dạng JSON và chúng tôi tải nó vào một Spark DataFrame trong Databricks. Để đào tạo mô hình phân tích tình cảm, chúng tôi chỉ cần văn bản đánh giá và cảm nhận đã được chú thích bởi công việc gắn nhãn Sự thật nền. Chúng tôi sử dụng select () để trích xuất hai tính năng đó. Sau đó, chúng tôi chuyển đổi tập dữ liệu từ PySpark DataFrame thành Pandas DataFrame, vì thuật toán Scikit-learning yêu cầu định dạng Pandas DataFrame.
Tiếp theo, chúng tôi sử dụng Scikit-learning CountVectorizer
để chuyển văn bản đánh giá thành vectơ bigram bằng cách đặt ngram_range
giá trị tối đa thành 2. CountVectorizer
chuyển đổi văn bản thành một ma trận số lượng mã thông báo. Sau đó, chúng tôi sử dụng TfidfTransformer
để chuyển đổi véc tơ bigram thành định dạng tần số tài liệu nghịch đảo tần số (TF-IDF).
Chúng tôi so sánh điểm số chính xác cho quá trình đào tạo được thực hiện bằng vector bigram so với bigram với TF-IDF. TF-IDF là một thước đo thống kê đánh giá mức độ liên quan của một từ với một tài liệu trong bộ sưu tập tài liệu. Vì văn bản đánh giá có xu hướng tương đối ngắn, chúng ta có thể quan sát TF-IDF ảnh hưởng như thế nào đến hiệu suất của mô hình dự đoán.
Thiết lập thử nghiệm MLflow
MLflow được phát triển bởi Databricks và hiện là một dự án mã nguồn mở. MLflow quản lý vòng đời ML, vì vậy bạn có thể theo dõi, tạo lại và xuất bản các thử nghiệm một cách dễ dàng.
Để thiết lập thử nghiệm MLflow, chúng tôi sử dụng mlflow.sklearn.autolog()
để cho phép tự động ghi nhật ký các siêu tham số, chỉ số và tạo tác mô hình bất cứ khi nào estimator.fit()
, estimator.fit_predict()
, và estimator.fit_transform()
được gọi là. Ngoài ra, bạn có thể thực hiện việc này theo cách thủ công bằng cách gọi mlflow.log_param()
và mlflow.log_metric()
.
Chúng tôi phù hợp tập dữ liệu đã chuyển đổi thành một bộ phân loại tuyến tính với tính năng học Stochastic Gradient Descent (SGD). Với SGD, gradient của tổn thất được ước tính từng mẫu một và mô hình được cập nhật cùng với lịch trình độ bền giảm dần.
Hai tập dữ liệu mà chúng tôi đã chuẩn bị trước đó được chuyển đến train_and_show_scores()
chức năng cho đào tạo. Sau khi đào tạo, chúng ta cần đăng ký một mô hình và lưu các hiện vật của nó. Chúng tôi sử dụng mlflow.sklearn.log_model()
làm như vậy.
Trước khi triển khai, chúng tôi xem xét kết quả của thử nghiệm và chọn hai thử nghiệm (một cho bigram và một cho bigram với TF-IDF) để so sánh. Trong trường hợp sử dụng của chúng tôi, mô hình thứ hai được đào tạo với bigram TF-IDF hoạt động tốt hơn một chút, vì vậy chúng tôi chọn mô hình đó để triển khai. Sau khi mô hình được đăng ký, chúng tôi triển khai mô hình, chuyển từ giai đoạn mô hình sang sản xuất. Chúng tôi có thể thực hiện điều này trên giao diện người dùng MLflow hoặc trong mã bằng cách sử dụng transition_model_version_stage()
.
Triển khai và kiểm tra mô hình như một điểm cuối của SageMaker
Trước khi triển khai mô hình được đào tạo, chúng tôi cần xây dựng vùng chứa Docker để lưu trữ mô hình trong SageMaker. Chúng tôi thực hiện việc này bằng cách chạy một lệnh MLflow đơn giản để xây dựng và đẩy vùng chứa đến Đăng ký container đàn hồi Amazon (Amazon ECR) trong tài khoản AWS của chúng tôi.
Bây giờ chúng tôi có thể tìm thấy URI hình ảnh trên bảng điều khiển Amazon ECR. Chúng tôi chuyển URI hình ảnh dưới dạng image_url
tham số và sử dụng DEPLOYMENT_MODE_CREATE
cho tham số chế độ nếu đây là một triển khai mới. Nếu cập nhật một điểm cuối hiện có với một phiên bản mới, hãy sử dụng DEPLOYMENT_MODE_REPLACE
.
Để kiểm tra điểm cuối SageMaker, chúng ta tạo một hàm lấy tên điểm cuối và dữ liệu đầu vào làm tham số của nó.
Kết luận
Trong bài đăng này, chúng tôi đã chỉ cho bạn cách sử dụng Ground Truth để gắn nhãn cho tập dữ liệu thô và sử dụng dữ liệu được gắn nhãn để đào tạo một bộ phân loại tuyến tính đơn giản bằng Scikit-learning. Trong ví dụ này, chúng tôi sử dụng MLflow để theo dõi các siêu tham số và chỉ số, đăng ký mô hình cấp sản xuất và triển khai mô hình được đào tạo tới SageMaker làm điểm cuối. Cùng với Databricks để xử lý dữ liệu, bạn có thể tự động hóa toàn bộ ca sử dụng này, vì vậy khi dữ liệu mới được đưa vào, nó có thể được gắn nhãn và xử lý thành mô hình. Bằng cách tự động hóa các đường ống và mô hình này, các nhóm khoa học dữ liệu có thể tập trung vào các trường hợp sử dụng mới và khám phá thêm thông tin chi tiết thay vì dành thời gian quản lý các bản cập nhật dữ liệu hàng ngày.
Để bắt đầu, hãy xem Sử dụng Amazon SageMaker Ground Truth để gắn nhãn dữ liệu và đăng ký một 14 ngày dùng thử miễn phí Databricks trên AWS. Để tìm hiểu thêm về cách Databricks tích hợp với SageMaker, cũng như các dịch vụ AWS khác như Keo AWS và Amazon RedShift, Hãy truy cập Databricks trên AWS.
Ngoài ra, hãy xem các tài nguyên sau được sử dụng trong bài đăng này:
Sử dụng những thứ sau máy tính xách tay để bắt đầu.
Về các tác giả
Rumi Olsen là Kiến trúc sư Giải pháp trong Chương trình Đối tác AWS. Cô ấy chuyên về các giải pháp máy chủ và không máy chủ trong vai trò hiện tại của mình và có kiến thức nền tảng về công nghệ xử lý ngôn ngữ tự nhiên. Cô dành phần lớn thời gian rảnh rỗi để cùng con gái khám phá thiên nhiên vùng Tây Bắc Thái Bình Dương.
Igor Alekseev là Kiến trúc sư giải pháp đối tác tại AWS về Dữ liệu và Phân tích. Igor làm việc với các đối tác chiến lược để giúp họ xây dựng các kiến trúc phức tạp, được tối ưu hóa AWS. Trước khi gia nhập AWS, với tư cách là Kiến trúc sư Giải pháp / Dữ liệu, anh đã thực hiện nhiều dự án về Dữ liệu lớn, bao gồm một số hồ dữ liệu trong hệ sinh thái Hadoop. Là một Kỹ sư dữ liệu, anh ấy đã tham gia vào việc áp dụng AI / ML để phát hiện gian lận và tự động hóa văn phòng. Các dự án của Igor thuộc nhiều lĩnh vực khác nhau bao gồm truyền thông, tài chính, an toàn công cộng, sản xuất và chăm sóc sức khỏe. Trước đó, Igor đã từng làm việc với tư cách là kỹ sư / trưởng nhóm công nghệ đầy đủ về ngăn xếp.
Naseer Ahmed là một Kiến trúc sư Giải pháp Đối tác Sr. tại Databricks hỗ trợ hoạt động kinh doanh AWS của mình. Naseer chuyên về Kho dữ liệu, Kinh doanh thông minh, Phát triển ứng dụng, Vùng chứa, Máy chủ, Kiến trúc Máy học trên AWS. Anh ấy đã được bầu chọn là SME của năm 2021 tại Databricks và là một người đam mê tiền điện tử.
- Coinsmart. Sàn giao dịch Bitcoin và tiền điện tử tốt nhất Châu Âu.
- Platoblockchain. Web3 Metaverse Intelligence. Khuếch đại kiến thức. TRUY CẬP MIỄN PHÍ.
- CryptoHawk. Radar Altcoin. Dùng thử miễn phí.
- Nguồn: https://aws.amazon.com/blogs/machine-learning/build-an-mlops-sentiment-analysis-pipeline-using-amazon-sagemaker-ground-truth-and-databricks-mlflow/
- "
- 100
- 2021
- 3d
- Giới thiệu
- Tài khoản
- chính xác
- Ngoài ra
- thuật toán
- Tất cả
- đàn bà gan dạ
- phân tích
- phân tích
- ứng dụng
- Phát triển ứng dụng
- Nộp đơn
- phương pháp tiếp cận
- âm thanh
- tự động
- Tự động hóa
- có sẵn
- AWS
- lý lịch
- cơ sở
- Dữ Liệu Lớn.
- xây dựng
- Xây dựng
- xây dựng
- được xây dựng trong
- kinh doanh
- kinh doanh thông minh
- xe hơi
- trường hợp
- Phân loại
- Chọn
- phân loại
- mã
- bộ sưu tập
- Truyền thông
- phức tạp
- An ủi
- Container
- chứa
- Chi phí
- tạo ra
- Tạo
- Crypto
- Current
- khách hàng
- dữ liệu
- khoa học dữ liệu
- sâu sắc hơn
- triển khai
- triển khai
- triển khai
- Phát hiện
- phát triển
- Phát triển
- khó khăn
- phân phối
- phu bến tàu
- tài liệu
- Không
- lái xe
- dễ dàng
- hệ sinh thái
- cho phép
- Điểm cuối
- ky sư
- thiết yếu
- ước tính
- ví dụ
- thử nghiệm
- Tính năng
- Lĩnh vực
- Cuối cùng
- tài chính
- phù hợp với
- Tập trung
- tiếp theo
- định dạng
- gian lận
- Miễn phí
- Full
- chức năng
- tạo ra
- mục tiêu
- đi
- chăm sóc sức khỏe
- Cao
- cao
- Độ đáng tin của
- Hướng dẫn
- HTTPS
- Nhân loại
- Con người
- Hàng trăm
- Xác định
- xác định
- hình ảnh
- thực hiện
- Bao gồm
- các ngành công nghiệp
- đầu vào
- những hiểu biết
- Sự thông minh
- tham gia
- IT
- Việc làm
- việc làm
- Key
- ghi nhãn
- Nhãn
- nhân công
- Ngôn ngữ
- dẫn
- LEARN
- học tập
- Cấp
- Thư viện
- liên kết
- tải
- máy
- học máy
- thực hiện
- LÀM CHO
- quản lý
- quản lý
- quản lý
- thủ công
- sản xuất
- Matrix
- đo
- Metrics
- hỗn hợp
- ML
- kiểu mẫu
- mô hình
- Màn Hình
- chi tiết
- hầu hết
- di chuyển
- Tự nhiên
- Thiên nhiên
- máy tính xách tay
- con số
- Cung cấp
- gọi món
- tổ chức
- Nền tảng khác
- Hòa bình
- đối tác
- Đối tác
- hiệu suất
- người
- nền tảng
- Điểm
- tích cực
- Vấn đề
- quá trình
- Sản lượng
- chương trình
- dự án
- cho
- công khai
- xuất bản
- Nguyên
- thời gian thực
- hồ sơ
- ghi danh
- đăng ký
- có liên quan
- cần phải
- Thông tin
- Kết quả
- xem xét
- Đánh giá
- chạy
- chạy
- Sự An Toàn
- Khoa học
- tình cảm
- Không có máy chủ
- dịch vụ
- DỊCH VỤ
- định
- thiết lập
- ngắn
- Đơn giản
- So
- giải pháp
- Giải pháp
- động SOLVE
- chuyên
- Chi
- ngăn xếp
- Traineeship
- Bắt đầu
- bắt đầu
- thống kê
- là gắn
- Chiến lược
- hỗ trợ
- Hỗ trợ
- Mục tiêu
- nhiệm vụ
- nhóm
- Công nghệ
- thử nghiệm
- Thông qua
- thời gian
- mã thông báo
- công cụ
- theo dõi
- Hội thảo
- Chuyển đổi
- thử nghiệm
- hướng dẫn
- ui
- cuối cùng
- khám phá
- Cập nhật
- sử dụng
- thường
- giá trị
- nhiều
- Video
- Xem
- liệu
- không có
- Công việc
- làm việc
- công trinh
- năm