Ghi nhãn mặt nạ phân đoạn bằng vài cú nhấp chuột trong Amazon SageMaker Ground Truth Plus

Ghi nhãn mặt nạ phân đoạn bằng vài cú nhấp chuột trong Amazon SageMaker Ground Truth Plus

Amazon SageMaker Ground Truth Plus là một dịch vụ ghi nhãn dữ liệu được quản lý giúp dễ dàng gắn nhãn dữ liệu cho các ứng dụng máy học (ML). Một trường hợp sử dụng phổ biến là phân đoạn ngữ nghĩa, đây là một kỹ thuật ML thị giác máy tính liên quan đến việc gán nhãn lớp cho từng pixel trong một hình ảnh. Ví dụ: trong các khung hình video được quay bởi một phương tiện đang di chuyển, nhãn lớp có thể bao gồm phương tiện, người đi bộ, đường, tín hiệu giao thông, tòa nhà hoặc nền. Nó cung cấp sự hiểu biết có độ chính xác cao về vị trí của các vật thể khác nhau trong ảnh và thường được sử dụng để xây dựng các hệ thống nhận thức cho xe tự hành hoặc người máy. Để xây dựng một mô hình ML cho phân đoạn ngữ nghĩa, trước tiên cần phải gắn nhãn một lượng lớn dữ liệu ở cấp độ pixel. Quá trình ghi nhãn này là phức tạp. Nó đòi hỏi người dán nhãn có tay nghề cao và thời gian đáng kể—một số hình ảnh có thể mất tới 2 giờ hoặc hơn để dán nhãn chính xác!

Trong 2019, chúng tôi đã phát hành một công cụ ghi nhãn tương tác do ML cung cấp có tên là Tự động phân đoạn cho Ground Truth cho phép bạn nhanh chóng và dễ dàng tạo mặt nạ phân đoạn chất lượng cao. Để biết thêm thông tin, xem Công cụ phân đoạn tự động. Tính năng này hoạt động bằng cách cho phép bạn nhấp vào “điểm cực trị” trên cùng, bên trái, dưới cùng và bên phải trên một đối tượng. Một mô hình ML đang chạy trong nền sẽ nhập thông tin đầu vào của người dùng này và trả về mặt nạ phân đoạn chất lượng cao, mặt nạ này sẽ ngay lập tức hiển thị trong công cụ ghi nhãn Ground Truth. Tuy nhiên, tính năng này chỉ cho phép bạn đặt bốn lần nhấp. Trong một số trường hợp nhất định, mặt nạ do ML tạo có thể vô tình bỏ sót một số phần nhất định của hình ảnh, chẳng hạn như xung quanh ranh giới đối tượng nơi các cạnh không rõ ràng hoặc nơi màu sắc, độ bão hòa hoặc bóng hòa vào môi trường xung quanh.

Nhấp vào điểm cực trị với số lần nhấp linh hoạt

Giờ đây, chúng tôi đã cải tiến công cụ để cho phép nhấp thêm vào các điểm ranh giới, cung cấp phản hồi theo thời gian thực cho mô hình ML. Điều này cho phép bạn tạo mặt nạ phân đoạn chính xác hơn. Trong ví dụ sau, kết quả phân đoạn ban đầu không chính xác do ranh giới yếu gần bóng. Điều quan trọng là công cụ này hoạt động ở chế độ cho phép phản hồi theo thời gian thực—không yêu cầu bạn chỉ định tất cả các điểm cùng một lúc. Thay vào đó, trước tiên bạn có thể thực hiện bốn lần nhấp chuột, thao tác này sẽ kích hoạt mô hình ML để tạo mặt nạ phân đoạn. Sau đó, bạn có thể kiểm tra mặt nạ này, xác định bất kỳ điểm không chính xác tiềm ẩn nào và sau đó thực hiện các nhấp chuột bổ sung nếu thích hợp để “thích” mô hình vào kết quả chính xác.

Ghi nhãn mặt nạ phân đoạn chỉ bằng vài cú nhấp chuột trong Amazon SageMaker Ground Truth Plus PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Công cụ ghi nhãn trước đây của chúng tôi cho phép bạn đặt chính xác bốn lần nhấp chuột (các chấm màu đỏ). Kết quả phân đoạn ban đầu (vùng màu đỏ được tô bóng) không chính xác do các ranh giới yếu gần bóng (phía dưới bên trái của mặt nạ màu đỏ).

Với công cụ ghi nhãn nâng cao của chúng tôi, trước tiên, người dùng thực hiện bốn lần nhấp chuột (các chấm màu đỏ ở hình trên cùng). Sau đó, bạn có cơ hội kiểm tra mặt nạ phân đoạn kết quả (vùng được tô màu đỏ trong hình trên cùng). Bạn có thể thực hiện thêm các lần nhấp chuột (các chấm màu xanh lá cây ở hình dưới cùng) để khiến mô hình tinh chỉnh mặt nạ (khu vực được tô màu đỏ ở hình dưới cùng).

Ghi nhãn mặt nạ phân đoạn chỉ bằng vài cú nhấp chuột trong Amazon SageMaker Ground Truth Plus PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

So với phiên bản gốc của công cụ, phiên bản nâng cao cung cấp kết quả được cải thiện khi các đối tượng có thể biến dạng, không lồi và thay đổi về hình dạng cũng như bề ngoài.

Chúng tôi đã mô phỏng hiệu suất của công cụ được cải tiến này trên dữ liệu mẫu bằng cách chạy công cụ cơ sở trước tiên (chỉ với bốn lần nhấp cực đoan) để tạo mặt nạ phân đoạn và đánh giá Giao lộ trung bình trên Liên minh (mIoU), thước đo độ chính xác phổ biến cho mặt nạ phân đoạn. Sau đó, chúng tôi đã áp dụng các nhấp chuột hiệu chỉnh mô phỏng và đánh giá sự cải thiện về mIoU sau mỗi nhấp chuột mô phỏng. Bảng dưới đây tóm tắt các kết quả này. Hàng đầu tiên hiển thị mIoU và hàng thứ hai hiển thị lỗi (được tính bằng 100% trừ đi mIoU). Chỉ với năm lần nhấp chuột bổ sung, chúng tôi có thể giảm 9% lỗi cho tác vụ này!

. . Số lần nhấp chuột điều chỉnh .
. Baseline 1 2 3 4 5
mIoU 72.72 76.56 77.62 78.89 80.57 81.73
lỗi 27% 23% 22% 21% 19% 18%

Tích hợp với Ground Truth và hồ sơ hiệu suất

Để tích hợp mô hình này với Ground Truth, chúng tôi tuân theo một mẫu kiến ​​trúc tiêu chuẩn như trong sơ đồ sau. Đầu tiên, chúng tôi xây dựng mô hình ML thành hình ảnh Docker và triển khai nó vào Đăng ký container đàn hồi Amazon (Amazon ECR), sổ đăng ký bộ chứa Docker được quản lý hoàn toàn giúp dễ dàng lưu trữ, chia sẻ và triển khai hình ảnh bộ chứa. Sử dụng Bộ công cụ suy luận SageMaker trong việc xây dựng hình ảnh Docker cho phép chúng tôi dễ dàng sử dụng các phương pháp hay nhất để phân phối mô hình và đạt được suy luận có độ trễ thấp. Sau đó chúng tôi tạo một Amazon SageMaker điểm cuối thời gian thực để lưu trữ mô hình. Chúng tôi giới thiệu một AWS Lambda hoạt động như một proxy trước điểm cuối SageMaker để cung cấp nhiều loại chuyển đổi dữ liệu khác nhau. Cuối cùng, chúng tôi sử dụng Cổng API Amazon như một cách tích hợp với giao diện người dùng của chúng tôi, ứng dụng ghi nhãn Ground Truth, để cung cấp xác thực an toàn cho phần phụ trợ của chúng tôi.

Ghi nhãn mặt nạ phân đoạn chỉ bằng vài cú nhấp chuột trong Amazon SageMaker Ground Truth Plus PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Bạn có thể làm theo mẫu chung này cho các trường hợp sử dụng của riêng mình đối với các công cụ ML được xây dựng có mục đích và để tích hợp chúng với giao diện người dùng tác vụ Ground Truth tùy chỉnh. Để biết thêm thông tin, hãy tham khảo Xây dựng quy trình ghi nhãn dữ liệu tùy chỉnh với Amazon SageMaker Ground Truth.

Sau khi cung cấp kiến ​​trúc này và triển khai mô hình của chúng tôi bằng cách sử dụng Bộ công cụ phát triển đám mây AWS (AWS CDK), chúng tôi đã đánh giá các đặc điểm độ trễ của mô hình với các loại phiên bản SageMaker khác nhau. Điều này rất dễ thực hiện vì chúng tôi sử dụng các điểm cuối suy luận thời gian thực của SageMaker để phục vụ mô hình của mình. Các điểm cuối suy luận thời gian thực của SageMaker tích hợp liền mạch với amazoncloudwatch và đưa ra các số liệu như mức sử dụng bộ nhớ và độ trễ của mô hình mà không cần thiết lập (xem Số liệu gọi điểm cuối SageMaker để biết thêm chi tiết).

Trong hình dưới đây, chúng tôi hiển thị chỉ số ModelLatency vốn được phát ra bởi các điểm cuối suy luận thời gian thực của SageMaker. Chúng ta có thể dễ dàng sử dụng các hàm toán học số liệu khác nhau trong CloudWatch để hiển thị phần trăm độ trễ, chẳng hạn như độ trễ p50 hoặc p90.

Ghi nhãn mặt nạ phân đoạn chỉ bằng vài cú nhấp chuột trong Amazon SageMaker Ground Truth Plus PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Bảng sau đây tóm tắt những kết quả này đối với công cụ nhấp cực kỳ nâng cao của chúng tôi để phân đoạn theo ngữ nghĩa cho ba loại phiên bản: p2.xlarge, p3.2xlarge và g4dn.xlarge. Mặc dù phiên bản p3.2xlarge có độ trễ thấp nhất, nhưng phiên bản g4dn.xlarge lại mang đến tỷ lệ chi phí trên hiệu suất tốt nhất. Phiên bản g4dn.xlarge chỉ chậm hơn 8% (35 mili giây) so với phiên bản p3.2xlarge nhưng lại rẻ hơn 81% tính theo giờ so với phiên bản p3.2xlarge (xem Amazon SageMaker Giá để biết thêm chi tiết về các loại phiên bản SageMaker và giá cả).

Loại phiên bản SageMaker p90 Độ trễ (ms)
1 p2.xlarge 751
2 p3.2xlund 424
3 g4dn.xlarge 459

Kết luận

Trong bài đăng này, chúng tôi đã giới thiệu một tiện ích mở rộng cho tính năng phân đoạn tự động Ground Truth cho các tác vụ chú thích phân đoạn ngữ nghĩa. Trong khi phiên bản gốc của công cụ cho phép bạn thực hiện chính xác bốn lần nhấp chuột, thao tác này sẽ kích hoạt một mô hình cung cấp mặt nạ phân đoạn chất lượng cao, thì tiện ích mở rộng cho phép bạn thực hiện các lần nhấp điều chỉnh, từ đó cập nhật và hướng dẫn mô hình ML đưa ra dự đoán tốt hơn. Chúng tôi cũng đã trình bày một mẫu kiến ​​trúc cơ bản mà bạn có thể sử dụng để triển khai và tích hợp các công cụ tương tác vào giao diện người dùng ghi nhãn Ground Truth. Cuối cùng, chúng tôi đã tóm tắt độ trễ của mô hình và chỉ ra cách sử dụng các điểm cuối suy luận thời gian thực của SageMaker giúp dễ dàng theo dõi hiệu suất của mô hình.

Để tìm hiểu thêm về cách công cụ này có thể giảm chi phí ghi nhãn và tăng độ chính xác, hãy truy cập Ghi nhãn dữ liệu Amazon SageMaker để bắt đầu tư vấn ngay hôm nay.


Giới thiệu về tác giả

Ghi nhãn mặt nạ phân đoạn chỉ bằng vài cú nhấp chuột trong Amazon SageMaker Ground Truth Plus PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.Jonathan Buck là một Kỹ sư phần mềm tại Amazon Web Services làm việc tại giao điểm của máy học và hệ thống phân tán. Công việc của anh liên quan đến việc sản xuất các mô hình máy học và phát triển các ứng dụng phần mềm mới được hỗ trợ bởi máy học để đưa các khả năng mới nhất đến tay khách hàng.

Ghi nhãn mặt nạ phân đoạn chỉ bằng vài cú nhấp chuột trong Amazon SageMaker Ground Truth Plus PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.Lý Nhĩ Nhiên là người quản lý khoa học ứng dụng tại các dịch vụ con người trong vòng lặp, AWS AI, Amazon. Mối quan tâm nghiên cứu của anh ấy là học sâu 3D, và học biểu diễn ngôn ngữ và hình ảnh. Trước đây, ông là nhà khoa học cấp cao tại Alexa AI, trưởng bộ phận học máy tại Scale AI và nhà khoa học trưởng tại Pony.ai. Trước đó, anh ấy đã làm việc với nhóm nhận thức tại Uber ATG và nhóm nền tảng máy học tại Uber làm việc về máy học cho lái xe tự động, hệ thống máy học và các sáng kiến ​​chiến lược của AI. Ông bắt đầu sự nghiệp của mình tại Bell Labs và là trợ giảng tại Đại học Columbia. Anh ấy đã đồng giảng dạy các buổi hướng dẫn tại ICML'17 và ICCV'19, đồng thời đồng tổ chức một số hội thảo tại NeurIPS, ICML, CVPR, ICCV về học máy cho lái xe tự động, tầm nhìn 3D và người máy, hệ thống học máy và học máy đối nghịch. Ông có bằng tiến sĩ về khoa học máy tính tại Đại học Cornell. Anh ấy là thành viên của ACM và thành viên của IEEE.

Dấu thời gian:

Thêm từ Học máy AWS