Tạo dữ liệu chất lượng cao cho các mô hình ML với Amazon SageMaker Ground Truth PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Tạo dữ liệu chất lượng cao cho các mô hình ML với Amazon SageMaker Ground Truth

Máy học (ML) đã cải thiện hoạt động kinh doanh trong các ngành trong những năm gần đây — từ hệ thống đề xuất trên Video Chính tài khoản, để tóm tắt tài liệu và tìm kiếm hiệu quả với Alexahỗ trợ giọng nói. Tuy nhiên, câu hỏi vẫn là làm thế nào để kết hợp công nghệ này vào doanh nghiệp của bạn. Không giống như các phương pháp dựa trên quy tắc truyền thống, ML tự động suy ra các mẫu từ dữ liệu để thực hiện nhiệm vụ bạn quan tâm. Mặc dù điều này bỏ qua sự cần thiết phải quản lý các quy tắc cho tự động hóa, nhưng điều đó cũng có nghĩa là các mô hình ML chỉ có thể tốt như dữ liệu mà chúng được đào tạo trên đó. Tuy nhiên, việc tạo dữ liệu thường là một nhiệm vụ đầy thách thức. Tại Phòng thí nghiệm Giải pháp Máy học của Amazon, chúng tôi đã nhiều lần gặp sự cố này và muốn giảm bớt hành trình này cho khách hàng của mình. Nếu bạn muốn giảm tải quá trình này, bạn có thể sử dụng Amazon SageMaker Ground Truth Plus.

Đến cuối bài đăng này, bạn sẽ có thể đạt được những điều sau:

  • Hiểu các quy trình kinh doanh liên quan đến việc thiết lập một đường dẫn thu thập dữ liệu
  • Xác định các dịch vụ Đám mây AWS để hỗ trợ và xúc tiến quy trình gắn nhãn dữ liệu của bạn
  • Chạy tác vụ ghi nhãn và thu thập dữ liệu cho các trường hợp sử dụng tùy chỉnh
  • Tạo dữ liệu chất lượng cao theo các phương pháp hay nhất về kinh doanh và kỹ thuật

Trong suốt bài đăng này, chúng tôi tập trung vào quá trình tạo dữ liệu và dựa vào các dịch vụ AWS để xử lý cơ sở hạ tầng và các thành phần quy trình. Cụ thể, chúng tôi sử dụng Sự thật về mặt đất của Amazon SageMaker để xử lý đường ống cơ sở hạ tầng ghi nhãn và giao diện người dùng. Dịch vụ này sử dụng phương pháp tiếp cận điểm và đi để thu thập dữ liệu của bạn từ Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3) và thiết lập quy trình gắn nhãn. Đối với việc gắn nhãn, nó cung cấp cho bạn sự linh hoạt tích hợp để có được các nhãn dữ liệu bằng cách sử dụng nhóm riêng của bạn, Amazon Mechanical Turk buộc, hoặc nhà cung cấp ghi nhãn ưa thích của bạn từ Thị trường AWS. Cuối cùng, bạn có thể sử dụng AWS LambdaMáy tính xách tay Amazon SageMaker để xử lý, trực quan hóa hoặc kiểm soát chất lượng dữ liệu — trước hoặc sau khi dán nhãn.

Bây giờ tất cả các mảnh đã được đặt xuống, hãy bắt đầu quá trình!

Quá trình tạo dữ liệu

Trái ngược với trực giác thông thường, bước đầu tiên để tạo dữ liệu không phải là thu thập dữ liệu. Làm việc ngược lại từ người dùng để nói rõ vấn đề là rất quan trọng. Ví dụ, người dùng quan tâm đến điều gì trong tạo tác cuối cùng? Các chuyên gia tin rằng các tín hiệu liên quan đến trường hợp sử dụng nằm ở đâu trong dữ liệu? Thông tin nào về môi trường ca sử dụng có thể được cung cấp cho mô hình? Nếu bạn không biết câu trả lời cho những câu hỏi đó, đừng lo lắng. Hãy dành cho mình một chút thời gian để trò chuyện với người dùng và các chuyên gia lĩnh vực để hiểu rõ các sắc thái. Những hiểu biết ban đầu này sẽ định hướng bạn đi đúng hướng và giúp bạn thành công.

Đối với bài đăng này, chúng tôi giả định rằng bạn đã bao gồm quá trình đặc tả yêu cầu người dùng ban đầu này. Ba phần tiếp theo sẽ hướng dẫn bạn quy trình tạo dữ liệu chất lượng tiếp theo: lập kế hoạch, tạo dữ liệu nguồn và chú thích dữ liệu. Các vòng lặp thí điểm ở bước tạo dữ liệu và chú thích là rất quan trọng để đảm bảo việc tạo dữ liệu được gắn nhãn một cách hiệu quả. Điều này liên quan đến việc lặp đi lặp lại giữa việc tạo dữ liệu, chú thích, đảm bảo chất lượng và cập nhật đường dẫn khi cần thiết.

Hình dưới đây cung cấp tổng quan về các bước cần thiết trong một quy trình tạo dữ liệu điển hình. Bạn có thể làm việc ngược lại từ ca sử dụng để xác định dữ liệu bạn cần (Đặc tả yêu cầu), xây dựng quy trình lấy dữ liệu (Lập kế hoạch), thực hiện quy trình thu thập dữ liệu thực tế (Thu thập và chú thích dữ liệu) và đánh giá kết quả. Các lần chạy thử nghiệm, được đánh dấu bằng các đường đứt nét, cho phép bạn lặp lại quy trình cho đến khi phát triển được đường dẫn thu thập dữ liệu chất lượng cao.

Tổng quan về các bước cần thiết trong một quy trình tạo dữ liệu điển hình.

Lập kế hoạch

Quá trình tạo dữ liệu chuẩn có thể tốn nhiều thời gian và lãng phí nguồn nhân lực quý giá nếu được tiến hành không hiệu quả. Tại sao nó sẽ tốn thời gian? Để trả lời câu hỏi này, chúng ta phải hiểu phạm vi của quá trình tạo dữ liệu. Để hỗ trợ bạn, chúng tôi đã thu thập danh sách kiểm tra cấp cao và mô tả về các thành phần chính và các bên liên quan mà bạn phải xem xét. Lúc đầu, trả lời những câu hỏi này có thể khó khăn. Tùy thuộc vào trường hợp sử dụng của bạn, chỉ một số trong số này có thể áp dụng được.

  • Xác định đầu mối liên hệ hợp pháp để có các phê duyệt bắt buộc - Việc sử dụng dữ liệu cho ứng dụng của bạn có thể yêu cầu giấy phép hoặc hợp đồng nhà cung cấp xem xét để đảm bảo tuân thủ các chính sách của công ty và các trường hợp sử dụng. Điều quan trọng là xác định hỗ trợ pháp lý của bạn trong suốt các bước thu thập dữ liệu và chú thích của quy trình.
  • Xác định điểm liên hệ bảo mật để xử lý dữ liệu –Rò rỉ dữ liệu đã mua có thể dẫn đến tiền phạt và hậu quả nghiêm trọng cho công ty của bạn. Điều quan trọng là xác định hỗ trợ bảo mật của bạn trong suốt các bước thu thập dữ liệu và chú thích để đảm bảo các phương pháp an toàn.
  • Yêu cầu chi tiết trường hợp sử dụng và xác định dữ liệu nguồn và nguyên tắc chú thích - Việc tạo và chú thích dữ liệu khó khăn do yêu cầu tính cụ thể cao. Các bên liên quan, bao gồm trình tạo dữ liệu và trình chú thích, phải hoàn toàn liên kết để tránh lãng phí tài nguyên. Để đạt được điều này, thông thường bạn nên sử dụng tài liệu hướng dẫn chỉ định mọi khía cạnh của nhiệm vụ chú thích: hướng dẫn chính xác, trường hợp cạnh, hướng dẫn ví dụ, v.v.
  • Điều chỉnh theo kỳ vọng thu thập dữ liệu nguồn của bạn - Hãy xem xét những điều sau:
    • Tiến hành nghiên cứu các nguồn dữ liệu tiềm năng - Ví dụ: tập dữ liệu công khai, tập dữ liệu hiện có từ các nhóm nội bộ khác, dữ liệu tự thu thập hoặc mua từ nhà cung cấp.
    • Thực hiện đánh giá chất lượng - Tạo một đường ống phân tích liên quan đến ca sử dụng cuối cùng.
  • Điều chỉnh theo kỳ vọng để tạo chú thích dữ liệu - Hãy xem xét những điều sau:
    • Xác định các bên liên quan về kỹ thuật - Đây thường là một cá nhân hoặc nhóm trong công ty của bạn có khả năng sử dụng tài liệu kỹ thuật liên quan đến Ground Truth để triển khai một đường dẫn chú thích. Các bên liên quan này cũng chịu trách nhiệm đánh giá chất lượng dữ liệu được chú thích để đảm bảo rằng nó đáp ứng nhu cầu của ứng dụng ML hạ lưu của bạn.
    • Xác định các trình chú thích dữ liệu - Những cá nhân này sử dụng các hướng dẫn định trước để thêm nhãn vào dữ liệu nguồn của bạn trong Ground Truth. Họ có thể cần phải có kiến ​​thức về miền tùy thuộc vào trường hợp sử dụng và nguyên tắc chú thích của bạn. Bạn có thể sử dụng lực lượng lao động nội bộ công ty của mình hoặc trả tiền cho một lực lượng lao động được quản lý bởi một nhà cung cấp bên ngoài.
  • Đảm bảo giám sát quá trình tạo dữ liệu - Như bạn có thể thấy từ những điểm trước, tạo dữ liệu là một quá trình chi tiết bao gồm nhiều bên liên quan chuyên biệt. Do đó, điều quan trọng là phải theo dõi nó kết thúc để đạt được kết quả mong muốn. Có một người hoặc một nhóm chuyên trách giám sát quy trình có thể giúp bạn đảm bảo một quy trình tạo dữ liệu gắn kết và hiệu quả.

Tùy thuộc vào tuyến đường mà bạn quyết định đi, bạn cũng phải xem xét những điều sau:

  • Tạo tập dữ liệu nguồn - Điều này đề cập đến các trường hợp khi dữ liệu hiện có không phù hợp với nhiệm vụ đang thực hiện hoặc các ràng buộc pháp lý ngăn cản bạn sử dụng dữ liệu đó. Nhóm nội bộ hoặc nhà cung cấp bên ngoài (điểm tiếp theo) phải được sử dụng. Điều này thường xảy ra đối với các lĩnh vực chuyên môn hóa cao hoặc các lĩnh vực có lượng nghiên cứu công khai thấp. Ví dụ, các câu hỏi thường gặp của bác sĩ, chuyên gia may mặc hoặc các chuyên gia thể thao. Nó có thể là bên trong hoặc bên ngoài.
  • Nghiên cứu các nhà cung cấp và tiến hành quá trình giới thiệu - Khi các nhà cung cấp bên ngoài được sử dụng, một quy trình ký kết và giới thiệu phải được thiết lập giữa cả hai thực thể.

Trong phần này, chúng tôi đã xem xét các thành phần và các bên liên quan mà chúng tôi phải xem xét. Tuy nhiên, quy trình thực tế trông như thế nào? Trong hình sau, chúng tôi phác thảo quy trình công việc để tạo dữ liệu và chú thích. Phương pháp lặp lại sử dụng các lô dữ liệu nhỏ được gọi là thử nghiệm để giảm thời gian quay vòng, phát hiện lỗi sớm và tránh lãng phí tài nguyên trong việc tạo dữ liệu chất lượng thấp. Chúng tôi mô tả các vòng thí điểm này sau trong bài đăng này. Chúng tôi cũng đề cập đến một số phương pháp hay nhất để tạo dữ liệu, chú thích và kiểm soát chất lượng.

Hình dưới đây minh họa sự phát triển lặp đi lặp lại của một đường dẫn tạo dữ liệu. Theo chiều dọc, chúng tôi tìm thấy khối tìm nguồn cung cấp dữ liệu (màu xanh lá cây) và khối chú thích (màu xanh lam). Cả hai khối đều có các vòng thử nghiệm độc lập (Tạo dữ liệu / Chú thích, QAQC và Cập nhật). Dữ liệu có nguồn gốc ngày càng cao được tạo ra và có thể được sử dụng để tạo các chú thích chất lượng ngày càng cao.

Trong quá trình phát triển lặp đi lặp lại của đường dẫn tạo dữ liệu hoặc chú thích, các lô dữ liệu nhỏ được sử dụng cho các thí điểm độc lập. Mỗi vòng thí điểm có một giai đoạn tạo dữ liệu hoặc chú thích, một số đảm bảo chất lượng và kiểm soát chất lượng kết quả, và một bước cập nhật để tinh chỉnh quy trình. Sau khi các quy trình này được hoàn thiện thông qua các thử nghiệm liên tiếp, bạn có thể tiến hành tạo và chú thích dữ liệu quy mô lớn.

Tổng quan về phát triển lặp đi lặp lại trong một đường dẫn tạo dữ liệu.

Tạo dữ liệu nguồn

Quá trình tạo đầu vào xoay quanh việc sắp xếp các mục bạn quan tâm, tùy thuộc vào loại nhiệm vụ của bạn. Đây có thể là hình ảnh (quét báo), video (cảnh giao thông), đám mây điểm 3D (quét y tế), hoặc đơn giản là văn bản (phụ đề, phiên âm). Nói chung, khi sắp xếp các mục liên quan đến nhiệm vụ của bạn, hãy đảm bảo những điều sau:

  • Phản ánh trường hợp sử dụng trong thế giới thực cho hệ thống AI / ML cuối cùng - Thiết lập để thu thập hình ảnh hoặc video cho dữ liệu đào tạo của bạn phải khớp chặt chẽ với thiết lập cho dữ liệu đầu vào của bạn trong ứng dụng thế giới thực. Điều này có nghĩa là phải có các bề mặt vị trí, nguồn ánh sáng hoặc góc máy ảnh nhất quán.
  • Giải quyết và giảm thiểu các nguồn thay đổi - Hãy xem xét những điều sau:
    • Phát triển các phương pháp hay nhất để duy trì các tiêu chuẩn thu thập dữ liệu - Tùy thuộc vào mức độ chi tiết của trường hợp sử dụng của bạn, bạn có thể cần chỉ định các yêu cầu để đảm bảo tính nhất quán giữa các điểm dữ liệu của mình. Ví dụ: nếu bạn đang thu thập dữ liệu hình ảnh hoặc video từ các điểm máy ảnh đơn lẻ, bạn có thể cần đảm bảo vị trí nhất quán của các đối tượng quan tâm của mình hoặc yêu cầu kiểm tra chất lượng máy ảnh trước khi quay dữ liệu. Điều này có thể tránh các vấn đề như độ nghiêng hoặc mờ của máy ảnh và giảm thiểu chi phí hạ lưu như loại bỏ hình ảnh mờ hoặc ngoài khung hình, cũng như cần căn giữa khung hình theo cách thủ công trên khu vực bạn quan tâm.
    • Kiểm tra trước nguồn thời gian thay đổi - Nếu bạn dự đoán sự thay đổi của bất kỳ thuộc tính nào được đề cập cho đến nay trong thời gian thử nghiệm, hãy đảm bảo rằng bạn có thể nắm bắt các nguồn biến đổi đó trong quá trình tạo dữ liệu đào tạo. Ví dụ: nếu bạn mong muốn ứng dụng ML của mình hoạt động trong nhiều cài đặt ánh sáng khác nhau, bạn nên hướng đến việc tạo hình ảnh và video đào tạo ở các cài đặt ánh sáng khác nhau. Tùy thuộc vào trường hợp sử dụng, sự thay đổi trong định vị máy ảnh cũng có thể ảnh hưởng đến chất lượng nhãn của bạn.
  • Kết hợp kiến ​​thức miền trước khi có sẵn - Hãy xem xét những điều sau:
    • Đầu vào về nguồn lỗi - Người điều hành miền có thể cung cấp thông tin chi tiết về các nguồn lỗi dựa trên kinh nghiệm nhiều năm của họ. Họ có thể cung cấp phản hồi về các phương pháp hay nhất cho hai điểm trước: Cài đặt nào phản ánh tốt nhất trường hợp sử dụng trong thế giới thực? Các nguồn có thể thay đổi trong quá trình thu thập dữ liệu hoặc tại thời điểm sử dụng là gì?
    • Các phương pháp hay nhất về thu thập dữ liệu theo miền cụ thể - Mặc dù các bên liên quan về kỹ thuật của bạn có thể đã có ý tưởng tốt về các khía cạnh kỹ thuật cần tập trung vào hình ảnh hoặc video được thu thập, những người thực hiện miền có thể cung cấp phản hồi về cách tốt nhất để phân loại hoặc thu thập dữ liệu sao cho những nhu cầu này được đáp ứng.

Kiểm soát chất lượng và đảm bảo chất lượng của dữ liệu được tạo

Bây giờ bạn đã thiết lập quy trình thu thập dữ liệu, bạn có thể tiếp tục và thu thập càng nhiều dữ liệu càng tốt. Đợi tí! Trước tiên, chúng tôi phải kiểm tra xem dữ liệu được thu thập thông qua thiết lập có phù hợp với trường hợp sử dụng từ ngữ thực tế của bạn hay không. Chúng tôi có thể sử dụng một số mẫu ban đầu và cải thiện lặp đi lặp lại việc thiết lập thông qua những hiểu biết sâu sắc mà chúng tôi có được từ việc phân tích dữ liệu mẫu đó. Làm việc chặt chẽ với các bên liên quan về kỹ thuật, kinh doanh và chú thích của bạn trong quá trình thử nghiệm. Điều này sẽ đảm bảo rằng đường dẫn kết quả của bạn đáp ứng nhu cầu kinh doanh trong khi tạo dữ liệu được gắn nhãn ML sẵn sàng với chi phí tối thiểu.

Chú thích

Chú thích của các đầu vào là nơi chúng tôi thêm cảm ứng kỳ diệu vào dữ liệu của mình — các nhãn! Tùy thuộc vào loại tác vụ và quy trình tạo dữ liệu của bạn, bạn có thể cần trình chú thích thủ công hoặc bạn có thể sử dụng các phương pháp tự động có sẵn. Bản thân đường dẫn chú thích dữ liệu có thể là một nhiệm vụ khó khăn về mặt kỹ thuật. Ground Truth giúp giảm bớt hành trình này cho các bên liên quan kỹ thuật của bạn với tích hợp sẵn các luồng công việc gắn nhãn cho các nguồn dữ liệu chung. Với một vài bước bổ sung, nó cũng cho phép bạn xây dựng quy trình công việc dán nhãn tùy chỉnh ngoài các tùy chọn được định cấu hình trước.

Hãy tự hỏi bản thân những câu hỏi sau khi phát triển quy trình công việc chú thích phù hợp:

  • Tôi có cần quy trình chú thích thủ công cho dữ liệu của mình không? Trong một số trường hợp, các dịch vụ ghi nhãn tự động có thể đủ cho nhiệm vụ hiện tại. Xem lại tài liệu và các công cụ có sẵn có thể giúp bạn xác định xem chú thích thủ công có cần thiết cho trường hợp sử dụng của bạn hay không (để biết thêm thông tin, hãy xem Ghi nhãn dữ liệu là gì?). Quá trình tạo dữ liệu có thể cho phép các cấp độ kiểm soát khác nhau liên quan đến mức độ chi tiết của chú thích dữ liệu của bạn. Tùy thuộc vào quy trình này, đôi khi bạn cũng có thể bỏ qua yêu cầu chú thích thủ công. Để biết thêm thông tin, hãy tham khảo Xây dựng tập dữ liệu Hỏi và Đáp tùy chỉnh bằng cách sử dụng Amazon SageMaker Ground Truth để đào tạo mô hình Hỏi và Đáp bằng khuôn mặt ôm.
  • Điều gì tạo nên sự thật nền tảng của tôi? Trong hầu hết các trường hợp, sự thật cơ bản sẽ đến từ quá trình chú thích của bạn — đó là toàn bộ vấn đề! Ở những người khác, người dùng có thể có quyền truy cập vào các nhãn sự thật cơ bản. Điều này có thể tăng tốc đáng kể quy trình đảm bảo chất lượng của bạn hoặc giảm chi phí cần thiết cho nhiều chú thích thủ công.
  • Giới hạn trên cho độ lệch so với trạng thái chân lý cơ bản của tôi là gì? Làm việc với người dùng cuối của bạn để hiểu các lỗi điển hình xung quanh các nhãn này, nguồn gốc của các lỗi đó và mức giảm lỗi mong muốn. Điều này sẽ giúp bạn xác định khía cạnh nào của nhiệm vụ gắn nhãn là thách thức nhất hoặc có khả năng có lỗi chú thích.
  • Có các quy tắc tồn tại từ trước được sử dụng bởi người dùng hoặc những người thực hành hiện trường để gắn nhãn các mục này không? Sử dụng và tinh chỉnh các nguyên tắc này để xây dựng một bộ hướng dẫn cho trình chú thích thủ công của bạn.

Thí điểm quy trình chú thích đầu vào

Khi thử nghiệm quy trình chú thích đầu vào, hãy xem xét những điều sau:

  • Xem lại các hướng dẫn với người chú thích và người thực hành thực địa - Hướng dẫn cần ngắn gọn và cụ thể. Yêu cầu phản hồi từ người dùng của bạn (Hướng dẫn có chính xác không? Chúng tôi có thể sửa đổi bất kỳ hướng dẫn nào để đảm bảo rằng chúng có thể hiểu được bởi những người không chuyên về lĩnh vực này không?) Và chú thích (Mọi thứ có dễ hiểu không? Nhiệm vụ có rõ ràng không?). Nếu có thể, hãy thêm một ví dụ về dữ liệu được gắn nhãn tốt và xấu để giúp người chú thích của bạn xác định những gì được mong đợi và các lỗi gắn nhãn phổ biến có thể trông như thế nào.
  • Thu thập dữ liệu cho các chú thích - Xem xét dữ liệu với khách hàng của bạn để đảm bảo rằng dữ liệu đó đáp ứng các tiêu chuẩn mong đợi và để phù hợp với kết quả mong đợi từ chú thích thủ công.
  • Cung cấp các ví dụ cho nhóm các trình chú thích thủ công của bạn khi chạy thử nghiệm - Phương sai điển hình giữa các chú thích trong tập hợp các ví dụ này là gì? Nghiên cứu phương sai cho mỗi chú thích trong một hình ảnh nhất định để xác định xu hướng nhất quán giữa các chú thích. Sau đó, so sánh sự khác biệt giữa các hình ảnh hoặc khung video để xác định nhãn nào đang khó đặt.

Kiểm soát chất lượng của các chú thích

Kiểm soát chất lượng chú thích có hai thành phần chính: đánh giá tính nhất quán giữa các chú thích và đánh giá chất lượng của chính các chú thích.

Bạn có thể chỉ định nhiều chú thích cho cùng một nhiệm vụ (ví dụ: ba chú thích gắn nhãn các điểm chính trên cùng một hình ảnh) và đo giá trị trung bình cùng với độ lệch chuẩn của các nhãn này giữa các chú thích. Làm như vậy giúp bạn xác định bất kỳ chú thích ngoại lệ nào (nhãn được sử dụng không chính xác hoặc nhãn khác xa với chú thích trung bình), có thể hướng dẫn các kết quả có thể hành động, chẳng hạn như tinh chỉnh hướng dẫn của bạn hoặc cung cấp đào tạo thêm cho các chú thích nhất định.

Bản thân việc đánh giá chất lượng của các chú thích gắn liền với khả năng thay đổi của chú thích và (nếu có) sự sẵn có của các chuyên gia tên miền hoặc thông tin cơ bản về sự thật. Có một số nhãn nhất định (trên tất cả các hình ảnh của bạn) mà phương sai trung bình giữa các chú thích luôn cao không? Có bất kỳ nhãn nào khác xa với mong đợi của bạn về vị trí của chúng hay chúng trông như thế nào không?

Dựa trên kinh nghiệm của chúng tôi, một vòng lặp kiểm soát chất lượng điển hình cho chú thích dữ liệu có thể trông như sau:

  • Lặp lại các hướng dẫn hoặc tổ chức hình ảnh dựa trên kết quả từ quá trình chạy thử nghiệm - Có bất kỳ đối tượng nào bị che khuất hoặc có dàn hình ảnh không phù hợp với mong đợi của người chú thích hoặc người dùng không? Các hướng dẫn có gây hiểu nhầm không, hoặc bạn có bỏ sót bất kỳ nhãn nào hoặc các lỗi phổ biến trong hình ảnh mẫu của bạn không? Bạn có thể tinh chỉnh hướng dẫn cho các chú thích của mình không?
  • Nếu bạn hài lòng rằng bạn đã giải quyết được bất kỳ vấn đề nào từ quá trình chạy thử nghiệm, hãy thực hiện một loạt các chú thích - Để kiểm tra các kết quả từ lô, thực hiện theo cách tiếp cận đánh giá chất lượng tương tự là đánh giá các biến đổi nhãn liên ảnh và liên ảnh.

Kết luận

Bài đăng này phục vụ như một hướng dẫn cho các bên liên quan trong kinh doanh hiểu được sự phức tạp của việc tạo dữ liệu cho các ứng dụng AI / ML. Các quy trình được mô tả cũng đóng vai trò là hướng dẫn cho các nhà thực hành kỹ thuật để tạo ra dữ liệu chất lượng trong khi tối ưu hóa các ràng buộc kinh doanh như nhân sự và chi phí. Nếu không được thực hiện tốt, quá trình tạo dữ liệu và ghi nhãn có thể mất tới 4–6 tháng.

Với các nguyên tắc và đề xuất được nêu trong bài đăng này, bạn có thể vượt qua các rào cản, giảm thời gian hoàn thành và giảm thiểu chi phí trong hành trình tạo dữ liệu chất lượng cao.


Giới thiệu về tác giả

Tạo dữ liệu chất lượng cao cho các mô hình ML với Amazon SageMaker Ground Truth PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.Jasleen Grewal là Nhà khoa học ứng dụng tại Amazon Web Services, nơi cô làm việc với khách hàng AWS để giải quyết các vấn đề trong thế giới thực bằng cách sử dụng máy học, đặc biệt tập trung vào y học chính xác và bộ gen. Cô có kiến ​​thức nền tảng vững chắc về tin học sinh học, ung thư học và gen di truyền học lâm sàng. Cô ấy đam mê sử dụng AI / ML và các dịch vụ đám mây để cải thiện việc chăm sóc bệnh nhân.

Tạo dữ liệu chất lượng cao cho các mô hình ML với Amazon SageMaker Ground Truth PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.Boris Aronchik là Quản lý trong Phòng thí nghiệm Giải pháp Máy học AI của Amazon, nơi ông lãnh đạo một nhóm các nhà khoa học và kỹ sư ML để giúp khách hàng AWS thực hiện các mục tiêu kinh doanh bằng cách sử dụng các giải pháp AI / ML.

Tạo dữ liệu chất lượng cao cho các mô hình ML với Amazon SageMaker Ground Truth PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.Miguel Romero Calvo là một nhà khoa học ứng dụng tại Phòng thí nghiệm giải pháp Amazon ML nơi anh ấy hợp tác với các nhóm nội bộ và khách hàng chiến lược của AWS để tăng tốc hoạt động kinh doanh của họ thông qua ML và áp dụng đám mây.

Tạo dữ liệu chất lượng cao cho các mô hình ML với Amazon SageMaker Ground Truth PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.Lâm Lực Hoành là Nhà khoa học và Quản lý cấp cao của nhóm Amazon ML Solutions Lab tại Amazon Web Services. Cô làm việc với các khách hàng chiến lược của AWS để khám phá và áp dụng trí tuệ nhân tạo cũng như máy học để khám phá những hiểu biết mới và giải quyết các vấn đề phức tạp.

Dấu thời gian:

Thêm từ Học máy AWS