Amazon SageMaker JumpStart hiện cung cấp sổ ghi chép Amazon Comprehend để phân loại tùy chỉnh và phát hiện thực thể tùy chỉnh PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Amazon SageMaker JumpStart hiện cung cấp sổ ghi chép Amazon Comprehend để phân loại tùy chỉnh và phát hiện thực thể tùy chỉnh

Amazon hiểu là một dịch vụ xử lý ngôn ngữ tự nhiên (NLP) sử dụng máy học (ML) để khám phá những hiểu biết sâu sắc từ văn bản. Amazon Comprehend cung cấp các tính năng tùy chỉnh, công nhận thực thể tùy chỉnh, phân loại tùy chỉnhAPI được đào tạo trước chẳng hạn như trích xuất cụm từ khóa, phân tích tình cảm, nhận dạng thực thể, v.v. để bạn có thể dễ dàng tích hợp NLP vào các ứng dụng của mình.

Gần đây, chúng tôi đã thêm các sổ ghi chép liên quan đến Amazon Comprehend trong Khởi động Amazon SageMaker sổ ghi chép có thể giúp bạn nhanh chóng bắt đầu sử dụng trình phân loại tùy chỉnh và trình nhận dạng thực thể tùy chỉnh của Amazon Comprehend. Bạn có thể sử dụng phân loại tùy chỉnh để sắp xếp tài liệu thành các danh mục (lớp) mà bạn xác định. Tính năng nhận dạng thực thể tùy chỉnh mở rộng khả năng của API phát hiện thực thể được đào tạo trước của Amazon Comprehend bằng cách giúp bạn xác định các loại thực thể dành riêng cho miền hoặc doanh nghiệp của bạn không có trong loại thực thể chung đặt trước các loại thực thể.

Trong bài đăng này, chúng tôi hướng dẫn bạn cách sử dụng JumpStart để xây dựng các mô hình phát hiện thực thể và phân loại tùy chỉnh của Amazon Comprehend như một phần trong nhu cầu NLP của doanh nghiệp bạn.

Khởi động SageMaker

Sản phẩm Xưởng sản xuất Amazon SageMaker trang đích cung cấp tùy chọn sử dụng JumpStart. JumpStart cung cấp một cách nhanh chóng để bắt đầu bằng cách cung cấp các mô hình được đào tạo trước cho nhiều loại vấn đề khác nhau. Bạn có thể đào tạo và điều chỉnh các mô hình này. JumpStart cũng cung cấp các tài nguyên khác như sổ ghi chép, blog và video.

Sổ ghi chép JumpStart về cơ bản là mã mẫu mà bạn có thể sử dụng làm điểm khởi đầu để bắt đầu nhanh chóng. Hiện tại, chúng tôi cung cấp cho bạn hơn 40 sổ ghi chép mà bạn có thể sử dụng nguyên trạng hoặc tùy chỉnh khi cần. Bạn có thể tìm sổ ghi chép của mình bằng cách sử dụng tìm kiếm hoặc bảng xem theo thẻ. Sau khi bạn tìm thấy sổ ghi chép mình muốn sử dụng, bạn có thể nhập sổ ghi chép, tùy chỉnh sổ ghi chép theo yêu cầu của mình, đồng thời chọn cơ sở hạ tầng và môi trường để chạy sổ ghi chép.

Bắt đầu với sổ ghi chép JumpStart

Để bắt đầu với JumpStart, hãy truy cập Amazon SageMaker bảng điều khiển và mở Studio. tham khảo Bắt đầu với SageMaker Studio để được hướng dẫn về cách bắt đầu với Studio. Sau đó hoàn thành các bước sau:

  1. Trong Studio, vào trang khởi động của JumpStart và chọn Đi tới SageMaker JumpStart.

Bạn được cung cấp nhiều cách để tìm kiếm. Bạn có thể sử dụng các tab ở trên cùng để đến nội dung mình muốn hoặc sử dụng hộp tìm kiếm như minh họa trong ảnh chụp màn hình sau.

  1. Để tìm sổ ghi chép, chúng tôi đi đến máy tính xách tay tab.

Chuyển đến tab Sổ ghi chép

Tại thời điểm viết bài này, JumpStart cung cấp 47 máy tính xách tay. Bạn có thể sử dụng các bộ lọc để tìm sổ ghi chép liên quan đến Amazon Comprehend.

  1. trên Loại nội dung menu thả xuống, chọn Sổ tay.

Như bạn có thể thấy trong ảnh chụp màn hình sau, chúng tôi hiện có hai sổ ghi chép Amazon Comprehend.

Tìm sổ ghi chép hiểu

Trong các phần sau, chúng tôi khám phá cả hai sổ ghi chép.

Trình phân loại tùy chỉnh của Amazon Comphend

Trong sổ ghi chép này, chúng tôi trình bày cách sử dụng API phân loại tùy chỉnh để tạo ra một mô hình phân loại tài liệu.

Trình phân loại tùy chỉnh là một tính năng được quản lý hoàn toàn của Amazon Comprehend, cho phép bạn xây dựng các mô hình phân loại văn bản tùy chỉnh dành riêng cho doanh nghiệp của mình, ngay cả khi bạn có ít hoặc không có kiến ​​thức chuyên môn về ML. Trình phân loại tùy chỉnh được xây dựng dựa trên các khả năng hiện có của Amazon Comprehend, vốn đã được đào tạo trên hàng chục triệu tài liệu. Nó tóm tắt phần lớn sự phức tạp cần thiết để xây dựng mô hình phân loại NLP. Trình phân loại tùy chỉnh tự động tải và kiểm tra dữ liệu đào tạo, chọn thuật toán ML phù hợp, đào tạo mô hình của bạn, tìm siêu đường kính tối ưu, kiểm tra mô hình và cung cấp chỉ số hiệu suất mô hình. Trình phân loại tùy chỉnh Amazon Comprehend cũng cung cấp một bảng điều khiển dễ sử dụng cho toàn bộ quy trình ML, bao gồm cả văn bản ghi nhãn bằng cách sử dụng Sự thật về mặt đất của Amazon SageMaker, đào tạo và triển khai mô hình cũng như trực quan hóa kết quả kiểm tra. Với bộ phân loại tùy chỉnh Amazon Comprehend, bạn có thể xây dựng các mô hình sau:

  • Mô hình phân loại nhiều lớp – Trong phân loại theo nhiều lớp, mỗi tài liệu có thể có một và chỉ một lớp được gán cho nó. Các lớp riêng lẻ là loại trừ lẫn nhau. Ví dụ: một bộ phim có thể được phân loại là phim tài liệu hoặc khoa học viễn tưởng, nhưng không thể phân loại cả hai cùng một lúc.
  • Mô hình phân loại đa nhãn – Trong phân loại đa nhãn, các lớp riêng lẻ đại diện cho các loại khác nhau, nhưng các loại này có liên quan bằng cách nào đó và không loại trừ lẫn nhau. Do đó, mỗi tài liệu có ít nhất một lớp được gán cho nó, nhưng có thể có nhiều hơn. Ví dụ: một bộ phim có thể chỉ đơn giản là phim hành động hoặc có thể đồng thời là phim hành động, phim khoa học viễn tưởng và phim hài.

Sổ tay này không yêu cầu chuyên môn ML để đào tạo một mô hình với tập dữ liệu mẫu hoặc với tập dữ liệu dành riêng cho doanh nghiệp của bạn. Bạn có thể sử dụng các thao tác API được thảo luận trong sổ ghi chép này trong các ứng dụng của riêng mình.

Trình nhận dạng thực thể tùy chỉnh của Amazon

Trong sổ ghi chép này, chúng tôi trình bày cách sử dụng API nhận dạng thực thể tùy chỉnh để tạo ra một mô hình nhận dạng thực thể.

Tính năng nhận dạng thực thể tùy chỉnh mở rộng khả năng của Amazon Comprehend bằng cách giúp bạn xác định các loại thực thể cụ thể không có trong các loại thực thể chung đặt trước. Điều này có nghĩa là bạn có thể phân tích tài liệu và trích xuất các thực thể như mã sản phẩm hoặc thực thể dành riêng cho doanh nghiệp phù hợp với nhu cầu cụ thể của bạn.

Việc tự xây dựng một trình nhận dạng thực thể tùy chỉnh chính xác có thể là một quy trình phức tạp, đòi hỏi phải chuẩn bị một bộ lớn tài liệu đào tạo được chú thích thủ công cũng như chọn các thuật toán và tham số phù hợp để đào tạo mô hình. Amazon Comprehend giúp giảm độ phức tạp bằng cách cung cấp chú thích tự động và phát triển mô hình để tạo mô hình nhận dạng thực thể tùy chỉnh.

Sổ ghi chép ví dụ lấy tập dữ liệu huấn luyện ở định dạng CSV và chạy suy luận đối với kiểu nhập văn bản. Amazon Comprehend cũng hỗ trợ một trường hợp sử dụng nâng cao lấy dữ liệu chú thích Ground Truth để đào tạo và cho phép bạn chạy suy luận trực tiếp trên các tài liệu PDF và Word. Để biết thêm thông tin, hãy tham khảo Xây dựng một công cụ nhận dạng thực thể tùy chỉnh cho các tài liệu PDF bằng Amazon Toàn diện.

Amazon Comprehend đã hạ thấp giới hạn chú thích và cho phép bạn nhận được kết quả ổn định hơn, đặc biệt là đối với các mẫu con ít ảnh. Để biết thêm thông tin về cải tiến này, hãy tham khảo Amazon Comprehend thông báo giới hạn chú thích thấp hơn để nhận dạng thực thể tùy chỉnh.

Sổ tay này không yêu cầu chuyên môn ML để đào tạo một mô hình với tập dữ liệu mẫu hoặc với tập dữ liệu dành riêng cho doanh nghiệp của bạn. Bạn có thể sử dụng các thao tác API được thảo luận trong sổ ghi chép này trong các ứng dụng của riêng mình.

Sử dụng, tùy chỉnh và triển khai sổ ghi chép Amazon Comprehend JumpStart

Sau khi bạn chọn sổ ghi chép Amazon Comprehend mà bạn muốn sử dụng, hãy chọn Nhập sổ ghi chép. Khi bạn làm điều đó, bạn có thể thấy nhân sổ ghi chép bắt đầu.

Nhập sổ tay

Việc nhập sổ ghi chép của bạn sẽ kích hoạt lựa chọn phiên bản sổ ghi chép, nhân và hình ảnh được sử dụng để chạy sổ ghi chép. Sau khi cơ sở hạ tầng mặc định được cung cấp, bạn có thể thay đổi các lựa chọn theo yêu cầu của mình.

Notebook trong SageMaker Studio của bạn

Bây giờ, hãy xem qua phần phác thảo của sổ ghi chép và đọc kỹ các phần thiết lập điều kiện tiên quyết, thiết lập dữ liệu, huấn luyện mô hình, chạy suy luận và dừng mô hình. Vui lòng tùy chỉnh mã được tạo theo nhu cầu của bạn.

Dựa trên yêu cầu của bạn, bạn có thể muốn tùy chỉnh các phần sau:

  • Quyền – Đối với ứng dụng sản xuất, chúng tôi khuyên bạn nên hạn chế các chính sách truy cập đối với những chính sách cần thiết để chạy ứng dụng. Quyền có thể bị hạn chế dựa trên trường hợp sử dụng, chẳng hạn như đào tạo hoặc suy luận và tên tài nguyên cụ thể, chẳng hạn như toàn bộ Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3) tên bộ chứa hoặc mẫu tên bộ chứa S3. Bạn cũng nên hạn chế quyền truy cập vào trình phân loại tùy chỉnh hoặc hoạt động của SageMaker chỉ với những hoạt động mà ứng dụng của bạn cần.
  • Dữ liệu và vị trí – Sổ ghi chép ví dụ cung cấp cho bạn dữ liệu mẫu và vị trí S3. Dựa trên các yêu cầu của bạn, bạn có thể sử dụng dữ liệu của riêng mình để đào tạo, xác thực và thử nghiệm, đồng thời sử dụng các vị trí S3 khác nhau nếu cần. Tương tự, khi tạo mô hình, bạn có thể chọn giữ mô hình ở các vị trí khác nhau. Chỉ cần đảm bảo rằng bạn đã cung cấp quyền phù hợp để truy cập bộ chứa S3.
  • các bước tiền xử lý – Nếu bạn đang sử dụng dữ liệu khác để đào tạo và thử nghiệm, bạn có thể muốn điều chỉnh các bước tiền xử lý theo yêu cầu của mình.
  • Kiểm tra dữ liệu – Bạn có thể mang theo dữ liệu suy luận của riêng mình để thử nghiệm.
  • Làm sạch – Xóa các tài nguyên do sổ ghi chép khởi chạy để tránh bị tính phí định kỳ.

Kết luận

Trong bài đăng này, chúng tôi đã hướng dẫn bạn cách sử dụng JumpStart để tìm hiểu và theo dõi nhanh bằng cách sử dụng API Amazon Comprehend bằng cách tạo thuận tiện cho việc tìm và chạy sổ ghi chép liên quan đến Amazon Comprehend từ Studio trong khi có tùy chọn sửa đổi mã khi cần. Sổ ghi chép sử dụng bộ dữ liệu mẫu với các thông báo về sản phẩm AWS và các bài báo mẫu. Bạn có thể sử dụng sổ ghi chép này để tìm hiểu cách sử dụng Amazon Comprehend API trong sổ ghi chép Python hoặc bạn có thể sử dụng sổ ghi chép này làm điểm bắt đầu và mở rộng thêm mã cho các yêu cầu riêng và triển khai sản xuất của mình.

Bạn có thể bắt đầu sử dụng JumpStart và tận dụng lợi thế của hơn 40 sổ ghi chép trong các chủ đề khác nhau ở tất cả các Khu vực nơi Studio khả dụng mà không phải trả thêm phí.


Về các tác giả

Tác giả - Lana TrươngTrương Lana là Kiến trúc sư giải pháp cấp cao tại nhóm Dịch vụ AI của AWS WWSO với chuyên môn về AI và ML cho Kiểm duyệt và nhận dạng nội dung. Cô đam mê quảng bá các dịch vụ AI của AWS và giúp khách hàng chuyển đổi các giải pháp kinh doanh của họ.

Tác giả - Meenakshisundaram ThandavarayanMeenakshisundaram Thandavarayan là một chuyên gia cao cấp về AI/ML của AWS. Anh ấy giúp các tài khoản chiến lược công nghệ cao trên hành trình AI và ML của họ. Anh ấy rất đam mê AI dựa trên dữ liệu

Tác giả - Rachna Chadharachna chadha là Kiến trúc sư giải pháp chính AI/ML trong Tài khoản chiến lược tại AWS. Rachna là một người lạc quan tin rằng việc sử dụng AI có đạo đức và có trách nhiệm có thể cải thiện xã hội trong tương lai và mang lại sự thịnh vượng về kinh tế và xã hội. Khi rảnh rỗi, Rachna thích dành thời gian cho gia đình, đi bộ đường dài và nghe nhạc.

Dấu thời gian:

Thêm từ Học máy AWS