Xây dựng tập dữ liệu Hỏi & Đáp tùy chỉnh bằng cách sử dụng Amazon SageMaker Ground Truth để huấn luyện Mô hình NLU hỏi đáp ôm mặt

Được xuất bản lại bởi Plato

Người theo dõi: 0

Trong những năm gần đây, hiểu ngôn ngữ tự nhiên (NLU) ngày càng tìm thấy giá trị kinh doanh, được thúc đẩy bởi các cải tiến mô hình cũng như khả năng mở rộng và hiệu quả chi phí của cơ sở hạ tầng dựa trên đám mây. Cụ thể, các Transformer kiến trúc học sâu, thường được triển khai dưới dạng Chứng nhận đã rất thành công, nhưng việc đào tạo, tinh chỉnh và tối ưu hóa các mô hình này đã được chứng minh là một vấn đề đầy thách thức. Nhờ sự Hợp tác giữa AWS và Hugging Face, giờ đây việc đào tạo và tối ưu hóa các mô hình NLU trên Amazon SageMaker sử dụng SageMaker Python SDK, nhưng việc tìm nguồn dữ liệu được gắn nhãn cho các mô hình này vẫn còn khó khăn và tốn thời gian.

Một vấn đề NLU được quan tâm đặc biệt trong kinh doanh là nhiệm vụ trả lời câu hỏi. Trong bài đăng này, chúng tôi trình bày cách xây dựng bộ dữ liệu trả lời câu hỏi tùy chỉnh bằng cách sử dụng Sự thật về mặt đất của Amazon SageMaker để huấn luyện một người ôm mặt trả lời câu hỏi mô hình NLU.

thử thách trả lời câu hỏi

Việc trả lời câu hỏi đòi hỏi một mô hình tự động tạo ra câu trả lời cho một truy vấn được cung cấp một số nội dung văn bản có thể chứa hoặc không chứa câu trả lời. Ví dụ: đưa ra câu hỏi sau, "SageMaker Ground Truth hỗ trợ quy trình làm việc nào?" một mô hình sẽ có thể xác định phân đoạn "hợp nhất chú thích và kiểm tra" trong đoạn sau:

SageMaker Ground Truth giúp cải thiện chất lượng nhãn thông qua hợp nhất chú thích và quy trình kiểm tra. Hợp nhất chú thích là quá trình thu thập đầu vào nhãn từ hai hoặc nhiều trình gắn nhãn dữ liệu và kết hợp chúng để tạo một nhãn dữ liệu duy nhất cho mô hình máy học của bạn. Với quy trình kiểm tra và đánh giá tích hợp sẵn, nhân viên có thể thực hiện xác minh nhãn và thực hiện các điều chỉnh để cải thiện độ chính xác.

Vấn đề này là một thách thức vì nó yêu cầu một mô hình để hiểu ý nghĩa của một câu hỏi, thay vì chỉ thực hiện tìm kiếm từ khóa. Các mô hình chính xác trong lĩnh vực này có thể giảm chi phí hỗ trợ khách hàng thông qua việc hỗ trợ các chatbot thông minh, cung cấp các sản phẩm trợ lý giọng nói chất lượng cao và thúc đẩy doanh thu của cửa hàng trực tuyến thông qua trả lời câu hỏi về sản phẩm được cá nhân hóa. Một bộ dữ liệu lớn trong lĩnh vực này là Bộ dữ liệu trả lời câu hỏi của Stanford (SQuAD), một bộ dữ liệu trả lời câu hỏi đa dạng trình bày một mô hình có các đoạn văn bản ngắn và yêu cầu mô hình dự đoán vị trí của đoạn văn bản trả lời trong đoạn văn. SQuAD là một bộ dữ liệu đọc hiểu, bao gồm các câu hỏi được đặt ra bởi những người làm việc theo đám đông trên một tập hợp các bài viết trên Wikipedia, trong đó câu trả lời cho mọi câu hỏi là một đoạn văn bản từ đoạn văn tương ứng hoặc được đánh dấu là không thể trả lời.

Một thách thức trong việc điều chỉnh SQuAD cho các trường hợp sử dụng kinh doanh là tạo bộ dữ liệu tùy chỉnh dành riêng cho miền. Quá trình tạo bộ dữ liệu câu hỏi và câu trả lời mới này yêu cầu giao diện người dùng chuyên biệt cho phép người chú thích đánh dấu các khoảng và thêm câu hỏi vào các khoảng đó. Nó cũng phải có khả năng hỗ trợ thêm các câu hỏi bất khả thi để hỗ trợ định dạng SQuAD 2.0, bao gồm các câu hỏi không thể trả lời. Những câu hỏi bất khả thi này giúp người mẫu hiểu thêm về những truy vấn nào không thể trả lời bằng cách sử dụng đoạn văn đã cho. Các mẫu công nhân tùy chỉnh trong Ground Truth đơn giản hóa việc tạo các bộ dữ liệu này bằng cách cung cấp cho nhân viên trải nghiệm chú thích phù hợp để tạo bộ dữ liệu câu hỏi và câu trả lời.

Tổng quan về giải pháp

Giải pháp này tạo và quản lý các công việc gắn nhãn Ground Truth để gắn nhãn tập dữ liệu câu hỏi-câu trả lời tùy chỉnh dành riêng cho miền bằng cách sử dụng giao diện người dùng chú thích tùy chỉnh. Chúng tôi sử dụng SageMaker để đào tạo, tinh chỉnh, tối ưu hóa và triển khai một Hugging Face Mô hình BERT được xây dựng bằng PyTorch trên bộ dữ liệu trả lời câu hỏi tùy chỉnh.

Bạn có thể thực hiện giải pháp bằng cách triển khai được cung cấp Hình thành đám mây AWS mẫu trong tài khoản AWS của bạn. AWS CloudFormation xử lý việc triển khai AWS Lambda các chức năng hỗ trợ tiền chú thích và hợp nhất chú thích cho giao diện người dùng chú thích. Nó cũng tạo ra một Dịch vụ lưu trữ đơn giản của Amazon thùng (Amazon S3) và Quản lý truy cập và nhận dạng AWS (IAM) các vai trò sẽ sử dụng khi tạo công việc ghi nhãn.

Bài đăng này hướng dẫn bạn cách thực hiện như sau:

Tạo bộ dữ liệu trả lời câu hỏi của riêng bạn hoặc bổ sung bộ dữ liệu hiện có bằng cách sử dụng Ground Truth
Sử dụng bộ dữ liệu Hugging Face để kết hợp và mã hóa văn bản
Tinh chỉnh mô hình BERT trên dữ liệu trả lời câu hỏi của bạn bằng cách sử dụng khóa đào tạo SageMaker
Triển khai mô hình của bạn đến điểm cuối SageMaker và trực quan hóa kết quả của bạn

Giao diện người dùng chú thích

Chúng tôi sử dụng một cái mới mẫu nhiệm vụ công nhân tùy chỉnh với Ground Truth để thêm các chú thích mới vào bộ dữ liệu SQuAD hiện có. Giải pháp này cung cấp một mẫu tác vụ worker cũng như hàm Lambda trước chú thích (xử lý việc đưa dữ liệu vào giao diện người dùng) và hàm Lambda sau chú thích (trích xuất kết quả từ giao diện người dùng sau khi hoàn tất việc dán nhãn).

Mẫu nhiệm vụ nhân viên tùy chỉnh này cung cấp cho bạn khả năng đánh dấu văn bản trong ngăn bên phải, sau đó thêm câu hỏi tương ứng vào ngăn bên trái có liên quan đến văn bản được đánh dấu. Văn bản được tô sáng ở khung bên phải cũng có thể được thêm vào bất kỳ câu hỏi nào đã tạo trước đó. Hơn nữa, bạn có thể thêm các câu hỏi không thể theo Biệt đội 2.0 định dạng. Các câu hỏi bất khả thi cho phép các mô hình giảm số lần đoán sai không đáng tin cậy khi đoạn văn không thể trả lời câu hỏi.

Giao diện người dùng này sử dụng cùng một lược đồ JSON như bộ dữ liệu SQuAD 2.0, có nghĩa là nó có thể hoạt động trên nhiều bài viết và đoạn văn, hiển thị một đoạn văn tại một thời điểm bằng cách sử dụng trước và Sau nút. Giao diện người dùng giúp dễ dàng theo dõi và xác định công việc ghi nhãn mà mỗi người chú thích cần hoàn thành trong bước gửi tác vụ.

Bởi vì giao diện người dùng chú thích được chứa trong một Chất lỏng Tệp HTML, bạn có thể tùy chỉnh trải nghiệm ghi nhãn với kiến thức về JavaScript cơ bản. Bạn cũng có thể sửa đổi Thẻ lỏng để chuyển thông tin bổ sung vào giao diện người dùng ghi nhãn và bạn có thể tự sửa đổi mẫu để bao gồm hướng dẫn nhân viên chi tiết hơn.

Chi phí ước tính

Việc triển khai giải pháp này có thể phát sinh chi phí tối đa khoảng 20 đô la, chưa tính đến chi phí ghi nhãn của con người. Amazon S3, Lambda, SageMaker và Ground Truth đều cung cấp Cấp miễn phí AWS, có tính phí cho việc sử dụng bổ sung. Để biết thêm thông tin, hãy xem các trang định giá sau:

Giá Amazon S3
Định giá AWS Lambda
Amazon SageMaker Giá
Định giá ghi nhãn dữ liệu Amazon SageMaker – Phí này phụ thuộc vào loại lao động mà bạn sử dụng. Nếu bạn là người dùng mới của Ground Truth, chúng tôi khuyên bạn nên sử dụng lực lượng lao động tư nhân và kể cả bạn với tư cách là nhân viên để kiểm tra cấu hình công việc ghi nhãn của bạn.

Điều kiện tiên quyết

Để thực hiện giải pháp này, bạn cần có các điều kiện tiên quyết sau:

An Tài khoản AWS.
Làm quen với Sự thật mặt đất. Để biết thêm thông tin, hãy tham khảo Sử dụng Amazon SageMaker Ground Truth để gắn nhãn dữ liệu.
Quen thuộc với AWS CloudFormation. Để biết thêm thông tin, hãy tham khảo Hướng dẫn sử dụng AWS CloudFormation.
một nhà hiền triết lực lượng lao động. Đối với cuộc biểu tình này, chúng tôi sử dụng một lực lượng lao động tư nhân. Bạn có thể tạo lực lượng lao động trên bảng điều khiển SageMaker.

GIF sau minh họa cách tạo lực lượng lao động tư nhân. Để biết hướng dẫn, hãy xem Tạo lực lượng lao động ẩn danh của Amazon bằng cách sử dụng trang đội ngũ nhân công gắn nhãn.

Xây dựng tập dữ liệu Hỏi đáp tùy chỉnh bằng cách sử dụng Amazon SageMaker Ground Truth để huấn luyện Mô hình NLU Hỏi đáp ôm mặt NLU PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Khởi chạy ngăn xếp CloudFormation

Bây giờ bạn đã thấy cấu trúc của giải pháp, bạn triển khai nó vào tài khoản của mình để có thể chạy quy trình công việc mẫu. Tất cả các bước triển khai liên quan đến quy trình ghi nhãn đều do AWS CloudFormation quản lý. Điều này có nghĩa là AWS CloudFormation tạo các hàm Lambda hợp nhất chú thích trước và chú thích của bạn, cũng như một bộ chứa S3 để lưu trữ dữ liệu đầu vào và đầu ra.

Bạn có thể khởi chạy ngăn xếp trong Khu vực AWS us-east-1 trên bảng điều khiển AWS CloudFormation bằng cách sử dụng Khởi chạy Stack cái nút. Để khởi chạy ngăn xếp ở một Khu vực khác, hãy sử dụng các hướng dẫn có trong README của Kho GitHub.

vận hành sổ ghi chép

Sau khi giải pháp đã được triển khai cho tài khoản của bạn, một phiên bản sổ ghi chép có tên gt-hf-squad-notebook có sẵn trong tài khoản của bạn. Để bắt đầu vận hành sổ ghi chép, hãy hoàn thành các bước sau:

Trên bảng điều khiển Amazon SageMaker, điều hướng đến trang phiên bản sổ ghi chép.
Chọn Mở JupyterLab để mở ví dụ.
Bên trong phiên bản, duyệt đến kho lưu trữ hf-gt-custom-qa và mở cuốn sổ hf_squad_finetuning.ipynb.
Chọn conda_pytorch_p38 như hạt nhân của bạn.

Bây giờ bạn đã tạo một phiên bản sổ ghi chép và mở sổ ghi chép, bạn có thể chạy các ô trong sổ ghi chép để vận hành giải pháp. Phần còn lại của bài đăng này cung cấp các chi tiết bổ sung cho từng phần trong sổ ghi chép khi bạn tiếp tục.

Tải xuống và kiểm tra dữ liệu

Sản phẩm Tập dữ liệu SQuAD chứa tập dữ liệu huấn luyện cũng như tập dữ liệu thử nghiệm và phát triển. Sổ ghi chép tải xuống tập dữ liệu SQuAD2.0 cho bạn nhưng bạn có thể chọn phiên bản SQuAD sẽ sử dụng bằng cách sửa đổi ô sổ ghi chép bên dưới Tải xuống và kiểm tra dữ liệu.

SQuAD được thành lập bởi Pranav Rajpurkar, Jian Zhang, Konstantin Lopyrev và Percy Liang. Để biết thêm thông tin, hãy tham khảo bản gốc và tập dữ liệu. SQuAD đã được cấp phép bởi các tác giả theo Giấy phép Công cộng Quốc tế Creative Commons Ghi công-Chia sẻ tương tự 4.0.

Hãy xem một cặp câu hỏi và câu trả lời ví dụ từ SQuAD:

Tiêu đề đoạn văn: Immune_system

Hệ thống miễn dịch là một hệ thống gồm nhiều cấu trúc và quá trình sinh học bên trong một sinh vật giúp bảo vệ chống lại bệnh tật. Để hoạt động bình thường, hệ thống miễn dịch phải phát hiện nhiều loại tác nhân, được gọi là mầm bệnh, từ vi rút đến giun ký sinh và phân biệt chúng với mô khỏe mạnh của chính sinh vật. Ở nhiều loài, hệ thống miễn dịch có thể được phân loại thành các hệ thống con, chẳng hạn như hệ thống miễn dịch bẩm sinh so với hệ thống miễn dịch thích ứng, hoặc miễn dịch thể dịch so với miễn dịch qua trung gian tế bào. Ở người, hàng rào máu-não, hàng rào máu-dịch não tủy và các hàng rào chất lỏng-não tương tự tách hệ thống miễn dịch ngoại biên khỏi hệ thống miễn dịch thần kinh bảo vệ não.

Câu hỏi: Hệ miễn dịch bảo vệ sinh vật chống lại cái gì?

Đáp án: bệnh

tải mô hình

Bây giờ bạn đã xem một cặp câu hỏi và câu trả lời ví dụ trong SQuAD, bạn có thể tải xuống một mô hình mà bạn có thể tinh chỉnh để trả lời câu hỏi. Hugging Face cho phép bạn dễ dàng tải xuống một mô hình cơ sở đã trải qua quá trình đào tạo trước quy mô lớn và khởi tạo lại mô hình đó cho một tác vụ tiếp theo khác. Trong trường hợp này, bạn tải xuống distilbert-base-uncased mô hình hóa và tái sử dụng nó để trả lời câu hỏi bằng cách sử dụng AutoModelForQuestionAnswering lớp từ Ôm Mặt. Bạn cũng sử dụng AutoTokenizer class để truy xuất mã thông báo được đào tạo trước của mô hình. Chúng tôi đi sâu hơn vào mô hình mà chúng tôi sử dụng sau này trong bài đăng.

Xem đầu vào BERT

BERT yêu cầu bạn chuyển đổi dữ liệu văn bản thành biểu diễn số được gọi là thẻ. Có nhiều loại mã thông báo có sẵn; các mã thông báo sau được tạo bởi một trình mã thông báo được thiết kế riêng cho BERT mà bạn khởi tạo bằng một từ vựng đã đặt. Mỗi mã thông báo ánh xạ tới một từ trong từ vựng. Hãy xem xét câu hỏi và bối cảnh hệ thống miễn dịch đã biến đổi mà bạn cung cấp BERT để suy luận.

{'input_ids': tensor([[ 0, 133, 9161, 467, 15899, 28340, 136, 99, 116, 2, 2, 133, 9161, 467, 16, 10, 467, 9, 171, 12243, 6609, 8, 5588, 624, 41, 33993, 14, 15899, 136, 2199, 4, 598, 5043, 5083, 6, 41, 9161, 467, 531, 10933, 10, 1810, 3143, 9, 3525, 6, 684, 25, 35904, 6, 31, 21717, 7, 43108, 31483, 6, 8, 22929, 106, 31, 5, 33993, 18, 308, 2245, 11576, 4, 96, 171, 4707, 6, 5, 9161, 467, 64, 28, 8967, 88, 44890, 29, 6, 215, 25, 5, 36154, 9161, 467, 4411, 5, 28760, 9161, 467, 6, 50, 10080, 15010, 17381, 4411, 3551, 12, 43728, 17381, 4, 96, 5868, 6, 5, 1925, 2383, 36436, 9639, 6, 1925, 2383, 1755, 241, 7450, 4182, 6204, 12293, 9639, 6, 8, 1122, 12293, 2383, 36436, 7926, 2559, 5, 27727, 9161, 467, 31, 5, 14913, 42866, 467, 61, 15899, 5, 2900, 4, 2]]), 'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]])}

suy luận mô hình

Bây giờ bạn đã thấy BERT lấy gì làm đầu vào, hãy xem cách bạn có thể nhận được kết quả suy luận từ mô hình. Đoạn mã sau trình bày cách sử dụng đầu vào được mã hóa đã tạo trước đó và trả về kết quả suy luận từ mô hình. Tương tự như cách BERT không thể chấp nhận văn bản thô làm đầu vào, nó cũng không tạo văn bản thô làm đầu ra. Bạn dịch đầu ra của BERT bằng cách xác định điểm bắt đầu và điểm kết thúc trong đoạn văn mà BERT đã xác định là câu trả lời. Sau đó, bạn ánh xạ đầu ra đó tới mã thông báo của chúng tôi và quay lại văn bản tiếng Anh.

outputs = model(**inputs, start_positions=start_positions, end_positions=end_positions) answer_start_scores = outputs.start_logits
answer_end_scores = outputs.end_logits
answer_start = torch.argmax(
answer_start_scores
) # Get the most likely beginning of answer with the argmax of the score
answer_end = torch.argmax(answer_end_scores) + 1 # Get the most likely end of answer with the argmax of the score
answer = tokenizer.convert_tokens_to_string(tokenizer.convert_ids_to_tokens(input_ids[answer_start:answer_end]))
print(f"Question: {sq['paragraphs'][0]['qas'][0]['question']}")
print(f"Answer: {answer}")

Kết quả dịch như sau:

Câu hỏi: Hệ miễn dịch bảo vệ sinh vật chống lại cái gì?

Đáp án: bệnh

Tăng Cường Tiểu Đội

Tiếp theo, để có được dữ liệu được dán nhãn bổ sung, chúng tôi sử dụng một mẫu nhiệm vụ công nhân tùy chỉnh trong Sự thật mặt đất. Đầu tiên chúng ta có thể tạo một bài báo mới ở định dạng SQuAD. Sổ ghi chép này sao chép tệp này từ kho lưu trữ sang Amazon S3, nhưng vui lòng thực hiện bất kỳ chỉnh sửa nào trước khi chạy Tăng Cường Tiểu Đội tế bào. Định dạng của SQuAD được hiển thị trong đoạn mã sau. Mỗi tệp JSON của SQuAD chứa nhiều bài báo được lưu trữ trong data chìa khóa. Mỗi bài viết có một title trường và một hoặc nhiều đoạn văn. Các đoạn này chứa các đoạn văn bản được gọi là context và bất kỳ câu hỏi liên quan trong qas danh sách. Bởi vì chúng tôi đang chú thích từ đầu, chúng tôi có thể để lại qas danh sách trống và chỉ cung cấp ngữ cảnh. Giao diện người dùng có thể lặp qua cả đoạn văn và bài viết, cho phép bạn thực hiện từng tác vụ của nhân viên lớn hoặc nhỏ tùy ý.

s3://<my-bucket-name>/custom_squad.json: { "version": "v2.0", "data": [ { "title": "Ground Truth Marketing", "paragraphs": [ { "qas": [], "context": "SageMaker Ground Truth helps improve the quality of labels through annotation consolidation and audit workflows. Annotation consolidation is the process of collecting label inputs from two or more data labelers and combining them to create a single data label for your machine learning model. With built-in audit and review workflows, workers can perform label verification and make adjustments to improve accuracy." }, { "qas": [], "context": "SageMaker Ground Truth provides automated labeling features such as ‘auto-segment’, ‘automatic 3D cuboid snapping’, and ‘sensor fusion with 2D video frames’ through an intuitive user interface in order to reduce the time needed for data labeling tasks while also improving quality. For semantic segmentation, workers must label objects in an image. Using the auto-segment feature, workers can capture the object with 4 clicks vs. hundreds." }, { "qas": [], "context": "SageMaker Ground Truth offers automatic data labeling. Using an active learning model, data is labeled and only routed to humans if the model cannot confidently label it. The human-labeled data is then used to train the machine learning model to improve its' accuracy. As a result, less data is then sent to humans in the next round of labeling which lowers data labeling costs by up to 70%." }, { "qas": [], "context": "SageMaker Ground Truth provides options to work with labelers inside and outside of your organization. Using SageMaker Ground Truth, you can easily send labeling jobs to your own labelers or you can access a workforce of over 500,000 independent contractors who are already performing machine learning related tasks through Amazon Mechanical Turk. If your data requires confidentiality or special skills, you can use vendors pre-screened by AWS for quality and security procedures, including iVision, CapeStart Inc., Cogito, and iMerit." } ] } ]
}

Sau khi chúng tôi tạo tệp dữ liệu SQuAD mẫu, chúng tôi cần tạo Sự thật cơ bản tệp kê khai tăng đề cập đến dữ liệu đầu vào của chúng tôi. Chúng tôi thực hiện việc này bằng cách tạo một tệp định dạng dòng JSON có “source” tương ứng với vị trí trong Amazon S3 nơi chúng tôi lưu trữ dữ liệu SQuAD đầu vào của mình:

s3://<my-bucket-name>/input.manifest {"source": "s3://<my-bucket-name>/custom_squad.json"}
{"source": "s3://<my-bucket-name>/custom_squad_2.json"}
{"source": "s3://<my-bucket-name>/custom_squad_3.json"}

Truy cập cổng thông tin dán nhãn

Sau khi bạn gửi công việc đến Ground Truth, bạn có thể xem công việc gắn nhãn đã tạo trên bảng điều khiển Ground Truth.

Để thực hiện ghi nhãn, bạn cần đăng nhập vào tài khoản cổng thông tin nhân viên mà bạn đã tạo như một phần của các bước điều kiện tiên quyết. Công việc của bạn có sẵn trong cổng nhân viên sau vài phút tiền xử lý. Sau khi mở nhiệm vụ, bạn sẽ thấy mẫu nhân viên tùy chỉnh cho chú thích Hỏi & Đáp. Bạn có thể thêm câu hỏi bằng cách đánh dấu các phần văn bản trong ngữ cảnh, sau đó chọn Thêm Câu hỏi.

Kiểm tra trạng thái công việc dán nhãn

Sau khi gửi, bạn có thể chạy Kiểm tra trạng thái công việc dán nhãn ô để xem công việc ghi nhãn của bạn đã hoàn tất chưa. Đợi hoàn thành trước khi chuyển sang các ô tiếp theo.

Tải dữ liệu được dán nhãn

Sau khi gắn nhãn, tệp kê khai đầu ra chứa một mục có tên thuộc tính nhãn của bạn (trong trường hợp này squad-1626282229) chứa URI S3 tới dữ liệu có định dạng SQuAD mà bạn có thể sử dụng trong quá trình đào tạo. Xem nội dung bảng kê khai đầu ra sau đây:

{ "source": "s3://<my-bucket-name>/custom_squad.json", "squad-1626282229": { "s3Uri": "s3://<my-bucket-name>/.../annotations/responses/0/squad.json" }, "squad-1626282229-metadata": { "type": "groundtruth/custom", "job-name": "squad-1626282229", "human-annotated": "yes", "creation-date": "2021-07-14T17:39:24.910000" }
}
{ "source": "s3://<my-bucket-name>/custom_squad_2.json", "squad-1626282229": { "s3Uri": "s3://<my-bucket-name>/.../annotations/responses/0/squad.json" }, "squad-1626282229-metadata": { "type": "groundtruth/custom", "job-name": "squad-1626282229", "human-annotated": "yes", "creation-date": "2021-07-14T17:39:24.910000" }
}
{ "source": "s3://<my-bucket-name>/custom_squad_3.json", "squad-1626282229": { "s3Uri": "s3://<my-bucket-name>/.../annotations/responses/0/squad.json" }, "squad-1626282229-metadata": { "type": "groundtruth/custom", "job-name": "squad-1626282229", "human-annotated": "yes", "creation-date": "2021-07-14T17:39:24.910000" }
}

Mỗi dòng trong tệp kê khai tương ứng với một tác vụ worker.

Tải bộ tàu SQuAD

Ôm Mặt có một gói dữ liệu cung cấp cho bạn khả năng tải xuống và xử lý trước SQuAD, nhưng để thêm các câu hỏi và câu trả lời tùy chỉnh của chúng tôi, chúng tôi cần thực hiện một chút xử lý. SQuAD được cấu trúc xung quanh các nhóm chủ đề. Mỗi chủ đề có nhiều câu lệnh ngữ cảnh khác nhau và mỗi câu lệnh ngữ cảnh có các cặp câu hỏi và câu trả lời. Vì chúng tôi muốn tạo các câu hỏi của riêng mình để đào tạo, chúng tôi cần kết hợp các câu hỏi của mình với SQuAD. Thật may mắn cho chúng tôi, các chú thích của chúng tôi đã ở định dạng SQuAD, vì vậy chúng tôi có thể lấy các nhãn ví dụ của mình và nối chúng dưới dạng chủ đề mới vào dữ liệu SQuAD hiện có.

Tạo một đối tượng Tập dữ liệu khuôn mặt ôm

Để đưa dữ liệu của chúng tôi sang định dạng bộ dữ liệu của Hugging Face, chúng tôi có một số tùy chọn. Chúng ta có thể sử dụng tập dữ liệu tải tùy chọn, trong trường hợp đó, chúng tôi có thể cung cấp tệp CSV, JSON hoặc tệp văn bản được tải dưới dạng đối tượng tập dữ liệu. Bạn cũng có thể cung cấp load_dataset với một tập lệnh xử lý để chuyển đổi tệp của bạn sang định dạng mong muốn. Đối với bài đăng này, thay vào đó chúng tôi sử dụng Dataset.from_dict() phương thức, cho phép chúng tôi cung cấp từ điển trong bộ nhớ để tạo đối tượng tập dữ liệu. Chúng tôi cũng xác định các tính năng tập dữ liệu của mình. Chúng ta có thể xem các tính năng bằng cách sử dụng Trình xem dữ liệu của Hugging Face, như thể hiện trong ảnh chụp màn hình sau đây.

Các tính năng của chúng tôi như sau:

ID – ID của văn bản
tiêu đề – Tiêu đề liên quan cho chủ đề
bối cảnh – Câu lệnh ngữ cảnh mà mô hình phải tìm kiếm để tìm câu trả lời
câu hỏi – Câu hỏi người mẫu đang được hỏi
trả lời – Văn bản câu trả lời được chấp nhận và vị trí trong câu lệnh ngữ cảnh

Bộ dữ liệu Hugging Face dễ dàng cho phép chúng tôi xác định lược đồ này:

squad_dataset = Dataset.from_dict(dataset_dict,
features=datasets.Features( { "id": datasets.Value("string"), "title": datasets.Value("string"), "context": datasets.Value("string"), "question": datasets.Value("string"), "answers": datasets.features.Sequence( { "text": datasets.Value("string"), "answer_start": datasets.Value("int32"), } ), # These are the features of your dataset like images, labels ... }
))

Sau khi chúng tôi tạo đối tượng tập dữ liệu của mình, chúng tôi phải token hóa văn bản. Bởi vì các mô hình không thể chấp nhận văn bản thô làm đầu vào, chúng tôi cần chuyển đổi văn bản của mình thành đầu vào số mà nó có thể hiểu được, còn được gọi là mã thông báo. Tokenization là mô hình cụ thể, vì vậy hãy hiểu mô hình mà chúng tôi sẽ tinh chỉnh. Chúng tôi đang sử dụng một distillbert-base-uncased người mẫu. Nó trông rất giống với BERT: nó sử dụng nhúng đầu vào, chú ý nhiều đầu (để biết thêm thông tin về thao tác này, hãy tham khảo Máy biến áp được minh họa) và chuyển tiếp các lớp, nhưng có một nửa tham số của mô hình cơ sở BERT ban đầu. Xem các lớp mô hình ban đầu sau:

Hãy chia nhỏ từng thành phần của tiêu đề mô hình. Tên distilbert biểu thị thực tế rằng đây là phiên bản chắt lọc của mô hình cơ sở BERT, thu được thông qua một quy trình gọi là chắt lọc kiến thức. Chắt lọc kiến thức cho phép chúng tôi đào tạo một mô hình học sinh nhỏ hơn không chỉ dựa trên dữ liệu đào tạo mà còn cả các câu trả lời cho cùng một tập huấn luyện từ một mô hình giáo viên lớn hơn được đào tạo trước. base đề cập đến kích thước của mô hình, trong trường hợp này, mô hình được chắt lọc từ mô hình cơ sở BERT (trái ngược với mô hình lớn BERT). uncased đề cập đến văn bản nó đã được đào tạo trên. Trong trường hợp này, văn bản không tính đến trường hợp; tất cả các văn bản nó đã được đào tạo là chữ thường. Các uncased khía cạnh ảnh hưởng trực tiếp đến cách chúng tôi mã hóa văn bản của mình. Rất may, ngoài việc cung cấp khả năng truy cập dễ dàng để tải xuống các mô hình máy biến áp, Hugging Face còn cung cấp mã thông báo đi kèm của mô hình. Chúng tôi cũng đã tải xuống một mã thông báo tùy chỉnh cho distilbert-base-uncased model mà chúng tôi hiện đang sử dụng để chuyển đổi văn bản của mình:

# loadbase_model_prefix model_name = "distilbert-base-uncased" # Load model & tokenizer
model = AutoModelForQuestionAnswering.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)
# set model to evaluation mode
evl = model.eval()

Một tính năng khác của lớp tập dữ liệu là nó cho phép chúng tôi chạy tiền xử lý và mã thông báo song song với chức năng bản đồ của nó. Chúng tôi định nghĩa một chức năng xử lý và sau đó chuyển nó sang phương thức bản đồ.

Để trả lời câu hỏi, Ôm mặt cần một số thành phần (cũng được định nghĩa trong thuật ngữ):

mặt nạ chú ý – Mặt nạ cho biết mô hình cần chú ý đến mã thông báo nào, được sử dụng chủ yếu để phân biệt giữa văn bản thực tế và mã thông báo đệm
vị trí bắt đầu – Vị trí bắt đầu của câu trả lời trong văn bản
vị trí cuối – Vị trí kết thúc câu trả lời trong văn bản
input_ids – Chỉ số mã thông báo ánh xạ mã thông báo tới từ vựng

Trình mã thông báo của chúng tôi sẽ mã hóa văn bản, nhưng chúng tôi cần nắm bắt rõ ràng vị trí bắt đầu và kết thúc của câu trả lời, đó là lý do tại sao chúng tôi đã xác định chức năng tiền xử lý tùy chỉnh. Bây giờ chúng ta đã sẵn sàng đầu vào, hãy bắt đầu đào tạo!

Ra mắt công việc đào tạo

Chúng tôi có thể chạy đào tạo trong sổ ghi chép của mình, nhưng các loại phiên bản mà chúng tôi cần để đào tạo mô hình Hỏi & Đáp của mình trong một khoảng thời gian hợp lý, phiên bản p3 và p4, khá hiệu quả. Những trường hợp này có xu hướng quá mức cần thiết để chạy sổ ghi chép hoặc liên tục Đám mây điện toán đàn hồi Amazon (Amazon EC2). Đây là lúc cần đến quá trình đào tạo SageMaker. Quá trình đào tạo SageMaker cho phép bạn khởi chạy một công việc đào tạo trên một hoặc nhiều phiên bản cụ thể chỉ trong khoảng thời gian của công việc đào tạo. Điều này cho phép chúng tôi chạy trên các phiên bản lớn hơn như p4d.24xlarge, với 8 GPU NVIDIA A100, nhưng không phải lo lắng về việc sử dụng một hóa đơn khổng lồ trong trường hợp chúng tôi quên tắt nó. Nó cũng giúp chúng tôi dễ dàng truy cập vào các chức năng khác của SageMaker, như Thử nghiệm SageMaker để theo dõi quá trình đào tạo ML của bạn và Trình gỡ lỗi SageMaker để hiểu và lập hồ sơ công việc đào tạo của bạn.

đào tạo địa phương

Hãy bắt đầu bằng cách tìm hiểu cách đào tạo mô hình trong Hugging Face hoạt động cục bộ, sau đó xem qua các điều chỉnh mà chúng tôi thực hiện để chạy mô hình trong SageMaker.

Hugging Face giúp việc đào tạo trở nên dễ dàng thông qua việc sử dụng lớp huấn luyện viên của họ. Lớp huấn luyện viên cho phép chúng tôi chuyển vào mô hình, bộ dữ liệu đào tạo và xác thực, siêu tham số và thậm chí cả mã thông báo của chúng tôi. Bởi vì chúng tôi đã có mô hình cũng như bộ đào tạo và xác nhận của mình, chúng tôi chỉ cần xác định siêu tham số của mình. Chúng ta có thể làm điều này thông qua TrainingArguments lớp học. Điều này cho phép chúng tôi chỉ định những thứ như tốc độ học tập, kích thước lô, số lượng kỷ nguyên và các thông số chuyên sâu hơn như phân rã trọng số hoặc chiến lược lập lịch trình tốc độ học tập. Sau khi chúng tôi xác định của chúng tôi TrainingArguments, chúng ta có thể chuyển vào mô hình, tập huấn luyện, tập hợp lệ và các đối số để khởi tạo lớp huấn luyện của mình. Sau đó, chúng ta có thể chỉ cần gọi trainer.train() để bắt đầu đào tạo mô hình của chúng tôi. Khối mã sau minh họa cách chạy đào tạo cục bộ:

doc_stride=128
max_length=512
tokenized_train = squad_dataset.map(prepare_train_features, batched=True, remove_columns=squad_dataset.column_names, fn_kwargs = {'tokenizer':tokenizer, 'max_length':max_length, 'doc_stride':doc_stride})
tokenized_test = squad_test.map(prepare_train_features, batched=True, remove_columns=squad_test.column_names, fn_kwargs = {'tokenizer':tokenizer, 'max_length':max_length, 'doc_stride':doc_stride}) hf_args = TrainingArguments( 'test_local', evaluation_strategy = "epoch", learning_rate=5e-5, per_device_train_batch_size=16, per_device_eval_batch_size=16, num_train_epochs=1, weight_decay=0.0001,
) trainer = Trainer( model, hf_args, train_dataset=tokenized_train, eval_dataset=tokenized_test, data_collator=default_data_collator, tokenizer=tokenizer,
) trainer.train()

Gửi dữ liệu đến S3

Làm điều tương tự trong đào tạo SageMaker rất đơn giản. Bước đầu tiên là đưa dữ liệu của chúng tôi vào Amazon S3 để mô hình của chúng tôi có thể truy cập dữ liệu đó. Đào tạo SageMaker cho phép bạn chỉ định nguồn dữ liệu; bạn có thể sử dụng các nguồn như Amazon S3, Hệ thống tệp đàn hồi Amazon (Amazon EFS) hoặc Amazon FSx cho ánh để nhập dữ liệu hiệu suất cao. Trong trường hợp của chúng tôi, tập dữ liệu SQuAD tăng cường của chúng tôi không đặc biệt lớn, vì vậy Amazon S3 là một lựa chọn tốt. Chúng tôi tải dữ liệu đào tạo của mình lên một thư mục trong Amazon S3 và khi SageMaker khởi chạy phiên bản đào tạo của chúng tôi, nó sẽ tải xuống dữ liệu từ vị trí được chỉ định của chúng tôi.

Khởi tạo mô hình

Để khởi chạy công việc đào tạo của mình, chúng ta có thể sử dụng công cụ ước tính Hugging Face tích hợp sẵn trong SDK SageMaker. SageMaker sử dụng lớp công cụ ước tính để xác định các tham số cho công việc đào tạo cũng như số lượng và loại phiên bản sẽ sử dụng để đào tạo. Khóa đào tạo SageMaker được xây dựng xung quanh việc sử dụng bộ chứa Docker. Bạn có thể sử dụng vùng chứa mặc định trong SageMaker hoặc cung cấp vùng chứa tùy chỉnh của riêng mình để đào tạo. Trong trường hợp các mô hình Hugging Face, SageMaker đã tích hợp sẵn các bộ chứa Hugging Face với tất cả các thành phần phụ thuộc mà bạn cần để chạy các công việc đào tạo Hugging Face. Tất cả những gì chúng ta cần làm là xác định tập lệnh đào tạo mà bộ chứa Hugging Face của chúng ta sử dụng làm điểm vào.

Trong tập lệnh đào tạo này, chúng tôi xác định các đối số mà chúng tôi chuyển đến điểm vào của mình dưới dạng một tập hợp các siêu đường kính, cũng như mã đào tạo của chúng tôi. Mã đào tạo của chúng tôi giống như khi chúng tôi chạy nó cục bộ; chúng ta chỉ có thể sử dụng TrainingArguments và sau đó chuyển chúng đến một đối tượng huấn luyện. Sự khác biệt duy nhất là chúng ta cần chỉ định vị trí đầu ra cho mô hình của mình ở /opt/ml/model để chương trình đào tạo SageMaker có thể lấy, đóng gói và gửi tới Amazon S3. Khối mã sau đây cho thấy cách khởi tạo công cụ ước tính Hugging Face của chúng tôi:

# hyperparameters, which are passed into the training job
hyperparameters={ 'model_name': model_name, 'dataset_name':'squad', 'do_train': True, 'do_eval': True, 'fp16': True, 'train_batch_size': 32, 'eval_batch_size': 32, 'weight_decay':0.01, 'warmup_steps':500, 'learning_rate':5e-5, 'epochs': 2, 'max_length': 384, 'max_steps': 100, 'pad_to_max_length': True, 'doc_stride': 128, 'output_dir': '/opt/ml/model'
} # estimator
huggingface_estimator = HuggingFace(entry_point='run_qa.py', source_dir='container_training', metric_definitions=metric_definitions, instance_type='ml.p3.8xlarge', instance_count=1, volume_size=100, role=role, transformers_version='4.4.2', pytorch_version='1.6.0', py_version='py36', hyperparameters = hyperparameters)

Tinh chỉnh mô hình

Đối với công việc đào tạo cụ thể của mình, chúng tôi sử dụng phiên bản p3.8xlarge bao gồm 4 GPU V100. Lớp huấn luyện tự động hỗ trợ đào tạo trên các phiên bản đa GPU, vì vậy chúng tôi không cần bất kỳ thiết lập bổ sung nào để giải quyết vấn đề này. Chúng tôi đào tạo mô hình của mình trong hai kỷ nguyên, với kích thước lô là 16 và tỷ lệ học tập là 4e5. Chúng tôi cũng đang cho phép đào tạo độ chính xác hỗn hợp, sử dụng độ chính xác hỗn hợp ở những khu vực mà chúng tôi có thể giảm độ chính xác bằng số mà không ảnh hưởng đến độ chính xác của mô hình. Điều này làm tăng tốc độ đào tạo và bộ nhớ khả dụng của chúng tôi. Để khởi chạy công việc đào tạo, chúng tôi gọi fit phương pháp từ chúng tôi huggingface_estimator lớp học.

huggingface_estimator.fit(data_channels, wait=False, job_name=f'hf-distilbert-squad-{int(time.time())}')

Khi mô hình của chúng tôi được đào tạo xong, chúng tôi có thể tải mô hình xuống cục bộ và tải mô hình đó vào bộ nhớ của sổ ghi chép để kiểm tra mô hình, điều này được minh họa trong sổ ghi chép. Chúng tôi sẽ tập trung vào một tùy chọn khác, triển khai nó dưới dạng điểm cuối SageMaker!

Triển khai mô hình được đào tạo

Ngoài việc cung cấp các tiện ích để đào tạo, SageMaker cũng có thể cho phép các nhà khoa học dữ liệu và kỹ sư ML dễ dàng triển khai các điểm cuối REST cho các mô hình được đào tạo của họ. Bạn có thể triển khai các mô hình được đào tạo trong hoặc ngoài SageMaker. Để biết thêm thông tin, hãy tham khảo Triển khai Mô hình trong Amazon SageMaker.

Vì mô hình của chúng tôi đã được đào tạo trong SageMaker nên nó đã ở định dạng chính xác để triển khai dưới dạng điểm cuối. Tương tự như đào tạo, chúng tôi xác định một lớp mô hình SageMaker xác định mô hình, cung cấp mã cũng như số lượng và loại phiên bản mà chúng tôi muốn triển khai làm điểm cuối. Cũng tương tự như đào tạo, việc phân phát dựa trên bộ chứa Docker và chúng tôi có thể sử dụng một trong các bộ chứa SageMaker tích hợp sẵn hoặc cung cấp bộ chứa của riêng mình. Đối với bài đăng này, chúng tôi sử dụng bộ chứa phục vụ PyTorch tích hợp sẵn, vì vậy chúng tôi chỉ cần xác định một số điều để thiết lập và chạy điểm cuối của mình. Mã phục vụ của chúng tôi cần bốn chức năng:

người mẫu_fn – Xác định cách điểm cuối tải mô hình (chỉ thực hiện việc này một lần và sau đó lưu vào bộ nhớ cho các dự đoán tiếp theo)
đầu vào_fn – Xác định cách đầu vào được giải tuần tự hóa và xử lý
dự đoán_fn – Xác định cách mô hình của chúng tôi đưa ra dự đoán về đầu vào của chúng tôi
đầu ra_fn – Xác định cách định dạng điểm cuối và gửi lại dữ liệu đầu ra cho máy khách thực hiện yêu cầu

Sau khi chúng tôi xác định các chức năng này, chúng tôi có thể triển khai điểm cuối của mình và chuyển cho nó các câu hỏi và câu hỏi ngữ cảnh cũng như trả về câu trả lời dự đoán của nó:

endpoint_name = 'hf-distilbert-QA-string-endpoint4-185'
model_data = f"{huggingface_estimator.output_path}{huggingface_estimator.jobs[0].job_name}/output/model.tar.gz" # We are going to use a SageMaker serving container
torch_model = PyTorchModel(model_data=model_data, source_dir = 'container_serving', role=role, entry_point='transform_script.py', framework_version='1.8.1', py_version='py3', predictor_cls = StringPredictor)
bert_end = torch_model.deploy(instance_type='ml.m5.2xlarge', initial_instance_count=1, #'ml.g4dn.xlarge' endpoint_name=endpoint_name)

Trực quan hóa kết quả mô hình

Vì chúng tôi đã triển khai điểm cuối SageMaker cho phép chúng tôi gửi câu lệnh ngữ cảnh và nhận câu trả lời, nên chúng tôi có thể quay lại và trực quan hóa kết quả suy luận trong trình xem SQuAD ban đầu để hình dung rõ hơn những gì mô hình của chúng tôi tìm thấy trong ngữ cảnh đoạn văn. Chúng tôi thực hiện việc này bằng cách định dạng lại kết quả suy luận thành định dạng SQuAD, sau đó thay thế các thẻ Liquid trong mẫu worker bằng JSON có định dạng SQuAD. Sau đó, chúng tôi có thể iframe giao diện người dùng kết quả bên trong mẫu nhân viên của mình để xem xét lặp lại các kết quả trong ngữ cảnh của một sổ ghi chép, như minh họa trong ảnh chụp màn hình sau. Mỗi câu hỏi ở bên trái có thể được bấm để đánh dấu các đoạn văn bản ở bên phải phù hợp với truy vấn. Không có câu hỏi nào được chọn, tất cả các khoảng văn bản được đánh dấu ở bên phải như hình bên dưới.

Làm sạch

Để tránh phát sinh phí trong tương lai, hãy chạy Làm sạch của sổ ghi chép để xóa tất cả tài nguyên, bao gồm điểm cuối SageMaker, đối tượng S3 chứa tập dữ liệu thô và đã xử lý cũng như ngăn xếp CloudFormation. Khi quá trình xóa hoàn tất, hãy đảm bảo dừng và xóa phiên bản sổ ghi chép đang lưu trữ tập lệnh sổ ghi chép hiện tại.

Kết luận

Trong bài đăng này, bạn đã học cách tạo bộ dữ liệu trả lời câu hỏi của riêng mình bằng Ground Truth và kết hợp nó với SQuAD để huấn luyện và triển khai mô hình trả lời câu hỏi của riêng bạn bằng SageMaker. Sau khi bạn hoàn thành sổ ghi chép, bạn có một điểm cuối SageMaker đã triển khai đã được đào tạo trên tập dữ liệu Hỏi & Đáp tùy chỉnh của bạn. Điểm cuối này đã sẵn sàng để tích hợp vào quy trình công việc NLU sản xuất của bạn, bởi vì điểm cuối SageMaker có sẵn thông qua API REST tiêu chuẩn. Bạn cũng có tập dữ liệu tùy chỉnh được chú thích ở định dạng SQuAD 2.0, cho phép bạn đào tạo lại mô hình hiện tại của mình hoặc thử đào tạo các kiến trúc mô hình trả lời câu hỏi khác. Cuối cùng, bạn có một cơ chế để nhanh chóng trực quan hóa các kết quả từ suy luận của mình bằng cách tải mẫu worker vào sổ ghi chép cục bộ của bạn.

Hãy thử sổ tay, bổ sung nó bằng các câu hỏi của riêng bạn, đồng thời đào tạo và triển khai mô hình trả lời câu hỏi tùy chỉnh của riêng bạn cho các trường hợp sử dụng NLU của bạn!

Chúc bạn xây dựng vui vẻ!

Về các tác giả

Jeremy Feltracco là Kỹ sư phát triển phần mềm của Phòng thí nghiệm giải pháp Amazon ML tại Amazon Web Services. Anh ấy sử dụng kiến thức nền tảng của mình về thị giác máy tính, robot và máy học để giúp khách hàng AWS đẩy nhanh việc áp dụng AI của họ.

Vidya Sagar Ravipati là Quản lý tại Phòng thí nghiệm giải pháp Amazon ML, nơi anh ấy tận dụng kinh nghiệm rộng lớn của mình trong các hệ thống phân tán quy mô lớn và niềm đam mê học máy của mình để giúp khách hàng AWS trên các ngành dọc khác nhau đẩy nhanh việc áp dụng AI và đám mây của họ. Trước đây, anh ấy là Kỹ sư Máy học trong Dịch vụ Kết nối tại Amazon, người đã giúp xây dựng các nền tảng bảo trì dự đoán và cá nhân hóa.

Isaac Privitera là Nhà khoa học dữ liệu cao cấp tại Phòng thí nghiệm Giải pháp Học máy của Amazon, nơi ông phát triển các giải pháp học máy và học sâu dành riêng để giải quyết các vấn đề kinh doanh của khách hàng. Anh ấy làm việc chủ yếu trong không gian thị giác máy tính, tập trung vào việc tạo điều kiện cho khách hàng AWS được đào tạo phân tán và học tập tích cực.

Dấu thời gian: 6 Tháng Năm, 2022

Dấu thời gian: Tháng Bảy 26, 2023