Các cuộc trò chuyện trực tuyến phổ biến khắp nơi trong cuộc sống hiện đại, bao gồm các ngành từ trò chơi điện tử đến viễn thông. Điều này đã dẫn đến sự tăng trưởng theo cấp số nhân về lượng dữ liệu hội thoại trực tuyến, giúp phát triển các hệ thống xử lý ngôn ngữ tự nhiên (NLP) tiên tiến nhất như chatbot và mô hình tạo ngôn ngữ tự nhiên (NLG). Theo thời gian, các kỹ thuật NLP khác nhau để phân tích văn bản cũng đã phát triển. Điều này đặt ra yêu cầu đối với một dịch vụ được quản lý đầy đủ có thể được tích hợp vào các ứng dụng bằng cách sử dụng lệnh gọi API mà không cần chuyên môn sâu rộng về học máy (ML). AWS cung cấp các dịch vụ AWS AI được đào tạo trước như Amazon hiểu, có thể xử lý hiệu quả các trường hợp sử dụng NLP liên quan đến phân loại, tóm tắt văn bản, nhận dạng thực thể, v.v. để thu thập thông tin chi tiết từ văn bản.
Ngoài ra, các cuộc trò chuyện trực tuyến đã dẫn đến hiện tượng sử dụng ngôn ngữ phi truyền thống trên diện rộng. Các kỹ thuật NLP truyền thống thường hoạt động kém trên dữ liệu văn bản này do các từ vựng liên tục phát triển và theo miền cụ thể tồn tại trong các nền tảng khác nhau, cũng như sự sai lệch đáng kể về mặt từ vựng so với tiếng Anh thích hợp, do vô tình hoặc cố ý như một hình thức tấn công đối nghịch .
Trong bài đăng này, chúng tôi mô tả nhiều cách tiếp cận ML để phân loại văn bản của các cuộc trò chuyện trực tuyến bằng các công cụ và dịch vụ có sẵn trên AWS.
Điều kiện tiên quyết
Trước khi đi sâu vào trường hợp sử dụng này, vui lòng hoàn thành các điều kiện tiên quyết sau:
- Thiết lập một Tài khoản AWS và tạo người dùng IAM.
- Thiết lập AWSCLI và AWS SDK.
- (Tùy chọn) Thiết lập Môi trường Cloud9 IDE.
Bộ dữ liệu
Đối với bài đăng này, chúng tôi sử dụng Ghép hình Thiên vị ngoài ý muốn trong tập dữ liệu phân loại độc tính, một điểm chuẩn cho vấn đề cụ thể về phân loại độ độc trong các cuộc trò chuyện trực tuyến. Tập dữ liệu cung cấp các nhãn độc tính cũng như một số thuộc tính nhóm con như khiêu dâm, tấn công danh tính, xúc phạm, đe dọa và khiêu dâm. Các nhãn được cung cấp dưới dạng giá trị phân số, đại diện cho tỷ lệ người chú thích con người tin rằng thuộc tính được áp dụng cho một đoạn văn bản nhất định, các giá trị này hiếm khi nhất trí. Để tạo các nhãn nhị phân (ví dụ: độc hại hoặc không độc hại), ngưỡng 0.5 được áp dụng cho các giá trị phân số và các nhận xét có giá trị lớn hơn ngưỡng được coi là lớp tích cực cho nhãn đó.
Nhúng từ khóa phụ và RNN
Đối với cách tiếp cận mô hình hóa đầu tiên của chúng tôi, chúng tôi sử dụng sự kết hợp giữa nhúng từ khóa con và mạng nơ-ron lặp lại (RNN) để đào tạo các mô hình phân loại văn bản. Nhúng từ khóa phụ được giới thiệu bởi Bojanowski và cộng sự. vào năm 2017 như một cải tiến so với các phương pháp nhúng cấp độ từ trước đó. Các mô hình bỏ qua Word2Vec truyền thống được đào tạo để học cách biểu diễn vectơ tĩnh của một từ đích để dự đoán ngữ cảnh của từ đó một cách tối ưu. Mặt khác, các mô hình từ khóa phụ thể hiện mỗi từ đích dưới dạng một túi chứa n-gram ký tự tạo nên từ đó, trong đó n-gram bao gồm một tập hợp n ký tự liên tiếp. Phương pháp này cho phép mô hình nhúng thể hiện tốt hơn hình thái cơ bản của các từ liên quan trong kho ngữ liệu cũng như tính toán cách nhúng cho các từ mới lạ, không thuộc từ vựng (OOV). Điều này đặc biệt quan trọng trong bối cảnh của các cuộc trò chuyện trực tuyến, một không gian có vấn đề trong đó người dùng thường viết sai chính tả các từ (đôi khi cố ý để tránh bị phát hiện) và cũng sử dụng một từ vựng duy nhất, liên tục phát triển mà có thể không nắm bắt được bằng ngữ liệu đào tạo chung.
Amazon SageMaker giúp dễ dàng đào tạo và tối ưu hóa mô hình nhúng từ khóa phụ không được giám sát trên kho dữ liệu văn bản theo miền cụ thể của riêng bạn với tính năng tích hợp sẵn Thuật toán BlazingText. Chúng tôi cũng có thể tải xuống các mô hình có mục đích chung hiện có được đào tạo trên bộ dữ liệu lớn của văn bản trực tuyến, chẳng hạn như sau Các mô hình ngôn ngữ tiếng Anh có sẵn trực tiếp từ fastText. Từ phiên bản sổ ghi chép SageMaker của bạn, chỉ cần chạy như sau để tải xuống mô hình fastText được đào tạo trước:
Cho dù bạn đã đào tạo cách nhúng của riêng mình với BlazingText hay tải xuống một mô hình được đào tạo trước, kết quả là một tệp nhị phân mô hình nén mà bạn có thể sử dụng với thư viện gensim để nhúng một từ đích nhất định dưới dạng vectơ dựa trên các từ khóa con cấu thành của nó:
Sau khi chúng tôi xử lý trước một đoạn văn bản nhất định, chúng tôi có thể sử dụng cách tiếp cận này để tạo biểu diễn vectơ cho mỗi từ cấu thành (được phân tách bằng dấu cách). Sau đó, chúng tôi sử dụng SageMaker và một khuôn khổ học tập sâu như PyTorch để đào tạo RNN tùy chỉnh với mục tiêu phân loại nhị phân hoặc đa nhãn để dự đoán liệu văn bản có độc hại hay không và loại độc tố phụ cụ thể dựa trên các ví dụ đào tạo được gắn nhãn.
Để tải văn bản đã xử lý trước của bạn lên Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3), sử dụng mã sau:
Để bắt đầu đào tạo mô hình đa GPU, có thể mở rộng với SageMaker, hãy nhập mã sau:
Trong thời hạn , chúng tôi xác định Tập dữ liệu PyTorch được sử dụng bởi train.py
để chuẩn bị dữ liệu văn bản cho đào tạo và đánh giá mô hình:
Lưu ý rằng mã này dự đoán rằng vectors.zip
tệp chứa các nhúng fastText hoặc BlazingText của bạn sẽ được lưu trữ trong .
Ngoài ra, bạn có thể dễ dàng triển khai các mô hình fastText được đào tạo trước của riêng chúng cho các điểm cuối SageMaker trực tiếp để tính toán các vectơ nhúng một cách nhanh chóng để sử dụng trong các tác vụ cấp từ có liên quan. Xem phần sau Ví dụ về GitHub để biết thêm chi tiết.
Người vận chuyển với khuôn mặt ôm
Đối với cách tiếp cận mô hình hóa thứ hai, chúng tôi chuyển sang cách sử dụng Người máy biến hình, được giới thiệu trong bài báo Chú ý là tất cả những gì bạn cần. Máy biến áp là mô hình học sâu được thiết kế để cố ý tránh những cạm bẫy của RNN bằng cách dựa trên cơ chế tự chú ý để thu hút sự phụ thuộc toàn cầu giữa đầu vào và đầu ra. Kiến trúc mô hình Transformer cho phép song song tốt hơn đáng kể và có thể đạt được hiệu suất cao trong thời gian đào tạo tương đối ngắn.
Được xây dựng dựa trên thành công của Transformers, BERT, được giới thiệu trên báo BERT: Đào tạo trước về Máy biến áp hai chiều sâu để hiểu ngôn ngữ, đã thêm đào tạo trước hai chiều để trình bày ngôn ngữ. Lấy cảm hứng từ nhiệm vụ Cloze, BERT được đào tạo trước với mô hình ngôn ngữ được che giấu (MLM), trong đó mô hình học cách khôi phục các từ ban đầu cho các mã thông báo được che ngẫu nhiên. Mô hình BERT cũng được đào tạo trước về nhiệm vụ dự đoán câu tiếp theo (NSP) để dự đoán xem hai câu có đúng thứ tự đọc hay không. Kể từ khi ra đời vào năm 2018, BERT và các biến thể của nó đã được sử dụng rộng rãi trong các nhiệm vụ phân loại văn bản.
Giải pháp của chúng tôi sử dụng một biến thể của BERT được gọi là RoBERTa, đã được giới thiệu trong bài báo RoBERTa: Phương pháp tiếp cận tiền đào tạo BERT được tối ưu hóa mạnh mẽ. RoBERTa cải thiện hơn nữa hiệu suất BERT trên nhiều nhiệm vụ ngôn ngữ tự nhiên bằng cách đào tạo mô hình được tối ưu hóa, bao gồm đào tạo mô hình dài hơn trên kho ngữ liệu lớn hơn gấp 10 lần, sử dụng siêu tham số được tối ưu hóa, tạo mặt nạ ngẫu nhiên động, xóa tác vụ NSP, v.v.
Các mô hình dựa trên RoBERTa của chúng tôi sử dụng Người vận chuyển khuôn mặt ôm thư viện, là một khung Python nguồn mở phổ biến cung cấp các triển khai chất lượng cao của tất cả các loại mô hình Transformer hiện đại nhất cho nhiều tác vụ NLP khác nhau. Hugging Face đã hợp tác với AWS để cho phép bạn dễ dàng đào tạo và triển khai các mô hình Transformer trên SageMaker. Chức năng này có sẵn thông qua Hình ảnh vùng chứa học tập sâu AWS trên khuôn mặt, bao gồm các thư viện Transformers, Tokenizers và Datasets, và tích hợp được tối ưu hóa với SageMaker để đào tạo và suy luận mô hình.
Trong quá trình triển khai, chúng tôi kế thừa cấu trúc xương sống của RoBERTa từ khung Hugging Face Transformers và sử dụng SageMaker để đào tạo và triển khai mô hình phân loại văn bản của riêng chúng tôi, mà chúng tôi gọi là RoBERTox. RoBERTox sử dụng mã hóa cặp byte (BPE), được giới thiệu trong Dịch máy thần kinh của các từ hiếm với các đơn vị từ khóa phụ, để mã hóa văn bản đầu vào thành các biểu diễn từ khóa con. Sau đó, chúng tôi có thể đào tạo các mô hình và trình phân loại của mình trên dữ liệu Ghép hình hoặc bất kỳ kho dữ liệu lớn nào dành cho miền cụ thể (chẳng hạn như nhật ký trò chuyện từ một trò chơi cụ thể) và sử dụng chúng để phân loại văn bản tùy chỉnh. Chúng tôi xác định lớp mô hình phân loại tùy chỉnh của mình trong đoạn mã sau:
Trước khi đào tạo, chúng tôi chuẩn bị dữ liệu văn bản và nhãn của mình bằng cách sử dụng thư viện bộ dữ liệu của Hugging Face và tải kết quả lên Amazon S3:
Chúng tôi bắt đầu đào tạo người mẫu theo cách tương tự như RNN:
Cuối cùng, đoạn mã Python sau minh họa quá trình cung cấp RoBERTox thông qua điểm cuối SageMaker trực tiếp để phân loại văn bản theo thời gian thực cho một yêu cầu JSON:
Đánh giá hiệu suất mô hình: Ghép hình bộ dữ liệu thiên vị không mong muốn
Bảng sau đây chứa các chỉ số hiệu suất cho các mô hình được đào tạo và đánh giá dựa trên dữ liệu từ cuộc thi Ghép hình Thiên vị không mong muốn trong cuộc thi Kaggle Phát hiện Độc tính. Chúng tôi đã đào tạo các mô hình cho ba nhiệm vụ khác nhau nhưng có liên quan đến nhau:
- Trường hợp nhị phân - Mô hình được đào tạo trên tập dữ liệu đào tạo đầy đủ để dự đoán
toxicity
chỉ nhãn - Trường hợp hạt mịn - Tập hợp con của dữ liệu đào tạo mà
toxicity>=0.5
được sử dụng để dự đoán các nhãn phụ loại độc tính khác (obscene
,threat
,insult
,identity_attack
,sexual_explicit
) - Trường hợp đa nhiệm - Tập dữ liệu đào tạo đầy đủ được sử dụng để dự đoán đồng thời cả sáu nhãn
Chúng tôi đã đào tạo các mô hình RNN và RoBERTa cho từng tác vụ trong số ba tác vụ này bằng cách sử dụng các nhãn phân số do Jigsaw cung cấp, tương ứng với tỷ lệ người chú thích cho rằng nhãn đó phù hợp với văn bản, cũng như với các nhãn nhị phân kết hợp với trọng số lớp trong mạng thiếu chức năng. Trong lược đồ gắn nhãn nhị phân, tỷ lệ được đặt ngưỡng là 0.5 cho mỗi nhãn có sẵn (1 nếu nhãn> = 0.5, nếu không) và các hàm giảm mô hình được tính trọng số dựa trên tỷ lệ tương đối của mỗi nhãn nhị phân trong tập dữ liệu đào tạo. Trong mọi trường hợp, chúng tôi nhận thấy rằng việc sử dụng các nhãn phân số trực tiếp dẫn đến hiệu suất tốt nhất, cho biết giá trị gia tăng của thông tin vốn có ở mức độ đồng ý giữa các trình chú thích.
Chúng tôi hiển thị hai số liệu của mô hình: độ chính xác trung bình (AP), cung cấp tóm tắt về đường cong thu hồi độ chính xác bằng cách tính giá trị trung bình có trọng số của các giá trị độ chụm đạt được ở mỗi ngưỡng phân loại và diện tích bên dưới đường cong đặc tính hoạt động của máy thu (AUC) , tổng hợp hiệu suất của mô hình qua các ngưỡng phân loại đối với tỷ lệ dương tính thực sự và tỷ lệ dương tính giả. Lưu ý rằng lớp true cho một phiên bản văn bản nhất định trong tập kiểm tra tương ứng với việc tỷ lệ true lớn hơn hoặc bằng 0.5 (1 nếu nhãn> = 0.5, nếu không).
. | Nhúng từ khóa phụ + RNN | roberta | ||
. | Nhãn phân số | Nhãn nhị phân + Trọng số lớp | Nhãn phân số | Nhãn nhị phân + Trọng số lớp |
Nhị phân | AP = 0.746, AUC = 0.966 | AP = 0.730, AUC = 0.963 | AP = 0.758, AUC = 0.966 | AP = 0.747, AUC = 0.963 |
Hạt mịn | AP = 0.906, AUC = 0.909 | AP = 0.850, AUC = 0.851 | AP = 0.913, AUC = 0.913 | AP = 0.911, AUC = 0.912 |
Đa nhiệm | AP = 0.721, AUC = 0.972 | AP = 0.535, AUC = 0.907 | AP = 0.740, AUC = 0.972 | AP = 0.711, AUC = 0.961 |
Kết luận
Trong bài đăng này, chúng tôi đã trình bày hai cách tiếp cận phân loại văn bản cho các cuộc trò chuyện trực tuyến sử dụng dịch vụ AWS ML. Bạn có thể tổng quát hóa các giải pháp này trên các nền tảng truyền thông trực tuyến, với các ngành như trò chơi, đặc biệt có khả năng được hưởng lợi từ khả năng phát hiện nội dung có hại được cải thiện. Trong các bài đăng trong tương lai, chúng tôi dự định sẽ thảo luận thêm về kiến trúc end-to-end để triển khai liền mạch các mô hình vào tài khoản AWS của bạn.
Nếu bạn muốn được trợ giúp đẩy nhanh việc sử dụng ML trong các sản phẩm và quy trình của mình, vui lòng liên hệ với Phòng thí nghiệm giải pháp Amazon ML.
Về các tác giả
Ryan thương hiệu là Nhà khoa học dữ liệu trong Phòng thí nghiệm Giải pháp Máy học của Amazon. Anh ấy có kinh nghiệm cụ thể trong việc áp dụng máy học vào các vấn đề trong chăm sóc sức khỏe và khoa học đời sống, và trong thời gian rảnh rỗi, anh ấy thích đọc lịch sử và khoa học viễn tưởng.
Sourav Bhabesh là Nhà khoa học dữ liệu tại Phòng thí nghiệm Giải pháp ML của Amazon. Ông phát triển các giải pháp AI / ML cho khách hàng AWS trong nhiều ngành khác nhau. Chuyên môn của anh ấy là Xử lý ngôn ngữ tự nhiên (NLP) và rất đam mê học sâu. Ngoài công việc, anh ấy thích đọc sách và đi du lịch.
Lưu Đồng Chu là một nhà khoa học ứng dụng tại Amazon ML Solutions Lab. Anh ấy xây dựng các giải pháp AI / ML riêng cho khách hàng AWS trong nhiều ngành khác nhau. Anh ấy chuyên về Xử lý ngôn ngữ tự nhiên (NLP) và đam mê học sâu đa phương thức. Anh ấy là một giọng nam cao trữ tình và thích hát opera ngoài công việc.
Sia Gholami là Nhà khoa học dữ liệu cấp cao tại Phòng thí nghiệm giải pháp ML của Amazon, nơi ông xây dựng các giải pháp AI / ML cho khách hàng trong nhiều ngành khác nhau. Anh ấy đam mê xử lý ngôn ngữ tự nhiên (NLP) và học sâu. Ngoài công việc, Sia thích dành thời gian hòa mình vào thiên nhiên và chơi tennis.
Daniel Horowitz là một Giám đốc Khoa học AI Ứng dụng. Anh ấy dẫn đầu một nhóm các nhà khoa học trên Amazon ML Solutions Lab đang làm việc để giải quyết các vấn đề của khách hàng và thúc đẩy việc áp dụng đám mây với ML.
- Coinsmart. Sàn giao dịch Bitcoin và tiền điện tử tốt nhất Châu Âu.
- Platoblockchain. Web3 Metaverse Intelligence. Khuếch đại kiến thức. TRUY CẬP MIỄN PHÍ.
- CryptoHawk. Radar Altcoin. Dùng thử miễn phí.
- Nguồn: https://aws.amazon.com/blogs/machine-learning/text-classification-for-online-conversations-with-machine-learning-on-aws/
- '
- "
- 10
- 100
- 7
- a
- có khả năng
- Giới thiệu
- tăng tốc
- Tài khoản
- Đạt được
- đạt được
- ngang qua
- thêm
- Nhận con nuôi
- Hiệp định
- AI
- Dịch vụ AI
- Tất cả
- cho phép
- đàn bà gan dạ
- số lượng
- phân tích
- api
- các ứng dụng
- áp dụng
- Đăng Nhập
- Nộp đơn
- phương pháp tiếp cận
- cách tiếp cận
- thích hợp
- kiến trúc
- KHU VỰC
- thuộc tính
- có sẵn
- Trung bình cộng
- AWS
- bao
- điểm chuẩn
- hưởng lợi
- BEST
- Hơn
- giữa
- lớn hơn
- Sách
- xây dựng
- được xây dựng trong
- cuộc gọi
- trường hợp
- trường hợp
- nhân vật
- tốt nghiệp lớp XNUMX
- phân loại
- đám mây
- mã
- kết hợp
- kết hợp
- Bình luận
- Giao tiếp
- cạnh tranh
- hoàn thành
- sáng tác
- tính toán
- Tính
- máy tính
- liên tiếp
- liên tục
- liên lạc
- Container
- chứa
- nội dung
- Conversation
- cuộc hội thoại
- tạo
- đường cong
- khách hàng
- khách hàng
- khách hàng
- dữ liệu
- nhà khoa học dữ liệu
- sâu
- triển khai
- triển khai
- mô tả
- thiết kế
- chi tiết
- Phát hiện
- Xác định
- Phát triển
- khác nhau
- kích thước
- trực tiếp
- thảo luận
- Giao diện
- tải về
- lái xe
- suốt trong
- năng động
- mỗi
- dễ dàng
- hiệu quả
- cho phép
- Cuối cùng đến cuối
- Điểm cuối
- Tiếng Anh
- đăng ký hạng mục thi
- thực thể
- đánh giá
- phát triển
- ví dụ
- ví dụ
- hiện tại
- kinh nghiệm
- chuyên môn
- mở rộng
- Đối mặt
- Thời trang
- Tiểu thuyết
- Tên
- tiếp theo
- hình thức
- Forward
- tìm thấy
- phân số
- Khung
- Miễn phí
- từ
- Full
- chức năng
- chức năng
- chức năng
- xa hơn
- tương lai
- trò chơi
- Trò chơi
- chơi game
- Tổng Quát
- mục đích chung
- tạo ra
- thế hệ
- Toàn cầu
- lớn hơn
- Tăng trưởng
- xử lý
- cái đầu
- chăm sóc sức khỏe
- giúp đỡ
- đã giúp
- Cao
- chất lượng cao
- lịch sử
- HTTPS
- Nhân loại
- Bản sắc
- thực hiện
- quan trọng
- cải thiện
- cải thiện
- bao gồm
- Bao gồm
- các ngành công nghiệp
- thông tin
- vốn có
- đầu vào
- những hiểu biết
- lấy cảm hứng từ
- ví dụ
- Xúc phạm
- tích hợp
- hội nhập
- IT
- cưa xoi
- Việc làm
- phím
- nổi tiếng
- phòng thí nghiệm
- nhãn
- ghi nhãn
- Nhãn
- Ngôn ngữ
- lớn
- lớn hơn
- lớp
- Dẫn
- LEARN
- học tập
- Led
- Thư viện
- Khoa học đời sống
- Có khả năng
- sống
- tải
- máy
- học máy
- làm cho
- LÀM CHO
- quản lý
- giám đốc
- mặt nạ
- Mặt nạ
- Trận đấu
- Matrix
- cơ chế
- Bộ nhớ
- phương pháp
- Metrics
- Might
- ML
- kiểu mẫu
- mô hình
- chi tiết
- nhiều
- Tự nhiên
- Thiên nhiên
- mạng
- mạng
- tiếp theo
- máy tính xách tay
- con số
- Cung cấp
- Trực tuyến
- hoạt động
- Tối ưu hóa
- tối ưu hóa
- gọi món
- nguyên
- Nền tảng khác
- nếu không thì
- riêng
- Giấy
- đặc biệt
- hợp tác
- đam mê
- hiệu suất
- mảnh
- Nền tảng
- chơi
- xin vui lòng
- Phổ biến
- tích cực
- bài viết
- dự đoán
- dự đoán
- Chuẩn bị
- trước
- Vấn đề
- vấn đề
- quá trình
- Quy trình
- xử lý
- Sản phẩm
- Chiếu
- cung cấp
- cung cấp
- Reading
- thời gian thực
- Phục hồi
- có liên quan
- loại bỏ
- đại diện
- đại diện
- đại diện
- yêu cầu
- trở lại
- Trả về
- Vai trò
- chạy
- khả năng mở rộng
- Đề án
- Khoa học
- KHOA HỌC
- Nhà khoa học
- các nhà khoa học
- liền mạch
- phân khúc
- dịch vụ
- DỊCH VỤ
- phục vụ
- định
- một số
- ngắn
- có ý nghĩa
- tương tự
- Đơn giản
- kể từ khi
- Six
- Kích thước máy
- giải pháp
- Giải pháp
- động SOLVE
- Không gian
- không gian
- chuyên
- Đặc biệt
- riêng
- Chi
- nhà nước-of-the-art
- Bang
- là gắn
- thành công
- hệ thống
- Mục tiêu
- nhiệm vụ
- nhóm
- kỹ thuật
- viễn thông
- thử nghiệm
- Sản phẩm
- số ba
- ngưỡng
- Thông qua
- thời gian
- thời gian
- Tokens
- công cụ
- ngọn đuốc
- truyền thống
- Train
- Hội thảo
- quá trình chuyển đổi
- Dịch
- Đi du lịch
- Dưới
- độc đáo
- sử dụng
- Người sử dụng
- xác nhận
- giá trị
- nhiều
- khác nhau
- Video
- trò chơi video
- liệu
- CHÚNG TÔI LÀ
- ở trong
- không có
- từ
- Công việc
- đang làm việc
- trên màn hình