Giới thiệu thì thầm

Chúng tôi đã đào tạo và đang cung cấp nguồn mở một mạng lưới thần kinh có tên Whisper nhằm tiếp cận độ chính xác và mạnh mẽ ở cấp độ con người về nhận dạng giọng nói tiếng Anh.

Đọc giấy


Mã Chế độ xem


Xem thẻ mẫu

Ví dụ thì thầm:

Whisper là hệ thống nhận dạng giọng nói tự động (ASR) được đào tạo dựa trên 680,000 giờ dữ liệu được giám sát đa ngôn ngữ và đa nhiệm được thu thập từ web. Chúng tôi cho thấy rằng việc sử dụng một tập dữ liệu lớn và đa dạng như vậy dẫn đến việc cải thiện độ chắc chắn cho các trọng âm, tiếng ồn xung quanh và ngôn ngữ kỹ thuật. Hơn nữa, nó cho phép phiên âm bằng nhiều ngôn ngữ, cũng như dịch từ các ngôn ngữ đó sang tiếng Anh. Chúng tôi là các mô hình nguồn mở và mã suy luận để làm nền tảng cho việc xây dựng các ứng dụng hữu ích và nghiên cứu sâu hơn về xử lý giọng nói mạnh mẽ.

hình ảnh
hình ảnh

Kiến trúc Whisper là một cách tiếp cận end-to-end đơn giản, được triển khai như một Transformer bộ mã hóa-giải mã. Âm thanh đầu vào được chia thành các đoạn dài 30 giây, được chuyển đổi thành biểu đồ quang phổ log-Mel, và sau đó được chuyển vào bộ mã hóa. Một bộ giải mã được đào tạo để dự đoán chú thích văn bản tương ứng, trộn lẫn với các mã thông báo đặc biệt hướng mô hình đơn lẻ thực hiện các tác vụ như nhận dạng ngôn ngữ, dấu thời gian cấp cụm từ, phiên âm giọng nói đa ngôn ngữ và dịch giọng nói sang tiếng Anh.

hình ảnh
hình ảnh

Các phương pháp hiện có khác thường sử dụng các tập dữ liệu đào tạo văn bản-âm thanh nhỏ hơn, được ghép nối chặt chẽ hơnhoặc sử dụng đào tạo trước bằng âm thanh rộng rãi nhưng không được giám sát. Bởi vì Whisper được đào tạo trên một tập dữ liệu lớn và đa dạng và không được tinh chỉnh theo bất kỳ tập dữ liệu cụ thể nào, nó không đánh bại được các mô hình chuyên về hiệu suất LibriSpeech, một tiêu chuẩn cạnh tranh nổi tiếng trong nhận dạng giọng nói. Tuy nhiên, khi chúng tôi đo lường hiệu suất zero-shot của Whisper trên nhiều bộ dữ liệu khác nhau, chúng tôi thấy nó mạnh mẽ hơn nhiều và tạo ra ít lỗi hơn 50% so với các mô hình đó.

Khoảng một phần ba tập dữ liệu âm thanh của Whisper không phải là tiếng Anh và nó được luân phiên giao nhiệm vụ phiên âm từ ngôn ngữ gốc hoặc dịch sang tiếng Anh. Chúng tôi nhận thấy phương pháp này đặc biệt hiệu quả trong việc học cách dịch từ ngữ sang văn bản và vượt trội hơn SOTA được giám sát trên CoVoST2 bản dịch tiếng Anh sang tiếng Anh.

hình ảnh
hình ảnh

Chúng tôi hy vọng độ chính xác cao và dễ sử dụng của Whisper sẽ cho phép các nhà phát triển thêm giao diện giọng nói vào một bộ ứng dụng rộng lớn hơn nhiều. Kiểm tra giấy, thẻ mẫu để tìm hiểu thêm chi tiết và dùng thử Whisper.

Dấu thời gian:

Thêm từ OpenAI