Giới thiệu thì thầm

Được xuất bản lại bởi Plato

Người theo dõi: 0

Chúng tôi đã đào tạo và đang cung cấp nguồn mở một mạng lưới thần kinh có tên Whisper nhằm tiếp cận độ chính xác và mạnh mẽ ở cấp độ con người về nhận dạng giọng nói tiếng Anh.

Đọc giấy

Mã Chế độ xem

Xem thẻ mẫu

Whisper là hệ thống nhận dạng giọng nói tự động (ASR) được đào tạo dựa trên 680,000 giờ dữ liệu được giám sát đa ngôn ngữ và đa nhiệm được thu thập từ web. Chúng tôi cho thấy rằng việc sử dụng một tập dữ liệu lớn và đa dạng như vậy dẫn đến việc cải thiện độ chắc chắn cho các trọng âm, tiếng ồn xung quanh và ngôn ngữ kỹ thuật. Hơn nữa, nó cho phép phiên âm bằng nhiều ngôn ngữ, cũng như dịch từ các ngôn ngữ đó sang tiếng Anh. Chúng tôi là các mô hình nguồn mở và mã suy luận để làm nền tảng cho việc xây dựng các ứng dụng hữu ích và nghiên cứu sâu hơn về xử lý giọng nói mạnh mẽ.

Kiến trúc Whisper là một cách tiếp cận end-to-end đơn giản, được triển khai như một Transformer bộ mã hóa-giải mã. Âm thanh đầu vào được chia thành các đoạn dài 30 giây, được chuyển đổi thành biểu đồ quang phổ log-Mel, và sau đó được chuyển vào bộ mã hóa. Một bộ giải mã được đào tạo để dự đoán chú thích văn bản tương ứng, trộn lẫn với các mã thông báo đặc biệt hướng mô hình đơn lẻ thực hiện các tác vụ như nhận dạng ngôn ngữ, dấu thời gian cấp cụm từ, phiên âm giọng nói đa ngôn ngữ và dịch giọng nói sang tiếng Anh.

Các phương pháp hiện có khác thường sử dụng các tập dữ liệu đào tạo văn bản-âm thanh nhỏ hơn, được ghép nối chặt chẽ hơnhoặc sử dụng đào tạo trước bằng âm thanh rộng rãi nhưng không được giám sát. Bởi vì Whisper được đào tạo trên một tập dữ liệu lớn và đa dạng và không được tinh chỉnh theo bất kỳ tập dữ liệu cụ thể nào, nó không đánh bại được các mô hình chuyên về hiệu suất LibriSpeech, một tiêu chuẩn cạnh tranh nổi tiếng trong nhận dạng giọng nói. Tuy nhiên, khi chúng tôi đo lường hiệu suất zero-shot của Whisper trên nhiều bộ dữ liệu khác nhau, chúng tôi thấy nó mạnh mẽ hơn nhiều và tạo ra ít lỗi hơn 50% so với các mô hình đó.

Khoảng một phần ba tập dữ liệu âm thanh của Whisper không phải là tiếng Anh và nó được luân phiên giao nhiệm vụ phiên âm từ ngôn ngữ gốc hoặc dịch sang tiếng Anh. Chúng tôi nhận thấy phương pháp này đặc biệt hiệu quả trong việc học cách dịch từ ngữ sang văn bản và vượt trội hơn SOTA được giám sát trên CoVoST2 bản dịch tiếng Anh sang tiếng Anh.

Chúng tôi hy vọng độ chính xác cao và dễ sử dụng của Whisper sẽ cho phép các nhà phát triển thêm giao diện giọng nói vào một bộ ứng dụng rộng lớn hơn nhiều. Kiểm tra giấy, thẻ mẫuvà mã để tìm hiểu thêm chi tiết và dùng thử Whisper.

Dấu thời gian: Ngày 21 tháng 2022 năm XNUMXNgày 21 tháng 2022 năm XNUMX

Dấu thời gian: Tháng Sáu 2, 2022

Giới thiệu thì thầm

Được xuất bản lại bởi Plato

Ví dụ thì thầm:

Thêm từ OpenAI

Sora: Ấn tượng đầu tiên

Giới thiệu ChatGPT Enterprise

DALL · E Hiện có sẵn mà không cần danh sách chờ

Ngày 20 tháng XNUMX ChatGPT ngừng hoạt động: Đây là những gì đã xảy ra

Khả năng GPT-3 mới: Chỉnh sửa & Chèn

Kỹ thuật đào tạo mạng nơ ron lớn

Các mô hình và sản phẩm dành cho nhà phát triển mới được công bố tại DevDay

Sự phát triển thông qua các mô hình lớn

OpenAI và Elon Musk

Về chúng tôi

Tìm kiếm dọc & Ai

Nền tảng

NHẬN THÔNG TIN

Tài khoản