Amazon Transcribe công bố hệ thống ASR dựa trên mô hình nền tảng giọng nói mới mở rộng hỗ trợ tới hơn 100 ngôn ngữ

Được xuất bản lại bởi Plato

Người theo dõi: 0

Phiên âm Amazon là dịch vụ nhận dạng giọng nói tự động (ASR) được quản lý hoàn toàn giúp bạn dễ dàng thêm khả năng chuyển giọng nói thành văn bản vào ứng dụng của mình. Hôm nay, chúng tôi vui mừng thông báo về hệ thống dựa trên mô hình nền tảng giọng nói nhiều tỷ tham số thế hệ tiếp theo giúp mở rộng khả năng nhận dạng giọng nói tự động lên hơn 100 ngôn ngữ. Trong bài đăng này, chúng tôi thảo luận về một số lợi ích của hệ thống này, cách các công ty đang sử dụng nó và cách bắt đầu. Chúng tôi cũng cung cấp một ví dụ về đầu ra phiên âm bên dưới.

Mô hình nền tảng giọng nói của Transcribe được đào tạo bằng các thuật toán tự giám sát tốt nhất để tìm hiểu các mẫu giọng nói phổ biến vốn có của con người qua các ngôn ngữ và giọng nói. Nó được đào tạo trên hàng triệu giờ dữ liệu âm thanh chưa được gắn nhãn từ hơn 100 ngôn ngữ. Công thức đào tạo được tối ưu hóa thông qua lấy mẫu dữ liệu thông minh để cân bằng dữ liệu đào tạo giữa các ngôn ngữ, đảm bảo rằng các ngôn ngữ truyền thống ít được trình bày cũng đạt mức độ chính xác cao.

Carbyne là một công ty phần mềm phát triển các giải pháp trung tâm liên lạc quan trọng, dựa trên nền tảng đám mây dành cho những người trả lời cuộc gọi khẩn cấp. Sứ mệnh của Carbyne là giúp những người ứng cứu khẩn cấp cứu mạng sống và ngôn ngữ không thể cản trở mục tiêu của họ. Đây là cách họ sử dụng Amazon Transcribe để theo đuổi sứ mệnh của mình:

“Dịch thuật âm thanh trực tiếp Carbyne được hỗ trợ bởi AI trực tiếp nhằm mục đích giúp cải thiện khả năng ứng phó khẩn cấp cho 68 triệu người Mỹ nói ngôn ngữ không phải tiếng Anh ở nhà, bên cạnh 79 triệu du khách nước ngoài đến đất nước này hàng năm. Bằng cách tận dụng mô hình nền tảng đa ngôn ngữ mới hỗ trợ ASR của Amazon Transcribe, Carbyne sẽ được trang bị tốt hơn nữa để dân chủ hóa các dịch vụ khẩn cấp cứu mạng, bởi vì Every. Người. Đếm.”

– Alex Dizengof, Đồng sáng lập và CTO của Carbyne.

Bằng cách tận dụng mô hình nền tảng giọng nói, Amazon Transcribe mang lại sự cải thiện đáng kể về độ chính xác từ 20% đến 50% trên hầu hết các ngôn ngữ. Đối với giọng nói qua điện thoại, một lĩnh vực đầy thách thức và khan hiếm dữ liệu, độ chính xác được cải thiện từ 30% đến 70%. Ngoài việc cải thiện đáng kể độ chính xác, mô hình ASR lớn này còn mang lại những cải tiến về khả năng đọc với dấu câu và cách viết hoa chính xác hơn. Với sự ra đời của AI tổng hợp, hàng nghìn doanh nghiệp đang sử dụng Amazon Transcribe để khai thác những thông tin chi tiết phong phú từ nội dung âm thanh của họ. Với độ chính xác được cải thiện đáng kể và khả năng hỗ trợ cho hơn 100 ngôn ngữ, Amazon Transcribe sẽ tác động tích cực đến tất cả các trường hợp sử dụng như vậy. Tất cả khách hàng hiện tại và khách hàng mới sử dụng Amazon Transcribe ở chế độ hàng loạt đều có thể truy cập tính năng nhận dạng giọng nói dựa trên mô hình nền tảng giọng nói mà không cần bất kỳ thay đổi nào đối với điểm cuối API hoặc tham số đầu vào.

Hệ thống ASR mới cung cấp một số tính năng chính trên tất cả hơn 100 ngôn ngữ liên quan đến tính dễ sử dụng, tùy chỉnh, an toàn cho người dùng và quyền riêng tư. Chúng bao gồm các tính năng như dấu câu tự động, từ vựng tùy chỉnh, nhận dạng ngôn ngữ tự động, ghi nhật ký của người nói, điểm tin cậy ở cấp độ từ và bộ lọc từ vựng tùy chỉnh. Khả năng hỗ trợ mở rộng của hệ thống cho các giọng, môi trường tiếng ồn và điều kiện âm thanh khác nhau cho phép bạn tạo ra đầu ra chính xác hơn và từ đó giúp bạn nhúng công nghệ giọng nói vào ứng dụng của mình một cách hiệu quả.

Được hỗ trợ bởi độ chính xác cao của Amazon Transcribe trên các giọng điệu và điều kiện tiếng ồn khác nhau, sự hỗ trợ của nó cho một số lượng lớn ngôn ngữ và nhiều bộ tính năng giá trị gia tăng, hàng nghìn doanh nghiệp sẽ được trao quyền để mở khóa những hiểu biết sâu sắc phong phú từ nội dung âm thanh của họ, cũng như tăng khả năng truy cập và khả năng khám phá nội dung âm thanh và video của họ trên nhiều miền khác nhau. Ví dụ: các trung tâm liên lạc ghi lại và phân tích các cuộc gọi của khách hàng để xác định thông tin chi tiết và sau đó cải thiện trải nghiệm của khách hàng cũng như năng suất của đại lý. Nhà sản xuất nội dung và nhà phân phối truyền thông tự động tạo phụ đề bằng Amazon Transcribe để cải thiện khả năng tiếp cận nội dung.

Bắt đầu với Amazon Transcribe

Bạn có thể sử dụng Giao diện dòng lệnh AWS (AWS CLI), Bảng điều khiển quản lý AWS, và nhiều AWS SDK để sao chép hàng loạt và tiếp tục sử dụng cùng một StartTranscriptionJob API để nhận được lợi ích về hiệu suất từ mô hình ASR nâng cao mà không cần thực hiện bất kỳ thay đổi mã hoặc tham số nào từ phía bạn. Để biết thêm thông tin về cách sử dụng AWS CLI và bảng điều khiển, hãy tham khảo Phiên âm bằng AWS CLI và Phiên âm bằng Bảng điều khiển quản lý AWS, Tương ứng.

Bước đầu tiên là tải các tập tin media của bạn lên một Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3), một dịch vụ lưu trữ đối tượng được xây dựng để lưu trữ và truy xuất mọi lượng dữ liệu từ mọi nơi. Amazon S3 mang lại độ bền, độ khả dụng, hiệu suất, bảo mật hàng đầu trong ngành và khả năng mở rộng gần như không giới hạn với chi phí rất thấp. Bạn có thể chọn lưu bản chép lời vào bộ chứa S3 của riêng mình hoặc yêu cầu Amazon Transcribe sử dụng bộ chứa mặc định an toàn. Để tìm hiểu thêm về cách sử dụng nhóm S3, hãy xem Tạo, đặt cấu hình và làm việc với bộ chứa Amazon S3.

Đầu ra phiên âm

Amazon Transcribe sử dụng biểu diễn JSON cho đầu ra của nó. Nó cung cấp kết quả phiên âm ở hai định dạng khác nhau: định dạng văn bản và định dạng chia thành từng khoản. Không có gì thay đổi liên quan đến điểm cuối API hoặc tham số đầu vào.

Định dạng văn bản cung cấp bản ghi dưới dạng một khối văn bản, trong khi định dạng chia thành từng mục cung cấp bản ghi dưới dạng các mục được sao chép theo thứ tự kịp thời, cùng với siêu dữ liệu bổ sung cho mỗi mục. Cả hai định dạng đều tồn tại song song trong tệp đầu ra.

Tùy thuộc vào các tính năng bạn chọn khi tạo tác vụ chép lời, Amazon Transcribe tạo ra các chế độ xem bổ sung và phong phú hơn về kết quả chép lời. Xem mã ví dụ sau:

{ "jobName": "2x-speakers_2x-channels", "accountId": "************", "results": { "transcripts": [
{ "transcript": "Hi, welcome." } ], "speaker_labels": [ { "channel_label": "ch_0", "speakers": 2, "segments": [ ] }, { "channel_label": "ch_1", "speakers": 2, "segments": [ ] } ], "channel_labels": { "channels": [ ], "number_of_channels": 2 }, "items": [ ], "segments": [ ] }, "status": "COMPLETED"
}

Các quan điểm như sau:

Học bạ, bảng điểm – Đại diện bởi transcripts phần tử, nó chỉ chứa định dạng văn bản của bản ghi. Trong trường hợp nhiều người nói, đa kênh, việc ghép tất cả các bản ghi được cung cấp dưới dạng một khối duy nhất.
Diễn giả – Đại diện bởi speaker_labels phần tử, nó chứa văn bản và các định dạng được chia thành từng mục của bản ghi được nhóm theo người nói. Nó chỉ khả dụng khi tính năng nhiều loa được bật.
Các kênh – Đại diện bởi channel_labels phần tử, nó chứa văn bản và các định dạng được chia thành từng mục của bản ghi, được nhóm theo kênh. Nó chỉ khả dụng khi tính năng đa kênh được bật.
Mặt hàng – Đại diện bởi items phần tử, nó chỉ chứa định dạng được chia thành từng khoản của bản ghi. Trong các tình huống nhiều loa, đa kênh, các mục được bổ sung thêm các thuộc tính bổ sung, biểu thị loa và kênh.
Phân đoạn – Đại diện bởi segments phần tử, nó chứa văn bản và các định dạng được chia thành từng mục của bản ghi, được nhóm theo bản ghi thay thế. Nó chỉ khả dụng khi tính năng kết quả thay thế được bật.

Kết luận

Tại AWS, chúng tôi không ngừng đổi mới thay mặt cho khách hàng của mình. Bằng cách mở rộng hỗ trợ ngôn ngữ trong Amazon Transcribe sang hơn 100 ngôn ngữ, chúng tôi cho phép khách hàng của mình phục vụ người dùng từ nhiều nền tảng ngôn ngữ khác nhau. Điều này không chỉ nâng cao khả năng tiếp cận mà còn mở ra những con đường mới để liên lạc và trao đổi thông tin trên quy mô toàn cầu. Để tìm hiểu thêm về các tính năng được thảo luận trong bài đăng này, hãy xem trang tính năng và bài viết mới có gì.

Giới thiệu về tác giả

Sumit Kumar là Giám đốc sản phẩm chính, Kỹ thuật tại nhóm Dịch vụ ngôn ngữ AI của AWS. Anh ấy có 10 năm kinh nghiệm quản lý sản phẩm trên nhiều lĩnh vực khác nhau và đam mê AI/ML. Ngoài công việc, Sumit thích đi du lịch và chơi cricket và quần vợt sân cỏ.

Amazon Transcribe công bố hệ thống ASR dựa trên mô hình nền tảng giọng nói mới, mở rộng hỗ trợ tới hơn 100 ngôn ngữ | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái. Vivek Singh là Giám đốc cấp cao, Quản lý sản phẩm tại nhóm Dịch vụ ngôn ngữ AI của AWS. Ông lãnh đạo nhóm sản phẩm Amazon Transcribe. Trước khi gia nhập AWS, ông giữ vai trò quản lý sản phẩm tại nhiều tổ chức khác của Amazon như thanh toán tiêu dùng và bán lẻ. Vivek sống ở Seattle, WA và thích chạy bộ cũng như đi bộ đường dài.