Phiên âm Amazon là dịch vụ nhận dạng giọng nói tự động (ASR) được quản lý hoàn toàn giúp bạn dễ dàng thêm khả năng chuyển giọng nói thành văn bản vào ứng dụng của mình. Hôm nay, chúng tôi vui mừng thông báo về hệ thống dựa trên mô hình nền tảng giọng nói nhiều tỷ tham số thế hệ tiếp theo giúp mở rộng khả năng nhận dạng giọng nói tự động lên hơn 100 ngôn ngữ. Trong bài đăng này, chúng tôi thảo luận về một số lợi ích của hệ thống này, cách các công ty đang sử dụng nó và cách bắt đầu. Chúng tôi cũng cung cấp một ví dụ về đầu ra phiên âm bên dưới.
Mô hình nền tảng giọng nói của Transcribe được đào tạo bằng các thuật toán tự giám sát tốt nhất để tìm hiểu các mẫu giọng nói phổ biến vốn có của con người qua các ngôn ngữ và giọng nói. Nó được đào tạo trên hàng triệu giờ dữ liệu âm thanh chưa được gắn nhãn từ hơn 100 ngôn ngữ. Công thức đào tạo được tối ưu hóa thông qua lấy mẫu dữ liệu thông minh để cân bằng dữ liệu đào tạo giữa các ngôn ngữ, đảm bảo rằng các ngôn ngữ truyền thống ít được trình bày cũng đạt mức độ chính xác cao.
Carbyne là một công ty phần mềm phát triển các giải pháp trung tâm liên lạc quan trọng, dựa trên nền tảng đám mây dành cho những người trả lời cuộc gọi khẩn cấp. Sứ mệnh của Carbyne là giúp những người ứng cứu khẩn cấp cứu mạng sống và ngôn ngữ không thể cản trở mục tiêu của họ. Đây là cách họ sử dụng Amazon Transcribe để theo đuổi sứ mệnh của mình:
“Dịch thuật âm thanh trực tiếp Carbyne được hỗ trợ bởi AI trực tiếp nhằm mục đích giúp cải thiện khả năng ứng phó khẩn cấp cho 68 triệu người Mỹ nói ngôn ngữ không phải tiếng Anh ở nhà, bên cạnh 79 triệu du khách nước ngoài đến đất nước này hàng năm. Bằng cách tận dụng mô hình nền tảng đa ngôn ngữ mới hỗ trợ ASR của Amazon Transcribe, Carbyne sẽ được trang bị tốt hơn nữa để dân chủ hóa các dịch vụ khẩn cấp cứu mạng, bởi vì Every. Người. Đếm.”
– Alex Dizengof, Đồng sáng lập và CTO của Carbyne.
Bằng cách tận dụng mô hình nền tảng giọng nói, Amazon Transcribe mang lại sự cải thiện đáng kể về độ chính xác từ 20% đến 50% trên hầu hết các ngôn ngữ. Đối với giọng nói qua điện thoại, một lĩnh vực đầy thách thức và khan hiếm dữ liệu, độ chính xác được cải thiện từ 30% đến 70%. Ngoài việc cải thiện đáng kể độ chính xác, mô hình ASR lớn này còn mang lại những cải tiến về khả năng đọc với dấu câu và cách viết hoa chính xác hơn. Với sự ra đời của AI tổng hợp, hàng nghìn doanh nghiệp đang sử dụng Amazon Transcribe để khai thác những thông tin chi tiết phong phú từ nội dung âm thanh của họ. Với độ chính xác được cải thiện đáng kể và khả năng hỗ trợ cho hơn 100 ngôn ngữ, Amazon Transcribe sẽ tác động tích cực đến tất cả các trường hợp sử dụng như vậy. Tất cả khách hàng hiện tại và khách hàng mới sử dụng Amazon Transcribe ở chế độ hàng loạt đều có thể truy cập tính năng nhận dạng giọng nói dựa trên mô hình nền tảng giọng nói mà không cần bất kỳ thay đổi nào đối với điểm cuối API hoặc tham số đầu vào.
Hệ thống ASR mới cung cấp một số tính năng chính trên tất cả hơn 100 ngôn ngữ liên quan đến tính dễ sử dụng, tùy chỉnh, an toàn cho người dùng và quyền riêng tư. Chúng bao gồm các tính năng như dấu câu tự động, từ vựng tùy chỉnh, nhận dạng ngôn ngữ tự động, ghi nhật ký của người nói, điểm tin cậy ở cấp độ từ và bộ lọc từ vựng tùy chỉnh. Khả năng hỗ trợ mở rộng của hệ thống cho các giọng, môi trường tiếng ồn và điều kiện âm thanh khác nhau cho phép bạn tạo ra đầu ra chính xác hơn và từ đó giúp bạn nhúng công nghệ giọng nói vào ứng dụng của mình một cách hiệu quả.
Được hỗ trợ bởi độ chính xác cao của Amazon Transcribe trên các giọng điệu và điều kiện tiếng ồn khác nhau, sự hỗ trợ của nó cho một số lượng lớn ngôn ngữ và nhiều bộ tính năng giá trị gia tăng, hàng nghìn doanh nghiệp sẽ được trao quyền để mở khóa những hiểu biết sâu sắc phong phú từ nội dung âm thanh của họ, cũng như tăng khả năng truy cập và khả năng khám phá nội dung âm thanh và video của họ trên nhiều miền khác nhau. Ví dụ: các trung tâm liên lạc ghi lại và phân tích các cuộc gọi của khách hàng để xác định thông tin chi tiết và sau đó cải thiện trải nghiệm của khách hàng cũng như năng suất của đại lý. Nhà sản xuất nội dung và nhà phân phối truyền thông tự động tạo phụ đề bằng Amazon Transcribe để cải thiện khả năng tiếp cận nội dung.
Bắt đầu với Amazon Transcribe
Bạn có thể sử dụng Giao diện dòng lệnh AWS (AWS CLI), Bảng điều khiển quản lý AWS, và nhiều AWS SDK để sao chép hàng loạt và tiếp tục sử dụng cùng một StartTranscriptionJob
API để nhận được lợi ích về hiệu suất từ mô hình ASR nâng cao mà không cần thực hiện bất kỳ thay đổi mã hoặc tham số nào từ phía bạn. Để biết thêm thông tin về cách sử dụng AWS CLI và bảng điều khiển, hãy tham khảo Phiên âm bằng AWS CLI và Phiên âm bằng Bảng điều khiển quản lý AWS, Tương ứng.
Bước đầu tiên là tải các tập tin media của bạn lên một Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3), một dịch vụ lưu trữ đối tượng được xây dựng để lưu trữ và truy xuất mọi lượng dữ liệu từ mọi nơi. Amazon S3 mang lại độ bền, độ khả dụng, hiệu suất, bảo mật hàng đầu trong ngành và khả năng mở rộng gần như không giới hạn với chi phí rất thấp. Bạn có thể chọn lưu bản chép lời vào bộ chứa S3 của riêng mình hoặc yêu cầu Amazon Transcribe sử dụng bộ chứa mặc định an toàn. Để tìm hiểu thêm về cách sử dụng nhóm S3, hãy xem Tạo, đặt cấu hình và làm việc với bộ chứa Amazon S3.
Đầu ra phiên âm
Amazon Transcribe sử dụng biểu diễn JSON cho đầu ra của nó. Nó cung cấp kết quả phiên âm ở hai định dạng khác nhau: định dạng văn bản và định dạng chia thành từng khoản. Không có gì thay đổi liên quan đến điểm cuối API hoặc tham số đầu vào.
Định dạng văn bản cung cấp bản ghi dưới dạng một khối văn bản, trong khi định dạng chia thành từng mục cung cấp bản ghi dưới dạng các mục được sao chép theo thứ tự kịp thời, cùng với siêu dữ liệu bổ sung cho mỗi mục. Cả hai định dạng đều tồn tại song song trong tệp đầu ra.
Tùy thuộc vào các tính năng bạn chọn khi tạo tác vụ chép lời, Amazon Transcribe tạo ra các chế độ xem bổ sung và phong phú hơn về kết quả chép lời. Xem mã ví dụ sau:
Các quan điểm như sau:
- Học bạ, bảng điểm – Đại diện bởi
transcripts
phần tử, nó chỉ chứa định dạng văn bản của bản ghi. Trong trường hợp nhiều người nói, đa kênh, việc ghép tất cả các bản ghi được cung cấp dưới dạng một khối duy nhất. - Diễn giả – Đại diện bởi
speaker_labels
phần tử, nó chứa văn bản và các định dạng được chia thành từng mục của bản ghi được nhóm theo người nói. Nó chỉ khả dụng khi tính năng nhiều loa được bật. - Các kênh – Đại diện bởi
channel_labels
phần tử, nó chứa văn bản và các định dạng được chia thành từng mục của bản ghi, được nhóm theo kênh. Nó chỉ khả dụng khi tính năng đa kênh được bật. - Mặt hàng – Đại diện bởi
items
phần tử, nó chỉ chứa định dạng được chia thành từng khoản của bản ghi. Trong các tình huống nhiều loa, đa kênh, các mục được bổ sung thêm các thuộc tính bổ sung, biểu thị loa và kênh. - Phân đoạn – Đại diện bởi
segments
phần tử, nó chứa văn bản và các định dạng được chia thành từng mục của bản ghi, được nhóm theo bản ghi thay thế. Nó chỉ khả dụng khi tính năng kết quả thay thế được bật.
Kết luận
Tại AWS, chúng tôi không ngừng đổi mới thay mặt cho khách hàng của mình. Bằng cách mở rộng hỗ trợ ngôn ngữ trong Amazon Transcribe sang hơn 100 ngôn ngữ, chúng tôi cho phép khách hàng của mình phục vụ người dùng từ nhiều nền tảng ngôn ngữ khác nhau. Điều này không chỉ nâng cao khả năng tiếp cận mà còn mở ra những con đường mới để liên lạc và trao đổi thông tin trên quy mô toàn cầu. Để tìm hiểu thêm về các tính năng được thảo luận trong bài đăng này, hãy xem trang tính năng và bài viết mới có gì.
Giới thiệu về tác giả
Sumit Kumar là Giám đốc sản phẩm chính, Kỹ thuật tại nhóm Dịch vụ ngôn ngữ AI của AWS. Anh ấy có 10 năm kinh nghiệm quản lý sản phẩm trên nhiều lĩnh vực khác nhau và đam mê AI/ML. Ngoài công việc, Sumit thích đi du lịch và chơi cricket và quần vợt sân cỏ.
Vivek Singh là Giám đốc cấp cao, Quản lý sản phẩm tại nhóm Dịch vụ ngôn ngữ AI của AWS. Ông lãnh đạo nhóm sản phẩm Amazon Transcribe. Trước khi gia nhập AWS, ông giữ vai trò quản lý sản phẩm tại nhiều tổ chức khác của Amazon như thanh toán tiêu dùng và bán lẻ. Vivek sống ở Seattle, WA và thích chạy bộ cũng như đi bộ đường dài.
- Phân phối nội dung và PR được hỗ trợ bởi SEO. Được khuếch đại ngay hôm nay.
- PlatoData.Network Vertical Generative Ai. Trao quyền cho chính mình. Truy cập Tại đây.
- PlatoAiStream. Thông minh Web3. Kiến thức khuếch đại. Truy cập Tại đây.
- Trung tâmESG. Than đá, công nghệ sạch, Năng lượng, Môi trường Hệ mặt trời, Quản lý chất thải. Truy cập Tại đây.
- PlatoSức khỏe. Tình báo thử nghiệm lâm sàng và công nghệ sinh học. Truy cập Tại đây.
- nguồn: https://aws.amazon.com/blogs/machine-learning/amazon-transcribe-announces-a-new-speech-foundation-model-powered-asr-system-that-expands-support-to-over-100-languages/
- : có
- :là
- :không phải
- $ LÊN
- 10
- 100
- 14
- 24
- 7
- a
- Giới thiệu
- truy cập
- khả năng tiếp cận
- chính xác
- chính xác
- ngang qua
- thêm vào
- Ngoài ra
- thêm vào
- sự xuất hiện
- Đại lý
- AI
- AI / ML
- nhằm vào
- alex
- thuật toán
- Tất cả
- dọc theo
- Ngoài ra
- thay thế
- đàn bà gan dạ
- Phiên âm Amazon
- Amazon Web Services
- Mỹ
- số lượng
- an
- phân tích
- và
- Thông báo
- thông báo
- Hàng năm
- bất kì
- bất cứ nơi nào
- api
- các ứng dụng
- LÀ
- AS
- At
- âm thanh
- Tự động
- tự động
- sẵn có
- có sẵn
- đại lộ
- AWS
- nền
- Cân đối
- BE
- bởi vì
- thay mặt
- phía dưới
- Lợi ích
- Hơn
- giữa
- Chặn
- cả hai
- bề rộng
- xây dựng
- nhưng
- by
- cuộc gọi
- Cuộc gọi
- CAN
- khả năng
- viết hoa
- trường hợp
- Trung tâm
- Trung tâm
- thách thức
- thay đổi
- Những thay đổi
- Kênh
- kênh
- kiểm tra
- Chọn
- Đồng sáng lập
- mã
- Giao tiếp
- Các công ty
- công ty
- Hoàn thành
- điều kiện
- sự tự tin
- cấu hình
- An ủi
- liên tục
- người tiêu dùng
- liên lạc
- trung tâm liên lạc
- chứa
- nội dung
- tiếp tục
- Phí Tổn
- đất nước
- tạo ra
- Tạo
- dế
- CTO
- khách hàng
- khách hàng
- kinh nghiệm khach hang
- khách hàng
- tùy biến
- dữ liệu
- Mặc định
- cung cấp
- dân chủ hóa
- phát triển
- khác nhau
- trực tiếp
- thảo luận
- thảo luận
- nhà phân phối
- khác nhau
- miền
- lĩnh vực
- Độ bền
- dễ dàng
- dễ sử dụng
- hiệu quả
- hay
- thành phần
- nhúng
- trường hợp khẩn cấp
- trao quyền
- cho phép
- kích hoạt
- cho phép
- cuối
- Điểm cuối
- Tiếng Anh
- nâng cao
- Nâng cao
- Làm giàu
- đảm bảo
- doanh nghiệp
- môi trường
- đã trang bị
- Ngay cả
- Mỗi
- ví dụ
- Sàn giao dịch
- tồn tại
- hiện tại
- mở rộng
- mở rộng
- kinh nghiệm
- mở rộng
- Đặc tính
- Tính năng
- Tập tin
- Các tập tin
- lọc
- Tên
- tiếp theo
- sau
- Trong
- nước ngoài
- hình thức
- định dạng
- Nền tảng
- từ
- đầy đủ
- tạo ra
- thế hệ
- Trí tuệ nhân tạo
- được
- Toàn cầu
- quy mô toàn cầu
- Các mục tiêu
- vui mừng
- Có
- he
- Được tổ chức
- giúp đỡ
- giúp đỡ
- giúp
- tại đây
- hi
- Cao
- Trang Chủ
- GIỜ LÀM VIỆC
- Độ đáng tin của
- Hướng dẫn
- HTML
- http
- HTTPS
- Nhân loại
- Xác định
- xác định
- Va chạm
- nâng cao
- cải thiện
- cải thiện
- cải tiến
- in
- bao gồm
- Tăng lên
- đầu ngành
- thông tin
- vốn có
- đổi mới
- đầu vào
- những hiểu biết
- ví dụ
- trong
- IT
- mặt hàng
- ITS
- Việc làm
- tham gia
- jpg
- json
- Key
- Ngôn ngữ
- Ngôn ngữ
- lớn
- Dẫn
- LEARN
- niveaux
- tận dụng
- Dòng
- sống
- cuộc sống
- yêu
- Thấp
- làm cho
- LÀM CHO
- quản lý
- quản lý
- giám đốc
- Phương tiện truyền thông
- Siêu dữ liệu
- triệu
- hàng triệu
- Sứ mệnh
- Chế độ
- kiểu mẫu
- chi tiết
- hầu hết
- cần
- Mới
- thế hệ kế tiếp
- Tiếng ồn
- không
- con số
- vật
- of
- Cung cấp
- on
- có thể
- mở ra
- tối ưu hóa
- or
- tổ chức
- Nền tảng khác
- vfoXNUMXfipXNUMXhfpiXNUMXufhpiXNUMXuf
- ra
- đầu ra
- kết quả đầu ra
- bên ngoài
- kết thúc
- riêng
- Song song
- tham số
- thông số
- đam mê
- mô hình
- thanh toán
- mỗi
- hiệu suất
- người
- plato
- Thông tin dữ liệu Plato
- PlatoDữ liệu
- chơi
- tích cực
- Bài đăng
- -
- Hiệu trưởng
- Trước khi
- riêng tư
- sản xuất
- Các nhà sản xuất
- Sản phẩm
- quản lý sản phẩm
- giám đốc sản xuất
- năng suất
- tài sản
- cho
- cung cấp
- cung cấp
- theo đuổi
- đạt
- công nhận
- xem
- liên quan
- đại diện
- đại diện
- tôn trọng
- tương ứng
- phản ứng
- kết quả
- Kết quả
- bán lẻ
- Giàu
- vai trò
- chạy
- Sự An Toàn
- tương tự
- Lưu
- khả năng mở rộng
- Quy mô
- kịch bản
- Seattle
- an toàn
- an ninh
- xem
- phân đoạn
- chọn
- cao cấp
- phục vụ
- dịch vụ
- DỊCH VỤ
- bộ
- một số
- có ý nghĩa
- đáng kể
- Đơn giản
- duy nhất
- thông minh
- Phần mềm
- Giải pháp
- một số
- nói
- Loa
- diễn giả
- phát biểu
- Speech Recognition
- chuyển lời nói thành văn bản
- bắt đầu
- Trạng thái
- Bước
- là gắn
- hàng
- đơn giản
- Sau đó
- đáng kể
- phụ đề
- như vậy
- hỗ trợ
- hệ thống
- nhóm
- Kỹ thuật
- Công nghệ
- văn bản
- hơn
- việc này
- Sản phẩm
- cung cấp their dịch
- bằng cách ấy
- Kia là
- họ
- điều này
- hàng ngàn
- Thông qua
- hợp thời
- đến
- bây giờ
- theo truyền thống
- đào tạo
- Hội thảo
- Bảng điểm
- Dịch
- đi du lịch
- hai
- phổ cập
- vô hạn
- mở khóa
- sử dụng
- người sử dang
- Người sử dụng
- sử dụng
- sử dụng
- nhiều
- khác nhau
- rất
- Video
- Lượt xem
- hầu như
- du khách
- Giọng nói
- Đường..
- we
- web
- các dịch vụ web
- chào mừng
- TỐT
- khi nào
- trong khi
- cái nào
- CHÚNG TÔI LÀ
- sẽ
- với
- không có
- Công việc
- đang làm việc
- năm
- Bạn
- trên màn hình
- zephyrnet