AI đang được sử dụng để tạo ra mọi thứ từ hình ảnh đến văn bản đến protein nhân tạo, và bây giờ một thứ khác đã được thêm vào danh sách: lời nói. Tuần trước các nhà nghiên cứu từ Microsoft phát hành một bài báo trên một AI mới có tên là VALL-E có thể mô phỏng chính xác giọng nói của bất kỳ ai dựa trên một đoạn mẫu chỉ dài ba giây. VALL-E không phải là trình giả lập giọng nói đầu tiên được tạo, nhưng nó được xây dựng theo một cách khác so với những người tiền nhiệm của nó—và có thể mang lại nhiều rủi ro hơn cho việc sử dụng sai mục đích tiềm ẩn.
Hầu hết các mô hình chuyển văn bản thành giọng nói hiện tại đều sử dụng dạng sóng (biểu diễn bằng đồ họa của sóng âm thanh khi chúng di chuyển qua một phương tiện theo thời gian) để tạo giọng nói giả, điều chỉnh các đặc điểm như âm sắc hoặc cao độ để gần đúng với một giọng nói nhất định. Tuy nhiên, VALL-E lấy một mẫu giọng nói của ai đó và chia nó thành các thành phần gọi là mã thông báo, sau đó sử dụng các mã thông báo đó để tạo âm thanh mới dựa trên “quy tắc” mà nó đã học được về giọng nói này. Nếu một giọng nói đặc biệt trầm hoặc một người nói phát âm chữ A của họ theo cách giọng mũi, hoặc giọng họ đều đều hơn mức trung bình, thì đây đều là những đặc điểm mà AI sẽ tiếp thu và có thể sao chép.
Mô hình này dựa trên một công nghệ gọi là Mã hóa bởi Meta, vừa được phát hành vào tháng 10 này. Công cụ này sử dụng hệ thống ba phần để nén âm thanh nhỏ hơn 3 lần so với MPXNUMX mà không làm giảm chất lượng; những người tạo ra nó có nghĩa là một trong những mục đích sử dụng của nó là cải thiện chất lượng giọng nói và âm nhạc trong các cuộc gọi được thực hiện qua kết nối băng thông thấp.
Để đào tạo VALL-E, những người tạo ra nó đã sử dụng thư viện âm thanh có tên Thư việnÁnh sáng, người có 60,000 giờ nói tiếng Anh chủ yếu được tạo thành từ lời tường thuật của sách nói. Mô hình mang lại kết quả tốt nhất khi giọng nói được tổng hợp tương tự như một trong những giọng nói từ thư viện đào tạo (trong đó có hơn 7,000 giọng nói, vì vậy không nên quá nhiều thứ tự).
Bên cạnh việc tái tạo giọng nói của ai đó, VALL-E cũng mô phỏng môi trường âm thanh từ mẫu ba giây. Đoạn clip được ghi lại qua điện thoại sẽ có âm thanh khác với đoạn video được quay trực tiếp và nếu bạn đang đi bộ hoặc lái xe trong khi nói chuyện thì âm thanh độc đáo của các tình huống đó sẽ được tính đến.
Một số mẫu âm thanh khá chân thực, trong khi những âm thanh khác rõ ràng vẫn do máy tính tạo ra. Nhưng có sự khác biệt đáng chú ý giữa các giọng nói; bạn có thể biết chúng dựa trên những người có phong cách nói, cao độ và ngữ điệu khác nhau.
Nhóm tạo ra VALL-E biết rằng nó có thể rất dễ bị lợi dụng bởi những kẻ xấu; từ giả mạo âm thanh của các chính trị gia hoặc người nổi tiếng đến việc sử dụng giọng nói quen thuộc để yêu cầu tiền hoặc thông tin qua điện thoại, có vô số cách để tận dụng lợi thế của công nghệ. Họ đã khôn ngoan kiềm chế không công khai mã của VALL-E và bao gồm một tuyên bố về đạo đức ở cuối bài báo của họ (điều này sẽ không làm được gì nhiều để ngăn chặn bất kỳ ai muốn sử dụng AI cho mục đích bất chính).
Việc các công cụ tương tự xuất hiện và rơi vào tay kẻ xấu chỉ là vấn đề thời gian. Các nhà nghiên cứu đề xuất những rủi ro mà các mô hình như VALL-E sẽ gây ra có thể được giảm thiểu bằng cách xây dựng các mô hình phát hiện để đánh giá xem các đoạn âm thanh là thật hay được tổng hợp. Nếu chúng ta cần AI để bảo vệ chúng ta khỏi AI, làm thế nào để biết liệu những công nghệ này có tác động tích cực thực sự hay không? Thời gian sẽ trả lời.
Ảnh: Shutterstock.com/tancha
- Phân phối nội dung và PR được hỗ trợ bởi SEO. Được khuếch đại ngay hôm nay.
- Platoblockchain. Web3 Metaverse Intelligence. Khuếch đại kiến thức. Truy cập Tại đây.
- nguồn: https://singularityhub.com/2023/01/12/microsofts-new-ai-can-clone-your-voice-in-just-3-seconds/
- 000
- 10
- 7
- a
- Có khả năng
- Giới thiệu
- Tài khoản
- chính xác
- thêm
- Lợi thế
- AI
- Tất cả
- Đã
- và
- Một
- bất kỳ ai
- âm thanh
- có sẵn
- Trung bình cộng
- Bad
- dựa
- trước
- được
- BEST
- giữa
- nghỉ giải lao
- Xây dựng
- xây dựng
- gọi là
- Cuộc gọi
- mang
- người nổi tiếng
- đặc điểm
- clip
- mã
- các thành phần
- máy tính tạo ra
- Kết nối
- có thể
- tạo
- tạo ra
- người sáng tạo
- tín dụng
- sâu
- Phát hiện
- sự khác biệt
- khác nhau
- xuống
- lái xe
- dễ dàng
- Tiếng Anh
- Môi trường
- đạo đức
- tất cả mọi thứ
- hiện tại
- khá
- giả mạo
- Rơi
- quen
- Tên
- từ
- tạo ra
- GitHub
- được
- lớn hơn
- Tay bài
- có
- GIỜ LÀM VIỆC
- Độ đáng tin của
- HTTPS
- Va chạm
- cải thiện
- in
- bao gồm
- thông tin
- IT
- Biết
- Họ
- học
- Thư viện
- Có khả năng
- Danh sách
- dài
- sự mất
- thực hiện
- Làm
- chất
- trung bình
- kiểu mẫu
- mô hình
- tiền
- chi tiết
- di chuyển
- Âm nhạc
- Cần
- net
- Mới
- Tháng Mười
- ONE
- gọi món
- Khác
- Giấy
- một phần
- đặc biệt
- mô hình
- người
- người
- điện thoại
- chọn
- Pitch
- nốt
- plato
- Thông tin dữ liệu Plato
- PlatoDữ liệu
- Các chính trị gia
- tích cực
- tiềm năng
- trình bày
- chủ yếu
- bảo vệ
- công khai
- mục đích
- chất lượng
- thực
- thực tế
- ghi lại
- phát hành
- yêu cầu
- nhà nghiên cứu
- Kết quả
- Nguy cơ
- rủi ro
- kịch bản
- giây
- shutterstock
- tương tự
- mô phỏng
- nhỏ hơn
- So
- âm thanh
- Loa
- nói
- phát biểu
- mùa xuân
- Tuyên bố
- Vẫn còn
- hệ thống
- Hãy
- mất
- nói
- nhóm
- Công nghệ
- Công nghệ
- Text-to-Speech
- Sản phẩm
- cung cấp their dịch
- điều
- số ba
- Thông qua
- thời gian
- thời gian
- đến
- Tokens
- TẤN
- quá
- công cụ
- công cụ
- Train
- Hội thảo
- tinh chỉnh
- độc đáo
- us
- sử dụng
- Giọng nói
- VOICE
- đi bộ
- sóng biển
- cách
- tuần
- liệu
- cái nào
- trong khi
- CHÚNG TÔI LÀ
- sẽ
- sẽ
- Sai
- tay sai
- sản lượng
- Bạn
- trên màn hình
- zephyrnet