AI mới của Microsoft có thể sao chép giọng nói của bạn chỉ trong 3 giây

Được xuất bản lại bởi Plato

Người theo dõi: 0

AI mới của Microsoft có thể sao chép giọng nói của bạn chỉ trong 3 giây Trí tuệ dữ liệu PlatoBlockchain. Tìm kiếm dọc. Ái.

AI đang được sử dụng để tạo ra mọi thứ từ hình ảnh đến văn bản đến protein nhân tạo, và bây giờ một thứ khác đã được thêm vào danh sách: lời nói. Tuần trước các nhà nghiên cứu từ Microsoft phát hành một bài báo trên một AI mới có tên là VALL-E có thể mô phỏng chính xác giọng nói của bất kỳ ai dựa trên một đoạn mẫu chỉ dài ba giây. VALL-E không phải là trình giả lập giọng nói đầu tiên được tạo, nhưng nó được xây dựng theo một cách khác so với những người tiền nhiệm của nó—và có thể mang lại nhiều rủi ro hơn cho việc sử dụng sai mục đích tiềm ẩn.

Hầu hết các mô hình chuyển văn bản thành giọng nói hiện tại đều sử dụng dạng sóng (biểu diễn bằng đồ họa của sóng âm thanh khi chúng di chuyển qua một phương tiện theo thời gian) để tạo giọng nói giả, điều chỉnh các đặc điểm như âm sắc hoặc cao độ để gần đúng với một giọng nói nhất định. Tuy nhiên, VALL-E lấy một mẫu giọng nói của ai đó và chia nó thành các thành phần gọi là mã thông báo, sau đó sử dụng các mã thông báo đó để tạo âm thanh mới dựa trên “quy tắc” mà nó đã học được về giọng nói này. Nếu một giọng nói đặc biệt trầm hoặc một người nói phát âm chữ A của họ theo cách giọng mũi, hoặc giọng họ đều đều hơn mức trung bình, thì đây đều là những đặc điểm mà AI sẽ tiếp thu và có thể sao chép.

Mô hình này dựa trên một công nghệ gọi là Mã hóa bởi Meta, vừa được phát hành vào tháng 10 này. Công cụ này sử dụng hệ thống ba phần để nén âm thanh nhỏ hơn 3 lần so với MPXNUMX mà không làm giảm chất lượng; những người tạo ra nó có nghĩa là một trong những mục đích sử dụng của nó là cải thiện chất lượng giọng nói và âm nhạc trong các cuộc gọi được thực hiện qua kết nối băng thông thấp.

Để đào tạo VALL-E, những người tạo ra nó đã sử dụng thư viện âm thanh có tên Thư việnÁnh sáng, người có 60,000 giờ nói tiếng Anh chủ yếu được tạo thành từ lời tường thuật của sách nói. Mô hình mang lại kết quả tốt nhất khi giọng nói được tổng hợp tương tự như một trong những giọng nói từ thư viện đào tạo (trong đó có hơn 7,000 giọng nói, vì vậy không nên quá nhiều thứ tự).

Bên cạnh việc tái tạo giọng nói của ai đó, VALL-E cũng mô phỏng môi trường âm thanh từ mẫu ba giây. Đoạn clip được ghi lại qua điện thoại sẽ có âm thanh khác với đoạn video được quay trực tiếp và nếu bạn đang đi bộ hoặc lái xe trong khi nói chuyện thì âm thanh độc đáo của các tình huống đó sẽ được tính đến.

Một số mẫu âm thanh khá chân thực, trong khi những âm thanh khác rõ ràng vẫn do máy tính tạo ra. Nhưng có sự khác biệt đáng chú ý giữa các giọng nói; bạn có thể biết chúng dựa trên những người có phong cách nói, cao độ và ngữ điệu khác nhau.

Nhóm tạo ra VALL-E biết rằng nó có thể rất dễ bị lợi dụng bởi những kẻ xấu; từ giả mạo âm thanh của các chính trị gia hoặc người nổi tiếng đến việc sử dụng giọng nói quen thuộc để yêu cầu tiền hoặc thông tin qua điện thoại, có vô số cách để tận dụng lợi thế của công nghệ. Họ đã khôn ngoan kiềm chế không công khai mã của VALL-E và bao gồm một tuyên bố về đạo đức ở cuối bài báo của họ (điều này sẽ không làm được gì nhiều để ngăn chặn bất kỳ ai muốn sử dụng AI cho mục đích bất chính).

Việc các công cụ tương tự xuất hiện và rơi vào tay kẻ xấu chỉ là vấn đề thời gian. Các nhà nghiên cứu đề xuất những rủi ro mà các mô hình như VALL-E sẽ gây ra có thể được giảm thiểu bằng cách xây dựng các mô hình phát hiện để đánh giá xem các đoạn âm thanh là thật hay được tổng hợp. Nếu chúng ta cần AI để bảo vệ chúng ta khỏi AI, làm thế nào để biết liệu những công nghệ này có tác động tích cực thực sự hay không? Thời gian sẽ trả lời.

Ảnh: Shutterstock.com/tancha

Phân phối nội dung và PR được hỗ trợ bởi SEO. Được khuếch đại ngay hôm nay.
Platoblockchain. Web3 Metaverse Intelligence. Khuếch đại kiến thức. Truy cập Tại đây.
nguồn: https://singularityhub.com/2023/01/12/microsofts-new-ai-can-clone-your-voice-in-just-3-seconds/

Dấu thời gian: 12 Tháng một, 2023

Dấu thời gian: Tháng Hai 17, 2024

Trí tuệ nhân tạo mới của Microsoft có thể sao chép giọng nói của bạn chỉ trong 3 giây

Được xuất bản lại bởi Plato

Thêm từ Trung tâm cá biệt

Đo lường Helium trong các thiên hà xa xôi có thể giúp các nhà vật lý hiểu rõ hơn về lý do tại sao vũ trụ tồn tại

Các khối xây dựng của sự sống có thể hình thành trong quá trình phun nước biển nguyên thủy

Báo cáo của IEA cho biết xung đột Ukraine khiến thế giới chạy đua với năng lượng tái tạo

Chỉnh sửa gen CRISPR đã có một năm đột phá — và nó chỉ mới bắt đầu

Làm thế nào nghiên cứu về tình cảm của động vật có thể giúp giải câu đố đạo đức của AI có tình cảm

Bắn bụi mặt trăng vào không gian như một 'kem chống nắng' cho trái đất có thể giúp ngăn chặn biến đổi khí hậu

Những chiếc xe không người lái của Waymo đang tấn công những người lái xe an toàn trên đường cao tốc ở Arizona

AI này có thể thiết kế các protein phức tạp phù hợp hoàn hảo với nhu cầu của chúng ta

Công ty khởi nghiệp do Gates hậu thuẫn này xây dựng những ngôi nhà mô-đun từ các tấm tiết kiệm năng lượng

AI mới tí hon của NVIDIA biến ảnh thành cảnh 3D đầy đủ chỉ trong vài giây

Về chúng tôi

Tìm kiếm dọc & Ai

Nền tảng

NHẬN THÔNG TIN

Tài khoản