Khoa học đằng sau cách AI của Microsoft có thể bắt chước giọng nói của bất kỳ ai trong 3 giây

Khoa học đằng sau cách AI của Microsoft có thể bắt chước giọng nói của bất kỳ ai trong 3 giây

Khoa học đằng sau cách AI của Microsoft có thể bắt chước giọng nói của bất kỳ ai trong 3 giây Trí tuệ dữ liệu PlatoBlockchain. Tìm kiếm dọc. Ái.

Bạn có thể hiểu các chương trình trí tuệ nhân tạo (AI) đang trở nên mạnh mẽ như thế nào. Họ đang bắt chước nghệ thuật của những người vĩ đại và viết kịch bản cho các nhà lãnh đạo toàn cầu, gây ra các cuộc trò chuyện toàn cầu xung quanh việc mở rộng nhanh chóng các công cụ AI.

Gần đây nhất, Microsoft đã phát triển một AI để bắt chước giọng nói. Hiệu quả và độ chính xác của nó là đột phá, tuy nhiên người dùng đặt câu hỏi về mục đích và việc sử dụng nó. Công cụ này hoạt động như thế nào và làm thế nào để nó tái tạo giọng nói trong một khoảng thời gian ngắn như vậy?

Gặp gỡ VALL-E

VALL-E là AI học cách tái tạo giọng nói trong vòng ba giây. VALL-E là một trong những chương trình đầu tiên được đào tạo nhanh như vậy, vì các chương trình chuyển văn bản thành giọng nói (TTS) trước đó gặp khó khăn về hiệu quả và sắc thái của âm thanh. 

“Tuy nhiên, VALL-E cải thiện nghiên cứu cho nghiên cứu này về mọi mặt, giảm thời gian đào tạo và tăng độ chính xác của chất lượng giọng nói phức tạp như âm sắc và nhịp độ.” 

Một trong những mục tiêu của VALL-E là tái tạo các chi tiết các chương trình TTS trước đây không thểvà các thử nghiệm cho thấy kết quả khác nhau đối với mô hình hiện tại. Để có tính xác thực, một chương trình như thế này không thể chỉ sao chép giọng nói của một người — chương trình này phải sao chép chất lượng âm thanh của thiết bị ghi âm và các ảnh hưởng của môi trường nền như tĩnh hoặc tiếng ồn. Mặc dù các nhà nghiên cứu vẫn bị ấn tượng bởi chất lượng tái tạo của nó, nhưng Microsoft vẫn tìm kiếm những cải tiến hơn nữa trong việc mài giũa âm sắc và các biến tố thông báo cảm xúc.

Vì VALL-E chưa có sẵn công khai nên không chắc nó sẽ hoạt động như thế nào trên quy mô lớn hơn. Microsoft đang dành thời gian, tinh chỉnh nó trước khi phát hành công khai để đảm bảo việc sử dụng phù hợp. 

Vì VALL-E hoạt động với việc lấy mẫu giọng nói tối thiểu nên không chắc nó sẽ tạo ra các đoạn âm thanh dài hơn với sự gắn kết tốt như thế nào. Bộ dữ liệu AI và máy học có gần như vô số điểm dữ liệu để xem xét. Sẽ là một bước nhảy vọt trong tương lai của AI nếu Microsoft hoàn thiện việc sao chép giọng nói với một hệ quy chiếu nhỏ như vậy. 

Biết khoa học

VALL-E thành công trong mục đích của nó vì nó kết hợp tốt với công nghệ hiện có. Ví dụ, GPT-3 vẫn sử dụng các mô hình xử lý ngôn ngữ để hoàn thiện khả năng tạo TTS của nó để sản xuất rõ ràng và chỉnh sửa chính xác. Tuy nhiên, các mô hình khác thao túng tập dữ liệu của họ để tạo nội dung mới. VALL-E tạo nội dung gốc.

Phối hợp với Meta, Microsoft sử dụng EnCodec và LibriLight để thông báo cho VALL-E. EnCodec là một mạng thần kinh nén âm thanh có khả năng phân biệt ngay cả những thay đổi nhỏ nhất trong âm thanh. LibriLight là một thư viện âm thanh chứa hơn 60,000 giờ của các tệp nói tiếng Anh từ nhiều giọng nói khác nhau. 

“Với những sức mạnh này, VALL-E có thể lấy đoạn âm thanh dài ba giây, biến nó thành một mã thông báo mà EnCodec có thể phân tích và tham chiếu nó đến dữ liệu của thư viện để tạo ra các bản sao giọng hát có âm thanh chân thực. Bởi vì EnCodec tạo các tệp ở tốc độ bit thấp, nên quá trình tạo nhanh hơn các mô hình khác cùng loại.” 

Một trình tự như thế này sẽ tạo ra các đoạn âm thanh có âm thanh tự nhiên hơn, có khả năng đánh lừa cả công nghệ nhận dạng giọng nói hoặc tai được đào tạo bài bản nhất.

Tiềm năng của điều này để hỗ trợ các ngành công nghiệp là không thể định lượng được. Nó có thể tăng hiệu quả và năng suất trong khi giảm bớt căng thẳng trong mọi lĩnh vực, không chỉ truyền thông. Tuy nhiên, nó có một cơ hội như nhau để làm trầm trọng thêm hoạt động tội phạm trong không gian kỹ thuật số, bên cạnh những hậu quả khác.

Tham gia đối thoại

Như với hầu hết các tiến bộ của AI, các mối quan tâm về đạo đức cũng xuất hiện. Như với bất kỳ việc tạo văn bản nào, AI hoạt động từ dữ liệu — do đó, đạo văn sẽ luôn được cân nhắc. Tuy nhiên, VALL-E tham khảo các nguồn không có bản quyền, vì vậy đây chưa phải là mối quan tâm chính.

Tuy nhiên, Microsoft cũng phải cảnh giác với việc công chúng sử dụng công nghệ như thế này cho các mục đích thù địch, chẳng hạn như lan truyền tin tức giả mạo hoặc điều tra lộn xộn với lời khai sai — có thể từ các nhân chứng không còn sống. Các ngành cụ thể, như luật, sẽ phải phát minh ra các chính sách và cấu trúc mới về làm thế nào để gặp deepfakes trong phòng xử án.

“Như với bất kỳ tiến bộ công nghệ nào, việc sử dụng sai mục đích không chỉ có thể xảy ra — đó là điều không thể tránh khỏi.” 

Ngoài mối đe dọa đánh cắp tài sản sáng tạo hoặc danh tính, AI tạo giọng nói thành thạo có thể đe dọa sinh kế của một số ngành nghề hoặc loại bỏ chuyên môn nghệ thuật và chuyên môn khỏi các ngành trước đây phụ thuộc vào nhiều năm dành riêng cho nghề thủ công.

Diễn viên lồng tiếng, người viết diễn văn và đại diện dịch vụ khách hàng đều có thể trở nên lỗi thời với khả năng bắt chước giọng nói của AI. Khả năng của điều này là chưa biết và có khả năng không thể thực hiện được một cách nhanh chóng, toàn diện. Kết quả có thể hình dung được là khả năng bắt chước giọng nói sẽ bổ sung cho các ngành này thay vì thay thế chúng. Tạo giọng nói AI có thể giúp hình thành ý tưởng hoặc đóng vai trò như một nhân viên khác để ủy thác nhiệm vụ, giảm tải cho nhân viên con người.

Bắt đầu nói về các điều khoản với AI tái tạo giọng nói

Bất chấp những lo ngại về đạo đức với AI tái tạo giọng nói, Microsoft đang đổi mới một công cụ tiến bộ, hữu ích cho thế hệ mới — tùy thuộc vào cách công chúng sử dụng nó. Khoa học đằng sau công cụ này là khía cạnh mang tính cách mạng nhất và nó có thể cung cấp thông tin cho các kỹ sư và nhà phát triển cách mở rộng và biến đổi AI cho các ứng dụng trong tương lai trong tất cả các lĩnh vực. 

Công nghệ được triển khai với VALL-E có thể chuyển thành những thay đổi về tư duy cho ngành. Bản chất hợp tác của dự án này sẽ nâng cao khả năng tương tác và phát triển AI sang một thời đại mới về độ chính xác và hiệu quả.

Ngoài ra, đọc Lalal.AI để tách âm thanh chất lượng cao 

Dấu thời gian:

Thêm từ Công nghệ AIIOT