'Công cụ giọng nói' mới từ OpenAI chỉ cần 15 giây để sao chép giọng nói - Giải mã

'Công cụ giọng nói' mới từ OpenAI chỉ cần 15 giây để sao chép giọng nói – Giải mã

'Công cụ giọng nói' mới từ OpenAI chỉ cần 15 giây để sao chép giọng nói - Giải mã trí thông minh dữ liệu PlatoBlockchain. Tìm kiếm dọc. Ái.

OpenAI, công ty AI đứng sau công cụ AI tạo sinh thống trị ChatGPT, đã tiết lộ một công nghệ nhân bản giọng nói mới mà họ gọi là “Voice Engine”. Mô hình âm thanh này có thể tái tạo giọng nói, ngữ điệu và các mẫu giọng nói khác biệt của con người dựa trên một mẫu âm thanh gốc tương đối nhỏ.

Công ty cho biết: “Điều đáng chú ý là một mô hình nhỏ với một mẫu 15 giây duy nhất có thể tạo ra giọng nói giàu cảm xúc và chân thực”. bài viết blog thứ sáu.

Để so sánh, nền tảng giọng nói AI ElevenLabs có công cụ sao chép giọng nói tức thì yêu cầu mẫu ít nhất một phút. Để có kết quả tốt nhất, cần có gần 10 phút nói liên tục để đạt được mức độ dịch vụ chuyên nghiệp.

Công ty đã đưa ra những ví dụ khác nhau về những gì công nghệ này có thể làm được. Trong một ví dụ, giọng nói của một bệnh nhân trẻ bị mất nhiều khả năng nói do khối u não mạch máu đã được sao chép bằng cách sử dụng bản ghi âm cũ hơn mà cô ấy thực hiện cho một dự án ở trường. Đây là hôm nay cô ấy nghe thế nào, theo OpenAI.

OpenAI đã làm việc với Tuổi thọ, một tổ chức phi lợi nhuận liên kết với trường y tại Đại học Brown và là người tạo ra một công cụ có tên livox, một “ứng dụng giao tiếp thay thế” được xây dựng dành cho người khuyết tật. Nhóm đã có thể làm việc với một ghi âm mà người phụ nữ đã thực hiện cho buổi thuyết trình của trường:

Công cụ giọng nói AI mở sau đó có thể cung cấp khả năng chuyển văn bản thành giọng nói tức thì cho phép bệnh nhân giao tiếp một cách hiệu quả. nói bằng giọng của chính mình:

OpenAI cũng giới thiệu cách Này thế hệ đang sử dụng công nghệ của mình để tạo ra các bản dịch giọng nói có âm thanh tự nhiên được tải lên bằng một ngôn ngữ cụ thể bằng ngôn ngữ khác.

Công ty cho biết Voice Engine được phát triển lần đầu tiên vào cuối năm 2022 và hiện đang được sử dụng để cung cấp các giọng nói cài sẵn có trong API chuyển văn bản thành giọng nói của OpenAI, cũng như tính năng Voice và Read Aloud của ChatGPT. Với những tiến bộ mới nhất, công ty cho biết họ đang thận trọng trước khi phát hành rộng rãi hơn.

OpenAI viết: “Chúng tôi hy vọng sẽ bắt đầu một cuộc đối thoại về việc triển khai có trách nhiệm các giọng nói tổng hợp và cách xã hội có thể thích ứng với những khả năng mới này”. Tiếng nói của những người nổi tiếng, quan chức chính phủ và ngày càng nhiều công dân tư nhân đang bị mạo danh vì những mục đích bất chính, từ chiến dịch chính trị, quảng cáo giả mạo và hoàn toàn Các hoạt động tội phạm. Tổng thống Mỹ Joe Biden đã đẩy để biết thêm các biện pháp bảo vệ chống lại việc sử dụng mục đích mạo danh giọng nói AI với mục đích xấu.

Trên thực tế, Meta đã tiết lộ vào mùa hè năm ngoái rằng công cụ giọng nói AI của họ đang bị trì hoãn đặc biệt vì “nguy cơ tiềm ẩn của việc sử dụng sai mục đích".

OpenAI giải thích: “Theo cách tiếp cận của chúng tôi đối với an toàn AI và các cam kết tự nguyện của chúng tôi, chúng tôi đang chọn xem trước nhưng không phát hành rộng rãi công nghệ này vào thời điểm này”.

Ngay cả trước khi phát hành rộng rãi, OpenAI đã đặt ra các hạn chế đối với Voice Engine—bao gồm danh sách những người nổi bật mà nó sẽ không mô phỏng.

“Chúng tôi tin rằng bất kỳ hoạt động triển khai rộng rãi nào về công nghệ giọng nói tổng hợp đều phải đi kèm với trải nghiệm xác thực giọng nói để xác minh rằng người nói ban đầu đang cố tình thêm giọng nói của họ vào dịch vụ và danh sách giọng nói cấm đi để phát hiện và ngăn chặn việc tạo ra những giọng nói quá giống nhau. tương tự như những nhân vật nổi bật”, OpenAI viết.

Các đối tác thử nghiệm Voice Engine hôm nay đã đồng ý với các chính sách sử dụng của OpenAI, nghiêm cấm việc mạo danh cá nhân hoặc tổ chức khác mà không có sự đồng ý. Ngoài ra, công ty yêu cầu sự đồng ý rõ ràng và đầy đủ thông tin từ người nói ban đầu và họ không cho phép các nhà phát triển xây dựng các cách để người dùng cá nhân sao chép giọng nói của chính họ.

Bài đăng trên blog cho biết: “Dựa trên những cuộc trò chuyện này và kết quả của những thử nghiệm quy mô nhỏ này, chúng tôi sẽ đưa ra quyết định sáng suốt hơn về việc liệu có nên triển khai công nghệ này trên quy mô lớn hay không và cách thức triển khai công nghệ này trên quy mô lớn”.

Ngoài Voice Engine, Open AI đang hoạt động song song trên nhiều dự án. Giám đốc điều hành Sam Altman tiết lộ rằng công ty đang nỗ lực phát hành GPT-5 trong năm nay. Công ty cũng giới thiệu công cụ video tổng hợp của mình Sora. Công ty tuyên bố rằng Sora sẽ là trình tạo video tiên tiến nhất trên thị trường, vượt qua các mẫu như Pika, Stable Video Diffusion và Runway ML.

Sora hiện chỉ khả dụng cho các “đội đỏ” được Open AI đăng ký để đảm bảo nó không thể bị lạm dụng.

Voice Engine chắc chắn có thể hoạt động tốt hơn các công cụ sao chép giọng nói khác, bao gồm các dịch vụ từ Meta, ElevenLabs, WellSaid Labs và các mô hình nguồn mở như RVC.

AI mở cũng đang làm việc trên một dự án bí mật mang tên Q* trong đó chỉ có tên của nó đã bị rò rỉ. Sam Altman từ chối cung cấp bất kỳ thông tin chi tiết nào nhưng cho biết nhóm nghiên cứu tập trung nhiều vào việc tìm kiếm các kỹ thuật và phương pháp tiếp cận giúp AI suy luận tốt hơn.

Sửa bởi Ryan Ozawa.

Luôn cập nhật tin tức về tiền điện tử, cập nhật hàng ngày trong hộp thư đến của bạn.

Dấu thời gian:

Thêm từ Giải mã