Nowy „silnik głosowy” od OpenAI potrzebuje tylko 15 sekund na sklonowanie mowy – odszyfrowanie

Nowy „silnik głosowy” od OpenAI potrzebuje tylko 15 sekund na sklonowanie mowy – odszyfrowanie

Nowy „silnik głosowy” od OpenAI potrzebuje tylko 15 sekund, aby sklonować mowę – odszyfrować analizę danych PlatoBlockchain. Wyszukiwanie pionowe. AI.

OpenAI, firma zajmująca się sztuczną inteligencją, stojąca za dominującym narzędziem generatywnej sztucznej inteligencji ChatGPT, zaprezentowała nową technologię klonowania głosu, którą nazywa „silnikiem głosowym”. Ten model audio może odtworzyć głos, intonację i inne wyraźnie ludzkie wzorce mowy danej osoby w oparciu o stosunkowo małą próbkę oryginalnego dźwięku.

„Warto zauważyć, że mały model z pojedynczą 15-sekundową próbką może stworzyć emocjonalne i realistyczne głosy” – stwierdza firma w swoim Piątkowy wpis na blogu.

Dla porównania platforma głosowa AI Jedenaście laboratoriów zawiera narzędzie do natychmiastowego klonowania głosu wymaga próbek trwających co najmniej jedną minutę. Aby uzyskać najlepsze wyniki, potrzebnych jest prawie 10 minut ciągłej mowy, aby zapewnić profesjonalny poziom usług.

Firma pokazała różne przykłady możliwości tej technologii. W jednym z przykładów głos młodej pacjentki, która utraciła znaczną część zdolności mówienia z powodu naczyniowego guza mózgu, został sklonowany przy użyciu starszego nagrania, które wykonała na potrzeby szkolnego projektu. To jest jak ona dzisiaj brzmiwedług OpenAI.

OpenAI współpracował z Żywotność, organizacja non-profit powiązana ze szkołą medyczną na Brown University i twórcy narzędzia o nazwie Livox, „alternatywna aplikacja do komunikacji” stworzona z myślą o osobach niepełnosprawnych. Zespół mógł współpracować z m.in nagranie, które zrobiła kobieta na prezentację szkolną:

Silnik głosowy Open AI był wówczas w stanie zapewnić natychmiastową funkcję zamiany tekstu na mowę, która umożliwiła pacjentowi skuteczne działanie mówić własnym głosem:

OpenAI pokazało również, jak to zrobić Hej Gen wykorzystuje swoją technologię do generowania naturalnie brzmiących tłumaczeń mowy przesłanych w określonym języku na inny język.

Firma twierdzi, że silnik głosowy został po raz pierwszy opracowany pod koniec 2022 r. i jest już używany do obsługi gotowych głosów dostępnych w interfejsie API zamiany tekstu na mowę OpenAI, a także funkcji głosu i czytania na głos w ChatGPT. Firma twierdzi, że w związku z najnowszymi osiągnięciami zachowuje ostrożność przed szerszą publikacją.

„Mamy nadzieję rozpocząć dialog na temat odpowiedzialnego wdrażania syntetycznych głosów i tego, jak społeczeństwo może dostosować się do tych nowych możliwości” – napisało OpenAI, potwierdzając powszechnie potępianą praktykę „deepfakes”. Głosy celebrytów, urzędników państwowych i coraz częściej prywatnych obywateli są podrabiane w nikczemnych celach, od kampanie polityczne, fałszywe reklamy i wprost działania przestępcze. Prezydent USA Joe Biden był popychanie więcej zabezpieczeń przed złośliwym wykorzystaniem podszywania się pod głos AI.

W rzeczywistości Meta ujawniła zeszłego lata, że ​​jej narzędzie głosowe AI było wstrzymywane właśnie ze względu na „potencjalne ryzyko niewłaściwego użycia".

„Zgodnie z naszym podejściem do bezpieczeństwa sztucznej inteligencji i naszymi dobrowolnymi zobowiązaniami, decydujemy się na wprowadzenie tej technologii w wersji zapoznawczej, ale na razie nie udostępniamy jej powszechnie” – wyjaśnił OpenAI.

Jeszcze przed publikacją OpenAI nakłada ograniczenia na silnik głosowy — włączając w to listę prominentnych osób, których nie będzie naśladować.

„Uważamy, że każdemu szerokiemu wdrożeniu technologii głosu syntetycznego powinny towarzyszyć funkcje uwierzytelniania głosu, które weryfikują, czy pierwotny mówca świadomie dodaje swój głos do usługi, oraz lista głosów zakazanych, która wykrywa i zapobiega tworzeniu głosów, które są zbyt podobne do wybitnych osobistości” – napisało OpenAI.

Partnerzy testujący dzisiaj Voice Engine zgodzili się na zasady użytkowania OpenAI, które zabraniają podszywania się pod inną osobę lub organizację bez zgody. Ponadto firma wymaga wyraźnej i świadomej zgody pierwotnego mówcy i nie pozwala programistom na tworzenie sposobów klonowania własnych głosów przez indywidualnych użytkowników.

„Na podstawie tych rozmów i wyników testów na małą skalę podejmiemy bardziej świadomą decyzję o tym, czy i jak wdrożyć tę technologię na dużą skalę” – czytamy w poście na blogu.

Oprócz Voice Engine, Open AI pracuje równolegle nad wieloma projektami. Dyrektor generalny Sam Altman ujawnił, że firma pracuje nad wydaniem GPT-5 w tym roku. Firma zaprezentowała także swoje generatywne narzędzie wideo Sora. Firma twierdzi, że Sora będzie najbardziej zaawansowanym generatorem wideo na rynku, przewyższającym modele takie jak Pika, Stable Video Diffusion i Runway ML.

Sora jest obecnie dostępna tylko dla „czerwonych drużyn” zarejestrowanych przez Open AI, aby mieć pewność, że nie można jej nadużyć.

Voice Engine z pewnością mógłby przewyższyć inne narzędzia do klonowania głosu, w tym oferty Meta, ElevenLabs, WellSaid Labs i modele open source, takie jak rozszerzenie RVC.

Otwarta sztuczna inteligencja pracuje również nad tajny projekt o nazwie Q* z którego wyciekła tylko jego nazwa. Sam Altman odmówił podania jakichkolwiek szczegółów, ale powiedział, że zespół badawczy był mocno skoncentrowany na znalezieniu technik i podejść, które sprawią, że sztuczna inteligencja będzie lepiej rozumować.

Edytowany przez Ryana Ozawy.

Bądź na bieżąco z wiadomościami o kryptowalutach, otrzymuj codzienne aktualizacje w swojej skrzynce odbiorczej.

Znak czasu:

Więcej z Odszyfruj