Nieuwe 'Voice Engine' van OpenAI heeft slechts 15 seconden nodig om spraak te klonen - ontsleutelen

Nieuwe 'Voice Engine' van OpenAI heeft slechts 15 seconden nodig om spraak te klonen – ontsleutelen

Nieuwe 'Voice Engine' van OpenAI heeft slechts 15 seconden nodig om spraak te klonen - Decodeer PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

OpenAI, het AI-bedrijf achter de dominante generatieve AI-tool ChatGPT, heeft een nieuwe stemkloneringstechnologie onthuld die hij ‘Voice Engine’ noemt. Dit audiomodel kan de stem, intonatie en andere duidelijk menselijke spraakpatronen van een persoon repliceren op basis van een relatief kleine steekproef van originele audio.

“Opmerkelijk is dat een klein model met een enkele sample van 15 seconden emotionele en realistische stemmen kan creëren”, zegt het bedrijf in zijn Vrijdag blogpost.

Ter vergelijking: AI-spraakplatform Elf Labs beschikt over een tool voor het direct klonen van stemmen vereist monsters van minimaal één minuut. Voor de beste resultaten is bijna 10 minuten ononderbroken spraak nodig voor het professionele serviceniveau.

Het bedrijf liet verschillende voorbeelden zien van waartoe deze technologie in staat is. In één voorbeeld werd de stem van een jonge patiënte die een groot deel van haar spraakvermogen verloor als gevolg van een vasculaire hersentumor, gekloond met behulp van een oudere opname die ze maakte voor een schoolproject. Dit is hoe ze vandaag klinkt, volgens OpenAI.

OpenAI werkte mee Levensduur, een non-profitorganisatie aangesloten bij de medische school van Brown University en de makers van een tool genaamd Livox, een ‘alternatieve communicatie-app’ gebouwd voor mensen met een handicap. Het team kon werken met een opname die de vrouw maakte voor een schoolpresentatie:

De Open AI Voice Engine kon vervolgens onmiddellijke tekst-naar-spraak-mogelijkheden bieden waarmee de patiënt effectief kon praten spreken met haar eigen stem:

OpenAI liet ook zien hoe Hallo Gen gebruikt zijn technologie om natuurlijk klinkende vertalingen te genereren van spraak die in een specifieke taal in een andere taal is geüpload.

Het bedrijf zegt dat Voice Engine eind 2022 voor het eerst werd ontwikkeld en al wordt gebruikt om de vooraf ingestelde stemmen aan te sturen die beschikbaar zijn in de tekst-naar-spraak-API van OpenAI, evenals de Voice- en Read Aloud-functie van ChatGPT. Met de nieuwste ontwikkelingen zegt het bedrijf voorzichtig te zijn met een bredere release.

‘We hopen een dialoog op gang te brengen over de verantwoorde inzet van synthetische stemmen en hoe de samenleving zich kan aanpassen aan deze nieuwe mogelijkheden’, schreef OpenAI, waarmee hij de alom veroordeelde praktijk van ‘deepfakes’ erkende. De stemmen van beroemdheden, overheidsfunctionarissen en steeds meer particuliere burgers worden nagebootst voor snode doeleinden, van politieke campagnes, valse advertenties en ronduit criminele activiteiten. De Amerikaanse president Joe Biden is dat wel geweest duwen voor meer waarborgen tegen het kwaadwillige gebruik van AI-stemimitaties.

Meta maakte afgelopen zomer zelfs bekend dat zijn AI-stemtool specifiek werd tegengehouden vanwege de “potentiële risico's van misbruik. '

“In lijn met onze benadering van AI-veiligheid en onze vrijwillige toezeggingen, kiezen we ervoor om deze technologie op dit moment te beproeven, maar niet op grote schaal vrij te geven”, legt OpenAI uit.

Zelfs vóór de publieke release legt OpenAI beperkingen op aan Voice Engine, inclusief een lijst met prominente mensen die het niet zal emuleren.

“Wij zijn van mening dat elke brede inzet van synthetische spraaktechnologie gepaard moet gaan met stemauthenticatie-ervaringen die verifiëren dat de oorspronkelijke spreker willens en wetens zijn of haar stem aan de dienst toevoegt, en een no-go-stemmenlijst die de creatie van stemmen die te hoog zijn, detecteert en voorkomt. vergelijkbaar met prominente figuren”, schreef OpenAI.

De partners die Voice Engine vandaag testen, hebben ingestemd met het gebruiksbeleid van OpenAI, dat de nabootsing van een ander individu of een andere organisatie zonder toestemming verbiedt. Bovendien vereist het bedrijf expliciete en geïnformeerde toestemming van de oorspronkelijke spreker, en staan ​​ze niet toe dat ontwikkelaars manieren bedenken waarop individuele gebruikers hun eigen stemmen kunnen klonen.

“Op basis van deze gesprekken en de resultaten van deze kleinschalige tests zullen we een beter geïnformeerde beslissing nemen over de vraag of en hoe we deze technologie op grote schaal kunnen inzetten”, aldus de blogpost.

Naast Voice Engine werkt Open AI aan meerdere projecten parallel. Dat maakte CEO Sam Altman bekend werkt aan het uitbrengen van GPT-5 dit jaar. Het bedrijf toonde ook zijn generatieve videotool Sora. Het bedrijf beweert dat Sora de meest geavanceerde videogenerator op de markt zal zijn en modellen als Pika, Stable Video Diffusion en Runway ML zal overtreffen.

Sora is momenteel alleen beschikbaar voor ‘red teamers’ die door Open AI zijn ingeschakeld om ervoor te zorgen dat er geen misbruik van kan worden gemaakt.

Voice Engine zou zeker beter kunnen presteren dan andere tools voor het klonen van stemmen, waaronder aanbiedingen van Meta, ElevenLabs, WellSaid Labs en open-sourcemodellen zoals RVC.

Open AI werkt ook aan een geheim project genaamd Q* waarvan alleen de naam is gelekt. Sam Altman heeft geweigerd details te geven, maar zei dat het onderzoeksteam sterk gefocust was op het vinden van technieken en benaderingen die AI beter kunnen redeneren.

Bewerkt door Ryan Ozawa.

Blijf op de hoogte van cryptonieuws, ontvang dagelijkse updates in je inbox.

Tijdstempel:

Meer van decoderen