Ny 'Voice Engine' fra OpenAI behøver kun 15 sekunder at klone tale - dekryptere

Ny 'Voice Engine' fra OpenAI behøver kun 15 sekunder til at klone tale – dekryptere

New ‘Voice Engine’ from OpenAI Needs Only 15 Seconds to Clone Speech - Decrypt PlatoBlockchain Data Intelligence. Vertical Search. Ai.

OpenAI, AI-virksomheden bag det dominerende generative AI-værktøj ChatGPT, har afsløret en ny stemmekloningsteknologi, den kalder "Voice Engine". Denne lydmodel kan replikere en persons stemme, intonation og andre tydeligt menneskelige talemønstre baseret på en relativt lille prøve af original lyd.

"Det er bemærkelsesværdigt, at en lille model med en enkelt 15-sekunders sample kan skabe følelsesladede og realistiske stemmer," siger virksomheden i sin Fredags blogindlæg.

Til sammenligning, AI stemmeplatform ElevenLabs har et øjeblikkelig stemmekloningsværktøj, der kræver prøver på mindst et minut. For de bedste resultater kræves der næsten 10 minutters uafbrudt tale for dets professionelle serviceniveau.

Virksomheden viste forskellige eksempler på, hvad denne teknologi er i stand til. I et eksempel blev stemmen fra en ung patient, der mistede meget af sin taleevne på grund af en vaskulær hjernetumor, klonet ved hjælp af en ældre optagelse, hun lavede til et skoleprojekt. Dette er hvordan hun lyder i dag, ifølge OpenAI.

OpenAI arbejdede med Levetid, en nonprofit tilknyttet medicinstudiet ved Brown University og skaberne af et værktøj kaldet Livox, en "alternativ kommunikationsapp" bygget til mennesker med handicap. Teamet var i stand til at arbejde med en optagelse, som kvinden har lavet til en skolepræsentation:

Open AI Voice Engine var derefter i stand til at give øjeblikkelig tekst-til-tale-funktion, der ville give patienten mulighed for effektivt at tale med sin egen stemme:

OpenAI viste også hvordan Hej Gen bruger sin teknologi til at generere naturligt klingende oversættelser af tale uploadet på et bestemt sprog på et andet sprog.

Virksomheden siger, at Voice Engine først blev udviklet i slutningen af ​​2022 og allerede bliver brugt til at drive de forudindstillede stemmer, der er tilgængelige i OpenAIs tekst-til-tale API, såvel som ChatGPTs Voice og Read Aloud-funktion. Med de seneste fremskridt siger virksomheden, at det er forsigtigt før en bredere udgivelse.

"Vi håber at starte en dialog om ansvarlig udbredelse af syntetiske stemmer, og hvordan samfundet kan tilpasse sig disse nye muligheder," skrev OpenAI og anerkendte den bredt fordømte praksis med "deepfakes". Stemmerne fra berømtheder, embedsmænd og i stigende grad private borgere bliver efterlignet til ondsindede formål, fra politiske kampagner, falske annoncer og ligefrem kriminelle aktiviteter. USA's præsident Joe Biden har været det skubbe for flere sikkerhedsforanstaltninger mod ondsindet brug af AI-stemmeimitationer.

Faktisk afslørede Meta sidste sommer, at dets AI-stemmeværktøj blev holdt tilbage specifikt på grund af "potentielle risici for misbrug".

"I tråd med vores tilgang til AI-sikkerhed og vores frivillige forpligtelser, vælger vi at forhåndsvise, men ikke frigive denne teknologi i stor udstrækning på nuværende tidspunkt," forklarede OpenAI.

Allerede før offentlig udgivelse sætter OpenAI restriktioner på Voice Engine - inklusive en liste over prominente personer, som den ikke vil efterligne.

"Vi mener, at enhver bred implementering af syntetisk stemmeteknologi bør ledsages af stemmegodkendelsesoplevelser, der bekræfter, at den originale højttaler bevidst tilføjer deres stemme til tjenesten og en no-go stemmeliste, der registrerer og forhindrer oprettelsen af ​​stemmer, der er for ligner fremtrædende personer," skrev OpenAI.

Partnerne, der tester Voice Engine i dag, har accepteret OpenAIs brugspolitikker, som forbyder efterligning af en anden person eller organisation uden samtykke. Derudover kræver virksomheden eksplicit og informeret samtykke fra den originale taler, og de tillader ikke udviklere at bygge måder, hvorpå individuelle brugere kan klone deres egne stemmer.

"Baseret på disse samtaler og resultaterne af disse tests i lille skala, vil vi træffe en mere informeret beslutning om, hvorvidt og hvordan vi skal implementere denne teknologi i stor skala," lyder blogindlægget.

Ud over Voice Engine arbejder Open AI på flere projekter parallelt. CEO Sam Altman afslørede, at virksomheden arbejder på at udgive GPT-5 i år. Virksomheden viste også sit generative videoværktøj frem Sora. Virksomheden hævder, at Sora vil være den mest avancerede videogenerator på markedet, der overgår modeller som Pika, Stable Video Diffusion og Runway ML.

Sora er i øjeblikket kun tilgængelig for "røde teamere", der er optaget af Open AI for at sikre, at det ikke kan misbruges.

Voice Engine kunne helt sikkert overgå andre stemmekloningsværktøjer, herunder tilbud fra Meta, ElevenLabs, WellSaid Labs og open source-modeller som f.eks. RVC.

Open AI arbejder også på en hemmeligt projekt ved navn Q* hvoraf kun dens navn er blevet lækket. Sam Altman har nægtet at give nogen detaljer, men sagde, at forskerholdet var stærkt fokuseret på at finde teknikker og tilgange, der får AI til at tænke bedre.

Redigeret af Ryan Ozawa.

Hold dig opdateret med kryptonyheder, få daglige opdateringer i din indbakke.

Tidsstempel:

Mere fra Dekryptér