Ny "Voice Engine" fra OpenAI trenger bare 15 sekunder for å klone tale - Dekrypter

Ny "Voice Engine" fra OpenAI trenger bare 15 sekunder for å klone tale – dekryptere

Ny "Voice Engine" fra OpenAI trenger bare 15 sekunder for å klone tale - Dekrypter PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

OpenAI, AI-selskapet bak det dominerende generative AI-verktøyet ChatGPT, har avduket en ny stemmekloningsteknologi den kaller «Voice Engine». Denne lydmodellen kan replikere en persons stemme, intonasjon og andre utpreget menneskelige talemønstre basert på et relativt lite utvalg av originallyd.

"Det er bemerkelsesverdig at en liten modell med en enkelt 15-sekunders prøve kan skape emosjonelle og realistiske stemmer," sier selskapet i sin Fredag ​​blogginnlegg.

Til sammenligning, AI stemmeplattform ElevenLabs har et øyeblikkelig stemmekloningsverktøy som krever prøver på minst ett minutt. For best resultat kreves det nesten 10 minutter med kontinuerlig tale for det profesjonelle servicenivået.

Selskapet viste forskjellige eksempler på hva denne teknologien er i stand til å gjøre. I ett eksempel ble stemmen til en ung pasient som mistet mye av evnen til å snakke på grunn av en vaskulær hjernesvulst, klonet ved å bruke et eldre opptak hun gjorde for et skoleprosjekt. Dette er hvordan hun høres ut i dag, ifølge OpenAI.

OpenAI jobbet med Levetid, en ideell organisasjon tilknyttet medisinstudiet ved Brown University og skaperne av et verktøy kalt Livox, en "alternativ kommunikasjonsapp" laget for funksjonshemmede. Teamet var i stand til å jobbe med en opptak som kvinnen har laget for en skolepresentasjon:

Open AI Voice Engine var da i stand til å gi umiddelbar tekst-til-tale-funksjon som ville tillate pasienten å effektivt snakke med sin egen stemme:

OpenAI viste også hvordan HeiGen bruker sin teknologi til å generere naturlig klingende oversettelser av tale lastet opp på et spesifikt språk på et annet språk.

Selskapet sier at Voice Engine først ble utviklet i slutten av 2022 og allerede brukes til å drive de forhåndsinnstilte stemmene som er tilgjengelige i OpenAIs tekst-til-tale API, samt ChatGPTs Voice and Read Aloud-funksjon. Med de siste fremskrittene sier selskapet at det er forsiktig før en bredere utgivelse.

"Vi håper å starte en dialog om ansvarlig distribusjon av syntetiske stemmer og hvordan samfunnet kan tilpasse seg disse nye evnene," skrev OpenAI, og anerkjente den vidt fordømte praksisen med "deepfakes". Stemmene til kjendiser, myndighetspersoner og stadig flere private borgere blir etterlignet for ondsinnede formål, fra politiske kampanjer, falske annonser og rett og slett kriminelle aktiviteter. USAs president Joe Biden har vært det skyve for flere sikkerhetstiltak mot ondsinnet bruk av AI-stemmeidentitet.

Faktisk avslørte Meta i fjor sommer at AI-stemmeverktøyet ble holdt tilbake spesielt på grunn av "potensielle farer for misbruk».

"I tråd med vår tilnærming til AI-sikkerhet og våre frivillige forpliktelser, velger vi å forhåndsvise, men ikke gi ut denne teknologien i stor utstrekning på dette tidspunktet," forklarte OpenAI.

Selv før offentlig utgivelse, legger OpenAI restriksjoner på Voice Engine – inkludert en liste over fremtredende personer som den ikke vil etterligne.

"Vi mener at enhver bred distribusjon av syntetisk stemmeteknologi bør ledsages av taleautentiseringsopplevelser som bekrefter at den originale høyttaleren bevisst legger stemmen sin til tjenesten og en no-go stemmeliste som oppdager og forhindrer dannelsen av stemmer som er for ligner på fremtredende skikkelser», skrev OpenAI.

Partnerne som tester Voice Engine i dag har godtatt OpenAIs brukspolicy, som forbyr etterligning av en annen person eller organisasjon uten samtykke. I tillegg krever selskapet eksplisitt og informert samtykke fra den opprinnelige høyttaleren, og de tillater ikke utviklere å bygge måter for individuelle brukere å klone sine egne stemmer.

"Basert på disse samtalene og resultatene av disse småskalatestene, vil vi ta en mer informert beslutning om hvorvidt og hvordan vi skal implementere denne teknologien i stor skala," heter det i blogginnlegget.

I tillegg til Voice Engine jobber Open AI med flere prosjekter parallelt. Administrerende direktør Sam Altman avslørte at selskapet jobber med å gi ut GPT-5 i år. Selskapet viste også frem sitt generative videoverktøy Sora. Selskapet hevder at Sora vil være den mest avanserte videogeneratoren på markedet, og overgå modeller som Pika, Stable Video Diffusion og Runway ML.

Sora er foreløpig bare tilgjengelig for "røde lagspillere" vervet av Open AI for å sikre at den ikke kan misbrukes.

Voice Engine kan absolutt utkonkurrere andre stemmekloningsverktøy, inkludert tilbud fra Meta, ElevenLabs, WellSaid Labs og åpen kildekode-modeller som RVC.

Open AI jobber også med en hemmelig prosjekt kalt Q* hvorav bare navnet har blitt lekket. Sam Altman har nektet å gi noen detaljer, men sa at forskerteamet var sterkt fokusert på å finne teknikker og tilnærminger som gjør AI bedre.

Redigert av Ryan Ozawa.

Hold deg oppdatert på kryptonyheter, få daglige oppdateringer i innboksen din.

Tidstempel:

Mer fra dekryptere