Neue „Voice Engine“ von OpenAI benötigt nur 15 Sekunden zum Klonen von Sprache – Entschlüsseln

Neue „Voice Engine“ von OpenAI benötigt nur 15 Sekunden zum Klonen von Sprache – Entschlüsseln

Neue „Voice Engine“ von OpenAI benötigt nur 15 Sekunden zum Klonen von Sprache – Entschlüsseln Sie PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

OpenAI, das KI-Unternehmen hinter dem dominanten generativen KI-Tool ChatGPT, hat eine neue Technologie zum Klonen von Stimmen vorgestellt, die es „Voice Engine“ nennt. Dieses Audiomodell kann die Stimme, den Tonfall und andere eindeutig menschliche Sprachmuster einer Person basierend auf einer relativ kleinen Probe des Originalaudios nachbilden.

„Es ist bemerkenswert, dass ein kleines Modell mit einem einzigen 15-Sekunden-Sample emotionale und realistische Stimmen erzeugen kann“, heißt es in seinem Bericht Freitag Blogbeitrag.

Zum Vergleich: KI-Sprachplattform ElfLabs verfügt über ein Tool zum sofortigen Klonen von Stimmen erfordert Proben von mindestens einer Minute. Um optimale Ergebnisse zu erzielen, sind für das professionelle Serviceniveau fast 10 Minuten ununterbrochene Rede erforderlich.

Das Unternehmen zeigte verschiedene Beispiele dafür, was diese Technologie leisten kann. In einem Beispiel wurde die Stimme einer jungen Patientin, die aufgrund eines vaskulären Hirntumors einen Großteil ihrer Sprechfähigkeit verloren hatte, anhand einer älteren Aufnahme geklont, die sie für ein Schulprojekt gemacht hatte. Das ist wie sie heute klingt, laut OpenAI.

OpenAI hat mitgearbeitet Lebensdauer, eine gemeinnützige Organisation, die mit der medizinischen Fakultät der Brown University verbunden ist und ein Tool namens entwickelt hat Livox, eine „alternative Kommunikations-App“, die für Menschen mit Behinderungen entwickelt wurde. Das Team konnte mit a Aufnahme, die die Frau gemacht hat für eine Schulpräsentation:

Die Open AI Voice Engine war dann in der Lage, eine sofortige Text-zu-Sprache-Funktion bereitzustellen, die es dem Patienten ermöglichen würde, effektiv zu sprechen mit ihrer eigenen Stimme sprechen:

OpenAI zeigte auch, wie Hallo Gen nutzt seine Technologie, um natürlich klingende Übersetzungen von in einer bestimmten Sprache hochgeladenen Reden in eine andere Sprache zu erstellen.

Nach Angaben des Unternehmens wurde die Voice Engine erstmals Ende 2022 entwickelt und wird bereits verwendet, um die voreingestellten Stimmen zu unterstützen, die in der Text-to-Speech-API von OpenAI sowie in der Sprach- und Vorlesefunktion von ChatGPT verfügbar sind. Angesichts der neuesten Fortschritte gibt das Unternehmen an, vor einer breiteren Veröffentlichung vorsichtig zu sein.

„Wir hoffen, einen Dialog über den verantwortungsvollen Einsatz synthetischer Stimmen zu beginnen und darüber, wie sich die Gesellschaft an diese neuen Fähigkeiten anpassen kann“, schrieb OpenAI und würdigte damit die weithin verurteilte Praxis von „Deepfakes“. Die Stimmen von Prominenten, Regierungsbeamten und zunehmend auch Privatpersonen werden für schändliche Zwecke gefälscht politische Kampagnen, gefälschte Anzeigen und geradezu kriminelle Aktivitäten. US-Präsident Joe Biden war Drücken für mehr Schutzmaßnahmen gegen den böswilligen Einsatz von KI-Sprachimitationen.

Tatsächlich gab Meta letzten Sommer bekannt, dass sein KI-Sprachtool speziell wegen der „mögliche Risiken eines Missbrauchs"

„Im Einklang mit unserem Ansatz zur KI-Sicherheit und unseren freiwilligen Verpflichtungen entscheiden wir uns, diese Technologie derzeit in der Vorschau, aber nicht allgemein zu veröffentlichen“, erklärte OpenAI.

Bereits vor der Veröffentlichung erlegt OpenAI Beschränkungen für Voice Engine auf – einschließlich einer Liste prominenter Personen, die es nicht emulieren wird.

„Wir glauben, dass jeder breite Einsatz der synthetischen Sprachtechnologie mit Sprachauthentifizierungserfahrungen einhergehen sollte, die überprüfen, ob der ursprüngliche Sprecher seine Stimme wissentlich zum Dienst hinzufügt, und einer No-Go-Stimmenliste, die die Erstellung von Stimmen erkennt und verhindert, die dies auch tun.“ ähnlich wie prominente Persönlichkeiten“, schrieb OpenAI.

Die Partner, die Voice Engine heute testen, haben den Nutzungsrichtlinien von OpenAI zugestimmt, die die Nachahmung einer anderen Person oder Organisation ohne Zustimmung verbieten. Darüber hinaus benötigt das Unternehmen die ausdrückliche und informierte Zustimmung des ursprünglichen Sprechers und erlaubt Entwicklern nicht, Möglichkeiten für einzelne Benutzer zu entwickeln, ihre eigenen Stimmen zu klonen.

„Basierend auf diesen Gesprächen und den Ergebnissen dieser Tests im kleinen Maßstab werden wir eine fundiertere Entscheidung darüber treffen, ob und wie wir diese Technologie im großen Maßstab einsetzen“, heißt es im Blogbeitrag.

Neben Voice Engine arbeitet Open AI an mehreren Projekten parallel. CEO Sam Altman gab bekannt, dass das Unternehmen arbeitet an der Veröffentlichung von GPT-5 in diesem Jahr. Das Unternehmen stellte auch sein generatives Videotool vor Sora. Das Unternehmen behauptet, dass Sora der fortschrittlichste Videogenerator auf dem Markt sein wird und Modelle wie Pika, Stable Video Diffusion und Runway ML übertrifft.

Sora ist derzeit nur für „Red Teamer“ verfügbar, die von Open AI angeworben wurden, um sicherzustellen, dass es nicht missbraucht werden kann.

Voice Engine könnte sicherlich andere Tools zum Klonen von Stimmen übertreffen, darunter Angebote von Meta, ElevenLabs, WellSaid Labs und Open-Source-Modelle wie RVC.

Open AI arbeitet auch an einem Geheimprojekt namens Q* von dem nur der Name durchgesickert ist. Sam Altman weigerte sich, Einzelheiten zu nennen, sagte aber, das Forschungsteam habe sich stark darauf konzentriert, Techniken und Ansätze zu finden, die das Denken der KI verbessern.

Herausgegeben von Ryan Ozawa.

Bleiben Sie über Krypto-News auf dem Laufenden und erhalten Sie tägliche Updates in Ihrem Posteingang.

Zeitstempel:

Mehr von Entschlüsseln