Die neue KI von Microsoft kann Ihre Stimme in nur 3 Sekunden klonen

Neuauflage von Plato

Verfolger: 0

Die neue KI von Microsoft kann Ihre Stimme in nur 3 Sekunden klonen. PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

KI wird verwendet, um alles zu generieren Bilder zu Text zu künstliche Proteine, und jetzt ist noch etwas hinzugekommen: die Rede. Letzte Woche Forscher aus Microsoft hat ein Papier veröffentlicht auf einer neuen KI namens VALL-E, die jede Stimme basierend auf einem nur drei Sekunden langen Sample genau simulieren kann. VALL-E ist nicht der erste Sprachsimulator, der entwickelt wurde, aber er ist anders aufgebaut als seine Vorgänger – und könnte ein größeres Risiko für potenziellen Missbrauch bergen.

Die meisten vorhandenen Text-to-Speech-Modelle verwenden Wellenformen (grafische Darstellungen von Schallwellen, während sie sich im Laufe der Zeit durch ein Medium bewegen), um falsche Stimmen zu erzeugen, wobei Merkmale wie Ton oder Tonhöhe optimiert werden, um sich einer bestimmten Stimme anzunähern. VALL-E nimmt jedoch ein Sample der Stimme einer Person und zerlegt es in Komponenten, die als Token bezeichnet werden, und verwendet diese Token dann, um neue Klänge zu erzeugen, die auf den „Regeln“ basieren, die es bereits über diese Stimme gelernt hat. Wenn eine Stimme besonders tief ist oder ein Sprecher sein A nasal ausspricht oder er monotoner als der Durchschnitt ist, sind dies alles Eigenschaften, die die KI aufgreifen und replizieren könnte.

Das Modell basiert auf einer Technologie namens EnCodec von Meta, das gerade in diesem Teil Oktober veröffentlicht wurde. Das Tool verwendet ein dreiteiliges System, um Audio ohne Qualitätsverlust auf 10-mal kleiner als MP3s zu komprimieren; Seine Entwickler wollten unter anderem die Qualität von Sprache und Musik bei Anrufen verbessern, die über Verbindungen mit geringer Bandbreite getätigt werden.

Um VALL-E zu trainieren, verwendeten seine Entwickler eine Audiobibliothek namens LibriLight, dessen 60,000 Stunden englische Sprache hauptsächlich aus Hörbucherzählungen bestehen. Das Modell liefert die besten Ergebnisse, wenn die synthetisierte Stimme einer der Stimmen aus der Trainingsbibliothek ähnelt (von denen es über 7,000 gibt, das sollte also nicht zu groß sein).

Neben der Nachbildung der Stimme einer Person simuliert VALL-E auch die Audioumgebung aus dem drei Sekunden langen Sample. Ein per Telefon aufgenommener Clip würde sich anders anhören als ein persönlich aufgenommener, und wenn Sie während des Gesprächs gehen oder fahren, wird die einzigartige Akustik dieser Szenarien berücksichtigt.

Einige der Proben ziemlich realistisch klingen, während andere noch sehr offensichtlich computergeneriert sind. Aber es gibt deutliche Unterschiede zwischen den Stimmen; Sie können sagen, dass sie auf Menschen basieren, die unterschiedliche Sprechstile, Tonhöhen und Intonationsmuster haben.

Das Team, das VALL-E entwickelt hat, weiß, dass es sehr leicht von schlechten Schauspielern benutzt werden könnte; Von der Fälschung von Tonfolgen von Politikern oder Prominenten bis hin zur Verwendung bekannter Stimmen, um Geld oder Informationen am Telefon anzufordern, es gibt unzählige Möglichkeiten, die Technologie zu nutzen. Sie haben klugerweise darauf verzichtet, den Code von VALL-E öffentlich zugänglich zu machen, und am Ende ihres Papiers eine Ethikerklärung eingefügt (die nicht viel dazu beitragen wird, jeden abzuschrecken, der die KI für schändliche Zwecke verwenden möchte).

Es ist wahrscheinlich nur eine Frage der Zeit, bis ähnliche Tools auftauchen und in die falschen Hände geraten. Die Forscher schlagen vor, dass die Risiken, die Modelle wie VALL-E darstellen, durch den Aufbau von Erkennungsmodellen gemildert werden könnten, um festzustellen, ob Audioclips echt oder synthetisiert sind. Wenn wir KI brauchen, um uns vor KI zu schützen, woher wissen wir dann, ob diese Technologien einen positiven Nettoeffekt haben? Wir werden sehen.

Bild-Kredit: Shutterstock.com/Tancha

SEO-gestützte Content- und PR-Distribution. Holen Sie sich noch heute Verstärkung.
Platoblockkette. Web3-Metaverse-Intelligenz. Wissen verstärkt. Hier zugreifen.
Quelle: https://singularityhub.com/2023/01/12/microsofts-new-ai-can-clone-your-voice-in-just-3-seconds/

Zeitstempel: 12. Januar 2023

Zeitstempel: 17. Februar 2024

Die neue KI von Microsoft kann Ihre Stimme in nur 3 Sekunden klonen

Neuauflage von Plato

Mehr von Singularity Hub

Die Messung von Helium in entfernten Galaxien könnte Physikern Aufschluss darüber geben, warum das Universum existiert

Die Bausteine des Lebens könnten sich in der Gischt des Urmeeres gebildet haben

Der Ukraine-Konflikt versetzt die Welt in einen Run auf erneuerbare Energien, heißt es in einem IEA-Bericht

Die CRISPR-Genbearbeitung hatte ein Jahr des Durchbruchs – und sie fängt gerade erst an

Wie das Studium der Empfindungsfähigkeit von Tieren dazu beitragen könnte, das ethische Rätsel der empfindungsfähigen KI zu lösen

Mondstaub als "Sonnenschutz" für die Erde in den Weltraum zu schießen, könnte helfen, den Klimawandel zu stoppen

Die fahrerlosen Autos von Waymo kommen in Arizona auf die Autobahn ohne Sicherheitsvorkehrungen

Diese KI kann komplexe Proteine entwerfen, die perfekt auf unsere Bedürfnisse zugeschnitten sind

Dieses von Gates unterstützte Startup baut modulare Häuser aus energieeffizienten Paneelen

Die winzige neue KI von NVIDIA verwandelt Fotos in Sekundenschnelle in vollständige 3D-Szenen

Über uns

Vertikale Suche & Ai

Plattform

Bleiben Sie in Verbindung

Konto