KI wird verwendet, um alles zu generieren Bilder zu Text zu künstliche Proteine, und jetzt ist noch etwas hinzugekommen: die Rede. Letzte Woche Forscher aus Microsoft hat ein Papier veröffentlicht auf einer neuen KI namens VALL-E, die jede Stimme basierend auf einem nur drei Sekunden langen Sample genau simulieren kann. VALL-E ist nicht der erste Sprachsimulator, der entwickelt wurde, aber er ist anders aufgebaut als seine Vorgänger – und könnte ein größeres Risiko für potenziellen Missbrauch bergen.
Die meisten vorhandenen Text-to-Speech-Modelle verwenden Wellenformen (grafische Darstellungen von Schallwellen, während sie sich im Laufe der Zeit durch ein Medium bewegen), um falsche Stimmen zu erzeugen, wobei Merkmale wie Ton oder Tonhöhe optimiert werden, um sich einer bestimmten Stimme anzunähern. VALL-E nimmt jedoch ein Sample der Stimme einer Person und zerlegt es in Komponenten, die als Token bezeichnet werden, und verwendet diese Token dann, um neue Klänge zu erzeugen, die auf den „Regeln“ basieren, die es bereits über diese Stimme gelernt hat. Wenn eine Stimme besonders tief ist oder ein Sprecher sein A nasal ausspricht oder er monotoner als der Durchschnitt ist, sind dies alles Eigenschaften, die die KI aufgreifen und replizieren könnte.
Das Modell basiert auf einer Technologie namens EnCodec von Meta, das gerade in diesem Teil Oktober veröffentlicht wurde. Das Tool verwendet ein dreiteiliges System, um Audio ohne Qualitätsverlust auf 10-mal kleiner als MP3s zu komprimieren; Seine Entwickler wollten unter anderem die Qualität von Sprache und Musik bei Anrufen verbessern, die über Verbindungen mit geringer Bandbreite getätigt werden.
Um VALL-E zu trainieren, verwendeten seine Entwickler eine Audiobibliothek namens LibriLight, dessen 60,000 Stunden englische Sprache hauptsächlich aus Hörbucherzählungen bestehen. Das Modell liefert die besten Ergebnisse, wenn die synthetisierte Stimme einer der Stimmen aus der Trainingsbibliothek ähnelt (von denen es über 7,000 gibt, das sollte also nicht zu groß sein).
Neben der Nachbildung der Stimme einer Person simuliert VALL-E auch die Audioumgebung aus dem drei Sekunden langen Sample. Ein per Telefon aufgenommener Clip würde sich anders anhören als ein persönlich aufgenommener, und wenn Sie während des Gesprächs gehen oder fahren, wird die einzigartige Akustik dieser Szenarien berücksichtigt.
Einige der Proben ziemlich realistisch klingen, während andere noch sehr offensichtlich computergeneriert sind. Aber es gibt deutliche Unterschiede zwischen den Stimmen; Sie können sagen, dass sie auf Menschen basieren, die unterschiedliche Sprechstile, Tonhöhen und Intonationsmuster haben.
Das Team, das VALL-E entwickelt hat, weiß, dass es sehr leicht von schlechten Schauspielern benutzt werden könnte; Von der Fälschung von Tonfolgen von Politikern oder Prominenten bis hin zur Verwendung bekannter Stimmen, um Geld oder Informationen am Telefon anzufordern, es gibt unzählige Möglichkeiten, die Technologie zu nutzen. Sie haben klugerweise darauf verzichtet, den Code von VALL-E öffentlich zugänglich zu machen, und am Ende ihres Papiers eine Ethikerklärung eingefügt (die nicht viel dazu beitragen wird, jeden abzuschrecken, der die KI für schändliche Zwecke verwenden möchte).
Es ist wahrscheinlich nur eine Frage der Zeit, bis ähnliche Tools auftauchen und in die falschen Hände geraten. Die Forscher schlagen vor, dass die Risiken, die Modelle wie VALL-E darstellen, durch den Aufbau von Erkennungsmodellen gemildert werden könnten, um festzustellen, ob Audioclips echt oder synthetisiert sind. Wenn wir KI brauchen, um uns vor KI zu schützen, woher wissen wir dann, ob diese Technologien einen positiven Nettoeffekt haben? Wir werden sehen.
Bild-Kredit: Shutterstock.com/Tancha
- SEO-gestützte Content- und PR-Distribution. Holen Sie sich noch heute Verstärkung.
- Platoblockkette. Web3-Metaverse-Intelligenz. Wissen verstärkt. Hier zugreifen.
- Quelle: https://singularityhub.com/2023/01/12/microsofts-new-ai-can-clone-your-voice-in-just-3-seconds/
- 000
- 10
- 7
- a
- Fähig
- Über uns
- Konto
- genau
- hinzugefügt
- Vorteil
- AI
- Alle
- bereits
- und
- Ein anderer
- jemand
- Audio-
- verfügbar
- durchschnittlich
- Badewanne
- basierend
- Bevor
- Sein
- BESTE
- zwischen
- geht kaputt
- Building
- erbaut
- namens
- Aufrufe
- tragen
- Prominente
- Charakteristik
- Clips
- Code
- Komponenten
- computergeneriert
- Verbindungen
- könnte
- erstellen
- erstellt
- Schöpfer
- Kredit
- tief
- Entdeckung
- Unterschiede
- anders
- nach unten
- Fahren
- leicht
- Englisch
- Arbeitsumfeld
- Ethik
- alles
- vorhandenen
- ziemlich
- Fälschung
- Fallen
- vertraut
- Vorname
- für
- erzeugen
- GitHub
- gegeben
- mehr
- Hände
- mit
- STUNDEN
- Ultraschall
- HTTPS
- Impact der HXNUMXO Observatorien
- Verbesserung
- in
- inklusive
- Information
- IT
- Wissen
- Nachname
- gelernt
- Bibliothek
- wahrscheinlich
- Liste
- Lang
- Verlust
- gemacht
- Making
- Materie
- mittlere
- Modell
- für
- Geld
- mehr
- schlauer bewegen
- Musik
- Need
- Netto-
- Neu
- Oktober
- EINEM
- Auftrag
- Anders
- Papier
- Teil
- besonders
- Muster
- Personen
- person
- Telefon
- wählen
- Tonhöhe (Pitch)
- Stellplätze
- Plato
- Datenintelligenz von Plato
- PlatoData
- Politiker
- positiv
- Potenzial
- Gegenwart
- in erster Linie
- Risiken zu minimieren
- öffentlich
- Zwecke
- Qualität
- echt
- realistisch
- aufgezeichnet
- freigegeben
- Anforderung
- Forscher
- Die Ergebnisse
- Risiko
- Risiken
- Szenarien
- Sekunden
- shutterstock
- ähnlich
- Simulator
- kleinere
- So
- Klingen
- Speaker
- Sprechen
- Rede
- Feder
- Erklärung
- Immer noch
- System
- Nehmen
- nimmt
- sprechen
- Team
- Technologies
- Technologie
- Text-to-Speech
- Das
- ihr
- Ding
- nach drei
- Durch
- Zeit
- mal
- zu
- Tokens
- TONE
- auch
- Werkzeug
- Werkzeuge
- Training
- Ausbildung
- Tweaking
- einzigartiges
- us
- -
- Stimme
- STIMMEN
- Gehen
- Wellen
- Wege
- Woche
- ob
- welche
- während
- WHO
- werden wir
- würde
- Falsch
- falsche Hände
- Erträge
- Du
- Ihr
- Zephyrnet