Meta veröffentlicht generative KI zum Erstellen von Musik und Sounds

Meta veröffentlicht generative KI zum Erstellen von Musik und Sounds

Meta veröffentlicht generative KI zum Musizieren, so PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Meta hat am Mittwoch AudioCraft veröffentlicht, eine Reihe von drei KI-Modellen, die automatisch Sound aus Textbeschreibungen erstellen können.

Während generative KI-Modelle, die schriftliche Eingabeaufforderungen aufgreifen und diese in Bilder oder mehr Text umwandeln, immer ausgereifter werden, befassen sich Informatiker mit der Entwicklung anderer Medienformen durch maschinelles Lernen.

Audio ist für KI-Systeme schwierig, insbesondere Musik, da die Software lernen muss, über mehrere Minuten kohärente Muster zu erzeugen und kreativ genug sein muss, um etwas Eingängiges oder Angenehmes zum Anhören zu erzeugen.

„Ein typischer Musiktitel von wenigen Minuten, der mit 44.1 kHz (der Standardqualität von Musikaufnahmen) gesampelt wird, besteht aus Millionen von Zeitschritten“, erklärte Team Meta. Das heißt, ein audiogenerierendes Modell muss viele Daten ausgeben, um einen menschenfreundlichen Track zu erstellen.

„Im Vergleich dazu werden textbasierte generative Modelle wie Llama und Llama 2 mit Text gefüttert, der als Unterwörter verarbeitet wird, die nur ein paar tausend Zeitschritte pro Probe darstellen.“

Der Facebook-Riese stellt sich vor, dass Menschen mit AudioCraft experimentieren und computergenerierte Klänge erzeugen können, ohne lernen zu müssen, ein Instrument zu spielen. Das Toolkit besteht aus drei Modellen: MusicGen, AudioGen und EnCodec. 

MusicGen wurde anhand von 20,000 Stunden Aufnahmen, die Meta gehörten oder von Meta lizenziert wurden, sowie den entsprechenden Textbeschreibungen geschult. AudioGen konzentriert sich mehr auf die Erzeugung von Soundeffekten als auf Musik und wurde anhand öffentlicher Daten trainiert. Schließlich wird EnCodec als ein verlustbehafteter neuronaler Codec beschrieben, der Audiosignale mit hoher Wiedergabetreue komprimieren und dekomprimieren kann.

Meta sagte, es sei „Open Sourcing“ von AudioCraft, und das ist bis zu einem gewissen Grad auch der Fall. Die zum Erstellen und Trainieren der Modelle sowie zum Ausführen von Inferenzen erforderliche Software ist unter einer Open-Source-MIT-Lizenz verfügbar. Der Code kann in freien (wie in Freiheit und Freibier) und kommerziellen Anwendungen sowie Forschungsprojekten verwendet werden.

Allerdings sind die Modellgewichte nicht Open Source. Sie werden unter einer Creative-Commons-Lizenz weitergegeben, die die kommerzielle Nutzung ausdrücklich verbietet. Wie wir mit gesehen haben Lama 2, wann immer Meta über Open-Sourcing-Themen spricht, schauen Sie nach das Kleingedruckte.

MusicGen und AudioGen erzeugen Sounds anhand einer Eingabeaufforderung. Auf Metas AudioCraft können Sie kurze Clips hören, die aus den Beschreibungen „pfeifender Wind“ und „Pop-Dance-Track mit eingängigen Melodien, tropischer Percussion und fröhlichen Rhythmen, perfekt für den Strand“ erstellt wurden Landingpage, hier

Die kurzen Soundeffekte wirken realistisch, die musikähnlichen sind unserer Meinung nach jedoch nicht so toll. Sie klingen eher wie repetitive und generische Jingles für Bad-Hold-Musik oder Aufzugslieder als wie Hit-Singles. 

Forscher von Meta sagten, AudioGen – beschrieben hier ausführlich – wurde trainiert, indem Rohaudio in eine Folge von Token umgewandelt und die Eingabe rekonstruiert wurde, indem diese mit hoher Wiedergabetreue wieder in Audio umgewandelt wurde. Ein Sprachmodell ordnet Ausschnitte der Eingabeaufforderung den Audio-Tokens zu, um die Korrelation zwischen Wörtern und Lauten zu lernen. Musik Gen wurde mit einem ähnlichen Verfahren an Musikbeispielen und nicht an Soundeffekten trainiert. 

„Anstatt die Arbeit wie eine undurchdringliche Blackbox zu halten, hilft es den Menschen zu verstehen, was diese Modelle können, indem wir offen darüber sprechen, wie wir diese Modelle entwickeln und sicherstellen, dass sie für die Menschen einfach zu verwenden sind – ob für Forscher oder die Musikgemeinschaft insgesamt.“ tun, verstehen, was sie nicht können, und befähigt werden, sie tatsächlich zu nutzen“, argumentierte Team Meta.

„Generative KI könnte den Menschen in Zukunft dabei helfen, die Iterationszeit erheblich zu verkürzen, indem sie es ihnen ermöglicht, während der frühen Prototyping- und Grayboxing-Phasen schneller Feedback zu erhalten – egal, ob sie ein großer Entwickler sind, der Welten für das Metaversum baut, ein Musiker (Amateur, Profi usw.). andernfalls) an ihrer nächsten Komposition arbeitet, oder ein kleiner oder mittlerer Unternehmer, der seine kreativen Fähigkeiten verbessern möchte.“

Sie können den AudioCraft-Code abrufen hier, und experimentieren Sie mit MusicGen hier und probiere es aus. ®

Zeitstempel:

Mehr von Das Register