A Meta szerdán kiadta az AudioCraftot, egy három mesterséges intelligencia modellből álló készletet, amely képes automatikusan hangot létrehozni szöveges leírásokból.
Ahogy a generatív mesterséges intelligencia modellek, amelyek írásos felszólításokat fogadnak el, és képpé vagy több szöveggé alakítják, tovább érnek, az informatikusok más médiák létrehozását vizsgálják gépi tanulás segítségével.
Az AI-rendszerek számára nehéz a hang, különösen a zene, mivel a szoftvernek meg kell tanulnia több perc alatt koherens mintákat létrehozni, és elég kreatívnak kell lennie ahhoz, hogy valami fülbemászó vagy kellemes hallgatást generáljon.
„Egy tipikus, néhány perces, 44.1 kHz-en mintavételezett zeneszám (ami a zenei felvételek szabványos minősége) több millió időlépésből áll” – magyarázta a Team Meta. Ez azt jelenti, hogy egy hanggeneráló modellnek sok adatot kell kiadnia ahhoz, hogy emberbarát sávot építsen fel.
„Összehasonlításképpen a szövegalapú generatív modellek, mint például a Llama és a Llama 2, olyan részszavakként feldolgozott szöveggel vannak táplálva, amelyek mintánként mindössze néhány ezer időlépést jelentenek.”
A Facebook óriása azt képzeli, hogy az AudioCraft segítségével az emberek számítógéppel generált hangokat adnak ki anélkül, hogy bármilyen hangszeren meg kellene tanulniuk játszani. Az eszközkészlet három modellből áll: MusicGen, AudioGen és EnCodec.
A MusicGen-t 20,000 XNUMX órányi felvételre képezték ki, amelyek a Meta tulajdonában vannak vagy licencelték, és a megfelelő szöveges leírásokkal együtt. Az AudioGen inkább hangeffektusok generálására összpontosít, nem pedig zenére, és nyilvános adatokra képezték ki. Végül az EnCodec-et veszteséges neurális kodekként írják le, amely nagy pontossággal képes tömöríteni és kicsomagolni az audiojeleket.
Meta azt mondta, hogy „nyílt forráskódú” AudioCraft, és bizonyos mértékig az is. A modellek létrehozásához és betanításához, valamint a következtetések futtatásához szükséges szoftver nyílt forráskódú MIT licenc alatt érhető el. A kód ingyenes (mint a szabadság és az ingyenes sör esetében) és kereskedelmi alkalmazásokban, valamint kutatási projektekben használható.
Ennek ellenére a modellsúlyok nem nyílt forráskódúak. A Creative Commons licenc alatt vannak megosztva, amely kifejezetten tiltja a kereskedelmi felhasználást. Ahogy láttuk Láma 2, amikor Meta nyílt forráskódú dolgokról beszél, ellenőrizze az apró betűs.
A MusicGen és az AudioGen hangokat generál a beviteli szöveges üzenettel. A „fütyülő szél fúj” és a „pop dance szám fülbemászó dallamokkal, trópusi ütőhangszerekkel és lendületes ritmusokkal, tökéletes a strandra” leírásokból készült rövid klipeket hallhat a Meta's AudioCrafton. nyitóoldal, itt.
A rövid hanghatások valósághűek, bár a zeneszerűek véleményünk szerint nem túl jók. Úgy hangzanak, mint egy ismétlődő és általános csilingelő rossz tartású zenéhez vagy liftes dalokhoz, semmint slágerekhez.
A Meta kutatói szerint az AudioGen – leírva mélyen itt – A nyers hangot tokenek sorozatává alakították át, és a bemenetet úgy alakították át, hogy ezeket nagy hűséggel visszaalakították hanggá. Egy nyelvi modell leképezi a beviteli szöveges prompt töredékeit az audio tokenekhez, hogy megtanulja a szavak és a hangok közötti összefüggést. MusicGen hasonló eljárással képezték ki zenei mintákon, nem pedig hangeffektusokon.
„Ahelyett, hogy áthatolhatatlan fekete dobozként tartanánk a művet, ha nyitottak vagyunk arra vonatkozóan, hogyan fejlesztjük ezeket a modelleket, és biztosítjuk, hogy az emberek – akár kutatókról, akár a zenei közösség egészéről van szó – könnyen használhatóak legyenek – segít az embereknek megérteni, mire képesek ezek a modellek. megtenni, megérteni, mit nem tehetnek meg, és felhatalmazást kapni arra, hogy ténylegesen használják őket” – érvelt a Team Meta.
„A jövőben a generatív mesterséges intelligencia jelentősen javíthatja az iterációs időt azáltal, hogy gyorsabban kaphatnak visszajelzést a prototípus-készítés és a szürkedoboz-készítés korai szakaszában – akár egy nagy fejlesztő, aki világokat épít a metaverzum számára, akár zenész (amatőr, profi vagy ellenkező esetben) a következő kompozíción dolgozik, vagy egy kis- vagy középvállalkozás tulajdonosa, aki szeretné magasabb szintre emelni kreatív eszközeit.”
Lekérheti az AudioCraft kódot itt, és kísérletezzen a MusicGennel itt és próbáld ki. ®
- SEO által támogatott tartalom és PR terjesztés. Erősödjön még ma.
- PlatoData.Network Vertical Generative Ai. Erősítse meg magát. Hozzáférés itt.
- PlatoAiStream. Web3 Intelligence. Felerősített tudás. Hozzáférés itt.
- PlatoESG. Autóipar / elektromos járművek, Carbon, CleanTech, Energia, Környezet, Nap, Hulladékgazdálkodás. Hozzáférés itt.
- BlockOffsets. A környezetvédelmi ellentételezési tulajdon korszerűsítése. Hozzáférés itt.
- Forrás: https://go.theregister.com/feed/www.theregister.com/2023/08/02/meta_audiocraft_release/
- :van
- :is
- :nem
- $ UP
- 000
- 1
- 20
- 7
- a
- Rólunk
- tulajdonképpen
- AI
- AI modellek
- AI rendszerek
- lehetővé téve
- mellett
- amatőr
- an
- és a
- bármilyen
- alkalmazások
- VANNAK
- érvelt
- AS
- Eszközök
- At
- hang-
- automatikusan
- elérhető
- vissza
- Rossz
- BE
- strand
- sör
- hogy
- között
- Fekete
- Fúj
- Doboz
- épít
- Épület
- üzleti
- by
- TUD
- képes
- ellenőrizze
- klipek
- CO
- kód
- ÖSSZEFÜGGŐ
- kereskedelmi
- köznép
- közösség
- összehasonlítás
- összetétel
- számítógép
- számítógép által létrehozott
- áll
- folytatódik
- konvertáló
- Összefüggés
- Megfelelő
- tudott
- teremt
- készítette
- létrehozása
- Kreatív
- tánc
- dátum
- Fok
- mélység
- leírt
- Fejleszt
- Fejlesztő
- nehéz
- do
- alatt
- Korai
- könnyű
- hatások
- felhatalmazott
- elég
- biztosítása
- képzel
- különösen
- kísérlet
- magyarázható
- gyorsabb
- Fed
- Visszacsatolás
- kevés
- hűség
- Végül
- végén
- összpontosított
- A
- formák
- Ingyenes
- szabadság
- ból ből
- jövő
- generál
- generáló
- nemző
- Generatív AI
- kap
- óriás
- adott
- nagy
- tekintettel
- hall
- segít
- segít
- Magas
- Találat
- tart
- NYITVATARTÁS
- Hogyan
- HTTPS
- képek
- javul
- in
- bemenet
- műszer
- bele
- IT
- ismétlés
- jpg
- éppen
- tartás
- nyelv
- nagy
- TANUL
- tanulás
- Engedély
- Engedélyezett
- mint
- Láma
- keres
- Sok
- gép
- gépi tanulás
- készült
- Gyártás
- Térképek
- érett
- Média
- meta
- metaverse
- Több millió
- Perc
- MIT
- modell
- modellek
- több
- zene
- Zenész
- szükséges
- következő
- szám
- of
- on
- azok
- nyitva
- nyílt forráskódú
- Vélemény
- or
- Más
- másképp
- mi
- ki
- teljesítmény
- felett
- tulajdonú
- tulajdonos
- oldal
- minták
- Emberek (People)
- mert
- ütés
- tökéletes
- Plató
- Platón adatintelligencia
- PlatoData
- játszani
- pop
- folyamat
- Feldolgozott
- gyárt
- szakmai
- projektek
- prototípus
- nyilvános
- világítás
- Inkább
- Nyers
- RE
- valószerű
- felszabaduló
- Releases
- ismétlő
- képvisel
- kutatás
- kutatók
- futás
- s
- Mondott
- látta
- azt mondják
- tudósok
- Sorozat
- készlet
- megosztott
- rövid
- jelek
- hasonló
- óta
- kicsi
- szoftver
- valami
- hang
- forrás
- Sourcing
- kifejezetten
- állapota
- standard
- Systems
- Vesz
- Talks
- csapat
- mint
- hogy
- A
- A jövő
- a metaverzum
- azok
- Őket
- Ezek
- ők
- bár?
- ezer
- három
- idő
- nak nek
- tokenek
- eszköztár
- vágány
- Vonat
- kiképzett
- transzformáló
- megpróbál
- FORDULAT
- tipikus
- alatt
- megért
- használ
- használt
- segítségével
- mérhetetlenül
- volt
- we
- Szerda
- JÓL
- Mit
- bármikor
- vajon
- ami
- egész
- szél
- val vel
- nélkül
- szavak
- Munka
- dolgozó
- világ
- írott
- te
- zephyrnet