A szöveg-kép modellek hatékonyabban tanulnak hamis adatokkal

A szöveg-kép modellek hatékonyabban tanulnak hamis adatokkal

Text-to-image models learn more efficiently with fake data PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Az MIT és a Google informatikusai szerint a szintetikus képek segíthetnek a mesterséges intelligencia modelleknek a vizuális megjelenítések pontosabb megtanulásában, mint a valódi pillanatokban. Az eredmény neurális hálózatok, amelyek jobban képesek képeket készíteni az írott leírásokból.

Minden szöveg-kép modell középpontjában az a képességük áll, hogy az objektumokat szavakra leképezhetik. Egy beviteli szöveges felszólítás esetén – például „egy gyerek kezében egy piros léggömb egy napsütéses napon” – a leíráshoz közelítő képet kell visszaadniuk. Ennek érdekében meg kell tanulniuk a gyermek, a piros léggömb és a napsütéses nap vizuális ábrázolását. 

Az MIT-Google csapata úgy véli, hogy a neurális hálózatok pontosabb képeket generálhatnak az AI által készített képekre való betanítás után, mint a valódi snapok használatával. Ennek demonstrálására a csoport kifejlesztett StableRep, amely megtanulja, hogyan lehet a leíró írott feliratokat helyes, megfelelő képpé alakítani a népszerű nyílt forráskódú szöveg-képké modellel, a Stable Diffusion által generált képekből.

Más szóval: egy megalapozott, betanított AI-modell használata más modellek tanítására.

Ahogy a tudósok nyomtatás előtti papírja, amely a következőn keresztül jelent meg arXiv a múlt hónap végén így fogalmazott: „A kizárólag szintetikus képekkel a StableRep által megtanult ábrázolások felülmúlják a SimCLR és a CLIP által tanult reprezentációk teljesítményét, amelyek ugyanazt a szöveges promptokat és a megfelelő valós képeket használták nagyméretű adatkészleteken.” A SimCLR és a CLIP gépi tanulási algoritmusok, amelyek segítségével szöveges promptokból képeket lehet készíteni.

„Ha tovább adjuk a nyelvi felügyeletet, a 20 millió szintetikus képpel betanított StableRep jobb pontosságot ér el, mint az 50 millió valódi képpel betanított CLIP” – folytatja a lap.

A gépi tanulási algoritmusok az objektumok jellemzői és a szavak jelentése közötti kapcsolatokat számtömbként rögzítik. A StableRep használatával a kutatók alaposabban irányíthatják ezt a folyamatot – modellt taníthatnak több, a Stable Diffusion által generált képen ugyanazon a prompton. Ez azt jelenti, hogy a modell többféle vizuális megjelenítést tud megtanulni, és láthatja, hogy mely képek egyeznek jobban a felszólítással, mint mások. 

Azt hiszem, lesz egy ökoszisztémánk néhány modellből, amelyek valós adatokon, mások pedig szintetikus adatokon alapulnak

„Megtanítjuk a modellt, hogy többet tudjon meg a magas szintű fogalmakról a kontextuson és a variancián keresztül, ne csak az adatok betáplálásán keresztül” – mondta Lijie Fan, a tanulmány vezető kutatója és az MIT elektromérnöki doktorandusza. magyarázható ezen a héten. „Ha több képet használunk, amelyek mindegyike ugyanabból a szövegből származik, és mindegyiket ugyanazon mögöttes dolog ábrázolásaként kezeljük, a modell mélyebbre merül a képek – mondjuk az objektum – mögött rejlő fogalmakba, nem csak a képpontjaikba.”

Ahogy fentebb említettük, ez a megközelítés azt is jelenti, hogy kevesebb szintetikus képet használhat a neurális hálózat képzésére, mint a valódi képeket, és jobb eredményeket érhet el – ami az AI-fejlesztők számára előnyös.

Az olyan módszerek, mint a StableRep, azt jelentik, hogy a szöveg-kép modelleket egy napon szintetikus adatokra oktatják. Lehetővé tenné a fejlesztők számára, hogy kevésbé támaszkodjanak valós képekre, és szükség lehet rá, ha az AI-motorok kimerítik a rendelkezésre álló online forrásokat.

„Azt hiszem, [az AI-modellek szintetikus képeken való képzése] egyre gyakoribb lesz” – mondta Phillip Isola, a cikk társszerzője és az MIT számítógépes látással foglalkozó docense. A regisztráció. „Úgy gondolom, hogy lesz egy ökoszisztémánk néhány modellből, amelyeket valós adatokra, néhányat szintetikusra oktatnak, és talán a legtöbb modell mindkettőre lesz kiképezve.”

Nehéz kizárólag a mesterséges intelligencia által generált képekre hagyatkozni, mert minőségük és felbontásuk gyakran rosszabb, mint a valódi fényképeké. Az ezeket létrehozó szöveg-kép modellek más módon is korlátozottak. A Stabil diffúzió nem mindig hoz létre olyan képeket, amelyek hűek a szöveges felszólításhoz.

Isola figyelmeztetett, hogy a szintetikus képek használata sem kerüli el a szerzői jogok esetleges megsértésének lehetőségét, mivel az ezeket létrehozó modelleket valószínűleg védett anyagokon képezték ki.

„A szintetikus adatok a szerzői jogi adatok pontos másolatait tartalmazhatják. A szintetikus adatok azonban új lehetőségeket is kínálnak az IP-vel és a magánélettel kapcsolatos kérdések megkerülésére, mert potenciálisan beavatkozhatunk ebbe a generatív modell szerkesztésével az érzékeny attribútumok eltávolítására” – magyarázta.

A csapat arra is figyelmeztetett, hogy a mesterséges intelligencia által generált képekkel kapcsolatos képzési rendszerek potenciálisan súlyosbíthatják a mögöttes szöveg-képmodellből származó torzításokat. ®

Időbélyeg:

Még több A regisztráció