Text-to-image Models Learn More Efficiently With Fake Data

Újra kiadta Platón

Követő: 0

Text-to-image models learn more efficiently with fake data PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Az MIT és a Google informatikusai szerint a szintetikus képek segíthetnek a mesterséges intelligencia modelleknek a vizuális megjelenítések pontosabb megtanulásában, mint a valódi pillanatokban. Az eredmény neurális hálózatok, amelyek jobban képesek képeket készíteni az írott leírásokból.

Minden szöveg-kép modell középpontjában az a képességük áll, hogy az objektumokat szavakra leképezhetik. Egy beviteli szöveges felszólítás esetén – például „egy gyerek kezében egy piros léggömb egy napsütéses napon” – a leíráshoz közelítő képet kell visszaadniuk. Ennek érdekében meg kell tanulniuk a gyermek, a piros léggömb és a napsütéses nap vizuális ábrázolását.

Az MIT-Google csapata úgy véli, hogy a neurális hálózatok pontosabb képeket generálhatnak az AI által készített képekre való betanítás után, mint a valódi snapok használatával. Ennek demonstrálására a csoport kifejlesztett StableRep, amely megtanulja, hogyan lehet a leíró írott feliratokat helyes, megfelelő képpé alakítani a népszerű nyílt forráskódú szöveg-képké modellel, a Stable Diffusion által generált képekből.

Más szóval: egy megalapozott, betanított AI-modell használata más modellek tanítására.

Ahogy a tudósok nyomtatás előtti papírja, amely a következőn keresztül jelent meg arXiv a múlt hónap végén így fogalmazott: „A kizárólag szintetikus képekkel a StableRep által megtanult ábrázolások felülmúlják a SimCLR és a CLIP által tanult reprezentációk teljesítményét, amelyek ugyanazt a szöveges promptokat és a megfelelő valós képeket használták nagyméretű adatkészleteken.” A SimCLR és a CLIP gépi tanulási algoritmusok, amelyek segítségével szöveges promptokból képeket lehet készíteni.

„Ha tovább adjuk a nyelvi felügyeletet, a 20 millió szintetikus képpel betanított StableRep jobb pontosságot ér el, mint az 50 millió valódi képpel betanított CLIP” – folytatja a lap.

A gépi tanulási algoritmusok az objektumok jellemzői és a szavak jelentése közötti kapcsolatokat számtömbként rögzítik. A StableRep használatával a kutatók alaposabban irányíthatják ezt a folyamatot – modellt taníthatnak több, a Stable Diffusion által generált képen ugyanazon a prompton. Ez azt jelenti, hogy a modell többféle vizuális megjelenítést tud megtanulni, és láthatja, hogy mely képek egyeznek jobban a felszólítással, mint mások.

Azt hiszem, lesz egy ökoszisztémánk néhány modellből, amelyek valós adatokon, mások pedig szintetikus adatokon alapulnak

„Megtanítjuk a modellt, hogy többet tudjon meg a magas szintű fogalmakról a kontextuson és a variancián keresztül, ne csak az adatok betáplálásán keresztül” – mondta Lijie Fan, a tanulmány vezető kutatója és az MIT elektromérnöki doktorandusza. magyarázható ezen a héten. „Ha több képet használunk, amelyek mindegyike ugyanabból a szövegből származik, és mindegyiket ugyanazon mögöttes dolog ábrázolásaként kezeljük, a modell mélyebbre merül a képek – mondjuk az objektum – mögött rejlő fogalmakba, nem csak a képpontjaikba.”

Ahogy fentebb említettük, ez a megközelítés azt is jelenti, hogy kevesebb szintetikus képet használhat a neurális hálózat képzésére, mint a valódi képeket, és jobb eredményeket érhet el – ami az AI-fejlesztők számára előnyös.

Az olyan módszerek, mint a StableRep, azt jelentik, hogy a szöveg-kép modelleket egy napon szintetikus adatokra oktatják. Lehetővé tenné a fejlesztők számára, hogy kevésbé támaszkodjanak valós képekre, és szükség lehet rá, ha az AI-motorok kimerítik a rendelkezésre álló online forrásokat.

„Azt hiszem, [az AI-modellek szintetikus képeken való képzése] egyre gyakoribb lesz” – mondta Phillip Isola, a cikk társszerzője és az MIT számítógépes látással foglalkozó docense. A regisztráció. „Úgy gondolom, hogy lesz egy ökoszisztémánk néhány modellből, amelyeket valós adatokra, néhányat szintetikusra oktatnak, és talán a legtöbb modell mindkettőre lesz kiképezve.”

Nehéz kizárólag a mesterséges intelligencia által generált képekre hagyatkozni, mert minőségük és felbontásuk gyakran rosszabb, mint a valódi fényképeké. Az ezeket létrehozó szöveg-kép modellek más módon is korlátozottak. A Stabil diffúzió nem mindig hoz létre olyan képeket, amelyek hűek a szöveges felszólításhoz.

Isola figyelmeztetett, hogy a szintetikus képek használata sem kerüli el a szerzői jogok esetleges megsértésének lehetőségét, mivel az ezeket létrehozó modelleket valószínűleg védett anyagokon képezték ki.

„A szintetikus adatok a szerzői jogi adatok pontos másolatait tartalmazhatják. A szintetikus adatok azonban új lehetőségeket is kínálnak az IP-vel és a magánélettel kapcsolatos kérdések megkerülésére, mert potenciálisan beavatkozhatunk ebbe a generatív modell szerkesztésével az érzékeny attribútumok eltávolítására” – magyarázta.

A csapat arra is figyelmeztetett, hogy a mesterséges intelligencia által generált képekkel kapcsolatos képzési rendszerek potenciálisan súlyosbíthatják a mögöttes szöveg-képmodellből származó torzításokat. ®

SEO által támogatott tartalom és PR terjesztés. Erősödjön még ma.
PlatoData.Network Vertical Generative Ai. Erősítse meg magát. Hozzáférés itt.
PlatoAiStream. Web3 Intelligence. Felerősített tudás. Hozzáférés itt.
PlatoESG. Carbon, CleanTech, Energia, Környezet, Nap, Hulladékgazdálkodás. Hozzáférés itt.
PlatoHealth. Biotechnológiai és klinikai vizsgálatok intelligencia. Hozzáférés itt.
Forrás: https://go.theregister.com/feed/www.theregister.com/2023/11/22/texttoimage_models_mit/

Időbélyeg: November 22, 2023

Időbélyeg: 28. március 2024.

A szöveg-kép modellek hatékonyabban tanulnak hamis adatokkal

Újra kiadta Platón

Még több A regisztráció

Az OpenAI e-mailek sokaságával válaszol Elon Musk keresetére

Furcsa robot tönkremegy a Lordok Háza mesterséges intelligenciáról szóló meghallgatásán

A Ford bevásárol a Közép-Királyság piacára a kínai elektromos járművek leányvállalatával

A Microsoft bemutatja a Copilot alkalmazásokat mobileszközökre

A ChatGPT tanulmány szerint az LLM-ek egyre hülyébbek

A szakértő szerint a mesterséges intelligencia 3 éven belül elősegíti a biofegyverek létrehozását

A Microsoft ezeket a biztonsági eszközöket vezeti be az Azure AI-hoz

Rólunk

Vertical Search & Ai

Emelvény

Maradjon kapcsolatban

Fiók