Tekstist pildiks muutvad mudelid õpivad võltsandmetega tõhusamalt

Taasavaldanud Platon

järgijaid: 0

Tekst-pildiks mudelid õpivad võltsandmetega PlatoBlockchain Data Intelligence abil tõhusamalt. Vertikaalne otsing. Ai.

MITi ja Google'i arvutiteadlaste sõnul võivad sünteetilised kujutised aidata tehisintellekti mudelitel visuaalseid kujutisi paremini õppida, võrreldes tõeliste piltidega. Tulemuseks on närvivõrgud, mis suudavad paremini teie kirjutatud kirjeldustest pilte teha.

Kõikide tekstist pildiks muutvate mudelite keskmes on nende võime vastendada objekte sõnadega. Sisestusteksti viipa korral (nt „laps, kes hoiab päikesepaistelisel päeval punast õhupalli”) peaksid nad tagastama kirjeldusele ligilähedase kujutise. Selleks peavad nad õppima, kuidas laps, punane õhupall ja päikesepaisteline päev välja näevad.

MIT-Google'i meeskond usub, et närvivõrgud võivad pärast tehisintellektiga tehtud piltide treenimist luua täpsemaid pilte viipade põhjal, mitte kasutada tõelisi klõpse. Selle demonstreerimiseks arenes rühm välja StableRep, mis õpib, kuidas muuta populaarse avatud lähtekoodiga tekst-pildiks mudeli Stable Diffusion loodud piltidelt kirjeldavad kirjalikud pealdised õigeteks vastavateks kujutisteks.

Teisisõnu: väljakujunenud, koolitatud tehisintellekti mudeli kasutamine teiste mudelite õpetamiseks.

Nagu teadlaste trükieelne paber, mis avaldati kaudu arXiv Eelmise kuu lõpus ütleb: "Ainult sünteetiliste piltide puhul ületavad StableRepi õpitud esitused SimCLR-i ja CLIP-i poolt õpitud esitusi, kasutades sama tekstiviipade komplekti ja vastavaid reaalseid pilte suuremahulistes andmekogumites." SimCLR ja CLIP on masinõppe algoritmid, mida saab kasutada tekstiviipade põhjal piltide tegemiseks.

"Kui lisame veel keelejärelevalve, saavutab 20 miljoni sünteetilise pildiga koolitatud StableRep parema täpsuse kui 50 miljoni reaalse pildiga koolitatud CLIP," jätkab artikkel.

Masinõppe algoritmid püüavad objektide tunnuste ja sõnade tähenduste vahelisi seoseid arvude massiivina. Kasutades StableRepi, saavad teadlased seda protsessi hoolikamalt juhtida – koolitada mudelit mitmel Stable Diffusion’i loodud pildil sama viipa alusel. See tähendab, et mudel saab õppida mitmekesisemaid visuaalseid kujutisi ja näha, millised pildid vastavad viipadele paremini kui teised.

Ma arvan, et meil on ökosüsteem, mis koosneb mõnest mudelist, mis on koolitatud reaalsetel andmetel, mõned aga sünteetilistel andmetel

"Me õpetame mudelit, et saada rohkem teavet kõrgetasemeliste kontseptsioonide kohta konteksti ja dispersiooni kaudu, mitte ainult andmete söötmise kaudu," Lijie Fan, uuringu juhtivteadur ja MIT-i elektrotehnika doktorant. selgitas see nädal. "Kui kasutate mitut pilti, mis kõik on genereeritud samast tekstist ja mida kõiki käsitletakse sama aluseks oleva asja kujutisena, sukeldub mudel sügavamale piltide – näiteks objekti –, mitte ainult nende pikslite taga olevatesse mõistetesse."

Nagu eespool märgitud, tähendab see lähenemine ka seda, et saate oma närvivõrgu treenimiseks kasutada vähem sünteetilisi kujutisi kui tegelikke ja saavutada paremaid tulemusi – mis on tehisintellekti arendajatele kasulik.

Sellised meetodid nagu StableRep tähendavad, et tekstist pildiks muutvaid mudeleid võidakse ühel päeval õpetada sünteetiliste andmete põhjal. See võimaldaks arendajatel vähem toetuda reaalsetele piltidele ja võib osutuda vajalikuks, kui AI-mootorid ammendavad olemasolevaid võrguressursse.

"Ma arvan, et [AI mudelite koolitamine sünteetiliste piltide peal] muutub üha tavalisemaks," ütles artikli kaasautor ja MIT-i arvutinägemise dotsent Phillip Isola. Register. "Ma arvan, et meil on ökosüsteem, mis koosneb mõnest mudelist, mis on koolitatud reaalsete andmete, mõned sünteetiliste andmete põhjal, ja võib-olla koolitatakse enamik mudeleid mõlemal."

Ainult AI loodud piltidele on raske loota, sest nende kvaliteet ja eraldusvõime on sageli kehvemad kui päris fotodel. Neid loovad tekstist pildiks mudelid on ka muul viisil piiratud. Stabiilne hajutamine ei tooda alati tekstiviipadele truu pilte.

Isola hoiatas, et sünteetiliste piltide kasutamine ei välista ka võimalikku autoriõiguste rikkumist, kuna neid loonud mudelid olid tõenäoliselt kaitstud materjalidega koolitatud.

"Sünteetilised andmed võivad sisaldada autoriõiguse andmete täpseid koopiaid. Sünteetilised andmed pakuvad aga ka uusi võimalusi IP ja privaatsusega seotud probleemidest mööda hiilimiseks, sest me saame potentsiaalselt sellesse sekkuda, muutes generatiivset mudelit tundlike atribuutide eemaldamiseks,“ selgitas ta.

Meeskond hoiatas ka, et tehisintellektiga loodud piltide koolitussüsteemid võivad potentsiaalselt süvendada nende aluseks oleva teksti-pildiks mudeli põhjal õpitud eelarvamusi. ®