Tekstistä kuvaksi -mallit oppivat tehokkaammin väärennetyillä tiedoilla

Tekstistä kuvaksi -mallit oppivat tehokkaammin väärennetyillä tiedoilla

Tekstistä kuvaksi -mallit oppivat tehokkaammin väärennetyn tiedon PlatoBlockchain Data Intelligencen avulla. Pystysuuntainen haku. Ai.

MIT:n ja Googlen tietojenkäsittelytieteilijöiden mukaan synteettiset kuvat voivat auttaa tekoälymalleja oppimaan visuaalisia esityksiä tarkemmin verrattuna todellisiin kuviin. Tuloksena on hermoverkkoja, jotka pystyvät paremmin luomaan kuvia kirjoitetuista kuvauksistasi.

Kaikkien tekstistä kuvaksi -mallien ytimenä on niiden kyky kartoittaa esineitä sanoiksi. Kun syöttötekstikehote - kuten "lapsi pitelee punaista ilmapalloa aurinkoisena päivänä", heidän pitäisi palauttaa kuva, joka vastaa kuvausta. Tätä varten heidän on opittava visuaaliset esitykset siitä, miltä lapsi, punainen ilmapallo ja aurinkoinen päivä voivat näyttää. 

MIT-Google-tiimi uskoo, että hermoverkot voivat tuottaa tarkempia kuvia kehotteista sen jälkeen, kun ne on opetettu tekoälyllä tehtyihin kuviin, toisin kuin oikeiden snapsien käyttämiseen. Tämän osoittamiseksi ryhmä kehitti StableRep, joka oppii muuttamaan kuvaavat tekstitykset oikeiksi vastaaviksi kuviksi suositun avoimen lähdekoodin tekstistä kuvaksi -mallin Stable Diffusion luomista kuvista.

Toisin sanoen: vakiintuneen, koulutetun tekoälymallin käyttäminen muiden mallien opettamiseen.

Kuten tiedemiesten esipainettu paperi, julkaistu kautta arXiv Viime kuun lopussa sanoo: "Pelkästään synteettisillä kuvilla StableRepin oppimat esitykset ylittävät SimCLR:n ja CLIP:n esitysten suorituskyvyn käyttämällä samoja tekstikehotteita ja vastaavia todellisia kuvia suuressa mittakaavassa." SimCLR ja CLIP ovat koneoppimisalgoritmeja, joita voidaan käyttää kuvien tekemiseen tekstikehotteista.

"Kun lisäämme kielenvalvontaa, StableRep, joka on koulutettu 20 miljoonalla synteettisellä kuvalla, saavuttaa paremman tarkkuuden kuin CLIP, joka on koulutettu 50 miljoonalla todellisella kuvalla", paperi jatkaa.

Koneoppimisalgoritmit tallentavat esineiden ominaisuuksien ja sanojen merkityksen väliset suhteet numerojoukona. Käyttämällä StableRepia tutkijat voivat hallita tätä prosessia tarkemmin – kouluttaa mallia useille kuville, jotka Stable Diffusion on luonut samassa kehotteessa. Se tarkoittaa, että malli voi oppia monipuolisempia visuaalisia esityksiä ja voi nähdä, mitkä kuvat vastaavat kehotteita paremmin kuin muut. 

Uskon, että meillä on joidenkin mallien ekosysteemi, joka on koulutettu todelliseen dataan, toiset synteettisiin

"Opetamme mallia oppimaan lisää korkean tason käsitteistä kontekstin ja varianssin kautta, emme vain syöttämällä sitä dataa", Lijie Fan, tutkimuksen johtava tutkija ja MIT:n sähkötekniikan tohtoriopiskelija, selitti Tämä viikko. "Käytettäessä useita kuvia, jotka kaikki on luotu samasta tekstistä ja joita kaikkia käsitellään kuvauksina samasta taustalla olevasta asiasta, malli sukeltaa syvemmälle kuvien - esimerkiksi kohteen - takana oleviin käsitteisiin, ei vain niiden pikseleihin."

Kuten yllä todettiin, tämä lähestymistapa tarkoittaa myös sitä, että voit käyttää vähemmän synteettisiä kuvia hermoverkkosi harjoittamiseen kuin todellisia kuvia ja saada parempia tuloksia – mikä on AI-kehittäjille hyödyllistä.

StableRepin kaltaiset menetelmät tarkoittavat, että tekstistä kuvaksi -malleja voidaan jonain päivänä kouluttaa synteettisten tietojen avulla. Sen avulla kehittäjät voisivat luottaa vähemmän oikeisiin kuviin, ja se voi olla tarpeen, jos tekoälymoottorit käyttävät loppuun saatavilla olevat verkkoresurssit.

"Luulen, että [tekoälymallien kouluttaminen synteettisillä kuvilla] tulee olemaan yhä yleisempää", Phillip Isola, paperin toinen kirjoittaja ja MIT:n tietokonenäön apulaisprofessori, kertoi. Rekisteri. "Luulen, että meillä on ekosysteemi, jossa jotkut mallit on koulutettu todelliseen dataan, jotkut synteettisiin, ja ehkä useimmat mallit koulutetaan molemmilla."

On vaikea luottaa pelkästään tekoälyn luomiin kuviin, koska niiden laatu ja resoluutio on usein huonompi kuin oikeissa valokuvissa. Niitä luovat tekstistä kuvaksi -mallit ovat rajoitettuja myös muilla tavoin. Vakaa diffuusio ei aina tuota kuvia, jotka ovat uskollisia tekstikehotteille.

Isola varoitti, että synteettisten kuvien käyttö ei myöskään ohita mahdollista tekijänoikeusrikkomusongelmaa, koska niitä luovat mallit on todennäköisesti koulutettu suojatuille materiaaleille.

”Synteettiset tiedot voivat sisältää tarkkoja kopioita tekijänoikeustiedoista. Synteettinen data tarjoaa kuitenkin myös uusia mahdollisuuksia IP- ja yksityisyyden ongelmien kiertämiseen, koska voimme mahdollisesti puuttua siihen muokkaamalla generatiivista mallia poistamaan arkaluonteiset attribuutit", hän selitti.

Tiimi varoitti myös, että tekoälyn luomien kuvien koulutusjärjestelmät voivat mahdollisesti pahentaa taustalla olevan tekstistä kuvaksi -mallin oppimia harhoja. ®

Aikaleima:

Lisää aiheesta Rekisteri