Tekstistä kuvaksi -mallit oppivat tehokkaammin väärennetyillä tiedoilla

Julkaissut Platon

seuraajia: 0

Tekstistä kuvaksi -mallit oppivat tehokkaammin väärennetyn tiedon PlatoBlockchain Data Intelligencen avulla. Pystysuuntainen haku. Ai.

MIT:n ja Googlen tietojenkäsittelytieteilijöiden mukaan synteettiset kuvat voivat auttaa tekoälymalleja oppimaan visuaalisia esityksiä tarkemmin verrattuna todellisiin kuviin. Tuloksena on hermoverkkoja, jotka pystyvät paremmin luomaan kuvia kirjoitetuista kuvauksistasi.

Kaikkien tekstistä kuvaksi -mallien ytimenä on niiden kyky kartoittaa esineitä sanoiksi. Kun syöttötekstikehote - kuten "lapsi pitelee punaista ilmapalloa aurinkoisena päivänä", heidän pitäisi palauttaa kuva, joka vastaa kuvausta. Tätä varten heidän on opittava visuaaliset esitykset siitä, miltä lapsi, punainen ilmapallo ja aurinkoinen päivä voivat näyttää.

MIT-Google-tiimi uskoo, että hermoverkot voivat tuottaa tarkempia kuvia kehotteista sen jälkeen, kun ne on opetettu tekoälyllä tehtyihin kuviin, toisin kuin oikeiden snapsien käyttämiseen. Tämän osoittamiseksi ryhmä kehitti StableRep, joka oppii muuttamaan kuvaavat tekstitykset oikeiksi vastaaviksi kuviksi suositun avoimen lähdekoodin tekstistä kuvaksi -mallin Stable Diffusion luomista kuvista.

Toisin sanoen: vakiintuneen, koulutetun tekoälymallin käyttäminen muiden mallien opettamiseen.

Kuten tiedemiesten esipainettu paperi, julkaistu kautta arXiv Viime kuun lopussa sanoo: "Pelkästään synteettisillä kuvilla StableRepin oppimat esitykset ylittävät SimCLR:n ja CLIP:n esitysten suorituskyvyn käyttämällä samoja tekstikehotteita ja vastaavia todellisia kuvia suuressa mittakaavassa." SimCLR ja CLIP ovat koneoppimisalgoritmeja, joita voidaan käyttää kuvien tekemiseen tekstikehotteista.

"Kun lisäämme kielenvalvontaa, StableRep, joka on koulutettu 20 miljoonalla synteettisellä kuvalla, saavuttaa paremman tarkkuuden kuin CLIP, joka on koulutettu 50 miljoonalla todellisella kuvalla", paperi jatkaa.

Koneoppimisalgoritmit tallentavat esineiden ominaisuuksien ja sanojen merkityksen väliset suhteet numerojoukona. Käyttämällä StableRepia tutkijat voivat hallita tätä prosessia tarkemmin – kouluttaa mallia useille kuville, jotka Stable Diffusion on luonut samassa kehotteessa. Se tarkoittaa, että malli voi oppia monipuolisempia visuaalisia esityksiä ja voi nähdä, mitkä kuvat vastaavat kehotteita paremmin kuin muut.

Uskon, että meillä on joidenkin mallien ekosysteemi, joka on koulutettu todelliseen dataan, toiset synteettisiin

"Opetamme mallia oppimaan lisää korkean tason käsitteistä kontekstin ja varianssin kautta, emme vain syöttämällä sitä dataa", Lijie Fan, tutkimuksen johtava tutkija ja MIT:n sähkötekniikan tohtoriopiskelija, selitti Tämä viikko. "Käytettäessä useita kuvia, jotka kaikki on luotu samasta tekstistä ja joita kaikkia käsitellään kuvauksina samasta taustalla olevasta asiasta, malli sukeltaa syvemmälle kuvien - esimerkiksi kohteen - takana oleviin käsitteisiin, ei vain niiden pikseleihin."

Kuten yllä todettiin, tämä lähestymistapa tarkoittaa myös sitä, että voit käyttää vähemmän synteettisiä kuvia hermoverkkosi harjoittamiseen kuin todellisia kuvia ja saada parempia tuloksia – mikä on AI-kehittäjille hyödyllistä.

StableRepin kaltaiset menetelmät tarkoittavat, että tekstistä kuvaksi -malleja voidaan jonain päivänä kouluttaa synteettisten tietojen avulla. Sen avulla kehittäjät voisivat luottaa vähemmän oikeisiin kuviin, ja se voi olla tarpeen, jos tekoälymoottorit käyttävät loppuun saatavilla olevat verkkoresurssit.

"Luulen, että [tekoälymallien kouluttaminen synteettisillä kuvilla] tulee olemaan yhä yleisempää", Phillip Isola, paperin toinen kirjoittaja ja MIT:n tietokonenäön apulaisprofessori, kertoi. Rekisteri. "Luulen, että meillä on ekosysteemi, jossa jotkut mallit on koulutettu todelliseen dataan, jotkut synteettisiin, ja ehkä useimmat mallit koulutetaan molemmilla."

On vaikea luottaa pelkästään tekoälyn luomiin kuviin, koska niiden laatu ja resoluutio on usein huonompi kuin oikeissa valokuvissa. Niitä luovat tekstistä kuvaksi -mallit ovat rajoitettuja myös muilla tavoin. Vakaa diffuusio ei aina tuota kuvia, jotka ovat uskollisia tekstikehotteille.

Isola varoitti, että synteettisten kuvien käyttö ei myöskään ohita mahdollista tekijänoikeusrikkomusongelmaa, koska niitä luovat mallit on todennäköisesti koulutettu suojatuille materiaaleille.

”Synteettiset tiedot voivat sisältää tarkkoja kopioita tekijänoikeustiedoista. Synteettinen data tarjoaa kuitenkin myös uusia mahdollisuuksia IP- ja yksityisyyden ongelmien kiertämiseen, koska voimme mahdollisesti puuttua siihen muokkaamalla generatiivista mallia poistamaan arkaluonteiset attribuutit", hän selitti.

Tiimi varoitti myös, että tekoälyn luomien kuvien koulutusjärjestelmät voivat mahdollisesti pahentaa taustalla olevan tekstistä kuvaksi -mallin oppimia harhoja. ®

SEO-pohjainen sisällön ja PR-jakelu. Vahvista jo tänään.
PlatoData.Network Vertical Generatiivinen Ai. Vahvista itseäsi. Pääsy tästä.
PlatoAiStream. Web3 Intelligence. Tietoa laajennettu. Pääsy tästä.
PlatoESG. hiili, CleanTech, energia, ympäristö, Aurinko, Jätehuolto. Pääsy tästä.
PlatonHealth. Biotekniikan ja kliinisten kokeiden älykkyys. Pääsy tästä.
Lähde: https://go.theregister.com/feed/www.theregister.com/2023/11/22/texttoimage_models_mit/

Aikaleima: Marraskuussa 22, 2023

Aikaleima: Mar 28, 2024

Tekstistä kuvaksi -mallit oppivat tehokkaammin väärennetyillä tiedoilla

Julkaissut Platon

Lisää aiheesta Rekisteri

OpenAI vastaa Elon Muskin kanteeseen sähköpostilla

Outo robotti hajosi keskellä House of Lordsin kuulemista tekoälytaiteesta

Ford ostaa Keski-Britannian markkinoille Kiinan sähköajoneuvojen tytäryhtiön kanssa

Microsoft esittelee Copilot-sovellukset mobiililaitteille

ChatGPT-tutkimus viittaa siihen, että sen LLM:t ovat tulossa typerimmiksi

Tekoäly auttaa luomaan bioaseita kolmen vuoden sisällä, sanoo asiantuntija

Microsoft julkaisee nämä turvatyökalut Azure AI:lle

Tietoa meistä

Pystysuuntainen haku ja Ai

foorumi

Pysy yhteydessä

Tili