Text-till-bild-modeller lär sig mer effektivt med falska data

Text-till-bild-modeller lär sig mer effektivt med falska data

Text-till-bild-modeller lär sig mer effektivt med falska data PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Syntetiska bilder kan hjälpa AI-modeller att lära sig visuella representationer mer exakt jämfört med riktiga bilder, enligt datavetare vid MIT och Google. Resultatet är neurala nätverk som är bättre på att göra bilder från dina skrivna beskrivningar.

Kärnan i alla text-till-bild-modeller är deras förmåga att kartlägga objekt till ord. Med tanke på en textuppmaning – till exempel "ett barn som håller i en röd ballong en solig dag", till exempel – bör de returnera en bild som approximerar beskrivningen. För att göra detta måste de lära sig de visuella representationerna av hur ett barn, en röd ballong och en solig dag kan se ut. 

MIT-Google-teamet tror att neurala nätverk kan generera mer exakta bilder från uppmaningar efter att ha tränats på AI-tillverkade bilder i motsats till att använda riktiga snaps. För att visa detta utvecklades gruppen StallRep, som lär sig hur man omvandlar beskrivande skrivna bildtexter till korrekta bilder från bilder som genererats av den populära text-till-bild-modellen med öppen källkod Stable Diffusion.

Med andra ord: att använda en etablerad, tränad AI-modell för att lära ut andra modeller.

Som forskarnas förtryckta papper, släppt via arXiv i slutet av förra månaden, uttrycker det: "Med enbart syntetiska bilder överträffar representationerna som lärts av StableRep prestandan för representationer som lärts av SimCLR och CLIP med samma uppsättning textuppmaningar och motsvarande verkliga bilder, på datauppsättningar i stor skala." SimCLR och CLIP är maskinlärande algoritmer som kan användas för att skapa bilder från textuppmaningar.

"När vi ytterligare lägger till språkövervakning, uppnår StableRep tränad med 20 miljoner syntetiska bilder bättre noggrannhet än CLIP tränad med 50 miljoner riktiga bilder", fortsätter tidningen.

Maskininlärningsalgoritmer fångar relationerna mellan objektens egenskaper och ordens betydelser som en rad siffror. Genom att använda StableRep kan forskarna kontrollera denna process mer noggrant - träna en modell på flera bilder som genereras av Stable Diffusion på samma prompt. Det betyder att modellen kan lära sig mer olika visuella representationer och kan se vilka bilder som matchar uppmaningarna bättre än andra. 

Jag tror att vi kommer att ha ett ekosystem av några modeller tränade på riktiga data, några på syntetiska

"Vi lär modellen att lära oss mer om begrepp på hög nivå genom kontext och varians, inte bara att mata den med data," Lijie Fan, huvudforskare för studien och doktorand i elektroteknik vid MIT, förklarade Denna vecka. "När du använder flera bilder, alla genererade från samma text, alla behandlade som skildringar av samma underliggande sak, dyker modellen djupare in i koncepten bakom bilderna - säg objektet - inte bara deras pixlar."

Som nämnts ovan innebär detta tillvägagångssätt också att du kan använda färre syntetiska bilder för att träna ditt neurala nätverk än riktiga, och få bättre resultat – vilket är win-win för AI-utvecklare.

Metoder som StableRep innebär att text-till-bild-modeller en dag kan tränas på syntetisk data. Det skulle göra det möjligt för utvecklare att förlita sig mindre på riktiga bilder, och kan vara nödvändigt om AI-motorer tar ut tillgängliga onlineresurser.

"Jag tror att [att träna AI-modeller på syntetiska bilder] kommer att bli allt vanligare," berättade Phillip Isola, medförfattare till tidningen och docent i datorseende vid MIT, Registret. "Jag tror att vi kommer att ha ett ekosystem av vissa modeller tränade på verklig data, några på syntetiska och kanske de flesta modellerna kommer att tränas på båda."

Det är svårt att enbart förlita sig på AI-genererade bilder eftersom deras kvalitet och upplösning ofta är sämre än riktiga fotografier. Text-till-bild-modellerna som genererar dem är också begränsade på andra sätt. Stabil diffusion producerar inte alltid bilder som är trogna textuppmaningar.

Isola varnade för att användningen av syntetiska bilder inte heller strider mot det potentiella problemet med upphovsrättsintrång, eftersom modellerna som genererade dem troligen har tränats på skyddat material.

"De syntetiska uppgifterna kan innehålla exakta kopior av upphovsrättsdata. Men syntetisk data ger också nya möjligheter att komma runt frågor om IP och integritet, eftersom vi potentiellt kan ingripa i det, genom att redigera den generativa modellen för att ta bort känsliga attribut”, förklarade han.

Teamet varnade också för att träningssystem för AI-genererade bilder potentiellt skulle kunna förvärra fördomar som lärts av deras underliggande text-till-bild-modell. ®

Tidsstämpel:

Mer från Registret