Tekst-til-billede-modeller lærer mere effektivt med falske data

Tekst-til-billede-modeller lærer mere effektivt med falske data

Tekst-til-billede-modeller lærer mere effektivt med falske data PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Syntetiske billeder kan hjælpe AI-modeller med at lære visuelle repræsentationer mere præcist sammenlignet med rigtige snaps, ifølge computerforskere ved MIT og Google. Resultatet er neurale netværk, der er bedre til at lave billeder ud fra dine skrevne beskrivelser.

Kernen i alle tekst-til-billede-modeller er deres evne til at kortlægge objekter til ord. Givet en inputtekstprompt - såsom "et barn, der holder en rød ballon på en solskinsdag", for eksempel - bør de returnere et billede, der tilnærmer beskrivelsen. For at gøre dette skal de lære de visuelle repræsentationer af, hvordan et barn, en rød ballon og en solskinsdag kan se ud. 

MIT-Google-teamet mener, at neurale netværk kan generere mere nøjagtige billeder fra prompter efter at være blevet trænet i AI-fremstillede billeder i modsætning til at bruge rigtige snaps. For at demonstrere dette udviklede gruppen sig StaldRep, som lærer at omdanne beskrivende skriftlige billedtekster til korrekte tilsvarende billeder fra billeder genereret af den populære open source tekst-til-billede model Stable Diffusion.

Med andre ord: at bruge en etableret, trænet AI-model til at undervise andre modeller.

Som forskernes pre-print papir, udgivet via arXiv i slutningen af ​​sidste måned, siger det: "Med udelukkende syntetiske billeder overgår repræsentationerne lært af StableRep ydeevnen af ​​repræsentationer lært af SimCLR og CLIP ved hjælp af det samme sæt tekstprompter og tilsvarende rigtige billeder på datasæt i stor skala." SimCLR og CLIP er maskinlæringsalgoritmer, der kan bruges til at lave billeder ud fra tekstprompter.

"Når vi yderligere tilføjer sprogovervågning, opnår StableRep trænet med 20 millioner syntetiske billeder bedre nøjagtighed end CLIP trænet med 50 millioner rigtige billeder," fortsætter avisen.

Maskinlæringsalgoritmer fanger forholdet mellem objekters egenskaber og ords betydning som en række tal. Ved at bruge StableRep kan forskerne kontrollere denne proces mere omhyggeligt - træne en model på flere billeder genereret af Stable Diffusion på samme prompt. Det betyder, at modellen kan lære mere forskelligartede visuelle repræsentationer og kan se, hvilke billeder der passer bedre til meddelelserne end andre. 

Jeg tror, ​​vi vil have et økosystem af nogle modeller trænet på rigtige data, nogle på syntetiske

"Vi lærer modellen at lære mere om begreber på højt niveau gennem kontekst og varians, ikke bare at forsyne den med data," Lijie Fan, ledende forsker i undersøgelsen og ph.d.-studerende i elektroteknik ved MIT, forklarede denne uge. "Når du bruger flere billeder, alle genereret ud fra den samme tekst, alle behandlet som afbildninger af den samme underliggende ting, dykker modellen dybere ned i koncepterne bag billederne - siger objektet - ikke kun deres pixels."

Som nævnt ovenfor betyder denne tilgang også, at du kan bruge færre syntetiske billeder til at træne dit neurale netværk end rigtige, og få bedre resultater - hvilket er win-win for AI-udviklere.

Metoder som StableRep betyder, at tekst-til-billede-modeller en dag kan trænes på syntetiske data. Det ville gøre det muligt for udviklere at stole mindre på rigtige billeder, og det kan være nødvendigt, hvis AI-motorer udtømmer tilgængelige onlineressourcer.

"Jeg tror, ​​at [træning af AI-modeller på syntetiske billeder] vil blive mere og mere almindeligt," fortalte Phillip Isola, medforfatter af papiret og lektor i computersyn ved MIT, Registret. "Jeg tror, ​​vi vil have et økosystem af nogle modeller trænet på rigtige data, nogle på syntetiske, og måske vil de fleste modeller blive trænet på begge."

Det er svært at stole udelukkende på AI-genererede billeder, fordi deres kvalitet og opløsning ofte er dårligere end rigtige fotografier. Tekst-til-billede-modellerne, der genererer dem, er også begrænset på andre måder. Stabil diffusion producerer ikke altid billeder, der er trofaste over for tekstmeddelelser.

Isola advarede om, at brugen af ​​syntetiske billeder heller ikke overskrider det potentielle problem med ophavsretskrænkelse, da modellerne, der genererede dem, sandsynligvis blev trænet i beskyttet materiale.

"De syntetiske data kan omfatte nøjagtige kopier af copyright-data. Syntetiske data giver dog også nye muligheder for at komme uden om spørgsmål om IP og privatliv, fordi vi potentielt kan gribe ind i det ved at redigere den generative model for at fjerne følsomme egenskaber,” forklarede han.

Holdet advarede også om, at træningssystemer på AI-genererede billeder potentielt kunne forværre skævheder lært af deres underliggende tekst-til-billede-model. ®

Tidsstempel:

Mere fra Registret