Tekst-til-billede-modeller Lær mere effektivt med falske data

Genudgivet af Platon

Abonnenter: 0

Tekst-til-billede-modeller lærer mere effektivt med falske data PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Syntetiske billeder kan hjælpe AI-modeller med at lære visuelle repræsentationer mere præcist sammenlignet med rigtige snaps, ifølge computerforskere ved MIT og Google. Resultatet er neurale netværk, der er bedre til at lave billeder ud fra dine skrevne beskrivelser.

Kernen i alle tekst-til-billede-modeller er deres evne til at kortlægge objekter til ord. Givet en inputtekstprompt - såsom "et barn, der holder en rød ballon på en solskinsdag", for eksempel - bør de returnere et billede, der tilnærmer beskrivelsen. For at gøre dette skal de lære de visuelle repræsentationer af, hvordan et barn, en rød ballon og en solskinsdag kan se ud.

MIT-Google-teamet mener, at neurale netværk kan generere mere nøjagtige billeder fra prompter efter at være blevet trænet i AI-fremstillede billeder i modsætning til at bruge rigtige snaps. For at demonstrere dette udviklede gruppen sig StaldRep, som lærer at omdanne beskrivende skriftlige billedtekster til korrekte tilsvarende billeder fra billeder genereret af den populære open source tekst-til-billede model Stable Diffusion.

Med andre ord: at bruge en etableret, trænet AI-model til at undervise andre modeller.

Som forskernes pre-print papir, udgivet via arXiv i slutningen af sidste måned, siger det: "Med udelukkende syntetiske billeder overgår repræsentationerne lært af StableRep ydeevnen af repræsentationer lært af SimCLR og CLIP ved hjælp af det samme sæt tekstprompter og tilsvarende rigtige billeder på datasæt i stor skala." SimCLR og CLIP er maskinlæringsalgoritmer, der kan bruges til at lave billeder ud fra tekstprompter.

"Når vi yderligere tilføjer sprogovervågning, opnår StableRep trænet med 20 millioner syntetiske billeder bedre nøjagtighed end CLIP trænet med 50 millioner rigtige billeder," fortsætter avisen.

Maskinlæringsalgoritmer fanger forholdet mellem objekters egenskaber og ords betydning som en række tal. Ved at bruge StableRep kan forskerne kontrollere denne proces mere omhyggeligt - træne en model på flere billeder genereret af Stable Diffusion på samme prompt. Det betyder, at modellen kan lære mere forskelligartede visuelle repræsentationer og kan se, hvilke billeder der passer bedre til meddelelserne end andre.

Jeg tror, vi vil have et økosystem af nogle modeller trænet på rigtige data, nogle på syntetiske

"Vi lærer modellen at lære mere om begreber på højt niveau gennem kontekst og varians, ikke bare at forsyne den med data," Lijie Fan, ledende forsker i undersøgelsen og ph.d.-studerende i elektroteknik ved MIT, forklarede denne uge. "Når du bruger flere billeder, alle genereret ud fra den samme tekst, alle behandlet som afbildninger af den samme underliggende ting, dykker modellen dybere ned i koncepterne bag billederne - siger objektet - ikke kun deres pixels."

Som nævnt ovenfor betyder denne tilgang også, at du kan bruge færre syntetiske billeder til at træne dit neurale netværk end rigtige, og få bedre resultater - hvilket er win-win for AI-udviklere.

Metoder som StableRep betyder, at tekst-til-billede-modeller en dag kan trænes på syntetiske data. Det ville gøre det muligt for udviklere at stole mindre på rigtige billeder, og det kan være nødvendigt, hvis AI-motorer udtømmer tilgængelige onlineressourcer.

"Jeg tror, at [træning af AI-modeller på syntetiske billeder] vil blive mere og mere almindeligt," fortalte Phillip Isola, medforfatter af papiret og lektor i computersyn ved MIT, Registret. "Jeg tror, vi vil have et økosystem af nogle modeller trænet på rigtige data, nogle på syntetiske, og måske vil de fleste modeller blive trænet på begge."

Det er svært at stole udelukkende på AI-genererede billeder, fordi deres kvalitet og opløsning ofte er dårligere end rigtige fotografier. Tekst-til-billede-modellerne, der genererer dem, er også begrænset på andre måder. Stabil diffusion producerer ikke altid billeder, der er trofaste over for tekstmeddelelser.

Isola advarede om, at brugen af syntetiske billeder heller ikke overskrider det potentielle problem med ophavsretskrænkelse, da modellerne, der genererede dem, sandsynligvis blev trænet i beskyttet materiale.

"De syntetiske data kan omfatte nøjagtige kopier af copyright-data. Syntetiske data giver dog også nye muligheder for at komme uden om spørgsmål om IP og privatliv, fordi vi potentielt kan gribe ind i det ved at redigere den generative model for at fjerne følsomme egenskaber,” forklarede han.

Holdet advarede også om, at træningssystemer på AI-genererede billeder potentielt kunne forværre skævheder lært af deres underliggende tekst-til-billede-model. ®

SEO Powered Content & PR Distribution. Bliv forstærket i dag.
PlatoData.Network Vertical Generative Ai. Styrk dig selv. Adgang her.
PlatoAiStream. Web3 intelligens. Viden forstærket. Adgang her.
PlatoESG. Kulstof, CleanTech, Energi, Miljø, Solenergi, Affaldshåndtering. Adgang her.
PlatoHealth. Bioteknologiske og kliniske forsøgs intelligens. Adgang her.
Kilde: https://go.theregister.com/feed/www.theregister.com/2023/11/22/texttoimage_models_mit/

Tidsstempel: November 22, 2023

Tidsstempel: September 25, 2023

Tekst-til-billede-modeller lærer mere effektivt med falske data

Genudgivet af Platon

Mere fra Registret

ChatGPT finder en rollespil Dungeons & Dragons

OpenAI opfordrer til et globalt agentur til at regulere superintelligens

Humanoid robot tager et detailjob, men ingen butiksmedarbejder ønsker at udføre

AI-medprogrammører vil måske ikke skabe så mange fejl som frygtet

Pladeselskab dropper AI-rapper efter modreaktion over stereotyper

Google Fotos AI kan stadig ikke mærke gorillaer

Påstande om kunstig intelligens mærket 'ren clickbait'

Er computersyn kuren mod skoleskyderier? Sandsynligvis ikke

Adobe: Tage brugerdata til at træne generative AI-modeller? Det ville vi aldrig gøre

OpenAIs næste tekst-til-billede-værktøj DALL·E 3 lanceres i oktober

Om os

Vertikal søgning & Ai

perron

Stay Connected

Konto