Ricerca di immagini basata sulla somiglianza per l'arte visiva PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Ricerca di immagini basate sulla somiglianza per l'arte visiva

La ricerca di immagini basata sulla somiglianza, nota anche come recupero di immagini basato sul contenuto, è stata storicamente un compito impegnativo di visione artificiale. Questo problema è particolarmente difficile per l'arte visiva, perché è meno ovvio come debba essere definita una metrica di “somiglianza” e chi dovrebbe fissare tale standard per l'art.

Ad esempio, quando carico la foto di un murale con una faccia tra rettangoli colorati e linee in grassetto (vedi immagini sotto) su Google per trovare immagini simili, Google mi offre una serie di opzioni nella sua sezione "Immagini visivamente simili". La maggior parte delle immagini erano murales con un volto raffigurato in modo prominente nel murale; altri erano puri dipinti con un volto. Tutte le immagini abbracciavano un'ampia varietà di combinazioni di colori e trame stilistiche.

ricerca di immagini
A sinistra: foto di un murale scattata da Timon Klauser (Unsplash).
A destra: screenshot di Google di quelle che Google considera immagini simili a questa foto.

A 2018 carta da Geirhos, et al. [1] hanno rivelato che le reti neurali convoluzionali (CNN) addestrate su ImageNet sono prevenute per la trama stilistica dell'immagine. Per costringere una CNN ad apprendere invece una rappresentazione basata sulla forma, i ricercatori hanno applicato il trasferimento di stile su ImageNet per creare invece un set di dati "Stylized-ImageNet".

Ho deciso di basarmi sulle loro scoperte per indagare sull'effetto dell'allenamento di coppie di opere d'arte dagli stessi stili artistici su un modello con pregiudizio per la trama rispetto a un modello con pregiudizio per la forma. Confrontando coppie di dipinti di Vincent van Gogh e Georgia O'Keeffe, entrambi artisti con stili artistici molto distintivi, ho scoperto che il modello di AlexNet con formazione di ImageNet, orientato alla trama, ha fatto un lavoro molto migliore correlando i pezzi degli stessi artisti (Figura 1) rispetto al modello AlexNet formato da Stylized-ImageNet e formato da una distorsione di forma (Figura 2).

La mia conclusione principale da questo esperimento è stata che nel valutare la somiglianza dell'arte visiva, se consideriamo come criterio di somiglianza le opere d'arte dello stesso artista, poi la trama stilistica era molto più importante cercare e confrontare rispetto alle rappresentazioni delle forme. Tuttavia, la valutazione dello “stile” sembra un processo percettivo molto soggettivo e umano. Questa scoperta mi ha reso ancora più curioso di sapere quali metodi tecnici potrebbero combinare sia il giudizio umano che quello quantitativo nel determinare la somiglianza artistica.

ricerca di immagini
Figura 1: Punteggi di correlazione quando addestrati su AlexNet addestrato da ImageNet (un modello basato sulla trama). Si noti che i punteggi di correlazione per le coppie di immagini dello stesso artista vangogh1-vangogh2 e okeeffe1-okeeffe2 sono molto più alti dei punteggi per le coppie di immagini di artisti diversi vangogh1-okeeffe1 e vangogh2-okeeffe2.
ricerca di immagini
Figura 2: Punteggi di correlazione quando addestrato su AlexNet formato da Stylized-ImageNet (un modello con distorsione della forma). Si noti che i punteggi di correlazione per le coppie di immagini dello stesso artista vangogh1-vangogh2 e okeeffe1-okeeffe2 e per le coppie di immagini di artisti diversi vangogh1-okeeffe1 e vangogh2-okeeffe2 sono tutti piuttosto simili.

A 2011 carta da Hughes et al. [2] ha combinato la ricerca quantitativa e psicologica per concludere questo combinare informazioni percettive umane con rappresentazioni statistiche di ordine superiore dell'arte è stato estremamente efficace nel risolvere il problema della ricerca basata sulla somiglianza per l'arte. La percezione umana dello stile artistico è generalmente basata sulla qualità di elementi come linee, ombreggiature e colori, che sono difficili da catturare utilizzando statistiche di basso ordine. Pertanto, questi ricercatori hanno attinto a statistiche spaziali di ordine superiore e hanno applicato le loro scoperte al confronto dell'arte visiva. Quindi, hanno condotto esperimenti psicofisici che hanno chiesto ai partecipanti di giudicare la somiglianza tra coppie di opere d'arte e hanno utilizzato questi risultati in tandem con i loro modelli predittivi.

Se questo contenuto educativo approfondito è utile per te, iscriviti alla nostra mailing list AI per essere avvisato quando rilasciamo nuovo materiale. 

Processo quantitativo e risultati

Hughes et al. hanno svolto la loro ricerca su un set di dati di 308 immagini ad alta risoluzione di opere d'arte che abbracciano una varietà di artisti. Hanno usato due metodi di scomposizione delle immagini per estrarre le caratteristiche dalle immagini:

  • Filtro Gabor, che è sensibile alle linee e ai bordi con orientamenti e frequenze spaziali specifici
  • Modello di codifica sparso, che apprende una serie di funzioni di base associate a caratteristiche statistiche di ordine superiore di un'immagine

Dopo aver estratto le caratteristiche, hanno quindi confrontato e valutato queste immagini artistiche in base alle seguenti quattro metriche:

  • Orientamento del picco, che esamina quale orientamento si verifica l'ampiezza del picco nella trasformata di Fourier 2D della funzione di base appresa dal modello di codifica sparsa
  • Frequenza spaziale di picco, che esamina a quale frequenza spaziale si verifica l'ampiezza di picco
  • Larghezza di banda di orientamento, che misura quanto sia selettiva una funzione di base per quell'orientamento preferito
  • Larghezza di banda di frequenza spaziale, che misura quanto sia selettiva una funzione di base per quella frequenza spaziale preferita

Quindi, i ricercatori hanno esplorato diverse metriche di distanza (ad es. divergenza KL) per confrontare le distribuzioni delle quattro metriche di cui sopra per ricavare matrici di distanza. È importante notare che, poiché non esiste una verità di base sulla somiglianza stilistica, i ricercatori hanno confrontato le opere d'arte in base alla vera etichettatura dell'artista, ovvero a tutti i dipinti di Picasso viene assegnata la stessa etichetta, quindi le matrici delle distanze sono state costruite rispetto alla vera etichettatura dell'artista . L'esecuzione del clustering di k-medie utilizzando diverse metriche di distanza ha rivelato il successo complessivo dell'utilizzo di queste rappresentazioni statistiche di ordine superiore per le immagini di arti visive (vedi grafico sotto).

Ricerca di immagini basata sulla somiglianza per l'arte visiva PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.
Fonte: Hughes et al. [2]

Esperimenti di somiglianza percettiva psicofisica

Oltre a sviluppare un metodo per caratterizzare quantitativamente lo stile di visivo opere d'arte, i ricercatori hanno condotto due esperimenti psicofisici per sfruttare le informazioni percettive umane. Hanno chiesto ai partecipanti di giudicare la somiglianza tra coppie di immagini artistiche in arte astratta, paesaggi e ritratti, aggregando le loro risposte per creare una matrice di somiglianza per ciascuna delle tre categorie.

L'esperimento 1 ha cercato di confrontare il efficacia dei giudizi percettivi nel predire la relazione stilistica tra le opere d'arte. I ricercatori hanno presentato due immagini per categoria di immagine; quindi, hanno addestrato un modello di regressione utilizzando le distanze basate sulle caratteristiche per prevedere la distanza tra due immagini in base alla loro somiglianza percepita. Con i modelli appresi, hanno previsto le distanze tra le immagini trattenute e le immagini di allenamento. Infine, hanno confrontato la distanza prevista con la reale distanza percettiva tra le immagini.

I ricercatori hanno scoperto che le informazioni percettive provenienti da opere d'arte astratte e paesaggistiche consentivano previsioni statisticamente significative, il che ce lo dice informazioni statistiche utili non solo esistono nei dati di somiglianza percettiva, ma possono anche essere utilizzate per modellare le differenze tra le opere di arte visiva.

L'esperimento 2 ha misurato la misura in cui informazioni percettive limitate delle tre categorie di immagini potrebbe prevedere distinzioni e relazioni stilistiche in insiemi di immagini più ampi, che è direttamente rilevante per il problema della ricerca di immagini basata sulla somiglianza. Il processo era simile all'Esperimento 1, solo che questa volta hanno presentato 51 immagini nelle tre categorie e hanno utilizzato le immagini rimanenti per creare una matrice di distanza percettiva. La loro matrice della distanza prevista suggerisce che anche con informazioni percettive limitate, tali informazioni sono utili "guidando i modi in cui combiniamo le caratteristiche statistiche per comprendere la percezione dello stile".

Considerazioni finali

In sintesi, il documento di Hughes et al. "Confrontare le statistiche spaziali di ordine superiore e i giudizi percettivi nell'analisi stilometrica dell'arte" ci ha mostrato l'importanza e la necessità di combinare entrambe le informazioni percettive umane con informazioni statistiche di ordine superiore per valutare la somiglianza di arte visiva.

È ancora necessario condurre ulteriori ricerche psicologiche per valutare come lo stile artistico viene percepito, definito e valutato rispetto alla somiglianza. Nel loro articolo, menzionano come "[a] t presente ... ci sono solo una manciata di studi quantitativi sui fattori che governano la percezione dello stile umano".

Considerando il contesto più ampio della visione artificiale, è anche interessante pensare alla necessità di rappresentazioni statistiche di ordine superiore dello stile artistico in analogia con la necessità di strati di convoluzione più profondi nelle CNN.

Tutto sommato, radicare i giudizi nella percezione umana e allo stesso tempo ottimizzare e sfruttare tutte le informazioni quantitative disponibili è la chiave per considerare come sviluppare un migliore sistema di ricerca di immagini basato sulla somiglianza per l'opera d'arte visiva.

Riferimenti

[1] Geirhos, R., Rubisch, P., Michaelis, C., Bethge, M., Wichmann, FA e Brendel, W. “Le CNN addestrate da ImageNet sono sbilanciate verso la trama; l'aumento della distorsione della forma migliora la precisione e la robustezza. ICLR 2019. Prestampa di arXiV: https://arxiv.org/abs/1811.12231.

[2] Hughes, JM, Graham, DJ, Jacobsen, CR e Rockmore, DN "Confronto di statistiche spaziali di ordine superiore e giudizi percettivi nell'analisi stilometrica dell'arte". 2011 19a conferenza europea sull'elaborazione del segnale. https://ieeexplore.ieee.org/abstract/document/7073967.

Catherine Yeo è una studentessa universitaria ad Harvard e studia Informatica. Puoi trovarla su Twitter @caterinahyeo.

Questo articolo è stato ispirato da PSYCH 1406 di Harvard, "Sistemi visivi biologici e artificiali: come gli esseri umani e le macchine rappresentano il mondo visivo". Grazie al professor George Alvarez per il suo feedback e la sua guida.

Questo articolo è stato pubblicato in origine Verso la scienza dei dati e ripubblicato su TOPBOTS con il permesso dell'autore.

Ti piace questo articolo? Iscriviti per ulteriori aggiornamenti AI.

Ti faremo sapere quando rilasceremo più istruzione tecnica.

Il post Ricerca di immagini basate sulla somiglianza per l'arte visiva apparve prima TOPBOT.

Timestamp:

Di più da TOPBOT