2. Contenuti della presentazione
Image Retrieval
CBIR: content-based VS text-based
Relevance Feedback
Analisi del lavoro di tesi
Formulazione graph-based
Caso dellimage segmentation
Random walker per limage retrieval
Test sperimentali
Conclusioni e sviluppi futuri
3. La ricerca di immagini 1/3
Che cos竪 lImage Retrieval?
Perch辿 cercare immagini?
Le immagini sono informazioni
Cataloghi pubblici e privati di foto/immagini
Come cercare immagini?
Contenuto (Content-Based Image Retrieval)
Descrizione (Text-Based Image Retrieval)
Sistemi misti
4. La ricerca di immagini 2/3
Come interrogare un sistema di IR?
Query by example
Query by sketch
Query by text
Alcune applicazioni
Sistemi di ricerca per il web
Sicurezza e biometria
GIS
Beni culturali
Diagnostica medicale
Giornalismo e pubblicit
6. CBIR: Ricerca su contenuti 1/3
Content-Based VS Text-Based:
Impensabile annotazione manuale
La stessa immagine ha significati diversi per persone
diverse
Diversi livelli di dettaglio per descrivere unimmagine
Esempio:
pascolo, mucche, pastore,
persona, prato, montagna,
alberi, animali
7. CBIR: Ricerca su contenuti 2/3
Concetto di informazione visuale
visuale 竪 la query
visuale 竪 il ragionamento che guida la similitudine
visuali sono i criteri usati per lindicizzazione
Il recupero delle immagini 竪 legato agli elementi
percettivi usati per descrivere le immagini:
features basate su colore, shape, texture etc.
features complesse, vedi SIFT o GIST
8. CBIR: Ricerca su contenuti 3/3
Problemi e ambiti di ricerca aperti:
la questione semantic gap
domini delle immagini: narrow vs broad
features e misure di similarit
interazione dellutente
Il semantic gap 竪 la fonte principale di problemi!
9. Relevance feedback
Tecnica nata negli anni 60 nellambito del document
retrieval e ripresa con interesse dalla comunit CBIR verso
inizio-met anni 90
Metodo fondamentale per attaccare il problema del
semantic gap.
Concetto chiave di user-in-the-loop.
10. Temi del relevance feedback
Modelli di feedback:
positivo, positivo-negativo, positivo-neutro-negativo,
grado di rilevanza
Short-term VS Long-term learning.
Query localizzate e uso di sotto-immagini.
Incorporamento di metadati testuali.
Tecniche per sfruttare le immagini non etichettate:
semi-supervised learning e active learning
Ricalcolo del query-point e feature re-weighting.
Metodi kernel: approcci SVM-based.
Metodi probabilistici.
11. Analisi del lavoro di tesi svolto
Algoritmo di relevance feedback per limage
retrieval, in particolare CBIR.
Approccio graph-based:
i nodi rappresentano le immagini;
i pesi sugli archi rappresentano la similarit
Concetto di base: random walker.
Analogie con algoritmo gi esistente nel campo
dellimage segmentation.
Legami tra la teoria dei random walker su grafi, la
teoria del potenziale nel discreto e i circuiti elettrici.
12. Formulazione graph-based 1/2
Input del sistema: grafo pesato , insieme
di vertici , funzione
Output del sistema: ranking vector
Problema di ottimizzazione:
con i vincoli:
(a)
(b)
13. Formulazione graph-based 2/2
Riscrivendo in forma matriciale:
e pi湛 precisamente come:
Derivando rispetto a :
Risoluzione di un sistema di equazioni lineari nelle
variabili .
14. Random walk su grafi
I grafi come struttura per rappresentare i dati di un
problema.
Un random walk su un grafo indiretto corrisponde ad una
catena di Markov time-reversible.
Il random walk soddisfa infatti la cosiddetta Propriet di
Markov:
Dato un grafo indiretto , i pesi sugli archi
indicano la probabilit di spostarsi verso il nodo vicino.
Esempio di random walker: la navigazione di un utente
nel web.
15. Ispirazione dallimage segmentation
Algoritmo di image segmentation interattivo proposto
da Leo Grady (2006).
Limmagine 竪 un grafo i cui nodi sono i pixel.
Dati un certo numero di pixel predefiniti dallutente
(seeds) viene calcolata la probabilit che un random
walker li raggiunga, partendo da uno qualsiasi dei
pixel non etichettati.
Ad ogni pixel viene assegnata letichetta con la
probabilit pi湛 alta.
16. Ispirazione dallimage segmentation
Algoritmo di image segmentation interattivo proposto
da Leo Grady (2006).
Limmagine 竪 un grafo i cui nodi sono i pixel.
Dati un certo numero di pixel predefiniti dallutente
(seeds) viene calcolata la probabilit che un random
walker li raggiunga, partendo da uno qualsiasi dei
pixel non etichettati.
Ad ogni pixel viene assegnata letichetta con la
probabilit pi湛 alta.
17. Il problema di Dirichlet
Le probabilit del random walker possono essere
ottenute risolvendo il problema di Dirichlet.
La sua formulazione combinatoria 竪 la seguente:
Riscrivendo otteniamo:
Derivando rispetto a :
18. Analogia con i circuiti elettrici
La soluzione al problema combinatorio di Dirichlet su
un grafo arbitrario 竪 data esattamente dalla
distribuzione dei potenziali elettrici sui nodi di un
circuito.
I resistori che collegano i nodi del circuito
rappresentano linverso dei pesi (conduttanza).
Le condizioni vengono imposte fissando il potenziale
elettrico sui nodi specifici (seed).
19. Analogia con i circuiti elettrici
La soluzione al problema combinatorio di Dirichlet su
un grafo arbitrario 竪 data esattamente dalla
distribuzione dei potenziali elettrici sui nodi di un
circuito.
I resistori che collegano i nodi del circuito
rappresentano linverso dei pesi (conduttanza).
Le condizioni vengono imposte fissando il potenziale
elettrico sui nodi specifici (seed).
20. Random walker per limage retrieval
I nuovi nodi del grafo sono le immagini.
Gli unici due seed necessari sono le categorie
rilevante e non rilevante.
I pesi sugli archi rappresentano la similarit tra
coppie di immagini:
I round di feedback per popolare linsieme di seed.
25. Test sperimentali Features 1/4
Color Histogram:
rappresentazione della distribuzione del colore in
unimmagine
spazio dei colori HSV
8 intervalli per canale H e 4 per canale S
vettore finale 32-D
Color Histogram Layout:
suddivisione dellimmagine in 4 parti
feature Color Histogram applicata ad ogni sotto-
immagine
vettore finale 32-D (HxSxSub-img = 4x4x2)
26. Test sperimentali Feature 2/4
Color Moments:
la distribuzione del colore come distribuzione di
probabilit
spazio dei colori HSV
per ogni canale vengono estratti 3 color moment
1) mean, valore medio
2) deviazione standard, della distribuzione
3) skewness, grado di simmetria della distribuzione
vettore finale 9-D
27. Test sperimentali Feature 3/4
Gray Level Co-Occurrence Matrix (GLCM):
feature di tipo texture
considera la relazione spaziale tra i pixel ecco perch辿
detta anche Gray Level Spatial Dependence Matrix
vettore finale 20-D
28. Test sperimentali Feature 3/4
Gray Level Co-Occurrence Matrix (GLCM):
feature di tipo texture
considera la relazione spaziale tra i pixel ecco perch辿
detta anche Gray Level Spatial Dependence Matrix
vettore finale 20-D
29. Test sperimentali Feature 4/4
Global scene (GIST):
The gist is an abstract representation of the scene that
spontaneously activates memory representations of
scene categories (a city, a mountain, etc.) [cit.]
tenta di dare una rappresentazione di immagini reali
complesse usando le cosiddette Spatial Envelope
properties
individuare la shape-of-the-scene
vettore finale 60-D
30. Test sperimentali Feature 4/4
Global scene (GIST):
The gist is an abstract representation of the scene that
spontaneously activates memory representations of
scene categories (a city, a mountain, etc.) [cit.]
tenta di dare una rappresentazione di immagini reali
complesse usando le cosiddette Spatial Envelope
properties
individuare la shape-of-the-scene
vettore finale 60-D
31. Test Sperimentali:
Algoritmi e impostazioni
Algoritmi usati per i confronti:
Feature Re-Weighting
Relevance Score
Relevance Score Stabilized
Multiple Random Walk
8 round di feedback.
Dimensioni dello scope: 20, 30, 40.
32. Risultati Esempio di query
Immagine di query
Risultati dopo k-NN
Risultati dopo 1 RF
Risultati dopo 3 RF
Risultati dopo 6 RF
33. Risultati - Precisione della ricerca
(a) Wang Dataset (b) Oliva Dataset (c) Custom-Caltech Dataset
Feature usata: Color Histogram.
Random query: 500 query per (a) e (b). 100 query (c).
Dimensione scope: 20 elementi.
35. Risultati Performance sui tempi
(a) Wang Dataset (b) Oliva Dataset (c) Custom-Caltech Dataset
Feature usata: Color Histogram.
Random query: 500 query per (a) e (b). 100 query (c).
Dimensione scope: 20 elementi.
36. Risultati Implementazione sparsa
Feature usata: Color Moments.
Random query: 500 query random su dataset Oliva.
Dimensione scope: 20 elementi.
Versione sparsa: regola di approssimazione k-nn con k = 20
37. Conclusioni
Proposto un nuovo algoritmo per il CBIR con
relevance feedback
Bont dei risultati sperimentali ottenuti.
Metodo semplice da implementare e parameter-
free.
Possibilit di utilizzo in versione sparsa con dataset
pi湛 grandi.
11属 European Conference on Computer Vision
(ECCV 2010) S. Rota Bul嘆, M. Rabbi, M. Pelillo
Paper submitted.
38. Sviluppi futuri
Modello di feedback: es.
Query multi-immagine.
Estendere la parte sperimentale:
implementazione sparsa
datasets
features
Implementazione di un sistema completo di IR.
39. The End
Grazie per lattenzione!
contatti:
Massimo Rabbi
massimo.rabbi@gmail.com
http://www.securnetwork.net