Pre-processing ed Estrazione delle caratteristiche

Transcript

Pre-processing ed
Estrazione delle
caratteristiche
Roberto Tagliaferri
Dipartimento di Matematica ed Informatica
Università di Salerno
84081 Baronissi (Sa)
e-mail [email protected]
Corso di dottorato: Apprendimento automatico e
Pattern Recognition statistico
Pre-processing ed
Estrazione delle caratteristiche
●
Introduzione
●
Pre-processing e post-processing
●
Normalizzazione e codifica degli input
●
Selezione delle caratteristiche
●
Analisi delle componenti principali (PCA)
Introduzione
"
In teoria, la natura general-purpose delle reti neurali e la
loro capacità di realizzare arbitrarie funzioni input-output,
porta minore enfasi all'attenta ottimizzazione del preprocessing rispetto alle semplici tecniche lineari
"
In pratica, la scelta del Pre-processing è uno dei più
significativi fattori nel determinare il buon risultato
dell'esperimento
"
Nei casi più semplici abbiamo una trasformazione lineare
dei dati input (ed eventualmente anche di quelli output)
"
In casi più complessi abbiamo anche una riduzione della
dimensione degli input
"
Un altro modo di migliorare la performance del sistema è
di inserire informazione a priori nell'architettura della rete
"
Un problema è quando abbiamo dati mancanti, incompleti
o parzialmente sbagliati
Pre-processing e postprocessing
"
In figura abbiamo la collocazione di una rete neurale tra i
passi di pre- e post-processing
"
Quando usiamo algoritmi batch per l'apprendimento, è
conveniente prima pre-processare tutti i dati e poi
effettuare il training
"
Quando usiamo algoritmi on-line, ogni dato viene pre-
processato prima di passarlo alla rete
"
Se usiamo il post-processing dei dati, i target devono
essere trasformati usando l'inversa della trasformazione del
post-processing
"
Dopo il training, i dati di test devono passare attraverso il
pre-processing, poi attraverso la rete ed infine attraverso la
trasformazione del post-processing
"
Una delle più importanti forme di pre-processing è la
riduzione della dimensione dell'input per by-passare il
problema della curse of dimensionality
"
La più semplice riduzione della dimensione dell'input
consiste nell'eliminazione di alcune variabili input meno
significative
"
Un altro approccio corrisponde alla realizzazione di
features (caratteristiche) attraverso la combinazione lineare
e non-lineare degli input, detto feature extraction
"
Altri approcci portano alla riduzione della dimensione
dell'input attraverso delle proiezioni in spazi di dimensione
minore (PCA, discriminante lineare di Fisher)
"
Altri ancora dalla selezione delle caratteristiche

Una dimensione più piccola dell'input porta ad una rete
✔
con meno parametri adattivi,
✔
con una migliore capacità di generalizzazione e
✔
con una maggiore velocità nell'apprendimento
"
La riduzione della dimensione dell'input porta anche ad
una perdita di informazione
"
Scopo delle tecniche di riduzione della dimensione degli
input è di assicurare la permanenza della massima
informazione rilevante possibile
"
Consideriamo un problema di classificazione in cui
assegnare ad un vettore input x una tra c classi Ck
"
Il minimo errore si ottiene quando x è assegnato alla
classe Ck che ha massima probabilità a posteriori P(Ck|x)
"
Se guardiamo a queste probabilità come a features, poiché
abbiamo
c
∑k =1 P C k∣x =1
allora in principio bastano c - 1 features indipendenti per
ottenere il classificatore ottimale

In pratica dobbiamo trattenere molte più caratteristiche
per essere sicuri di non perdere troppa informazione utile
Normalizzazione e codifica
degli input
"
Il primo semplice passo che si effettua è un semplice
rescaling lineare delle variabili input, per evitare che
variabili assumano valori maggiori di altre
"
In questo modo tutti gli input hanno valori simili
"
Per ogni variabile xi calcoliamo la media, la varianza e la
variabile ri-scalata come segue
1
xi 
N
N
x
n 1
n
i
N
1
2
2
n
i 
xi  xi 


N  1 n 1
n
x
i  xi
n
~
xi 
i
con n = 1, ..., N l'indice dei pattern input e i = 1, ... , d.

Le variabili trasformate hanno media 0 e deviazione
standard unitaria sul training set trasformato
degli input
"
La trasformazione lineare precedente parrebbe ridondante
per una rete MLP perché potrebbe essere combinata con la
trasformazione lineare del primo livello della rete
"
In pratica assicura che le variabili input e target siano
dell'ordine dell'unità cosicché anche i pesi della rete sono
aspettati essere dell'ordine dell'unità
"
In questo modo possiamo inizializzare in modo opportuno
i pesi della rete
"
Senza di essa bisognerebbe trovare una soluzione per i
valori iniziali dei pesi notevolmente differenti dagli altri
degli input
"
Nel caso di reti RBF con funzioni di base sferiche
simmetriche, è molto importante questo passo
"
Infatti, l'attivazione di una funzione di base dipende dalla
distanza euclidea l tra il vettore input x e il centro della
funzione di base j, dato da
d
l =∥x− j∥ =∑i=1 {x i −ij }2
2
2
con d la dimensione dei pattern input.

Se una delle variabili input fosse molto più piccola delle
altre, il valore di l 2 sarebbe molto insensibile ad essa

Come alternativa, si potrebbero usare matrici di
covarianza complete come funzioni di base
degli input
"
Nel caso di dati discreti, è conveniente distinguere tra
variabili ordinali che hanno un ordine naturale e
categoriche che non ce l'hanno
"
I dati ordinali (per esempio l'età delle persone) possono
essere semplicemente trasformati nei valori corrispondenti
di una variabile continua
"
Per i valori categorici (per esempio i colori degli oggetti),
non ha senso effettuare tale trasformazione perché
indurrebbe un ordinamento artificiale su dati
"
In questo caso, la cosa migliore è effettuare una codifica
1-di-c dei dati input
"
Questa è uguale a quella usata per i target in problemi di
classificazione
"
Nel caso di tre colori, per esempio il risultato è di avere
tre variabili con i colori rappresentati dai tre vettori (1,0,0),
(0,1,0) e (0,0,1)
●
Il problema consiste nel selezionare un sotto-insieme delle
caratteristiche (o degli input) per ridurre la dimensione
degli input della rete neurale
●
✔
Qualunque procedura è composta di due passi:
bisogna definire un criterio per giudicare se un sotto-
insieme di caratteristiche è migliore di un altro
✔
bisogna trovare una procedura sistematica per cercare tra i
sotto-insiemi candidati di caratteristiche
●
Il criterio di selezione potrebbe essere lo stesso usato per
il sistema completo (per esempio, percentuale di
misclassificazioni o errore somma-di-quadrati)
●
La procedura di ricerca potrebbe essere una ricerca
esaustiva di tutti i sotto-insiemi
●
Nelle applicazioni pratiche siamo forzati spesso a
considerare criteri di selezione semplificati, procedure di
ricerca non esaustive
Criteri di selezione
●
Il criterio ottimo di selezione è lo stesso usato per il
sistema completo (per esempio, percentuale di
misclassificazioni o errore somma-di-quadrati), addestrando
la rete su un sotto-insieme delle caratteristiche e valutando
la performance su un insieme di dati indipendente
●
In molti casi, soprattutto quando abbiamo l'ottimizzazione
non lineare, tale approccio è impraticabile perché le
richieste di tempo di calcolo sono eccessive
●
È comune usare un modello più semplice, per esempio un
discriminante o un regressore lineare, per selezionare queste
features e poi usare le caratteristiche selezionate con
modelli non lineari più sofisticati
●
Le procedure di selezione delle caratteristiche e di
classificazione (o regressione) dovrebbero essere
ottimizzate insieme e solo vincoli pratici costringono a
trattarli indipendentemente
●
Per problemi di regressione, possiamo
•
prendere un semplice modello lineare dato da una rete a
singolo livello con output lineari
•
ed usare l'errore somma-di-quadrati se è la stessa funzione
di errore usata per l'addestramento della rete
●
Per problemi di classificazione, il criterio ideale di
selezione è la probabilità di misclassificazione o il rischio o
perdita totali da valutare con tecniche parametriche o non
parametriche
●
Un criterio più semplice da usare è quello basato sulla
separabilità delle classi, per esempio basato sulle matrici di
covarianza (come per il discriminante lineare di Fisher)
●
Una caratteristica che si trova abitualmente quando
usiamo un criterio ottimo è che eliminando alcune
caratteristiche migliora la performance del sistema che poi
peggiora eliminandone troppe
●
Tale caratteristica si perde con molti semplici criteri di
selezione, come quelli basati sulla separabilità
•
Per esempio, la distanza di Mahalanobis 2 aumenta
sempre con l'aggiunta di nuove variabili
•
In generale, tali misure J soddisfano una proprietà di
monotonicità
J (X +) ≥ J (X)
•
dove X è un insieme di caratteristiche e X + un insieme
più grande che include X
•
Tale proprietà è condivisa da tutti i criteri basati su
matrici di covarianza
•
I criteri che soddisfano questa proprietà non possono
essere usati per confrontare insiemi di taglia diversa
•
mentre possono essere usati per confrontare insiemi di
uguale taglia
•
Un approccio utilizzabile per confrontare modelli
addestrati con numeri differenti di caratteristiche consiste
nell'usare tecniche di cross-validation
Procedure di ricerca
●
Se abbiamo d features, ci sono 2d sotto-insiemi possibili
•
per esempio, con 10 variabili abbiamo 1024 possibili
sotto-insiemi, ma con 100 variabili abbiamo circa 1030
possibili sotto-insiemi
●
Se abbiamo deciso di conservare esattamente d features,
allora il numero di possibili combinazioni è
d!
 d − d ! d !
che è minore di 2d , ma ancora intrattabile al crescere di d
●
In principio, potrebbe essere necessario prendere in
considerazione tutti i possibili sotto-insiemi, poiché
combinazioni di variabili possono dare molta più
informazione delle variabili prese singolarmente, come si
vede in figura nel caso di due variabili ed è vero per un
numero arbitrario di caratteristiche
Procedure di ricerca
●
Esempio in cui la combinazione di due variabili dà molta
più informazione delle due variabili prese singolarmente
Procedure di ricerca: branch and bound
●
Se usiamo un criterio che soddisfa la relazione di
monotonicità, esiste una procedura di ricerca esaustiva
chiamata branch and bound
●
Consideriamo la procedura esaustiva che genera un albero
●
Consideriamo d features xi, i = 1, ... , d ed indichiamo
con M = d - d le caratteristiche che sono state scartate da
z1, ..., zM dove ciascun zk può prendere il valore 1, ... , d
●
Non ci devono essere due zk che assumono lo stesso
valore perché significherebbe che una feature è stata
eliminata due volte
●
Una condizione sufficiente per soddisfare questi vincoli è
che le zk (non è importante il loro ordine) siano tali che
z 1z 2 z M
●
Costruiamo un albero di ricerca, come quello in figura
che illustra l'albero relativo al caso in cui vogliamo
selezionare due di cinque caratteristiche
●
Esempio di albero di ricerca relativo al caso in cui
vogliamo selezionare due di cinque caratteristiche
●
L'algoritmo di branch and bound funziona così:
●
Supponiamo di voler massimizzare un criterio J(d ) e che
il valore di J in A è memorizzato come una soglia
●
Se in qualche punto della ricerca si arriva ad un nodo
intermedio B con valore di J minore di quello in A,
possiamo interrompere la ricerca nel sotto-albero di B
●Questo
corrisponde a non effettuare la ricerca in tutti i
nodi neri in figura
●
La ricerca termina quando tutti i nodi del livello finali
sono stati visitati o esclusi dalla ricerca
●
Anche se questi algoritmi riducono la complessità di
tempo rispetto alla ricerca esaustiva, rimangono di
complessità uguale nel caso peggiore
●
Un miglioramento euristico si ottiene facendo in modo
che nodi con valori minori abbiano più figli (Fukunaga,
1990)
Procedure di ricerca: tecniche di ricerca sequenziale
●
Quando l'algoritmo di branch and bound è troppo costoso
per poterlo utilizzare, siamo costretti ad usare tecniche che
danno soluzioni sub-ottime
●
La prima, più semplice, consiste nel prendere le d
caratteristiche che sono individualmente le migliori
●
Questo metodo è altamente inaffidabile e funziona in
modo ottimo solo nel caso in cui il criterio di selezione è la
somma o il prodotto del criterio calcolato per ciascuna
feature individualmente e quindi solo quando le
caratteristiche sono completamente indipendenti
●
Un approccio migliore è quello del sequential forward
selection, illustrato in figura, in cui ad ogni passo si genera
l'albero aggiungendo la feature che dà il maggiore
incremento del criterio di selezione
●
Questo metodo non risolve il problema delle features che
da sole provvedono poca discriminazione e insieme ne
danno molta di più
●
Un esempio di sequential forward selection, in cui ad
ogni passo si genera l'albero aggiungendo la feature che dà
il maggiore incremento del criterio di selezione
●
Un approccio alternativo è quello del sequential
backward elimination, illustrato in figura, in cui si parte
dall'insieme di tutte le caratteristiche e ad ogni passo si
genera l'albero eliminando la feature che dà la minore
riduzione nel valore del criterio di selezione
●
Questo metodo risolve il problema delle features che da
sole provvedono poca discriminazione e insieme ne danno
molta di più, ma non garantisce di trovare la soluzione
ottima ed è computazionalmente molto oneroso
●
Questi algoritmi possono essere generalizzati in molti
modi, ma il prezzo è sempre lo stesso, migliori soluzioni
comportano maggiori costi computazionali
●
Un esempio di sequential backward elimination, in cui si
parte dall'insieme di tutte le caratteristiche e ad ogni passo
si genera l'albero eliminando la feature che dà la minore
riduzione nel valore del criterio di selezione
Analisi delle componenti
principali
"
Consideriamo adesso delle tecniche per combinare gli
input insieme per costruire un (generalmente minore)
insieme di caratteristiche
"
Queste sono procedure non supervisionate
"
Consideriamo trasformazioni lineari di riduzione della
dimensione dei dati input
"
Lo scopo è di proiettare i vettori input d-dimensionali xn in
vettori zn M-dimensionali con M < d
"
Questo è fatto esprimendo i nostri vettori come una
combinazione lineare di vettori ui ortonormali
d
x   zi u i
u i T u j  ij
i 1
M
~
x   zi u i 
i 1
"
zi  u i T x
d
b u
i  M 1
i
i
x è ottenuto supponendo di mantenere solo M < d
coefficienti zi e sostituire gli altri con costanti bi
(1)
principali
"
Questa rappresentazione di x è una riduzione della
dimensione input poiché rappresentiamo il vettore input ddimensionale x con un vettore z M-dimensionale, con
M<d
"
Consideriamo un intero data set di N vettori xn , vogliamo
trovare la migliore rappresentazione approssimata xn di xn
scegliendo i vettori di base ui ed i coefficienti bi, una volta
determinati i valori di zi dalla (1), in media sull'intero data
set
d
E = x − x =∑i=M 1  z i −bi  u i
n
n
n
n
"
L'errore è dato da
"
La migliore approssimazione è quella che minimizza la
somma dei quadrati su tutto il data set
EM
1 N n ~n
  x x
2 n 1
2
1 N d n
2
   zi  bi 
2 n 1 i  M 1
(2)
dove abbiamo usato la relazione (1) di ortonormalità tra i
vettori ui ed uj
principali
"
Se mettiamo le derivate di EM rispetto ai bi a zero,
otteniamo
N
1
bi 
N
z
n 1
T
 ui x
1
x
N
dove abbiamo definito
"
n
i
(3)
N
n
x

n 1
Usando la (1) e la (3) l'errore somma-di quadrati (2)
diventa
d
N
2
1
T
n
E M = ∑ ∑ {ui  x − x  }
2 i=M 1 n=1
d
=
d
1
1
T
u

u
=
i
∑
∑
i
i
2 i=M 1
2 i=M 1
(4)
dove abbiamo usato le relazioni e definizioni seguenti
u i  i u i

 x
n
uTi u j =ij
 x x  x 
n
n
1
x
N
N
x
n 1
n
T
principali
"
Il minimo della funzione di errore EM si ottiene
scegliendo i d - M autovalori più piccoli ed i corrispondenti
autovettori da scartare
"
La procedura così derivata si chiama trasformazione di
Karhunen-Loéve o analisi delle componenti principali
(PCA)
"
Ciascuno dei vettori ui è è chiamato componente
principale
"
Nel caso di punti bi-dimensionali, la tecnica è illustrata in
figura
"
In pratica, il primo passo dell'algoritmo è di calcolare la
media dei vettori input e di sottrarla dai dati
"
Poi si calcola la matrice di covarianza con gli autovettori
ed autovalori
"
Infine, si mantengono gli autovettori corrispondenti agli M
autovalori massimi e si proiettano i dati sugli autovettori
selezionati, ottenendo i vettori trasformati zn
principali
"
Esempio di analisi delle componenti principali nel caso di
punti bi-dimensionali
Schematic illustration of principal component analysis applied to data
in two dimensions. In a linear projection down to one dimension, the
optimum choice of projection, in the sense of minimizing the sum-ofsquares error, is obtained by first subtracting off the mean of the
x
data set, and then projecting onto the first eigenvector u1 of the
covariance matrix.
principali
"
L'errore introdotto dalla riduzione di dimensione usando la
PCA può essere calcolato usando la (4)
d
1
E M = ∑ i
2 i=M 1
"
Quando si effettua una riduzione notevole della
dimensione e necessitano solo poche componenti, esistono
alcune tecniche che calcolano solo gli autovettori necessari
(Press et al., 1992)
"
È possibile usare anche altri criteri incluse le misure di
covarianza e l'entropia della popolazione, che portano agli
stessi risultati in termini di proiezioni sugli autovettori di 
corrispondenti agli autovalori maggiori (Fukunaga, 1990)
principali
Dimensione intrinseca dei dati
"
Se abbiamo vettori in uno spazio d-dimensionale e
troviamo che i primi d' autovalori sono significativamente
maggiori dei rimanenti d - d', allora i dati possono essere
rappresentati con alta accuratezza dalla proiezione sui primi
d' autovettori
"
Si vede che la dimensione effettiva è minore della
dimensione apparente d dei dati
"
Tuttavia la PCA è limitata dall'essere una tecnica lineare e
non può catturare correlazioni non lineari come mostrato in
figura e quindi sovrastimare la vera dimensione dei dati
"
Un data set in d dimensioni ha una dimensione intrinseca
d' se i dati giacciono interamente in un sottospazio d'
dimensionale (Fukunaga, 1990)
"
Se i dati sono rumorosi, la dimensione intrinseca può
aumentare come si vede nella figura successiva
principali
"
Esempio in cui la PCA non può catturare correlazioni non
lineari e quindi sovrastima la vera dimensione dei dati
"
In questo caso, la PCA dà due autovettori con uguali
autovalori (come risultato della simmetria dei dati), mentre i
dati possono essere specificati non solo in termini di x1 ed
x2 ma anche di un singolo parametro 
principali
"
Esempio di dati che sono rumorosi, per cui la dimensione
intrinseca può aumentare
principali
Tecniche non supervisionate per la PCA
"
Tecniche di PCA lineare e non lineare portano notevoli
miglioramenti nelle prestazioni dei sistemi di regressione e
classificazione
"
In alcuni casi la perdita di informazione, anche se bassa
per la rappresentazione dei dati, può essere significativa
"
Un esempio è illustrato in figura
principali
Tecniche non supervisionate per la PCA
"
In generale le tecniche non supervisionate di PCA lineare
e non lineare non hanno gli stessi problemi
"
Il discriminante lineare di Fisher che funziona meglio nel
caso illustrato, può trovare solo c-1 direzioni indipendenti
per problemi con c classi
"
In molti casi, soprattutto quando si lavora con immagini,
per i dati non sono disponibili i valori target
"
È possibile realizzare la PCA lineare con reti neurali non
supervisionate con apprendimento hebbiano (Oja, 1982,
1989; Sanger, 1989)
"
È possibile realizzare anche la PCA non lineare con reti
neurali non supervisionate con apprendimento hebbiano
(Karhunen e Joutsensalo, 1994, 1995)
"
È possibile realizzare l'analisi delle componenti
indipendenti (ICA) lineare e non lineare con reti neurali non
supervisionate (proceedings di ICA 2000)

Pre-processing ed Estrazione delle caratteristiche

Transcript

Documenti analoghi

Esame di Geometria e Algebra NO, 30 giugno 2009

Esame del 03-02-03

studio dei fattori nascosti mediante PCA

Programma Algebra Lineare

01001 Marcare con una crocetta le risposte ritenute corrette e

armeriapalmieri Pistola Weihrauch HW 40 PCA

Sostituzioni lineari e calcolo operatorio

Corso di Geometria. Ingegneria Meccanica. SETTIMA SCHEDA DI

Esercizi del 29/3 1. Il file “tab53 2.dat” nella directory “dati” contiene