Programma di Metodi Numerici per le Decisioni A.A. 06-07

Transcript

Programma di Metodi Numerici per le Decisioni A.A. 06-07
Programma di Metodi Numerici per le Decisioni A.A. 06-07
Elementi di Algebra Lineare. Richiami e notazioni. Operazioni su matrici. Trasformazioni lineari.
Prodotto di matrici e sue proprietà. Un problema di connessioni aeree. Determinante e traccia di una
matrici e loro proprietà. Spazi e sottospazi vettoriali. Sottospazi generati. Spazio rango di una matrice.
Spazio nullo di una matrice. Basi di uno spazio vettoriale. Caratterizzazione di una base. Proprietà delle
matrici A^TA e AA^T. Norme, prodotti scalari e ortogonalità. Coseno formato da due vettori.
Correlazione lineare. Procedura di Gram-Schmidt. Fattorizzazione QR. Autovalori ed autovettori di
una matrice e loro proprietà. Similarità. Teorema di Schur (solo enunciato). molteplicità di un
autovalore. Modello delle migrazioni di una popolazione. Metodi per il calcolo di autovalori ed
autovettori. Il metodo delle potenze. Il mepoto delle potenze inverso. Il metodo QR per il calcolo degli
autovalori di una matrice. Il metodo Qr con shift.
Decomposizione a valori singolari. Definizione e proprietà della SVD di una matrice.
Approssimazione low rank di una matrice. SVD troncata. Teorema di Eckart-Young. SVD e filtraggio
dei dati, SVD e motori di ricerca.
Equazioni non lineari e ottimizzazione. Introduzione. Metodo di Newton: caso mono-dimensionale.
Studio della convergenza del metodo. Teorema di convergenza globale (solo enunciato). Studio
dell’ordine di convergenza nel caso di radici semplici. Cenni sulle radici multiple. Metodo di Newton:
caso: multidimensionale. Teorema di Newton-Kantorovich (solo enunciato)
Metodi di ottimizzazione. Introduzione. Ottimizzazione unidimensionale. Metodo di Newton
unidimensionale. Ottimizzazione non vincolata: caso multidimensionale. Metodi basati sulle direzioni
di discesa. Derivata direzionale. Metodo di Newton multidimensionale. Metodo steepest descent.
Approssimazione ai minimi quadrati lineari. Introduzione. Esempi di applicazione dei minimi
quadrati lineari. Retta ai minimi quadrati. Regressione Lineare. Curve fitting. Approssimazione
polinomiale ai minimi quadrati nel discreto. Risoluzione del problema ai minimi quadrati mediante il
sistema delle equazione normali. Applicazione della fattorizzazione QR al problema ai minimi
quadrati. Applicazione della SVD al problema ai minimi quadrati lineari.
Il modello vettoriale per l’Information Retrieval: Introduzione. IR e LSI. Problemi di polisemia e
sinonimia. Rappresentazione vettoriale dell’informazione (Vector Space Model VSM). Matrice terminidocumenti. Il processo di query-matching. La fattorizzazione QR. Base dello spazio colonne dalla
matrice termini-documenti. La geometria del VSM. Approssimazione low-rank. Applicazione della
SVD al VSM. (Facoltativo: Confronto termini-termini).
Metodo basati sugli autovalori per il Web Retrieval: Introduzione. HITS. L’idea su cui è basato
HITS. Implementazione di HITS. Convergenza di HITS . Vantaggi e Svantaggi. Esempio di
applicazione. PageRank. L’idea su cui è basato PageRank. La matrice di Google per riga. La matrice
stocastica. La matrice di Google. Calcolo del PageRank. Implementazione e convergenza. Esempio di
applicazione. Vantaggi e svantaggi. (Facoltativo: SALSA)
Data Mining: Introduzione ed obiettivi. Passi fondamentali di un processo di data mining.
Classificazione delle diverse tecniche di Data Mining. Problematiche connesse alle tecniche di datamining: formulazione del problema, pre-pocessing dei dati, ecc. Introduzione all’analisi dei dati
multivariati. Rappresentazione dei dati e loro caratteristiche. Dati strutturati. Preparazione dei dati.
Trasformazione dei dati (scaling decimale, normalizzazione del min-max e della deviazione standard,
differenze e rapporto) . Analisi degli outliers: tecniche problem-free. Trattamento dei dati mancanti.
Cenni sulle rappresentazioni grafiche dei dati (scatter-plot, box-plot). Esempio di analisi dei dati con il
dataste IRIS.
Analisi delle componenti principali. Introduzione e generalità. PCA e calcolo degli autovalori ed
autovettori. Matrice di covarianza e di correlazione dei dati.. Bi-plots. Euristiche per il calcolo del
numero ottimale delle componenti principali. PCA per la selezione di un sottoinsieme di variabili.
Testi di riferimento:
- Metodi numerici e statistici per le scienze applicate .V. Cominciali, Milano, Ambrosiana, 1992.
- Problemi e modelli matematici nelle scienze applicate.V. Cominciali, Milano, Ambrosiana, 1993
- Data mining : concepts, models, methods, and algorithms. Mehmed Kantardzic. - Hoboken, NJ :
Wiley-Interscience, 2003 (Cap1-2, Cap. 3 par 3.4)
- Analisi dei dati e data mining / A. Azzalini, B. Scarpa. - Milano : Springer, 2004.
- Applied Multivariate Data Analysis, B.S. Everitt, G. Dunn, Arnold Ed., 2001 (Cap. 3)
- Matrix Analysis and Applied Linear Algebra. C. Meyer. Siam. 2003
Articoli di riferimento:
- Matrices, Vector Spaces and Information Retrieval, M.W. Berry, Z. Drmac, E.R. Jessup, SIAM
Review, vol. 41, No. 2 pp. 335-362, 1995
-A survey of eigenvector methods for web information retrieval. A. N. Langville, C.D. Meyer
SIAM Review Volume 47, No. 1 pp. 135-161, 2005
- Introduction to Knowledge discovery in databases, O. Maimon, L. Rokach, in The data-mining
and knowledge discovery handbook, Editors: O. Maimon, , L. Rokach., Springer, 2005