TRACCIA 1- Esonero Metodi Numerici per l`Informatica I Studente

Transcript

TRACCIA 1- Esonero Metodi Numerici per l`Informatica I Studente
TRACCIA 1- Esonero Metodi Numerici per l’Informatica I
Studente ....................................................Matricola.............
1. Considerata una matrice A ∈ Rm×n tale che k = rank(A), si individui quale delle
seguenti proprietà è vera:
(A) N ull(A) = span{v1 , v2 , v3 , . . . , vn }, ove i vi sono i vettori colonna delfattore V
della decomposizione a valori singolari della matrice A.
(B) R(A) = span{u1 , u2 , u3 , . . . , uk } ove gli ui sono i vettori colonna del fattore U
della decomposizione a valori singolari della matrice A.
(C) R(A) = span{uk , uk+1 , uk+2 , . . . , um } ove gli ui sono i vettori colonna del fattore U della decomposizione a valori singolari della matrice A.
(D) N ull(A) = span{v1 , v2 , v3 , . . . , vk }, ove i vi sono i vettori colonna delfattore V
della decomposizione a valori singolari della matrice A.
Risposta:
2. Si considerino i seguenti documenti:
d1: Anna e Mario mangiano la pera a casa. Anna e Mario non hanno una pera
in casa. Anna e Mario escono di casa per comprare una pera.
d2: Anna e Mario mangiano la pera a casa.
d3: Fabio e Paola sono andati a scuola e hanno seguito la lezione.
e il seguente insieme di termini:
termini:
t1=anna, t2=mario, t3=pera, t4=casa, t5=fabio, t6=paola, t7=scuola, t8=lezione.
Assumendo che il processo di indexing venga effettuatto contando la frequenza (numero di volte) in cui un termine appare in un documento, indicare quale matrice
termini-documenti si ottiene.


3 3 3 0 0 0 0
(A) A = B > con B =  1 1 1 0 0 0 0 
0 0 0 1 1 1 1


1 1 1 1 0 0 0 0
(B) A = B > con B =  3 3 3 3 0 0 0 0 
0 0 0 0 1 1 1 1


3 3 3 3 0 0 0
(C) A = B > con B =  1 1 1 1 0 0 0 
0 0 0 0 1 1 1


3 3 3 3 0 0 0 0
(D) A = B > con B =  1 1 1 1 0 0 0 0 
0 0 0 0 1 1 1 1
Risposta:
1
3. Nel Vector Space Model la dimensionalità di un vettore indica quante componenti il
vettore possiede. Quali delle seguenti affermazioni è vera.
(A) Ci sono tante componenti quanti sono i documenti che compaiono nell’intera
collezione (le stop words individuate durante il processo di stop listing non si
contano)
(B) Ci sono tante componenti quanti sono le stop words individuate durante il
processo di stop listing
(C) Ci sono tante componenti quanti sono i termini che compaiono nell’intera
collezione (le stop words individuate durante il processo di stop listing non
si contano)
(D) Ci sono tante componenti quanti sono i caratteri che compaiono nell’intera
collezione (le stop words individuate durante il processo di stop listing non si
contano)
Risposta:
4. Quali delle seguenti affermazioni è vera.
(A) Il vector space model usa la vicinanza spaziale come metafora della prossimità
semantica tra documenti
(B) Il vector space model usa la vicinanza spaziale come metafora della prossimità
sintattica tra query e documenti
(C) Il vector space model usa la vicinanza spaziale come metafora della prossimità
sintattica tra documenti
(D) Il vector space model usa la vicinanza spaziale come metafora della lontananza
semantica tra documenti
Risposta:
5. Nel VSM i documenti e le query sono rappresentate in uno spazio multidimensionale,
dove a ciascuna dimensione corrisponde a un certo termine presente nella collezione.
Indicati con d = (d1 , . . . , dn )> il generico vettore documento e q = (q1 . . . , qn )> il
vettore query, quale misura di similarità viene utilizzata per individuare un documento rilevante per una query?
(A) cos(θ) =
d> q
kqk∞ kdk∞
(B) cos(θ) =
dq
kqk2 kdk2
(C) cos(θ) =
n
i d i qi
kqk2 kdk2
(D) cos(θ) =
d> q
kdkkdk
Risposta:
2
6. La fattorizzazione QR viene utilizzata nel Vector Space Model per:
(A) identificare una base per lo spazio sintattico della matrice termini-documenti.
(B) identificare una base per lo spazio righe della matrice termini-documenti.
(C) identificare una base per lo spazio colonne della matrice termini-documenti
(D) identificare e rimuovere informazioni ridondanti nella rappresentazione matriciale di un database di documenti
Risposta:
7. Che cosa rappresenta la proiezione ortogonale di una query q nello spazio generato
dalle colonne di QA (essendo A = QR e QA la matrice formata dalle prime rA
colonne di A con rA = rank(A)).
(A) la migliore approssimazione del vettore query q nello spazio colonne di A ovvero
kq − qA k2 = min{kq − xk2 , x ∈ R(A)}
(B) la migliore approssimazione di un generico vettore documento d nello spazio
colonne di A ovvero kd − dA k2 = min{kd − xk2 , x ∈ R(A)}
(C) la migliore approssimazione del vettore query q nello spazio sintattico di A
(D) l’approssimazione del vettore query q nello spazio righe della A
Risposta:
8. Considerata la seguente matrice di adiacenza


0 1 0 0 0
 0 0 0 1 1 



L=
 0 1 0 0 1  calcolare le matrici di authority e hub associate (relative
 1 0 0 0 0 
0 0 1 1 0
al modello HITS).
Matrice di authority
Matrice di hub
3
9. Considerata la seguente matrice di Google per righe


0 1/2 1/2 0
0
 1/3 0
0 1/3 1/3 



0 1/2 
P =  0 1/2 0
 costruire la matrice di Google stocastica e ir 0
0
0
0
0 
0
0
0
1
0
riducibile mediante l’utilizzo del parametro α = 0.9
P =
10. Indicare quale delle seguenti affermazioni è vera:
(A) I metodi di Data Mining classificati come metodi discovery-oriented sono in
grado di identificare automaticamente nuovi pattern nei dati.
(B) I metodi di Data Mining classificati come metodi verification-oriented sono in
grado di identificare automaticamente nuovi pattern nei dati.
(C) I metodi di Data Mining classificati come metodi discovery-oriented permettono
di verificare automaticamente delle ipotesi a priori .
(D) I metodi di Data Mining classificati come metodi discovery-oriented non permettono di identificare automaticamente nuovi pattern nei dati.
Risposta:
11. Indicare di quale fase fanno parte i diversi meccanismi di preparazione dei dati, come
ad esempio la pulitira, le trasformazioni, la selezione dei record, la gestine dei dati
mancanti.
(A) fase di comprensione del dominio
(B) fase di post-processing
(C) fase di pre-processing o esplorazione iniziale dei dati
(D) fse di selezione del compito di Data Mining
Risposta:
12. Indicare quale delle seguenti affermazioni è vera:
(A) Le feature categoriche (o simboliche) non sono misurabili
(B) Fra due feature categoriche è possibile definire solo la relazione di uguaglianza
(C) Fra due feature categoriche è possibile definire una relazione di ordine
(D) Fra due feature numeriche è possibile definire solo la relazione di uguaglianza
Risposta:
4
13. Per una feature continua la relazione di rapporto è valida nella
(A) interval scale
(B) ordinal scale
(C) scala di intervallo
(D) ratio scale
Risposta:
14. I missing value si possono classificare in termini delle possibili motivazione per le
quali non sono stati registrati. Indicare quali delle seguenti affermazioni è vera:
(A) i valori di una feature etichettati come “do not care” value non sono registrati
perchè cancellati
(B) i valori di una feature etichettati come “lost” value non sono registrati perchè
sono stati dimenticati o sono stati erroneamente cancellati
(C) i valori di una feature etichettati come “lost” value non sono calcolabili
(D) i valori di una feature etichettati come “do not care” value sono calcolabili e
rilevanti
Risposta:
15. Risolvere la seguente equazione alle differenze completa del secondo ordine:
equazione
ESERCIZI FACOLTATIVI (ogni risposta errata vale punti -1)
16. Indicare quale delle seguenti affermazioni è vera:
(A) L’SVD troncata di una assegnata matrice A ∈ Rn×m rappresenta la sua migliore
approsimazione in norma infinito di rango fissato k.
(B) L’SVD troncata di una assegnata matrice A ∈ Rn×m rappresenta la sua migliore
approsimazione in norma 2 di rango massimo.
(C) L’SVD troncata di una assegnata matrice A ∈ Rn×m rappresenta la migliore
approsimazione di rango fissato k in norma Frobenius.
(D) L’SVD troncata di una assegnata matrice A ∈ Rn×m rappresenta la migliore
approsimazione di rango massimo in norma di Frobenius.
Risposta:
5
17. Indicare quale delle seguenti affermazioni è vera:
(A) Il meccanismo di relevance feedback permette di migliorare la precisone di un
modello di text information retrieval basato sul VSM-SVD.
(B) Una query può essere migliorata o sostituita della somma dei vettori dei documenti più rilevanti restituiti durante il processo di query-matching.
(C) Una query può essere migliorata o sostituita della somma dei vettori delle query
più rilevanti individuate durante il processo di query-matching.
(D) Il meccanismo di relevance feedback permette di gestire collezioni dinamiche di
documenti
Risposta:
18. Il folding-in e l’SVD updating sono tecniche per gestire:
(A) le informazioni statiche durante il processo di indicizzazione
(B) le collezioni di documenti che non variano nel tempo
(C) la precision e la recall di un sistema di text information retrieval
(D) le collezioni dinamiche di documenti
Risposta:
19. Indicare quale delle seguenti affermazioni è vera:
(A) SALSA è l’acronimo utilizzato per indicare il metodo Stylistic Approach for
Link Structure Analysis
(B) SALSA come HITS crea per ogni pagina web un punteggio di hub e uno di
authority attraverso l’uso di catene di Markov
(C) SALSA come PageRank crea per ogni pagina web un punteggio di hub e uno
di authority
(D) SALSA come HITS crea per ogni pagina un punteggio di rilevanza utilizzando
le catene di Markov
Risposta:
20. Indicare quale delle seguenti affermazioni è vera:
(A) Il Global closest fit è un metodo sequenziale per il trattamento degli outliers
(B) Il Global closest fit è un metodo parallelo per il trattamento dei dati mancanti
(C) Il Global closest fit è un metodo paralello per il trattamento degli outliers
(D) Il Global closest fit è un metodo sequenziale per il trattamento dei dati mancanti
Risposta:
6