Esercizi del 29/3 1. Il file “tab53 2.dat” nella directory “dati” contiene

Transcript

Esercizi del 29/3 1. Il file “tab53 2.dat” nella directory “dati” contiene
Esercizi del 29/3
1. Il file “tab53 2.dat” nella directory “dati” contiene 4 misure morfologiche (le chiamerò Y 1, Y 2, Y 3, Y 4) su 2 specie (identificate con 1 o
2 nella prima colonna) di pulci: Haltica oleracea e Haltica carduorum.
(a) Eseguite l’analisi discriminante lineare per predire (con probabilità
a priori 1/2 e 1/2) la specie sulla base delle 4 variabili morfologiche.
Calcolate la frequenza di errore sia sui dati utilizzati nell’analisi,
sia applicando il metodo della cross-validation escludendo i dati
uno alla volta.
(b) Mostrare le proiezioni dei dati (distinguendo la specie) sulla/e
variabile discriminante canonica.
(c) Ripetere l’analisi utilizzando tutte le variabili meno Y 1, tutte
meno Y 3 e solo Y 1 e Y 2. Quale metodo raccomandereste di usare
per il futuro?
(d) Eseguite la regressione lineare di Y 2 su Y 1, usando come covariata la specie di appartenenza. E’ significativa la differenza della
regressione fra le due specie? Fate il grafico di Y 1 e Y 2 con le
varie rette di regressione.
2. Attuare l’analisi discriminante lineare sui dati nel file “microtus tab54 1.dat”
nella directory “dati” per riconoscere i topi della specie 1 e della specie
2, e per attribuire i topi non identificati (codice = 0) all’una o all’altra
specie. Ripetere l’analisi usandola regressione logistica.
3. Supponiamo che la variabile Y nel gruppo 1 segua una distribuzione
uniforme su [0, 1], mentre nel gruppo 2 essa segua una distribuzione
uniforme su [1, 2]. I due gruppi sono quindi completamente separati
tramite Y .
Supponiamo che il nostro insieme di training consista in una osservazione dal gruppo 1, ed una dal gruppo 2, e che nel futuro la probabilità di trovare un esemplare del gruppo i sia 1/2 per entrambi i
gruppi.
(a) Qual’è la regola di classificazione delle osservazioni future che minimizza l’errore di tasso di errore.
(b) Qual è il valore atteso del tasso di errore?
1