diapositive in pdf 1 - UniFI
Transcript
diapositive in pdf 1 - UniFI
Corso della Scuola SIS - Metodi statistici per la valutazione e il monitoraggio della formazione universitaria Firenze, 10-14 ottobre 2005 Indice Corso della Scuola della SIS Metodi statistici per la valutazione e il monitoraggio della formazione universitaria Firenze, 10-14 ottobre 2005 1. 2. Introduzione ai modelli statistici per la valutazione e il monitoraggio 3. Leonardo Grilli 5. 4. 6. [email protected] www.ds.unifi.it/grilli Modelli statistici Introduzione ai modelli multilivello Il modello lineare a due livelli Modelli multilivello e valutazione Inferenza Software e libri Dipartimento di Statistica “G. Parenti”, Firenze 2 L. Grilli - Scuola SIS 2005 Modello Modelli statistici Modello: schema teorico che descrive un fenomeno ipotizzando le caratteristiche strutturali più rilevanti Modello statistico: modello di tipo matematico con una componente deterministica una componente stocastica 4 L. Grilli - Scuola SIS 2005 Modello statistico Modello statistico Ipotesi di errori additivi: y = f ( x, z, w ) y x z w f (⋅) y = f ( x, z ) + ew y = f ( x ) + ez + ew variabile di risposta variabili esplicative molto influenti su y e osservate variabili esplicative molto influenti su y e non osservate variabili esplicative poco influenti su y funzione ignota L. Grilli - Scuola SIS 2005 y x z w f (⋅) 5 variabile di risposta variabili esplicative molto influenti su y e osservate variabili esplicative molto influenti su y e non osservate variabili esplicative poco influenti su y funzione ignota L. Grilli - Scuola SIS 2005 6 1 Corso della Scuola SIS - Metodi statistici per la valutazione e il monitoraggio della formazione universitaria Firenze, 10-14 ottobre 2005 Modello statistico Modello statistico Ipotesi di linearità y = β 0 +β1 x1 +β 2 x2 + … +β k xk + e -> modello di regressione lineare (multipla) y = xβ + enon linearità + ez + ew = xβ + etotale xβ = β 0 +β1 x1 +β 2 x2 + … +β k xk Componente sistematica (segnale): quantità ignota e deterministica etotale Componente accidentale (rumore): quantità ignota e stocastica Sia la componente sistematica che quella accidentale sono ignote perché includono dei parametri: Componente sistematica: Componente accidentale: 1 o più parametri della distribuzione di k+1 coefficienti di regressione e Linearità nei parametri ⇒ sono ammesse trasformazioni delle variabili, es. log y = β 0 +β1 7 L. Grilli - Scuola SIS 2005 L. Grilli - Scuola SIS 2005 I dati Unità statistiche Il modello descrive la relazione fra la y e le x nella POPOLAZIONE e si assume valido per ogni unità del CAMPIONE variabili ⎡ y1 ⎤ ⎢ ⎥ ⎢ ⎥ ⎢⎣ yn ⎥⎦ ⎡ x11 ⎢ ⎢ ⎢⎣ xn1 yi = β 0 +β1 xi1 +β 2 xi 2 + … +β k xik + ei x1k ⎤ ⎥ ⎥ xnk ⎥⎦ i = 1, 2,… , n 9 L. Grilli - Scuola SIS 2005 Regressione lineare semplice Caso speciale con una sola variabile esplicativa (k=1) Modello lineare classico: per la distribuzione degli errori (condizionatamente alle variabili esplicative) si assume errori a media nulla errori omoschedastici errori incorrelati y = γ 0 + γ 1 x + e y| x E (ei ) = 0 ∀i Var (ei ) = σ 2 ∀i Parametri del modello: Cov(ei , e j ) = 0 ∀i ≠ j γ 0 = intercetta (nella popolazione) γ 1 = pendenza o coefficiente angolare (nella popolazione) Le assunzioni sugli errori determinano le proprietà degli stimatori (distorsione, varianza campionaria,…) L. Grilli - Scuola SIS 2005 10 L. Grilli - Scuola SIS 2005 Assunzioni sugli errori 8 Popolazione e campione Campione di n unità statistiche i = 1, 2,… , n 1 +e x σ y2| x = Var (ey| x ) = varianza residua 11 L. Grilli - Scuola SIS 2005 12 2 Corso della Scuola SIS - Metodi statistici per la valutazione e il monitoraggio della formazione universitaria Firenze, 10-14 ottobre 2005 Regressione lineare semplice Da E ( e y| x ) = 0 Regressione lineare semplice Modello: relazione nella popolazione (non osservabile, ma stimabile) segue y E ( y | x) = γ 0 + γ 1 x γ 0 + γ1x modello per la media condizionata di y (media di y dato x) Interpretazione della pendenza: γ 1 = E ( y | x = x* + 1) − E ( y | x = x* ) Variazione della media condizionata di y corrispondente ad un aumento unitario di x x 13 L. Grilli - Scuola SIS 2005 14 L. Grilli - Scuola SIS 2005 Regressione lineare semplice Regressione lineare multipla k variabili esplicative Dati e relazione stimata y . yˆi . . . . .. . . .. .. . . . . y = β 0 +β1 x1 +β 2 x2 + … +β k xk + e y| x1…xk γˆ0 + γˆ1 x Parametri del modello: uˆi β 0 = intercetta (nella popolazione) β1 ,… , β k = pendenze o coeff. angolari (nella popolazione) σ y2| x …x = Var (ey|x …x ) = varianza residua x xi 1 15 L. Grilli - Scuola SIS 2005 Regressione lineare multipla ( ) β1 : Il modello di regressione consente di fare esperimenti virtuali per valutare come cambia la variabile di risposta “muovendo” una variabile esplicativa alla volta (cioè, “tenendo ferme” tutte le altre) β1 = E ( y | x + 1, x ,… , x ) − E ( y | x , x ,… , x ) * k * 1 * 2 * k Variazione della media condizionata di y corrispondente ad un aumento unitario di x1 a parità di x2 ,…,xk L. Grilli - Scuola SIS 2005 16 “al netto di” “controllando per” modello per la media condizionata di y (media di y dato x1 ,…,xk) * 2 k β1= effetto di x1 su y “a parità di” x2 ,…,xk E ( y | x1 ,… , xk ) = β 0 +β1 x1 +β 2 x2 + … +β k xk * 1 1 Regressione lineare multipla Da E ey| x …x = 0 segue 1 k Interpretazione della pendenza k L. Grilli - Scuola SIS 2005 17 L. Grilli - Scuola SIS 2005 18 3 Corso della Scuola SIS - Metodi statistici per la valutazione e il monitoraggio della formazione universitaria Firenze, 10-14 ottobre 2005 Effetti lordi e netti Modelli lineari generalizzati La specificazione lineare per la media condizionata y = γ 0 + γ 1 x1 + e y| x1 E ( y | x1 ,… , xk ) = β 0 +β1 x1 +β 2 x2 + … +β k xk effetto lordo di x1 è molto conveniente, ma talvolta non è adeguata, in particolare quando per costruzione la media condizionata assume valori in un intervallo limitato y = β 0 +β1 x1 +β 2 x2 + … +β k xk + ey| x1…xk effetto netto di x1 Esempio: y binaria ⇒ E ( y | x1 ,… , xk ) ∈ (0,1) In generale mentre ( β 0 +β1 x1 +β 2 x2 + … +β k xk ) ∈ ℜ β1≠ γ1 19 L. Grilli - Scuola SIS 2005 Modelli lineari generalizzati Qual è il modello giusto? In un modello lineare generalizzato la specificazione lineare non viene applicata direttamente alla media condizionata ma a una sua trasformazione: g(⋅) funzione di link (invertibile con codominio ℜ) 21 Qual è il modello giusto? Conoscenza del fenomeno (teoria) Dati (evidenza empirica) Aiuta a rispondere ai quesiti della ricerca (ruolo strumentale) 22 L. Grilli - Scuola SIS 2005 Introduzione ai modelli multilivello La specificazione del modello (in particolare la scelta delle variabili esplicative) è guidata da: Coglie gli aspetti salienti del fenomeno (ruolo descrittivo) “Tutti i modelli sono sbagliati, ma alcuni sono utili” (G.E.P. Box) Esempio: y binaria & g (⋅) logit ⇒ modello logit La realtà è troppo complessa per poter essere rappresentata in modo esaustivo da un modello Pertanto: un modello è “buono” quando g ( E ( y | x1 ,… , xk ) ) = β 0 +β1 x1 +β 2 x2 + … +β k xk L. Grilli - Scuola SIS 2005 20 L. Grilli - Scuola SIS 2005 Lo statistico è chiamato a stabilire, caso per caso, un ragionevole compromesso tra parsimonia e complessità L. Grilli - Scuola SIS 2005 23 4 Corso della Scuola SIS - Metodi statistici per la valutazione e il monitoraggio della formazione universitaria Firenze, 10-14 ottobre 2005 Un esempio di struttura gerarchica Modello multilivello Modello multilivello: modello di regressione con una struttura di errore complessa che rispecchia una struttura gerarchica Sinonimi: distretto livello 4 scuola 2 liv. 3 scuola 1 M. M. M. M. classe 1 classe 2 liv. 2 classe 3 classe 4 s1 s2 s3 s4 s5 s6 s7 s8 s9 s10 s11 s12 gerarchico a coefficienti casuali a effetti casuali a effetti misti liv. 1 - studenti 25 L. Grilli - Scuola SIS 2005 26 L. Grilli - Scuola SIS 2005 Esempi di strutture gerarchiche rilevanti nella valutazione dei sistemi universitari Livelli gerarchici Valutazione della didattica (1): studenti, insegnamenti, corsi di laurea, facoltà, atenei Valutazione della didattica (2): studenti, insegnamenti, settori scientifico-disciplinari, atenei Valutazione degli sbocchi occupazionali: laureati, corsi di laurea, atenei Per semplicità consideriamo solo due livelli gerarchici: Livello 1 (es. laureato) Livello 2 (es. corso di laurea) Sinonimi per “unità di liv. 1”: Sinonimi per “unità di liv. 2”: Quale struttura adottare dipende dal contenuto informativo dei dati e dalle finalità dell’analisi unità micro unità macro unità within unità between L’esistenza della struttura gerarchica non dipende dal piano di campionamento (che può essere semplice, a più stadi, ecc.) individuo gruppo (cluster) 27 L. Grilli - Scuola SIS 2005 Variabili e livelli gerarchici Il dilemma dell’unita’ di analisi j = 1,… , J Le variabili sono riferite ad un certo livello della gerarchia: genere, voto di laurea corso di laurea (liv. 2): classe di appartenenza, voto medio di laurea i = 1,… , n j individui nel gruppo j dimensione totale N = ∑ n j j =1 Si può scegliere di analizzare i dati Nota: le variabili di livello 2 (o superiore) si distinguono in GLOBALI: caratteristiche intrinseche delle unità macro (gruppi) che vengono rilevate separatamente e per le quali non esiste la corrispondente misura individuale: es. classe di appartenenza del CdL, rapporto studenti/docenti CONTESTUALI: indicatori macro ottenuti per aggregazione delle corrispondenti misure individuali; esprimono la misura collettiva delle caratteristiche del singolo: es. voto medio di laurea, proporzione di femmine L. Grilli - Scuola SIS 2005 gruppi J Es. Valutazione degli sbocchi occupazionali: laureato (liv. 1): 28 L. Grilli - Scuola SIS 2005 29 a livello individuale (es. laureato) -> analisi disaggregata (archivio con N record) a livello di gruppo (es. CdL) -> analisi aggregata (archivio con J record, ottenuti calcolando le medie di gruppo) Entrambe queste scelte danno luogo a dei problemi L. Grilli - Scuola SIS 2005 30 5 Corso della Scuola SIS - Metodi statistici per la valutazione e il monitoraggio della formazione universitaria Firenze, 10-14 ottobre 2005 Problemi dell’analisi disaggregata Problemi dell’analisi aggregata Inferenza sui gruppi: impossibile fare inferenza sui gruppi, cioè trattare i gruppi osservati come un campione casuale da una popolazione di gruppi Errata dimensione campionaria delle variabili di livello 2 (che è J e non N) Dipendenza: Le osservazioni all’interno di un gruppo sono fra Shift of meaning: le variabili aggregate si riferiscono al gruppo e non all’individuo, per cui non possono nemmeno concettualmente essere usate per indagare le relazioni a livello di individuo Ecological fallacy (distorsione da aggregazione): Le relazioni a livello di gruppo (cioè tra le medie di gruppo) sono diverse dalle corrispondenti relazioni a livello individuale loro più simili rispetto a quelle di altri gruppi, per cui si ha una correlazione positiva all’interno dei gruppi ⇒ viene violata l’ipotesi di indipendenza tipica dei metodi tradizionali (es. GLM), che quindi forniscono un’errata stima degli errori standard (spesso si ha una sottostima degli errori standard -> errori del I tipo più alti del livello nominale α) Interazione tra livelli: l’analisi aggregata non consente di studiare le relazioni tra livelli gerarchici 31 L. Grilli - Scuola SIS 2005 Relazioni entro e tra gruppi 32 L. Grilli - Scuola SIS 2005 Relazioni entro e tra gruppi 8 Esempio da Snijders & Bosker, p. 27 7 Within 6 5 4 3 Total 2 1 0 1 2 3 4 5 6 7 X_ij X_. j Y_ij Y_. j 1 2 1 2 1 2 1 2 1 2 1 3 2 4 3 5 4 6 5 7 2 2 3 3 4 4 5 5 6 6 5 7 4 6 3 5 2 4 1 3 6 6 5 5 4 4 3 3 2 2 i = 1,… , n j ε ij ∼ iid, E(ε ij ) = 0, Var (ε ij ) = σ 2 u j ∼ iid, E(u j ) = 0, Var (u j ) = τ Regressione entro i gruppi ( ) Regressione multilivello L. Grilli - Scuola SIS 2005 34 ANOVA ad effetti casuali …ovvero il modello multilivello più semplice individui nel gruppo j ∀i, j ) La regressione multilivello consente di studiare contemporaneamente le relazioni between e within Esempio: analisi dei tempi di laurea (liv. 1 laureato, liv. 2 CdL) Yij = µ + u j + ε ij J = numero di CdL nell'archivio n j = numero di laureati del CdL j Yij = tempo impiegato dal laureato i del CdL j Attenzione: τ è la varianza e non la deviazione std. µ = tempo medio generale (tutto l'Ateneo) u j = scostamento del tempo medio del CdL j da quello generale τ = Var (u j ) = varianza dei tempi attribuibile ai CdL media generale: µ Questo modello ha varianza di livello 1: σ 2 3 parametri varianza di livello 2: τ L. Grilli - Scuola SIS 2005 Regressione tra le medie di gruppo Yij = 8.00 − 1.00 x. j + 1.00 xij − x. j ANOVA ad effetti casuali …ovvero il modello multilivello più semplice ε ij indipendente da u j Y . j = 8.00 − 1.00 x. j ( 33 gruppi Regressione totale 8 L. Grilli - Scuola SIS 2005 j = 1,… , J Yij = 5.33 − 0.33xij Yij = Y . j + 1.00 xij − x. j Differenza Between-Within: “Ecological fallacy” Between 0 i ε ij = scostamento del tempo del laureato i rispetto al tempo medio del CdL j σ 2 = Var (ε ij ) = varianza residua dei tempi (cioè non attribuibile ai CdL) 35 L. Grilli - Scuola SIS 2005 36 6 Corso della Scuola SIS - Metodi statistici per la valutazione e il monitoraggio della formazione universitaria Firenze, 10-14 ottobre 2005 ANOVA ad effetti casuali: varianze e covarianze ANOVA ad effetti casuali: matrice di covarianza Yij = µ + u j + ε ij Var (Yij ) = Var (u j + ε ij ) = τ + σ 2 Esempio J = 2, n1 = 2, n2 = 3 se j ≠ j′ ⎧0 Cov(Yij , Yi′j′ ) = ⎨ se j τ = j′ e i ≠ i ' ⎩ La variabilità di Yij viene scomposta in una quota legata alla variabilità tra gruppi (τ) ed una alla variabilità individuale (σ 2) (componenti di varianza) Le osservazioni appartenenti allo stesso gruppo sono correlate positivamente OSSERVAZIONE: la correlazione è necessariamente positiva perché è generata da una variabile latente condivisa uj (è la stessa idea fondamentale dell’analisi fattoriale, in cui uj è chiamata fattore) L. Grilli - Scuola SIS 2005 37 ⎡τ + σ 2 ⎤ τ ⎢ ⎥ 2 τ +σ ⎢ τ ⎥ Var (Y) = ⎢ τ +σ 2 τ τ ⎥ ⎢ ⎥ τ τ +σ 2 τ ⎥ ⎢ ⎢ τ τ τ + σ 2 ⎥⎦ ⎣ ANOVA ad effetti casuali: coefficiente di correlazione intraclasse Il modello lineare a due livelli ρ denota l’ICC (intraclass correlation coefficient) ρ = Corr (Yij , Yi′j ) = τ varianza dovuta ai gruppi = τ +σ 2 varianza totale 38 L. Grilli - Scuola SIS 2005 ρ ∈ [ 0,1] ρ fornisce una misura del grado di omogeneità tra osservazioni appartenenti allo stesso gruppo. Maggiore è il valore di ρ e tanto più importante è utilizzare una procedura di stima adeguata che tenga conto della dipendenza 39 L. Grilli - Scuola SIS 2005 Esempio: valutazione delle scuole Esempio: valutazione delle scuole Livelli di analisi: 1° livello, studenti; 2° livello, scuole Variabile risposta Y: punteggio test finale Variabile esplicativa di 1° livello X : punteggio test d’ingresso Y Approccio delle regressioni separate: analizzare ogni scuola separatamente, ad es. con il modello di regressione lineare semplice: Yij = β 0 j + β1 j xij + ε ij Sia l’intercetta che la pendenza sono importanti per la valutazione: iid ε ij ~ N (0, σ 2 ) La scuola A è più efficace (valori previsti di Y più elevati per tutto il range di X) La scuola A è anche più equa (pendenza inferiore) • • • • • • • • • • • • • • • • • • • • • • • • • • • • • B L’indice j è presente anche nei parametri -> ogni scuola ha una diversa intercetta e pendenza! L. Grilli - Scuola SIS 2005 A X 41 L. Grilli - Scuola SIS 2005 42 7 Corso della Scuola SIS - Metodi statistici per la valutazione e il monitoraggio della formazione universitaria Firenze, 10-14 ottobre 2005 Modello gerarchico lineare a due livelli Modello gerarchico lineare a due livelli Ad ogni scuola corrisponde una coppia ( β 0 j , β1 j ) Assumere che Approccio delle regressioni separate : per ogni scuola ( β 0 j , β1 j ) sono dei parametri e non vi è relazione tra i parametri di scuole diverse ⎡ β 0 j ⎤ iid ⎛ ⎡γ 00 ⎤ ⎡τ 00 τ 01 ⎤ ⎞ ⎟ ⎢β ⎥ ∼ N ⎜ ⎢ ⎥,⎢ τ 11 ⎥⎦ ⎠ ⎣ 1j ⎦ ⎝ ⎣γ 10 ⎦ ⎣ Approccio gerarchico (multilivello): le coppie ( β 0 j , β1 j ) delle varie scuole sono realizzazioni indipendenti da una distribuzione equivale ad assumere che le scuole presenti nell’archivio siano un campione casuale semplice da una popolazione di scuole in cui l’intercetta media è γ00 e la pendenza media è γ10 di probabilità, tipicamente normale bivariata ⎡ β 0 j ⎤ iid ⎛ ⎡γ 00 ⎤ ⎡τ 00 τ 01 ⎤ ⎞ ⎟ ⎢β ⎥ ∼ N ⎜ ⎢ ⎥,⎢ τ 11 ⎥⎦ ⎠ ⎣ 1j ⎦ ⎝ ⎣γ 10 ⎦ ⎣ Altre distribuzioni sono possibili ma la normale è usualmente preferibile ( β 0 j , β1 j ) indipendenti da ε ij 43 L. Grilli - Scuola SIS 2005 Modello gerarchico lineare a due livelli 44 L. Grilli - Scuola SIS 2005 Modello gerarchico lineare a due livelli Parametri del modello γ 00 intercetta media γ 10 pendenza media β0j Parametri fissi Correlazione tra intercette e pendenze: (= degli effetti fissi) τ 00 varianza intercetta τ 11 varianza pendenza τ 01 covarianza intercetta-pendenza σ 2 varianza residua (livello 1) τ 01 ρ ( β 0 j , β1 j ) = τ 00τ 11 Parametri casuali (= di varianzacovarianza) 45 Modello gerarchico lineare a due livelli Modello di 2° livello: Modello combinato: ⎧⎪ β 0 j = γ 00 + u0 j ⎨ ⎪⎩ β1 j = γ 10 + u1 j • • • • • • • • • • • • • • • • • • • • • 46 ⎧⎪u0 j = β 0 j − γ 00 ⎨ ⎪⎩u1 j = β1 j − γ 10 Var(u0 j ) = τ 00 Var(u1 j ) = τ 11 scarti non spiegati tra il valore del parametro per il gruppo j e il valore medio del parametro nella popolazione Le variabili esplicative possono spiegare in parte questi scarti, cioè possono ridurre le loro varianze Di solito le ipotesi distribuzionali vengno espresse con riferimento agli effetti casuali anziché ai beta: = γ 00 + γ 10 xij + u0 j + u1 j xij + ε ij Parte fissa • • • L. Grilli - Scuola SIS 2005 Errori di livello 2 (effetti casuali): Yij = ( γ 00 + u0 j ) + ( γ 10 + u1 j ) xij + ε ij L. Grilli - Scuola SIS 2005 • Modello gerarchico lineare a due livelli Yij = β 0 j + β1 j xij + ε ij Modello di 1° livello: • • • β1j NOTA: il modello è molto parsimonioso: ha 6 parametri indipendentemente dal numero di scuole nel campione! L. Grilli - Scuola SIS 2005 Esempio di correlazione negativa Parte aleatoria 47 ⎡u0 j ⎤ iid ⎛ ⎡0 ⎤ ⎡τ 00 τ 01 ⎤ ⎞ ⎟ ⎢ ⎥∼ N ⎜⎢ ⎥,⎢ τ 11 ⎥⎦ ⎠ ⎣ u1 j ⎦ ⎝ ⎣0⎦ ⎣ L. Grilli - Scuola SIS 2005 ⎡ u0 j ⎤ ⎢ u ⎥ indip da ε ij ⎣ 1j ⎦ 48 8 Corso della Scuola SIS - Metodi statistici per la valutazione e il monitoraggio della formazione universitaria Firenze, 10-14 ottobre 2005 Modello gerarchico lineare a due livelli: alcuni casi Modello gerarchico lineare a due livelli: caso speciale “regressione ordinaria” τ 00 > 0, τ 11 > 0 ⇒ Yij = ( γ 00 + u0 j ) + ( γ 10 + u1 j ) xij + ε ij τ 00 = 0, τ 11 = 0 ⇒ Yij = γ 00 + γ 10 xij + ε ij pendenza casuale regressione ordinaria τ 00 > 0, τ 11 = 0 ⇒ Yij = ( γ 00 + u0 j ) + γ 10 xij + ε ij Y • • • τ 11 = 0 → τ 01 = 0 • • •• • • • • • • • • • • •• •• • • • • Nota : • • • regressione ordinaria • • • • • • • • • • • Nota: nel modello a pendenza casuale anche l’intercetta è casuale X 49 L. Grilli - Scuola SIS 2005 • • La variabilità tra i gruppi è nulla e quindi i coefficienti sono fissi τ 00 = 0, τ 11 = 0 ⇒ Yij = γ 00 + γ 10 xij + ε ij • • • intercetta casuale 50 L. Grilli - Scuola SIS 2005 Modello gerarchico lineare a due livelli: caso speciale “intercetta casuale” Modello gerarchico lineare a due livelli: caso generale “pendenza casuale” τ 00 > 0, τ 11 = 0 ⇒ Yij = ( γ 00 + u0 j ) + γ 10 xij + ε ij τ 00 > 0, τ 11 > 0 ⇒ Yij = ( γ 00 + u0 j ) + ( γ 10 + u1 j ) xij + ε ij pendenza casuale intercetta casuale La varianza del coefficiente di regressione è nulla (e quindi anche la covarianza tra i coefficienti) La varianza dell’intercetta non dipende da X (la centratura di X è irrilevante) Le rette di regressione relative ai gruppi sono fra loro parallele E’ possibile ordinare i gruppi Y • • • • • •• • • • • • • • • • •• • • •• • ••• • • • • • • • • •• • • • • • • • ••• ••• • • •• • •• • • 51 (una covariata di livello 1 + una covariata di livello 2) • • • • • • • • • • • • • • • • • • X 52 L. Grilli - Scuola SIS 2005 (una covariata di livello 1 + una covariata di livello 2) Introduzione di variabili esplicative di livello 2: Modello di 1° livello: Le variabili di livello 2 rappresentano caratteristiche dei gruppi che servono a Definire un modello per i parametri del modello di livello 1 ( β 0 j , β1 j ) ovvero a ridurre le varianze di livello 2 Ad esempio: W variabile binaria, 1=scuola pubblica; 0=scuola privata L. Grilli - Scuola SIS 2005 • • Modello gerarchico lineare a due livelli Modello gerarchico lineare a due livelli •• Y X L. Grilli - Scuola SIS 2005 La varianza dell’intercetta (τ00) e la covarianza intercetta-pendenza (τ01) si riferiscono a X=0 e dipendono da X Poiché spesso l’origine di X è arbitraria è bene non vincolare a zero la covarianza Non esiste un ordinamento univoco dei gruppi: l’ordinamento varia al variare del valore X considerato Modello di 2° livello: Yij = β 0 j + β1 j xij + ε ij ⎧ β 0 j = γ 00 + γ 01w j + u0 j ⎨ ⎩ β1 j = γ 10 + γ 11w j + u1 j Modello combinato: Yij =γ 00 +γ 01w j +γ 10 xij +γ 11w j xij +u0 j + u1 j xij + ε ij 53 L. Grilli - Scuola SIS 2005 Interazione cross-level Parte fissa Parte aleatoria 54 9 Corso della Scuola SIS - Metodi statistici per la valutazione e il monitoraggio della formazione universitaria Firenze, 10-14 ottobre 2005 Modello gerarchico lineare a due livelli Centratura delle covariate e regressioni entro e tra gruppi (una covariata di livello 1 + una covariata di livello 2) Modello di 2° livello : ⎧ β 0 j = γ 00 + γ 01w j + u0 j ⎨ ⎩ β1 j = γ 10 + γ 11w j + u1 j γ 01 γ 11 u0 j u1 j Una covariata di livello 1 xij può essere centrata rispetto a: A) una costante, ad es. la media generale x.. Var(u0 j ) = τ 00 Var(u1 j ) = τ 11 ⇒ si sostituisce xij con (xij − x.. ) ⇒ i coefficienti di xij e (xij − x.. ) sono identici differenza nell’intercetta media tra scuola privata e pubblica ⇒ cambia solo l'intercetta γ 00 differenza nella pendenza media tra scuola privata e pubblica effetto unico della scuola j sull’intercetta media B) la media di gruppo x. j effetto unico della scuola j sulla pendenza media Attenzione: le ipotesi sugli errori del modello sono le stesse, ma l’interpretazione delle varianze cambia poiché le varianze sono di tipo residuale rispetto alle covariate ⇒ si sostituisce xij con (xij − x. j ) ⇒ i coefficienti di xij e (xij − x. j ) sono diversi! 55 L. Grilli - Scuola SIS 2005 Centratura delle covariate e regressioni entro e tra gruppi Generalizzazioni del modello 1) Yij = … + γ total xij + … Più variabili esplicative di livello 1 e di livello 2: X1, X2, …,W1, W2, … es. modello a intercetta casuale in notazione matriciale T T ij 00 10 ij 01 j j ij Y =γ +γ 2) Yij = … + γ within xij + (γ between − γ within ) x. j + … 3) Yij = … + γ within ( xij − x. j ) 4) Yij = … + γ within ( xij − x. j ) + γ between x. j + … x +γ w +u +ε Struttura degli errori più complessa: 2 A livello 1: eteroschedasticità, es. Var (ε ij ) = σ xij A livello 2: più coefficienti casuali Più di due livelli gerarchici: es. modello a intercetta casuale a 3 livelli Yijk = [ parte fissa ] + vk + u jk + ε ijk 57 L. Grilli - Scuola SIS 2005 56 L. Grilli - Scuola SIS 2005 58 L. Grilli - Scuola SIS 2005 Indicatori di performance Modelli multilivello e valutazione Le valutazioni comparative di efficacia (c.d. effiacia relativa) di un insieme di Istituzioni sono basate su indicatori di performance (misure statistiche di sintesi che rispecchiano certi aspetti del funzionamento di una Istituzione) Indicatori di input, di output, di outcome Consideriamo gli aspetti statistici legati all’utilizzo di indicatori di outcome per valutazioni di efficacia relativa L. Grilli - Scuola SIS 2005 60 10 Corso della Scuola SIS - Metodi statistici per la valutazione e il monitoraggio della formazione universitaria Firenze, 10-14 ottobre 2005 Indicatori di performance Metodologia statistica I) Produzione di indicatori netti & II) Quantificazione dell’incertezza Principali questioni statistiche: I) Produrre indicatori netti, cioè aggiustati per le condizioni che caratterizzano l’Istituzione e i suoi Utenti -> necessario per effettuare confronti equi, alla pari (ceteris paribus) II) Quantificare l’incertezza -> necessario per evitare di trarre conclusioni influenzate dalla variabilità campionaria e da altre fonti di errore Modelli di regressione Ma i modelli standard non sono adeguati perché si basano sull’ assunzione irrealistica di indipendenza tra gli outcome degli Utenti (mentre gli outcome degli Utenti di una stessa Istituzione sono tipicamente correlati) -> errata quantificazione dell’incertezza Le graduatorie grezze di istituzioni (cosiddette ‘League Tables’) ignorano entrambi gli aspetti (Goldstein & Spiegelhalter, 1996) Soluzione: modelli di regressione multilivello 61 L. Grilli - Scuola SIS 2005 Metodologia statistica Modello multilivello Covariate di livello 1: I modelli multilivello Caratteristiche dell’Utente rappresentano adeguatamente la struttura di correlazione -> corrretta quantificazione dell’incertezza rappresentano esplicitamente la nozione di efficacia tramite gli effetti casuali uj Istituz. 1 Utente 1 … Utente n1 i = Utente (livello 1) j = Istituzione (livello 2) Covariate di livello 2: Caratteristiche dell’Istituzione e caratteristiche ambientali Yij = γ 00 + γ10T xij + γ 01T w j + u j + ε ij Variabile di risposta: Effetto casuale sull’intercetta: Outcome dell’Utente Efficacia dell’Istituzione Istituz. J ……… Utente 1 Efficacia di Tipo A o B a seconda delle covariate … Utente nJ 63 L. Grilli - Scuola SIS 2005 Inferenza sull’efficacia basata sul modello multilivello 62 L. Grilli - Scuola SIS 2005 64 L. Grilli - Scuola SIS 2005 Inferenza Stima dell’efficacia dell’Istituzione j ⇒ residuo di livello 2 uˆ j Con i residui si possono costruire graduatorie nette delle istituzioni (che però ignorano l’incertezza!) Per tener conto dell’incertezza si può usare lo standard error dei residui per costruire Intervalli di confidenza univariati Intervalli di confidenza per confronti a coppie L. Grilli - Scuola SIS 2005 65 11 Corso della Scuola SIS - Metodi statistici per la valutazione e il monitoraggio della formazione universitaria Firenze, 10-14 ottobre 2005 Stima e previsione Yij =γ 00 +γ 01w j +γ 10 xij +γ 11w j xij Stima dei parametri Parte fissa +u0 j + u1 j xij + ε ij Parte aleatoria Approccio di massima verosimiglianza: step 1: stima dei parametri fissi (γ00, γ01, γ10, γ11) e dei parametri casuali (σ2, τ00, τ01 , τ11) Osservazione: la teoria asintotica vale all’aumentare del numero di gruppi (l’aumento della dimensione dei gruppi non è sufficiente) step 2: previsione degli effetti casuali (u0j, u1j : j=1,…,J) (detta anche calcolo dei residui di livello 2) 67 L. Grilli - Scuola SIS 2005 La stima di massima verosimiglianza (MV) si basa su algoritmi iterativi (IGLS, Fisher scoring, EM) Sotto deboli condizioni di regolarità gli stimatori di MV hanno buone proprietà asintotiche: Consistenza Normalità Efficienza Previsione degli effetti casuali (calcolo dei residui di livello 2) Nel caso dell’ANOVA ad effetti casuali esistono semplici formule per i residui: u OLS j = Y . j − µˆ EB OLS u j = λj u j λj = τ τ +σ 2 / nj EB Previsione degli effetti casuali (calcolo dei residui di livello 2) Yij = µ + u j + ε ij EB Residuo OLS grezzo ma per i gruppi piccoli u OLS è notevolmente "ristretto" rispetto a u j per tener conto della sua scarsa affidabilità Affidabilità del gruppo j (cresce con la dimensione del gruppo ed è circa uguale a 1 per i gruppi grandi) ⇒ uj e uj EB OLS producono due graduatorie diverse! Nei modelli più complessi dell’ANOVA le formule sono complicate, ma valgono gli stessi principi di shrinkage e borrowing strength OLS 69 70 L. Grilli - Scuola SIS 2005 Confronto fra residui EB j Residuo Empirical Bayes o shrinkage L. Grilli - Scuola SIS 2005 OLS per i gruppi grandi u j è simile a u j , u j è preferibile a u j perché minimizza l'errore quadratico medio di previsione di u j 68 L. Grilli - Scuola SIS 2005 Confronto fra residui I residui di livello 2 sono le previsioni dei corrispondenti effetti casuali uj Spesso l’interesse non è sul valore di uj per un singolo cluster, ma sul confronto fra gli uj di due diversi cluster (ad es. per capire se l’istituzione A è più efficace dell’istituzione B) Problema statistico: gli effetti casuali di due Errore comune: pensare che due quantità i cui intervalli al 95% sono disgiunti siano significativamente diverse al 5% X ∼ N (µ X ,σ 2 ) X ± 1.96 ⋅ σ Y ∼ N ( µY , σ ) Y ± 1.96 ⋅ σ 2 Se X e Y sono indipendenti X − Y ∼ N ( µ X − µY , 2σ 2 ) ( X − Y ) ± 1.96 2 ⋅σ µX è significativamente diverso da µY al livello 95% se e solo se: cluster arbitrari sono o non sono significativamente diversi ad un certo livello? • la distanza (in unità di σ) fra X e Y è maggiore di 1.96√2 = 2.77 • gli intervalli univariati di raggio 2.77/2 = 1.39 sono disgiunti L. Grilli - Scuola SIS 2005 71 L. Grilli - Scuola SIS 2005 72 12 Corso della Scuola SIS - Metodi statistici per la valutazione e il monitoraggio della formazione universitaria Firenze, 10-14 ottobre 2005 Confronto fra residui Software e libri Il valore 1.39 si basa su alcune ipotesi (distribuzione normale, indipendenza, identica varianza) che tipicamente non sono plausibili -> il valore 1.39 va inteso come approssimazione e il livello di significatività 5% come livello medio dei confronti Grafico per confronti a coppie Approfondimenti in Goldstein & Healy (1995) Semintervallo= 1.39* s.e. del residuo 73 L. Grilli - Scuola SIS 2005 Software per la stima di modelli multilivello Software specializzato (es. MLwiN, HLM) Procedure in pacchetti di uso generale (es. Proc Mixed e Proc Nlmixed in SAS, xtmixed e gllamm in Stata) Rassegna critica: http://multilevel.ioe.ac.uk/softrev/index.html Sito con dati ed esercitazioni svolte: Multilevel Modeling Resources at UCLA http://www.ats.ucla.edu/stat/mlm/ 75 L. Grilli - Scuola SIS 2005 Hox Snijders & Bosker Libri sui modelli multilivello L. Grilli - Scuola SIS 2005 Libri sui modelli multilivello Modelli multilivello e valutazione Raudenbush & Bryk Goldstein L. Grilli - Scuola SIS 2005 76 77 Raudenbush S.W. & Willms J.D. (1995) The Estimation of School Effects. Journal of Educational and Behavioral Statistics, Vol. 20, No. 4, pp. 307-335. Goldstein, H. & Spiegelhalter, D.J. (1996). Leage tables and their limitations: statistical issues in comparisons of institutional performances (con discussione). Journal of the Royal Statistical Society, series A, Vol. 159, pp. 385-443. Goldstein H. & Lewis T. (eds) (1996) Assessment: problems, developments and statistical issues: a volume of expert contributions. Wiley, Chichester. Gori E. & Vittadini G. (a cura di) (1999) Qualità e valutazione nei servizi di pubblica utilità. ETAS, Milano. L. Grilli - Scuola SIS 2005 78 13