Statistica 1 AA 2015/2016 - Dipartimento di Scienze Statistiche e
Transcript
Statistica 1 AA 2015/2016 - Dipartimento di Scienze Statistiche e
Corso di Laurea in “Economia e Finanza” Statistica 1 A.A. 2015/2016 (8 CFU, corrispondenti a 48 ore di lezione frontale e 24 ore di esercitazione) Prof. Luigi Augugliaro 1 / 31 Analisi dell’associazione tra due caratteri Misura dell’associazione tra due caratteri qualitativi ordinabili. Gli indici introdotti consentono di analizzare l’associazione tra due caratteri qualunque sia la loro scala di misura. Se la tabella si riferisce a due caratteri qualitativi ordinati è possibile costruire degli indici che, oltre a misurare l’intensità dell’associazione, ne misurano anche il verso. Ossia, misurano anche se alle modalità di ordine più elevato di un carattere corrispondono più frequentemente le modalità più basse o più alte dell’altro carattere. 2 / 31 Esempio. Un gruppo di studiosi è interessato a valutare la relazione esistente tra l’attitudine alla matematica e l’attitudine all’informatica. La seguente tabella riporta la distribuzione doppia di frequenza ottenuta utilizzando un campione di 250 studenti. Attitudine all’informatica bassa media alta Tot. Attitudine alla matematica bassa media alta 78 9 3 8 43 9 7 16 77 93 68 89 Tot. 90 60 100 250 La distribuzione doppia di frequenza mostra che a modalità basse del carattere “attitudine alla matematica” corrispondono più frequentemente modalità basse del carattere “attitudine all’informtica”. 3 / 31 In generale, poiché le modalità dei due caratteri sono ordinabili possono sussistere fra loro due tipo diversi di relazione: relazione diretta (chiamata anche concordanza) relazione indiretta (chiamata anche discordanza). Definizione Diremo che vi è concordanza tra due caratteri ordinati X e Y (o siamo in presenza di una relazione diretta) quando a modalità basse del carattere X corrispondono più frequentemente modalità basse del carattere Y , mentre a modalità alte del carattere X corrispondono più frequentemente modalità alte del carattere Y . Di seguito è riportata la distribuzione doppia di frequenze caratterizzata da perfetta concordanza Attitudine all’informatica bassa media alta Tot. Attitudine alla matematica bassa media alta 78 0 0 0 43 0 0 0 77 78 43 77 Tot. 78 43 77 198 4 / 31 In generale, poiché le modalità dei due caratteri sono ordinabili possono sussistere fra loro due tipo diversi di relazione: relazione diretta (chiamata anche concordanza) relazione indiretta (chiamata anche discordanza). Definizione Diremo che vi è discordanza tra due caratteri ordinati X e Y (o siamo in presenza di una relazione inversa) quando a modalità basse del carattere X corrispondono più frequentemente modalità alte del carattere Y , mentre a modalità alte del carattere X corrispondono più frequentemente modalità basse del carattere Y . Di seguito è riportata la distribuzione doppia di frequenze caratterizzata da perfetta discordanza Attitudine all’informatica bassa media alta Tot. Attitudine alla matematica bassa media alta 0 0 78 0 43 0 77 0 0 77 43 78 Tot. 78 43 77 198 5 / 31 Gli indici utilizzati per lo studio del tipo di relazione che intercorre tra due caratteri ordinati X e Y , trovano fondamento teorico nel concetto di coppia di unità concordanti e coppia di unità discordanti. Sia u una unità su cui sono state rilevate le modalità xi e yj e sia u 0 una unità su cui sono state rilevate le modalità xi0 e yj0 . Diremo che la coppia di unità (u, u 0 ) è concordante se xi < xi0 e yj < yj0 oppure xi > xi0 e yj > yj0 Diremo che la coppia di unità (u, u 0 ) è discordante se xi < xi0 e yj > yj0 oppure xi > xi0 e yj < yj0 6 / 31 Data una distribuzione doppia di frequenza, indichiamo con Ns il numero totale di coppie di unità concordanti e con Nd il numero totale di coppie discordanti. Un primo indice proposto in letteratura per lo studio dell’associazione tra due caratteri ordinati X e Y è l’indice Gamma di Goodman e Kruskal, definito come γ= Ns − Nd . Ns + Nd Note. L’indice γ assume valori all’interno dell’intervallo [−1, 1]; assume valori positivi quando siamo in presenza di una relazione diretta (concordanza) mentre assume valori negativi quando siamo in presenza di una relazione inversa (discordanza). γ = 1 se e solo se Nd = 0 mentre γ = −1 se e solo se Ns = 0. L’indice γ misura la riduzione dell’errore che si commette nel prevedere come una coppia di unità si ordina rispetto alle modalità di un carattere, quando si conosce come queste si ordinano rispetto alle modalità dell’altro carattere. 7 / 31 Dalla definizione discende che per il calcolo dell’indice γ è necessario calcolare Ns e Nd . Con riferimento alla tabella Attitudine all’informatica bassa media alta Tot. Attitudine alla matematica bassa media alta 78 9 3 8 43 9 7 16 77 93 68 89 Tot. 90 60 100 250 il numero totale di coppie di unità concordanti Ns è ottenuto mediante la seguente rappresentazione tabellare Dalla bassa bassa media media cella bassa media bassa media Numero di coppie 78 · (43 + 9 + 16 + 77) 9 · (9 + 77) 8 · (16 + 77) 43 · 77 Ns Tot. 11310 774 744 3311 16139 8 / 31 Con riferimento alla tabella Attitudine all’informatica bassa media alta Tot. Attitudine alla matematica bassa media alta 78 9 3 8 43 9 7 16 77 93 68 89 Tot. 90 60 100 250 il numero totale di coppie di unità discordanti Nd è ottenuto mediante la seguente rappresentazione tabellare Dalla cella bassa alta bassa media media alta media media Numero di coppie 3 · (8 + 43 + 7 + 16) 9 · (8 + 7) 9 · (7 + 16) 43 · 7 Nd Tot. 222 135 207 301 865 9 / 31 Sulla base dei risultati precedenti si ricava che γ= 16139 − 865 Ns − Nd = = 0.9 Ns + Nd 16139 + 865 L’indice γ mostra un elevato grado di concordanza tra i due carattere; al crescere delle modalità del carattere “attitudine all’informatica” migliorano i risultati forniti dal test sull’attitudine alla matematica, e viceversa. Una limitazione dell’indice γ di Goodman e Kuskal risiede nella mancata considerazione delle coppie per cui le modalità di uno dei due caratteri rimangono costanti. 10 / 31 Data una distribuzione doppia di frequenza, indichiamo con TX il numero di coppie di unità, che rispetto al carattere X , presentano uguale modalità. Indichiamo con TY il numero di coppie di unità, che rispetto al carattere Y , presentano uguale modalità. Sulla base dell’utilizzo delle quantità TX e TY , Kendall propose il seguente indice τb = p Ns − Nd (Ns + Nd + TX )(Ns + Nd + TY ) L’indice τb di Kendall varia tra -1 e 1 e assume valori estremi sono quando i due caratteri hanno lo stesso numero di modalità, ovvero la distribuzione doppia di frequenze è quadrata. Quando la distribuzione doppia di frequenza è quadrata si preferisce utilizzare l’indice τb rispetto all’indice γ poiché utilizza maggiori informazioni. 11 / 31 Con riferimento alla tabella Attitudine all’informatica bassa media alta Tot. Attitudine alla matematica bassa media alta 78 9 3 8 43 9 7 16 77 93 68 89 Tot. 90 60 100 250 il numero di coppie appaiate rispetto al carattere “attitudine alla matematica” è ottenuto attraverso la seguente tabella Attitudine alla matematica bassa media alta Numero di coppie 78 · (8 + 7) + 8 · 7 9 · (43 + 16) + 43 · 16 3 · (9 + 77) + 9 · 77 TY Tot. 1226 1219 951 3396 12 / 31 Con riferimento alla tabella Attitudine all’informatica bassa media alta Tot. Attitudine alla matematica bassa media alta 78 9 3 8 43 9 7 16 77 93 68 89 Tot. 90 60 100 250 il numero di coppie appaiate rispetto al carattere “attitudine al fumo” è ottenuto attraverso la seguente tabella attitudine all’informatica bassa media alta Numero di coppie 78 · (9 + 3) + 9 · 3 8 · (43 + 9) + 43 · 9 7 · (16 + 77) + 16 · 77 TX Tot. 963 803 1883 3649 13 / 31 Sulla base dei risultati precedenti si ricava τb Ns − Nd = = p = (Ns + Nd + TX )(Ns + Nd + TY ) 16139 − 865 p (16139 + 865 + 3396)(16139 + 865 + 3649) = 0.744 Il valore ottenuto conferma le precedenti conclusioni fornite dall’indice γ. 14 / 31 L’indice γ di Goodman e Kruskal e l’indice τ di Kendall trovano giustificazione teorica all’interno di un approccio simmetrico, ovvero i due caratteri studiati si trovano sullo stesso piano logico; in altri termini non esiste un carattere dipendente e un carattere indipendente. Quando si è interessati ad un analisi asimmetrica, ovvero i due caratteri ordinabili considerati non si trovano sullo stesso piano logico, l’indice utilizzato è l’indice d di Sommer. Definizione Se il carattere Y è considerato dipendente dal carattere X allora l’indice d di Sommer è definito nel seguente modo Ns − Nd dY = . Ns + Nd + TY Definizione Se il carattere X è considerato dipendente dal carattere Y allora l’indice d di Sommer è definito nel seguente modo Ns − Nd . dX = Ns + Nd + TX 15 / 31 Esempio. Un gruppo di studiosi è interessato a valutare la relazione esistente tra attitudine al fumo e i risultati di un test sulla capacità respiratoria. La seguente tabella riporta la distribuzione doppia di frequenza. Attitudine al fumo mai fumato ex fumatore fumatore Tot. Normale 78 8 7 93 Esito Test Intermedio 9 43 16 68 Irregolare 3 9 77 89 Tot. 90 60 100 250 Con riferimento alla distribuzione doppia di frequenza è naturale studiare la dipendenza della variabile “esito test” dalla variabile “attitudine al fumo”. Sulla base dei risultati ottenuti in precedenza si ricava che l’indice dY di Sommer assume il seguente valore dY = Ns − Nd 16139 − 865 = = 0.749 N s + N d + TY 16139 + 865 + 3396 16 / 31 Indici di cograduazione Esempio. Un gruppo di 5 studenti, denotati con le lettere A, B, . . . , E , è stato valutato mediante un indicatore delle loro abilità matematiche e mediante un indicatore delle loro abilità musicali. Di seguito riportiamo i risultati ottenuti. Tabella dei punteggi Studenti Matematica Musica A 9 3 B 3 8 C 7 1 D 8 7 E 2 6 Obiettivo della nostra analisi è stabilire se esiste una relazione tra le due graduatorie e misurare l’intensità dell’eventuale relazione. 17 / 31 Definizione Definiamo rango la posizione ottenuta dall’unità dopo aver riordinato le unità in senso decrescente o crescente. Tabella dei punteggi Studenti Matematica Musica A 9 3 B 3 8 C 7 1 D 8 7 E 2 6 D 2 2 E 5 3 Tabella dei ranghi Studenti Matematica Musica A 1 4 B 4 1 C 3 5 18 / 31 Per rispondere alla precedente domanda è necessario costruire un indice che goda delle seguenti proprietà: i. assume valore +1 quando siamo in presenza di perfetta concordanza tra le due graduatorie; la seguente tabella è un esempio di perfetta concordanza tra due graduatorie Studenti Matematica Musica A 1 1 B 4 4 C 3 3 D 2 2 E 5 5 ii. assume valore -1 quando siamo in presenza di perfetta discordanza tra le due graduatorie; la seguente tabella è un esempio di perfetta discordanza tra due graduatorie Studenti Matematica Musica A 1 5 B 4 2 C 3 3 D 2 4 E 5 1 iii. nelle situazioni intermedie assume valori compresi tra -1 e 1. Il valore 0 indica perfetta indipendeza. 19 / 31 La costruzione dell’indice richiesto è basata sulla seguente procedura; consideriamo la prima possibile coppia di studenti, ovvero (A, B). Studenti Matematica Musica A 1 4 B 4 1 C 3 5 D 2 2 E 5 3 Con riferimento alla prima graduatoria (matematica), osserviamo i ranghi 1 e 4. Poiché i due ranghi presentano lo stesso ordinamento dei numeri naturali, assegniamo valore +1. Con riferimento alla seconda graduatoria (musica), la coppia (A, B) presenta ranghi 4 e 1. Poiché non è soddisfatto l’ordinameto dei numeri naturali assegniamo valore -1. Il punteggio complessivo assegnato alla coppia (A, B) è ottenuto tramite il prodotto dei precedenti valori, ovvero -1. 20 / 31 Ripetendo quanto appena fatto per tutte le Coppie (A, B) (A, C ) (A, D) (A, E ) (B, C ) (B, D) (B, E ) (C , D) (C , E ) (D, E ) Tot. 5 2 = Matematica +1 +1 +1 +1 -1 -1 +1 -1 +1 +1 4·5 2 = 10 coppie si ottiene la seguente tabella Musica -1 +1 -1 -1 +1 +1 +1 -1 -1 +1 Score -1 +1 -1 -1 -1 -1 +1 +1 -1 +1 -2 21 / 31 Per costruire un indice che assume valori compresi tra -1 e +1 è sufficiente notare che la colonna “Score” può assumere valore massimo uguale al numero di tutte le possibili coppie, ovvero 10, mentre può assumere valore minimo uguale a -10. La quantità −2 = −0.2 τ= 10 Il valore ottenuto mostra la presenza di una bassa discordanza tra le due graduatorie. In generale, indicato con s il totale della colonna Score e con n il numero di unità, l’indice τ calcolato precedentemente assume la seguente espressione: τ= s n 2 = 2s . n(n − 1) L’indice precedente è noto in letteratura come indice τ di Kendall. 22 / 31 Sebbene la procedura precedente consenta di comprendere la logica sottostante l’indice τ di Kendall, non è utilizzabile nelle applicazione in particolare quando n è elevato. Una procedura più semplice per il calcolo dell’indice τ di Kendall si basa sulle seguenti fasi: i. Si dispone la prima graduatori secondo l’ordine naturale e si lavora solamente sulla nuova disposizione della seconda graduatoria, ovvero Studenti Matematica Musica A 1 4 D 2 2 C 3 5 B 4 1 E 5 3 ii. Si procede come fatto in precedenza lavorando solamente sulla seconda graduatoria riordinata; si ottiene la tabella Unità A D C B s Musica -1+1-1-1 +1-1+1 -1-1 +1 Tot. -2 +1 -2 +1 -2 da cui si ricava τ = −2 10 = −0.2 23 / 31 La tabella che segue riporta l’ordine di arrivo di 5 atleti, indicati con A, B, . . . , E in due differenti gare: Studenti 1◦ gara 2◦ gara A 3 5 B 1 2 C 5 3 D 2 1 E 4 4 Valutare il gradi di concordanza. 24 / 31 i. Disponiamo la prima graduatori secondo l’ordine naturale Studenti 1◦ gara 2◦ gara B 1 2 D 2 1 A 3 5 E 4 4 C 5 3 ii. Dalla seguente tabella Unità B D A E s si ricava che τ = 2 10 Musica -1+1+1+1 +1+1+1 -1-1 -1 Tot. +2 +3 -2 -1 +2 = 0.2. 25 / 31 Un secondo indice usualmente utilizzato per valutare l’intensità della relazione esistente tra due graduatorie è il coefficiente ρ di Spearman Pn 6 i=1 di2 ρ=1− n(n2 − 1) dove di è la differenza tra i ranghi delle due graduatorie dell’i-esima unità. Il coefficiente ρ di Spearman assume valori all’interno dell’intervallo [−1, +1]; in particolare i. il coefficiente ρ assume valore -1 quando si è in presenza di perfetta discordanza; ii. il coefficiente ρ assume valore +1 quando si è in presenza di perfetta concordanza; iii. il coefficiente ρ assume valore 0 quando si è in presenza di perfetta indipendenza. 26 / 31 Supponiamo di aver rilevato su un insieme di 10 soggetti i due caratteri “attività sportiva” e “autocontrollo” e supponiamo che i due carattari siano misurati su scala di livello ordinale. Unità u1 u2 u3 u4 u5 u6 u7 u8 u9 u10 Att. Sport. 20 17 16 11 9 8 6 5 4 1 Autoc. 16 19 15 18 10 6 7 4 3 2 Misurare il livello di concordanza tra le due graduatorie. 27 / 31 Il calcolo del coeffeciente ρ di Spearman si basa sulla seguente tabella Unità u1 u2 u3 u4 u5 u6 u7 u8 u9 u10 Tot. Att. Sport. 20 17 16 11 9 8 6 5 4 1 Rango 1 2 3 4 5 6 7 8 9 10 Autoc 16 19 15 18 10 6 7 4 3 2 Rango 3 1 4 2 5 7 6 8 9 10 di -2 1 -1 2 0 -1 1 0 0 0 di2 4 1 1 4 0 1 1 0 0 0 12 Sulla base dei precedenti risultati si ricava P 6 ni=1 di2 6 · 12 ρ=1− =1− = 0.93 n(n2 − 1) 10 · (100 − 1) Il valore ottenuto mostra la presenza di un elevato grado di concordanza tra le due graduatorie; si deduce che l’attività sportiva migliora l’autocontrollo. 28 / 31 Consideriamo adesso il calcolo dell’indice τ di Kendall. Sulla base della seguente tabella Unità u1 u2 u3 u4 u5 u6 u7 u8 u9 Autoc -1+1-1+1+1+1+1+1+1 +1+1+1+1+1+1+1+1 -1+1+1+1+1+1+1 +1+1+1+1+1+1 +1+1+1+1+1 -1+1+1+1 +1+1+1 +1+1 +1 s Tot. 5 8 5 6 5 2 3 2 1 37 si ricava 2s 2 · 37 = = 0.82 n(n − 1) 10 · 9 il quale conferma la presenza di un elevato grado di concordanza tra le due graduatorie. τ = I due coefficienti τ e ρ assumono lo stesso valore soltanto quando vi è perfetta concordanza o discordanza tra le due graduatorie; in generale τ < ρ poiché è basato sul quadrato delle differenze tra i ranghi. 29 / 31 Supponiamo di aver rilevato su un insieme di 10 soggetti i due caratteri “attività sportiva” e “autocontrollo” e supponiamo che i due carattari siano misurati su scala di livello ordinale. Unità u1 u2 u3 u4 u5 u6 u7 u8 u9 u10 Att. Sport. 20 17 16 11 8 8 6 5 5 1 Autoc. 16 19 15 18 6 10 7 4 3 2 Misurare il livello di concordanza tra le due graduatorie. 30 / 31 Osserviamo che in questo caso alle unità u5 e u6 è attribuito lo stesso punteggio, ovvero 8; in questo caso si attribuisce alle due unità rango dato dalla media dei ranghi. Unità u1 u2 u3 u4 u5 u6 u7 u8 u9 u10 Tot. Att. Sport. 20 17 16 11 8 8 6 5 5 1 Rango 1 2 3 4 5,5 5,5 7 8,5 8,5 10 Autoc 16 19 15 18 6 10 7 4 3 2 Rango 3 1 4 2 7 5 6 8 9 10 di -2 1 -1 2 -1,5 -0,5 1 0,5 -0,5 0 di2 4 1 1 4 2,25 0,25 1 0,25 0,25 0 14 Sulla base dei precedenti risultati si ricava P 6 ni=1 di2 6 · 14 ρ=1− =1− = 0.9 n(n2 − 1) 10 · (100 − 1) Il valore ottenuto mostra la presenza di un elevato grado di concordanza tra le due graduatorie; si deduce che l’attività sportiva migliora l’autocontrollo. 31 / 31