Proprietà della media, differenza interquartile, eterogeneità, indici di
Transcript
Proprietà della media, differenza interquartile, eterogeneità, indici di
Università di Cassino Corso di Statistica 1 Esercitazione del 29/10/2007 Dott. Alfonso Piscitelli Esercizio 1 Il seguente data set riporta la rilevazione di alcuni caratteri su un collettivo di 20 soggetti. Soggetto Sesso Età 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 M F F M F F M M F F F M F F M F F F M M 22 18 34 42 50 12 46 72 27 48 35 84 21 44 56 58 37 16 73 64 Reddito (Migliaia di € ) 0,7 0,2 1,6 2,5 3,2 0,1 3,8 1,3 1,2 1,7 1,9 0,8 0,4 1,8 1,9 3,2 2,1 0,1 1,6 2,2 Titolo di studio Diploma Lic. Media Diploma Laurea Diploma Lic. Elementare Lic. Media Nessun Titolo Laurea Lic. Media Laurea Nessun Titolo Diploma Diploma Lic. Media Lic. Media Diploma Lic. Media Lic. Elementare Lic. Elementare Nucleo familiare Statura (cm) 3 4 2 5 3 4 4 2 3 5 1 1 5 4 2 3 1 4 2 3 173 168 165 180 163 160 177 164 158 170 167 159 174 164 177 172 166 160 170 184 Colore degli occhi NERO MARRONE MARRONE NERO AZZURRO NERO MARRONE VERDE AZZURRO NERO NERO MARRONE AZZURRO VERDE NERO NERO MARRONE MARRONE AZZURRO VERDE a) Costruire la distribuzione di frequenza per il carattere Età suddividendo la distribuzione in 4 classi equiampie e determinare il valore del secondo decile, del settantesimo e novantesimo percentile. b) Costruire la distribuzione doppia di frequenza per i caratteri Sesso e Età, utilizzando per questo ultimo carattere la suddivisione in classi operata precedentemente. Verificare la proprietà associativa della media. c) Determinare la differenza interquartile per il carattere Nucleo familiare a partire sia dalla successione di valori sia dalla distribuzione di frequenze. d) Si calcoli l’indice di Eterogeneità di Gini per il carattere Colore degli occhi. e) Determinare l’indice di dispersione D per il carattere Titolo di studio. Soluzioni a) La distribuzione in classi di frequenza del carattere Età, è: Età di ni 12|-30 30|-48 48|-66 66|-|84 Tot: 18 18 18 18 6 6 0,3 0,3 6 12 0,3 0,6 5 17 0,25 0,85 3 20 0,15 1,0 20 1 Ni fi Fi Prima di passare al calcolo del terzo decile, per dati in classi, bisogna evidenziare la classe in cui è presente il secondo decile. La classe del secondo decile è quella associata alla prima frequenza cumulata relativa che supera il valore di 0,20. Classe D2=12|-30 [in cui il valore della x associato alla prima frequenza . relativa cumulata è maggiore di 0,20]. Quindi, il secondo decile sarà: ∑ ni (2) − N d −1 D2 = ld + 10 dd nd dove: ld =limite inferiore della classe del secondo decile; ⇒ N d −1 =frequenza cumulata associata alla classe precedente a quella del secondo decile; nd =frequenza assoluta della classe del secondo decile; d d =ampiezza della classe del secondo decile; 4−0 D2 = 12 + 18 = 12 + 12 = 24 6 Le classi del settantesimo e del novantesimo percentile, si individuano in corrispondenza delle rispettive frequenze cumulate relative. Avremo quindi che: ⇒ ⇒ . Classe C70=48|-66 [valore della x associato alla prima frequenza relativa cumulata maggiore di 0,70]. . Classe C90=66|-|84 [valore della x associato alla prima frequenza relativa cumulata maggiore di 0,90]. Quindi, il settantesimo percentile sarà: ∑n i C70 = lC 70 + 100 (70) − NC 70−1 nC 70 dC 70 dove: lC70 =limite inferiore della classe C70; N C70 −1 =frequenza cumulata associata alla classe precedente a quella di C70; nC70 =frequenza assoluta della classe C70; d C70 =ampiezza della classe C70; C70 = 48 + 14 − 12 18 = 48 + 7, 2 = 55, 2 5 Quindi, il novantesimo percentile sarà: ∑n i C90 = lC 90 + 100 (90) − N C 90−1 dC 90 nC 90 dove: lC90 =limite inferiore della classe C90; N C90 −1 =frequenza cumulata associata alla classe precedente a quella di C90; nC90 =frequenza assoluta della classe C90; d C90 =ampiezza della classe C90; C90 = 66 + 18 − 17 18 = 66 + 6 = 72 3 b) Per rappresentare la distribuzione doppia di frequenze dei due caratteri Sesso e Età (suddiviso in classi) è necessario costruirsi una tabella a doppia entrata che ha per righe le due modalità della variabile Sesso {Maschio, Femmina} e per colonne le 4 classi in cui è stata suddivisa la variabile Età {12|-30; 30|48; 48|-66; 66|-|84 }. Si precisa che la stessa informazione si avrebbe da una tabella che ha per righe le classi della variabile Età e per colonne le modalità della variabile Sesso. La distribuzione doppia di frequenza delle due variabili è: Maschio Femmina Tot: 12|-30 1 5 6 30|-48 2 4 6 48|-66 2 3 5 66|-|84 3 0 3 Tot: 8 12 20 In questa tabella, il calcolo della media aritmetica della variabile Età sarà: µ= 1 N C ∑x c i ∗ ni i =1 Ricordando che i valori centrali delle classi sono rispettivamente: 21; 39; 57; 75. µ= (21 * 6) + (39 * 6) + (57 * 5) + (75 * 3) 870 = = 43,5 20 20 Per poter verificare la proprietà associativa della media bisogna ricorrere alle distribuzioni di frequenza condizionate. Le due distribuzioni di frequenza condizionate della variabile Età sono: Maschio 12|-30 1 30|-48 2 48|-66 2 66|-|84 3 Tot: 8 Femmina 12|-30 5 30|-48 4 48|-66 3 66|-|84 0 Tot: 12 Per ognuna delle tabelle si calcola la media della distribuzione condizionata delle variabile Età rispetto alle variabile Sesso: µ Età|M = ( 21*1) + (39 * 2) + (57 * 2) + (75 * 3) 438 = = 54,75 8 8 L’Età media dei Maschi è 54,75 µ Età|F = (21* 5) + (39 * 4) + (57 * 3) + (75 * 0) 432 = = 36 12 12 L’Età media delle Femmine Maschi è 36 La proprietà associativa della Media afferma che la media delle medie condizionate ponderata per la numerosità del gruppo è uguale alla media generale. Essa è verificata dalla seguente uguaglianza: G ∑µ ∗n ∑n i i =1 i dove G= numero di gruppi. i =µ Nel nostro caso G=2 e la media delle medie condizionate è: 2 ∑µ ∗n µ= ∑n i i =1 i = i c) La successione dei valori ordinati in senso non decrescente e la corrispondente distribuzione di frequenza della variabile Nucleo familiare sono le seguenti: Soggetto Posizione 11 12 17 3 8 15 19 1 5 9 16 20 2 6 7 14 18 4 10 13 (54,57 * 8) + (36 * 12) 870 = = 43,5 20 20 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Nucleo familiare 1 1 1 2 2 2 2 3 3 3 3 3 4 4 4 4 4 5 5 5 Nucleo familiare 1 2 3 4 5 ni 3 4 5 5 3 Tot: 20 fi Fi 0,15 0,2 0,25 0,25 0,15 1 0,15 0,35 0,60 0,85 1 Il primo quartile corrisponde a quel valore del carattere X che lascia alla sua sinistra il 25% delle osservazioni e alla sua destra il 75%. Il terzo quartile corrisponde a quel valore del carattere X che lascia alla sua sinistra il 75% delle osservazioni e alla sua destra il rimanente 25%. XN +XN Q1 = 4 4 2 +1 = X5 + X6 2 + 2 = =2 2 2 X 3* Q3 = N 4 +X 3* N' +1 4 2 = X 15 + X 16 4 + 4 = =4 2 2 Nel caso delle distribuzioni di frequenza semplice, invece, i quartili vengono individuati facendo riferimento alle frequenze cumulate o alle frequenze relative cumulate. In questo caso: . il primo quartile è quel valore della x associato alla prima frequenza relativa cumulata maggiore di 0,25. [Q1=2] . il terzo quartile è quel valore della x associato alla prima frequenza relativa cumulata maggiore di 0,75. [Q3=4]. ⇒ ⇒ Si definisce differenza interquartile la differenza tra il terzo e il primo quartile. IQR= Q3 - Q1 = 4-2=2 Questa quantità contiene il 50% “centrale” delle osservazioni. d) Nel caso di variabili qualitative la variabilità del carattere è espressa in termini di mutabilità, definita come l’attitudine di un carattere ad assumere differenti modalità qualitative. Quando tutte le unità statistiche assumono la stessa modalità, si ha una perfetta omogeneità. (minima eterogeneità) Quando le modalità del carattere hanno tutte la stessa frequenza assoluta o relativa, si ha la massima disomogeneità. L’Eterogeneità misura la variabilità delle frequenze delle k modalità del carattere. L’Indice di Eterogeneità (G) di Gini si basa sulle frequenze relative. k G = 1 − ∑ fi2 i =1 Si tratta di un indice relativo che varia tra 0 ≤ G ≤ 1− 1 k G=0 si ha la minima eterogeneità. 1 G = 1− si ha la massima eterogeneità. k La distribuzione di frequenza della variabile Colore degli occhi è: Colore degli occhi n Nero 7 0,35 Marrone Azzurro 6 4 0,3 Verde 3 Tot: i 20 f i 0,2 0,15 1 Colore degli occhi f (f )2 0,35 0,3 0,1225 0,09 0,2 0,04 0,15 1 0,0225 0,275 i Nero Marrone Azzurro Verde Tot: i Quindi G sarà: k G = 1 − ∑ f i 2 = 1 − 0, 275 = 0 ,725 i =1 Volendo normalizzare G si divide il valore ottenuto per il suo massimo 1− 1 k ottenendo così G* G⋅k =0,9667 k −1 Si può dire che siamo molto vicini al caso di massima eterogeneità. G* = e) Per poter effettuare il calcolo dell’indice di dispersione D per il carattere Titolo di studio, bisogna partire dalla distribuzione di frequenze Titolo di studio ni fi Fi Nessun Titolo 2 0,10 0,10 3 0,15 0,25 Lic. Media 6 0,30 0,55 Diploma 6 0,30 0,85 Laurea 3 0,15 1 Tot: 20 1 L’indice di dispersione D, a differenza di altri indici di omogeneità / eterogeneità utilizzati per le variabili qualitative nominali, consente di utilizzare l’ulteriore informazione detenuta dalle variabili qualitative ordinali, ovvero la possibilità di ordinarne le modalità. Lic. Elementare k −1 D = 2∑ Fi (1 − Fi ) i =1 Titolo di studio Nessun Titolo Lic. Elementare Lic. Media Diploma Laurea ni 2 3 6 6 3 Tot: 20 fi Fi 0,10 0,15 0,30 0,30 0,15 1 0,10 0,25 0,55 0,85 1 (1- Fi) 0,90 0,75 0,45 0,15 0 Fi *(1- Fi) 0,0900 0,1875 0,2475 0,1275 0,6525 D=2*0,6525=1,305 Sapendo che il valore massimo che può assumere l’indice nel caso di numerosità pari è: DMAX = K −1 5 −1 = =2 2 2 è possibile calcolare l’indice D normalizzato tra [0 - 1]. D[0−1] = D 1,305 = = 0, 6525 DMAX 2