Statistica 1 A.A. 2015/2016
Transcript
Statistica 1 A.A. 2015/2016
Corso di Laurea in “Economia e Finanza” Statistica 1 A.A. 2015/2016 (8 CFU, corrispondenti a 48 ore di lezione frontale e 24 ore di esercitazione) Prof. Luigi Augugliaro 1 / 24 Rilevazione congiunta di due caratteri statistici: le tabelle a doppia entrata Introduzione Nella prima parte del corso ci siamo occupati della descrizione di un carattere statistico X e abbiamo introdotto i principali strumenti di base della statistica descrittiva univariata. In questa seconda parte ci occuperemo dell’analisi derivante dalla rilevazione congiunta di due caratteri statistici, indicati genericamente con X e Y . Questo tipo di analisi prende il nome di analisi bivariata. Gli strumenti di analisi statistica bivariata si dividono in due grosse categorie: 1. analisi simmetrica: in questo caso i due caratteri X e Y sono sullo stesso piano logico, ovvero siamo interessati a studiare come X ed Y si influenzano reciprocamente. 2. analisi asimmetrica: in questo caso i due caratteri X e Y non sono sullo stesso piano logico, ovvero siamo interessati a studiare come X influenza Y o viceversa. 2 / 24 Le tabelle a doppia entrata: la prima forma di sintesi dei dati bivariati Supponiamo di rilevare su di un campione di 20 individui il carattere qualifica professionale e il carattere sesso. Di seguito è riportata la matrice dei dati. Unità 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Qualifica Dirigente Dirigente Dirigente Dirigente Dirigente Impiegato Impiegato Impiegato Impiegato Impiegato Insegnante Insegnante Insegnante Insegnante Insegnante Medico Medico Medico Medico Medico Sesso M M M F M M M M M F F M M F F F M F F M 3 / 24 Un primo strumento che consente una rappresentazione più compatta ed informativa dei dati è la tabella a doppia entrata anche nota come distribuzione doppia di frequenza. Professione Dirigente Impiegato Insegnante Medico Tot. Sesso F. M. 1 4 1 4 3 2 3 2 8 12 Tot. 5 5 5 5 20 La distribuzione doppia di frequenza mostra, ad esempio, che un lavoratore è caratterizzato dalla qualifica professionale “Dirigente” e dal sesso “Femmina” mentre 4 lavoratori sono caratterizzati dalla qualifica professionale “Dirigente” e dal sesso “Maschio”. Il campione è costituito da 5 dirigenti, 5 impiegati, 5 insegnanti e 5 medici; delle venti unità campionarie rilevate, 8 sono donne e 12 sono uomini. 4 / 24 In uno studio sull’orario di lavoro dei dirigenti d’impresa, sono stati intervistati 30 dirigenti. Durante l’intervista sono state rilevate le variabili “fatturato” ed “ore di lavoro settimanale”. Di seguito si riportano i valori rilevati. ore fat. 46 24.03 46 25.12 48 25.97 49 25.17 51 23.08 53 25.07 53 25.22 54 28.66 54 31.66 55 24.96 ore fat. 55 27.81 56 32.22 57 27.04 58 30.33 58 24.79 62 34.13 63 32.72 63 28.81 63 33.04 63 31.18 ore fat. 64 30.61 64 26.98 64 32.93 65 33.49 66 30.49 67 29.48 68 26.49 69 30.56 69 26.75 72 25.81 Sulla base dei precedenti valori il candidato costruisca la distribuzione doppia di frequenza utilizzando tre classi di ampiezza costante sia per la variabile “fatturato” che per la variabile “ore di lavoro settimanale”. 5 / 24 Ore (45,55] (55,65] (65,75] Tot. (20,25] 3 1 0 4 fatturato (25,30] (30,35] 7 1 3 9 4 2 14 12 Tot. 11 13 6 30 6 / 24 Eserzio. Un gruppo di ricercatori è interessato a studiare come i consumi finali pro capite siano influenzati dal prodotto nazionale lordo a prezzi correnti. Sulla base dei seguenti dati PNL Cons 6.07 11.46 6.59 11.20 6.95 16.39 7.07 13.22 7.48 5.33 8.28 10.52 PNL Cons 8.82 5.30 9.20 9.49 11.18 8.28 12.20 11.04 12.76 19.00 12.94 6.97 PNL Cons 13.64 6.58 13.91 14.61 14.92 14.13 14.93 5.75 15.36 9.24 16.06 9.31 PNL Cons 16.23 14.74 16.96 9.33 17.17 7.85 17.59 16.83 17.66 15.20 17.70 7.84 PNL Cons 17.70 7.21 17.94 13.12 18.38 14.95 18.93 12.81 19.32 16.45 19.91 8.15 il candidato costruisca la distribuzione doppia di frequenza ottenuta utilizzando tre classi di ampiezza costante sia per la variabile “prodotto interno lordo” che per la variabile “consumi finali”. Quando la distribuzione doppia di frequenza è ottenuta utilizzando due variabili quantitative continue prende il nome di tavola di correlazione. 7 / 24 PNL 5 a 10 10 a 15 15 a 20 Tot. 5 a 10 3 4 7 14 consumi 10 a 15 15 a 20 4 1 3 1 4 3 11 5 Tot. 8 8 14 30 8 / 24 Formalmente una distribuzione doppia di frequenza può essere rappresentata nel seguente modo: X /Y x1 x2 ... xi ... xr Tot. y1 n11 n21 ... ni1 ... nr 1 n.1 y2 n12 n22 ... ni2 ... nr 2 n.2 ... ... ... ... ... ... ... ... yj n1j n2j ... nij ... nrj n.j ... ... ... ... ... ... ... ... yc n1c n2c ... nic ... nrc n.c Tot. n1. n2. ... ni. ... nr . n r = numero di righe e c = numero di colonne; xi è l’i-esima generica modalita di X mentre yj è la j-esima modalità di Y ; nij viene definita frequenza assoluta congiunta ij, ovvero il numero di unità campionarie portatrici della modalità xi e yj ; P ni. = cj=1 nij è definita i-esima frequenza marginale della variabile X ; P n.j = ri=1 nij è definita j-esima frequenza marginale della variabile Y ; Pr P n = i=1 ni. = cj=1 n.j è la numerosità campionaria. 9 / 24 Data una distribuzione doppia di frequenza X /Y x1 x2 .. . xi .. . xr Tot. y1 n11 n21 .. . ni1 .. . nr 1 n.1 y2 n12 n22 .. . ni2 .. . nr 2 n.2 ... ... ... .. . ... .. . ... ... yj n1j n2j .. . nij .. . nrj n.j ... ... ... .. . ... .. . ... ... yc n1c n2c .. . nic .. . nrc n.c Tot. n1. n2. .. . ni. .. . nr . n la colonna e la riga in cui vengono riportati i totali identificano, rispettivamente, la distribuzione marginale di X e la distribuzione marginale di Y . L’i-esima riga della distribuzione doppia di frequenza identifica la distribuzione di frequenze condizionata della variabile Y data la modalità xi della variabile X . La j-esima colonna della distribuzione doppia di frequenza identifica la distribuzione di frequenze condizionata della variabile X data la modalità yj della variabile Y . 10 / 24 La seguente distribuzione doppia di frequenza è ottenuta rilevando su di un campione di soggetti la variabile “altezza” e la variabile “peso”. Altezza 160 a 165 165 a 170 170 a 175 175 a 180 Tot. 40 a 50 6 3 1 0 10 Peso 50 a 75 27 34 29 9 99 75 a 90 10 13 37 52 112 Tot. 43 50 67 61 221 individuare: i. la numerosità campionaria; ii. la distribuzione marginale della variabile “Altezza” ed utilizzare la più adeguata rappresentazione grafica; iii. la distribuzione marginale della variabile “Peso” ed utilizzare la più adeguata rappresentazione grafica; iv. la distribuzione condizionata della variabile “Peso” dato che un individuo ha un altezza compresa tra 160 e 170 cm; v. la distribuzione condizionata della variabile “Altezza” dato che un individuo ha un peso compresa tra 50 e 75 Kg; 11 / 24 Analogamente a quanto visto per le distribuzioni di frequenze semplice, anche per le distribuzioni di frequenze doppie è possibile definire le distribuzioni doppie di frequenze relative e le distribuzioni doppie di frequenze percentuali rispetto al totale n. In questo caso definiremo fij = nij /n e pij = fij · 100. Con riferimento all’esempio precedente, di seguito è riportata la distribuzione doppia di frequenze relative rispetto al totale. Tabella: Distribuzione doppia di frequenze relative rispetto al totale Altezza 160 a 165 165 a 170 170 a 175 175 a 180 Tot. 40 a 50 0.027 0.014 0.005 0.000 0.046 Peso 50 a 75 0.122 0.154 0.131 0.041 0.448 75 a 90 0.045 0.059 0.167 0.235 0.506 Tot. 0.194 0.227 0.303 0.276 1.000 12 / 24 Nell’analisi di una distribuzione doppia di frequenza, svolgono un ruolo fondamentale le distribuzioni di freguenze relative condizionate di X dato Y e di Y dato X . Le distribuzioni relative condizionate sono ottenute rapportando le distribuzione condizionate ai corrispondenti totali di riga o colonna. La seguente tabella riporta le distribuzioni di frequenze relative condizionate di Y dato le modalità della variabile X . X /Y x1 x2 ... xi ... xr y1 n11 /n1. n21 /n2. ... ni1 /ni. ... nr 1 /nr . n.1 /n y2 n12 /n1. n22 /n2. ... ni2 /ni. ... nr 2 /nr . n.2 /n ... ... ... ... ... ... ... ... yj n1j /n1. n2j /n2. ... nij /ni. ... nrj /nr . n.j /n ... ... ... ... ... ... ... ... yc n1c /n1. n2c /n2. ... nic /ni. ... nrc /nr . n.c /n Tot. n1. /n1. = 1 n2. /n2. = 1 ... ni. /ni. = 1 ... nr . /nr . = 1 n/n = 1 13 / 24 Con riferimento all’esempio precedente, la seguente tabella riporta le distribuzioni condizionate della variabile “Peso” data la variabile “Altezza”. Altezza 160 a 165 165 a 170 170 a 175 175 a 180 40 a 50 0.139 0.060 0.015 0.000 0.045 Peso 50 a 75 0.628 0.680 0.433 0.148 0.448 75 a 90 0.233 0.260 0.552 0.852 0.507 Tot. 1 1 1 1 1 14 / 24 Analogamente a quanto fatto in precedenza, le distribuzioni relative condizionate di X dato le modalità della variabile Y sono ottenute attraverso la seguente tabella X /Y x1 x2 ... xi ... xr Tot. y1 n11 /n.1 n21 /n.1 ... ni1 /n.1 ... nr 1 /n.1 n.1 /n.1 = 1 y2 n12 /n.2 n22 /n.2 ... ni2 /n.2 ... nr 2 /n.2 n.2 /n.2 = 1 ... ... ... ... ... ... ... ... yj n1j /n.j n2j /n.j ... nij /n.j ... nrj /n.j n.j /n.j = 1 ... ... ... ... ... ... ... ... yc n1c /n.c n2c /n.c ... nic /n.c ... nrc /n.c n.c /n.c = 1 n1. /n n2. /n ... ni. /n ... nr . /n n/n = 1 15 / 24 Con riferimento all’esempio precedente, la seguente tabella riporta le distribuzioni relative condizionate della variabile “Altezza” data la variabile “Peso”. Altezza 160 a 165 165 a 170 170 a 175 175 a 180 Tot. 40 a 50 0.6 0.3 0.1 0.0 1.0 Peso 50 a 75 0.273 0.343 0.293 0.091 1.000 75 a 90 0.090 0.116 0.330 0.464 1.000 0.195 0.226 0.303 0.276 1.000 16 / 24 Misure di sintesi condizionate e marginali Analogamente a quanto visto nella prima parte del corso, le distribuzioni di frequenze condizionate di Y dato X (o di X dato Y ) possono essere sintetizzate e confrontate tramite opportune misure di sintesi (valore medio, indici da variabilità relativa, indici di forma). Dato che le misure di sintesi vengono calcolate sulle distribuzioni condizionate essere prendono il nome di misure di sintesi condizionate (ad esempio possiamo calcolare le medie condizionate, le mediane condizionate, gli scarti quadratici medi condizionati, etc.). Quando vogliamo sintetizzare e confrontare la distribuzione marginale di X e/o Y , le corrispondenti misure di sintesi vengono definite marginali (ad esempio le medie marginali, le mediane marginali, gli scarti quadratici medi marginali, etc.). 17 / 24 Esempio. Media aritmetica condizionata di un carattere quantitativo X rispetto alla j-esima modalità del carattere Y Pr i=1 xi nij Ma (X |Y = yj ) = n.j e la varianza condizionata di un carattere quantitativo X rispetto alla j-esima modalità del carattere Y Pr 2 i=1 (xi − Ma (X |Y = yj )) nij σX2 |Y =yj = n.j Se Y è un carattere quantitativo, analogamente a quanto fatto in precedenza possiamo definire la media aritmetica condizionata di Y data l’i-esima modalità di X , formalmente Ma (Y |X = xi ) = c X yj nij ni. j=1 e la varianza condizionata di Y data l’i-esima modalità di X , formalmente Pc 2 j=1 (yj − Ma (Y |X = xi )) nij σY2 |X =xi = ni. 18 / 24 Con riferimento all’esempio precedente calcolare la media e lo scarto quadratico medio della variabile Altezza dato che il peso è compreso tra 40 e 50 Kg. Sulla base della seguente tabella Classi 160 a 165 165 a 170 170 a 175 175 a 180 Tot. si ricava ni1 6 3 1 0 10 xic 162.50 167.50 172.50 177.50 xic ni1 975.00 502.50 172.50 0.00 1650 (xic )2 26406.25 28056.25 29756.25 31506.25 (xic )2 ni1 158437.50 84168.75 29756.25 0.00 272362.50 1650 Ma (X |Y = y1 ) = = 165 cm 10 r 272362.50 σX |Y =y1 = − 1652 = 3.35 cm 10 I dati mostrano che colore che hanno un peso compreso tra 40 e 50 Kg sono caratterizzati da una altezza media uguale a 165 cm e da uno scarto quadratico medio uguale a 3.35 cm. 19 / 24 Con riferimento all’esempio precedente, calcolare la media e lo scarto quadratico medio della variabile Peso dato che l’altezza è compresa tra 160 e 165 cm. Sulla base della seguente tabella Classi 40 a 50 50 a 75 75 a 90 Tot. si ricava n1j 6 27 10 43 yjc 45.0 62.5 82.5 yjc n1j 270.0 1687.5 825.0 2782.5 (yjc )2 2025.00 3906.25 6806.25 (yjc )2 n1j 12150.00 105468.75 68062.50 185681.25 2782.5 Ma (Y |X = x1 ) = = 64.71 Kg 43 r 185681.25 σY |X =x1 = − 64.712 = 11.44 Kg 43 I dati mostrano che, colore che hanno una altezza compresa tra 160 e 165 cm, sono caratterizzati da un peso medio uguale a 64.71 Kg e da uno scarto quadratico medio uguale a 11.44 Kg. 20 / 24 Completare lo studio della precedente tabella calcolando tutte le possibili medie e varianze condizionate e commentare i risultati ottenuti. 21 / 24 Oltre alla media e alla varianza condizionata, altre misure di sintesi per l’analisi di una distribuzione doppia di frequenze sono la media marginale e la varianza marginale, ovvero la media e la varianza calcolate mediante l’utilizzo delle distribuzioni di frequenze marginali; formalmente Pr Pr xi ni. (xi − Ma (X ))2 ni. Ma (X ) = i=1 σX2 = i=1 n n mentre per Y si ricava Pc Pc Ma (Y ) = j=1 yj n.j n σY2 = j=1 (yj − Ma (Y ))2 n.j n 22 / 24 Con riferimento all’esercizio precedente, dalla seguente tabella Classi 160 a 165 165 a 170 170 a 175 175 a 180 Tot, ni1 43 50 67 61 221 xic 162.5 167.5 172.5 177.5 xic ni1 6987.5 8375.0 11557.5 10827.5 37747,5 (xic )2 26406.25 28056.25 29756.25 31506.25 (xic )2 ni1 1135468.75 1402812.50 1993668.75 1921881.25 6453831,25 si ricava che la media e lo scarto quadratico medio marginali della variabile “altezza” sono rispettivamente r 37747.5 6453831.25 = 170.80 cm σX = − 170.802 = 5.5 cm Ma (X ) = 221 221 I dati mostrano che i 221 soggetti sono caratterizzati da una altezza media pari a 170.80 cm e da uno scarto quadratico medio pari a 5.5 cm. 23 / 24 Se consideriamo la variabile “peso”, dalla seguente tabella Classi 40 a 50 50 a 75 75 a 90 Tot. n1j 10 99 112 221 yjc 45.0 62.5 82.5 yjc n1j 450.0 6187.5 9240.0 15877.5 (yjc )2 2025.00 3906.25 6806.25 (yjc )2 n1j 20250.00 386718.75 762300.00 1169268.75 si ricava che la media e lo scarto quadratico medio marginali della variabile “peso” sono rispettivamente r 15877.5 1169268.75 Ma (Y ) = = 71.84 Kg σY = − 71.842 = 11.39 Kg 221 221 I dati mostrano che i 221 soggetti sono caratterizzati da un peso medio pari a 71.84 Kg e da uno scarto quadratico medio pari a 11.39 Kg. 24 / 24