Profili colonna e modello di regressione lineare semplice
Transcript
Profili colonna e modello di regressione lineare semplice
STATISTICA PER LE RICERCHE DI MERCATO Dr. Luca Secondi a.a. 2012/13 MATRICE DEI DATI e ANALISI DEI PROFILI COLONNA ESEMPIO DATASET Si ipotizzi di aver condotto un’indagine campionaria su 30 individui residenti in una determinata città italiana selezionati casualmente mediante uno schema di campionamento casuale semplice. Le informazioni di interesse sono state raccolte mediante tecnica CATI. id x1 sesso 1 Femmina 2 Femmina 3 Femmina 4 Maschio 5 Maschio 6 Femmina 7 Maschio 8 Maschio 9 Maschio 10 Maschio 11 Femmina 12 Maschio 13 Femmina 14 Maschio 15 Maschio 16 Maschio 17 Maschio 18 Femmina 19 Maschio 20 Maschio 21 Femmina 22 Maschio 23 Maschio 24 Maschio 25 Maschio 26 Maschio 27 Maschio 28 Maschio 29 Maschio 30 Maschio x2 Stato_civ Coniugato/a Coniugato/a Coniugato/a Coniugato/a Coniugato/a Coniugato/a Celibe/nubile Coniugato/a Vedovo/a Vedovo/a Coniugato/a Vedovo/a Coniugato/a Coniugato/a Coniugato/a Celibe/nubile Divorziato/a Coniugato/a Celibe/nubile Divorziato/a Celibe/nubile Vedovo/a Coniugato/a Divorziato/a Vedovo/a Celibe/nubile Coniugato/a Coniugato/a Coniugato/a Coniugato/a x3 titolo studio eta Lic. Elementare Lic.Media Lic.Media Lic.Media Diploma Diploma Diploma Lic.Media Laurea Laurea Laurea Lic. Elementare Lic. Elementare Lic. Elementare Lic. Elementare Lic. Elementare Lic. Elementare Lic.Media Lic.Media Lic.Media Lic.Media Diploma Diploma Lic. Elementare Laurea Diploma Diploma Laurea Lic.Media Laurea x4 x5 n_comp 76 85 70 49 48 59 26 41 57 74 58 65 62 28 30 45 35 59 69 51 59 71 66 59 68 26 66 54 29 55 x6 frutta_porz 2 2 2 3 2 3 2 2 4 1 4 1 2 3 5 4 2 3 3 3 4 2 2 1 1 1 4 4 5 4 x7 x8 spesa_alimentare_m reddito_mensile 2 250 2500 2 300 2000 3 280 1800 2 270 2400 2 260 3200 5 190 1400 2 300 1500 1 350 1700 1 120 2100 1 230 2000 3 240 1900 1 260 3800 2 310 2300 2 320 3400 1 330 4000 1 260 3200 1 200 3400 2 180 700 2 300 4300 2 230 2300 2 280 2500 5 290 2100 1 320 1300 2 300 1500 3 320 1600 1 350 1800 2 400 2100 2 410 2000 1 390 2200 1 320 2800 Descrizione variabili: • • • • • id: identificativo individuo Età: età dell’individuo espressa in anni compiuti Sesso Titolo di studio: titolo di studio (più elevato) conseguito al momento della partecipazione all’indagine Stato_civ: stato civile N_comp: numero di componenti della famiglia Frutta_porz: numero di porzioni di frutta consumate al giorno (1 porzione = 1 mela oppure 1 arancia, oppure • • Spesa_alimentare_m: spesa mensile per generi alimentari Reddito_mensile: reddito mensile netto percepito • • 2 mandarini, ecc) DIMENSIONE MATRICE DEI DATI: dimensione n x p = 30 X 8 ANALISI DEI PROFILI COLONNA (relazioni tra variabili) Distinguendo tra variabili qualitative (sia di tipo sconnesso che ordinale) e variabili quantitative si avrà: variabili qualitative: p1=3 variabili quantitative p2=5 p=p1 + p2 VARIABILI QUALITATIVE: sesso (x1), stato civile (x2), titolo di studio (x3) . tab sesso stato_civ, chi V sesso Celibe/nu Femmina Maschio 1 4 Total Stato_civ Coniugato Divorziat 7 10 5 17 Pearson chi2(3) = Cramér's V = 4.8529 0.4022 Vedovo/a Total 0 3 0 5 8 22 3 5 30 Pr = 0.183 . tab sesso titolostudio, chi V sesso Diploma Femmina Maschio 1 6 Total titolo studio Laurea Lic. Elem 1 5 7 6 Pearson chi2(3) = Cramér's V = 2.3214 0.2782 Lic.Media Total 2 6 4 5 8 22 8 9 30 Pr = 0.508 . tab stato_civ titolostudio, chi V Stato_civ Diploma Celibe/nubile Coniugato/a Divorziato/a Vedovo/a 2 4 0 1 Total 7 Pearson chi2(9) = Cramér's V = titolo studio Laurea Lic. Elem 0 3 0 3 6 10.8324 0.3469 Lic.Media Total 1 4 2 1 2 6 1 0 5 17 3 5 8 9 30 Pr = 0.287 Dalle analisi condotte sopra ottengo la prima matrice di associazione calcolata sulle variabili qualitative e che avrà dimensione [p1 x p1]=[3 x 3] Si costruirà la prima matrice di associazione facendo riferimento all’indice V di Cramer (perché non calcolo l’indice X2?) ⎡ 1 ⎤ ⎢ ⎥ V = ⎢ 0.4022 1 ⎥ ⎢⎣ 0.2782 0.3469 1⎥⎦ VARIABILI QUANTITATIVE: età (x4), n_comp (x5), frutta_porz (x6), spesa_alimentare_m (x7) reddito_mensile (x8) La matrice di associazione (in questo caso parlerò di matrice di correlazione, essendo tutte le variabili quantitative), avrà dimensione [p2 x p2]=[5 x 5] La matrice di correlazione è calcolata utilizzando come indice il coefficiente di correlazione lineare di Bravais Pearson: . corr eta n_comp frutta_porz spesa_alimentare_m reddito_mensile (obs=30) eta eta n_comp frutta_porz spesa_alim~m reddito_me~e 1.0000 -0.2836 0.3520 -0.1983 -0.1893 n_comp frutta~z spesa_~m reddit~e 1.0000 -0.0981 0.1132 0.2258 1.0000 -0.1412 -0.3029 1.0000 0.0428 1.0000 Facciamo un passo in avanti… Modello di regressione lineare semplice . regress frutta_porz eta Source SS df MS Model Residual 3.94790559 27.9187611 1 28 3.94790559 .99709861 Total 31.8666667 29 1.09885057 frutta_porz Coef. eta _cons .0229085 .6809996 Std. Err. .0115129 .6552425 Number of obs F( 1, 28) Prob > F R-squared Adj R-squared Root MSE t P>|t| 1.99 1.04 0.056 0.308 = = = = = = 30 3.96 0.0565 0.1239 0.0926 .99855 [95% Conf. Interval] -.0006745 -.6612037 .0464916 2.023203