Profili colonna e modello di regressione lineare semplice

Transcript

Profili colonna e modello di regressione lineare semplice
STATISTICA PER LE RICERCHE DI MERCATO Dr. Luca Secondi a.a. 2012/13 MATRICE DEI DATI e ANALISI DEI PROFILI COLONNA ESEMPIO DATASET Si ipotizzi di aver condotto un’indagine campionaria su 30 individui residenti in una determinata città italiana selezionati casualmente mediante uno schema di campionamento casuale semplice. Le informazioni di interesse sono state raccolte mediante tecnica CATI. id
x1
sesso
1 Femmina
2 Femmina
3 Femmina
4 Maschio
5 Maschio
6 Femmina
7 Maschio
8 Maschio
9 Maschio
10 Maschio
11 Femmina
12 Maschio
13 Femmina
14 Maschio
15 Maschio
16 Maschio
17 Maschio
18 Femmina
19 Maschio
20 Maschio
21 Femmina
22 Maschio
23 Maschio
24 Maschio
25 Maschio
26 Maschio
27 Maschio
28 Maschio
29 Maschio
30 Maschio
x2
Stato_civ
Coniugato/a
Coniugato/a
Coniugato/a
Coniugato/a
Coniugato/a
Coniugato/a
Celibe/nubile
Coniugato/a
Vedovo/a
Vedovo/a
Coniugato/a
Vedovo/a
Coniugato/a
Coniugato/a
Coniugato/a
Celibe/nubile
Divorziato/a
Coniugato/a
Celibe/nubile
Divorziato/a
Celibe/nubile
Vedovo/a
Coniugato/a
Divorziato/a
Vedovo/a
Celibe/nubile
Coniugato/a
Coniugato/a
Coniugato/a
Coniugato/a
x3
titolo studio
eta
Lic. Elementare
Lic.Media
Lic.Media
Lic.Media
Diploma
Diploma
Diploma
Lic.Media
Laurea
Laurea
Laurea
Lic. Elementare
Lic. Elementare
Lic. Elementare
Lic. Elementare
Lic. Elementare
Lic. Elementare
Lic.Media
Lic.Media
Lic.Media
Lic.Media
Diploma
Diploma
Lic. Elementare
Laurea
Diploma
Diploma
Laurea
Lic.Media
Laurea
x4
x5
n_comp
76
85
70
49
48
59
26
41
57
74
58
65
62
28
30
45
35
59
69
51
59
71
66
59
68
26
66
54
29
55
x6
frutta_porz
2
2
2
3
2
3
2
2
4
1
4
1
2
3
5
4
2
3
3
3
4
2
2
1
1
1
4
4
5
4
x7
x8
spesa_alimentare_m reddito_mensile
2
250
2500
2
300
2000
3
280
1800
2
270
2400
2
260
3200
5
190
1400
2
300
1500
1
350
1700
1
120
2100
1
230
2000
3
240
1900
1
260
3800
2
310
2300
2
320
3400
1
330
4000
1
260
3200
1
200
3400
2
180
700
2
300
4300
2
230
2300
2
280
2500
5
290
2100
1
320
1300
2
300
1500
3
320
1600
1
350
1800
2
400
2100
2
410
2000
1
390
2200
1
320
2800 Descrizione variabili: •
•
•
•
•
id: identificativo individuo Età: età dell’individuo espressa in anni compiuti Sesso Titolo di studio: titolo di studio (più elevato) conseguito al momento della partecipazione all’indagine Stato_civ: stato civile N_comp: numero di componenti della famiglia Frutta_porz: numero di porzioni di frutta consumate al giorno (1 porzione = 1 mela oppure 1 arancia, oppure
•
•
Spesa_alimentare_m: spesa mensile per generi alimentari Reddito_mensile: reddito mensile netto percepito •
•
2 mandarini, ecc)
DIMENSIONE MATRICE DEI DATI: dimensione n x p = 30 X 8 ANALISI DEI PROFILI COLONNA (relazioni tra variabili) Distinguendo tra variabili qualitative (sia di tipo sconnesso che ordinale) e variabili quantitative si avrà: variabili qualitative: p1=3 variabili quantitative p2=5 p=p1 + p2 VARIABILI QUALITATIVE: sesso (x1), stato civile (x2), titolo di studio (x3) . tab sesso stato_civ, chi V
sesso
Celibe/nu
Femmina
Maschio
1
4
Total
Stato_civ
Coniugato Divorziat
7
10
5
17
Pearson chi2(3) =
Cramér's V =
4.8529
0.4022
Vedovo/a
Total
0
3
0
5
8
22
3
5
30
Pr = 0.183
. tab sesso titolostudio, chi V
sesso
Diploma
Femmina
Maschio
1
6
Total
titolo studio
Laurea Lic. Elem
1
5
7
6
Pearson chi2(3) =
Cramér's V =
2.3214
0.2782
Lic.Media
Total
2
6
4
5
8
22
8
9
30
Pr = 0.508
. tab stato_civ titolostudio, chi V
Stato_civ
Diploma
Celibe/nubile
Coniugato/a
Divorziato/a
Vedovo/a
2
4
0
1
Total
7
Pearson chi2(9) =
Cramér's V =
titolo studio
Laurea Lic. Elem
0
3
0
3
6
10.8324
0.3469
Lic.Media
Total
1
4
2
1
2
6
1
0
5
17
3
5
8
9
30
Pr = 0.287
Dalle analisi condotte sopra ottengo la prima matrice di associazione calcolata sulle variabili qualitative e che avrà dimensione [p1 x p1]=[3 x 3] Si costruirà la prima matrice di associazione facendo riferimento all’indice V di Cramer (perché non calcolo l’indice X2?) ⎡ 1
⎤
⎢
⎥
V = ⎢ 0.4022
1
⎥
⎢⎣ 0.2782 0.3469 1⎥⎦
VARIABILI QUANTITATIVE: età (x4), n_comp (x5), frutta_porz (x6), spesa_alimentare_m (x7) reddito_mensile (x8) La matrice di associazione (in questo caso parlerò di matrice di correlazione, essendo tutte le variabili quantitative), avrà dimensione [p2 x p2]=[5 x 5] La matrice di correlazione è calcolata utilizzando come indice il coefficiente di correlazione lineare di Bravais Pearson: . corr eta n_comp frutta_porz spesa_alimentare_m reddito_mensile
(obs=30)
eta
eta
n_comp
frutta_porz
spesa_alim~m
reddito_me~e
1.0000
-0.2836
0.3520
-0.1983
-0.1893
n_comp frutta~z spesa_~m reddit~e
1.0000
-0.0981
0.1132
0.2258
1.0000
-0.1412
-0.3029
1.0000
0.0428
1.0000
Facciamo un passo in avanti… Modello di regressione lineare semplice . regress frutta_porz eta
Source
SS
df
MS
Model
Residual
3.94790559
27.9187611
1
28
3.94790559
.99709861
Total
31.8666667
29
1.09885057
frutta_porz
Coef.
eta
_cons
.0229085
.6809996
Std. Err.
.0115129
.6552425
Number of obs
F( 1,
28)
Prob > F
R-squared
Adj R-squared
Root MSE
t
P>|t|
1.99
1.04
0.056
0.308
=
=
=
=
=
=
30
3.96
0.0565
0.1239
0.0926
.99855
[95% Conf. Interval]
-.0006745
-.6612037
.0464916
2.023203