Esercitazione n. 6 - Benvenuti nell`area statistica

Transcript

Esercitazione n. 6 - Benvenuti nell`area statistica
STATISTICA 1 ESERCITAZIONE 6
Dott. Giuseppe Pandolfo
5 Novembre 2013
CONCENTRAZIONE
Osservando l’ammontare di un carattere quantitativo trasferibile su un collettivo statistico può essere
interessante sapere come questo ammontare sia ripartito fra le unità statistiche del collettivo.
Equidistribuzione
𝑛
𝑖=1 π‘₯𝑖 .
Ognuna delle n unità possiede 1/n dell’ammontare complessivo 𝐴 =
Se non c’è equidistribuzione
allora c’è un certo grado di concentrazione della variabile che può essere misurato attraverso indici
opportuni.
La massima concentrazione si ha quando l’intero ammontare A è posseduto da una sola unità del
collettivo:
π‘₯1 = π‘₯2 = β‹― = π‘₯π‘›βˆ’1 = 0 e π‘₯𝑛 = 𝐴
Le unità del carattere quantitativo trasferibile devono essere ordinate in senso non decrescente. Indichiamo
con 𝐴𝑖 = π‘₯1 + π‘₯2 + β‹― + π‘₯𝑖 l’ammontare posseduto dalle prime i unità e con π‘žπ‘– =
𝐴𝑖
𝐴
la frazione di
ammontare di un carattere posseduto dalle prime i unità sull’ammontare complessivo. 𝑝𝑖 indica la frazione
teorica delle prime i unità.
Proprietà
1) 𝑝𝑖 = π‘žπ‘– quando i = n oppure per ogni i se π‘₯1 = π‘₯2 = β‹― = π‘₯𝑖 = β‹― = π‘₯𝑛
2) Per ogni i si ha che 𝑝𝑖 β‰₯ π‘žπ‘–
Le differenze 𝑝𝑖 βˆ’ π‘žπ‘– saranno tutte uguali a zero in caso di equidistribuzione, tutte uguali a 𝑝𝑖 in caso di
massima concentrazione e tutte non negative nei casi intermedi di concentrazione.
Rapporto di concentrazione di Gini
𝑅=
π‘›βˆ’1
𝑖=1 𝑝𝑖 βˆ’ π‘žπ‘–
π‘›βˆ’1
𝑖=1 𝑝𝑖
=
π‘›βˆ’1
π‘›βˆ’1
𝑖=1 𝑝𝑖 βˆ’ 𝑖=1 π‘žπ‘–
π‘›βˆ’1
𝑖=1 𝑝𝑖
=
π‘›βˆ’1
𝑖=1 π‘žπ‘–
π‘›βˆ’1
𝑖=1 𝑝𝑖
Esercizio 1
Consideriamo il numero di telespettatori serali di sei emittenti televisive. I dati sono i seguenti:
Emittente 1:
2 milioni
Emittente 5:
9 milioni
Emittente 4:
4 milioni
Emittente 3:
3 milioni
Emittente 2:
3 milioni
Calcolare il rapporto di concentrazione di Gini.
Soluzione
Ordiniamo le osservazioni e calcoliamo 𝑝𝑖 e π‘žπ‘– .
Emittente
Spettatori
π’‘π’Š
𝐴𝑖
π’’π’Š
1
2
1/5 = 0,2
2
2/21 = 0,095
2
3
2/5 = 0,4
5
5/21 = 0,238
3
3
3/5 = 0,6
8
8/21 = o,380
4
4
4/5 = 0,8
12
12/21 = 0,571
5
9
5/5 = 1
21
21/21 = 1
Totale
21
Il numero di unità è pari a 5.
Calcoliamo anche le differenze 𝑝𝑖 βˆ’ π‘žπ‘–
𝑅=
Emittente
Spettatori
π’‘π’Š
𝐴𝑖
π’’π’Š
π’‘π’Š βˆ’ π’’π’Š
1
2
1/5 = 0,2
2
2/21 = 0,095
0,105
2
3
2/5 = 0,4
5
5/21 = 0,238
0,162
3
3
3/5 = 0,6
8
8/21 = 0,380
0,22
4
4
4/5 = 0,8
12
12/21 = 0,571
0,229
5
9
5/5 = 1
21
21/21 = 1
0
Totale
21
π‘›βˆ’1
𝑖=1 𝑝𝑖 βˆ’ π‘žπ‘–
π‘›βˆ’1
𝑖=1 𝑝𝑖
=
0,105 + 0,162 + 0,22 + 0,229 0,706
=
= 0,358
0,2 + 0,4 + 0,6 + 0,8
2
La concentrazione è discreta.
LA CURVA DI LORENZ
Attraverso le coppie di valori 𝑝𝑖 , π‘žπ‘– è possibile realizzare un grafico in cui l’asse delle ascisse rappresenta i
valori di 𝑝𝑖 e l’asse delle ordinate i valori di π‘žπ‘– . Ogni coppia di valori è rappresentata da un punto sul
piano. I punti limitrofi sono congiunti con segmenti per formare una curva detta spezzata di
concentrazione o curva di Lorenz.
Lorenz curve
1.0
0.8
q
0.6
0.4
0.2
0.0
0.0
0.2
0.4
0.6
0.8
1.0
p
Il segmento che congiunge il punto 0,0 e il punto 1,1 rappresenta la linea di equidistribuzione, ogni
punto su questo segmento ha coordinate uguali, ovvero π‘žπ‘– = 𝑝𝑖 per ogni i. Se l’ammontare fosse
equidistribuito tra le unità i punti sarebbero tutti sulla linea di equidistribuzione.
L’area compresa tra la curva di Lorenz e la linea di equidistribuzione è chiamata area di concentrazione,
calcolabile con la seguente formula:
π‘˜βˆ’1
𝑅 =1βˆ’
𝑝𝑖+1 βˆ’ 𝑝𝑖
𝑖=0
π‘žπ‘–+1 + π‘žπ‘–
Esercizio 2
Per le seguenti classi di investimento calcolare in rapporto di concentrazione di Gini utilizzando il metodo
dei trapezi
Classi di investimento
Imprese
1 - 15
12
16 – 30
21
31 – 45
7
46 – 60
3
61 – 75
7
Totale
50
Soluzione
Per poter calcolare il rapporto di concentrazione utilizzeremo i dati riportati in tabella.
π’π’Š
Classi di
π’™π’Š
π’™π’Š π’π’Š
π‘΅π’Š
investimento
π’Š
𝒙𝒋 𝒏𝒋
π’‘π’Š
π’’π’Š
π’‘π’Š+𝟏 βˆ’ π’‘π’Š
π’’π’Š+𝟏 βˆ’ π’’π’Š
π’‘π’Š+𝟏 βˆ’ π’‘π’Š π’’π’Š+𝟏 βˆ’ π’’π’Š
0,24
0,66
0,8
0,86
1
0,065
0,391
0,570
0,678
1
0,24
0,42
0,14
0,06
0,14
0,065
0,326
0,179
0,108
0,322
0,016
0,137
0,025
0,006
0,045
𝒋=𝟏
1 - 15
16 - 30
31 - 45
46 - 60
61 - 75
12
21
7
3
7
Totale
50
8
23
38
53
68
96
483
266
159
476
12
33
40
43
50
96
579
845
1004
1480
1480
0,856
0,229
π‘˜βˆ’1
𝑅 =1βˆ’
𝑝𝑖+1 βˆ’ 𝑝𝑖 π‘žπ‘–+1 βˆ’ π‘žπ‘– = 1 βˆ’ 0,229 = 0,77086
𝑖=0
MISURA DELLA FORMA PER VARIABILI NUMERICHE
Per descrivere la forma di una distribuzione è possibile semplicemente confrontare la media con la
mediana.
Distribuzione simmetrica
Media = Mediana
Distribuzione asimmetrica negativa (o obliqua a sinistra)
Distribuzione asimmetrica positiva (o obliqua a destra)
Media < Mediana
Media > Mediana
Distribuzione simmetrica
Distribuzione asimmetrica negativa
Distribuzione asimmetrica positiva
Indice di asimmetria di Pearson
𝛿=
πœ‡ βˆ’ 𝑀𝑒
𝜎
𝛿 è positivo in caso di asimmetria positiva, negativo in caso di asimmetria negativa. Lo scarto dalla media
è utilizzato per non far dipendere l’indice dall’unità di misura del carattere.
Esercizio 3
Calcolare l’indice di Pearson della seguente distribuzione:
Soluzione
πœ‡ = 4,47
𝑀𝑒 = 5
Numero di libri
π’π’Š
1
2
2
6
3
2
4
8
5
11
6
15
Tot
44
𝑛
𝑖=1
𝜎=
=
=
π‘₯𝑖 βˆ’ πœ‡ 2 𝑛𝑖
𝑛
1 βˆ’ 4,47
104,98
=
44
𝛿=
2
× 2 + 2 βˆ’ 4,47
2
× 6 + 3 βˆ’ 4,47
2
× 2 + 4 βˆ’ 4,47
44
2
× 8 + 5 βˆ’ 4,47
2
× 11 + 6 βˆ’ 4,47
2,38 = 1,54
πœ‡ βˆ’ 𝑀𝑒 4,47 βˆ’ 5
=
= βˆ’ 0,34
𝜎
1,54
L’indice di Pearson rivela un’asimmetria di tipo negativo.
N.B. L’indice di Pearson non può essere calcolato se la distribuzione è multimodale.
Esercizio 4
Calcolare l’indice di Yule-Bowley della distribuzione presentata nell’esercizio 3.
Soluzione
π‘Œπ‘’π‘™π‘’ βˆ’ π΅π‘œπ‘€π‘™π‘’π‘¦ =
𝑄3 βˆ’ 𝑀𝑒 βˆ’ 𝑀𝑒 βˆ’ 𝑄1
𝑄3 βˆ’ 𝑄1
Numero di libri
π’π’Š
π‘΅π’Š
1
2
2
2
6
8
3
2
10
4
8
18
5
11
29
6
15
44
Tot
44
𝑀𝑒 = 5
π‘Œπ‘’π‘™π‘’ βˆ’ π΅π‘œπ‘€π‘™π‘’π‘¦ =
= 0 π‘†π‘–π‘šπ‘šπ‘’π‘‘π‘Ÿπ‘–π‘Ž
> 0 π‘†π‘–π‘šπ‘šπ‘’π‘‘π‘Ÿπ‘–π‘Ž π‘›π‘’π‘”π‘Žπ‘‘π‘–π‘£π‘Ž
< 0 π‘†π‘–π‘šπ‘šπ‘’π‘‘π‘Ÿπ‘–π‘Ž π‘π‘œπ‘ π‘–π‘‘π‘–π‘£π‘Ž
𝑄1 = 4
6βˆ’5 βˆ’ 5βˆ’4
=0
6βˆ’4
𝑄3 = 6
2
× 15
L’indice di Yule-Bowley indica simmetria.
Esercizio 5
Rappresentiamo graficamente attraverso un box-plot la distribuzione presentata seguente tabella.
X
π’π’Š
π‘΅π’Š
3
3
3
6
7
10
8
14
24
9
21
45
13
10
55
16
9
64
18
4
68
Tot
68
Me = 9
π‘ΈπŸ = 8
Min = 3
Max = 18
π‘ΈπŸ‘ = 13
L’indice di Pearson e quello di Yule-Bowley non sono molto sensibili alle deviazioni dalla situazione di
simmetria; assumono valori apprezzabili solamente quando la distribuzione è già abbastanza asimmetrica.
Un indice più sensibile si basa sugli scarti dalla media.
Momento di ordine π‘Ÿ = 3 dalla media aritmetica:
1
πœ‡3 =
𝑛
𝑛
π‘₯𝑖 βˆ’ πœ‡
3
𝑖=1
Tali scostamenti riflettono il tipo di asimmetria della distribuzione.
Indice 𝜷 di Fisher
𝛽=
πœ‡3
𝜎3
dove 𝜎 3 è il cubo dello scostamento quadratico medio.
Esercizio 6
Data la seguente distribuzione:
X
π’π’Š
0
10
1
21
2
32
3
17
4
8
5
12
Totale
100
Calcolare l’indice di Fisher.
Soluzione
πœ‡=
1
1
1 × 21 + 2 × 32 + 3 × 17 + 4 × 8 + (5 × 12) =
× 228 = 2,28
100
100
πœ‡3 =
1
[ 0 βˆ’ 2,28
100
3
× 10 + 1 βˆ’ 2,28
× 8 + (5 βˆ’ 2,28)3 × 12] =
3
× 21 + 2 βˆ’ 2,28
1
× 125,27 = 1,25
100
3
× 32 + 3 βˆ’ 2,28
3
× 17 + 4 βˆ’ 2,28
3
1
0 βˆ’ 2,28
100
𝜎=
=
2
1
× 210,16 =
100
𝜎 3 = 1,45
3
+ 1 βˆ’ 2,28
2
+ 2 βˆ’ 2,28
2
+ 3 βˆ’ 2,28
2
+ 4 βˆ’ 2,28
2
+ (5 βˆ’ 2,28)2
2,10 = 1,45
= 3,05
1,25
𝛽 = 3,05 = 0,41
Asimmetria positiva
INDIPENDENZA ASSOLUTA TRA VARIABILI
Dipendenza logica: tra due o più caratteri sono note a priori relazioni di causa ed effetto.
Indipendenza logica: si suppone che tra due o più caratteri non possa esistere alcuna relazione di causa ed
effetto.
Indipendenza statistica: la conoscenza della modalità di uno dei due caratteri non migliora la β€œprevisione”
della modalità dell’altro.
Dunque la variabile X è indipendente da Y se per qualsiasi modalità assunta da Y, la distribuzione relativa
condizionata di X non varia.
Indice chi-quadrato
2
πœ’ =
𝑖
𝑗
𝑛𝑖𝑗 βˆ’ 𝑛𝑖𝑗
𝑛𝑖𝑗
2
Indice di contingenza quadratica media
πœ™2 =
πœ’2
𝑛
Indice V di Cramér
𝑉=
per una tabelle con H righe e K colonne.
πœ’2
π‘šπ‘–π‘› 𝐻 βˆ’ 1 , 𝐾 βˆ’ 1 × π‘›π‘–
Esercizio 7
Calcolare l’indice di associazione chi-quadrato per le variabili riportate in tabella.
Reddito familiare
Rendimento
Alto
Medio
Basso
Totale
Ottimo
12
23
30
65
Sufficiente
6
11
12
29
Basso
18
28
40
86
Totale
36
62
82
180
Calcoliamo le frequenze teoriche 𝑛𝑖𝑗 =
𝑛 𝑖. ×𝑛 .𝑗
𝑁
:
Reddito familiare
Rendimento
Alto
Medio
Basso
Totale
Ottimo
13
22,4
29, 6
65
Sufficiente
5,8
10
13,2
29
Basso
17,2
29,6
39,2
86
Totale
36
62
82
180
πœ’2 =
+
12 βˆ’ 13
13
18 βˆ’ 17,2
17,2
2
+
2
+
23 βˆ’ 22,4
22,4
28 βˆ’ 29,6
29,6
2
+
2
+
30 βˆ’ 29,6
29,6
40 βˆ’ 39,2
39,2
2
+
6 βˆ’ 5,8
5,8
2
+
11 βˆ’ 10
10
2
+
12 βˆ’ 13,2
13,2
2
2
= 0,077 + 0.016 + 0.005 + 0,006 + 0,1 + 0,109
+0,037 + 0,087 + 0,016 = 0,453
Il valore del chi-quadrato è tanto maggiore quanto è maggiore la distanza tra frequenze osservate e
frequenze teoriche, è zero nel caso di indipendenza perfetta. L’indice indica che le frequenze teoriche sono
molto simili, vicine alle frequenze osservate (tanto più è alto il valore tanto più è improbabile che la
differenza sia casuale).
Calcoliamo anche l’indice di contingenza quadratica e l’indice di Cramér.
Soluzione
πœ™2 =
0,453
= 0,002
180
Indice di Cramér.
𝑉=
0,453
= 0,03
2 × 180