Esercitazione n. 6 - Benvenuti nell`area statistica

Transcript

STATISTICA 1 ESERCITAZIONE 6
Dott. Giuseppe Pandolfo
5 Novembre 2013
CONCENTRAZIONE
Osservando l’ammontare di un carattere quantitativo trasferibile su un collettivo statistico può essere
interessante sapere come questo ammontare sia ripartito fra le unità statistiche del collettivo.
Equidistribuzione
𝑛
𝑖=1 𝑥𝑖 .
Ognuna delle n unità possiede 1/n dell’ammontare complessivo 𝐴 =
Se non c’è equidistribuzione
allora c’è un certo grado di concentrazione della variabile che può essere misurato attraverso indici
opportuni.
La massima concentrazione si ha quando l’intero ammontare A è posseduto da una sola unità del
collettivo:
𝑥1 = 𝑥2 = ⋯ = 𝑥𝑛−1 = 0 e 𝑥𝑛 = 𝐴
Le unità del carattere quantitativo trasferibile devono essere ordinate in senso non decrescente. Indichiamo
con 𝐴𝑖 = 𝑥1 + 𝑥2 + ⋯ + 𝑥𝑖 l’ammontare posseduto dalle prime i unità e con 𝑞𝑖 =
𝐴𝑖
𝐴
la frazione di
ammontare di un carattere posseduto dalle prime i unità sull’ammontare complessivo. 𝑝𝑖 indica la frazione
teorica delle prime i unità.
Proprietà
1) 𝑝𝑖 = 𝑞𝑖 quando i = n oppure per ogni i se 𝑥1 = 𝑥2 = ⋯ = 𝑥𝑖 = ⋯ = 𝑥𝑛
2) Per ogni i si ha che 𝑝𝑖 ≥ 𝑞𝑖
Le differenze 𝑝𝑖 − 𝑞𝑖 saranno tutte uguali a zero in caso di equidistribuzione, tutte uguali a 𝑝𝑖 in caso di
massima concentrazione e tutte non negative nei casi intermedi di concentrazione.
Rapporto di concentrazione di Gini
𝑅=
𝑛−1
𝑖=1 𝑝𝑖 − 𝑞𝑖
𝑛−1
𝑖=1 𝑝𝑖
=
𝑛−1
𝑛−1
𝑖=1 𝑝𝑖 − 𝑖=1 𝑞𝑖
𝑛−1
𝑖=1 𝑝𝑖
=
𝑛−1
𝑖=1 𝑞𝑖
𝑛−1
𝑖=1 𝑝𝑖
Esercizio 1
Consideriamo il numero di telespettatori serali di sei emittenti televisive. I dati sono i seguenti:
Emittente 1:
2 milioni
Emittente 5:
9 milioni
Emittente 4:
4 milioni
Emittente 3:
3 milioni
Emittente 2:
3 milioni
Calcolare il rapporto di concentrazione di Gini.
Soluzione
Ordiniamo le osservazioni e calcoliamo 𝑝𝑖 e 𝑞𝑖 .
Emittente
Spettatori
𝒑𝒊
𝐴𝑖
𝒒𝒊
1
2
1/5 = 0,2
2
2/21 = 0,095
2
3
2/5 = 0,4
5
5/21 = 0,238
3
3
3/5 = 0,6
8
8/21 = o,380
4
4
4/5 = 0,8
12
12/21 = 0,571
5
9
5/5 = 1
21
21/21 = 1
Totale
21
Il numero di unità è pari a 5.
Calcoliamo anche le differenze 𝑝𝑖 − 𝑞𝑖
𝑅=
Emittente
Spettatori
𝒑𝒊
𝐴𝑖
𝒒𝒊
𝒑𝒊 − 𝒒𝒊
1
2
1/5 = 0,2
2
2/21 = 0,095
0,105
2
3
2/5 = 0,4
5
5/21 = 0,238
0,162
3
3
3/5 = 0,6
8
8/21 = 0,380
0,22
4
4
4/5 = 0,8
12
12/21 = 0,571
0,229
5
9
5/5 = 1
21
21/21 = 1
0
Totale
21
𝑛−1
𝑖=1 𝑝𝑖 − 𝑞𝑖
𝑛−1
𝑖=1 𝑝𝑖
=
0,105 + 0,162 + 0,22 + 0,229 0,706
=
= 0,358
0,2 + 0,4 + 0,6 + 0,8
2
La concentrazione è discreta.
LA CURVA DI LORENZ
Attraverso le coppie di valori 𝑝𝑖 , 𝑞𝑖 è possibile realizzare un grafico in cui l’asse delle ascisse rappresenta i
valori di 𝑝𝑖 e l’asse delle ordinate i valori di 𝑞𝑖 . Ogni coppia di valori è rappresentata da un punto sul
piano. I punti limitrofi sono congiunti con segmenti per formare una curva detta spezzata di
concentrazione o curva di Lorenz.
Lorenz curve
1.0
0.8
q
0.6
0.4
0.2
0.0
0.0
0.2
0.4
0.6
0.8
1.0
p
Il segmento che congiunge il punto 0,0 e il punto 1,1 rappresenta la linea di equidistribuzione, ogni
punto su questo segmento ha coordinate uguali, ovvero 𝑞𝑖 = 𝑝𝑖 per ogni i. Se l’ammontare fosse
equidistribuito tra le unità i punti sarebbero tutti sulla linea di equidistribuzione.
L’area compresa tra la curva di Lorenz e la linea di equidistribuzione è chiamata area di concentrazione,
calcolabile con la seguente formula:
𝑘−1
𝑅 =1−
𝑝𝑖+1 − 𝑝𝑖
𝑖=0
𝑞𝑖+1 + 𝑞𝑖
Esercizio 2
Per le seguenti classi di investimento calcolare in rapporto di concentrazione di Gini utilizzando il metodo
dei trapezi
Classi di investimento
Imprese
1 - 15
12
16 – 30
21
31 – 45
7
46 – 60
3
61 – 75
7
Totale
50
Soluzione
Per poter calcolare il rapporto di concentrazione utilizzeremo i dati riportati in tabella.
𝒏𝒊
Classi di
𝒙𝒊
𝒙𝒊 𝒏𝒊
𝑵𝒊
investimento
𝒊
𝒙𝒋 𝒏𝒋
𝒑𝒊
𝒒𝒊
𝒑𝒊+𝟏 − 𝒑𝒊
𝒒𝒊+𝟏 − 𝒒𝒊
𝒑𝒊+𝟏 − 𝒑𝒊 𝒒𝒊+𝟏 − 𝒒𝒊
0,24
0,66
0,8
0,86
1
0,065
0,391
0,570
0,678
1
0,24
0,42
0,14
0,06
0,14
0,065
0,326
0,179
0,108
0,322
0,016
0,137
0,025
0,006
0,045
𝒋=𝟏
1 - 15
16 - 30
31 - 45
46 - 60
61 - 75
12
21
7
3
7
Totale
50
8
23
38
53
68
96
483
266
159
476
12
33
40
43
50
96
579
845
1004
1480
1480
0,856
0,229
𝑘−1
𝑅 =1−
𝑝𝑖+1 − 𝑝𝑖 𝑞𝑖+1 − 𝑞𝑖 = 1 − 0,229 = 0,77086
𝑖=0
MISURA DELLA FORMA PER VARIABILI NUMERICHE
Per descrivere la forma di una distribuzione è possibile semplicemente confrontare la media con la
mediana.
Distribuzione simmetrica
Media = Mediana
Distribuzione asimmetrica negativa (o obliqua a sinistra)
Distribuzione asimmetrica positiva (o obliqua a destra)
Media < Mediana
Media > Mediana
Distribuzione simmetrica
Distribuzione asimmetrica negativa
Distribuzione asimmetrica positiva
Indice di asimmetria di Pearson
𝛿=
𝜇 − 𝑀𝑒
𝜎
𝛿 è positivo in caso di asimmetria positiva, negativo in caso di asimmetria negativa. Lo scarto dalla media
è utilizzato per non far dipendere l’indice dall’unità di misura del carattere.
Esercizio 3
Calcolare l’indice di Pearson della seguente distribuzione:
Soluzione
𝜇 = 4,47
𝑀𝑒 = 5
Numero di libri
𝒏𝒊
1
2
2
6
3
2
4
8
5
11
6
15
Tot
44
𝑛
𝑖=1
𝜎=
=
=
𝑥𝑖 − 𝜇 2 𝑛𝑖
𝑛
1 − 4,47
104,98
=
44
𝛿=
2
× 2 + 2 − 4,47
2
× 6 + 3 − 4,47
2
× 2 + 4 − 4,47
44
2
× 8 + 5 − 4,47
2
× 11 + 6 − 4,47
2,38 = 1,54
𝜇 − 𝑀𝑒 4,47 − 5
=
= − 0,34
𝜎
1,54
L’indice di Pearson rivela un’asimmetria di tipo negativo.
N.B. L’indice di Pearson non può essere calcolato se la distribuzione è multimodale.
Esercizio 4
Calcolare l’indice di Yule-Bowley della distribuzione presentata nell’esercizio 3.
Soluzione
𝑌𝑢𝑙𝑒 − 𝐵𝑜𝑤𝑙𝑒𝑦 =
𝑄3 − 𝑀𝑒 − 𝑀𝑒 − 𝑄1
𝑄3 − 𝑄1
Numero di libri
𝒏𝒊
𝑵𝒊
1
2
2
2
6
8
3
2
10
4
8
18
5
11
29
6
15
44
Tot
44
𝑀𝑒 = 5
𝑌𝑢𝑙𝑒 − 𝐵𝑜𝑤𝑙𝑒𝑦 =
= 0 𝑆𝑖𝑚𝑚𝑒𝑡𝑟𝑖𝑎
> 0 𝑆𝑖𝑚𝑚𝑒𝑡𝑟𝑖𝑎 𝑛𝑒𝑔𝑎𝑡𝑖𝑣𝑎
< 0 𝑆𝑖𝑚𝑚𝑒𝑡𝑟𝑖𝑎 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑎
𝑄1 = 4
6−5 − 5−4
=0
6−4
𝑄3 = 6
2
× 15
L’indice di Yule-Bowley indica simmetria.
Esercizio 5
Rappresentiamo graficamente attraverso un box-plot la distribuzione presentata seguente tabella.
X
𝒏𝒊
𝑵𝒊
3
3
3
6
7
10
8
14
24
9
21
45
13
10
55
16
9
64
18
4
68
Tot
68
Me = 9
𝑸𝟏 = 8
Min = 3
Max = 18
𝑸𝟑 = 13
L’indice di Pearson e quello di Yule-Bowley non sono molto sensibili alle deviazioni dalla situazione di
simmetria; assumono valori apprezzabili solamente quando la distribuzione è già abbastanza asimmetrica.
Un indice più sensibile si basa sugli scarti dalla media.
Momento di ordine 𝑟 = 3 dalla media aritmetica:
1
𝜇3 =
𝑛
𝑛
𝑥𝑖 − 𝜇
3
𝑖=1
Tali scostamenti riflettono il tipo di asimmetria della distribuzione.
Indice 𝜷 di Fisher
𝛽=
𝜇3
𝜎3
dove 𝜎 3 è il cubo dello scostamento quadratico medio.
Esercizio 6
Data la seguente distribuzione:
X
𝒏𝒊
0
10
1
21
2
32
3
17
4
8
5
12
Totale
100
Calcolare l’indice di Fisher.
Soluzione
𝜇=
1
1
1 × 21 + 2 × 32 + 3 × 17 + 4 × 8 + (5 × 12) =
× 228 = 2,28
100
100
𝜇3 =
1
[ 0 − 2,28
100
3
× 10 + 1 − 2,28
× 8 + (5 − 2,28)3 × 12] =
3
× 21 + 2 − 2,28
1
× 125,27 = 1,25
100
3
× 32 + 3 − 2,28
3
× 17 + 4 − 2,28
3
1
0 − 2,28
100
𝜎=
=
2
1
× 210,16 =
100
𝜎 3 = 1,45
3
+ 1 − 2,28
2
+ 2 − 2,28
2
+ 3 − 2,28
2
+ 4 − 2,28
2
+ (5 − 2,28)2
2,10 = 1,45
= 3,05
1,25
𝛽 = 3,05 = 0,41
Asimmetria positiva
INDIPENDENZA ASSOLUTA TRA VARIABILI
Dipendenza logica: tra due o più caratteri sono note a priori relazioni di causa ed effetto.
Indipendenza logica: si suppone che tra due o più caratteri non possa esistere alcuna relazione di causa ed
effetto.
Indipendenza statistica: la conoscenza della modalità di uno dei due caratteri non migliora la “previsione”
della modalità dell’altro.
Dunque la variabile X è indipendente da Y se per qualsiasi modalità assunta da Y, la distribuzione relativa
condizionata di X non varia.
Indice chi-quadrato
2
𝜒 =
𝑖
𝑗
𝑛𝑖𝑗 − 𝑛𝑖𝑗
𝑛𝑖𝑗
2
Indice di contingenza quadratica media
𝜙2 =
𝜒2
𝑛
Indice V di Cramér
𝑉=
per una tabelle con H righe e K colonne.
𝜒2
𝑚𝑖𝑛 𝐻 − 1 , 𝐾 − 1 × 𝑛𝑖
Esercizio 7
Calcolare l’indice di associazione chi-quadrato per le variabili riportate in tabella.
Reddito familiare
Rendimento
Alto
Medio
Basso
Totale
Ottimo
12
23
30
65
Sufficiente
6
11
12
29
Basso
18
28
40
86
Totale
36
62
82
180
Calcoliamo le frequenze teoriche 𝑛𝑖𝑗 =
𝑛 𝑖. ×𝑛 .𝑗
𝑁
:
Reddito familiare
Rendimento
Alto
Medio
Basso
Totale
Ottimo
13
22,4
29, 6
65
Sufficiente
5,8
10
13,2
29
Basso
17,2
29,6
39,2
86
Totale
36
62
82
180
𝜒2 =
+
12 − 13
13
18 − 17,2
17,2
2
+
2
+
23 − 22,4
22,4
28 − 29,6
29,6
2
+
2
+
30 − 29,6
29,6
40 − 39,2
39,2
2
+
6 − 5,8
5,8
2
+
11 − 10
10
2
+
12 − 13,2
13,2
2
2
= 0,077 + 0.016 + 0.005 + 0,006 + 0,1 + 0,109
+0,037 + 0,087 + 0,016 = 0,453
Il valore del chi-quadrato è tanto maggiore quanto è maggiore la distanza tra frequenze osservate e
frequenze teoriche, è zero nel caso di indipendenza perfetta. L’indice indica che le frequenze teoriche sono
molto simili, vicine alle frequenze osservate (tanto più è alto il valore tanto più è improbabile che la
differenza sia casuale).
Calcoliamo anche l’indice di contingenza quadratica e l’indice di Cramér.
Soluzione
𝜙2 =
0,453
= 0,002
180
Indice di Cramér.
𝑉=
0,453
= 0,03
2 × 180

Esercitazione n. 6 - Benvenuti nell`area statistica

Transcript

Documenti analoghi

curriculum - Consiglio Regionale della Sardegna

2 ottobre 2006 DEUTSCHE BANK AG, LONDON BRANCH (l

Esercizio 1. Scrivere il numero 1, 2345 come frazione. Esercizio 2

tutti i prezzi al pubblico sono esclusi di IVA e non includono

Pearson ELT - Scuola Secondaria di I grado Dante Alighieri

minicorso on line gratuito Pearson “Dalla certificazione di

Facolt`a di Farmacia Corso di Matematica con elementi di Statistica

Pearson Teacher Support Network

REGISTRAZIONE AL SITO PEARSON.IT • Dal sito www.pearson.it