Esercitazione n. 6 - Benvenuti nell`area statistica
Transcript
Esercitazione n. 6 - Benvenuti nell`area statistica
STATISTICA 1 ESERCITAZIONE 6 Dott. Giuseppe Pandolfo 5 Novembre 2013 CONCENTRAZIONE Osservando lβammontare di un carattere quantitativo trasferibile su un collettivo statistico può essere interessante sapere come questo ammontare sia ripartito fra le unità statistiche del collettivo. Equidistribuzione π π=1 π₯π . Ognuna delle n unità possiede 1/n dellβammontare complessivo π΄ = Se non cβè equidistribuzione allora cβè un certo grado di concentrazione della variabile che può essere misurato attraverso indici opportuni. La massima concentrazione si ha quando lβintero ammontare A è posseduto da una sola unità del collettivo: π₯1 = π₯2 = β― = π₯πβ1 = 0 e π₯π = π΄ Le unità del carattere quantitativo trasferibile devono essere ordinate in senso non decrescente. Indichiamo con π΄π = π₯1 + π₯2 + β― + π₯π lβammontare posseduto dalle prime i unità e con ππ = π΄π π΄ la frazione di ammontare di un carattere posseduto dalle prime i unità sullβammontare complessivo. ππ indica la frazione teorica delle prime i unità. Proprietà 1) ππ = ππ quando i = n oppure per ogni i se π₯1 = π₯2 = β― = π₯π = β― = π₯π 2) Per ogni i si ha che ππ β₯ ππ Le differenze ππ β ππ saranno tutte uguali a zero in caso di equidistribuzione, tutte uguali a ππ in caso di massima concentrazione e tutte non negative nei casi intermedi di concentrazione. Rapporto di concentrazione di Gini π = πβ1 π=1 ππ β ππ πβ1 π=1 ππ = πβ1 πβ1 π=1 ππ β π=1 ππ πβ1 π=1 ππ = πβ1 π=1 ππ πβ1 π=1 ππ Esercizio 1 Consideriamo il numero di telespettatori serali di sei emittenti televisive. I dati sono i seguenti: Emittente 1: 2 milioni Emittente 5: 9 milioni Emittente 4: 4 milioni Emittente 3: 3 milioni Emittente 2: 3 milioni Calcolare il rapporto di concentrazione di Gini. Soluzione Ordiniamo le osservazioni e calcoliamo ππ e ππ . Emittente Spettatori ππ π΄π ππ 1 2 1/5 = 0,2 2 2/21 = 0,095 2 3 2/5 = 0,4 5 5/21 = 0,238 3 3 3/5 = 0,6 8 8/21 = o,380 4 4 4/5 = 0,8 12 12/21 = 0,571 5 9 5/5 = 1 21 21/21 = 1 Totale 21 Il numero di unità è pari a 5. Calcoliamo anche le differenze ππ β ππ π = Emittente Spettatori ππ π΄π ππ ππ β ππ 1 2 1/5 = 0,2 2 2/21 = 0,095 0,105 2 3 2/5 = 0,4 5 5/21 = 0,238 0,162 3 3 3/5 = 0,6 8 8/21 = 0,380 0,22 4 4 4/5 = 0,8 12 12/21 = 0,571 0,229 5 9 5/5 = 1 21 21/21 = 1 0 Totale 21 πβ1 π=1 ππ β ππ πβ1 π=1 ππ = 0,105 + 0,162 + 0,22 + 0,229 0,706 = = 0,358 0,2 + 0,4 + 0,6 + 0,8 2 La concentrazione è discreta. LA CURVA DI LORENZ Attraverso le coppie di valori ππ , ππ è possibile realizzare un grafico in cui lβasse delle ascisse rappresenta i valori di ππ e lβasse delle ordinate i valori di ππ . Ogni coppia di valori è rappresentata da un punto sul piano. I punti limitrofi sono congiunti con segmenti per formare una curva detta spezzata di concentrazione o curva di Lorenz. Lorenz curve 1.0 0.8 q 0.6 0.4 0.2 0.0 0.0 0.2 0.4 0.6 0.8 1.0 p Il segmento che congiunge il punto 0,0 e il punto 1,1 rappresenta la linea di equidistribuzione, ogni punto su questo segmento ha coordinate uguali, ovvero ππ = ππ per ogni i. Se lβammontare fosse equidistribuito tra le unità i punti sarebbero tutti sulla linea di equidistribuzione. Lβarea compresa tra la curva di Lorenz e la linea di equidistribuzione è chiamata area di concentrazione, calcolabile con la seguente formula: πβ1 π =1β ππ+1 β ππ π=0 ππ+1 + ππ Esercizio 2 Per le seguenti classi di investimento calcolare in rapporto di concentrazione di Gini utilizzando il metodo dei trapezi Classi di investimento Imprese 1 - 15 12 16 β 30 21 31 β 45 7 46 β 60 3 61 β 75 7 Totale 50 Soluzione Per poter calcolare il rapporto di concentrazione utilizzeremo i dati riportati in tabella. ππ Classi di ππ ππ ππ π΅π investimento π ππ ππ ππ ππ ππ+π β ππ ππ+π β ππ ππ+π β ππ ππ+π β ππ 0,24 0,66 0,8 0,86 1 0,065 0,391 0,570 0,678 1 0,24 0,42 0,14 0,06 0,14 0,065 0,326 0,179 0,108 0,322 0,016 0,137 0,025 0,006 0,045 π=π 1 - 15 16 - 30 31 - 45 46 - 60 61 - 75 12 21 7 3 7 Totale 50 8 23 38 53 68 96 483 266 159 476 12 33 40 43 50 96 579 845 1004 1480 1480 0,856 0,229 πβ1 π =1β ππ+1 β ππ ππ+1 β ππ = 1 β 0,229 = 0,77086 π=0 MISURA DELLA FORMA PER VARIABILI NUMERICHE Per descrivere la forma di una distribuzione è possibile semplicemente confrontare la media con la mediana. Distribuzione simmetrica Media = Mediana Distribuzione asimmetrica negativa (o obliqua a sinistra) Distribuzione asimmetrica positiva (o obliqua a destra) Media < Mediana Media > Mediana Distribuzione simmetrica Distribuzione asimmetrica negativa Distribuzione asimmetrica positiva Indice di asimmetria di Pearson πΏ= π β ππ π πΏ è positivo in caso di asimmetria positiva, negativo in caso di asimmetria negativa. Lo scarto dalla media è utilizzato per non far dipendere lβindice dallβunità di misura del carattere. Esercizio 3 Calcolare lβindice di Pearson della seguente distribuzione: Soluzione π = 4,47 ππ = 5 Numero di libri ππ 1 2 2 6 3 2 4 8 5 11 6 15 Tot 44 π π=1 π= = = π₯π β π 2 ππ π 1 β 4,47 104,98 = 44 πΏ= 2 × 2 + 2 β 4,47 2 × 6 + 3 β 4,47 2 × 2 + 4 β 4,47 44 2 × 8 + 5 β 4,47 2 × 11 + 6 β 4,47 2,38 = 1,54 π β ππ 4,47 β 5 = = β 0,34 π 1,54 Lβindice di Pearson rivela unβasimmetria di tipo negativo. N.B. Lβindice di Pearson non può essere calcolato se la distribuzione è multimodale. Esercizio 4 Calcolare lβindice di Yule-Bowley della distribuzione presentata nellβesercizio 3. Soluzione ππ’ππ β π΅ππ€πππ¦ = π3 β ππ β ππ β π1 π3 β π1 Numero di libri ππ π΅π 1 2 2 2 6 8 3 2 10 4 8 18 5 11 29 6 15 44 Tot 44 ππ = 5 ππ’ππ β π΅ππ€πππ¦ = = 0 ππππππ‘πππ > 0 ππππππ‘πππ πππππ‘ππ£π < 0 ππππππ‘πππ πππ ππ‘ππ£π π1 = 4 6β5 β 5β4 =0 6β4 π3 = 6 2 × 15 Lβindice di Yule-Bowley indica simmetria. Esercizio 5 Rappresentiamo graficamente attraverso un box-plot la distribuzione presentata seguente tabella. X ππ π΅π 3 3 3 6 7 10 8 14 24 9 21 45 13 10 55 16 9 64 18 4 68 Tot 68 Me = 9 πΈπ = 8 Min = 3 Max = 18 πΈπ = 13 Lβindice di Pearson e quello di Yule-Bowley non sono molto sensibili alle deviazioni dalla situazione di simmetria; assumono valori apprezzabili solamente quando la distribuzione è già abbastanza asimmetrica. Un indice più sensibile si basa sugli scarti dalla media. Momento di ordine π = 3 dalla media aritmetica: 1 π3 = π π π₯π β π 3 π=1 Tali scostamenti riflettono il tipo di asimmetria della distribuzione. Indice π· di Fisher π½= π3 π3 dove π 3 è il cubo dello scostamento quadratico medio. Esercizio 6 Data la seguente distribuzione: X ππ 0 10 1 21 2 32 3 17 4 8 5 12 Totale 100 Calcolare lβindice di Fisher. Soluzione π= 1 1 1 × 21 + 2 × 32 + 3 × 17 + 4 × 8 + (5 × 12) = × 228 = 2,28 100 100 π3 = 1 [ 0 β 2,28 100 3 × 10 + 1 β 2,28 × 8 + (5 β 2,28)3 × 12] = 3 × 21 + 2 β 2,28 1 × 125,27 = 1,25 100 3 × 32 + 3 β 2,28 3 × 17 + 4 β 2,28 3 1 0 β 2,28 100 π= = 2 1 × 210,16 = 100 π 3 = 1,45 3 + 1 β 2,28 2 + 2 β 2,28 2 + 3 β 2,28 2 + 4 β 2,28 2 + (5 β 2,28)2 2,10 = 1,45 = 3,05 1,25 π½ = 3,05 = 0,41 Asimmetria positiva INDIPENDENZA ASSOLUTA TRA VARIABILI Dipendenza logica: tra due o più caratteri sono note a priori relazioni di causa ed effetto. Indipendenza logica: si suppone che tra due o più caratteri non possa esistere alcuna relazione di causa ed effetto. Indipendenza statistica: la conoscenza della modalità di uno dei due caratteri non migliora la βprevisioneβ della modalità dellβaltro. Dunque la variabile X è indipendente da Y se per qualsiasi modalità assunta da Y, la distribuzione relativa condizionata di X non varia. Indice chi-quadrato 2 π = π π πππ β πππ πππ 2 Indice di contingenza quadratica media π2 = π2 π Indice V di Cramér π= per una tabelle con H righe e K colonne. π2 πππ π» β 1 , πΎ β 1 × ππ Esercizio 7 Calcolare lβindice di associazione chi-quadrato per le variabili riportate in tabella. Reddito familiare Rendimento Alto Medio Basso Totale Ottimo 12 23 30 65 Sufficiente 6 11 12 29 Basso 18 28 40 86 Totale 36 62 82 180 Calcoliamo le frequenze teoriche πππ = π π. ×π .π π : Reddito familiare Rendimento Alto Medio Basso Totale Ottimo 13 22,4 29, 6 65 Sufficiente 5,8 10 13,2 29 Basso 17,2 29,6 39,2 86 Totale 36 62 82 180 π2 = + 12 β 13 13 18 β 17,2 17,2 2 + 2 + 23 β 22,4 22,4 28 β 29,6 29,6 2 + 2 + 30 β 29,6 29,6 40 β 39,2 39,2 2 + 6 β 5,8 5,8 2 + 11 β 10 10 2 + 12 β 13,2 13,2 2 2 = 0,077 + 0.016 + 0.005 + 0,006 + 0,1 + 0,109 +0,037 + 0,087 + 0,016 = 0,453 Il valore del chi-quadrato è tanto maggiore quanto è maggiore la distanza tra frequenze osservate e frequenze teoriche, è zero nel caso di indipendenza perfetta. Lβindice indica che le frequenze teoriche sono molto simili, vicine alle frequenze osservate (tanto più è alto il valore tanto più è improbabile che la differenza sia casuale). Calcoliamo anche lβindice di contingenza quadratica e lβindice di Cramér. Soluzione π2 = 0,453 = 0,002 180 Indice di Cramér. π= 0,453 = 0,03 2 × 180