Statistica 1 A.A. 2015/2016
Transcript
Statistica 1 A.A. 2015/2016
Corso di Laurea in “Economia e Finanza” Statistica 1 A.A. 2015/2016 (8 CFU, corrispondenti a 48 ore di lezione frontale e 24 ore di esercitazione) Prof. Luigi Augugliaro 1 / 81 La variabilità: esiste la Statistica perché il mondo è vario Introduzione Nell’immaginario popolare la Statistica è spesso associata alla famosa poesia di Trilussa: . . . te tocca un pollo all’anno e, se non entra nelle spese tue t’entra ne la statistica lo stesso perch’é c’è un antro che ne magna due . . . Trilussa aveva ragione: la media aritmetica tra 0 (polli mangiati dal protagonista della poesia) e 2 (polli mangiati all’antro della poesia) è proprio 1! L’esempio precedente mostra che esistono situazioni in cui la media aritmetica fornisce informazioni che contraddicono la realtà. 2 / 81 Di seguito vengono riportati i redditi medi mensili rilevati su cinque famiglie residenti al Nord, su cinque famiglie residenti al Centro e su cinque famiglie residenti al Sud. Nord Centro Sud 1199.999 1198.620 1186.200 1199.994 1193.720 1137.200 1200.000 1199.620 1196.200 1200.003 1203.020 1230.200 1200.004 1205.020 1250.200 Sulla base della descrizione del fenomeno, possiamo utilizzare le medie secondo Chisini per sintetizzare i dati; dato che il fenomeno ha natura additiva si ricava che possiamo utilizzare la media aritmetica semplice: x̄n = 6000 6000 6000 = 1200 x̄c = = 1200 x̄s = = 1200 5 5 5 3 / 81 Il livello di rappresentatività di una media L’esempio precedente mostra che i tre campioni (Nord, Centro e Sud) sono indistinguibili mediante l’utilizzo della sola misura di tendenza centrale. In questo caso ha senso chiedersi se x̄ sintetizza in ugual modo i campioni considerati. A tal fine consideriamo i quadrati degli scarti tra i valori osservati e le medie calcolate: Nord Centro Sud 0.000001 1.904400 190.440000 0.000036 39.438400 3943.840000 (xi − x̄)2 0.000000 0.144400 14.440000 0.000009 9.120400 912.040000 0.000016 25.200400 2520.040000 L’esempio precedente mostra che la misura di tendenza centrale utilizzata è un’ottima misura di sintesi quando studiamo i redditi delle famiglie residenti al nord; in questo caso i valori rilevati sono molto vicini alla propria media aritmetica semplice. Quando consideriamo i campioni provenienti dal centro e dal sud, si osserva che la capacità di sintesi della media aritmetica semplice si riduce (i valori osservati si allontanano dalla propria misura di tendenza centrale). 4 / 81 Definizione La variabilità esprime la tendenza delle unità statistiche ad assumere diverse modalità del carattere. Le costanti sintetiche sviluppate per misurare la variabilità prendono il nome di indici di variabilità. Gli indici di variabilità si dividono in due grosse categorie: indici di variabilità assoluta; indici di variabilità relativa; 5 / 81 Gli indici di variabilità assoluta Tutti gli indici di variabilità assoluta soddisfano le seguenti proprietà: i. risultano nulli se e solo se tutti gli xi sono uguali fra loro; ii. assumono valori positivi se i valori xi risultano diversi fra di loro. I valori degli indici risultano tanto più elevati quanto più elevata è la variabilità fra le xi ; iii. ogni indice risulta invariante per traslazione: il valore fornito dall’indice non cambia se si aggiunge una costante a ciascun xi ; iv. la misura di variabilità è espressa nella stessa unità di misura dei valori xi . 6 / 81 Gli indici di variazione Gli indici di variazione trovano applicazione quando la serie statistica deriva da osservazioni fatte su n unità statistiche distinte. In questo contesto le medie di riferimento traggono origine dalla definizione di Chisini e dalla natura del fenomeno oggetto di studio. Se si assume che il fenomeno ha natura additiva, la famiglia di indici a cui si perviene ha espressione r Pn m m i=1 |xi − x̄a | Vm = , (1) n dove m è una quantità maggiore di zero. Gli indici che si ricavano dall’espressione (1) al variare del parametro m prendono il nome di indici di variazione. 7 / 81 Per m = 1, dalla generica espressione r Pn Vm = m i=1 |xi − x̄a |m , n si ricava l’indice di variazione Pn V1 = i=1 |xi − x̄a | n il quale prende il nome di scostamento o scarto semplice medio dalla media. L’indice V1 misura di quanto in media semplice i valori xi si scostano dalla media aritmetica semplice. 8 / 81 Per m = 2, dalla generica espressione r Pn Vm = m i=1 |xi − x̄a |m , n si ricava l’indice di variazione r Pn V2 = i=1 (xi − x̄a )2 n il quale prende il nome di scarto quadratico medio (o deviazione standard). L’indice V2 misura di quanto in media quadratica quadratica i valori xi si scostano dalla media aritmetica semplice. 9 / 81 Il quadrato dell’indice V2 , ovvero: V22 = Pn i=1 (xi − x̄a )2 n è noto in letteratura come varianza. Benché la varianza non sia un indice di variabilità, dato che è espressa nel quadrato dell’unità di misura dei dati, essa svolge un ruolo centrale nella costruzione di diverse metodologie statistiche sia descrittive che inferenziali. Il numeratore della varianza, ovvero Devx = n X (xi − x̄a )2 i=1 prende il nome di devianza. 10 / 81 Di seguito vengono riportati i redditi mensili rilevati su 10 famiglie. 1496.84 1501.07 1498.34 1501.01 1497.19 1492.57 1500.36 1500.80 1501.06 1502.03 Calcolare gli indici di variazione per m uguale ad 1 e 2. 11 / 81 Per facilitare il calcolo degli indici richiesti consideriamo la seguente tabella. xi 1496.84 1501.07 1498.34 1501.01 1497.19 1492.57 1500.36 1500.80 1501.06 1502.03 14991.27 xi − x̄a -2.29 1.94 -0.79 1.88 -1.94 -6.56 1.23 1.67 1.93 2.90 |xi − x̄a | 2.29 1.94 0.79 1.88 1.94 6.56 1.23 1.67 1.93 2.90 23.14 (xi − x̄a )2 5.23 3.78 0.62 3.55 3.75 42.99 1.52 2.80 3.74 8.43 76.40 Da cui si ricava che il reddito medio mensile è pari a 1499.127. Gli indici di variazione sono uguali a V1 V2 = 23.14/10 = 2.314 (scostamento semplice medio dalla media) p 76.40/10 = 2.76 (scarto quadratico medio) = 12 / 81 La relazione che segue consente di ottenere una formula utile per il calcolo dello scarto quadratico medio. Consideriamo la varianza: Pn (xi − x̄a )2 2 V2 = i=1 n = " n # 1 X 2 2 (xi + x̄a − 2xi x̄a ) = n i=1 = = = 1 = n 1 n 1 n n X xi2 i=1 n X i=1 n X i=1 xi2 + n X x̄a2 − i=1 + nx̄a2 − 2x̄a n X ! 2xi x̄a i=1 n X xi ! = i=1 ! xi2 + nx̄a2 − 2nx̄a2 Pn = 2 i=1 xi n − x̄a2 . La formula precedente prende il nome di formula ridotta per il calcolo della varianza. 13 / 81 Applicando la formula ridotta per il calcolo della varianza si ricava xi 1496.84 1501.07 1498.34 1501.01 1497.19 1492.57 1500.36 1500.80 1501.06 1502.03 14991.27 xi2 2240529.99 2253211.14 2245022.76 2253031.02 2241577.90 2227765.20 2251080.13 2252400.64 2253181.12 2256094.12 22473894.02 quindi x̄a V2 14991.27 = 1499.127 r 10 22473894.02 = − 1499.1272 = 2.76 10 = 14 / 81 La formula degli indici di variazione r Pn Vm = m i=1 |xi − x̄a |m n viene applicata quando si dispone di una serie statistica di valori. Quando si dispone solamente della distribuzione di frequenze in classi, si ricorre alla sua versione ponderata: v r Pn u n c − x̄ |m n uX |x m a i i=1 i m Vm = = t |xic − x̄a |m fi n i=1 dove xic sono i valori centrali delle classi, ni sono le frequenze assolute e x̄a è la media aritmetica ponderata. Osservazione: in questo caso la formula ridotta della varianza diventa Pn (x c )2 ni 2 − x̄a2 . V2 = i=1 i n dove x̄a è la media aritmetica ponderata. 15 / 81 Esempio: il 22 gennaio 2015, l’ISTAT ha reso noti i dati relativi al fatturato dell’industria per l’anno 2013. Di seguito è riportata la distribuzione di frequenze del fatturato rilevato su un campione di 56 aziende. Fatturato 50 a 60 60 a 70 70 a 80 80 a 90 90 a 100 Tot. Calcolare la più adeguata misura di tendenza ni 5 9 13 22 7 56 centra e di variabilità. 16 / 81 Dato che i dati sono rilevati su 53 aziende differenti, utilizzeremo l’approccio secondo Chisini per la scelta della misura di tendenza centrale. In questo caso calcoleremo la media aritmetica ponderata e valuteremo la variabilità tramite lo scarto quadratico medio. Consideriamo la seguente tabella Fatturato 50 a 60 60 a 70 70 a 80 80 a 90 90 a 100 Tot. ni 5 9 13 22 7 56 xic 55 65 75 85 95 xic · ni 275 585 975 1870 665 4370 (xic )2 3025 4225 5625 7225 9025 (xic )2 · ni 15125 38025 73125 158950 63175 348400 da cui si ricava x̄a V2 4370 = 78.04 r56 √ 348400 = − 78.042 = 131.19 = 11.45 56 = 17 / 81 Gli indici di dispersione Gli indici di dispersione fanno riferimento a dati che derivano da misure ripetute della stessa grandezza incognita X e quindi affetti da errore. Sotto ipotesi di additività della componente erratica (i ) il modello xi = X + i , consente di definite la migliore combinazione dei dati, denotata con x̄p−1 , che minimizza la funzione di perdita dell’informazione. La quantità x̄p−1 viene definita media decisionale. 18 / 81 In presenza di dati derivanti da misure ripetute (dati omogenei), la variabilità dei dati può essere misurata mediante uno degli indici appartenenti alla famiglia parametrica degli indici di dispersione r Pn |xi − x̄p−1 |p , (2) n dove il parametro p > 0 dipende dalla natura probabilistica degli errori accidentali. σp = p i=1 19 / 81 Osservazione E’ importante osservare che, benché la formula degli indici di dispersione, ovvero r Pn p p i=1 |xi − x̄p−1 | , σp = n sia molto simile alla formula degli indici di variazione r Pn m m i=1 |xi − x̄a | , Vm = n esiste una differenza sostanziale tra di loro: nella formula degli indici di dispersione la scelta del parametro p influenza anche la scelta del valore medio (x̄p−1 ); negli indici di variazione la media aritmetica semplice (x̄a ) è sempre utilizzare come valore medio indipendentemente dal valore del parametro m. 20 / 81 Indice di dispersione r Pn p p i=1 |xi − x̄p−1 | σp = n Indice di variazione r Pn m m i=1 |xi − x̄a | Vm = , n Per p = 1 si ricava l’indice di dispersione Pn |xi − x̄0 | σ1 = i=1 n Per m = 1 si ricava l’indice di variazione Pn |xi − x̄a | V1 = i=1 n il quale prende il nome di scostamento o scarto semplice medio dalla mediana. L’indice σ1 misura di quanto in media semplice i valori xi si scostano dal valore mediano. il quale prende il nome di scostamento o scarto semplice medio dalla media. L’indice V1 misura di quanto in media semplice i valori xi si scostano dalla media aritmetica semplice. 21 / 81 Indice di dispersione r Pn p p i=1 |xi − x̄p−1 | σp = n Indice di variazione r Pn m m i=1 |xi − x̄a | Vm = , n Per p = 2 si ricava l’indice di dispersione r Pn 2 i=1 (xi − x̄1 ) σ2 = n Per m = 2 si ricava l’indice di variazione r Pn 2 i=1 (xi − x̄a ) V2 = n il quale prende il nome di scarto quadratico medio (o deviazione standard). L’indice σ2 misura di quanto in media quadratica quadratica i valori xi si scostano dalla media aritmetica semplice. il quale prende il nome di scarto quadratico medio (o deviazione standard). L’indice V2 misura di quanto in media quadratica quadratica i valori xi si scostano dalla media aritmetica semplice. Note: dato il ruolo centrale dello scarto quadratico medio e della varianza, si è soliti semplificare la notazione utilizzando i simboli σ e σ 2 . 22 / 81 Quando p → +∞, dalla formula r Pn σp = p i=1 |xi − x̄p−1 |p n si ricava x(n) − x(1) 2 il quale prende il nome di semi-intervallo di variazione. σ∞ = In letteratura l’indice 2σ∞ = x(n) − x(1) prende il nome di intervallo di variazione e costituisce un indice di variabilità assoluta parziale spesso impiegato per ottenere una valutazione approssimata della variabilità. 23 / 81 La seguente tabella riporta 15 misure sperimentali rilevate in un punto di un circuito elettrico tramite voltmetro digitale. 4.073 4.630 5.426 4.192 4.990 5.538 4.296 5.011 6.011 4.492 5.099 6.291 4.514 5.185 6.839 Misurare la variabilità dei dati riportati in tabella attraverso l’utilizzo degli indici di dispersione definiti per p = 1, 2 e per p → +∞. 24 / 81 Per poter calcolare gli indici di dispersione richiesti è necessario calcolare le medie decisionali corrispondenti a p = 1, 2 e p → +∞. Dopo aver ordinato i dati in ordine crescente 4.073 4.630 5.426 4.192 4.990 5.538 4.296 5.011 6.011 4.492 5.099 6.291 4.514 5.185 6.839 si ricavano le seguenti medie decisionali x̄0 = 5.011 x̄1 = x̄∞ = 5.106 x(15) + x(1) = 5.456 2 25 / 81 xi 4.073 4.192 4.296 4.492 4.514 4.630 4.990 5.011 5.099 5.185 5.426 5.538 6.011 6.291 6.839 76.587 xi2 16.589 17.573 18.456 20.178 20.376 21.437 24.900 25.110 26.000 26.884 29.441 30.669 36.132 39.577 46.772 400.094 xi − x̄0 -0.938 -0.819 -0.715 -0.519 -0.497 -0.381 -0.020 0.000 0.089 0.174 0.415 0.527 1.000 1.280 1.829 1.424 |xi − x̄0 | 0.938 0.819 0.715 0.519 0.497 0.381 0.020 0.000 0.089 0.174 0.415 0.527 1.000 1.280 1.829 9.202 26 / 81 Mediante l’utilizzo dei dati riportati nella tabella precedente si ricava: Pn p=1 x̄0 = 5.011 p=2 x̄1 = 5.106 p → +∞ x̄∞ = 5.456 |xi − x̄0 | 9.202 = = 0.613 Volt n 15 r Pn r 2 400.094 i=1 xi σ2 = − x̄02 = − 5.1062 = 0.777 Volt n 15 x(15) − x(1) σ∞ = = 1.383 Volt 2 σ1 = i=1 27 / 81 In molte applicazioni non si dispone della serie originale dei dati, ma soltanto della distribuzione di frequenze in classi. In questo caso l’espressione (2) viene sostituita con r Pn σp = p c i=1 |xi − x̄p−1 n |p n i v u n uX p =t |xic − x̄p−1 |p fi , i=1 dove xic è il valore centrale della classe i-esima, ni è la corrispondente frequenza assoluta e x̄p−1 è la media decisionale. 28 / 81 Esempio Di seguito viene riportata la distribuzione di frequenza in classi ottenuta mediante un campione di 50 misurazioni sperimentali relative alle resistenze elettrice di isolamento. X 40 a 44 44 a 48 48 a 52 52 a 56 56 a 60 Totale ni 2 10 25 11 2 50 Assumendo che gli errori seguano una distribuzione gaussiana, calcolare il più opportuno indice di dispersione. 29 / 81 Assumendo che gli errori seguano una distribuzione gaussiana, il più opportuno indice di dispersione è lo scarto quadratico medio. X 40 a 44 44 a 48 48 a 52 52 a 56 56 a 60 Totale xic 42 46 50 54 58 (xic )2 1764 2116 2500 2916 3364 ni 2 10 25 11 2 50 xic · ni 84 460 1250 594 116 2504 (xic )2 · ni 3528 21160 62500 32076 6728 125992 Utilizzando i dati in tabella si ricava che x̄1 σ2 2504 = 50.08 r50 125992 = − 50.082 = 3.44 50 = 30 / 81 Proprietà della varianza Teorema Sia x1 , x2 , . . . xn una serie statistica di dati e consideriamo la trasformata lineare yi = α + βxi , con i = 1, 2, . . . , n. Indichiamo con σx2 la varianza calcolata sul primo campione. Denotata con σy2 la varianza calcolata sui valori y1 , y2 , . . . , yn , si dimostra che σy2 = β 2 σx2 . Dimostrazione σy2 Pn = = = Pn 2 2 (yi − ȳa ) [α + βxi − (α + β x̄a )] = i=1 = n n Pn P n 2 [β(xi − x̄a )]2 i=1 (βxi − β x̄a ) = i=1 n Pn n 2 (x − x̄ ) i a β 2 i=1 = β 2 σx2 . n i=1 31 / 81 Esempio: nel 2009 il prezzo di un determinato bene, denotato con X, è stato caratterizzato da uno scarto quadratico medio pari a 56.76 euro. Sapendo che il tasso di cambio Euro/Dollaro (USA) è 1.2283 (un euro equivale a 1.2283$) il candidato calcoli lo scarto quadratico medio del prezzo del bene X valutato in dollari. Soluzione Utilizzando il teorema si ricava che α = 0 , β = 1.2283 quindi lo scarto quadratico medio del prezzo del bene X valutato in dollari è ottenuto mediante la formula σy = |β|σx quindi σy = 1.2283 · 56.76 = 69.71831. 32 / 81 Il precedente teorema consente di dimostrare la proprietà di invarianza per traslazione dello scarto quadratico medio (proprietà iii. degli indici di variabilità assoluta). Corollario Sia x1 , x2 , . . . xn una serie statistica di dati. Se si aggiunge una costante α ai valori rilevati lo scarto quadratico medio non varia. Dimostrazione Aggiungere una costante α ai valori osservati è equivalente a definire la traslazione yi = α + xi . Dal teorema precedente si ricava che σy = σx , dato che il parametro β è uguale ad 1. 33 / 81 Indici di diversità Se consideriamo una variabile quantitativa di tipo discreto, derivante da enumerazioni, non ha senso logico calcolare le differenze di ciascun valore xi da una media decisionale o da una media secondo il Chisini. In questo caso risulta più conveniente valutare la variabilità dei valori osservati mediante una opportuna media delle diversità fra i singoli valori, senza far ricorso a valori medi di riferimento. Gli indici statistici proposti per valutare la variabilità delle variabili quantitative discrete sono chiamati indici di diversità. 34 / 81 Esempio: la tabella che segue riporta il numero di unità difettose prodotte da un processo produttivo nel primo semestre dell’anno 2010. 8 1 3 5 6 9 35 / 81 Dato che il concetto di diversità si fonda sul confronto dei singoli valori, consideriamo la seguente tabella. N. guasti 1 3 5 6 8 9 1 0 2 4 5 7 8 3 2 0 2 3 5 6 N. guasti 5 6 4 5 2 3 0 1 1 0 3 2 4 3 8 7 5 3 2 0 1 9 8 6 4 3 1 0 La tabella precedente riporta il valore assoluto della differenza di tutte le possibili coppie di valori osservati, ovvero |xi − xj |, con i 6= j. Sulla base dei precedenti valori, un primo indici mediante il quale valutare la diversità è definito come media dei valori in tabella, ovvero: 2 · 56 = 3.11 Differenza semplice media con ripetizione R ∆1 = 62 Osservando che gli elementi sulla diagonale principale sono nulli, possiamo quantificare la variabilità tramite la seguente formula ∆1 = 2 · 56 2 · 56 = = 3.73 62 − 6 6(6 − 1) Differenza semplice media senza ripetizione 36 / 81 In formule i due indici calcolati in precedenza, ovvero la differenza semplice media con ripetizione e senza ripetizione, possono essere scritti nel seguente modo: Pn R ∆1 = i,j=1 |xi − xj | n2 i,j=1 |xi − xj | Pn ∆1 = n(n − 1) E’ da notare che, per la simmetria della matrice di tutte le possibili difference in coppie fra gli n valori osservati e per il fatto che la diagonale principale è composta da valori nulli, il calcolo del numeratore degli indici precedenti può essere riscritto nel seguente modo n X X |xi − xj | = 2 |xi − xj | i,j=1 i<j il quale consente di dimezzare il calcolo di tutte le possibile coppie. 37 / 81 La differenza semplice media con ripetizione e senza ripetizione sono casi particolari di due famigli di indici di diversità: Pn R ∆m = i,j=1 = !1/m n2 Pn ∆m |xi − xj |m i,j=1 |xi − xj |m n(n − 1) , (3) , (4) !1/m dove m > 0. La famiglia di indici di diversità definita tramite la formula (3) prende il nome di differenza media potenziata di ordine m con ripetizione, mentre la famiglia di indici definiti tramite la formula (4) prende il nome di differenza media potenziata di ordine m senza ripetizione. Note: Fra gli innumerevoli indici che si possono definire al variare del parametro m, gli unici che vengono comunemente impiegati in pratica sono quelli corrispondenti a m = 1. 38 / 81 L’esempio visto in precedenza mostrava il calcolo degli indici R ∆1 e ∆1 utilizzando una serie di valori. Quando si dispone di una distribuzione di frequenze, la procedura mostrata in precedenza si modifica al fine di tener conto delle frequenze assolute. Esempio: di seguito si riportata la distribuzione di frequenze della variabile “numero di unità difettose” prodotte da un processo produttivo nel primo semestre dell’anno 2010. x 1 3 6 7 Totale ni 1 2 2 1 6 Da cui si ricavano le matrici N. guasti 1 3 6 7 N. 1 · · · · guasti 3 6 2 5 · 3 · · · · 7 6 4 1 · |xi − xj |ni · nj 1 3 6 7 |xi 1 · · · · − xj |ni · nj 3 6 7 4 10 6 · 12 8 · · 2 · · · 39 / 81 Utilizzando la matrice |xi − xj |ni · nj 1 3 6 7 |xi 1 · · · · − xj |ni · nj 3 6 7 4 10 6 · 12 8 · · 2 · · · si ricava che R ∆1 = ∆1 = 2 · 42 = 2.33 62 2 · 42 = 2.8 6·5 40 / 81 Quando si lavora con una distribuzione di frequenze le formule (3) e (4), utilizzate per il calcolo della differenza media potenziata di ordine m con e senza ripetizione, vengono modificate nel seguente modo: Pn R ∆m = i,j=1 = !1/m , n2 Pn ∆m |xi − xj |m ni nj i,j=1 |xi − xj |m ni nj n(n − 1) !1/m . Quando m è uguale ad 1 si ricava: Pn i,j=1 |xi − xj |ni nj = , Differenza semplice media con ripetizione R ∆1 n2 Pn i,j=1 |xi − xj |ni nj ∆1 = . Differenza semplice media senza ripetizione n(n − 1) 41 / 81 Esempio: il direttore di un centro di ricerca e sviluppo di un’azienda produttrice di accessori per smartphone è interessato a valutare la performance di un nuovo tipo di batteria. A tal fine è stata rilevata la variabile numero di ricariche settimanali. Di seguito si riporta la distribuzione di frequenze ottenuta. Ricariche 6 7 8 9 10 Tot. ni 14 29 16 24 32 115 Valutare la variabilità tramite i più adeguati indici statistici. 42 / 81 Per valutare la variabilità della variabile numero di ricariche settimanali utilizziamo gli indici R ∆1 e ∆1 . A tal fine costruiamo la tabella ni 14 29 16 24 ni X 6 7 8 9 14 6 · · · · 29 7 406 · · · 16 8 448 464 · · 24 9 1008 1392 384 · 32 10 1792 2784 1024 768 Dalla tabella precedente si ricava: R ∆1 = ∆1 = 2 · 10470 = 1.58 (differenza semplice media con ripetizione) 1152 2 · 10470 = 1.60 (differenza semplice media senza ripetizione) 115 · 114 43 / 81 Esempio: Una delle problematiche più sentite nel mondo del commercio elettronico è la sicurezza nelle modalità di pagamento. Al fine di evitare il furto di informazioni e dei dati personali del venditore e del cliente, i siti di commercio elettronico utilizzano livelli di crittografia elevati. Di seguito è riportata la distribuzione di frequenze della variabile “numero mensile di furti di dati”. X 0 1 2 3 4 5 Tot. ni 5 8 9 8 4 2 36 Valutare la variabilità tramite i più adeguati indici statistici. 44 / 81 Per valutare la variabilità della variabile numero di ricariche settimanali utilizziamo gli indici R ∆1 e ∆1 . A tal fine costruiamo la tabella ni 5 8 9 8 4 ni X 0 1 2 3 4 5 0 · · · · · 8 1 40 · · · · 9 2 90 72 · · · 8 3 120 128 72 · · 4 4 80 96 72 32 · 2 5 50 64 54 32 8 Dalla tabella precedente si ricava: R ∆1 = ∆1 = 2 · 1010 = 1.59 362 2 · 1010 = 1.60 36 · 35 (differenza semplice media con ripetizione) (differenza semplice media senza ripetizione) 45 / 81 Gli esempi precedenti mostrano che il calcolo degli indici di diversità si complica al crescere della dimensione della matrice con tutte le possibili differenze a coppie. La formula di De Finetti-Paciello consente il calcolo del numeratore degli indici R ∆1 e ∆1 senza ricorrere all’utilizzo della tabella. Consideriamo la seguente distribuzione di frequenza. xi 2 6 7 9 12 Totale ni 3 5 6 4 2 20 46 / 81 Il calcolo della formula di De Finetti-Paciello si fonda sull’utilizzo delle frequenze assolute cumulate. Consideriamo la seguente tabella. xi 2 6 7 9 12 Totale ni 3 5 6 4 2 20 nic 3 8 14 18 20 n − nic 20 − 3 = 17 20 − 8 = 12 20 − 14 = 6 20 − 18 = 2 nic (n − nic ) 3 × 17 = 51 8 × 12 = 96 14 × 6 = 84 18 × 2 = 36 x(i+1) − x(i) 6−2=4 7−6=1 9−7=2 12 − 9 = 3 nic (n − nic )(x(i+1) − x(i) ) 51 × 4 = 204 96 × 1 = 96 82 × 2 = 168 36 × 3 = 108 576 Utilizzando i dati riportati in tabella la formula di De Finetti-Paciello fornisce i seguenti risultati R ∆1 = ∆1 = Pk−1 nic (n − nic )(x(i+1) − x(i) ) 2 · 576 = = 2.88 2 n 202 Pk−1 c 2 · i=1 ni (n − nic )(x(i+1) − x(i) ) 2 · 576 = = 3.03 n(n − 1) 20 · 19 2· i=1 47 / 81 Esempio: Il direttore di un supermercato è interessato a valutare la distribuzione del numero di prodotti giornalmente rubati. Di seguito si riporta la distribuzione di frequenza ottenuta dopo 53 giorni lavorativi. N. Prodotti 1 2 3 4 5 6 Totale ni 4 7 8 8 11 15 53 Valutare la variabilità tramite i più adeguati indici statistici. 48 / 81 Per calcolare la differenza semplice media con e senza ripetizione, utilizziamo la formula di De Finetti-Paciello. Consideriamo la seguente tabella. xi 1 2 3 4 5 6 Totale ni 4 7 8 8 11 15 53 nic 4 11 19 27 38 53 n − nic 49 42 34 26 15 nic (n − nic ) 196 462 646 702 570 2576 Dato che le differenze x(i+1) − x(i) sono tutte uguali al valore 1, le ultime due colonne possono essere omesse. Utilizzando i dati riportati in tabella otteniamo i seguenti risultati Pk−1 2 · i=1 nic (n − nic )(x(i+1) − x(i) ) 2 · 2576 ∆ = = = 1.83 R 1 n2 532 Pk−1 2 · i=1 nic (n − nic )(x(i+1) − x(i) ) 2 · 2576 ∆1 = = = 1.87 n(n − 1) 53 · 52 49 / 81 Indici di eterogeneità Gli indici di variabilità fin qui presentati possono essere utilizzati solo per variabili quantitative. Definizione L’eterogeneità misura la variabilità delle frequenze relative fi senza coinvolgere le modalità del carattere in esame. Se tutte le unità statistiche sono portatrici della medesima modalità del carattere oggetto dello studio, diremo che l’eterogeneità è nulla o siamo in presenza di massima concentrazione. x x1 x2 .. . n n1 0 .. . f 1 0 .. . f2 1 0 .. . xk−1 xk Totale 0 0 n 0 0 1 0 0 1 50 / 81 Se tutte le unità statistiche sono ripartite uniformemente fra le k modalità del carattere, allora l’eterogeneità è massima o siamo in presenza di concentrazione nulla: x x1 x2 .. . n n/k n/k .. . f 1/k 1/k .. . f2 1/k 2 1/k 2 .. . xk−1 xk Totale n/k n/k n 1/k 1/k 1 1/k 2 1/k 2 1/k 51 / 81 Per valutare l’eterogeneità di una distribuzione, utilizzeremo l’indice proposto da Gini k X 0 eterogeneità nulla G =1− fi 2 = 1 − k1 = k−1 massima eterogeneità k i=1 La versione normalizzata dell’indice di Gini è ottenuta rapportando l’indice G al suo massimo valore k G0 = G. k −1 52 / 81 Esempio: supponiamo di aver rilevato su un gruppo di soggetti, separatamente per i due sessi, il titolo di studio. Si vuole confrontare l’eterogeneità delle due distribuzioni. Femmine xi ni fi Lic. Media 2 0.17 Maturità 7 0.58 Laurea 3 0.25 Totale 12 1.00 Si ricava che G = 1 − 0.043 = 0.57 e G 0 = kG k−1 = fi 2 0.03 0.34 0.06 0.43 3·0.57 3−1 = 0.85. 53 / 81 xi Lic. Media Maturità Laurea Totale Uomini ni fi 4 0.27 6 0.40 5 0.33 15 1.00 fi 2 0.0729 0.1600 0.1089 0.3418 da cui si ricava che G = 0 = G 1 − 0.3418 = 0.6582 kG 3 · 0.6582 = = 0.9873 k −1 3−1 Si deduce che la distribuzione dei maschi è più eterogenea. 54 / 81 Gli indici di variabilità relativa In molte applicazioni è utile confrontare la variabilità di due o più serie di valori. In questo caso gli indici di variabilità assoluta, studiati nelle pagine precedenti, non possono essere applicati per due ordini di motivi: gli indici di variabilità assoluta sono espressi nella stessa unità di misura dei dati quindi non consentono confronti fra serie di valori con diversa unità di misura; anche se le serie considerate sono espresse nella stessa unità di misura, possono essere caratterizzate da un diverso ordine medio di grandezza. In questi casi è necessario considerare gli indici di variabilità relativa. Gli indici di variabilità relativa sono dei numeri puri, ossia numeri privi di unità di misura. 55 / 81 I coefficienti di variazione Gli indici di variazione r Pn |xi − x̄a |m , n trovano applicazione quando la serie statistica deriva da osservazioni fatte su n unità statistiche distinte (approccio secondo Chisini). Vm = m i=1 Per rimuovere gli effetti derivanti dall’unità di misura dei dati e dall’ordine medio di grandezza del fenomeno, si rapporta l’indice Vm al valore assoluto del corrispondente valore medio, ovvero: Vm . (5) |x̄a | La famiglia di coefficienti definita in precedenza prende il nome di coefficiente di variazione. La quantità (5) è un numero puro (indice adimensionale) dato che numeratore e denominatore sono espressi nella stessa unità di misura dei dati. 56 / 81 Nelle applicazione il parametro m è usualmente uguale a 2; in questo caso il coefficiente ricavato dalla formula (5) è il seguente CV = V2 |x̄a | il quale è talmente importante da prendere il nome dell’intera famiglia di coefficienti, ovvero coefficiente di variazione. Note: nelle applicazioni si è soliti riportare il coefficiente di variazione CV moltiplicato per 100, ma questo può portare in errore nella valutazione del valore ottenuto. CV è una misura relativa alla media e la sola valutazione sensata è come percentuale della media. 57 / 81 Esempio. Un’azienda di credito ha ripartito un campione di 143 dei propri clienti in due categorie definite solvente e insolvente. La tabella seguente riporta la distribuzione dei finanziamenti concessi dall’azienda di credito in funzione delle due categorie considerate. Finanziamenti 1.0 a 1.5 1.5 a 2.0 2.0 a 2.5 2.5 a 3.0 3.0 a 3.5 Tot. Tipologia Solvente Insolvente ni ni 2 25 10 13 18 7 29 2 36 1 95 48 Il candidato confronti la distribuzione di frequenze dei clienti di tipo solvente con quella di tipo insolvente mediante le più opportune misure di tendenza centrale e di variabilità. 58 / 81 Sulla base della descrizione del fenomeno in esame si deduce che la più opportuna misura di tendenza centrale è la media definita secondo Chisini; dato che il fenomeno in esame ha natura additiva utilizzeremo la media aritmetica ponderata per confrontare le due distribuzioni. Per confrontare le due distribuzioni in termini di variabilità utilizzeremo il coefficiente di variazione. Consideriamo i clienti di tipo solvente e quindi la tabella xic 1.25 1.75 2.25 2.75 3.25 Tot. ni 2 10 18 29 36 95 xic · ni 2.50 17.50 40.50 79.75 117.00 257.25 (xic )2 1.5625 3.0625 5.0625 7.5625 10.5625 (xic )2 · ni 3.1250 30.6250 91.1250 219.3125 380.2500 724.4375 da cui si ricava che 257.25 x̄s = = 2.71 σs = 95 r 724.4375 − 2.712 = 0.53 95 e CVs = 0.53 = 0.20 2.71 59 / 81 Consideriamo i clienti di tipo insolvente e quindi la tabella xic 1.25 1.75 2.25 2.75 3.25 Tot. xic · ni 31.25 22.75 15.75 5.50 3.25 78.50 ni 25 13 7 2 1 48 (xic )2 1.5625 3.0625 5.0625 7.5625 10.5625 (xic )2 · ni 39.0625 39.8125 35.4375 15.1250 10.5625 140 da cui si ricava che 78.50 x̄i = = 1.64 σi = 48 r 140 − 1.642 = 0.48 48 e CVi = 0.48 = 0.29 1.64 Conclusioni. Sulla base dei risultati ottenuti si ricava che il livello medio dei finanziamenti concessi ai clienti di tipo solvente è maggiore rispetto a quello concesso ai clienti di tipo insolvente. Il confronto dei due coefficienti di variazione mostra che la distribuzione dei finanziamenti concessi ai clienti di tipo solvente è leggermente meno variabile di quella dei clienti di tipo insolvente; nel primo caso la variabilità dei finanziamenti concessi è uguale al 20% dei finanziamenti medi, mentre aumenta al 29% quando si considerano clienti di tipo insolvente. 60 / 81 I coefficienti di dispersione Gli indici di dispersione r Pn σp = p i=1 |xi − x̄p−1 |p , n trovano applicazione quando la serie statistica deriva da osservazioni ripetute fatte sullo stesso oggetto/soggetto (approccio secondo medie decisionali). Per rimuovere gli effetti derivanti dall’unità di misura dei dati e dall’ordine medio di grandezza del fenomeno, si rapporta l’indice σp al valore assoluto della corrispondente media decisionale, ovvero: σp . |x̄p−1 | (6) La famiglia di coefficienti definita in precedenza prende il nome di coefficiente di dispersione. La quantità (6) è un numero puro (indice adimensionale) dato che numeratore e denominatore sono espressi nella stessa unità di misura dei dati. 61 / 81 I coefficienti di diversità Per definire gli indici di variabilità relativa per le variabili quantitative discrete, la logica che si segue è quella di rapportare l’indice ∆1 (o R ∆1 ) al suo valore massimo teorico. Si dimostra che il valore più grande che può assumere la differenza semplice media senza ripetizione è uguale a 2x̄a , da cui si ricava quello che è noto in letteratura come coefficiente di diversità semplice media senza ripetizione: ∆1 ∆1 = . max ∆1 2x̄a (7) Note: dato che il coefficiente (7) è definito rapportando il numeratore al suo massimo teorico, esso viene interpretato come percentuale della variabilità totale. Nel caso in cui si decide di lavorare con l’indice R ∆1 , la corrispondente versione normalizzata può essere ottenuta dalla relazione: Pn Pn n n i,j=1 |xi − xj | i,j=1 |xi − xj | ∆1 = = = R ∆1 n(n − 1) n−1 n2 n−1 62 / 81 Esempio: Il direttore di un supermercato è interessato a valutare la distribuzione del numero di prodotti giornalmente rubati. Di seguito si riporta la distribuzione di frequenza ottenuta dopo 53 giorni lavorativi. N. Prodotti 1 2 3 4 5 6 Totale ni 4 7 8 8 11 15 53 Valutare la variabilità tramite i più adeguati indici statistici. 63 / 81 Per calcolare la differenza semplice media con e senza ripetizione, utilizziamo la formula di De Finetti-Paciello. Consideriamo la seguente tabella. X 1 2 3 4 5 6 Totale ni 4 7 8 8 11 15 53 xi n i 4 14 24 32 55 90 219 nic 4 11 19 27 38 53 n − nic 49 42 34 26 15 nic (n − nic ) 196 462 646 702 570 2576 Utilizzando i dati riportati in tabella otteniamo i seguenti risultati x̄a = 219 = 4.13; 53 ∆1 = 1.87; ∆1 = 0.23. 2x̄a Il coefficiente di diversità semplice medio senza ripetizione mostra che la variabilità della variabile numero di prodotti giornalmente rubati è il 23% della massima variabilità raggiungibile. 64 / 81 La concentrazione La concentrazione di un carattere X deriva dalla possibilità di “trasferire” l’ammontare del fenomeno da un’unità statistica ad un altra, avvicinandosi o allontanandosi dalla situazione di equidistribuzione dell’ammontare complessivo del carattere. In tal caso il carattere viene definito trasferibile. Per esempio, sapendo che in Italia, nel 2011, l’ammontare dei redditi da lavoro dipendente era di 654836 milioni di euro, possiamo essere interessati a sapere come questo ammontare fosse ripartito fra le diverse famiglie italiane. Se la maggior parte dell’ammontare del reddito era detenuto da poche famiglie possiamo dire che il reddito era concentrato, al contrario se ogni famiglia deteneva la stessa quantità di reddito possiamo dire che questo era equidistribuito tra le famiglie. Il problema è definire un indice che fornisca informazioni in merito alla vicinanza alla situazione di perfetta concentrazione o di perfetta equisistribuzione. 65 / 81 Supponiamo di considerare il reddito annuo di 8 individui percepito nel 2010. La seguente tabella riporta i valori rilevati: 22900.94 24617.35 23782.56 22369.54 20311.44 20785.09 23596.39 21237.88 dai valori precedenti si ricava che il reddito complessivo è uguale a 179601.2 e che il reddito medio è x̄ = 22450.15. Pn i=1 xi = Definizione Diremo che il carattere quantitativo trasferibile X è equidistribuito quando l’ammontare complessivo del carattere è ripartito equamente tra le n unità statistiche. Con riferimento all’esempio precedente 22450.15 22450.15 22450.15 22450.15 22450.15 22450.15 22450.15 22450.15 66 / 81 Definizione Diremo che il carattere quantitativo trasferibile X è concentrato quando l’ammontare complessivo del carattere è posseduto solamente da una sola unità statistica. Con riferimento all’esempio precedente si ricava: 179601.2 0.0 0.0 0.0 0.0 0.0 0.0 0.0 Note: La concentrazione del carattere evidenzia in modo più efficace e più interpretabile la variabilità dei caratteri trasferibili. La corrispondenza con il concetto di variabilità è immediato: se non esiste concentrazione (situazione di perfetta equidistribuzione) allora la variabilità è nulla, diversamente se la concentrazione è massima allora anche la variabilità sara massima. 67 / 81 Consideriamo un carattere quantitativo trasferibile X , osservato su un collettivo di n unità statistiche ed ordiniamo in senso non decrescente i valori osservati; in altri termini consideriamo la sequenza ordinata x(1) ≤ x(2) ≤ . . . x(n) . Indichiamo con: Ai = x(1) + x(2) + . . . x(i) l’ammontare di carattere posseduto dalle i unità più povere (An è l’ammontare complessivo del carattere); Qi = Ai /An la frazione di carattere posseduto dalle i unità più povere; Fi = i/n la frequenza relativa cumulata delle prime i unità. Note. Le quantità Qi ed Fi forniscono informazioni in merito alla concentrazione. Se si è nel caso in cui l’ammontare del carattere X è equidistribuito fra le n unità statistiche si ha che, per ogni i, Qi = Fi poiché come ogni unità è un n-esimo dell’intero collettivo anche il suo ammontare è un n-esimo dell’ammontare totale; Se invece si è nel caso di massima concentrazione, tutte le Qi , esclusa Qn che è necessariamente uguale ad 1, valgono zero. In tutte le situazioni intermedie vale la relazione che Fi ≥ Qi . 68 / 81 Considerando le differenze (Fi − Qi ), queste saranno tutte uguali a zero nel caso di equidistribuzione, tutte uguali ad Fi ( escluso il caso i = n per il quale la differenza è zero) nel caso di massima concentrazione e tutte non negative nei casi intermedi di concentrazione. Le osservazioni precedenti conducono alla definizione del seguente indice: n n−1 X X C= (Fi − Qi ) = (Fi − Qi ). i=1 i=1 Note. La sommatoria arriva fino al termine (n − 1)-esimo, poiché l’n-esima differenza è sempre uguale a 0 essendo Qn = Fn = 1. 69 / 81 L’indice C assume i seguenti valori estremi ( 0 C = Pn−1 i=1 Fi in condizione di perfetta equidistribuzione dato che Fi = Qi ; in condizione di massima concentrazione dato che Qi = 0 Per trasformare l’indice C in un indice di concentrazione relativo, variabile tra 0 ed 1, basterà dividerlo per il suo valore massimo. Con tale operazione si ottiene l’indice di concentrazione chiamato rapporto di concentrazione del Gini: Pn−1 Pn−1 Qi C i=1 (Fi − Qi ) R = Pn−1 = = 1 − Pi=1 . Pn−1 n−1 i=1 Fi i=1 Fi i=1 Fi Osservando che n−1 X i=1 Fi = n−1 n−1 X i 1X 1 n(n − 1) n−1 = i= = , n n n 2 2 i=1 i=1 si ricava che l’indice R può essere calcolato come Pn−1 Qi R = 1 − 2 i=1 . n−1 70 / 81 Con riferimento all’esempio precedente si ricava x(i) 20311.44 20785.09 21237.88 22369.54 22900.94 23596.39 23782.56 24617.35 Tot. Ai 20311.44 41096.53 62334.41 84703.95 107604.89 131201.28 154983.84 179601.19 Qi 0.11 0.23 0.35 0.47 0.60 0.73 0.86 3.35 da cui si ricava che 3.35 = 0.04 7 ovvero siamo in presenza di quasi perfetta equidistribuzione del reddito (minima concentrazione) tra le otto unità considerate. R =1−2 71 / 81 Esempio. Di seguito vengono riportati gli introiti pubblicitari (in milioni) ottenuti a fine anno dalle nove emittenti radiofoniche di una determinata nazione. Emittente Emittente Emittente Emittente Emittente Emittente Emittente Emittente Emittente Emittente 1 2 3 4 5 6 7 8 9 Introiti 339 461 697 1320 1524 1798 1857 1889 1994 Valutare la concentrazione tramite il rapporto di concentrazione del Gini. 72 / 81 Per calcolare l’indice R, consideriamo la seguente tabella: Emittente Emittente Emittente Emittente Emittente Emittente Emittente Emittente Emittente Emittente Tot. 1 2 3 4 5 6 7 8 9 Introiti 339 461 697 1320 1524 1798 1857 1889 1994 11879 Ai 339 800 1497 2817 4341 6139 7996 9885 Qi 0.03 0.07 0.13 0.24 0.37 0.52 0.67 0.83 2.85 da cui si ricava 2.85 = 0.287. 8 Il rapporto di concentrazione del Gini (R = 0.287) mostra che l’ammontare complessivo degli introiti pubblicitari (pari a 11879) è abbastanza ben equidistribuito tra le diverse emittenti. R =1−2 73 / 81 Associato al rapporto di concentrazione del Gini vi è un interessante grafico chiamato spezzata di regressione o curva di Lorenz, dal nome del primo autore che ne ha proposto l’impiego. Il grafico è ottenuto costruendo un grafico cartesiano dove in ascissa riportiamo i valori Fi e in ordinata i valori Qi . Definizione Si definisce spezzata do concentrazione o curva di Lorenz la poligonale congiungente le n coppie di valori (Fi , Qi ). Note. Dato che per ogni coppia (Fi , Qi ) in generale si ottiene che Fi ≥ Qi si deduce che la curva di Lorenz giace sotto la bisettrice del primo-terzo quadrante. Osserviamo inoltre che ogni Qi ed Fi è compreso tra 0 ed 1. 74 / 81 1.0 0.8 0.6 Qi 0.4 0.2 Qi 0.00 0.03 0.07 0.13 0.24 0.37 0.52 0.67 0.83 1.00 0.0 Fi 0.00 0.11 0.22 0.33 0.44 0.56 0.67 0.78 0.89 1.00 0.0 0.2 0.4 0.6 0.8 1.0 Fi La linea continua è la poligonale congiungente le coppie di valori (Fi , Qi ) ovvero la spezzata di Lorenz. 75 / 81 1.0 0.8 0.6 Qi 0.4 0.2 Qi 0.00 0.03 0.07 0.13 0.24 0.37 0.52 0.67 0.83 1.00 0.0 Fi 0.00 0.11 0.22 0.33 0.44 0.56 0.67 0.78 0.89 1.00 0.0 0.2 0.4 0.6 0.8 1.0 Fi Il segmento tratteggiato congiungente i punti di coordinate (0, 0) e (1, 1) prende il nome di retta di equidistribuzione e descrive l’andamento delle coppie (Fi , Qi ) in caso di perfetta equidistribuzione dell’ammontare complessivo del carattere. 76 / 81 1.0 0.8 0.6 Qi 0.4 0.2 Qi 0.00 0.03 0.07 0.13 0.24 0.37 0.52 0.67 0.83 1.00 0.0 Fi 0.00 0.11 0.22 0.33 0.44 0.56 0.67 0.78 0.89 1.00 0.0 0.2 0.4 0.6 0.8 1.0 Fi L’area compresa tra la curva di Lorenz e la retta di equidistribuzione è chiamata area di concentrazione. Nel caso di equidistribuzione l’area di concentrazione è nulla dato che la retta di equidistribuzione e la spezzata di Lorenz coincidono. 77 / 81 1.0 0.8 0.6 Qi 0.4 0.2 0.0 0.0 0.2 0.4 0.6 0.8 1.0 Fi Quando ci troviamo in condizione di massima concentrazione, allora Qi = Fi = 0 per i = 1, . . . , n − 1 mentre Qn = Fn = 1. Graficamente l’area di concentrazione è uguale all’are del triangolo rettangolo mostrato nel grafico. E’ facile vedere che, in questo caso, l’area di concentrazione è pari ad 1/2. 78 / 81 Si dimostra che il rapporto di concentrazione del Gini è approssimativamente uguale al rapporto tra l’area di concentrazione e la massima area di concentrazione, ovvero R ≈ = area di concentrazione area di concentrazione = = massima area di concentrazione 1/2 2 area di concentrazione. La relazione precedente è utilizzata per approssimare il rapporto di concentrazione del Gini quando si lavora con una distribuzione di frequenze in classi. Applicando la formula per area dei trapezi per il calcolo dell’area di concentrazione si ricava l’approssimazione: k−1 X (Fi+1 − Fi )(Qi + Qi+1 ) R0 = 1 − i=0 dove i. k è il numero di classi; ii. Fi = iii. Qi = nic sono le frequenze relative cumulate; n Pi c c j=1 xi ni Pk c n e xi è il valore centrale dell’i-esima x j=1 i i classe; Note: il calcolo dell’indice precedente può essere semplificato osservando che Fi+1 − Fi = fi = ni /n, ovvero la frequenza relativa dell’i-esima classe. 79 / 81 Esempio: di seguito è riportata la distribuzione di frequenza dei redditi mensili rilevati su un campione di 100 famiglie. classi 1.0 a 1.5 1.5 a 2.0 2.0 a 2.5 2.5 a 3.0 3.0 a 3.5 Tot. ni 40 20 20 13 7 100 Calcolare il rapporto di concentrazione del Gini. 80 / 81 Per calcolare il rapporto di concentrazione del Gini consideriamo la seguente tabella: xic 1.25 1.75 2.25 2.75 3.25 Tot. ni 40 20 20 13 7 100 xic ni 50.00 35.00 45.00 35.75 22.75 188.50 Pi c j=1 xi ni 50.00 85.00 130.00 165.75 188.50 Qi 0.27 0.45 0.69 0.88 1.00 Qi + Qi+1 0.27 0.72 1.14 1.57 1.88 ni (Qi + Qi+1 ) 10.80 9.00 22.80 20.41 13.16 76.17 da cui si ricava Pk−1 ni (Qi + Qi+1 ) = 0.24. n Il rapporto di concentrazione del Gini (R 0 = 0.24) mostra che il reddito complessivo mensile delle 100 famiglie è quasi perfettamente equidistribuito tra le 100 famiglie. 0 R =1− i=0 81 / 81