Facolt`a di Farmacia Corso di Matematica con elementi di Statistica

Transcript

Facolt`a di Farmacia Corso di Matematica con elementi di Statistica
Facoltà di Farmacia
Corso di Matematica con elementi di Statistica
Docente: Riccardo Rosso
Statistica descrittiva: il coefficiente di concentrazione di Gini
Quando si vuole ripartire una certa somma di denaro, vi sono due suddivisioni che sono, per certi versi, estreme: la prima è quella in cui tutti
gli individui ricevono lo stesso importo; la seconda è quella in cui l’intera
somma di denaro è appannaggio di un solo individuo, mentre nulla spetta
agli altri. Come già osservato nel corso di lezioni, la media aritmetica non
discrimina tra questi casi estremi e nemmeno tra le altre distribuzioni possibili. Lo scarto quadratico medio σ è sı̀ sensibile alle distribuzioni operate,
ma il valore di σ dipende anche dalla grandezza del campione che si considera, cosicché confronti tra ripartizioni operate su campioni diversi non sono
facilmente confrontabili. Il coefficiente di concentrazione di Gini1 ovvia a
questo inconveniente dal momento che, per costruzione, ha un campo di
variabilità insensibile alla grandezza del campione.
Iniziamo con il circoscrivere l’ambito di applicazione del coefficiente di
Gini. Esso riguarda caratteri quantitativi trasferibili, per i quali è sensato
immaginarne il passaggio tra più individui: il denaro, quote di mercato
spartite tra aziende sono esempi tipici. Supponiamo di avere un carattere
(o bene) trasferibile di ammontare complessivo A > 0 e di volerlo ripartire
tra n individui. Denotiamo con x1 , x2 , x3 ,..., xn le quantità –non negative–
di bene assegnate ai vari individui etichettati con i numeri interi da 1 ad n.
Inoltre, supponiamo di ordinare gli importi in modo crescente
0 ≤ x1 ≤ x2 ≤ ... ≤ xn :
l’individuo 1 è il più “povero”, mentre l’individuo n è il più “ricco”. Il bene
è equidistribuito se ad ogni individuo spetta lo stesso importo: formalmente
deve essere
A
x1 = x2 = .... = xn = .
n
Al contrario, diremo che c’è concentrazione se
x1 = x2 = .... = xn−1 = 0
xn = A :
l’importo complessivo A è detenuto da un solo individuo.
1
Il coefficiente di Gini prende il nome dallo statistico italiano Corrado Gini (1884-1965)
che lo introdusse in un lavoro apparso nel 1914.
Per procedere, è bene introdurre la frequenza cumulata
Fi :=
i
n
e la frazione di bene accumulato tra i primi i individui
Qi :=
Ai
x1 + x2 + .... + xi
=
,
A
A
dove
Ai = x1 + x2 + ... + xi .
(1)
La frazione Fi descrive quale porzione del campione è stata esaminata allorché si considera l’individuo i−esimo. Se tra i primi i individui viene ripartito
poco bene, Qi sarà più piccolo del valore che gli competerebbe se ci fosse
equidistribuzione. Vale infatti il seguente teorema.
Teorema. Se l’indice i è uguale ad n, o se il bene A è equidistribuito, allora
Qi = Fi . In generale si ha
Qi ≤ Fi ,
∀i = 1, ..., n.
Dimostrazione. Se i = n, per definizione si ha Fi = Fn = 1 ed anche
Qi = Qn = 1, dal momento che A = x1 + x2 + .... + xn . Se il bene è
equidistribuito, poiché a ciascun individuo spetta l’importo A/n, deve essere
Qi =
x1 + x2 + .... + xi
i(A/n)
=
= Fi ,
A
A
come richiesto dal teorema. Per il caso generale osserviamo che vale la
seguente disuguaglianza
x1 + x2 + .... + xi
x1 + x2 + .... + xn
≤
:
i
n
(2)
infatti, il membro di sinistra della disuguaglianza è la media aritmetica degli
importi assegnati ai primi i individui, che sono i più poveri. A destra figura
invece la media aritmetica degli importi assegnati a tutti gli n individui,
comprendendo dunque i più ricchi. È chiaro allora che quest’ultima media
prevarrà sulla prima. Poiché sia x1 +x2 +....+xn che i sono positivi possiamo
riscrivere la (2) come
i
x1 + x2 + .... + xi
≤
x1 + x2 + .... + xn
n
che equivale ad affermare Qi ≤ Fi , come asserito nell’enunciato del teorema.
Con poca ulteriore fatica si può mostrare che in realtà vale anche il
viceversa del teorema dimostrato, nel senso che se Qi = Fi allora o l’indice
i è uguale ad n oppure il bene è equidistribuito.
2
Siamo ora pronti per definire il coefficiente di concentrazione R di Gini
come
Pn−1
(Fi − Qi )
.
(3)
R := i=1
Pn−1
i=1 Fi
Osserviamo che nel caso della equidistribuzione il coefficiente di Gini è R =
0, siccome Qi = Fi per ogni scelta dell’indice i. Al contrario, nel caso della
concentrazione abbiamo Qi ≡ 0 per i = 1, ..., n − 1 e pertanto
Pn−1
Fi
R = Pi=1
= 1.
n−1
i=1 Fi
In tutti gli altri casi, osserviamo che si può sempre scrivere
Pn−1
Pn−1
Qi
i=1 Fi −
R=
,
Pn−1 i=1
i=1 Fi
spezzando la sommatoria a numeratore in due parti: a questo punto si può
operare l’ulteriore semplificazione
Pn−1
Qi
R = 1 − Pi=1
n−1
i=1 Fi
che mostra come R non superi mai il valore 1. D’altra parte, poiché Fi ≥ Qi
il rapporto di Gini non può essere negativo. Concludiamo pertanto che
R ∈ [0, 1] e che i valori estremi corrispondono proprio alla situazione di
equidistribuzione (R = 0) e di concentrazione (R = 1). Concludiamo con
alcune osservazioni generali. L’indice i nelle sommatorie coinvolte in (3)
arriva fino ad n − 1. Ciò non disturba perché sappiamo che per i = n deve
essere Qn = Fn = 1 per cui non ci sarebbe contributo da questo termine al
rapporto R. Infine, poiché è possibile dimostrare che
n−1
X
Fi =
i=1
n−1
,
2
tenendo conto della definizione di Qi e di (1) possiamo riscrivere R in una
formula comoda per le applicazioni
n−1
X
2
Ai .
R=1−
(n − 1)A
(4)
i=1
Esercizio 1. Supponiamo che la somma di 100 Euro sia suddivisa tra 10
individui in questo modo: a due individui spetta 1 Euro ciascuno, ad altri
due 2 Euro ciascuno, ad un altro 4 Euro, ad altri due 15 Euro ed ai tre
3
individui restanti 20 Euro ciascuno. Calcolare il coefficiente di Gini relativo
alla distribuzione effettuata.
Se disponiamo gli importi in ordine crescente, abbiamo
x1 = x2 = 1 Euro x3 = x4 = 2 Euro x5 = 4 Euro
x6 = x7 = 15 Euro x8 = x9 = x10 = 20 Euro.
Possiamo ora calcolare gli importi parziali (in Euro) accumulati Ai definiti
in (1)
A1 = 1 A2 = 2 A3 = 4 A4 = 6 A5 = 10
A6 = 25 A7 = 40 A8 = 60 A9 = 80.
Poiché n = 10 ed A = 100 Euro, grazie a (4) possiamo scrivere
9
2 X
2
R=1−
= 0.4933 .
Ai = 1 − 228
900
900
i=1
Esiste un modo grafico di rappresentare le concentrazioni nella ripartizione di A dovuto all’economista americano Max O. Lorenz (1880-1962). Su
assi cartesiani vengono riportate le coppie (Fi , Qi ) e si uniscono i punti ottenuti con segmenti di retta ottenendo delle spezzate di concentrazione. Nel
caso di equidistribuzione sappiamo che è sempre Fi = Qi per cui le coppie
(Fi , Qi ) sono allineate sulla bisettrice del primo quadrante nel piano (Fi , Qi ).
Al contrario, per la concentrazione deve essere Q1 = Q2 = .... = Qn−1 = 0
e Qn = Fn = 1: la spezzata di concentrazione unisce n − 1 punti del tipo
(Fi , 0) disposti sull’asse delle ascisse ed il punto terminale (1, 1) da cui ogni
spezzata di concentrazione deve passare. Nella figura 1 sono rappresentate
le spezzate di concentrazione per le distribuzioni estreme appena illustrate.
Come esempio, possiamo tracciare la curva di Lorenz per la distribuzione considerata nell’Esercizio 1. I punti (Fi , Qi ) da unire con segmenti di
retta per formare la curva di Lorenz hanno coordinate
1
2
2
3
4
4
6
5 10
1
10 , 100
10 , 100
10 , 100
10 , 100
10 , 100
6 25
7 40
8 60
9 80
(1, 1) .
10 , 100
10 , 100
10 , 100
10 , 100
e la spezzata è rappresentata nella figura 2.
Esercizio 2 Le quote di mercato (in milioni di Euro) relative alla produzione
di una certa classe di farmaci sono ripartite tra sei ditte farmaceutiche nel
modo seguente:
Ditta A
Ditta D
10 Ditta B
40 Ditta E
18 Ditta C
47 Ditta F
32
63 .
Calcolare il rapporto di concentrazione di Gini e tracciare la corrispondente
curva di Lorenz.
4
Qi
1
5
n
2
n
1
n
Fi
1
n
2
n
n−1
n
1
Figura 1: Curve di Lorenz per l’equidistribuzione (bisettrice del quadrante)
e la concentrazione.
Qi
Fi
Figura 2: La curva di Lorenz relativa all’Esercizio 1 unisce i punti evidenziati, le cui coordinate sono state trovate in precedenza. Per confronto
abbiamo ancora tracciato le curve di Lorenz relative all’equidistribuzione
ed alla concentrazione.
5