Slide lezione 6

Transcript

Slide lezione 6
Slide Cerbara parte 1
Le medie
Le medie
Non una ma tante: le medie sono di tanti tipi e rappresentano un valore, una modalità
caratteristica e che possa sintetizzare una intera distribuzione.
1. La media può essere il valore del carattere che dovrebbe essere osservato in ogni
unità del collettivo affinché rimanga invariato il risultato complessivo
dell’osservazione sull’intero collettivo
2. La media deve essere il valore che è il più vicino a tutti i dati della distribuzione,
od anche la media deve essere tale da rendere minima l’informazione che si
perde quando si sostituisce l’intera distribuzione con la sua media
3. La media è un qualunque valore che è non inferiore al valore più pic- colo della
distribuzione e non superiore al valore massimo, ossia è un va- lore non esterno
all’intervallo individuato dai valori estremi che assume il carattere
Le medie - La moda
La moda di una distribuzione secondo un carattere qualsiasi è la modalità che
presenta la massima frequenza assoluta. A tale media si dà anche il nome di
norma
In una distribuzione di frequenze vi può essere più di una moda, se vi sono più
modalità che presentano il massimo delle frequenze
Se la distribuzione ha una sola moda diciamo che è unimodale; se ha due mode
diciamo che è bimodale; se ha tre mode è trimodale; ecc. Se le frequenze della
distribuzione fossero tutte uguali tra loro potremmo affermare che o la
distribuzione non ha la moda o che ogni modalità è la moda
La moda può essere determinata facilmente anche per mezzo della rappresen- tazione
grafica della distribuzione
Le medie - La moda
Classe di reddito
N. di contribuenti
Esempio. Consideriamo la distribuzione dei contribuenti
con reddito da fabbricati inferiore a 1.000 euro per
(€)
(in migliaia)
classe di reddito
Può sembrare che la moda sia l’ultima classe della
0 |-| 100
1000
tabella, ma quella classe ha un’ampiezza diversa dalle
100 -| 500
3600
altre.
500 -| 1000
4000
Poiché la prima classe ha ampiezza 100 e le due
Totale
8600
successive sono 4 volte e 5 volte la prima, scomponiamo
la seconda classe in 4 sottoclassi e la terza in 5
sottoclassi uguali aventi ognuna ampiezza 100. Ciò comporta che la prima classe ha frequenza 1000, la seconda
è composta da da 4 sottoclassi ognuna di frequenza 3.600 : 4 = 900, mentre per l’ultima classe la frequenza di
ogni sottoclasse è 4.000 : 5 = 800. Così operando abbiamo sostituito alla distribuzione iniziale, che aveva come
modalità 3 classi di diversa ampiezza, una distribuzione che ha 10 (1+4+5) modalità costituite tutte da classi di
uguale ampiezza (€ 100).
La classe modale è perciò la prima perché essa, che è ampia € 100, ha frequenza 1.000
Questa soluzione si può avere solo se facciamo l’ipotesi di uniforme distribuzione del reddito nelle classi.
Le medie - La moda
Se rappresentiamo graficamente
la distribuzione precedente,
immediatamente possiamo percepire
la classe modale.
Essa è quella a cui corrisponde la
massima densità di frequenza, cioè
l’ordinata, che è calcolata come rapporto
tra l’ammontare della classe e l’ampiezza
della classe stessa.
Le medie - Mediana e quantili
Se il carattere, che determina la distribuzione, è qualitativo ordinato rettilineo o
quantitativo, oltre alla moda, la possibilità di ordinamento delle modalità del
carattere consente di effettuare altre sintesi della distribuzione, che sono chiamate
quantili, dei quali, come vedremo, il principale è la mediana.
Innanzi tutto dobbiamo ordinare le modalità del carattere. Possiamo ordinarle in
modo crescente o decrescente, oppure, se ci sono frequenze uguali, non crescente
o non decrescente.
Otteniamo una distribuzione ordinata.
Esempio. Abbiamo rilevato su 9 persone il loro titolo di studio: I = «nessun titolo o licenza
elementare», II = «licenza di scuola media inferiore», III = «diploma di scuola media superiore», IV
= «lauree, diploma universitario o di corsi post laurea». Abbiamo ottenuto la distribuzione
unitaria
I, IV, I, III, II, IV, III, IV, III
I, I, II, III, III, III, IV, IV, IV in ordine non decrescente
IV, IV, IV, III, III, III, II, I, I in ordine non crescente
Le medie - Mediana e quantili
Se vogliamo individuare la mediana, dobbiamo distinguere tra n (numero di unità della
distribuzione) pari e dispari.
Se n è dispari, la mediana della distribuzione è la modalità relativa al dato statistico
che occupa il posto centrale della corrispondente distribuzione ordinata
Se n è pari non esiste nella distribuzione ordinata un posto centrale ma ne esistono
due: se essi sono occupati da dati relativi alla stessa modalità, questa è la mediana;
se le modalità sono diverse abbiamo due modalità mediane
Esempio. Nella distribuzione dell’esempio precedente la modalità centrale era III, che è la
mediana
I, I, II, III, III, III, IV, IV, IV in ordine non decrescente
IV, IV, IV, III, III, III, II, I, I in ordine non crescente
Le medie - Mediana e quantili
Esempio. Consideriamo la distribuzione unitaria di 8 dati relativi all’età (in anni):
20, 21, 17, 20, 22, 18, 22, 20
Ordiniamo in ordine non decrescente, otteniamo la distribuzione ordinata
17, 18, 20, 20, 20, 21, 22, 22 della quale i due posti centrali sono il 4o e il 5o a cui corrisponde per
entrambi la modalità 20 anni, che è quindi la «mediana».
Se n è pari e se abbiamo due modalità mediane diverse e se il carattere quantitativo continuo
assumiamo come mediana della distribuzione la semisomma delle due modalità mediane. Se
il carattere è invece quantitativo discreto, vanno considerate due modalità mediane distinte.
Esempio. Per la distribuzione, sempre di 8 dati, che è già ordinata
17, 18, 19, 20, 21, 21, 22, 22
ai due posti centrali, il 4o e il 5o, corrispondono le modalità mediane 20 e 21. Se il carattere è
quantitativo continuo, assumiamo come mediana la semisomma di 20 e 21, ossia 20,5.
Le medie - Mediana e quantili
In sintesi:
Se n è dispari, la mediana è la modalità presente nel posto
(n+1)/2-esimo (posto centrale);
se n è pari, i due posti centrali sono l’ n/2-esimo e l’n/2+1-esimo.
a) se ad entrambi questi posti corrisponde la stessa modalità, questa è la «mediana»;
b) se ad essi corrispondono due diverse modalità, queste sono le «modalità mediane»
e se il carattere rispetto a cui è fatta la distribuzione è quantitativo continuo, si
chiama «mediana» la semisomma delle due modalità mediane
La distribuzione ordinata viene così divisa in due parti uguali ognuna delle quali
contiene il 50% delle unità. Possiamo dire che la mediana bipartisce la distribuzione ordinata
Le medie - Mediana e quantili
Quando n è grande per determinare la mediana conviene utilizzare le frequenze
percentuali (o relative) cumulate. Ci basta cercare quale è la modalità (o la coppia
di modalità) che divide la distribuzione in due distribuzioni che hanno ciascuna una
numerosità pari al 50% della numerosità totale
Esempio. Consideriamo la distribuzione
degli occupati del 2003 per titolo di
studio. La tabella contiene anche le
frequenze cumulate. La modalità
«diploma di scuola media superiore»
arrivia all’87% degli occupati, quindi
ha questo titolo di studio l’occupato
per il quale il 50% degli occupati ha
un titolo non superiore al suo mentre l’altro 50% ha un titolo non inferiore al suo. Quindi la
mediana è il titolo di studio «diploma di scuola media superiore».
Le medie - Mediana e quantili
Esempio. Consideriamo la distribuzione di frequenze
cumulate percentuali delle famiglie di residenti per
numero di componenti (dati 2001, Fonte Istat)
Poiché il 25% delle famiglie era costituito, al
censimento del 2001, da famiglie con 1 componente,
mentre il 52% era costituito da famiglie con 1 o 2
componenti, la famiglia che è preceduta dal 50%
delle famiglie è composta necessariamente da
2 componenti che è quindi la mediana della distribuzione.
È opportuno esaminare ora il caso delle distribuzioni che hanno delle classi come
modalità e per le quali la classe che contiene la mediana è chiamata classe mediana.
Le medie - Mediana e quantili
Esempio. Consideriamo la distribuzione per classi rappresentata
in tabella con n=10 pari. La mediana è quel valore che lascia alla
sua sinistra 5 unità e alla sua destra 5 unità. Quindi la classe
mediana è la classe 10-|15 che contiene la quinta e la sesta unità
della distribuzione ordinata di frequenze.
La mediana di una distribuzione secondo un carattere quantitativo soddisfa ad una
proprietà importante. Chiamiamo xi – a scarto o scostamento di xi da x, dove xi è un
termine di una distribuzione e x un valore qualunque della distribuzione o interno ad
essa. Se noi sommiamo i valori assoluti degli scarti dei dati della distribuzione da un
valore x qualsiasi, tale somma assume il suo minimo quando x è la mediana
𝑛
𝑘
𝑖=1 𝑥𝑖 − 𝑥 oppure
𝑖=1 𝑥𝑖 − 𝑥 𝑛𝑖
è minima se x è la mediana della distribuzione
Le medie - Mediana e quantili
Esempio. Consideriamo la distribuzione in tabella. Essa ha 35 unità
e dunque la mediana si trova al posto (35+1)/2=18. Quindi la
modalità mediana è 8 perché contiene l’unità 18-ma. Calcolo allora
la somma degli scarti in valore assoluto da alcuni valori mostrati
nella seconda parte della tabella
Ad esempio, il primo valore è calcolato come (4-0)x3 + (5-0)x5 + …
+ (8-0)x10 + (10-0)x8 + (12-0)x7 + (16-0)x2 = 313
Come si può constatare, la somma minore è quella corrispondente
a x=8 che è 87. Quindi abbiamo mostrato che la somma degli
scarti in valore assoluto dalla mediana è minima.
Se il carattere quantitativo è anche continuo,
la mediana è uno dei valori che rende minima
la somma dei valori assoluti degli scarti.
Le medie - Mediana e quantili
Abbiamo visto che la mediana suddivide la distribuzione ordinata in due distribuzioni
che, anche in base ad un’opportuna convenzione, hanno ciascuna una numerosità
pari al 50% della numerosità totale.
Se suddividiamo la distribuzione ordinata in q distribuzioni parziali, aventi ognuna la qesima parte della numerosità totale, la modalità che fa da cardine fra due
distribuzioni parziali successive è detta quantile: primo quantile se segna il limite
fra la prima e la seconda distribuzione parziale, secondo quantile se separa la
seconda dalla terza, ecc. In particolare per q = 2 si ha la mediana, per q = 3
abbiamo 2 terzili, per q = 4 si hanno 3 quartili, per q = 5 si hanno 4 quintili, per q =
6 abbiamo 5 sestili, per q = 10 vi sono 9 decili, per q = 100 si hanno 99 centili.
Le medie - Mediana e quantili
I quartili dividono la distribuzione ordinata in 4 parti aventi ognuna il 25% della
numerosità totale. Il primo quartile è perciò l’elemento che separa la distribuzione
che ha il primo 25% della numerosità totale, dalla distribuzione costituita dal
successivo 75% del totale. Il secondo quartile coincide con la mediana, dato che
separa le due distribuzioni parziali che hanno ciascuna il 50% della numerosità
totale. Il terzo quartile è l’ele- mento che separa la distribuzione che ha il primo
75% della numerosità totale, dalla distribuzione costituita dal successivo 25% del
totale
Le medie - Mediana e quantili
Esempio. Determiniamo i quartili della distribuzione, secondo un carattere quantitativo continuo,
costituita dagli 8 numeri già ordinati
1, 1, 2, 2, 2, 4, 6, 6
Possiamo suddividere la distribuzione in 4 distribuzioni parziali dello stesso numero (2) di unità:
1;1. 2;2. 2;4. 6;6.
Il primo quartile è perciò (1+2)/2=1,5 il secondo quartile è 2; il terzo quartile è (4+6)/2=5.
Anche per la determinazione dei quartili, quando n è grande, e quindi si ha
generalmente a che fare con una distribuzione di frequenze, conviene utilizzare le
frequenze percentuali (o relative) cumulate
Le medie - Mediana e quantili
Esempio. Determiniamo le classi d’età a cui appartengono la
mediana e i quartili della distribuzione – rappresentata dalle
prime due colonne della tabella dei morti in Italia nell’anno
2001 classificati a seconda dell’età alla morte. Per determinare
queste classi di età abbiamo calcolato le frequenze assolute
cumulate e quelle percentuali cumulate. Dalle frequenze
percentuali cumulate ricaviamo che la mediana, che è anche il
secondo quartile, è nella classe 75|-80 anni perché coloro che
muoiono in età inferiore ai 75 anni costituiscono il 35,5%
mentre coloro che muoiono in età inferiore agli 80 anni
costituiscono il 51,7% e quindi l’individuo che è preceduto e
seguito dal 50% delle unità deve aver avuto un’età alla morte
non inferiore a 75 anni e inferiore agli 80 anni. Con analogo
ragionamento ricaviamo che il primo quartile è nella classe
70|-75 anni, il terzo quartile è nella classe 85|-90 anni;
Le medie - Le medie analitiche
Valgono unicamente per le distribuzioni secondo un carattere quantitativo
Una media analitica è espressa da una opportuna funzione matematica di tutti o di
alcuni dei numeri della distribuzione o da altri numeri che da essi possono
ottenersi con semplici operazioni matematiche (frequenze relative, frequenze
percentuali, ecc.).
La moda, la mediana, i quantili, non sono esprimibili utilizzando l’analisi matematica
quindi possono essere chiamate medie non analitiche.
La media analitica più usata è la media aritmetica. Altre medie analitiche uti- lizzate
frequentemente sono: la media geometrica, la media armonica, la media
quadratica e il valore centrale. Tutte queste medie si possono considerare un caso
particolare della media di potenze.
Le medie - La media aritmetica
La media aritmetica dei numeri x1, x2, …, xn è la somma x1 + x2 + … + xn divisa per n
ossia
La media aritmetica è espressa nella stessa unità di misura con cui sono espressi i dati
Esempio. Si è rilevata l’età, in anni compiuti, di 10 studenti universitari, presenti ad una
conferenza, ottenendo la seguente distribuzione per unità
21, 24, 24, 20, 20, 19, 21, 21, 24, 26
L’età media aritmetica dei 10 studenti è data dalla somma di tutte le età rilevate diviso 10, cioè
22 anni. Per arrivare più rapidamente al risultato possiamo applicare la proprietà associativa
dell’addizione e calcolare la media nel modo seguente 19+(20+20)+(21+21+21)+(24+24+24)+26
ovviamente :10
e cioè (19x1+ 20x2 + 21x3 + 24x3 +26x1)/10=22
Quindi la media può essere calcolata agevolmente anche con una distribuzione di frequenze
Le medie - La media aritmetica
In generale per ottenere la media aritmetica di una distribuzione di frequenze
assolute dobbiamo procedere nel modo seguente:
• calcolare i prodotti delle modalità per le frequenze assolute;
• sommare questi prodotti;
• dividere la somma ottenuta per il numero n delle unità.
cioè
Da queste formule si può ricavare un’altre definizione della media aritimetica
La media aritmetica è il valore del carattere che, sostituito ai dati individuali, ne lascia
inalterata la somma.
Le medie - La media aritmetica
La media aritmetica si può calcolare anche nel caso di caratteri le cui modalità sono
classi. In questo caso bisogna fare l’ipotesi che tutte le unità di ogni classe
presentino lo stesso valore, che chiamiamo valore rappresentativo della classe. In
pratica consideriamo la distribuzione come se il carattere fosse discreto e avesse
per modalità i valori rappresentativi delle classi.
La media che risulta dall’uso dei valori rappresentativi è generalmente diversa da
quella che otterremmo nel caso di utilizzazione di tutte le informazioni.
Esempio. Calcoliamo l’ampiezza demografica media dei
comuni della Valle d’Aosta, escluso il capoluogo,
al 31/12/2003. Il numero medio di abitanti per comune
era 87.813/73 = 1.202,9
La tabella mostra i calcoli di questa media usando il
valore rappresentativo delle classi. Il risultato in questo
caso è 87.373/73 = 1.196,9 leggermente diverso.
Le medie - La media aritmetica
Nell’esempio precedente il valore rappresentativo della prima classe è stato posto
pari a 300 in maniera arbitraria. Questo perché, mentre è noto l’estremo superiore
della classe, non si può dire nulla di quello inferiore e quindi, non è possibile calcolare
con esattezza il valore rappresentativo della classe. Si fanno allora delle ipotesi che
aiutano a decidere quale valore rappresentativo utilizzare. In verità, dal momento che
i dati sui singoli comuni sono noti, sappiamo che tale valore era 284, quindi il valore
di 300 era abbastanza vicino a quello reale.
Esempio. Abbiamo visto che, se ad una persona assegniamo una statura di 174 cm, ciò significa
che la misura è un qualunque valore dell’intervallo che ha per estremi i valori 173,5 cm e 174,5
cm. In base a questa osservazione abbiamo stabilito che la classe chiusa a sinistra 170 172
centimetri equivale all’intervallo 169,5 – 171,5 centimetri. Da ciò, assumendo come valori
rappresentativi delle classi la semisomma degli estremi degli intervalli, abbiamo che per la classe
170|-172 centimetri il valore rappresentativo è 170,5 cm, mentre per la classe 170|-|172 tale
valore è 171
Le medie - La media aritmetica
Proprietà della media aritmetica
1 - La somma di tutti gli scarti dei dati di una distribuzione dalla media aritmetica
della distribuzione è nulla; cioè
e nel caso di distribuzioni di frequenze
La somma dei quadrati degli scarti dalla media è minima.
Esempio. Per la distribuzione di 10 studenti già vista, calcoliamo
gli scarti di ciascun valore dalla media che è pari a 22. La colonna
degli scarti ha in effetti somma 0 (-3-2-1+2+4=0)
Calcoliamo anche i quadrati di questi scarti e li moltiplichiamo per
le frequenze assolute. Otteniamo 48 che è il valore minimo che
possiamo ottenere. Infatti sostituendo alla media un altro
qualunque valore questa somma è sempre maggiore di 48
Le medie - La media aritmetica
Media aritmetica ponderata
Se indichiamo con x1, x2, …, xk , i valori di una distribuzione e con p1, p2, …, pk i
rispettivi pesi, la media aritmetica dei valori xi, ponderata con i pesi pi, è data da
Esempio. Un candidato esegue i 3 test attitudinali. Per essi gli sono concessi rispettivamente al
massimo 10, 5, 15 minuti. I punteggi ottenuti sono rispettivamente 78, 87 e 75 la cui media
aritmetica è 80. Però chi ha preparato i 3 test dà ad essi importanza diversa che dipende dal
tempo massimo concesso per eseguirlo. Come punteggio medio si assume allora
(78x10 + 87x5 + 75x15)/10 + 5 + 15 = 2340/30 = 78 che è minore di due punti della media
ottenuta dando ai 3 punteggi la stessa importanza.
Le medie - Altre medie analitiche
Media geometrica : è il valore che sostituito ai dati individuali ne lascia inalterato il
prodotto
Media armonica: La media armonica è il valore che, sostituito ai dati individuali, lascia
inalterata la somma dei loro inversi
Media quadratica: è il valore che, sostituito
ai dati individuali, lascia inalterata la somma
dei loro quadrati
Le medie - Media di potenze
Esiste un modo per scrivere tutte le medie che abbiamo visto e anche molte altre
Scriviamo in un altro modo, ma equivalente, le medie appena viste
Media armonica
Media aritmetica
Media quadratica
Media di potenze