Capitolo 04

Transcript

Capitolo 04
QUARTA UNITA’
Misure della dispersione o della variabilità
Abbiamo visto che un punteggio di per sé non ha alcun significato e lo acquista solo quando è
posto a confronto con altri punteggi o con una statistica. Così se conosciamo la media della
distribuzione di una data variabile, possiamo determinare se un dato punteggio è inferiore o
superiore alla media stessa. Ma quanto superiore o quanto inferiore? E chiaro a questo punto
che una misura della tendenza centrale, quale può essere la media, fornisce informazioni che
acquistano maggior peso se completate da un quadro più complessivo. Per descrivere più
completamente una data distribuzione, o per interpretare più compiutamente un dato
punteggio, è necessario disporre di informazioni ulteriori riguardanti la dispersione dei
punteggi intorno alla media. La dispersione o variabilità di una distribuzione di dati o
punteggi è la sua seconda caratteristica fondamentale, dopo la media.
a)
b)
Fig 4.1 - Due distribuzioni di frequenza con uguale media ma diversa dispersione o variabilità.
Considerando la parte (a) e la parte (b) della figura, osserviamo che in ambedue i casi la
media delle distribuzioni è la stessa. Tuttavia, possiamo dare al punteggio 128 due diverse
interpretazioni. Nella curva (a) il punteggio 128 può essere considerato moderatamente
elevato, proprio e causa dell’alta dispersione dei punteggi intorno alla media. Sono pochi
infatti gli individui al di sopra di 128 nella distribuzione di frequenza, come è possibile
osservare mediante il confronto dell’area a destra di 128 con l’area totale. Nel caso (b),
d’altra parte i punteggi sono piuttosto ravvicinati allo stesso punteggio medio. e ci troviamo
di fronte ad una distribuzione più omogenea. Di conseguenza il punteggio 128 si trova
praticamente al limite superiore della distribuzione e può essere considerato pertanto come un
punteggio assai elevato. Si può vedere dunque che per interpretare un dato punteggio è
necessario trovare un’informazione complementare alla media o alla mediana. Questa
informazione complementare in certo qual modo esprime il grado di dispersione dei punteggi
intorno alla misura della tendenza centrale. Verranno qui presentate cinque misure di
dispersione o di variabilità: il campo di variazione, la differenza interquartile, la deviazione
media, la varianza e lo scarto quadratico medio (detto più comunemente deviazione
standard).
40
Tra le cinque misure elencate troveremo che lo scarto quadratico medio costituisce il migliore
indice della dispersione sia nella statistica descrittiva, sia nella statistica induttiva o
inferenziale. Tuttavia, nella statistica più avanzata, come nell’analisi della varianza, la
varianza si mostrerà l’indice di dispersione o di variabilità più utile.
Il campo di variazione o gamma (range)
Nel calcolare i diversi tipi di misure della tendenza centrale abbiamo individuato un certo
punto della scala dei punteggi e lo abbiamo identificato come media aritmetica, mediana
oppure moda. Passando a considerare gli indici di dispersione tuttavia siamo interessati e
costruire un indice di variabilità che indichi la distanza nella scala del punteggi.
Una delle prime misure di distanza che ci possono venire in mente è il cosiddetto campo di
variazione o gamma della variabile. Esso è in ogni caso il più semplice e il più immediato
indice di variabilità e si calcola sottraendo dal punteggio più alto il punteggio più piccolo.
Sebbene il campo di variazione sia significativo per scopi descrittivi, esso si presenta di poca
utilità a causa della sua alta instabilità. Infatti, se si ha un punteggio molto elevato in una
distribuzione, la dispersione dei punteggi apparirà maggiore di quella che si otterrebbe se si
eliminasse questo ultimo punteggio, in quanto la sua eliminazione rende la distribuzione più
compatta. In altri termini il campo di variazione dipende solamente dai due punteggi estremi
di una distribuzione. Per questo in alcuni metodi di calcolo si tende a eliminare i punteggi
estremi.
La differenza interquartile (interquartile range)
Al fine di superare il problema della poca utilità del campo di variazione come misura di
variabilità in una distribuzione è stata introdotta la differenza interquartile o scarto
interquartile. A essa abbiamo già accennato parlando di posizione percentile. La differenza
interquartile viene calcolata semplicemente sottraendo il punteggio corrispondente alla
posizione del venticinquesimo percentile (denominato primo quartile o Q1) dal punteggio
corrispondente alla posizione del settantacinquesimo percentile (il terzo quartile o Q3).
Fig 4.2 - Differenza interquartile = 3° interquartile – 1° interquartile = Q3 - Q1.
Sebbene questa misura di variabilità sia molto più significativa del campo di variazione,
presenta tuttavia due difetti sostanziali: 1) alla stessa maniera del campo di variazione, non
consente di per sé una precisa interpretazione di un punteggio in una data distribuzione, 2)
come la mediana, non gioca alcun ruolo nella metodologia statistica avanzata, così come
nella statistica inferenziale. Abbiamo anche accennato a quali siano i contesti nei quali essa
acquista significato.
41
Gli scarti medi (o dalla media)
Abbiamo sottolineato precedentemente che quando si ha e che fare con dati provenienti da
popolazioni
approssimativamente
distribuite
normalmente
(quindi
distribuite
approssimativamente in modo simmetrico), la media aritmetica si presenta come l’indice
descrittivo della tendenza centrale più utile. Si ottiene la media aritmetica semplicemente
sommando tutti i punteggi e quindi dividendoli per N. Se si porta avanti questa procedura,
possiamo sottrarre la media così ottenuta da ogni punteggio, sommare gli scarti, che così si
ottengono, per ottenere infine una stima dell’ammontare della variabilità dalla media nella
distribuzione. Dividendo per N il risultato del precedente calcolo, otteniamo una misura che
ha le stesse caratteristiche della media aritmetica ad eccezione del fatto che essa rappresenta
la dispersione dei punteggi dalla media aritmetica stessa. E’ quello che si definisce scarto
medio1, la somma degli scarti (o scostamenti) dalla media divisa per N. Tuttavia, si va
incontro a una difficoltà precisa: la somma degli scarti di tutti i punteggi dalla media è
sempre uguale a zero. Proprio per come è stata definita la media aritmetica. Quindi anche lo
scarto medio è sempre uguale a zero.
Per superare questa difficoltà si potrebbero considerare tutti gli scarti nel loro valore assoluto,
cioè senza tener conto del loro segno, e dividere la somma che si ottiene per N. Otteniamo
una misura descrittiva dello scarto medio dalla media aritmetica. La statistica che si ottiene è
in questo caso basata sui valori assoluti degli scarti stessi. Tuttavia questo elemento di
confronto della dispersione di una distribuzione si presenta poco utilizzato nella pratica
statistica. Più significativo e largamente valorizzati sono invece due misure dalla variabilità
che prendono il nome di varianza e di scarto quadratico medio. La prima si ottiene
elevando al quadrato i singoli scarti (o scostamenti) dalla media, sommandoli tra di loro e
dividendo il risultato per il numero totale dei punteggi N. La seconda, estraendo la radice
quadrata del precedente risultato.
La varianza (variance) e lo scarto quadratico medio (standard deviation)
La varianza2 viene definita, informalmente, come la somma degli scarti, al quadrato, dalla
media aritmetica divisa per N. Simbolicamente si scrive:
Lo scarto quadratico medio, detto anche deviazione standard, è dato dalla radice quadrata
della varianza.
1
Lo scarto medio è anche definito come primo momento rispetto alla media, in quanto la parola “momento” in
fisica indica il punto di equilibrio tra le diverse forze in gioco. La media è sempre il punto di equilibrio tra i
punteggi più alti e più bassi.
2
La varianza viene anche definita come secondo momento rispetto alla media, in quanto anch’essa esprime il
punto di equilibrio tra le variazioni dalla media.
42
Lo scarto quadratico medio, basato sui quadrati degli scarti, dimostra di possedere un’enorme
utilità nella statistica, per tre motivi fondamentali.
1) Lo scarto quadratico medio riflette la dispersione dei punteggi così che la variabilità di
diverse distribuzioni può essere messa a confronto in termini di scarto quadratico medio.
2) Lo scarto quadratico medio consente un’interpretazione precisa dei punteggi entro la
distribuzione.
3) Lo scarto quadratico medio, come la media aritmetica, fa parte di un insieme di teorie
matematiche che ci consentono di usarlo in metodologie statistiche più complesse. Così, a
esempio, useremo misure o indici complessi basati su di esso allorché ci addentreremo nella
statistica inferenziale.
La considerazione dello scarto medio è stata fatta sostanzialmente per facilitare il calcolo
dello scarto quadratico medio, come si può vedere nella tabella 4.1.
Tab. 4.1 - Procedure per il calcolo dello scarto quadratico medio basata sulla considerazione dello
scarto medio.
Data l’importanza dello scarto quadratico medio nell’analisi statistica dei dati, sono state
elaborate formule equivalenti rispetto a quella precedente e procedure appropriate per i vari
casi: dati raggruppati e dati non raggruppati in classi, ecc. Intanto è possibile dimostrare
matematicamente l’equivalenza tra la formula precedente e la seguente.
La procedura per calcolare lo scarto quadratico medio seguendo quest’ultima formula è
quella della tabella 4.2.
Nel calcolo dello scarto quadratico medio, basato sui dati iniziali x, è corrente per lo studente
la confusione tra Σ X2 e (Σ X)2. È importante ricordare che la prima rappresenta la somma dei
quadrati di ciascun punteggio, mentre la seconda rappresenta il quadrato della somma dei
punteggi. Per definizione, è impossibile ottenere una somma di quadrati o uno scarto
43
quadratico medio negativo. Nel caso si ottenga un valore negativo sotto il segno di radice,
probabilmente è stato commesso un errore, confondendo le due espressioni. A occhio e croce,
lo scarto quadratico medio oscilla tra un mezzo ed un sesto del campo di variazione.
Nell’esempio precedente, il rapporto tra campo di variazione e scarto quadratico medio è
9/2,19 = 4,11. Se si ottiene un rapporto al di fuori dei limiti già accennati, si è probabilmente
commesso un errore.
Tab. 4.2 - Procedura per il calcolo di s per punteggi non raggruppati.
Se consideriamo le frequenze f di ciascun dato, occorre utilizzare le formule seguenti. La
prima deriva direttamente dalla definizione di scarto quadratico medio; la seconda adatta la
formula equivalente a questo caso, moltiplica per f ciascun valore della variabile al quadrato.
Il procedimento da usare è quello della tabella 4.3.
Tab. 4.3 - Procedura per il calcolo di s su dati di cui si considera la frequenza f.
Se ora consideriamo una distribuzione di dati raggruppata in classi o intervalli, occorre
procedere nel modo illustrato dalla tabella 4.4.
44
Tab.4.4 - Procedura per il calcolo della varianza e dello scarto quadratico medio per una
distribuzione di punteggi raggruppati in classi o intervalli.
L’uso dello scarto quadratico medio o deviazione standard acquista un significato più
interessante e pieno quando si consideri il rapporto tra scarto quadratico medio e
distribuzione normale: per questo nell’unità seguente indagheremo sulla relazione
intercorrente tra punteggi originali, scarti quadratici medi e curva normale.
Interpretazione della deviazione standard o scarto quadratico medio
Fig. 4.3 - Distribuzione dei punteggi ottenuti da tre gruppi o sezioni di studenti in un corso
introduttivo di psicologia.
45
Osservando la Fig. 4.3 è facile constatare il significato congiunto della media e della
deviazione standard come misure che descrivo bene la distribuzione dei punteggi. Nella
distribuzione rappresentata dalla figura (a) si nota facilmente come i punteggi siano raccolti
vicino alla media. La deviazione standard in questo caso è abbastanza piccola. . Nella
distribuzione rappresentata dalla figura (b) si nota facilmente come i punteggi siano meno
raccolti vicino alla media. La deviazione standard in questo caso è maggiore della
precedente. Nella distribuzione rappresentata dalla figura (c) si nota facilmente come i
punteggi siano assai distanziati rispetto alla media. La deviazione standard in questo caso è
elevata. Maggiore è la deviazione standard e più grande è la dispersione dei dati. Inoltre si
può subito segnalare, ma la cos verrà chiarita nella prossima unità, che l’insieme dei punteggi
compresi tra il valore che ottiene sottraendo alla media il valore della deviazione standard e
aggiungendo a essa lo stesso valore comprende sempre circa il 68% dei punteggi.
In statistica si distingue con cura la descrizione della distribuzione di una popolazione dalla
descrizione di un suo campione. L’uso dei simboli facilita la comprensione di quale dei due
casi è preso in considerazione. Nel primo caso si usano le lettere greche per indicare ma
media, µ, e per indicare lo scarto quadratico medio, σ. Nel secondo caso si usano le lettere
latine. In questa unità abbiamo usato le lettere latine per segnalare un uso generico delle
formule.
La forma di una distribuzione: asimmetria (skew) e curtosi (kurtosis).
Abbiamo già introdotto il concetto di asimmetria e di asimmetria positiva e negativa. Quando
la media è maggiore della mediana (la differenza tra le media e la mediana è positiva) la
distribuzione è asimmetrica positivamente. Quando la mediana è maggiore della media ( le
differenza tra la media e la mediana è negativa) la distribuzione è asimmetrica negativamente.
Esiste una formulA (un po’ complessa) per valutare l’intensità di tali asimmetria. Essa è data
dal valore si s3. E’ facile tuttavia ottenere il valore dell’asimmetria (skew) mediante un
programma di calcolo statistico per computer (es. Excel). Esiste una formula che approssima
il suo valore proposta da E.S.Pearson. Essa è cioè una stima del valore dell’asimmetria.
3 (media – mediana)
s3 ≈ ------------------------deviazione standard
La curtosi è invece un indicatore di quanti i punteggi si addensano verso la media, oppure si
addensano verso gli estremi della distribuzione. Essa è data dal valore si s4. E’ facile tuttavia
ottenere il valore della curtosi (kurtosis)3 mediante un programma di calcolo statistico per
computer (es. Excel). Esiste anche in questo caso una formula che approssima il suo valore.
Essa è cioè una stima del valore della curtosi.
Q3 – Q1
s4 ≈ 3 + ---------------------------------------(90° percentile) – (10° percentile)
Se ricordiamo che una curva è detta leptocurtica, platicurtica o mesocurtica a seconda che
3
Essa è nota anche come il quarto momento rispetto alla media.
46
essa sia a forma campanulate con addensamento di punteggi al centra, oppure essa si presenti
appiattita al centro, ovvero sia distribuita abbastanza normalmente, possiamo concludere che
una curva mesocurtica ha una curtosi approssimativamente di valore 3, mentre una
leptocurtica ha un valore superiore va 3 e una platicurtica ha un valore inferiore a 3.
Tab. 4.5 - Quattro distribuzioni, ciascuna con un differente s2, s3, s4.
Sintesi
Abbiamo visto che al fine di dare una descrizione di una distribuzione è necessario disporre
di qualche cosa in più della semplice misura della tendenza centrale. Dobbiamo cioè essere in
grado di dare una misura della dispersione dei punteggi intorno ai valori medi. In questo
ambito, abbiamo trattato cinque misure di dispersione, cioè il campo di variazione, le
differenze interquartili, lo scarto medio, lo scarto quadratico medio e la varianza.
Nel caso di variabili distribuite normalmente le due misure basate sul quadrato degli scarti
dalla media (cioè le varianza e lo scarto quadratico medio) si mostrano particolarmente utili
nelle statistica. Abbiamo discusso altresì e mostrato concretamente come calcolare lo scarto
quadratico medio facendo uso dello scarto medio, nonché direttamente, operando cioè sui dati
originali nel caso di distribuzioni di frequenza di punteggi non raggruppati in classi. Abbiamo
infine posto in evidenza i tipi più comuni di errore che si possono incontrare nel calcolo dello
scarto quadratico medio.
47
Termini da ricordare
Valore assoluto di un numero - Il numero senza tener conto del suo segno.
Dispersione (dispersion - spread) - La variabilità dei punteggi intorno alla rispettiva misura
della tendenza centrale.
Scarto medio - Somma degli scarti di ciascun punteggio dalla media, senza tener conto del
segno, diviso per il numero di punteggi.
Campo dl variazione (gamma – range) - Misura della dispersione; la distanza intercorrente
tra il punteggio più piccolo ed il punteggio più grande della scala dei punteggi.
Scarto quadratico medio (deviazione standard – standard deviation) - Misura della
dispersione estremamente utile definita come la radice quadrata della somma degli scarti
quadratici dalla media aritmetica, divisa per N.
Varianza (variance)- Somma degli scarti quadratici medi dalla media divisa per N.
Asimmetria (skewness) Forma che assume la distribuzione quanto a simmetria rispetto alla
media.
Curtosi (kurtosis) Modalità di addensamento dei punteggi vicino alla media o distante da
essa.
48
Esercizi
1. Calcola per i seguenti punteggi
3 4 5 5 6 7
a)
b)
c)
d)
e)
la media
la mediana
la moda
la varianza s2
la deviazione standard s
2. Aggiungi 2 a ciascun valore e ricalcola
a.
b.
c.
d.
e.
la media
la mediana
la moda
la varianza s2
la deviazione standard s
3. Ora calcola gli stessi valori del punto 1) togliendo 2
4. Quale differenza noti tra i risultati che ottieni? Che cosa puoi concludere?
49

Documenti analoghi

Coefficiente di variazione e scarto quadratico medio Per effettuare

Coefficiente di variazione e scarto quadratico medio Per effettuare Ora sembra abbastanza evidente che le fluttuazioni del prezzo del bene A sono superiori rispetto a quelle del bene B sebbene le misure di variabilità considerate siano tutte superiori per il second...

Dettagli

Quartili. Indici di variabilità.

Quartili. Indici di variabilità. Dato un insieme di n valori osservati (X1, X2, ....., Xn), si definisce campo di variazione la differenza tra il più grande e il più piccolo di tali valori. Range (peso) = Xmax – Xmin = 85 – 48 = 38

Dettagli

1 Medie - Dipartimento di Matematica e Informatica

1 Medie - Dipartimento di Matematica e Informatica è opportuno usare la media geometrica. Per es. i dati numerici dell’esempio 1.3 sono distribuiti in modo vistosamente asimmetrico rispetto alla loro media aritmetica; si constata invece che i corr...

Dettagli