Lez3A - Università degli Studi della Basilicata

Transcript

Lez3A - Università degli Studi della Basilicata
UNIVERSITA’ DEGLI STUDI DI BASILICATA
FACOLTA’ DI ECONOMIA
Corso di laurea in Economia Aziendale
Lezioni di Statistica
(25 marzo 2013)
Docente: Massimo Cristallo
QUARTILI
Dividono la distribuzione in quattro parti di uguale numerosità
Il primo Quartile Q1 è quel valore che lascia a sinistra della
distribuzione il 25% dei casi e alla sua destra il 75%
Il secondo Quartile Q2 coincide con la Mediana
Il terzo Quartile Q3 è quel valore che lascia a sinistra della
distribuzione il 75% dei casi e alla sua destra il 25%
DETERMINAZIONE DEI QUARTILI
- serie di dati Per il calcolo di Q2 si procede allo stesso modo
della Mediana
Per il calcolo degli altri Quartili, si devono
distinguere due casi (N non è multiplo di 4, N è
multiplo di 4)
DETERMINAZIONE DEI QUARTILI
- serie di dati N non è multiplo di 4:
Q1 è quel valore che occupa la posizione “parte intera
di N/4” + 1, mentre Q3 è quel valore che occupa la
posizione “parte intera di 3N/4” + 1.
DETERMINAZIONE DEI QUARTILI
- serie di dati N è multiplo di 4:
X N  + X N
Q1 =
Q3 =

+
1


4 
 
4
2
X  3N  + X  3N

+1

 4



 4 
2
DETERMINAZIONE DEI QUARTILI
- distribuzioni di frequenze x i +1 − x i
Q1 = x i +
( N 4 − N i −1 )
ni
x i +1 − x i
Q3 = xi +
( 3N 4 − N i −1 )
ni
MODA
E’ una media di posizione
Non ha particolare significato quando i dati sono poco
numerosi
E’ quel valore che si presenta con la maggiore frequenza
CONCETTI DI BASE SULLA VARIABILITA’
L’informazione sintetica fornita dai valori medi, pur essendo
di fondamentale importanza, da sola non basta per descrivere
un certo fenomeno
Infatti, la conoscenza del valor medio non fornisce alcuna
informazione circa l’addensamento intorno ad esso delle N
osservazioni
Evidentemente, il fatto che le modalità rilevate possano
assumere valori anche molto diversi influisce sulla capacità
di un valor medio di sintetizzare in maniera adeguata
l’intera distribuzione
ESEMPIO:confronto tra due serie di dati
1) x1 = -3,
x2 = 8, x3 = 4, x4 = -4, x5 = 2, x6 = 11
2) x1 = 3,
x2 = 3, x3 = 3, x4 = 3,
x5 = 3, x6 = 3
In entrambi i casi la media aritmetica è pari a 3, ma nel primo caso i
dati osservati presentano degli scostamenti intorno al loro valore
medio, mentre nel secondo caso le osservazioni presentano valori
uguali tra loro e alla media aritmetica.
Significato di variabilità
VARIABILITA’ di un fenomeno = è l’attitudine del fenomeno ad
assumere modalità differenti
Sinonimo di variabilità è il termine dispersione
La variabilità di un fenomeno assume significati diversi in base alle
caratteristiche dello stesso fenomeno e agli scopi per cui esso è stato
rilevato.
ESEMPIO 1
Una ditta di ristorazione vuole effettuare una previsione sul numero di
pasti da preparare. A tal fine rileva il numero di pasti preparati ogni
giorno nell’ultimo mese dell’anno.
In questo contesto variabilità è sinonimo di incertezza.
ESEMPIO 2
Un’azienda produce in serie pezzi meccanici che dovrebbero avere
uno diametro prefissato.
In questo contesto variabilità è sinonimo di difettosità, quindi alta
variabilità sta a significare bassa qualità della produzione.
COSTRUZIONE DEGLI INDICI DI VARIABILITA’ (o
di dispersione)
Un modo per misurare la variabilità (o dispersione), nel caso di
caratteri quantitativi, è quello di confrontare le singole modalità del
carattere rispetto ad un valore caratteristico della distribuzione
(solitamente, si sceglie la media aritmetica).
In tal senso, l’indice di variabilità è rappresentato da una opportuna
sintesi degli scostamenti (o scarti) delle modalità rilevate rispetto al
valore caratteristico scelto come riferimento.
REQUISITI DEGLI INDICI di dispersione
1) Sono pari a zero se e solo se non esiste variabilità
2) Sono positivi se e solo se esiste variabilità, cioè se almeno una
modalità è diversa dalle altre
3) Assumono valori crescenti al crescere della variabilità
4) Non cambiano valore se a a ciascuna modalità viene aggiunta una
costante positiva o negativa (proprietà di invarianza rispetto alla
traslazione).
VARIANZA (nel caso di una serie di dati) – Indice di dispersione
E’ la media aritmetica dei quadrati degli scarti delle modalità del
carattere osservato rispetto alla media aritmetica:
∑ ( Xi −µ)
N
Var ( X ) = σ =
2
2
i =1
N
Il numeratore della varianza prende il nome di “Devianza”.
VARIANZA (nel caso di una distribuzione di frequenze) – Indice
di dispersione
E’ la media aritmetica ponderata dei quadrati degli scarti delle
modalità del carattere osservato rispetto alla media aritmetica:
∑ ( X i − µ ) ⋅ ni
s
Var ( X ) = σ 2 =
2
i =1
N
Anche in questo caso, il numeratore della varianza prende il nome di
“Devianza”.
FORMULE ALTERNATIVE PER IL CALCOLO
DELLA VARIANZA
N
N

2

∑ Xi
∑ Xi


i =1
V a r ( X ) = σ 2 = i = 1
−
A) 
N
 N



 n e l c a s o d i s e rie d i d a ti
2


 =M


2
q
2
s
s

2
 ∑ X ⋅n 
X
⋅
n
∑

i
i
 i =1 i i 
i =1
2
Var ( X ) = σ =
−
= M q2 − µ 2

B) 
N
 N 




nel caso di distribuzioni di frequenze
− µ2
SCARTO QUADRATICO MEDIO – Indice di
dispersione
Si ottiene estraendo la radice quadrata della varianza:
σ = Var ( X ) = σ 2
Risulta pertanto espresso nella stessa unità di misura dei dati
osservati.
SCOSTAMENTO SEMPLICE MEDIO - indice di dispersione
E’ la media aritmetica dei valori assoluti degli scarti delle modalità del
carattere osservato rispetto alla media aritmetica :
N

Xi −µ
∑

i =1
δ
=
nel caso di serie di dati
A ')  1
N


s

∑ X i − µ ⋅ ni

i =1
nel caso di distribuzioni di frequenze
B ') δ1 =
n


SCOSTAMENTO SEMPLICE MEDIO
Lo scostamento semplice medio è espresso nella stessa unità di misura
dei dati osservati, ed assume, a parità di dati, valore non superiore
a quello dello scarto quadratico medio (ciò deriva dalla relazione
d’ordine esistente tra le medie analitiche).
Altri indici di variabilità
Campo di variazione o range (W) = indice semplice da calcolare,
ottenuto dalla differenza tra il più piccolo ed il più grande dei valori
osservati. Risente dei valori anomali.
Differenza interquartilica (D) = indice semplice da calcolare, ottenuto
dalla differenza tra il terzo ed il primo quartile.
Sono entrambi indici grossolani, in quanto tengono conto soltanto di
due valori, a seconda dei casi, della distribuzione.