elementi di statistica_Welfare

Transcript

elementi di statistica_Welfare
Statistica descrittiva
Francesco Truglia
[email protected]
1
Obiettivi della lezione:
•Le due statistiche:descrittiva e inferenziale
•Popolazioni, collettivi e unità statistiche
•Statistica descrittiva: caratteri st. e modalità
•Frequenze: tabelle e grafici
•Indici di posizione, di dispersione e di forma
•Media e varianza di dati raggruppati
•Correlazione tra variabili
•Retta di regressione
2
Statistica
Statistica
Descrittiva
Descrittiva
Induttiva
Induttiva
Ho un insieme di dati
e li voglio descrivere,
sintetizzare e
commentare
Ho un insieme di dati
e li utilizzo per fare
inferenza.
3
Popolazione e Unità statistiche
Popolazione:
non ha un significato solo demografico.
Ma è l’insieme delle unità statistiche.
Unità statistica:
elemento base della popolazione o del
collettivo statistico. E’ necessario definire
esattamente le caratteristiche dell’unità st.
Dalla connotazione dell’unità( intensione)
dipende la denotazione (estensione) del
collettivo
Dall’Unità st. astrattaÆ Caso concreto
4
i caratteri statistici
Caratteri statistici:
diversi aspetti dell’Unità St. ritenuti rilevanti ai
fini della conoscenza del fenomeno che
vogliamo analizzare.
L’unità
st.
è
un
“oggetto”
complesso,
multidimensionale e possibile analizzarne solo
alcuni aspetti. E’ il ricercatore che sceglie cosa
rilevare in base ai suoi interessi.
5
caratteri e modalità
Le modalità sono i diversi aspetti che un
carattere può assumere.
h= N° modalità del carattere. Alcune volte h è
noto a priori altre volte no.
Sex
M
F
M ed F sono le 2 modalità cel carattere sesso
6
caratteri e modalità
Le modalità di un carattere possono
esprimersi sotto forma numerica o
come categorie
•Numeriche
•Categoriali
Variabili
Mutabili
Discrete
Esempio 1
Continue
Esempio 2
Sconnesse Esempio 3
rettilinee
Esempio 4
7
caratteri e modalità
Le variabili: Es.1 discrete; Es.2 continue.
Esempio 1: N° componenti famiglia: 1 2 3 4 5 6 7 8
N° posti letto ospedale: 125 128 136 547 874 1258 2581
Residenti comune: 854 1258 5890 6587 15897 178.985
3.58.211 458.547 2.427.258 2.589.211
Esempio 2: precipitazioni in pollici a Torino nel mese di aprile (20 giorni)
2.9
3.7
3.0
3.2
3.3
4.0
3.2
3.9
1.0
2.1
2.2
2.9
5.4
2.9
3.5
1.1 0.4
3.6 4.0
Altezza maschi It.: 175,3 168,4 187,1 158,4 167,5 170.2 174,6 175.6
8
caratteri e modalità
Le mutabili: Es.1 sconnesse; Es.2 rettilinee.
Esempio 1:
Esempio 2:
Sesso:M, F.
Corso di Laurea: Med. Ing. Sc.Pol. Giur. Stat. Mat.
Provincia: Cz, Mi, Na, Pa, RM
Religione. Cat.,Mus.,.Ebreo, Indù, Taoista
Giudizio:Suff. Buono, Ottimo
Posizione graduatoria: I II III IV V
Classe Soc.: Bassa, Media Alta
Tit. Studio: Nessuno, Elem., Med.inf., Med.sup.,
Laurea
9
Frequenza
Si considerino N dati da analizzare. I dati vengono suddivisi i
un opportuno numero di classi; per ogni classe si ha:
Frequenza assoluta:
ni numero di oggetti del tipo i-esimo
0 ≤ ni ≤ N
∑n
i
=N
i
ni
Frequenza relativa: f i =
N
0 ≤ fi ≤ 1
∑
i
ni
f i = ∑ =1
i N
10
Frequenza percentuale: è la freq. relativa moltiplicata per 100
fi ⋅100
Ni
Frequenza cumulativa assoluta:
è la somma della freq.
assoluta + la freq. cumulativa assoluta del dato precedente.
i
N i = N i −1 + ni = ∑ nk
k =0
Frequenza cumulativa relativa:
0 ≤ Ni ≤ N
Fi
è la somma della freq.
relativa + la freq. cumulativa relativa del dato precedente.
i
Fi = Fi −1 + f i = ∑ f k
k =0
0 ≤ Fi ≤ 1
11
Tabella di distribuzioni di frequenze:
Caso discreto: Esempio 1
Le classi sono:
Ak = { xi | xi = k}
N.B. : la somma delle freq.ass. = n° tot di osservazioni
la somma delle freq.rel. =1
la somma delle freq.perc.=100
12
Tabella di distribuzioni di frequenze:
Caso continuo: Esempio 2
Dati
2.9
3.7
3.2
4
3.9
2.1
2.9
2.9
1.1
0.4
3
3.3
Classi
0<x<=0,5
0,5<x<=1
1<x<=1,5
1,5<x<=2
2<x<=2,5
2,5<x<=3
3<x<=3,5
3,5<x<=4
4<x<=4,5
4,5<x<=5
5<x<=5.5
freq ass
0.5
1
1.5
2
2.5
3
3.5
4
4.5
5
5.5
TOT
1
2
1
0
2
4
4
5
0
0
1
20
freq rel
freq cumul freq cumul relativa freq perc freq perc cumul
0.05
1
0.05
5
5
0.1
3
0.15
10
15
0.05
4
0.2
5
20
0
4
0.2
0
20
0.1
6
0.3
10
30
0.2
10
0.5
20
50
0.2
14
0.7
20
70
0.25
19
0.95
25
95
0
19
0.95
0
95
0
19
0.95
0
95
0.05
20
1
5
100
1
100
Le classi non sono scelte in modo univoco.
Ogni osservazione deve appartenere a 1 sola classe!
N.B. Nelle tabelle di frequenza nel caso di variabili continue
perdo dell’informazione ma ho un guadagno nella leggibilità
dei dati. Nel caso di variabili discrete non c’è perdita di
informazione!
13
Tabella di distribuzioni di frequenze:
Caso variabili categoriche: Esempio 3
I dati sono già raggruppati in classi
N.B. Per variabili categoriche NON ha senso parlare di
frequenze cumulative!!!
14
Tabella di distribuzioni di frequenze: Excel
La funzione FREQUENZA calcola la frequenza relativa di
occorrenza dei valori di un intervallo e restituisce una matrice
verticale di numeri.
Sintassi:
FREQUENZA(matrice_dati; matrice classi)
tale istruzione viene inserita come formula matrice dopo aver
selezionato un intervallo di celle adiacenti nel quale dovrà
apparire il risultato.
Il numero di elementi nella matrice restituita è
maggiore di un’unità rispetto al numero di elementi
contenuti in matrice_classi
15
EXCEL: Formule in forma di matrice
Una formula in forma di matrice può eseguire più calcoli e
restituire uno o più risultati.
Procedura:
selezionare la cella o le celle in cui si desidera immettere la
formula, creare la formula e premere
CTRL+MAIUSC+INVIO
16
Grafici di distribuzioni di frequenze:
Istogramma
Caso discreto: Esempio 1
Si fissano sull’asse delle ascisse i valori delle classi e, in corrispondenza, si
disegna una barra la cui altezza è pari alla frequenza (relativa o assoluta)
L’altezza ha la stessa unità di misura della probabilità teorica
17
Istogramma
Caso continuo: Esempio 2
Si disegnano rettangoli adiacenti, le cui basi sono gli intervalli che
definiscono le classi e le altezze sono date dalle frequenze (relative o
assolute)
L’altezza NON ha la stessa unità di misura della probabilità teorica
L’AREA ha la stessa unità di misura della probabilità
l’altezza del
rettangolo deve essere proporzionale al quoziente tra la frequenza della classe
e l’ampiezza dell’intervallo che la definisce
6
5
4
Serie1
3
2
Istogramma delle
frequenze assolute
1
0
1
2
3
4
5
6
7
8
9 10 11
18
Istogramma: quante classi scelgo?
Taglia campione: n=100
6 classi
10 classi
NORMAL
NORMAL
26
50
24
45
22
20
35
18
30
16
No of obs
No of obs
40
25
20
14
12
10
15
8
10
6
4
5
0
-3
-2
-1
0
1
2
3
Expected
Normal
Upper Boundaries (x <= boundary)
2
0
-3,0
-2,5
-2,0
-1,5
-1,0
-0,5
0,0
0,5
1,0
1,5
2,0
2,5
Expected
Normal
Upper Boundaries (x <= boundary)
NORMAL
13
12
Regola
Regola pratica:
pratica:
11
10
9
No of obs
8
7
n.classi
n.classi≈≈ √n
√n
6
5
4
3
2
1
0
-2,8 -2,4 -2,0 -1,6 -1,2 -0,8 -0,4 0,0 0,4 0,8 1,2 1,6 2,0
-2,6 -2,2 -1,8 -1,4 -1,0 -0,6 -0,2 0,2 0,6 1,0 1,4 1,8 2,2
Expected
Normal
36 classi
19
Grafici di distribuzioni di frequenze:
Diagramma a barre /di Pareto: Esempio 3
Viene utilizzato nel caso di distribuzioni categoriche, ad ogni classe corrisponde
una barra la cui altezza ne indica la frequenza mentre la base (uguale per ogni
classe) non ha significato.
Ogiva: grafico delle frequenze cumulative di v. numeriche (discrete o continue)
Sulle ordinate si riportano le frequenze cumulative
Sulle ascisse si riportano (caso discreto) i valori osservati
(caso continuo) gli estremi degli intervalli di variabilità
Si uniscono con una spezzata i punti ottenuti.
Es1
Es2
20
EXCEL: ANALISI DATI
STRUMENTI DI ANALISI è un insieme di strumenti di analisi
dei dati che consente di ridurre i passaggi necessari allo sviluppo di
complesse analisi statistiche. Forniti i dati e i parametri per ciascuna
analisi, lo strumento utilizzerà le funzioni macro statistiche appropriate,
visualizzando i risultati in una tabella di output.
Per visualizzare un elenco degli strumenti di analisi:
scegliere Analisi dati dal menu Strumenti. Se tale comando non è
visualizzato, dal menu Strumenti selezionare Aggiunte… e
scegliere Analisi dati.
21
EXCEL: Strumento di analisi Istogramma
Consente di calcolare le frequenze individuali e cumulative per
un intervallo di celle e di classi di dati.
Opzioni della finestra di dialogo Istogramma:
•intervallo di input: immettere il riferimento di cella per
l’intervallo di dati da analizzare
•intervallo di classe (facoltativo): immettere un intervallo
di celle contenente un insieme di valori limite che
definiscano gli intervalli delle classi
•intervallo di output: immettere il riferimento della cella
superiore sinistra della tabella di output
22
STATISTICA MONOVARIATA
23
Principali indici statistici
I grafici finora analizzati ci danno informazioni qualitative;
possiamo quantificarle ricorrendo ai seguenti indici.
n osservazioni numeriche
Siano x1 , x2 ,..., xn
Moda
di sintesi
INDICI
MEDIE LASCHE
Mediana
Quantili
MEDIE
ANALAITICHE
SCARTO QUADRATICO MEDIO
di dispersione
VARIANZA
RANGE
di forma
ASIMMETRIA (SKEWNESS)
CURTOSI ( KURTOSIS)
24
Indici di sintesi: le medie
Due tipi di medie:
Lasche o di posizione. Si possono utilizzare
anche per mutabili e prendono in
considerazione solo alcune
modalità della distribuzione.
Analitiche o di calcolo. Solo per variabili.
prendono in considerazione tutte
le modalità della distribuzione.
25
Indici di sintesi: le medie
Mutabili
indici
sconnesse rettilinee
Analitiche
Lasche
Variabili
discreti
continui
no
no
si
si
moda
si
si
si
si
mediana
no
si
si
si
quantili
no
si
si
si
26
Medie lasche o di posizione:
MODA
E' definita come il valore che ha la frequenza
più alta.
Se la distribuzioni è in classi la classe modale è quella
con la più alta densità di frequenza D=ni/a(frequenza
classe/ ampiezza classe)
MEDIANA
Valore che nell’ordine crescente supera il 50%
delle modalità ⊂ed è superato dal rimanente 50%.
Come si calcola:
1. ordinare le modalità;
2. trovare la posizione mediana.Due casi :
n n
; +1
2 2
n +1
b) N dispari Pme =
2
a) N pari Pme =
27
3. individuare il valore Xi che corrisponde alla Pme.Ne
caso di distribuzioni di frequenze calcolare le f.cum.(Ni) È individuare la
prima fr.cum che contiene Pme.
Xi ni
Ni
1
6
6
5
4
10
8
10
20
15
12
32
20
5
37
23
6
43
25
10
53
53
N dispari Pme=(N+1)/2=27 Pme è contenuta nella Ni=32 per cui Me=15
28
4. se la distribuzione è in classi, individuata la
classe mediana, per trovare il valore mediano è necessario fare
l’interpolazione.
classi
10-20
20-30
30-40
40-50
50-60
ni
5
10
12
8
4
39
5
15
27
35
39
d'
27
b
20
15
a
c
c'
Pme=20 classe mediana 30-40
30
In alternativa si può utilizzare la
seguente formula:
( Pme − N r −1 )
ar
Me = xr −1 +
nr
Xr estremo inferiore classe Md;Nr-1 fr.
cum. Classe precedente a quella med;
nr fr. cl med; a ampiezza cl. med
Me
40
ac/bc=ac'/d'c'
ac=x
bc=20-15
ac'=40-30 X=10*5/8=6,25
d'c'=27-15
Me=30+6,35=30,25
29
proprietà della mediana:
∑X
i
− Me ni < ∑ X i − K ni
QUANTILI
Sono indici di posizione e dividono la
distribuzione in quanti.
Per calcolare i quantili è necessario seguire la stessa procedura che si
segue per il calcolo della mediana.
Quartini:dividono la distribuzione in quarti.
Q1=il valore che nell’ordine crescente divide la distribuzione in due parti
supera il 25% delle modalita’ ed e’ superato dal restante 75%
PT1=N/4.
Q2= il valore che nell’ordine crescente divide la distribuzione in due
parti supera il 50% delle modalita’ ed e’ superato dal restante 50%
Pq2=2*N/4.
Q3=il valore che nell’ordine crescente divide la distribuzione in due parti
supera il 75% delle modalita’ ed e’ superato dal restante 25%
Pq3=3*N/4.
Q4=il valore che nell’ordine crescente supera il 100% delle modalita’
Pq4=4*N/4.
30
Terzili:dividono la distribuzione in terzi.
T1=il valore che nell’ordine crescente supera il 33,3% delle modalita’
Pt1=N/3.
T2= il valore che nell’ordine crescente supera il 66,6% delle modalita’
Pt2=2*N/3.
T3=il valore che nell’ordine crescente supera il 100% delle modalità
Pt3=3*N/3.
Decili:dividono la distribuzione in decimi.
D1=il valore che nell’ordine crescente supera il 10% delle modalita’
Pd1=N/10.
D2= il valore che nell’ordine crescente supera il 20% delle modalita’
Pd2=2*N/10.
D3=il valore che nell’ordine crescente supera il 30% delle modalità
Pd3=3*N/10.
.
.
D10=il valore che nell’ordine crescente supera il 100% delle modalità
Pd10=3*N/10.
31
Centili:dividono la distribuzione in decimi.
C1=il valore che nell’ordine crescente supera il 1% delle modalita’
Pc1=N/100.
C2= il valore che nell’ordine crescente supera il 2% delle modalita’
Pc2=2*N/100.
C3=il valore che nell’ordine crescente supera il 30% delle modalità
Pc3=3*N/100.
.
.
C100=il valore che nell’ordine crescente supera il 100% delle modalità
Pc100=3*N/100.
32
Medie analitiche
Le medie analitiche sono riconducibili alla media di potenza s.
Ms = s
s
x
∑ i ni
N
s può avere un qualsiasi valore purché intero.
Se s = -1ÆMs = M-1 Media Armonica.
Se s = 0ÆMs ÆM0 Media Geometrica.
Se s = 1ÆMs = M1 Media Aritmetica.
Se s = 2ÆMs = M2 Media Quadratica
E cosi via.
33
ARITMETICA
La media aritmetica ci fornisce un valore che
sostituito ad ogni modalità ne lascia invariata la
somma.
n
h
M=
∑x
i =1
N
i
semplice
M =
∑xn
i
i =1
N
i
pondrata
quando la distribuzione e’ in classi calcolare il valore centrale
XC =
Xinf + Xsup
2
34
Es.1
MediaSemplice
Es.1 Media ponderata
Es.1 classi
Età
classi
25
Età (Xi) ni
25
Xcni
25 -26
5
25,5
127,5
2
50
28-30
3
29
87
26
3
78
32-35
2
33,5
67
26
28
2
56
28
30
1
30
32
1
32
35
1
35
10
281
26
28
30
32
35
10
Media
281,5
28,15
281
N=10
Media
Xc
25
26
Totale
Xini
ni
28,1
Media
28,1
35
Proprietà della media aritmetica
La media aritmetica gode delle seguenti
proprietà:
X min ≤ M 1 ≤ X max
1. internalità:
2. traslativa: la M1 varia in modo uniforme
M1+ h =
∑
Xi + h
N
3. omogenea: la M1 varia in modo proporzionale
M
1
* h =
∑
Xi * h
N
36
4.
associativa: la M1 non varia se ha più sottogruppi
della distribuzione viene sostituito il loro valore
medio
Mm * Nm + Mf * Nf
M1 =
Nm + Nf
Le quattro proprietà tranne quella traslativa valgono
per tutte le medie analitiche.
Oltre a queste quattro proprietà le medie analitiche
godono anche di altre due importanti proprietà degli
scarti.
37
Scarto è la distanza tra le variabili Xi ed una costante k.
Quando k= M1 allora parleremo di scarti dalla media.
Due proprietà degli scarti:
1°.proprietà: la somma algebrica degli scarti tra le
modalità Xi e la M1 è uguale a zero
n
∑ ( Xi
− M )ni = 0
i =1
2°.proprietà: la somma algebrica degli scarti al
quadrato tra le modalità Xi e la M1 è uguale ad
un minimo, è cioè sempre minore della somma al
quadrato degli scarti tra le modalità Xi ed un
valore k scelto a caso.
n
n
∑( Xi − M ) ni ≤∑( Xi − K) ni
i =1
2
2
i =1
38
Ci fornisce un valore che sostituito ad ogni
modalità Xi ne lascia invariata la somma degli
inversi.
ARMONICA
M -1 =
N
1
∑x
i
→ semplice
GEOMETRICA
M0 = h
h
Ci fornisce un valore che sostituito ad ogni
modalità Xi ne lascia invariato il prodotto.
∏ xi semplice
i =1
N
M -1 =
→ ponderata
ni
∑x
i
M0 = n
n
ni
x
∏ i ponderata
i =1
39
Il calcolo della media geometrica richiede l’uso dei logoritmi.
LOGORITMO: esponente da dare alla base per ottenere un
numero.
x
BASE = NUMERO
I log. Usati in questo caso hanno base 10.
quattro proprietà:
1.
logA*B=logA+logB;
2.
logA/B= LogA-logB;
3.
logAx= x logA;
4.
Logn√A=1/n log A
Utilizzando queste proprietà possiamo linerizzare l’espressione della media
geometrica trasformandola in log Mo.
n log x
∑
logMo =
i
i
N
Calcolata LogMo è necessario trasformarla in numero
40
Ci fornisce un valore che sostituito ad ogni
modalità Xi ne lascia invariata la somma dei
quadrati.
QUADRATICA
M2 =
2
xi
∑ → semplice
N
Xi
ni
5
10
15
20
25
30
X in i
8
5
12
6
4
2
37
∑ xi n
2
M2 =
40
50
180
120
100
60
550
n i/X i
1 ,6
0 ,5
0 ,8
0 ,3
0 ,1 6
0 ,0 7
3 ,4 2 6 6 6 7
M1
1 4 ,8 6 4 8 6
M -1
1 0 ,7 9 7 6 7
i
N
lo g X i
0 ,6 9 8 9 7
1
1 ,1 7 6 0 9 1
1 ,3 0 1 0 3
1 ,3 9 7 9 4
1 ,4 7 7 1 2 1
7 ,0 5 1 1 5 3
→ ponderata
2
n ilo g X i
5 ,5 9 1 7 6
5
1 4 ,1 1 3 1
7 ,8 0 6 1 8
5 ,5 9 1 7 6
2 ,9 5 4 2 4 3
4 1 ,0 5 7 0 4
Xi ni
200
500
2700
2400
2500
1800
10100
Mo
1 2 ,8 7 2 1 1
M2
1 6 ,5 2 1 8 9
1 ,1 0 9 6 5
lo g M o
41
Relazione tra le medie
Tra le medie analitiche esiste la seguente
relazione: M -1 ≤ M 0 ≤ M 1 ≤ M 2
la seguente relazione è sempre valida a
condizione che almeno una delle modalità Xi
sia diversa dalle altre
S
Ms
18
16
14
12
10
8
6
4
2
0
-1
0
1
Ms
-1 10,79767
0 12,87211
1 14,86486
2 16,52189
2
42
Indici di dispersione:
Se le medie ci forniscono una sintesi dei dati
Gli indici di dispersione ci dicono quanto la
media, e la sintesi da essa operata,
è rappresentativa dei dati.
La capacità rappresentativa della media è in
relazione al livello di variabilità della
distribuzione.
43
Variabilità, dispersione e mutabilità
„
„
Si parla di variabilità e dispersione nel caso di
variabili statistiche Æseriazioni st.
Mentre si utilizza il termine mutabilità quando
si ha a che fare con mutabiliÆserie st.
A differenza del concetto di media quello di
variabilità ,dispersione e mutabilità possono
essere espressi non solo in termini assoluti.
44
Variabilità e dispersione
Questi indici possono esprimersi in tre diversi modi:
1. Assoluti. Si esprimono nella stessa unità di misura o
negli stessi termini del carattere.
2.
Percentuali. Sono indici adimensionali e prescindono
dall’unità di misura del carattere permetto di
confrontare la variabilità tra collettivi non
omogenei.
3.
Relativi. Si esprimono in numeri puri, e permettono
di quantificare quanto è grande la dispersione o la
variabilità all’interno di un collettivo.
45
Variabilità e dispersione
1.Assoluti:
CAMPO DI VARIAZIONE: RANGE
Indici immediato ma molto rozzo.
Tiene conto di solo due valori, quelli
estremi per cui può portare a delle
informazioni distorte.
DIFFERENZA INTERQUARTILICA
Cv= xmax -xmin
D i= Q3 –Q1
Tra il primo ed il terzo quartile
“cadono” il 50% dei casi.Questo
indice non è soggetto come il
precedente alla “fluttuazione” dei
valori estremi. Anche questo indice,
tuttavia può produrre distorsioni
46
ES.
Xi
ni
Ni
1
2
3
4
5
6
Pq1
Pq3
6
20
2
2
1
1
32
8
24
6
26
28
30
31
32
Q1=2
Q2=2
Di=2-2=0
DIFFERENZA IN MEDIA
Questo indice è più accurato dei due precedenti in quanto pende in
considerazione tutte le midalità Xi calcolando le differenze, in valore
assoluto tra ogni una di esse e tutte le altre.
La differenza in media ci dice quanto in media ogni Xi si discosta da ogni
Xj
Due versioni:
1. Senza ripetizione. Non considero gli scarti = 0;
2. Con ripetizione. Considera gli scarti = 0.
47
n
1. ∆ =
∑∑ | Xi − Xj |
i =1 j =1
N ( N − 1)
n
2. ∆ r =
n
n
→ semplice; ∆ =
∑∑ | Xi − Xj |ninj
i =1 j =1
n
∑∑ | Xi − Xj |
i =1 j =1
N
2
ni
8
5
12
6
4
2
37
nj
Xi\Xj
5
10
15
20
25
30
n
N ( N − 1)
n
→ semplice; ∆ r =
8
5
0
200
960
720
640
400
2920
5
10
200
0
300
300
300
200
1100
∆ =
8,26
12
15
960
300
0
360
480
360
1200
→ ponderata
n
∑∑ | Xi − Xj |ninj
i =1 j =1
N
6
20
720
300
360
0
120
120
240
4
25
640
300
480
120
0
40
40
2
2
30
400
200
360
120
40
0
5500
→ ponderata
37
2920
1100
1200
240
40
5500
48
Gli indici visti fino ad ora ci forniscono indicazioni sulla variabilità senza
tener in considerazione gli indici di sintesi. Sulle medie sono costruiti gli
indici di dispersione, i quali ci forniscono una misura della distanza media
tra ogni Xi e le medie.
Indichiamo con S= Xi-k lo scarto tra le modalità e una valore costanre
quando k= media avremo gli scarti dalla media. Se la Media è quella
aritmetica allora ricordando le due proprietà degli scarti si ha:
DEVIANZA Dev(x)
Ci fornisce una misura della dispersione o “inerzia” totale.
n
Dev( X ) = ∑ ( Xi − M ) → semplice
2
i =1
n
Dev( X ) = ∑ ( Xi − M ) ni → Ponderata
2
i =1
Sviluppando il quadrato di binomio la Dev(X) può essere scritta cosi:
Dev(x)= ΣXi2ni-NM12
49
Varianza Var(x) σ2
Dividendo la devianza per la numerosità N si ottiene la varianza. Questo è
un indice medio che ci dice quanto ogni modalità Xi in media si discosta
dalla media. Basandosi sugli scarti al quadrato la Var(X) ci fornisce una
distanza media “amplificata”.
n
σ2 =
∑ ( Xi − M )
i =1
N
n
2
→ semplice
σ2 =
2
(
)
Xi
M
ni
−
∑
i =1
N
→ ponderata
La varianza può essere espressa anche come la differenza tra la la
differenza tra il quadrato della media quadratica e la media aritmetica al
quadrato.
σ 2 = M22- M12
50
Media e varianza:
Media uguale
Deviazione Standard Diversa
Istogramma
80
70
60
50
40
30
20
10
0
Frequenza
Frequenza
200
150
100
Frequenza
50
9
6
3
0
8
3,
Media=2
Varianza=1.33
-3
2
3,
Classe
-6
6
4
1,
2,
8
0,
2
2
0
0,
Frequenza
Istogramma
Classe
Media=2
Varianza=4
51
Scarto quadratico medio o deviazione standard σ
Lo Sqm ci fornisce una misura media della dispersione, espressa negli
stessi termini delle modalità Xi.
Lo Sqm è la radice quadrata della varianza.
n
σ =
∑ ( Xi − M )
i =1
N
n
2
→ semplice
σ=
∑ ( Xi − M )
i =1
N
2
ni
→ ponderata
TEOREMA DI BIEYNAME-CHEBYCHEV
Se si conosce la media e lo sqm di una distribuzione fissato un valore k>1
è possibile calcolare la fr dei valori Xi compresi tra M1-kσ ed M1+kσ
è uguale o maggiore di 1-1/k2
fr {M − k σ ≤ Xi ≤ M + k σ } ≥ 1 −
1
k2
52
Es.
Reddito medio M=22mila € sqm=8 mila €. Fissato un
valore k=1.5
fr {22 − 1.5 * 8 ≤ Xi ≤ 22 + 1.5 * 8} ≥ 1 −
1
= {10 ≤ Xi ≤ 34} ≥ 0.555
2
1 .5
Almeno il 55,5% delle modalità (redditi) è compreso tra 10 e
34 mila €.
M
sq m
22
k
8
M -k σ
0 ,5
1
1 ,5
2
2 ,5
3
1 -1 /k
M + kσ
18
14
10
6
2
-2
26
30
34
38
42
46
2
-3
0
0 ,5 5 5 5 5 6
0 ,7 5
0 ,8 4
0 ,8 8 8 8 8 9
53
Scarto semplice medio SSM
Lo SSM ci fornisce la media aritmetica degli scarti in valore assoluto trale
modalità Xi e un valore medio. Lo SSM può essere calcolato rispetto alla M1
(SSM1) o rispetto alla mediana (SSMe).
SSM 1
∑
=
| xi − M |
N
→ semplice SSM 1 =
∑
| xi − M | ni
N
→ pondrata
Lo SSM1< Sqm in quanto il primo è media aritmetica degli scarti e il
Secondo è media quadratica degli scarti.
Lo Sqm, a differenza dello SSM1, utilizza gli scarti al quadrato per cui da
maggior risalto ai grandi scarti e sottoridimensiona i piccoli scarti.
Lo Scarto semplice medio è da preferire quando si utilizza come indice di
sintesi la mediana in quanto:
Xi − Me ni = minimo
∑
Per cui lo SSMe=
∑
SSM =
| xi − M | ni
N
54
Scomposizione della devianza
Consiste nello scomporre la devianza al fine di individuare quali sono le
fonti della variabilità. Variabilità distinta in Interna (Dev(W)) e
variabilità Esterna (Dev(B)). La Dev(W) rappresenta la variabilità non
Attribuibile a fattori esterni ma interna ad ogni gruppo. La Dev(B)
Rappresenta, al contrario, la variabilità dovuta al fattore in base al quale
si sono formati i gruppi.
SIMBOLI
M media aritmetica dell’intero collettivo;
Mj media aritmetica del gruppi (j=1,2,3..k)
Dev(T) devianza totale
= Σ(Xi-M)2niÆ ΣXi2ni - NM2;
Dev(W) devianza interna = Σ(Xij-Mj)2niÆDev(Xi1)+Dev(Xi2)….Dev(Xik)
Dev(B) devianza esterna = Σ(Mj-M)2nj.
La devianza gode della proprietà dell’additività per cui:
Dev(T)=Dev(W)+Dev(B)
55
Es.
2
Xa
Xa
2
5
6
8
9
5
4
Somme X
2
Somme X
Medie Mj
Nj
Dev(T) =
Dev(B) =
Dev(W)
2
Xb
Xb
4
25
36
64
81
25
16
39
3
2
3
3
5
6
4
2
28
251
5,6
7
9
4
9
9
25
36
16
4
5
4
4
6
2
426-20*4,4
2
2
2
(5,6-4,4) *7+(3,5-4,4) *8+(4,2-4,4) *5
25
16
16
36
4
Totali
21
103
3,5
8
2
2
Xc
Xc
72
4,2
5
88
426
4,4
20
38,8
16,76
22,04
56
2.Percentuali:
Il confronto tra la dispersione rilevata su collettivi non omogenei non può
essere effettuata con indici assoluti di dispersione. A tale scopo si ricorre
ad indici adimensionali tra questi:
Cv =
σ
M
* 100
3. Relativi:
Gli indici relativi sono numeri puri e ci permettono di stabilire quanto
è grande la dispersione all’interno del collettivo. Si ottengono rapportando
Ogni indice di dispersione, per es. Sqm, al valore massimo che lo stesso
indice può assumere e che corrisponde alla massima dispersione.
Questi indici possono avere un valore compreso tra 0 e 1.
57
Per calcolare il valore massimo che un indice di dispersione può avere si
Opera sulla cosi detta distribuzione masimante. Una distrubuzione teorica
nella quale la dispersione è massima.
Per costruire la distribuzione massimante è necessario ridistribuire le
frequenze tra due sole modalita l=Xmin e L= Xmax. In questo modo ad ogni
unità del collettivo sarà imputata la modalità più bassa o quela più alta.
Per tanto è necessario calcolare( h) numero di unità che saranno imputate
ad (l),ed N-h numero di unità alle quali andrà (L).
Xi
ni
5
10
15
20
25
30
M
Sqm
2
Xini
14
18
25
20
15
8
100
70
180
375
400
375
240
1640
(Xi-M) ni
1819,44
737,28
49
259,2
1109,4
1479,68
5454
Xi
l
L
ni
h
N-h
N
16,40
7,38512
58
Calcolo di h
lh + L( N − h)
= M → lh + L( N − h) = MN → lh + LN − Lh = MN →
N
lh − Lh = MN − LN → h(l − L) = N ( M − L) →
h=
N ( M − L)
l−L
Xi
ni
5
10
15
20
25
30
2
Xini
14
18
25
20
15
8
100
70
180
375
400
375
240
1640
(Xi-M) ni
1819,44
737,28
49
259,2
1109,4
1479,68
5454
Xi
ni
5
30
54
46
100
59
Sulla distribuzione massimante possono essere calcolati i valori massimi
degli indici di dispersione.
Se volessimo trovare il massimo dello Sqm la sua formula sarà:
(L − M)2 (N − h) + (l − M)2 h
σ max=
N
σ rel =
Mentre lo Sqm relativo sarà:
σ
σ max
Continuando il ns esempio si avra:
Xi
ni
5
10
15
20
25
30
2
Xini
14
18
25
20
15
8
100
70
180
375
400
375
240
1640
(Xi-M) ni
1819,44
737,28
49
259,2
1109,4
1479,68
5454
Xi
ni
5
30
M
Sqm
Max(sqm)
Sqm(rel)
2
(Xi-M) ni
54
7017,84
46 23525,91
100 30543,75
16,40
7,38512
17,47677
0,423
60
In alternativa senza ricorrere alla distribuzione massimante possiamo
calcolare i massimi utilizzando le seguenti formule:
σ max = ( L − M )(M − l )
se il carattere è trasferibile ed l = 0 mentre L = NM → σ max = M N − 1
2( L − M )(M − l )
SM 1 max =
L-l
2 N ( L − M )(M − l )
∆ max =
(L - l)(N - 1)
61
Mutabilità
Il concetto di mutabilità, analogo a quello di variabilità, si riferisce però
a serie statistiche cioè a variabili qualitativi. I due indici che esporremo
sono:L’indice di Eterogeneità di Gini e quello di Entropia. Entrambi tali
indici possono essere espressi in termini assoluti e relativi.
In una serie statistica abbiamo max omogeneità quando tutte il carattere
si presenta con una sola modalità. La max eterogeneità (omogeneità nulla)
quando le h modalità del carattere hanno la stessa frequenza per cui ogni
ni = N/h.
Eterogeneità G
G = 1−
k
∑
fr
2
i =1
G=o Eterogeneità nulla. Per avere una misura del livello di eterogeneità
È necessario rapportare G al suo massimo. G max= 1-1/p. Grel =G/Gmax
0<Grel<1
62
ni ni
Hs = −∑ lg
N N
Entropia Hs
Hs=o Eterogeneità nulla. Per avere una misura del livello di eterogeneità
è necessario rapportare Hs al suo massimo. Hs = logH. Hsrel=Hs/Hsmax
0<Hsrel<1
Ai
A1
A2
A3
A4
A5
2
ni
125
248
236
147
125
881
fr
fr
lo g f r
f r lo g f r
0 ,1 4 1 8 8 4 0 ,0 2 0 1 3 1
-0 ,8 4 8 0 7
-0 ,1 2 0 3 3
0 ,2 8 1 4 9 8 0 ,0 7 9 2 4 1
-0 ,5 5 0 5 2
-0 ,1 5 4 9 7
0 ,2 6 7 8 7 7 0 ,0 7 1 7 5 8
-0 ,5 7 2 0 6
-0 ,1 5 3 2 4
0 ,1 6 6 8 5 6 0 ,0 2 7 8 4 1
-0 ,7 7 7 6 6
-0 ,1 2 9 7 6
0 ,1 4 1 8 8 4 0 ,0 2 0 1 3 1
-0 ,8 4 8 0 7
-0 ,1 2 0 3 3
1 0 ,2 1 9 1 0 3
-0 ,6 7 8 6 3
G
G m ax
G re l
0 ,7 8 0 8 9 7
0 ,8
0 ,9 7 6 1 2 2
Hs
H s m ax
H e re l
0 ,6 7 8 6 2 6
0 ,6 9 8 9 7
0 ,9 7 0 8 9 4
63
Concentrazione
Caratteri quantitativi Xi devono essere:
1.
Trasferibili, quote del carattere possono
transitare da una unita del
collettivo all’altra ;
2.
Cumulabili, è la conseguenza della
trasferibilità.
Un carattere è equamante ripartito quando ogni unità detiene la stessa
quota Xi dell’ammontare A del carattere. In questo caso ogni Xi=M.
La concentrazione è massima quando una sola unità detiene l’intero
ammontare A del carattere.
64
ki
N
δ=
Ai
log
A
log
Due tipi di indici di concentrazione:
1. Analitici, mettono a confronto due parti della
distribuzione: le Nk unità più “ricche”
rispetto a tutto il collettivo. Per cui sullo
stesso collettivo si possono calcolare più
indici di questo tipo in quanto è il ricercatore
che decide chi fa parte degli Nk
2.Sintetici, si calcolano su tutto il collettivo.
1. Analitici δ di Gini.
L’ammontare di una carattere A è detenuto da N unità
Nk sono le unità più ricche e detengono una quaota
dell’ammontare pari ad Ak. Per cui se ci fosse una
situazione di equilibrio allora Ak/A=Nk/N se al
contrario non ci fosse equilibrio (Ak/A)>Nk/N.
65
Per cui l’indice delta rapresena l’esponente al quale è necessario
elevarela frazione Ak/A affinché essa ci sia uguale a Nk/N .
δ= 1Æ Equilibrio; δ > 1Æ squilibbrio
Nk
log
Nk
⎛ Ai ⎞
N
→δ =
⎜
⎟ =
Ai
N
⎝ A ⎠
log
A
δ
reddito
10
20
30
40
50
60
80
90
100
ni
Xini
800
785
562
587
547
325
258
247
125
4236
8000
15700
16860
23480
27350
19500
20640
22230
12500
166260
fascia dei piu ricchi. 270 redditieri (Nk)detengono
55370€ (Ak)
δ=log(270/4236)/log(55370/166260) =
2,50
66
2. Sintetici
Simboli
A= ammontare carattere;
Xi=quote del carattere A;
Ai= cumulo delle Xi. X1=A1, X1+X2=A2, X1+X2+..Xn= An;
N = Collettivo;
Ni= frequenze cumulate.
Pi=Ni/N;
Qi=Ai/A.
Due casi estremi
Equidistribuzione: P1=Q1,P2=Q2,…Pn-1=Qn-1, Pn=Qn
Max Concentrazione: P1>Q1,P2>Q2,…Pn-1>Qn-1, Pn=Qn
67
La distanza, quindi, tra le Pi e le Qi segna la misura della
concentrazione
Due modi per calcolare la concentrazione: R di Gini Rt
Lorenz.
Entrambi questi indici possono avere un valore
compreso tra 0 e 1
0 = equidistribuzione; 1 = max concentrazione.
n −1
R =
∑
n −1
( pi − qi )
= 1 −
i=1
n −1
∑
pi
i=1
∑
qi
∑
pi
i=1
n −1
i=1
n
Rt = 1− ∑(qi + qi+1 )( pi − pi−1 )
i =1
68
Es.
reddito
ni
10
20
30
40
50
60
80
90
100
Xini
800
785
562
587
547
325
258
247
125
4236
Ai
8000
15700
16860
23480
27350
19500
20640
22230
12500
166260
Ni
8000
23700
40560
64040
91390
110890
131530
153760
166260
R=1,471/5,224
Pi
800
1585
2147
2734
3281
3606
3864
4111
4236
Qi
0,189
0,374
0,507
0,645
0,775
0,851
0,912
0,970
1
5,224
0,048
0,143
0,244
0,385
0,550
0,667
0,791
0,925
1
Pi-Qi
0,141
0,232
0,263
0,260
0,225
0,184
0,121
0,046
0
1,471
0,281585
Qi
1,000
0,900
0,800
0,700
0,600
0,500
0,400
0,300
0,200
0,100
0,000
0,000
0,100
0,200
0,300
0,400
0,500
0,600
0,700
0,800
0,900
1,000
69
Trasformate lineari
Yi= a+bXi
a, b sono i parametri.
Yi = a + bX i → ∑ Yi = ∑ (a + bX i ) →∑ Yi = aN + b∑ X i
dividendo entrambi imenbri per N → My = a + bMx
Yi = a + bX i −
My = a + bMx =
Yi − My = b( X i − Mx) → elevando al quadrato e sommando
2
2
2
(
)
Y
−
My
=
b
(
X
−
Mx
)
∑ i
∑ i
Dev(X) = b 2 Dev(Y);
σx 2 = b 2 σy 2 ; σx = b σy.
70
Standardizzazione
Ponendo a = −
Mx
σ
eb=
1
σ
→ si ottiene la trasformata
Mx 1
Xi − Mx
+ xi →
Zi = −
σ
σ
σ
La variabile standardizzata Zi =
Xi − Mx
σ
ha media Mz = 0 e Var(Z) = 1
La standardizzazione ci permette di confrontare punteggi espressi in
Unità di misura diverse o che sono stati rilevati su collettivi non
omogenei
71
Media
Sqm
Peso padri Peso figli Zp
Zf
78
25 0,5141 0,0687614
85
29 1,809631 1,3064669
79
23 0,699176 -0,550091
76
20 0,143948 -1,47837
78
25 0,5141 0,0687614
70
26 -0,96651 0,3781878
68
27 -1,33666 0,6876142
72
28 -0,59636 0,9970405
71
20 -0,78143 -1,47837
75,22
24,78
0
0
5,403
3,232
1
1
padri
85
Zi
1
Mp=75,22
0
-1
68
20
Mf=24,78
29 figli
72
Distribuzione Normale
Se si riducono progressivamente le ampiezze delle classi di un
istogramma fino a ridurli ad una ampiezza infinitesimale dx di
estremi x, x , m si perviene alla costruzione di una curva di
frequenza. Quando la curva è: unimodale,simmetrica e illimitata si
dice normale X~N(µ,σ2).
73
Le distribuzioni normali sono una famiglia di
distribuzioni che hanno le stesse caratteristiche e lo
stesso andamento. Sono curve simmetriche con
valori più concentrati verso il centro e meno nelle
estremità laterali. Le distribuzioni normali sono delle
curve a campana (ma non tutte le curve a campana
sono distribuzioni normali). Esempi di distribuzione
normale sono mostrati qui sotto.
74
Si noti come le curve normali differiscano per il modo in cui i valori
si distribuiscono. Una distribuzione normale può essere
espressa matematicamente in funzione di due parametri: la
media (µ) e lo scarto tipo (o deviazione standard) (σ).
µ
rappresenta la media, si colloca nel punto di
massimo della curva, dove essa da crescente diventa
decrescente. La media determina la posizione della
curva sull’asse delle ascisse. Data la simmetria e l’unimodalità
nella curva normale µ = Me=Mo.
σ
Scarto quadratico medio si colloca nei punti di flesso dove la
curva cambia andamento e da concava diventa convessa. Lo Sqm
determina l’appiattimento o l’allungamento della curva.
75
La figura seguente illustra un'esempio di distribuzioni normali con
la stessa media ma sqm.
Indipendentemente dal
valore della media e dello
sqm l’area di qualsiasi
curva normale compresa
tra µ-σ e µ+σ è circa il
68% dell’area totale.
Fr(µ-σ <X< µ+σ )=0.68
il 68% dei casi ha un
valore compreso in
questo intervallo.
Cosi pure:
Fr(µ-2σ <X< µ+2σ )=0.95
76
La figura seguente illustra un'esempio di distribuzion
normali con la media diversa ma stesso sqm .
Equazione della curva normale
π = costante 3,14159.
e è la base dei logaritmi naturali ed è uguale a 2,718282.
Y=
1
σ 2π
Modulo di precisione altezza max della curva sull’asse
delle ordinate
77
Curva normale standardizzata
Un particolare tipo di curva è quella normale standardizzata.
Questa curva ha media =0 e varianza=1.
0,45
0,4
0,35
0,3
0,25
0,2
0,15
0,1
0,05
0
-4
-3
-2
-1
0
1
2
3
4
Grazie al teorema della standardizzazione è ossibile calcolare le
aree = frequenze di una qualsiasi curva normale standardizzandola
fr{x a < X < x b } = fr{z a < Z < z b }
78
Calcolo aree curva normale
Il concetto geometrico di area in statistica si utilizza per
rappresentare le frequenze e le probabilità.
L’Area di una curva normale rappresenta dunque il totale delle
Frequenze è sarà = N, 100 o ad 1 a seconda se operiamo con
frequenze assolute,percentuali o relative.
Simboli
Xi ascisse, f(x) ordinate di una normale
Zi, ascisse, f(z) ordinate normale standardizzata.
N(z) area curva norm. st. compresa tra -∞ e un punto Z ≥ 0
NB: la curva norm. stand. Ha solo il “ramo” che si estende nel
quadrante positivo per cui N(-z)=1-N(z).Excel lo fa in automatico
79
Es.
N(170,100)
fr(160<X<180)=
fr[(160-170)/10<Z<(180-170)/10] =
fr(-1<Z<1).
E’ necessario trovare N(-1) ed N(1)
A tale sopo si puo ricorrere alle
funzioni statistiche di excel:
1.
Inserisci funzione;
2.
Selezionare statistica;
3.
Trovare distribuzione norm.st.
Nel ns esempio N(1)=0.8413;
N(-1)=0.1586.
Per cui
fr(160<X<180)=0.8413-0.1586
=0.6827
n(x)
250
200
150
100
50
0
140
150
160
170
180
0
1
190
200
0,45
0,4
0,35
0,3
0,25
0,2
0,15
0,1
0,05
0
-3
-2
-1
2
3
80
Indici di forma
INDICE DI ASIMMETRIA (Skewness)
>0 coda a destra
<0 coda a sinistra
=0 simmetrica
CURTOSI
Misura quanto la distribuzione è appuntita
>3 poco appuntita
=3 caso della distribuzione normale
<3 molto appuntita
N.B. In molti software il coeff. di curtosi viene confrontato con il valore 0
81
Altri indici di forma
Distribuzioni simmetriche unimodali M=Me=Mo;
Distribuzioni asimmetriche Dx M<Me<Mo;
Distribuzioni asimmetriche Sx M>Me>Mo.
A1 = M − Me
A3 =
M − Mo
σ
A2 =
M − Me
σ
M − Mo
A3 =
3( M − Me)
( Me − Q1 ) − (Q3 − Me) 2 Me − Q1 − Q3
A4 =
=
( Me − Q1 ) + (Q3 − Me)
Q3 − Q1
82
EXCEL: Strumento di analisi Statistica descrittiva
Fa un’analisi statistica dei dati selezionati fornendo informazioni
sulla tendenza e dispersione dei dati
Opzioni della finestra di dialogo Statistica descrittiva:
•intervallo di input: immettere il riferimento di cella per
l’intervallo di dati da analizzare
•intervallo di output: immettere il riferimento della cella
superiore sinistra della tabella di output
•Riepilogo statistiche: genera una tabella di output con le
seguenti statistiche:Media, Errore standard (della media),
Mediana, Moda, Dev. Standard, Varianza, Curtosi, Asimmetria,
Intervallo, Min, Max, Somma Conteggio.
83
Media e varianza di dati raggruppati
Supponiamo di avere a disposizione solo la tabella di
distribuzione delle frequenze (dati raggruppati) di dati
continui.
Il calcolo diretto di media e varianza NON è più possibile!!!
Siano t1 ,..., t k i punti medi degli
Classi
ti
vi
intervalli che definiscono le classi
0<x<=1
0,5
e siano ν i le frequenze assolute di
1<x<=2
1,5
,,,
,,,
,,,
ogni classe
Media
∑
x=
Varianza σ
2
k
1
0
t νi
i =1 i
N
(
t
∑
=
i =1
)
2
k
i
− x νi
N
1
=
N
∑
k
t νi − x
2
2
i =1 i
84
Media e varianza di dati raggruppati
Utilizzo i dati raggruppati dell’Esempio 2
85
LE RELAZIONI STATISTICHE
86
Le relazioni statistiche rappresentano un momento fondamentale
nell’ambito di ogni tipo di ricerca.
Se Xi e Yi sono due caratteri statistici abbiamo diversi modi di analizzare
la relazione che intercorre tra di essi. Ad ogn’ uno di questi modi
corrisponde una diverso concetto di Dipendenza.
Per cui si parla di:
1.
Dipendenza o associazione assoluta;
2.
Dipendenza in media;
3.
Correlazione lineare;
4.
Dipendenza analitica.
Siano Ci e Cj due caratteri statistici se entrambi sono quantitativi la loro
distribuzione di frequenza congiunta e rappresentata da una tabella a
doppia entrata. Tale tab. si chiama di contingenza se almeno un
carattere è di tipo qualitativo; di correlazione se entrambi caratteri
sono quantitativi.
87
Ci\Cj
C1
C2
.
.
Ci
.
.
Cr
nj.
C1
n11
n12
.
.
n1i
.
.
n1r
n1.
C2
n21
n22
.
.
n2i
.
.
n2r
n2.
………..
……….
Cj
nj1
nj2
.
.
nji
.
.
njr
nj.
…….
………..
Cc
nc1
nc2
.
.
nci
.
.
ncr
nc.
n.i
n.1
n.2
.
.
n.i
.
.
ncr
N..
nij sono le frequenze vincolate. i posizione di riga, j posizione di colonna;
n.i frequenze marginali di riga;
nj. frequenza marginale di colonna.
Dall’analisi della distribuzione di frequenze si può capire se tra Ci e cj c’è
associazione oppure no.
Ci troveremo in una situazione di max indipenenzaÆ
associazione nulla se:
n1 j
n
n11
n 21
=
=
= .. i . ecc .
n .1
n .2
n. j
N
n 1i
n1.
n 11
n 12
=
=
= ..
ecc .
n .1
n .2
n .i
N
88
C’è massima dipendenza assoluta Æ associazione altissima
Quando ad ogni modalità Ci corrisponderà una sola modalità Cj.
La massima dipendenza può essere binuvoca se abbiamo tabelle
quadrata Æ r=c. In questo caso per ogni riga o colonna una sola
frequenza diversa da 0
C1
C1
C2
C3
C2
0
50
0
50
C3
0
0
25
25
15
0
0
15
15
50
25
90
89
C’è massima dipendenza assoluta Æ associazione
altissima quando ad ogni modalità Ci corrisponderà una sola
modalità Cj.La massima dipendenza può essere univoca se
abbiamo tabelle rettangolari Æ r=c. In questo caso solo sulle
righe o sulle colonne avremo una sola frequenza diversa da 0
r>c
r<c
C1
C1
C2
C3
C2
0
50
0
50
0
0
25
25
C1
C1
C2
C2
0
50
C3
0
0
15
0
15
50
90
1. Misura della associazione:χ2
Il Chiq. È un indice che misura la dipendenza assoluta. Si calcola
confrontando una distribuzione osservata di frequenze nij con
una teorica o attesa nij. La distribuzione delle frequenze
teoriche rappresenta come dovrebbero essere distribuite le
frequenze se non ci fosse associazione. L distanza tra ogni nij
e la rispettiva nijÆ(nij-nij*)= Contingenza. Maggiore è la
contingenza più il modello osservato si allontana da quello
teorico di indipendenza.
Contingenze uguali possono avere significati diversi, per cui ogni
contingenza va rapportata alla rispettiva frequenza teorica la
somma delle contingenze cosi ponderate ci da il Chiq.
χ2 = ∑
c
(nij − nij*) 2
∑r nij *
91
Frequenze teoriche si calcolano cosi: Totale riga i x totale colonna j
N
Tavola di contingenza FUMOS_N * CAT_PESB
CAT_PESB
peso<3694,063g peso>=3694,063g
FUMOS_N Non fumatori Conteggio
86
117
Conteggio atteso
99,10
103,90
fumatori
Conteggio
79
56
Conteggio atteso
65,90
69,10
Totale
165
173
Totale
203
135
338
Chiq= (86-99,10)^2/99,10+(117-103,9)^2/103,9+(79-65,9)^2/65,9+(56-69,1)^2/69,1=
8,4709688
Il Chiq è un indice assoluto e può avere un valore compreso tra 0 e
infinito. Per cui se non c’è associazione Chiq= 0 quando c’è
associazione il Chiq> 0 , nel nostro caso 8.47096, tuttavia non
possiamo dire se il grado di associazione è alto o basso. A tale
scopo è necessario calcolare il chiq realativo
92
Chiq relativo = Chiq/ max Chiq.
Questo indice varierà tra 0 e 1.
0 indipendenza assoluta. 1 max dipendenza
assoluta
Max Chiq N[min(r,c-1)].
Nel ns caso max Chiq = 338*(2-1).
Chiq rel= 8,4796/338=0.025
93
2. Dipendenza parametrica: η2
La dipendenza parametrica ci fornisce informazioni su come fariano
le medie delle variabile dipendente o variabile criterio al variare
delle modalità della variabile indipendente o fattore.
Per costruire l’indice η2 è necessario scomporre la devianza totale in
devianza interna ed esterna secondo lo schema già visto (cfr.diap.n°
). L’indice η2 non è simmetrico cioè ηxy2 può essere diverso da ηyx2
ηxy2
ed ηyx
dipendenti
2
Le variabili
dipendenti
devono essere
solo
quantitative.
94
η xy 2
(Xi − M )ni
∑
= 1−
∑ ( Xi − Mx )ni
η yx 2
(Yi − M )ni
∑
= 1−
∑ (Yi − My )ni
2
( x )i
2
( y )i
2
2
(M − Mx )ni
∑
=
∑ ( Xi − Mx )ni
2
( x )i
2
(M − My )ni
∑
=
∑ (Yi − My )ni
1-Dev(int)/Dev (T)
2
( y )i
2
Dev(est)/Dev (T)
0<η2<1
95
Es.
2
X a
Xa
2
5
6
8
9
5
4
Som m e X
2
Som m e X
M edie M j
Nj
Dev (T) =
Dev (B) =
Dev (W )
2
X b
Xb
4
25
36
64
81
25
16
39
3
2
3
3
5
6
4
2
28
251
5,6
7
2
X c
Xc
9
4
9
9
25
36
16
4
5
4
4
6
2
25
16
16
36
4
Totali
21
103
3,5
8
2
426-20*4,4
2
2
2
(5,6-4,4) *7+(3,5-4,4) *8+(4,2-4,4) *5
72
4,2
5
88
426
4,4
20
38,8
16,76
22,04
η2=16.76/38.8=0.43
96
3. Correlazione lineare
Finora abbiamo considerato una variabile alla volta, ora tratteremo analisi
di tipo comparativo:
a. Osservo una variabile su piu’ gruppi di individui
b. Osservo piu’ variabili su un gruppo di individui
c. Entrambe le situazioni a. e b.
Esiste correlazione tra le variabili?
Scatterplot, diagramma a dispersione
Umidita' Evaporazione del solvente
35,3
11
29,7
11,1
30,8
12,5
58,8
8,4
61,4
9,3
71,3
8,7
74,4
6,4
76,7
8,5
70,7
7,8
57,5
9,1
46,4
8,2
28,9
12,2
Evaporazione del solvente
14
12
10
8
Evaporazione del
solvente
6
4
2
0
0
50
100
97
Date n osservazioni congiunte di 2 variabili
{( x1 , y1 ), ( x2 , y2 ),..., ( xn , yn )}
Codevianza
cod(xy) = ∑ (Xi - Mx)(Yi - My) = ∑ XiYi - MxMy
Covarianza
cov(xy) = σ xy
cod(xy)
=
=
N
∑ (Xi - Mx)(Yi - My) = ∑ XiYi − NMxMy = Myx − MxMy
•Se σx,y>0 concordanza
•Se σx,y<0 discordanza
•Se σx,y= 0 indifferenza
N
N
La cov(xy) ci segnali quindi se c’è
concordanza, discorcanza o indifferenza,
ma essendo un indice assoluto non ci dice
quanto la concordanza, la discordanza o
l’indifferenza sono grandi. Per avere
questa informazione si ricorre all’indice di
correlazione
98
Correlazione lineare di Bravais-Pearson:rxy=ryx=r
Indice di correlazione
r=
cod(xy)
Dev(x)Dev(y)
=
cov(xy)
var(x) var( y)
→
∑ XiYi - NMxMy
[∑ Xi − NMx ][ ∑ Yi − NMy
2
2
2
2
]
| r |≤ 1, cioè − 1 ≤ r ≤ 1
99
Diagramma di dispersione e indice di correlazione
r = 0.6
r=1
y
y
x
x
y
y
r = -0.8
r = -1
x
r=0
y
r=0
x
y
x
v
x
100
4.Dipendenza analitica: retta di regressione
Si vuole cercare la relazione lineare tra due variabili x e y.
{
}
Date n osservazioni congiunte di 2 variabili ( x1 , y1 ), ( x2 , y2 ),..., ( xn , yn )
cerco due coefficienti a e b tali che y*=ax+b passi il più possibile vicino
a questi punti.
101
Retta di regressione
y i = axi + b + ε i
b → intercetta
a → coefficente di regressione
yi = variabile indipendente
xi = variabiledipendente
εi = fattori esogeni
La relazione tra Xi e Yi è, per la presenza diεi, e di natura statistica e
non deterministica. Cioè la Xi non determina il valore della Yi in modo
univoco per cui ad ogni valore di Xi non corrisponde sempre un solo e
unico valore di Yi .
Ci chiediamo quali dovrebbero essere i valori di Yi se fossero
determinati solo da Xi, se non ci fosse cioè l’effetto di εi.
102
Ci proponiamo dunque di stimare i valori Yi che chiameremo Yi* (Yteoriche)
Yi=aXi+bεÆYi*=aXi+b
A tale scopo è necessario compiere tre passi:
1.
Decidere quale tipo di funzione utilizzare. ( nel ns caso equaz.1°retta);
2.
Stimare i parametri della equazione ;
3.
Valutare la bontà del modello.
1. Si può a tale scopo esplorare il diagramma di dispersione per valutare se
l’andamento dei punti può essere rappresentato in modo efficace con
una retta. Inoltre facendo (η2-r2)/(1-r2) otteniamo un indice di non
linearità.
2. Il metodo per stimate i parametri che si utilizza è quello dei minimi
quadrati, che consiste nello stimare i parametri sotto la condizione
che la somma degli scarti al quadrato tra Yi e Yi* sia minima.
n
[
]
f (a , b) = ∑ yi − (axi + b)
i =1
2
103
Yi*=aXi+b
a=
cod(xy) cov (xy)
=
→
Dev(x) Var(x)
∑ XiYi-NMxMy = r σy
σx
∑ Xi − NMx
2
2
b = My − aMx
Xi*=cYi+d
c=
cod(xy) cov (xy)
=
→
Dev(y) Var(y)
∑ XiYi-NMxMy = r σx
σy
∑ Yi − NMy
2
2
d = Mx − cMy
104
Scomposizione della devianza
3. Valutazione bontà di adattamento.
D(T)= devianza totale.
D(reg)= devianza regressioneÆ quanta
parte della variabilità totale di Yi è
“intercettata” dal modello di
regressione.
D(res)= devianza residuaÆ quanta parte
del modello di regressione non è
“intercettata” dalla retta di
regressione .
2
(
Yi
*
−
My
)
∑
2
(
Yi
−
My
)
∑
2
(
Yi
−
Yi
*)
∑
105
Erore standard della stima e indice di determinazione
σy / x =
2
−
Yi
Yi
(
*)
∑
N
;
σx / y =
2
−
Xi
Xi
(
*)
∑
N
Dev(reg)
Dev(res)
ρ=
= 1−
= r2
Dev(T)
Dev(T)
0 ≤ ρ ≤1
106
6000
5000
4000
PES_BAM
3000
2000
1000
30
40
50
60
70
80
90
100
P_MAM
107
Riepilogo del modello
Modello
1
R
,250a
R-quadrato
corretto
,059
R-quadrato
,062
Errore std.
della stima
528,8169
a. Stimatori: (Costante), P_MAM
Coefficientia
Modello
1
(Costante)
P_MAM
Coefficienti non
s tandardizzati
B
Errore s td.
2894,249
178,101
14,068
3,037
Coefficienti
s tandardizzati
Beta
,250
t
16,251
4,632
Sig.
,000
,000
a. Variabile dipendente: PES_BAM
ANOVAb
Modello
1
Som m a dei
quadrati
Regress ione 6000925,931
Res iduo
90326081,3
Totale
96327007,2
df
1
323
324
Media dei
quadrati
6000926
279647,3
F
21,459
Sig.
,000 a
a. Stim atori: (Cos tante), P_MAM
b. Variabile dipendente: PES_BAM
108
EXCEL: Retta di regressione
Es: Stabilire se c’e’ dipendenza lineare tra
l’umidita’ del magazzino e l’evaporazione di un
certo componente chimico.
Umidita' Evaporazione del solvente
35,3
11
29,7
11,1
30,8
12,5
58,8
8,4
61,4
9,3
71,3
8,7
74,4
6,4
76,7
8,5
70,7
7,8
57,5
9,1
46,4
8,2
28,9
12,2
28,1
11,9
Evaporazione del solvente
14
12
10
8
6
4
2
0
Evaporazione del
solvente
0
50
100
Utilizzando la funzione =CORRELAZIONE(dati_1;dati_2)
ottengo r = - 0.84695
Ha senso determinare la retta di regressione
109
EXCEL: Retta di regressione
Step3: Retta di regressione
Avendo gia’ lo scatterplot seleziono: Grafico-Aggiungi linea di tendenza
y = -0,0801x + 13,639
14
12
10
8
Serie1
6
Lineare (Serie1)
4
y = -0,0801x + 13,639
2
0
0
50
100
110