Analisi della varianza (1 fattore)

Transcript

Analisi della varianza (1 fattore)
Analisi della Varianza
Compl. Prob. & Stat a.a. 04/05 Analisi della varianza 1 fattore
1
Esempio: Una industria di carta usata per buste per salumerie vuole
migliorare la resistenza alla trazione del proprio prodotto.
Si ritiene che
resistenza alla trazione = f(concentrazione di legno nella pasta)
Fattore
Il gruppo di ingegneri responsabile del progetto decide di investigare
4 livello di concentrazione del legno:
5%
10%
15%
20%
Livelli
Per ogni livello decidono di realizzare 6 provini usando una pianta pilota.
Repliche
I 24 provini vengono poi testati in un laboratorio di trazione in ordine
casuale
Compl. Prob. & Stat a.a. 04/05 Analisi della varianza 1 fattore
2
1
Il ruolo dell’ordine casuale è fondamentale per minimizzare l’effetto di ogni variabile di “fastidio” (ad esempio l’ effetto surriscaldamento della macchina di tensione)
Livelli 1 2 3
5
7 8 15
10 12 17 13
15 14 18 19
20 19 25 22
4 5 6 Totale Media
11 9 10 60
10
18 19 15 94 15,67
17 16 18 102
17
23 18 20 127 21,17
Domanda: I 4 livelli di concentrazione sono statisticamente differenti al livello di significatività α?
1. Disegnare il Box plot
Compl. Prob. & Stat a.a. 04/05 Analisi della varianza 1 fattore
3
30
25
20
15
10
5
0
q1
min
med
max
q3
5
10
15
Compl. Prob. & Stat a.a. 04/05 Analisi della varianza 1 fattore
20
4
2
Il Modello Matematico:
progetto sperimentale completamente casuale
i = 1,2,..., a
Yij = µ + τ i + ε ij 
 j = 1,2,..., n
osservazioni
parametro comune
a tutti i trattamenti:
media totale
numero di osservazioni per livello
numero di
livelli
Componente di errore casuale
parametro o v.a. associato all’
i-esimo trattamento: i-esimo
effetto
Compl. Prob. & Stat a.a. 04/05 Analisi della varianza 1 fattore
5
H 0 : τ1 = τ 2 = L = τ a = 0
H 1 : τ i ≠ 0 (esiste almeno uno)
a
∑τ
i =1
i
=0
Effetti fissi
Idea: La variabilità totale della popolazione viene
suddivisa in due parti; dal confronto di queste
due parti si decide quanto i trattamenti influenzino
i dati
∑∑ (y
a
2
n
i =1 j =1
ij
2
2
− y • • ) = n∑ ( y i• − y • • ) + ∑∑ ( y ij − y •i )
a
i =1
Compl. Prob. & Stat a.a. 04/05 Analisi della varianza 1 fattore
a
n
i =1 j =1
6
3
∑∑ (y
a
2
n
i =1 j =1
ij
2
2
− y • • ) = n∑ ( y i • − y • • ) + ∑∑ ( y ij − y •i )
a
i =1
a
n
i =1 j =1
Varianza campionaria
di tutte le osservazioni
Varianza campionaria
degli errori
Varianza campionaria
dei trattamenti
a
E [SS Trattamenti ] = (a − 1)σ + n∑ τ i2
2
i =1
E [SS Errore ] = a(n − 1)σ 2
Compl. Prob. & Stat a.a. 04/05 Analisi della varianza 1 fattore
MSTRATTAMENTI =
MS ERRORE =
SSTRATTAMENTI
(a − 1)
SS ERRORE
a (n − 1)
7
Media quadratica dei trattamen
Errore quadratico medio
Se H 0 : τ 1 = τ 2 = L = τ a = 0 è vera ⇒ E [MSTrattament i ] = σ 2
Se H 0 : τ 1 = τ 2 = L = τ a = 0 è falsa ⇒ E [MSTrattamenti ] > σ 2
Invece l’errore quadratico medio è uno stimatore corretto
della varianza indipendentemente dall’essere vera o meno
l’ipotesi nulla.
Se H 0 : τ 1 = τ 2 = L = τ a = 0 è falsa ⇒ E [MSTrattament i ] > E[ MS ERRORE ]
Compl. Prob. & Stat a.a. 04/05 Analisi della varianza 1 fattore
8
4
SS Trattamenti
(a − 1)
≈ Fischer (a − 1, a (n − 1) )
SS Errore
Si rigetta l’ipotesi nulla se
a (n − 1)
il valore calcolato della
statistica è maggiore di
f α ,a −1,n ( a −1)
SS T = 512.96
Esempio:
SS Trattamenti = 382.79
SS Errore = SS T − SS Trattamenti = 130.17
F0 = 19.60 > f 0.01,3, 20 = 3.09
Compl. Prob. & Stat a.a. 04/05 Analisi della varianza 1 fattore
9
Analisi della Varianza con Excel
Compl. Prob. & Stat a.a. 04/05 Analisi della varianza 1 fattore
10
5
Risultati con Excel
RIEPILOGO
Gruppi
5
10
15
20
Conteggio Somma
Media Varianza
6
60
10
8
6
94 15,6667 7,86667
6
102
17
3,2
6
127 21,1667 6,96667
ANALISI VARIANZA
Origine della variazione
Tra gruppi
In gruppi
SQ
gdl
MQ
F
Valore di significatività F crit
382,79
3 127,597 19,6052
3,59258E-06 3,0984
130,17
20 6,50833
Totale
512,96
23
Compl. Prob. & Stat a.a. 04/05 Analisi della varianza 1 fattore
11
Quali medie differiscono?
Compl. Prob. & Stat a.a. 04/05 Analisi della varianza 1 fattore
12
6
5
10
Media
10
Errore stan 1,154701
Mediana
9,5
Moda
#N/D
Deviazione 2,828427
8
Varianza c
Curtosi
1,66875
Asimmetria 1,193243
Intervallo
8
Minimo
7
Massimo
15
Somma
60
Conteggio
6
Livello di co 2,968247
15
Media
15,66667
Errore stan 1,145038
Mediana
16
Moda
#N/D
Deviazione 2,804758
Varianza c 7,866667
Curtosi
-1,86369
Asimmetria -0,22359
Intervallo
7
Minimo
12
Massimo
19
Somma
94
Conteggio
6
Livello di co 2,943408
20
Media
17
Errore stan 0,730297
Mediana
17,5
Moda
18
Deviazione 1,788854
Varianza c
3,2
Curtosi
0,585938
Asimmetria -0,94334
Intervallo
5
Minimo
14
Massimo
19
Somma
102
Conteggio
6
Livello di co 1,877284
Media
21,16667
Errore stan 1,077549
Mediana
21
Moda
#N/D
Deviazione 2,639444
Varianza c 6,966667
Curtosi
-1,17099
Asimmetria 0,319046
Intervallo
7
Minimo
18
Massimo
25
Somma
127
Conteggio
6
Livello di co 2,769922
30
25
20
Serie1
15
Serie2
Serie3
10
5
Grafico degli
Intervalli di
confidenza
0
5
10
15
20
Compl. Prob. & Stat a.a. 04/05 Analisi della varianza 1 fattore
13
Test F a due campioni per varianze
5
Media
Varianza
Osservazioni
gdl
F
P(F<=f) una coda
F crtitico una coda
20
10 21,16667
8 6,966667
6
6
5
5
1,148325
0,441535
5,050339
Compl. Prob. & Stat a.a. 04/05 Analisi della varianza 1 fattore
14
7
Test t: due campioni assumendo uguale varianza
Media
Varianza
Osservazioni
Varianza complessiva
Differenza ipotizzata per le medie
gdl
Stat t
P(T<=t) una coda
t critico una coda
P(T<=t) due code
t critico due code
20
21,16667
6,966667
6
7,483333
0
10
7,07028
1,71E-05
1,812462
3,41E-05
2,228139
Compl. Prob. & Stat a.a. 04/05 Analisi della varianza 1 fattore
5
10
8
6
15
Fisher Test
Il test di Fisher è necessario per confrontare coppie di livelli
(velocemente!!)
H 0 : µi = µ j
H 0 : µi = µ j
H1 : µi ≠ µ j
H1 : µi ≠ µ j
T=
y i• − y j •
2 MS Err
n
≈ T - student a (n -1)
Le medie di due livelli saranno significativamente diversi se
y i • − y j • > LSD = t α / 2 , a ( n −1)
2 MS Err
n
 1
1 
nel caso di taglie diverse y i • − y j • > LSD = t α / 2 , N − a MS Err  +

n
 i nj 
Compl. Prob. & Stat a.a. 04/05 Analisi della varianza 1 fattore
16
8
Diff. Tra medie 5 10 15
20
0
5,7
7
11,17
5
0 1,3 5,47
10
0 4,17
15
0
20
2MS err
2 ∗ 6.50
= 2.085
= 3.07
n
6
t 0,025; 20
30
25
20
Serie1
15
Serie2
Serie3
10
5
0
5
10
15
20
Compl. Prob. & Stat a.a. 04/05 Analisi della varianza 1 fattore
17
Analisi dei residui
Yij = µ + τ i + ε ij ≈ N ( µ + τ , σ 2 ) ⇒ residui : y ij − y i•
Affinchè il modello
sia accettabile, i
residui devono
avere distribuzione
gaussiana
-> test
-> Q-Q plot
quantili
Residui
-3
-2
-1
Compl. Prob. & Stat a.a. 04/05 Analisi della varianza 1 fattore
6
5
4
3
2
1
0
-1 0
-2
-3
-4
-5
1
2
3
18
9
Il modello a effetti casuali
Yij = µ + τ i + ε ij
Eff. casuali
a
∑τ
Eff. fissi
i =1
i
τ i ≈ N (0, σ τ2 ), i.i.d .
=0
Livelli infiniti
oppure troppo
numerosi
Strategia di
campionamento
dei livelli
Compl. Prob. & Stat a.a. 04/05 Analisi della varianza 1 fattore
19
Modello a effetti variabili
H 0 : σ τ2 = 0
Unico fattore
H 1 : σ τ2 > 0
∑∑ (y
a
i =1 j =1
Stima di
στ
2
2
n
ij
NB: la decomposizione
della variabilità totale
sussiste ancora
2
2
− y •• ) = n∑ ( y i• − y •• ) + ∑∑ ( y ij − y i• )
SS TOT
a
i =1
a
n
i =1 j =1
SS Liv
SS ER
 SS ER 
 SS 
E  Liv  = σ 2 + nσ τ2 e inoltre E 
=σ2

 a −1 
 a (n − 1) 
SS Liv
a − 1 ≈ F (a − 1, a (n − 1) )
SS Er
a (n − 1)
Compl. Prob. & Stat a.a. 04/05 Analisi della varianza 1 fattore
Stima di
σ2
20
10
Modello a effetti variabili
∑∑ (y
a
)
2
n
2
∑
a
∑∑ (
a
)
2
n
− y • • = n ( yi • − y• • ) +
yij − yi•
=1
i =1 j =1
i =1 j =1
42443 1
1
442443 1i4
442443
ij
SS LIV
SSTOT
 SS

E  Livelli  = σ 2 + nσ τ2
 a −1 
⇓
σˆ τ2 =
MS LIV − MS ERR
n
SS ERR
 SS

E  Errori  = σ 2
 a(n − 1) 
⇓
MSErrori stimatore corr. σ 2
Compl. Prob. & Stat a.a. 04/05 Analisi della varianza 1 fattore
21
Esempio: Una compagnia di manufatti tessili progetta una fabbrica con un elevato numero di telai. La compagnia vuole studiare la variabilità tra un telaio e l’altro della resistenza tessile. A questo scopo vengono selezionati 4 telai a caso e da
ogni telaio 4 campioni tessili a caso di cui viene misurata la
resistenza.
Telaio
1
2
3
4
1
98
91
96
95
Stoffa
2
3
97
99
90
93
95
97
96
99
Compl. Prob. & Stat a.a. 04/05 Analisi della varianza 1 fattore
4
96
92
95
98
22
11
Compl. Prob. & Stat a.a. 04/05 Analisi della varianza 1 fattore
23
Analisi varianza: ad un fattore
RIEPILOGO
Gruppi Conteggio Somma
1
4
390
2
4
366
3
4
383
4
4
388
ANALISI VARIANZA
e della varia SQ
Tra gruppi
89,1875
In gruppi
22,75
Totale
gdl
111,9375
Media
97,5
91,5
95,75
97
Varianza
1,666667
1,666667
0,916667
3,333333
σˆ 2 = 1.90
σˆ τ2 = 6.96
Var (Yij ) = 8.86
MQ
F
e di significa F crit
3 29,72917 15,68132 0,000188
3,4903
12 1,895833
15
1
Media
97,5
Errore stan 0,645497
Mediana
97,5
Moda
#N/D
Deviazione 1,290994
Varianza c 1,666667
Curtosi
-1,2
0
Asimmetria
Intervallo
3
Minimo
96
Massimo
99
Somma
390
Conteggio
4
Livello di co 2,054262
2
3
Media
91,5
Errore stan 0,645497
Mediana
91,5
Moda
#N/D
Deviazione 1,290994
Varianza c 1,666667
Curtosi
-1,2
Asimmetria -9,3E-18
Intervallo
3
Minimo
90
Massimo
93
Somma
366
Conteggio
4
Livello di co 2,054262
Media
95,75
Errore stan 0,478714
Mediana
95,5
Moda
95
Deviazione 0,957427
Varianza c 0,916667
Curtosi
-1,28926
Asimmetria 0,854563
Intervallo
2
Minimo
95
Massimo
97
Somma
383
Conteggio
4
Livello di co 1,523482
4
Media
97
Errore stan 0,912871
Mediana
97
Moda
#N/D
Deviazione 1,825742
Varianza c 3,333333
Curtosi
-3,3
Asimmetria 1,85E-17
Intervallo
4
Minimo
95
Massimo
99
Somma
388
Conteggio
4
Livello di co 2,905165
Compl. Prob. & Stat a.a. 04/05 Analisi della varianza 1 fattore
24
12
Diff. 1
1 0
2
3
4
2
6
0
3
1,75
4,25
0
4
0,5
5,5
1,25
0
t 0,025;12
2MS err
= 2.11
n
100
q1
95
min
90
med
85
max
1
2
3
4
q3
Telaio
Compl. Prob. & Stat a.a. 04/05 Analisi della varianza 1 fattore
25
Analisi dei residui
Residui
quantili
4
2
0
-4
-2
-2 0
2
4
-4
Compl. Prob. & Stat a.a. 04/05 Analisi della varianza 1 fattore
26
13
Esercizio 1: Per migliorare le caratteristiche di durata a sollecitazioni
dinamiche di un componente aeronautico, si è deciso di aggiungere delle fibre di carbonio al materiale composito con cui è prodotto. Si è tuttavia incerti su quale sia la migliore lunghezza delle fibre tra le 4 possibili per questa particolare applicazione. Si decide pertanto di effettuare una breve sperimentazione per appurare innanzitutto se la lunghezza
delle fibre abbia o meno un effetto significativo sulla durata del componente. Nel caso che l’effetto esista, si vuole conoscere quale sia la lunghezza ottima da utilizzare.
Livello
1
2
3
4
1
8,99
11,62
11,85
7,57
2
9,89
11,4
11,33
11,27
3
9,61
11,11
11,84
8,94
4
9,31
10,8
13,83
7,89
5
9,35
11,72
11,05
9,28
Durate dei prototipi espresse in cicli per 10^6
Compl. Prob. & Stat a.a. 04/05 Analisi della varianza 1 fattore
27
Analisi varianza: ad un fattore
RIEPILOGO
Gruppi
Riga 1
Riga 2
Riga 3
Riga 4
Conteggio Somma
5
47,15
5
56,65
5
59,9
5
44,95
ANALISI VARIANZA
Origine della variazione
Tra gruppi
In gruppi
SQ
31,430375
14,2866
Totale
45,716975
gdl
Media Varianza
9,43 0,1146
11,33 0,1426
11,98 1,1866
8,99 2,12785
MQ
F
Val sign
F crit
3 10,47679 11,7333 0,000258 3,238867
16 0,892913
19
Si deduce che l’ipotesi di inefficacia del trattamento va rigettata
Compl. Prob. & Stat a.a. 04/05 Analisi della varianza 1 fattore
28
14
15
q1
10
min
5
med
0
max
1
2
3
4
q3
prototipi
Diff.
1
2
3
4
1
0
2
1,9
0
3
2,55
0,65
0
4
0,44
2,34
2,99
0
t 0.025;16 = 2.11
⇒ Quantile = 1.26
Compl. Prob. & Stat a.a. 04/05 Analisi della varianza 1 fattore
29
Esercizio 2: Una fabbrica tessile ha un gran numero di telai. Si presuppone che ogni telaio produca lo stesso output di panno per minuto.
Per sperimentare questa supposizione sono stati scelti 5 telai a caso ed
è stato misurato il tempo di produzione di un panno campione.
Telai
1
2
3
4
5
a)
b)
c)
d)
1
4,0
3,9
4,1
3,6
3,8
2
4,1
3,8
4,2
3,8
3,6
3
4,2
3,9
4,1
4,0
3,9
4
4,0
4,0
4,0
3,9
3,8
5
4,1
4,0
3,9
3,7
4,0
Sono i telai simili in output?
Stimare la variabilità tra i telai
Stimare la varianza dell’errore sperimentale
Applicare il Fisher Test.
Compl. Prob. & Stat a.a. 04/05 Analisi della varianza 1 fattore
30
15