Analisi della varianza (1 fattore)
Transcript
Analisi della varianza (1 fattore)
Analisi della Varianza Compl. Prob. & Stat a.a. 04/05 Analisi della varianza 1 fattore 1 Esempio: Una industria di carta usata per buste per salumerie vuole migliorare la resistenza alla trazione del proprio prodotto. Si ritiene che resistenza alla trazione = f(concentrazione di legno nella pasta) Fattore Il gruppo di ingegneri responsabile del progetto decide di investigare 4 livello di concentrazione del legno: 5% 10% 15% 20% Livelli Per ogni livello decidono di realizzare 6 provini usando una pianta pilota. Repliche I 24 provini vengono poi testati in un laboratorio di trazione in ordine casuale Compl. Prob. & Stat a.a. 04/05 Analisi della varianza 1 fattore 2 1 Il ruolo dell’ordine casuale è fondamentale per minimizzare l’effetto di ogni variabile di “fastidio” (ad esempio l’ effetto surriscaldamento della macchina di tensione) Livelli 1 2 3 5 7 8 15 10 12 17 13 15 14 18 19 20 19 25 22 4 5 6 Totale Media 11 9 10 60 10 18 19 15 94 15,67 17 16 18 102 17 23 18 20 127 21,17 Domanda: I 4 livelli di concentrazione sono statisticamente differenti al livello di significatività α? 1. Disegnare il Box plot Compl. Prob. & Stat a.a. 04/05 Analisi della varianza 1 fattore 3 30 25 20 15 10 5 0 q1 min med max q3 5 10 15 Compl. Prob. & Stat a.a. 04/05 Analisi della varianza 1 fattore 20 4 2 Il Modello Matematico: progetto sperimentale completamente casuale i = 1,2,..., a Yij = µ + τ i + ε ij j = 1,2,..., n osservazioni parametro comune a tutti i trattamenti: media totale numero di osservazioni per livello numero di livelli Componente di errore casuale parametro o v.a. associato all’ i-esimo trattamento: i-esimo effetto Compl. Prob. & Stat a.a. 04/05 Analisi della varianza 1 fattore 5 H 0 : τ1 = τ 2 = L = τ a = 0 H 1 : τ i ≠ 0 (esiste almeno uno) a ∑τ i =1 i =0 Effetti fissi Idea: La variabilità totale della popolazione viene suddivisa in due parti; dal confronto di queste due parti si decide quanto i trattamenti influenzino i dati ∑∑ (y a 2 n i =1 j =1 ij 2 2 − y • • ) = n∑ ( y i• − y • • ) + ∑∑ ( y ij − y •i ) a i =1 Compl. Prob. & Stat a.a. 04/05 Analisi della varianza 1 fattore a n i =1 j =1 6 3 ∑∑ (y a 2 n i =1 j =1 ij 2 2 − y • • ) = n∑ ( y i • − y • • ) + ∑∑ ( y ij − y •i ) a i =1 a n i =1 j =1 Varianza campionaria di tutte le osservazioni Varianza campionaria degli errori Varianza campionaria dei trattamenti a E [SS Trattamenti ] = (a − 1)σ + n∑ τ i2 2 i =1 E [SS Errore ] = a(n − 1)σ 2 Compl. Prob. & Stat a.a. 04/05 Analisi della varianza 1 fattore MSTRATTAMENTI = MS ERRORE = SSTRATTAMENTI (a − 1) SS ERRORE a (n − 1) 7 Media quadratica dei trattamen Errore quadratico medio Se H 0 : τ 1 = τ 2 = L = τ a = 0 è vera ⇒ E [MSTrattament i ] = σ 2 Se H 0 : τ 1 = τ 2 = L = τ a = 0 è falsa ⇒ E [MSTrattamenti ] > σ 2 Invece l’errore quadratico medio è uno stimatore corretto della varianza indipendentemente dall’essere vera o meno l’ipotesi nulla. Se H 0 : τ 1 = τ 2 = L = τ a = 0 è falsa ⇒ E [MSTrattament i ] > E[ MS ERRORE ] Compl. Prob. & Stat a.a. 04/05 Analisi della varianza 1 fattore 8 4 SS Trattamenti (a − 1) ≈ Fischer (a − 1, a (n − 1) ) SS Errore Si rigetta l’ipotesi nulla se a (n − 1) il valore calcolato della statistica è maggiore di f α ,a −1,n ( a −1) SS T = 512.96 Esempio: SS Trattamenti = 382.79 SS Errore = SS T − SS Trattamenti = 130.17 F0 = 19.60 > f 0.01,3, 20 = 3.09 Compl. Prob. & Stat a.a. 04/05 Analisi della varianza 1 fattore 9 Analisi della Varianza con Excel Compl. Prob. & Stat a.a. 04/05 Analisi della varianza 1 fattore 10 5 Risultati con Excel RIEPILOGO Gruppi 5 10 15 20 Conteggio Somma Media Varianza 6 60 10 8 6 94 15,6667 7,86667 6 102 17 3,2 6 127 21,1667 6,96667 ANALISI VARIANZA Origine della variazione Tra gruppi In gruppi SQ gdl MQ F Valore di significatività F crit 382,79 3 127,597 19,6052 3,59258E-06 3,0984 130,17 20 6,50833 Totale 512,96 23 Compl. Prob. & Stat a.a. 04/05 Analisi della varianza 1 fattore 11 Quali medie differiscono? Compl. Prob. & Stat a.a. 04/05 Analisi della varianza 1 fattore 12 6 5 10 Media 10 Errore stan 1,154701 Mediana 9,5 Moda #N/D Deviazione 2,828427 8 Varianza c Curtosi 1,66875 Asimmetria 1,193243 Intervallo 8 Minimo 7 Massimo 15 Somma 60 Conteggio 6 Livello di co 2,968247 15 Media 15,66667 Errore stan 1,145038 Mediana 16 Moda #N/D Deviazione 2,804758 Varianza c 7,866667 Curtosi -1,86369 Asimmetria -0,22359 Intervallo 7 Minimo 12 Massimo 19 Somma 94 Conteggio 6 Livello di co 2,943408 20 Media 17 Errore stan 0,730297 Mediana 17,5 Moda 18 Deviazione 1,788854 Varianza c 3,2 Curtosi 0,585938 Asimmetria -0,94334 Intervallo 5 Minimo 14 Massimo 19 Somma 102 Conteggio 6 Livello di co 1,877284 Media 21,16667 Errore stan 1,077549 Mediana 21 Moda #N/D Deviazione 2,639444 Varianza c 6,966667 Curtosi -1,17099 Asimmetria 0,319046 Intervallo 7 Minimo 18 Massimo 25 Somma 127 Conteggio 6 Livello di co 2,769922 30 25 20 Serie1 15 Serie2 Serie3 10 5 Grafico degli Intervalli di confidenza 0 5 10 15 20 Compl. Prob. & Stat a.a. 04/05 Analisi della varianza 1 fattore 13 Test F a due campioni per varianze 5 Media Varianza Osservazioni gdl F P(F<=f) una coda F crtitico una coda 20 10 21,16667 8 6,966667 6 6 5 5 1,148325 0,441535 5,050339 Compl. Prob. & Stat a.a. 04/05 Analisi della varianza 1 fattore 14 7 Test t: due campioni assumendo uguale varianza Media Varianza Osservazioni Varianza complessiva Differenza ipotizzata per le medie gdl Stat t P(T<=t) una coda t critico una coda P(T<=t) due code t critico due code 20 21,16667 6,966667 6 7,483333 0 10 7,07028 1,71E-05 1,812462 3,41E-05 2,228139 Compl. Prob. & Stat a.a. 04/05 Analisi della varianza 1 fattore 5 10 8 6 15 Fisher Test Il test di Fisher è necessario per confrontare coppie di livelli (velocemente!!) H 0 : µi = µ j H 0 : µi = µ j H1 : µi ≠ µ j H1 : µi ≠ µ j T= y i• − y j • 2 MS Err n ≈ T - student a (n -1) Le medie di due livelli saranno significativamente diversi se y i • − y j • > LSD = t α / 2 , a ( n −1) 2 MS Err n 1 1 nel caso di taglie diverse y i • − y j • > LSD = t α / 2 , N − a MS Err + n i nj Compl. Prob. & Stat a.a. 04/05 Analisi della varianza 1 fattore 16 8 Diff. Tra medie 5 10 15 20 0 5,7 7 11,17 5 0 1,3 5,47 10 0 4,17 15 0 20 2MS err 2 ∗ 6.50 = 2.085 = 3.07 n 6 t 0,025; 20 30 25 20 Serie1 15 Serie2 Serie3 10 5 0 5 10 15 20 Compl. Prob. & Stat a.a. 04/05 Analisi della varianza 1 fattore 17 Analisi dei residui Yij = µ + τ i + ε ij ≈ N ( µ + τ , σ 2 ) ⇒ residui : y ij − y i• Affinchè il modello sia accettabile, i residui devono avere distribuzione gaussiana -> test -> Q-Q plot quantili Residui -3 -2 -1 Compl. Prob. & Stat a.a. 04/05 Analisi della varianza 1 fattore 6 5 4 3 2 1 0 -1 0 -2 -3 -4 -5 1 2 3 18 9 Il modello a effetti casuali Yij = µ + τ i + ε ij Eff. casuali a ∑τ Eff. fissi i =1 i τ i ≈ N (0, σ τ2 ), i.i.d . =0 Livelli infiniti oppure troppo numerosi Strategia di campionamento dei livelli Compl. Prob. & Stat a.a. 04/05 Analisi della varianza 1 fattore 19 Modello a effetti variabili H 0 : σ τ2 = 0 Unico fattore H 1 : σ τ2 > 0 ∑∑ (y a i =1 j =1 Stima di στ 2 2 n ij NB: la decomposizione della variabilità totale sussiste ancora 2 2 − y •• ) = n∑ ( y i• − y •• ) + ∑∑ ( y ij − y i• ) SS TOT a i =1 a n i =1 j =1 SS Liv SS ER SS ER SS E Liv = σ 2 + nσ τ2 e inoltre E =σ2 a −1 a (n − 1) SS Liv a − 1 ≈ F (a − 1, a (n − 1) ) SS Er a (n − 1) Compl. Prob. & Stat a.a. 04/05 Analisi della varianza 1 fattore Stima di σ2 20 10 Modello a effetti variabili ∑∑ (y a ) 2 n 2 ∑ a ∑∑ ( a ) 2 n − y • • = n ( yi • − y• • ) + yij − yi• =1 i =1 j =1 i =1 j =1 42443 1 1 442443 1i4 442443 ij SS LIV SSTOT SS E Livelli = σ 2 + nσ τ2 a −1 ⇓ σˆ τ2 = MS LIV − MS ERR n SS ERR SS E Errori = σ 2 a(n − 1) ⇓ MSErrori stimatore corr. σ 2 Compl. Prob. & Stat a.a. 04/05 Analisi della varianza 1 fattore 21 Esempio: Una compagnia di manufatti tessili progetta una fabbrica con un elevato numero di telai. La compagnia vuole studiare la variabilità tra un telaio e l’altro della resistenza tessile. A questo scopo vengono selezionati 4 telai a caso e da ogni telaio 4 campioni tessili a caso di cui viene misurata la resistenza. Telaio 1 2 3 4 1 98 91 96 95 Stoffa 2 3 97 99 90 93 95 97 96 99 Compl. Prob. & Stat a.a. 04/05 Analisi della varianza 1 fattore 4 96 92 95 98 22 11 Compl. Prob. & Stat a.a. 04/05 Analisi della varianza 1 fattore 23 Analisi varianza: ad un fattore RIEPILOGO Gruppi Conteggio Somma 1 4 390 2 4 366 3 4 383 4 4 388 ANALISI VARIANZA e della varia SQ Tra gruppi 89,1875 In gruppi 22,75 Totale gdl 111,9375 Media 97,5 91,5 95,75 97 Varianza 1,666667 1,666667 0,916667 3,333333 σˆ 2 = 1.90 σˆ τ2 = 6.96 Var (Yij ) = 8.86 MQ F e di significa F crit 3 29,72917 15,68132 0,000188 3,4903 12 1,895833 15 1 Media 97,5 Errore stan 0,645497 Mediana 97,5 Moda #N/D Deviazione 1,290994 Varianza c 1,666667 Curtosi -1,2 0 Asimmetria Intervallo 3 Minimo 96 Massimo 99 Somma 390 Conteggio 4 Livello di co 2,054262 2 3 Media 91,5 Errore stan 0,645497 Mediana 91,5 Moda #N/D Deviazione 1,290994 Varianza c 1,666667 Curtosi -1,2 Asimmetria -9,3E-18 Intervallo 3 Minimo 90 Massimo 93 Somma 366 Conteggio 4 Livello di co 2,054262 Media 95,75 Errore stan 0,478714 Mediana 95,5 Moda 95 Deviazione 0,957427 Varianza c 0,916667 Curtosi -1,28926 Asimmetria 0,854563 Intervallo 2 Minimo 95 Massimo 97 Somma 383 Conteggio 4 Livello di co 1,523482 4 Media 97 Errore stan 0,912871 Mediana 97 Moda #N/D Deviazione 1,825742 Varianza c 3,333333 Curtosi -3,3 Asimmetria 1,85E-17 Intervallo 4 Minimo 95 Massimo 99 Somma 388 Conteggio 4 Livello di co 2,905165 Compl. Prob. & Stat a.a. 04/05 Analisi della varianza 1 fattore 24 12 Diff. 1 1 0 2 3 4 2 6 0 3 1,75 4,25 0 4 0,5 5,5 1,25 0 t 0,025;12 2MS err = 2.11 n 100 q1 95 min 90 med 85 max 1 2 3 4 q3 Telaio Compl. Prob. & Stat a.a. 04/05 Analisi della varianza 1 fattore 25 Analisi dei residui Residui quantili 4 2 0 -4 -2 -2 0 2 4 -4 Compl. Prob. & Stat a.a. 04/05 Analisi della varianza 1 fattore 26 13 Esercizio 1: Per migliorare le caratteristiche di durata a sollecitazioni dinamiche di un componente aeronautico, si è deciso di aggiungere delle fibre di carbonio al materiale composito con cui è prodotto. Si è tuttavia incerti su quale sia la migliore lunghezza delle fibre tra le 4 possibili per questa particolare applicazione. Si decide pertanto di effettuare una breve sperimentazione per appurare innanzitutto se la lunghezza delle fibre abbia o meno un effetto significativo sulla durata del componente. Nel caso che l’effetto esista, si vuole conoscere quale sia la lunghezza ottima da utilizzare. Livello 1 2 3 4 1 8,99 11,62 11,85 7,57 2 9,89 11,4 11,33 11,27 3 9,61 11,11 11,84 8,94 4 9,31 10,8 13,83 7,89 5 9,35 11,72 11,05 9,28 Durate dei prototipi espresse in cicli per 10^6 Compl. Prob. & Stat a.a. 04/05 Analisi della varianza 1 fattore 27 Analisi varianza: ad un fattore RIEPILOGO Gruppi Riga 1 Riga 2 Riga 3 Riga 4 Conteggio Somma 5 47,15 5 56,65 5 59,9 5 44,95 ANALISI VARIANZA Origine della variazione Tra gruppi In gruppi SQ 31,430375 14,2866 Totale 45,716975 gdl Media Varianza 9,43 0,1146 11,33 0,1426 11,98 1,1866 8,99 2,12785 MQ F Val sign F crit 3 10,47679 11,7333 0,000258 3,238867 16 0,892913 19 Si deduce che l’ipotesi di inefficacia del trattamento va rigettata Compl. Prob. & Stat a.a. 04/05 Analisi della varianza 1 fattore 28 14 15 q1 10 min 5 med 0 max 1 2 3 4 q3 prototipi Diff. 1 2 3 4 1 0 2 1,9 0 3 2,55 0,65 0 4 0,44 2,34 2,99 0 t 0.025;16 = 2.11 ⇒ Quantile = 1.26 Compl. Prob. & Stat a.a. 04/05 Analisi della varianza 1 fattore 29 Esercizio 2: Una fabbrica tessile ha un gran numero di telai. Si presuppone che ogni telaio produca lo stesso output di panno per minuto. Per sperimentare questa supposizione sono stati scelti 5 telai a caso ed è stato misurato il tempo di produzione di un panno campione. Telai 1 2 3 4 5 a) b) c) d) 1 4,0 3,9 4,1 3,6 3,8 2 4,1 3,8 4,2 3,8 3,6 3 4,2 3,9 4,1 4,0 3,9 4 4,0 4,0 4,0 3,9 3,8 5 4,1 4,0 3,9 3,7 4,0 Sono i telai simili in output? Stimare la variabilità tra i telai Stimare la varianza dell’errore sperimentale Applicare il Fisher Test. Compl. Prob. & Stat a.a. 04/05 Analisi della varianza 1 fattore 30 15