Statistica 1 A.A. 2015/2016
Transcript
Statistica 1 A.A. 2015/2016
Corso di Laurea in “Economia e Finanza” Statistica 1 A.A. 2015/2016 (8 CFU, corrispondenti a 48 ore di lezione frontale e 24 ore di esercitazione) Prof. Luigi Augugliaro 1 / 52 Adattamento di una distribuzione teorica ad una distribuzione empirica La valutazione della bontà di adattamento di una distribuzione teorica ad una distribuzione empirica avviene attraverso le seguenti fasi: i. in funzione della natura della variabile statistica in esame si sceglie il modello probabilistico più ideneo; Pk (n −n∗ )2 ii. valutazione della bontà di adattamento mediante l’indice X 2 = i=1 i n∗ i i a) stima dei parametri incogniti del modello probabilistico scelto; b) calcolo delle frequenze teoriche ni∗ ; c) valutazione della bontà di adattamento mediante il confronto dell’indice X 2 con il valore critico k − 1, dove k è il numero di modalità/classi della distribuzione di frequenza in esame. 2 / 52 Momenti empirici I momenti empirici, i quali costituiscono la versione empirica dei momenti teorici, svolgono un ruolo centrale all’interno del metodo dei momenti per la stima dei parametri di una funzione di distribuzione di probabilità o di una funzione di densità. I momenti empirici consentono inoltre di definire la versione empirica dell’indice teorico di asimmetria β1 e dell’indice di curtosi β2 . 3 / 52 Sia (x1 , x2 , . . . , xn ) un campione di numerosità n. Definiamo momento empirico di ordine r e origine m la quantità Pn r i=1 (xi − m) µ̂m,r = . n La precedente definizione mostra che il momento empirico di origine 0 e ordine 1 è la media artimetica Pn i=1 xi = x̄ µ̂0,1 = n I momementi empirici di ordine r e origine la media aritmetica x̄ vengono definiti momenti empirici centrati di ordine r , formalmente Pn r i=1 (xi − x̄) µ̂r = . n L’espressione precedente mostra che il momento empirico centrato di ordine 2 è l’indice varianza Pn 2 i=1 (xi − x̄) µ̂2 = . n 4 / 52 Quando si dispone di una distribuzione di frequenza, il momento empirico di ordine r e origine m viene definito nel seguente modo Pn (xi − m)r ni . µ̂m,r = i=1 n dove ni è la frequenza assoluta associata ad xi . Se si dispone di una distribuzione di frequenza in classi, la formula precedente si modifica utilizzando i valori centrale di ogni classe, ovvero Pn (x c − m)r ni µ̂m,r = i=1 i n 5 / 52 Il problema della bontà di adattamento: esempio 1 Un gruppo di 80 studenti è stato sottoposto ad un test attitudinale per l’ammissione ad un corso di studi. Viene riportata la distribuzione di frequenze della variabile Numero di errori commessi: X 0 1 2 3 4 5 6 7 8 9 10 Tot. ni 1 2 6 9 14 22 12 7 5 1 1 80 Individuare il modello teorico più opportuno da adattare alla distribuzione osservata e verificarne la bontà di adattamento. 6 / 52 La variabile statistica osservata numero di errori commessi è una variabile quantitativa discreta, quindi la nostra scelta si limita ai modelli studiati per le variabili aleatorie discrete, ovvero la variabile aleatoria binomiale e la variabile aleatoria di Poisson. Osservazioni: i. la variabile in esame può assumere solamente un numero finito di valori, ovvero il numero totale n di domande riportate nel questionario. Notiamo che n non è noto; ii. la distribuzione di frequenza sembra mostrare che la variabile considerata non descrive un evento raro. Sulla base delle osservazioni precedenti si deduce che il modello probabilistico più idoneo è il modello binomiale. 7 / 52 Come visto in precedenza, la funzione di distribuzione di probabilità di una variabile aleatoria binomiale n p(x) = · π x · (1 − π)n−x x è indicizzata da due parametri: n = numero di prove; π = probabilità dell’evento successo. Poiché n e π non sono noti è necessario utilizzare un metodo opportuno per la stima dei due parametri. Il metodo che utilizzeremo prende il nome di metodo dei momenti. 8 / 52 Il metodo dei momenti è uno dei più vecchi metodi di stima puntuale proposti in letteratura e venne introdotto da Karl Pearson alla fine del 1800. Il metodo consiste nell’uguagliare i momenti teorici con i momenti empirici. La risoluzione del sistema cosı̀ ottenuto fornisce le stime dei parametri incogniti. Consideriamo quindi il sistema ( n̂π̂ = x̄ n̂π̂(1 − π̂) = σ 2 dove x̄ e σ 2 sono rispettivamente la media aritmetica e la varianza calcolata sui dati. 9 / 52 Sostituendo nella seconda equazione n̂π̂ con x̄ si ricava x̄(1 − π̂) = σ 2 quindi 1 − π̂ = σ2 x̄ quindi π̂ = 1 − σ2 . x̄ Noto π̂, sostituendo nella prima equazione si ricava n̂ = x̄ . π̂ Poiché n̂ non è un numero intero si utilizza come stima del parametro n sempre l’intero successivo. 10 / 52 L’esempio1 che segue consente di chiarire perché n̂ deve sempre essere arrotondato all’intero successivo. Sia X una variabile aleatoria binomiale di parametri n e π. Dalla tabella ni 1 2 16 1 20 xi · ni 0 2 32 3 37 37 = 1.85 20 Applicando le formule precedenti si ricava σ2 = X 0 1 2 3 Tot. si ricava che x̄ = π̂ = 1 − σ2 = 0.82 x̄ xi2 0 1 4 9 xi2 · ni 0 2 64 9 75 75 − 1.852 = 0.3275. 20 n̂ = x̄ = 2.26 π̂ Poiché la variabile X assume massimo valore 3, si deduce che n̂ non può essere arrotondato al valore 2 dato che n̂ è una stima del numero totale di prove compiute. 1 l’autore è in debito con il Prof. Mineo e il Prof. Chiodi per l’esempio suggerito. 11 / 52 Con riferimento alla variabile “numero di errori commessi”, dalla seguente tabella xi 0 1 2 3 4 5 6 7 8 9 10 Tot. ni 1 2 6 9 14 22 12 7 5 1 1 80 xi2 0 1 4 9 16 25 36 49 64 81 100 xi · ni 0 2 12 27 56 110 72 49 40 9 10 387 xi2 · ni 0 2 24 81 224 550 432 343 320 81 100 2157 si ricava che x̄ = 4.84 e σ 2 = 3.56. Utilizzando le formule precedenti si ricava π̂ = 1 − σ2 = 0.26 x̄ n̂ = x̄ = 18.62 π̂ Utilizzando l’intero successivo si ricava che n̂ = 19. 12 / 52 Sulla base dei precedenti risultati, le probabilità teoriche sono fornite dalla seguente funzione di distribuzione di probabilità 19 p̂(xi ) = · 0.26xi · (1 − 0.26)(19−xi ) xi Le frequenze teoriche, denotate con ni∗ , sono ottenute moltiplicando le probabilità teoriche, p̂(xi ), per il totale delle osservazioni, ovvero 80. x 0 1 2 3 4 5 6 7 8 9 ≥ 10 Tot, ni 1 2 6 9 14 22 12 7 5 1 1 80 p̂(xi ) 0.0033 0.0219 0.0692 0.1377 0.1935 0.2040 0.1672 0.1091 0.0575 0.0247 0.0119 1 ni∗ 0.2640 1.7520 5.5360 11.0160 15.4800 16.3200 13.3760 8.7280 4.6000 1.9760 0.9520 (ni − ni∗ ) 0.7360 0.2480 0.4640 -2.0160 -1.4800 5.6800 -1.3760 -1.7280 0.4000 -0.9760 0.0480 (ni − ni∗ )2 0.5417 0.0615 0.2153 4.0643 2.1904 32.2624 1.8934 2.9860 0.1600 0.9526 0.0023 (ni − ni∗ )2 /ni∗ 2.0519 0.0351 0.0389 0.3689 0.1415 1.9769 0.1416 0.3421 0.0348 0.4821 0.0024 5.6162 Poiché X 2 = 5.6162 è inferiore a k − 1 = 11 − 1 = 10 si deduce che il modello binomiale descrive bene i dati a nostra disposizione. 13 / 52 Il problema della bontà di adattamento: esempio 2 Un gruppo di 76 studenti è stato sottoposto ad un test attitudinale per l’ammissione ad un corso di studi. Viene riportata la distribuzione di frequenze della variabile Numero di errori commessi su un totale di 10 domande: x 0 1 2 3 4 5 6 7 8 9 10 Tot. n 1 2 5 8 14 20 13 6 4 2 1 76 Individuare il modello teorico più opportuno da adattare alla distribuzione osservata e verificarne l’adattamento. 14 / 52 La variabile statistica osservata numero di errori commessi su un totale di 10 domande è una variabile quantitativa discreta, quindi la nostra scelta si limita ai modelli studiati per le variabili aleatorie discrete, ovvero la variabile aleatoria binomiale e la variabile aleatoria di Poisson. Osservazioni: i. la variabile in esame può assumere solamente un numero finito di valori. Notiamo che n è noto; ii. la distribuzione di frequenza mostra che la variabile considerata non sembra descrivere un evento raro. Sulla base delle osservazioni precedenti si deduce che il modello probabilistico più idoneo è il modello binomiale. 15 / 52 Come visto in precedenza, la funzione di distribuzione di probabilità di una variabile aleatoria binomiale n p(x) = · π x · (1 − π)n−x x è indicizzata da due parametri: n = numero di prove; π = probabilità dell’evento successo. Dalla descrizione dell’esperimento si deduce che il parametro n è noto ed uguale a 10. Il parametro π è incognito e verrà stimato con il metodo dei momenti. Uguagliando il valore atteso della variabile aleatoria binomiale alla media aritmetica E (X ) = n · π̂ = x̄ si ricava che π̂ = x̄n . 16 / 52 La seguente tabella x 0 1 2 3 4 5 6 7 8 9 10 Tot. mostra che x̄ = 372 76 n 1 2 5 8 14 20 13 6 4 2 1 76 x ·n 0 2 10 24 56 100 78 42 32 18 10 372 = 4.89 da cui si ricava che π̂ = 4.89 10 = 0.489. 17 / 52 Sulla base dei precedenti risultati, le probabilità teoriche sono fornite dalla seguente funzione di distribuzione di probabilità p̂(xi ) = 10 xi · 0.489xi · (1 − 0.489)(10−xi ) Le frequenze teoriche, denotate con ni∗ , sono ottenute moltiplicando le probabilità teoriche, p̂(xi ), per il totale delle osservazioni, ovvero 76. x 0 1 2 3 4 5 6 7 8 9 10 Tot. ni 1 2 5 8 14 20 13 6 4 2 1 76 p̂(xi ) 0.001 0.012 0.050 0.128 0.214 0.245 0.196 0.107 0.038 0.008 0.001 1 ni∗ 0.076 0.912 3.800 9.728 16.264 18.620 14.896 8.132 2.888 0.608 0.076 (ni − ni∗ ) 0.924 1.088 1.200 -1.728 -2.264 1.380 -1.896 -2.132 1.112 1.392 0.924 (ni − ni∗ )2 0.854 1.184 1.440 2.986 5.126 1.904 3.595 4.545 1.237 1.938 0.854 (ni − ni∗ )2 /ni∗ 11.234 1.298 0.379 0.307 0.315 0.102 0.241 0.559 0.428 3.187 11.234 29.284 18 / 52 Sulla base dei risultati precedenti si ricava che X 2 = 29.284. Poiché X 2 è più grande di k − 1 = 11 − 1 = 10, i risultati sembrano suggerire che non vi sia un buon adattamento. L’analisi della tabella utilizzata per il calcolo dell’indice X 2 x 0 1 2 3 4 5 6 7 8 9 10 ni 1 2 5 8 14 20 13 6 4 2 1 p̂i 0.001 0.012 0.050 0.128 0.214 0.245 0.196 0.107 0.038 0.008 0.001 ni∗ 0.076 0.912 3.800 9.728 16.264 18.620 14.896 8.132 2.888 0.608 0.076 (ni − ni∗ ) 0.924 1.088 1.200 -1.728 -2.264 1.380 -1.896 -2.132 1.112 1.392 0.924 (ni − ni∗ )2 0.854 1.184 1.440 2.986 5.126 1.904 3.595 4.545 1.237 1.938 0.854 (ni − ni∗ )2 /ni∗ 11.234 1.298 0.379 0.307 0.315 0.102 0.241 0.559 0.428 3.187 11.234 29.284 mostra che il cattivo adattamento è dovuto solamente ai valori (ni − ni∗ )2 /ni∗ delle prime due righe e delle ultime due righe. 19 / 52 Il problema della bontà di adattamento: esempio 3 Negli ultimi anni si è assistito ad un’evoluzione delle modalità di accesso wireless ad Internet sia in termini di affidabilità che di prestazioni. All’interno di questo nuovo settore tecnologico le femtocelle, piccole stazioni radio domestiche in grado di coprire un ufficio o un appartamento e gestite in remoto dagli operatori di telefonia mobile, consentono di eliminare i problemi di trasmissione che si verificano all’interno di luoghi di ridotte dimensioni. Per valutare le prestazioni di una nuova femtocella, un gruppo di ingegneri ha rilevato per 100 giorni il numero di interferenze giornaliere, denotato con X , ottenendo la seguente distribuzione di frequenza X ni 0 6 1 12 2 25 3 20 4 17 5 8 6 9 7 2 8 1 Sulla base della descrizione del fenomeno oggetto di studio, il candidato scelga il più adeguato modello probabilistico e ne valuti l’adattamento mediante l’indice più adeguato. 20 / 52 La variabile statistica osservata numero di interferenze giornaliere è una variabile quantitativa discreta, quindi la nostra scelta si limita ai modelli studiati per le variabili aleatorie discrete, ovvero la variabile aleatoria binomiale e la variabile aleatoria di Poisson. Osservazioni: i. la variabile in esame può assumere, almeno da un punto di vista teorico, un numero infinito di valori. ii. la variabile in esame sembra descrivere un evento raro. Sulla base delle osservazioni precedenti si deduce che il modello probabilistico più idoneo è il modello di Poisson. 21 / 52 La funzione di distribuzione di probabilità della variabile aleatoria di Poisson p(x) = λx e −λ x! dipende da un solo parametro incognito λ = valore atteso della variabile aleatoria X . L’applicazione del metodo dei momenti mostra che il parametro λ può essere stimato tramite la media aritmetica, ovvero Pk xi · ni λ̂ = x̄ = i=1 n 22 / 52 xi 0 1 2 3 4 5 6 7 8 Tot. La tabella mostra che λ̂ = Pk i=1 n xi ·ni ni 6 12 25 20 17 8 9 2 1 100 = 306 100 xi · ni 0 12 50 60 68 40 54 14 8 306 = 3.06. 23 / 52 Sulla base della stima del parametro λ, le probabilità teoriche sono fornite dalla seguente funzione p(xi ) = 3.06xi e −3.06 xi ! Le frequenze teoriche, denotate con ni∗ , sono ottenute moltiplicando le probabilità teoriche, p(xi ), per il totale delle osservazioni, ovvero 100. xi 0 1 2 3 4 5 6 7 8 Tot. ni 6 12 25 20 17 8 9 2 1 100 p(xi ) 0.0469 0.1435 0.2195 0.2239 0.1713 0.1048 0.0535 0.0234 0.0132 1 ni∗ 4.69 14.35 21.95 22.39 17.13 10.48 5.35 2.34 1.32 ni − ni∗ 1.31 -2.35 3.05 -2.39 -0.13 -2.48 3.65 -0.34 -0.32 (ni − ni∗ )2 1.7161 5.5225 9.3025 5.7121 0.0169 6.1504 13.3225 0.1156 0.1024 (ni − ni∗ )2 /ni∗ 0.3659 0.3848 0.4238 0.2551 0.0010 0.5869 2.4902 0.0494 0.0776 4.6347 Poiché l’indice X 2 è inferiore a k − 1 = 9 − 1 = 8 si può ritenere che il modello teorico di Poisson descrive bene i dati a nostra disposizione. 24 / 52 Di seguito è riportata la distribuzione di frequenza del numero di prodotti realizzati giornalmente da una data azienda e definiti difettosi. x 0 1 2 3 4 5 6 7 8 n 11 20 32 24 21 11 12 4 1 Sulla base della descrizione del fenomeno oggetto di studio, il candidato scelga il più adeguato modello probabilistico e ne valuti l’adattamento mediante l’indice più adeguato. 25 / 52 La variabile statistica osservata numero di prodotti difettosi è una variabile quantitativa discreta, quindi la nostra scelta si limita ai modelli studiati per le variabili aleatorie discrete, ovvero la variabile aleatoria binomiale e la variabile aleatoria di Poisson. Osservazioni: i. la variabile in esame può assumere, almeno da un punto di vista teorico, un numero infinito di valori. ii. la variabile in esame sembra descrivere un evento raro. Sulla base delle osservazioni precedenti si deduce che il modello probabilistico più idoneo è il modello di Poisson. 26 / 52 La funzione di distribuzione di probabilità della variabile aleatoria di Poisson p(x) = λx e −λ x! dipende da un solo parametro incognito λ = valore atteso della variabile aleatoria X . L’applicazione del metodo dei momenti mostra che il parametro λ può essere stimato tramite la media aritmetica, ovvero Pk xi · ni λ̂ = x̄ = i=1 n 27 / 52 xi 0 1 2 3 4 5 6 7 8 Tot. La tabella mostra che λ̂ = Pk i=1 n xi ·ni ni 11 20 32 24 21 11 12 4 1 136 = 403 136 xi · ni 0 20 64 72 84 55 72 28 8 403 = 2.96. 28 / 52 Sulla base della stima del parametro λ, le probabilità teoriche sono fornite dalla seguente funzione p(xi ) = 2.96xi e −2.96 xi ! Le frequenze teoriche, denotate con ni∗ , sono ottenute moltiplicando le probabilità teoriche, p(xi ), per il totale delle osservazioni, ovvero 100. xi 0 1 2 3 4 5 6 7 8 Tot. ni 11 20 32 24 21 11 12 4 1 136 p(xi ) 0.0517 0.1531 0.2268 0.2240 0.1659 0.0983 0.0486 0.0206 0.0110 1 ni∗ 7.0312 20.8216 30.8448 30.4640 22.5624 13.3688 6.6096 2.8016 1.4960 ni − ni∗ 3.9688 -0.8216 1.1552 -6.4640 -1.5624 -2.3688 5.3904 1.1984 -0.4960 (ni − ni∗ )2 15.7514 0.6750 1.3345 41.7833 2.4411 5.6112 29.0564 1.4362 0.2460 (ni − ni∗ )2 /ni∗ 2.2402 0.0324 0.0433 1.3716 0.1082 0.4197 4.3961 0.5126 0.1644 9.2885 Poiché l’indice X 2 è inferiore a k − 1 = 9 − 1 = 8 si può ritenere che il modello teorico di Poisson non descrive bene i dati a nostra disposizione. 29 / 52 Il problema della bontà di adattamento: esempio 4 Di seguito è riportata la distribuzione di frequenza in classi ottenuta mediante un campione 100 misure sperimentali rilevate in un punto di un circuito elettrico tramite voltmetro digitale. classi 0a5 5 a 10 10 a 15 15 a 20 20 a 25 25 a 30 ni 2 16 36 32 13 1 Individuare il modello teorico più opportuno da adattare alla distribuzione osservata e verificarne l’adattamento. 30 / 52 Poiché la variabile statistica osservata è una variabile quantitativa continua, l’unico modello teorico di cui possiamo valutare la bontà di adattamento è il modello di Gauss. La funzione di densità fX (x; µ, σ) = (x−µ)2 1 √ e − 2σ2 , σ 2π dipende dai due parametri incogniti µ = valore atteso della variabile aleatoria X σ = deviazione standard della variabile aleatoria X . I parametri µ e σ possono essere stimati attraverso la media aritmetica e la deviazione standard campionaria. 31 / 52 Dalla tabella classi 0a5 5 a 10 10 a 15 15 a 20 20 a 25 25 a 30 Tot. ni 2 16 36 32 13 1 100 xic 2.5 7.5 12.5 17.5 22.5 27.5 xic · ni 5.0 120.0 450.0 560.0 292.5 27.5 1455.0 (xic )2 6.25 56.25 156.25 306.25 506.25 756.25 (xic )2 · ni 12.50 900.00 5625.00 9800.00 6581.25 756.25 23675 si ricava µ̂ = σ̂ = Pk x c ni x̄ = i=1 i = 14.55 n s Pk c 2 i=1 (xi ) · ni − x̄ 2 = 5.005 n 32 / 52 Il calcolo dell’indice X 2 = ni∗ definite come Pk i=1 (ni −ni∗ )2 ni∗ si fonda sull’utilizzo delle frequenze teoriche ni∗ = n · P(xi < X < xi+1 ) Utilizzando la relazione P(xi < X < xi+1 ) = P(zi < Z < zi+1 ) = P(Z < zi+1 ) − P(Z < zi ) = F (zi+1 ) − F (zi ) si ricava che per il calcolo delle frequenze teoriche è necessario calcolare i valori standardizzati xi − 14.55 xi − µ̂ zi = = σ̂ 5.005 ed utilizzare il prontuario delle probabilità integrali della distribuzione normale standardizzata. 33 / 52 Dallo studio della seguente tabella si ricava che xi+1 5 10 15 20 25 Tot. zi+1 −∞ -1.908 -0.909 0.090 1.089 2.088 +∞ Fi+1 0 0.028 0.182 0.536 0.862 0.982 1 Fi+1 − Fi ni∗ ni (ni − ni∗ ) (ni − ni∗ )2 (ni − ni∗ )2 /ni∗ 0.028 0.154 0.354 0.326 0.120 0.018 2.8 15.4 35.4 32.6 12 1.8 2 16 36 32 13 1 -0.8 0.6 0.6 -0.6 1.0 -0.8 0.64 0.36 0.36 0.36 1.00 0.64 0.229 0.023 0.010 0.011 0.083 0.356 0.712 X 2 = 0.712. Poiché l’indice X 2 è inferiore al valore k − 1 = 6 − 1 = 5, si deduce che la distribuzione di Gauss descrive bene la distribuzione osservata. 34 / 52 0.00 0.02 fi 0.04 0.06 0.08 I risultati ottenuti in precedenza trovano conferma nella seguente rappresentazione grafica. 0 5 10 15 20 25 30 Volt 35 / 52 Il problema della bontà di adattamento: esempio 5 Per valutare il livello di inquinamento di un dato fiume del territorio italiano, un gruppo di studiosi ha misurato il livello di nitrogeno presente in un punto fissato del fiume. Di seguito viene riportata la distribuzione di frequenza in classi ottenuta attraverso un campione di 112 rilevazioni sperimentali. Classi 130 a 135 135 a 140 140 a 145 145 a 150 150 a 155 155 a 160 160 a 165 165 a 170 Tot. ni 12 28 34 19 9 5 3 2 112 Individuare il modello teorico più opportuno da adattare alla distribuzione osservata e verificarne l’adattamento. 36 / 52 fi 0.00 0.01 0.02 0.03 0.04 0.05 0.06 Poiché la variabile statistica osservata è una variabile quantitativa continua, l’unico modello teorico di cui possiamo valutare la bontà di adattamento è il modello di Gauss. 130 140 150 160 170 N 2O Il grafico sembra suggerire che il modello di Gauss non descrive bene i dati a nostra disposizione. Una conferma a tale ipotesi è ottenuta mediante l’indice X 2 . 37 / 52 La funzione di densità fX (x; µ, σ) = (x−µ)2 1 √ e − 2σ2 , σ 2π dipende dai due parametri incogniti µ = valore atteso della variabile aleatoria X σ = deviazione standard della variabile aleatoria X . I parametri µ e σ possono essere stimati attraverso la media aritmetica e la deviazione standard. 38 / 52 Dalla tabella classi 130 a 135 135 a 140 140 a 145 145 a 150 150 a 155 155 a 160 160 a 165 165 a 170 Tot. ni 12 28 34 19 9 5 3 2 112 xic 132.5 137.5 142.5 147.5 152.5 157.5 162.5 167.5 xic · ni 1590.0 3850.0 4845.0 2802.5 1372.5 787.5 487.5 335.0 16070 (xic )2 17556.25 18906.25 20306.25 21756.25 23256.25 24806.25 26406.25 28056.25 (xic )2 · ni 210675.00 529375.00 690412.50 413368.75 209306.25 124031.25 79218.75 56112.50 2312500.00 si ricava Pk µ̂ = σ̂ = x̄ = s Pk c i=1 xi ni n c 2 i=1 (xi ) n = 143.482 · ni − x̄ 2 = 7.761 39 / 52 Il calcolo dell’indice X 2 = ni∗ definite come Pk i=1 (ni −ni∗ )2 ni∗ si fonda sull’utilizzo delle frequenze teoriche ni∗ = n · P(xi < X < xi+1 ) Utilizzando la relazione P(xi < X < xi+1 ) = P(zi < Z < zi+1 ) = P(Z < zi+1 ) − P(Z < zi ) = F (zi+1 ) − F (zi ) si ricava che per il calcolo delle frequenze teoriche è necessario calcolare i valori standardizzati xi − 143.482 xi − µ̂ zi = = σ̂ 7.761 ed utilizzare il prontuario delle probabilità integrali della distribuzione normale standardizzata. 40 / 52 Poiché ni∗ = n[F (zi+1 ) − F (zi )], si ricava che il calcolo dell’indice X 2 si basa sulla seguente tabella xi+1 zi+1 Fi+1 Fi+1 − Fi ni∗ ni (ni − ni∗ ) (ni − ni∗ )2 135 140 145 150 155 160 165 −∞ -1.093 -0.449 0.196 0.840 1.484 2.128 2.773 +∞ 0 0.137 0.327 0.578 0.800 0.931 0.983 0.997 1 0.137 0.190 0.251 0.222 0.131 0.052 0.014 0.003 15.344 21.280 28.112 24.864 14.672 5.824 1.568 0.336 12 28 34 19 9 5 3 2 -3.344 6.720 5.888 -5.864 -5.672 -0.824 1.432 1.664 11.182 45.158 34.669 34.386 32.172 0.679 2.051 2.769 Tot. (ni −ni∗ )2 ni∗ 0.729 2.122 1.233 1.383 2.193 0.117 1.308 8.241 17.325 da cui si ricava che X 2 = 17.325. Poiché l’indice X 2 è superiore a k −1 = 8−1 = 7 si deduce che la distribuzione di Gauss non descrive bene la distribuzione osservata. 41 / 52 fi 0.00 0.01 0.02 0.03 0.04 0.05 0.06 I risultati ottenuti in precedenza trovano conferma nella seguente rappresentazione grafica 120 130 140 150 160 170 N 2O dalla quale si evence che il modello di Gauss non descrive bene i dati a nostra disposizione. 42 / 52 Esercizi I test ADAC sono tra le più affidabili e attendibili prove sugli pneumatici. L’ultimo test condotto ha avuto come obiettivo il confronto di 3 differenti prodotti, indicati con P1 , P2 e P3 , con un prodotto di riferimento, indicato con P0 . Il test è stato ripetuto 100 volte per ogni prodotto e nella seguente tabella sono riportati i risultati ottenuti. Il test fornisce un valore reale compreso tra 0 e 100 e i valori crescenti indicano un miglioramento nella performance dei pneumatici. Tabella: Risultati del test ADAC P0 P1 P2 P3 0 a 20 33 26 4 7 20 a 40 46 27 12 6 Test 40 a 60 13 25 61 17 60 a 80 7 13 15 43 80 a 100 1 9 8 27 Tot. 100 100 100 100 Sulla base della descrizione del fenomeno in esame scegliere il più opportuno modello probabilistico e verificarne l’adattamento alle distribuzioni dei prodotti P0 , P1 , P2 e P3 . 43 / 52 Un’azienda di credito ha ripartito un campione di 140 dei propri clienti in due categorie definite solvente e insolvente. La tabella seguente riporta la distribuzione dei finanziamenti concessi dall’azienda di credito in funzione delle due categorie considerate Cliente solvente insolvente Finanziamenti concessi (dati per migliaia di euro) 1 a 1.5 1.5 a 2 2 a 2.5 2.5 a 3 3 a 3.5 6 25 37 21 3 25 13 7 2 1 Sulla base dei dati riportati in tabella, si scelga il modello probabilistico più adeguato per descrivere la distribuzione di frequenze dei clienti di tipo solvente e se ne valuti la bontà di adattamento mendiante adeguato indice statistico. 44 / 52 Per valutare le prestazioni di un nuovo processore per personal computer, il direttore del reparto ricerca e sviluppo ha ripetuto, sullo stesso processore, cento volte lo stesso benchmark prestazionale. Il benchmark utilizzato fornisce un valore continuo e di seguito è riportata la distribuzione di frequenze in classi dei risultati ottenuti. Tabella: Distribuzione di frequenze in classi dei risultati del benchmark considerato Benchmark 0a1 1a2 2a3 3a4 4a5 Tot. ni 4 26 47 20 3 100 Il candidato valuti la bontà di adattamento al modello probabilistico ritenuto più adeguato per i dati riportati in tabella. Commentare adeguatamente i risultati ottenuti. 45 / 52 Di seguito è riportata la distribuzione di frequenze in classi delle sovvenzioni cambiarie concesse da una data banca ai propri clienti. Tabella: Distribuzione di frequenze in classi delle sovvenzioni cambiarie (dati in migliaia di euro) Sovvenzioni < 200 200 a 300 300 a 500 500 a 700 700 a 1000 Tot. ni 8 11 19 21 17 76 Il candidato valuti la bontà di adattamento al modello probabilistico ritenuto più adeguato per i dati riportati in tabella. 46 / 52 Per valutare la qualità del proprio processo produttivo, l’addetto al controllo della qualità di un’azienda produttrice di lampadine estrae con reimmisione, dal totale della produzione mensile, trenta campioni di numerosità dieci. Su ogni campione viene rilevato il numero di lampadine difettose. La tabella riporta i dati rilevati. Tabella: Numero di lampadine difettose rilevato su trenta campioni 3 3 3 1 0 2 2 2 2 0 2 2 2 2 2 3 2 3 0 1 3 3 2 4 1 3 3 2 4 2 i. Il candidato costruisca e rappresenti graficamente la distribuzione di frequenze della variabile “numero di lampadine difettose”. ii. Il candidato adatti alla variabile “numero di lampadine difettose” il modello teorico che ritiene più opportuno e ne valuti l’adattamento attraverso un adeguato indice. 47 / 52 Si sono rilevati i guasti meccanici riportati da 40 autovetture FIAT e da 60 autovetture OPEL, possedute da un’azienda di spedizioni, nei primi 50.000 km di percorrenza. I dati sono sintetizzati nella seguente tabella che riporta le frequenze assolute: N. Guasti 0 1 2 3 4 Fiat 9 13 10 5 3 Opel 33 10 6 1 0 Si adatti alla variabile osservata, distintamente per i due tipi di autovettura, la variabile casuale che si ritiene più opportuna, e si calcoli, su ciascuna delle due distribuzioni, un indice di bontà di adattamento. Su quale delle due distribuzioni l’adattamento si può ritenere migliore? 48 / 52 In un’impresa di soccorso stradale sono state registrate le richieste giornaliere di intervento, su un arco di 100 giorni, ottenendo la seguente distribuzione di frequenza: interventi n 0 14 1 22 2 31 3 17 4 8 5 5 6 2 7 1 Il candidato adatti alla variabile “numero di interventi giornalieri” il modello teorico che ritiene più opportuno e ne valuti l’adattamento attraverso un adeguato indice. 49 / 52 In un campione casuale di 130 circuiti elettronici è stato osservato il numero dei difetti presenti. La distribuzione di frequenza del numero dei difetti è riportata nella seguente tabella: n. di difetti frequenza osservata 0 25 1 54 2 35 3 9 4 3 5 2 6 1 7 1 Il candidato adatti alla variabile “numero di difetti” il modello teorico che ritiene più opportuno e ne valuti l’adattamento attraverso un adeguato indice. 50 / 52 La seguente distribuzione descrive il numero di particelle rilasciate durante il decadimento radioattivo del Polonio, in intervalli di 72 secondi: x n 0 57 1 203 2 383 3 525 4 532 5 408 6 273 7 139 8 45 9 27 10 10 11 4 Il candidato adatti alla variabile considerata il modello teorico che ritiene più opportuno e ne valuti l’adattamento attraverso un adeguato indice. 51 / 52 La seguente tabella mostra la distribuzione di frequenze del numero dei parti, rilevato in una clinica, nell’arco di un periodo di 100 giorni: n. parti 0 1 2 3 4 5 6 7 frequenze 17 32 29 15 3 2 1 1 Il candidato adatti alla variabile considerata il modello teorico che ritiene più opportuno e ne valuti l’adattamento attraverso un adeguato indice. 52 / 52