Statistica descrittiva
Transcript
Statistica descrittiva
Statistica descrittiva a.a. 2011/12 - Laboratorio Problema: assegnato un insieme di valori numerici che restituisce il tempo di vita di un prototipo, quale modello stocastico è possibile impiegare per descrivere il tempo di vita del prototipo messo poi in produzione? Come è possibile validare tale modello? Dataset: collegarsi al sito http://www.unibas.it/utenti/dinardo/tempi.txt Salvare il file in matlab/work Popolazione: (insieme dei dispositivi che verranno messi in produzione) insieme finito o infinito sul quale si desidera avere informazioni. Campione casuale: (prototipi) sottoinsieme della popolazione scelta in modo casuale. Unità statistica o campionaria: (un prototipo) un elemento del campione casuale Taglia del campione: (numero di prototipi realizzati) numero di unità statistiche Statistica descrittiva Descrizione per via grafica Descrizione per via numerica a.a. 2011/12 - Laboratorio Primo obbiettivo: Costruire una tabella riassuntiva del tipo: Età in mesi 0-26.9877 26.9877-54.9877 54.9877-82.9877 82.9877- 110.9877 110.9877-138.9877 138.9877-166.9877 166.9877-194.9877 194.9877-222.9877 222.9877-250.9877 TOTALE Frequenza dei guasti 127 70 27 15 11 7 3 1 1 262 Carattere: ogni aspetto elementare oggetto di rilevazione nelle unità statistiche della popolazione (e quindi del campione) Modalità o classe di modalità: i diversi modi con cui il carattere si presenta nelle unità statistiche della popolazione (e quindi del campione) Frequenza assoluta: numero di unità statistiche che presentano la modalità x o la cui modalità appartiene alla classe individuata. Distribuzione di frequenza assoluta a.a. 2011/12 - Laboratorio ? Passo 1: Decidere il numero delle classi usando la formula 2k > n dove k=numero di classi n=taglia del campione In questo caso k=9, perché 2^9=512 Passo 2: Determinare l’ampiezza della classe, o il peso, con la formula h > Max – Min k (249.84- 0.1263)/9=27.74 dove H=massimo valore, L=minimo valore a.a. 2011/12 - Laboratorio Passo 3: Determinare i limiti di ciascuna classe Siccome 28*9=252>249.7227, la quantità 252-249.7227= 2.2773 va equamente ripartita a sinistra del minimo e a destra del massimo. Ossia min(tempi)-1.1386 = -1.0123 e max(tempi)+1.1386= 250.9876 Prima classa è ( -1.0123, -1.0123+28 = 26.9877] Seconda classe è (26.9877, 26.9877 +28 = ….] In Matlab: >> x(1)= -1.0123; >> for i=2:10 x(i)=x(i-1)+ 28; end >> x x= -1.0123 26.9877 54.9877 82.9877 110.9877 138.9877 166.9877 194.9877 222.9877 250.9877 a.a. 2011/12 - Laboratorio Passo 4: Contare il numero di dati contenuti in ciascuna classe Usare la function histc(tempi,x) >>n= histc(tempi,x) n= 127 70 27 15 11 7 3 1 1 0 Numero di dati del c.c. che coincidono con l’ultimo estremo a.a. 2011/12 - Laboratorio Pertanto la distribuzione di frequenza risulta essere Età in mesi Frequenza dei guasti 0-26.9877 127 26.9877-54.9877 70 54.9877-82.9877 27 82.9877- 110.9877 15 110.9877-138.9877 11 138.9877-166.9877 7 166.9877-194.9877 3 194.9877-222.9877 1 222.9877-250.9877 1 Sia per la costruzione dei grafici che per il calcolo degli indici può tornare utile… Punto medio della classe: massimo + minimo 2 a.a. 2011/12 - Laboratorio Costruire un vettore contenente i centri delle classi: >> c(1)=(x(1)+x(2))/2; >> for i=2:9 c(i)=c(i-1)+28; end >> c c= 12.9877 40.9877 68.9877 96.9877 124.9877 152.9877 180.9877 208.9877 236.9877 Con I centri va usata la function >> [n,xout]=hist(tempi,c) >> [n,xout]=hist(tempi,c) n= 127 70 27 15 11 7 3 1 1 xout = 12.9877 40.9877 68.9877 96.9877 124.9877 152.9877 180.9877 208.9877 236.9877 a.a. 2011/12 - Laboratorio La Distribuzione di Frequenza relativa mostra la percentuale di osservazioni in ciascuna classe. Per costruirla, bisogna dvidere il parametro di output n di hist per la taglia del campione: >> fr=n/262 fr = 0.4847 0.2672 0.1031 0.0573 0.0420 0.0267 0.0115 0.0038 >> sum(fr) Quale proprietà caratterizza una distribuzione di frequenza relativa? Quando è opportuno usare la distribuzione di frequenza relativa? a.a. 2011/12 - Laboratorio ans = 1.0000 0.0038 I 3 grafici comunemente usati sono Istogrammi, Poligoni di frequenza e Istogrammi, Distribuzione di Frequenza cumulativa. Un Istogramma è un grafico in cui i punti medi delle classi sono riportati sull’asse orizzontale (assieme agli estremi eventualmente) e le frequenze associate a ciascuna classe sono riportate sull’asse verticale. Le frequenze forniscono l’altezza delle barre che insistono sui punti medi e vengono disegnate una di fianco all’altro. a.a. 2011/12 - Laboratorio Si può utilizzare la function hist(tempi,c) oppure bar(c,n) 140 120 100 80 60 40 20 0 -50 0 50 100 150 200 a.a. 2011/12 - Laboratorio 250 300 Per le frequenze relative bar(c,fr) 0.5 0.45 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 0 50 100 150 Qualche didascalia… a.a. 2011/12 - Laboratorio 200 250 >> title('Frequenze relative') >> xlabel('Tempo di vita del prototipo') >> text(200,0.45,'Istogramma') Frequenze relative 0.5 0.45 Istogramma 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 0 50 100 150 Tempo di vita del prototipo a.a. 2011/12 - Laboratorio 200 250 Le barre si toccano >> bar(c,fr,1) 0.5 >> barh(c,fr,1) Barre orizzontali 300 0.45 250 0.4 0.35 200 0.3 150 0.25 0.2 100 0.15 50 0.1 0.05 0 0 -50 0 50 100 150 200 250 300 -50 0 0.05 0.1 0.15 0.2 0.25 0.3 0.5 0.4 0.3 0.2 0.1 >> bar3(c,fr,1,'r') 0 -50 0 Grafici 3-D 50 100 150 200 250 300 a.a. 2011/12 - Laboratorio 0.35 0.4 0.45 0.5 Un Poligono di frequenza consiste di pezzi di linea retta che collegano i punti medi delle classi alle rispettive frequenze. 0.5 0.45 0.4 >> plot(c,fr,'--rs') 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 0 50 a.a. 2011/12 - Laboratorio 100 150 200 250 IN MATLAB – La function plot Vari tipi di grafici e vari colori possono caratterizzare I vostri grafici. PLOT(X,Y,S) dove S è una stringa di caratteri costruita con uno, due o tre elementi, presi ciascuno dalla seguente colonna: b blu . g verde o r rosso x c fosfor. + m magenta * y giallo s k nero d v ^ < > p h punto cerchio : x -. piu’ -stella quadrato rombo triangolo (su) triangolo (giu’) triangolo (sinistra) triangolo (destra) pentagramma esagramma a.a. 2011/12 - Laboratorio linea continua a punti a punti e linee doppio tratteggio Una Distribuzione di Frequenza cumulativa è usata per determinare quanti o quale percentuale di valori del campione sono al di sotto (o uguali) ad un prefissato valore. Sul piano cartesiano si riportano i dati del c.c. ordinati in senso crescente. Le ordinate sono F ( x(i ) ) = a.a. 2011/12 - Laboratorio numero di dati ≤ x(i) n Per effettuare un grafico della distribuzione di frequenza cumulativa, si può usare la function cdfplot: >> cdfplot(tempi) Empirical CDF 1 0.9 0.8 0.7 F(x) 0.6 0.5 0.4 0.3 0.2 0.1 0 0 50 100 150 x a.a. 2011/12 - Laboratorio 200 250 Problema: Supponiamo che i dati siano stati raccolti in forma tabellare. Come è possibile costruire allora le distribuzioni di frequenze assolute? Quelle delle distribuzioni di frequenze relative? E quelle cumulative? Età in mesi Frequenza dei guasti 0-26.9877 127 26.9877-54.9877 70 54.9877-82.9877 27 82.9877- 110.9877 15 110.9877-138.9877 11 138.9877-166.9877 7 166.9877-194.9877 3 194.9877-222.9877 1 222.9877-250.9877 1 a.a. 2011/12 - Laboratorio Distribuzione di frequenza cumulativa raggruppata per classi Per costruire un poligono di frequenza cumulativa raggruppato, rappresentare il limite superiore di ciascuna classe sull’asse delle X e la corrispondente frequenza cumulata lungo l’asse delle Y. numero di dati ≤ sup sup classe i - esima, n Se la classe i -esima risulta essere ( xi , xi +1 ) rappresentare le coppie ( xi +1 , F ( xi +1 )) a.a. 2011/12 - Laboratorio Intanto per le ordinate è possibile usare la function cumsum >> y=cumsum(n)/262 y= 0.4847 0.7519 0.8550 0.9122 …E poi la function stairs…. 0.9542 0.9809 0.9924 0.9962 1.0000 1 0.9 >> stairs(x(2:10),y) 0.8 0.7 0.6 0.5 0.4 0 50 a.a. 2011/12 - Laboratorio 100 150 200 250 300 Con l’ausilio di questi grafici, è possibile “ipotizzare” un modello stocastico per descrivere il tempo di vita del dispositivo. Ad esempio: prendiamo il poligono di frequenza. 0.5 0.45 0.4 0.35 Ricorda qualcuna delle densità che avete visto? 0.3 0.25 0.2 0.15 disttool 0.1 0.05 0 0 50 100 150 200 250 Perché f(0) sono diverse? a) Servono dei metodi per individuare i parametri…. b) Serve un metodo per confrontare PDF con poligoni di frequenza… a.a. 2011/12 - Laboratorio La Media aritmetica è l’indice di posizione maggiormente impiegato e mostra il valore centrale dei dati. 1 n x = ∑ xi n i =1 >>mean(tempi) Principali caratteristiche: Richiede dati di tipo numerico. Vengono usati tutti i valori. E’ unica. La somma delle distanze dalla media è 0. a.a. 2011/12 - Laboratorio Si consideri il seguente insieme di dati: 3, 8, e 4. La media è 5. Σ( xi − x ) = [ (3 − 5) + (8 − 5) + (4 − 5)] = 0 Si consideri ora il seguente insieme di dati: 3, 8, 1000. La media è 337. La media campionaria non è un indicatore robusto…Ossia può falsare le informazioni. a.a. 2011/12 - Laboratorio Cosa succede se i dati sono già in forma tabellare? Come viene calcolata la media campionaria? Età in mesi Si usa la formula Frequenza dei guasti 0-26.9877 127 26.9877-54.9877 70 54.9877-82.9877 27 82.9877- 110.9877 15 110.9877-138.9877 11 138.9877-166.9877 7 166.9877-194.9877 3 194.9877-222.9877 1 222.9877-250.9877 1 1 k x = ∑ ci ni n i =1 >> media=sum(c.*n)/262 Confronta con > mean(tempi) ans = media = 42.0714 a.a. 2011/12 - Laboratorio 43.0182 La Mediana è il punto medio dei valori del campione, una volta messi in ordine crescente. Al di sotto e al di sopra della mediana deve comparire lo stesso numero di dati. Per un insieme pari di valori, la mediana è la media aritmetica dei due valori di posto n/2 e (n+1)/2 nel campione ordinato A quale tipo di dati si applica? a.a. 2011/12 - Laboratorio La mediana L’età di un campione di 5 studenti universitari è: 21, 25, 19, 20, 22. Ordinando i dati in ordine crescente: 19, 20, 21, 22, 25. La mediana è 21. a.a. 2011/12 - Laboratorio L’altezza di 4 giocatori di basket (in pollici) è: 76, 73, 80, 75. Ordinando i dati in ordine crescente: 73, 75, 76, 80 Allora la mediana è 75.5. La mediana si trova al posto (n+1)/2 = (4+1)/2 =2.5th a.a. 2011/12 - Laboratorio Proprietà della Mediana La mediana è unica per ogni insieme di dati. La mediana è una statistica robusta. Può essere calcolata anche per dati raggruppati. >>>> median(tempi) 0.5 0.45 ans = 0.4 0.35 28.9202 0.3 0.25 0.2 Cosa ci dice il confronto con la media, 43.01? 0.15 0.1 0.05 0 a.a. 2011/12 - Laboratorio 0 50 100 150 200 250 La Mediana di un campione di dati organizzati in distribuzione di frequenza è calcolata con la seguente formula: n − CF Mediana = L + 2 h f ? dove L è il minimo della classe cui la mediana appartiene, CF è la frequenza cumulata nell’estremo destro della classe, f è la frequenza della classe cui la mediana appartiene e h è l’ampiezza della classe cui la mediana appartiene . a.a. 2011/12 - Laboratorio Per calcolare la mediana di dati raggruppati Costruire una distribuzione di frequenza cumulata. Dividere la taglia del campione per 2. Determinare quale classe contiene questo valore. Ad esempio se n=262, 262/2 = 131, allora determinare quale classe contiene il valore di posto 131. Età in mesi 0-26.9877 26.9877-54.9877 54.9877-82.9877 82.9877- 110.9877 110.9877-138.9877 138.9877-166.9877 166.9877-194.9877 194.9877-222.9877 222.9877-250.9877 TOTALE Frequenza dei guasti 127 197 224 239 250 257 260 261 262 262 a.a. 2011/12 - Laboratorio Età in mesi 0-26.9877 26.9877-54.9877 54.9877-82.9877 82.9877- 110.9877 110.9877-138.9877 138.9877-166.9877 166.9877-194.9877 194.9877-222.9877 222.9877-250.9877 TOTALE Frequenza dei guasti 127 197 224 239 250 257 260 261 262 262 n − CF Mediana = L + 2 h f L=26.9877, n=262, f=70, i=28, CF=127 >> 26.9877+(262/2-127)/70*28 ans = 28.5877 dove L è il minimo della classe cui la mediana appartiene, CF è la frequenza cumulata che precede quella della classe cui la mediana appartiene, f è la frequenza della classe cui la mediana appartiene e i è a.a. 2011/12 - Laboratorio l’ampiezza della classe cui la mediana appartiene . La Moda è un altro indice di posizione e rappresenta il valore del campione casuale che appare più frequentemente. Esempio 6: I punteggi di un esame per 10 studenti sono i seguenti (in centesimi) : 81, 93, 84, 75, 68, 87, 81, 75, 81, 87. Poichè il punteggio 81 appare più frequentemente di tutti gli altri, è la moda. Un campione può avere anche più di una moda: se ne ha due si parla di campione bimodale, se ne ha tre si parla di campione trimodale e così via. La Moda per dati raggruppati è approssimativamente il punto medio della classe con frequenza più grande La moda Asimmetria nulla Media =Mediana =Moda Mean Median Mode Le posizioni relative di Media, Mediana, e Moda in una Distribuzione simmetrica • Con coda destra (asimmetria positiva): Media e mediana sono a destra della moda. Media>Mediana>Moda Mode Mean Median Le posizioni relative di Media, Mediana, e Moda in una distribuzione asimmetrica con coda destra Con coda sinistra (asimmetria negativa): Media e Mediana sono a sinistra della Moda. Media<Mediana<Moda Mean Mode Median Le posizioni relative di Media, Mediana, e Moda in una distribuzione asimmetrica con coda sinistra IN MATLAB – Calcolo coefficiente di asimmetria >> primo=[1;2*ones(2,1);3*ones(3,1);4*ones(4,1);5*ones(5,1); 6*ones(6,1);7*ones(7,1)]; >>hist(primo,[1,2,3,4,5,6,7]) >>secondo=[ones(7,1);2*ones(6,1);3*ones(5,1);4*ones(4,1); 5*ones(3,1);6*ones(2,1);7] >>hist(secondo,[1,2,3,4,5,6,7]) >>[mean(primo),mean(secondo),median(primo),median(secondo)] ans = 5 3 5 3 >> skewness(primo) ans = -0.5774 >> skewness(secondo) ans = 0.5774 Dispersione = variabilità o diffusione dei dati 30 25 20 15 10 5 0 0 Misure di dispersione sono: 2 4 6 8 10 12 range, varianza e deviazione standard. Misure di dispersione >> range=max(tempi)-min(tempi) Range = Massimo range = – Minimo 249.7227 Varianza:: la Varianza media aritmetica dei quadrati delle deviazioni dalla media. >> var(tempi) ans = 1.7873e+003 std(tempi) ans = 42.2759 Deviazione standard: standard Radice quadrata della varianza. Varianza campionaria (s2) n 1 2 s = ( xi − x ) ∑ (n − 1) i =1 2 Deviazione standard campionaria (s) s= s 2 Varianza e Deviazione standard campionarie 3- 43 Regola empirica : Per ogni distribuzione simmetrica a forma di campana risulta Circa il 68% delle osservazioni distano dalla media meno di 1 una volta la deviazione standard. Circa il 95% delle osservazioni distano dalla media meno di 2 volte la deviazione standard. Virtualmente tutte le osservazioni distano dalla media meno di 3 volte la deviazione standard. Interpretazione e uso della deviazione standard 3- 44 Curva a forma di campana che mostra la relazione tra σ e µ. 68% 95% 99.7% µ−3σ µ−2σ µ−1σ µ µ+1σ µ+2σ µ+ 3σ In genere se s<< range/4 i dati sono concentrati attorno alla media campionaria CURTOSI Curtosi di una distribuzione = Maggiore o minore appuntimento della curva Indice di Curtosi m4 γ2 = 2 −3 m2 >> kurtosis(tempi)-3 ans = 3.5747 γ 2 > 0 per distribuzioni appuntite γ 2 = 0 per la distribuzione gaussiana γ < 0 per distribuzioni piatte 2 Coefficiente di variazione Una proprietà desiderabile per un indice di variabilità è che non dipenda dall’unità di misura in cui è espresso il carattere. Es: altezza di 5 studenti: 172, 175, 176, 178, 180 La media risulta essere 176,2 cm e la dev standard risulta essere 2,71. Se esprimiamo in metri, la media diviene 1,762 e la dev.standard 0,0271. Esempio: Un processo industriale produce bustine di camomilla del peso medio di 2 grammi. La dev. standard è 0,034. Un secondo processo industriale produce confezioni di pasta alimentare del peso di 500 grammi. La dev. standard è 2.7. Quale tra i due processi è più “preciso”? Questa comparazione può essere effettuata in modo appropriato esprimendo la deviazione standard di ciascun processo come percentuale della rispettiva media. 0.034 ×100 = 1.7 2 2.7 ×100 = 0.5 500 a.a. 2011/12 - Laboratorio 12 Q4 11 10 9 Q3 8 7 6 Q2 5 4 3 Q1 2 1 esimo percentile 96 75 92 Media tra la nona e la decima 91 osservazione = (88 + 91)/2 = 89.5 88 86 50esimo percentile: Mediana 85 Media tra la sesta e la settima 84 osservazione = (84+85)/2 = 84.5 83 82 esimo percentile 25 79 78 Media tra la terza e la quarta osservazio69 ne = (79 + 82)/2 = 80.5 IN MATLAB >> prctile(tempi,25), prctile(tempi,50), prctile(tempi,75) ans = 12.5160 ans = 28.9202 ans = 53.5340 a.a. 2011/12 - Laboratorio Il campo interquartile (o intervallo interquartile) è la differenza tra il III quartile Q3 e il I quartile Q1. Questa distanza ingloba il 50% delle informazioni. Campo interquartile = Q3 - Q1 >> prctile(tempi,75) - prctile(tempi,25) ans = 41.0180 >> iqr(tempi) ans = 41.0180 Un box plot è un grafico che aiuta a descrivere le caratteristiche qualitative di un insieme di dati. 5 dati sono necessari alla costruzione: il minimo: il I quartile; la mediana; il III quartile; il massimo. Basandosi su un campione di 20 consegne, Buddy’s Pizza determina la seguente informazione. Il minimo tempo impiegato per la consegna è 13 minuti ed il massimo tempo impiegato è 30 minuti. Il I quartile vale 15 minuti, la mediana 18 ed il III quartile vale 22 minuti. Costruire un box plot per il tempo di consegna. Min Q 1 12 14 16 Median 18 20 Max Q3 22 24 26 28 30 32 IN MATLAB: >> boxplot(tempi) 250 200 Values 150 100 50 0 1 Column Number a.a. 2011/12 - Laboratorio a.a. 2011/12 - Laboratorio ESERCITAZIONE Tempi di attesa ad un centralino telefonico. >> load - ascii esempio3 1. Costruire l’istogramma (n=?) >> 2^7 ans = 128 2. Costruire il vettore contenente gli estremi delle classi >> campo=max(es3)campo=max(es3)-min(es3), amp=campo/7 >> amp=0.7 >> % minimo dei tempi=0 >>x(1)=0.0, for i=2:8 x(i)=x(ix(i)=x(i-1)+amp; end 3. Distribuzione di frequenza >> histc(es3,x) ans = 52 27 13 1 3 2 2 0 4. Istogramma >>c=(x(1:7)+x(2:8))/2 >>hist(es3,c) 5. Poligono di frequenza >> n=hist(es3,c)/30; >> plot(c,n,'r*-plot(c,n,'r*--') --') >> title('Poligono di frequenza') 6. Indici statistici >> loc=[median(es3), mode(es3), mean(es3)] loc = 0.6558 1.0117 0.9621 >> disp=[iqr(es3), range(es3), var(es3), std(es3)] disp = 0.9001 4.6074 0.6691 0.9468 >> altri=[skewness(es3), kurtosis(es3), loc(3)/disp(5)] altri = 2.0133 7.3505 1.0161 7. Box Plot OUTLIERS >> boxplot(es3) >> [max(es3),min(es3)] ans = 4.6191 0.0117 8. Cumulativa empirica >> cdfplot(es3)