appunti U.D. SP1
Transcript
appunti U.D. SP1
APPUNTI DI STATISTICA per le classi prime – indirizzo turistico La statistica studia i metodi utili a descrivere e ad interpretare fenomeni che riguardano la collettività, ovvero gruppi di persone o di oggetti che di per sé avrebbero caratteristiche individuali molto diversi. In particolare: - la statistica descrittiva si occupa di come organizzare, sintetizzare, rappresentare e analizzare dati relativi alla caratteristiche di una data “popolazione” oggetto di studio; - la statistica inferenziale, invece, studia come pervenire a conclusioni relative ad una totalità mediante l’analisi dei dati osservati su un campione. Noi ci occuperemo di alcuni elementi di base di statistica descrittiva. FASI DELL’INDAGINE STATISTICA 1] definizione degli obiettivi dell’indagine: - individuazione della popolazione statistica: essa è l’insieme di elementi che costituiscono l’oggetto dell’indagine, in quanto presentano una o più caratteristiche comuni; ogni elemento di tale popolazione (universo statistico) è detto unità statistica. - determinazione dei caratteri che interessa analizzare (che possono essere di tipo qualitativo o quantitativo), nonché delle modalità con cui essi possono manifestarsi 2] raccolta dei dati statistici (da archivi o con questionari) - complete o parziali - continue o periodiche o limitate 3] spoglio dei dati e loro rappresentazione mediante tabelle e grafici 4] elaborazione dei dati statistici 5] interpretazione dei dati statistici Le fasi 3 e 4 sono quelle che interessano in modo specifico la statistica. RAPPRESENTAZIONE DI DATI - Ortogrammi: vengono tracciati tanti rettangoli quanti sono i dati da rappresentare, in modo che le loro basi siano uguali e le altezze siano proporzionali all’intensità del fenomeno (p.e. la frequenza riferita alle diverse modalità con cui un certo carattere si presenta nella popolazione esaminata). - Istogrammi: si utilizzano per rappresentare i fenomeni che si riferiscono a distribuzioni di frequenze per classi, anche quando esse non hanno tutte la stessa ampiezza; sono composti da rettangoli che hanno base proporzionale all’ampiezza della classe e altezza proporzionale a ciò che si ottiene dividendo la frequenza relativa alla classe per la sua ampiezza: in questo modo sarà l’area del rettangolo rappresentato ad essere proporzionale alla frequenza. - Diagrammi circolari: vengono utilizzati quando di un fenomeno si vogliono evidenziare le parti che lo compongono (rapporti di composizione); si traccia quindi un cerchio e lo si suddivide in parti di ampiezza proporzionale all’intensità raggiunta da ciascuna componente del fenomeno. - Diagrammi cartesiani: sono i più adatti per rappresentare i dati relativi alle cosiddette “serie storiche”, quelle cioè che descrivono l’andamento di un fenomeno nel tempo (p.e. le spese sostenute per il cellulare nel corso di una certa settimana; la produzione annuale di grano duro dal 2000 al 2009); la scansione temporale viene riportata sull’asse delle ascisse e i valori corrispondenti su quello delle ordinate, ovviamente con unità di misura differenti: i punti ottenuti vengono uniti tra loro con una spezzata, per far risaltare come il fenomeno osservato si sviluppa nel tempo. Per gli esempi: vedi il foglio di Excel d1udS1-graf.xls Un esempio di serie storica: anno consumi elettrici (kWh) 2000 850 2001 895 2002 975 2003 925 2004 1250 2005 1325 2006 1290 2007 1110 Alcuni esempi di distribuzioni di frequenze: - un esempio di distribuzione di frequenze riferita ad un carattere qualitativo: campagna/ collina frequenza 45 12 4 3 - un esempio di distribuzione di frequenze riferita ad un carattere quantitativo, non suddiviso in classi: nr di mezzi utilizzati per raggiungere la scuola 1 2 3 4 frequenza 5 13 6 1 meta preferita per le vacanze estive mare montagna lago - un esempio di distribuzione di frequenze per classi (necessariamente si tratta di un carattere di tipo quantitativo): età 5÷10 11÷20 21÷35 35÷50 51÷70 frequenza 120 60 65 80 30 ALCUNI INDICI STATISTICI Indici di posizione centrale: Media aritmetica: dato un insieme di n dati, la loro media aritmetica si determina sommando tutti gli n dati tra loro e dividendo il risultato ottenuto per n. x1 + x2 + x3 + ... + xn x= n La media aritmetica è quel valore che assumerebbero i dati se, a parità di somma, essi fossero tutti uguali tra loro. Moda: in una distribuzione di frequenze, è la modalità del carattere che presenta la frequenza più alta. Mediana: in un insieme ordinato di dati, la mediana è il dato che separa gli elementi in due insiemi formati dallo stesso numero di dati. Dal punto di vista operativo: se il numero complessivo dei dati considerati è dispari, la mediana è il valore che occupa la posizione centrale nell’elenco; se invece il numero dei dati considerati è pari, la mediana si individua calcolando la media dei due dati che occupano la posizione centrale. Esempio 1: Consideriamo i voti di Marco. Marco 7 8 6 5 7 5 4 7 Calcoliamo i diversi indici di posizione centrale: 7 + 8 + 6 + 5 + 7 + 5 + 4 + 7 + 7 + 6 + 6 490 − media: x= = 11 = 6,1818…≈ 6,18 11 moda: la moda vale 7 (si tratta del voto che presenta la frequenza più alta) mediana: per determinare la mediana riordiniamo gli 11 dati: 4 5 5 6 6 6 7 7 7 7 8 ; questo è il dato che occupa la 6a posizione nell’insieme riordinato di tutti i dati 7 6 6 la mediana vale 6, infatti Esempio 2: Consideriamo la seguente distribuzione di frequenze e calcoliamo i diversi indici di posizione centrale: frequenze x f cumulate media: per calcolare la media, ricordiamo in questo caso che ciascun dato non va 10 2 2 considerato una sola volta, ma secondo la frequenza indicata: 15 5 7 10·2 + 15·5 + 20·4 + 25·9 + 30·3 490 − = 23 = 21,3043.. ≈ 21,30 x= 20 4 11 23 25 9 20 30 3 23 moda: la moda vale 25 tot 23 mediana: per determinare la mediana, dividiamo il totale delle 23 unità statistiche in due gruppi: 23 : 2 = 11 con il resto di 1 questo significa che il 12° elemento dell’insieme riordinato dei dati è quello che occupa la posizione centrale: dalla colonna delle frequenze cumulate si ricava che tale dato è uguale a 25 (esempio di completare) Esempio 3: Consideriamo i seguenti dati relativi alle spese sostenute da Marco per le telefonate con il proprio cellulare nella scorsa settimana: giorno spesa (€) Calcoliamo la media di spesa giornaliera: dom 2,25 lun 3,15 2,25 + 3,15 + 0,15 + 1,80 + 2,95 + 0,90 + 5,30 16,40 mar 0,15 − x= = 7 = 2,3571.. ≈ 2,36 7 mer 1,80 gio 2,95 In questo caso non ha alcun significato il calcolo della moda e della mediana ven 0,90 sab 5,30 tot 16,40 Esempio 4: Consideriamo la seguente distribuzione di frequenze relativa alle bibite vendute attraverso una macchina distributrice collocata in una scuola: bibita f In un caso come quello considerato a fianco, l’unico indice di posizione centrale significacola 45 tivo è la moda, che in questo caso corrisponde all’acqua. the 29 acqua 70 tot 144 Esempio 5: Nella valutazione di una verifica di matematica Anna ha ottenuto i seguenti voti: conoscenze competenze capacità pesi 2 2 1 valutazioni (in decimi) 6 8 5 Per calcolare il voto complessivo, è necessario calcolare la media pesata: 6·2 + 8·2 + 5·1 12 + 16 + 5 33 = = = 6,6 2+2+1 5 5 Per vedere un esempio di calcolo della media per le distribuzioni di frequenze per classi: vedi il foglio di Excel d1udS1-graf.xls Indici di dispersione/di variabilità: servono a misurare di quanto i singoli dati si scostano mediamente dal valore medio Campo di variabilità/intervallo di variazione: è la differenza tra il dato maggiore ed il dato minore Scarto semplice medio: media degli scarti assoluti (differenza tra un singolo dato ed la media aritmetica dei dati) Varianza: media dei quadrati degli scarti Scarto quadratico medio: radice quadrata della varianza; si indica con il simbolo σ (sigma) Esempio 1: Consideriamo i voti di Marco: sappiamo che la loro media vale 6,18. Calcoliamo gli indici di dispersione: Marco 7 8 6 5 7 5 4 7 7 6 6 0,82 1,82 -0,18 -1,18 0,82 -1,18 -2,18 0,82 0,82 -0,18 -0,18 s (scarti) 0,82 1,82 0,18 1,18 0,82 1,18 2,18 0,82 0,82 0,18 0,18 |s| 0,6724 3,3124 0,0324 1,3924 0,6724 1,3924 4,7524 0,6724 0,6724 0,0324 0,0324 s2 campo di variabilità: 8 – 4 = 4 scarto semplice medio: −s = 0,82 + 1,82 + 0,18 + 1,18 + 0,82 + 1,18 + 2,18 + 0,82 + 0,82 + 0,18 + 0,18 = 10,18 ≈ 0,93 11 11 0,6724+3,3124+0,0324+1,3924+0,6724+1,3924+4,7524+0,6724+0,6724+0,0324+0,0324 13,6364 = 11 ≈ 1,24 σ2 = 11 σ = 1,24 ≈ 1,11 Esempio 2: Riprendiamo la distribuzione di frequenze considerata in precedenza e calcoliamo gli indici di dispersione corrispondenti campo di variabilità: 30 – 10 = 20 x f s |s| s2 10 2 -11,30 11,30 127,69 x = 21,30 15 5 -6,30 6,30 39,29 scarto semplice medio: anche nel calcolo della media degli scarti 20 4 -1,30 1,30 1,69 assoluti, bisogna considerare le diverse frequenze: 25 9 3,70 3,70 13,69 30 3 8,70 8,70 75,69 −s = 11,30·2 + 6,30·5 + 1,30·4 + 3,70·9 + 8,70·3 = 118,70 ≈ 5,16 23 23 tot 23 σ2 = 127,69·2+39,29·5+1,69·4+13,69·9+75,69·3 810,87 = 23 ≈ 35,255 23 quindi: σ = 35,255 ≈ 5,94 Esempio 3: Riprendiamo le spese di Marco per il cellulare, ricordando che la media giornaliera della spesa è pari a 2,36 €. Anche in questo caso calcoliamo gli indici di dispersione: giorno dom lun mar mer gio ven sab spesa (€) 2,25 3,15 0,15 1,80 2,95 0,90 5,30 scarto assoluto 0,11 0,79 2,21 0,56 0,59 1,46 2,94 quadrati scarti 0,0121 0,6241 4,8841 0,3136 0,3481 2,1316 8,6436 campo di variabilità: 5,30 – 0,15 = 4,15 scarto semplice medio: la media degli scarti assoluti è uguale a circa 1,24 € varianza: la media dei quadrati degli scarti è uguale a circa 2,42 € scarto quadratico medio: la radice quadrata della varianza è uguale a circa 1,56 € Altri esempi nel foglio di Excel d1udS1-graf.xls