appunti U.D. SP1

Transcript

appunti U.D. SP1
APPUNTI DI STATISTICA
per le classi prime – indirizzo turistico
La statistica studia i metodi utili a descrivere e ad interpretare fenomeni che riguardano la collettività, ovvero gruppi
di persone o di oggetti che di per sé avrebbero caratteristiche individuali molto diversi.
In particolare:
- la statistica descrittiva si occupa di come organizzare, sintetizzare, rappresentare e analizzare dati relativi
alla caratteristiche di una data “popolazione” oggetto di studio;
- la statistica inferenziale, invece, studia come pervenire a conclusioni relative ad una totalità mediante
l’analisi dei dati osservati su un campione.
Noi ci occuperemo di alcuni elementi di base di statistica descrittiva.
FASI DELL’INDAGINE STATISTICA
1] definizione degli obiettivi dell’indagine:
- individuazione della popolazione statistica: essa è l’insieme di elementi che costituiscono l’oggetto dell’indagine, in quanto presentano una o più caratteristiche comuni; ogni elemento di tale popolazione (universo statistico) è detto unità statistica.
- determinazione dei caratteri che interessa analizzare (che possono essere di tipo qualitativo o quantitativo),
nonché delle modalità con cui essi possono manifestarsi
2] raccolta dei dati statistici (da archivi o con questionari)
- complete o parziali
- continue o periodiche o limitate
3] spoglio dei dati e loro rappresentazione mediante tabelle e grafici
4] elaborazione dei dati statistici
5] interpretazione dei dati statistici
Le fasi 3 e 4 sono quelle che interessano in modo specifico la statistica.
RAPPRESENTAZIONE DI DATI
- Ortogrammi: vengono tracciati tanti rettangoli quanti sono i dati da rappresentare, in modo che le loro basi
siano uguali e le altezze siano proporzionali all’intensità del fenomeno (p.e. la frequenza riferita alle diverse
modalità con cui un certo carattere si presenta nella popolazione esaminata).
- Istogrammi: si utilizzano per rappresentare i fenomeni che si riferiscono a distribuzioni di frequenze per
classi, anche quando esse non hanno tutte la stessa ampiezza; sono composti da rettangoli che hanno base
proporzionale all’ampiezza della classe e altezza proporzionale a ciò che si ottiene dividendo la frequenza
relativa alla classe per la sua ampiezza: in questo modo sarà l’area del rettangolo rappresentato ad essere
proporzionale alla frequenza.
- Diagrammi circolari: vengono utilizzati quando di un fenomeno si vogliono evidenziare le parti che lo
compongono (rapporti di composizione); si traccia quindi un cerchio e lo si suddivide in parti di ampiezza
proporzionale all’intensità raggiunta da ciascuna componente del fenomeno.
- Diagrammi cartesiani: sono i più adatti per rappresentare i dati relativi alle cosiddette “serie storiche”,
quelle cioè che descrivono l’andamento di un fenomeno nel tempo (p.e. le spese sostenute per il cellulare
nel corso di una certa settimana; la produzione annuale di grano duro dal 2000 al 2009); la scansione temporale viene riportata sull’asse delle ascisse e i valori corrispondenti su quello delle ordinate, ovviamente
con unità di misura differenti: i punti ottenuti vengono uniti tra loro con una spezzata, per far risaltare come
il fenomeno osservato si sviluppa nel tempo.
Per gli esempi: vedi il foglio di Excel d1udS1-graf.xls
Un esempio di serie storica:
anno
consumi elettrici (kWh)
2000
850
2001
895
2002
975
2003
925
2004
1250
2005
1325
2006
1290
2007
1110
Alcuni esempi di distribuzioni di frequenze:
- un esempio di distribuzione di frequenze riferita ad un carattere qualitativo:
campagna/
collina
frequenza
45
12
4
3
- un esempio di distribuzione di frequenze riferita ad un carattere quantitativo, non suddiviso in classi:
nr di mezzi utilizzati per raggiungere la scuola
1
2
3
4
frequenza
5
13
6
1
meta preferita per le vacanze estive
mare
montagna
lago
- un esempio di distribuzione di frequenze per classi (necessariamente si tratta di un carattere di tipo quantitativo):
età
5÷10
11÷20
21÷35
35÷50
51÷70
frequenza
120
60
65
80
30
ALCUNI INDICI STATISTICI
Indici di posizione centrale:
Media aritmetica: dato un insieme di n dati, la loro media aritmetica si determina sommando tutti gli n dati tra loro e
dividendo il risultato ottenuto per n.
x1 + x2 + x3 + ... + xn
x=
n
La media aritmetica è quel valore che assumerebbero i dati se, a parità di somma, essi fossero tutti uguali tra loro.
Moda: in una distribuzione di frequenze, è la modalità del carattere che presenta la frequenza più alta.
Mediana: in un insieme ordinato di dati, la mediana è il dato che separa gli elementi in due insiemi formati dallo
stesso numero di dati.
Dal punto di vista operativo: se il numero complessivo dei dati considerati è dispari, la mediana è il valore che
occupa la posizione centrale nell’elenco; se invece il numero dei dati considerati è pari, la mediana si individua
calcolando la media dei due dati che occupano la posizione centrale.
Esempio 1: Consideriamo i voti di Marco.
Marco
7
8
6
5
7
5
4
7
Calcoliamo i diversi indici di posizione centrale:
7 + 8 + 6 + 5 + 7 + 5 + 4 + 7 + 7 + 6 + 6 490
−
media:
x=
= 11 = 6,1818…≈ 6,18
11
moda: la moda vale 7 (si tratta del voto che presenta la frequenza più alta)
mediana: per determinare la mediana riordiniamo gli 11 dati: 4 5 5 6 6 6 7 7 7 7 8 ;
questo è il dato che occupa la 6a posizione nell’insieme riordinato di tutti i dati
7
6
6
la mediana vale 6, infatti
Esempio 2: Consideriamo la seguente distribuzione di frequenze e calcoliamo i diversi indici di posizione centrale:
frequenze
x
f
cumulate
media: per calcolare la media, ricordiamo in questo caso che ciascun dato non va
10
2
2
considerato una sola volta, ma secondo la frequenza indicata:
15
5
7
10·2 + 15·5 + 20·4 + 25·9 + 30·3 490
−
= 23 = 21,3043.. ≈ 21,30
x=
20
4
11
23
25
9
20
30
3
23
moda: la moda vale 25
tot
23
mediana: per determinare la mediana, dividiamo il totale delle 23 unità statistiche in due gruppi:
23 : 2 = 11 con il resto di 1
questo significa che il 12° elemento dell’insieme riordinato dei dati è quello che occupa la posizione centrale: dalla
colonna delle frequenze cumulate si ricava che tale dato è uguale a 25 (esempio di completare)
Esempio 3: Consideriamo i seguenti dati relativi alle spese sostenute da Marco per le telefonate con il proprio
cellulare nella scorsa settimana:
giorno
spesa (€)
Calcoliamo la media di spesa giornaliera:
dom
2,25
lun
3,15
2,25 + 3,15 + 0,15 + 1,80 + 2,95 + 0,90 + 5,30 16,40
mar
0,15
−
x=
= 7 = 2,3571.. ≈ 2,36
7
mer
1,80
gio
2,95
In questo caso non ha alcun significato il calcolo della moda e della mediana
ven
0,90
sab
5,30
tot
16,40
Esempio 4: Consideriamo la seguente distribuzione di frequenze relativa alle bibite vendute attraverso una macchina distributrice collocata in una scuola:
bibita
f
In un caso come quello considerato a fianco, l’unico indice di posizione centrale significacola
45
tivo è la moda, che in questo caso corrisponde all’acqua.
the
29
acqua
70
tot
144
Esempio 5: Nella valutazione di una verifica di matematica Anna ha ottenuto i seguenti voti:
conoscenze
competenze
capacità
pesi
2
2
1
valutazioni (in decimi)
6
8
5
Per calcolare il voto complessivo, è necessario calcolare la media pesata:
6·2 + 8·2 + 5·1 12 + 16 + 5 33
=
=
= 6,6
2+2+1
5
5
Per vedere un esempio di calcolo della media per le distribuzioni di frequenze per classi: vedi il foglio di Excel
d1udS1-graf.xls
Indici di dispersione/di variabilità: servono a misurare di quanto i singoli dati si scostano mediamente dal valore
medio
Campo di variabilità/intervallo di variazione: è la differenza tra il dato maggiore ed il dato minore
Scarto semplice medio: media degli scarti assoluti (differenza tra un singolo dato ed la media aritmetica dei dati)
Varianza: media dei quadrati degli scarti
Scarto quadratico medio: radice quadrata della varianza; si indica con il simbolo σ (sigma)
Esempio 1: Consideriamo i voti di Marco: sappiamo che la loro media vale 6,18. Calcoliamo gli indici di dispersione:
Marco
7
8
6
5
7
5
4
7
7
6
6
0,82
1,82
-0,18
-1,18
0,82
-1,18
-2,18
0,82
0,82
-0,18
-0,18
s (scarti)
0,82
1,82
0,18
1,18
0,82
1,18
2,18
0,82
0,82
0,18
0,18
|s|
0,6724 3,3124 0,0324 1,3924 0,6724 1,3924 4,7524 0,6724 0,6724 0,0324 0,0324
s2
campo di variabilità: 8 – 4 = 4
scarto semplice medio:
−s = 0,82 + 1,82 + 0,18 + 1,18 + 0,82 + 1,18 + 2,18 + 0,82 + 0,82 + 0,18 + 0,18 = 10,18 ≈ 0,93
11
11
0,6724+3,3124+0,0324+1,3924+0,6724+1,3924+4,7524+0,6724+0,6724+0,0324+0,0324 13,6364
= 11 ≈ 1,24
σ2 =
11
σ = 1,24 ≈ 1,11
Esempio 2: Riprendiamo la distribuzione di frequenze considerata in precedenza e calcoliamo gli indici di dispersione corrispondenti
campo di variabilità: 30 – 10 = 20
x
f
s
|s|
s2
10
2
-11,30 11,30 127,69
x = 21,30
15
5
-6,30
6,30
39,29
scarto semplice medio: anche nel calcolo della media degli scarti
20
4
-1,30
1,30
1,69
assoluti, bisogna considerare le diverse frequenze:
25
9
3,70
3,70
13,69
30
3
8,70
8,70
75,69
−s = 11,30·2 + 6,30·5 + 1,30·4 + 3,70·9 + 8,70·3 = 118,70 ≈ 5,16
23
23
tot
23
σ2 =
127,69·2+39,29·5+1,69·4+13,69·9+75,69·3 810,87
= 23 ≈ 35,255
23
quindi: σ = 35,255 ≈ 5,94
Esempio 3: Riprendiamo le spese di Marco per il cellulare, ricordando che la media giornaliera della spesa è pari a
2,36 €. Anche in questo caso calcoliamo gli indici di dispersione:
giorno
dom
lun
mar
mer
gio
ven
sab
spesa (€)
2,25
3,15
0,15
1,80
2,95
0,90
5,30
scarto assoluto
0,11
0,79
2,21
0,56
0,59
1,46
2,94
quadrati scarti
0,0121
0,6241
4,8841
0,3136
0,3481
2,1316
8,6436
campo di variabilità: 5,30 – 0,15 = 4,15
scarto semplice medio: la media degli scarti assoluti è uguale a circa 1,24 €
varianza: la media dei quadrati degli scarti è uguale a circa 2,42 €
scarto quadratico medio: la radice quadrata della varianza è uguale a circa 1,56 €
Altri esempi nel foglio di Excel d1udS1-graf.xls