Elementi di statistica

Transcript

Elementi di statistica
Scuola media G. Ungaretti
Elementi di
statistica
Prof. Enrico Castello
Ti insegnerò a……

conoscere i criteri organizzatori di una tabella di dati

distinguere frequenze assolute e frequenze percentuali

determinare indici centrali e di variabilità

formulare ipotesi intuitive su eventuali relazioni tra i
dati descritti in una tabella o in un grafico
Quindi saprai……
 individuare le informazioni in una rappresentazione statistica
(diagrammi e tabelle)
 usare e interpretare misure di centralità e di dispersione
 confrontare diverse distribuzioni con lo stesso carattere
 individuare relazioni tra le variabili rappresentate per
descrivere il fenomeno ed effettuare previsioni
STATISTICA
E FENOMENI COLLETTIVI
STATISTICA si occupa dello studio dei FENOMENI
COLLETTIVI.
La
Un fenomeno collettivo è un
tutti dello stesso tipo.
insieme di fenomeni singoli,
Un fenomeno singolo costituisce una
unità statistica
ESEMPIO
L’altezza di un alunno in una classe
costituisce un FENOMENO SINGOLO.
L’altezza di tutti gli alunni in una classe
costituisce un FENOMENO COLLETTIVO
L’INDAGINE STATISTICA
Fenomeno collettivo
Esempio: situazione
occupazionale nella
provincia di Cosenza
Popolazione Residenti
nella Provincia in un
certo periodo
Unità statistiche Singoli
individui
Caratteri (modalità)
Sesso (M o F), età,
stato civile, condizione
professionale, …
• Osservazione
Registrazione delle
risposte ad un
questionario
• Aspetti del fenomeno
- Quota disoccupati Quota disoccupazione
giovanile
- Durata di disoccupazione
- Relazione tra occupazione,
disoccupazione e sesso
- …
L’INDAGINE STATISTICA
E LE SUE FASI
Per INDAGINE STATISTICA si intende un’insieme di attività
finalizzate ad approfondire la conoscenza di un fenomeno.
Le sue FASI sono:
1) IMPOSTAZIONE DELL’INDAGINE
STATISTICA
2)
RACCOLTA DATI
3) SPOGLIO E TRASCRIZIONE
DEI DATI
4) ELABORAZIONE DATI
1) IMPOSTAZIONE DELL’INDAGINE
STATISTICA
In questa prima fase occorre precisare:

LO SCOPO DELLA RICERCA

GLI OBIETTIVI CHE SI VOGLIONO
RAGGIUNGERE

LE UNITÀ STATISTICHE OGGETTO
DI INDAGINI
2) RACCOLTA DEI DATI
In questa seconda fase occorre stabilire in modo preciso
quali sono i dati da rilevare
 NATURA DEI DATI
I dati raccolti possono essere di natura QUANTITATIVA
oppure QUALITATIVA
I dati qualitativi sono rappresentati da aggettivi (nazionalità,
religione, ecc)
I dati quantitativi sono espressi da numeri (altezza, peso, ecc.)
 METODI DI RACCOLTA DEI DATI
La raccolta dei dati può essere GLOBALE oppure a
CAMPIONE
La raccolta globale riguarda tutte le unità statistiche
che compongono il fenomeno collettivo
La raccolta a campione riguarda solo una parte delle
unità statistiche che compongono il fenomeno collettivo
 TECNICA DI RACCOLTA DEI DATI
Tecnicamente,la raccolta dei dati può essere fatta in
modi diversi, tuttavia la raccolta più seguita è quella
dell’INTERVISTA DIRETTA o INDIRETTA
L’intervista diretta prevede domande poste direttamente
dall’intervistatore
L’intervista indiretta prevede il riempimento di un questionario
che l’intervistato deve riempire in tutte le sue parti
 ORGANI PREPOSTI ALLA RACCOLTA
DEI DATI
La raccolta dei dati può essere fatta da CHIUNQUE
abbia interesse a fare una ricerca statistica.
In Italia l’organo più importante che si occupa della
raccolta dei dati e della loro successiva elaborazione
è L’ISITUTO CENTRALE DI STATISTICA (sigla ISTAT)
3) SPOGLIO E TRASCRIZIONE
DEI DATI
Tale fase comporta:

ENUMERAZIONE DEI DATI
L’enumerazione dei dati avviene scrivendo materialmente
un numero progressivo (001, 002, ecc.) su ogni questionario
allo scopo di effettuare un controllo sul numero delle unità
statistiche effettivamente prese in considerazione

CLASSIFICAZIONE DEI DATI IN GRUPPI
I dati raccolti, dopo essere stati enumerati vengono
CLASSIFICATI in GRUPPI ossia suddivisi in classi omogenee

TRASCRIZIONE IN TABELLE
Una volta enumerati e classificati, i dati vengono
trascritti in TABELLE.
Si distinguono diversi tipi di TABELLE
RAPPRESENTAZIONE NUMERICA
1) TABELLA SEMPLICE
ESEMPIO: Riportiamo in una TABELLA SEMPLICE i DATI
riguardanti le TEMPERATURE registrate durante una
giornata autunnale ad intervalli di sei ore:1)h=0;T=2°c
2)h=6;T=2°C 3)h=12;T=11°C 4)h=18;T=8°C 5)h=24;T=4°C
dati
tabella
semplice
Orario
(h)
Temperatura (°C)
0
2
6
2
12
11
18
8
24
4
RAPPRESENTAZIONE NUMERICA
2) TABELLA COMPOSTA
ESEMPIO: Riportiamo in una TABELLA COMPOSTA i DATI riguardanti
le ALTEZZE (h) ed i PESI (P) di una famiglia di quattro persone:
1) Padre; h = 175 cm; p = 80 kg
2) Madre: h = 170 cm; p = 64 kg
dati
tabella
composta
3) Figlio h = 180 cm; p = 74 kg
4) Figlia h = 173 cm; p = 60 kg
Componente altezza peso
nucleo
h = cm P = kg
Padre
Madre
Figlio
Figlia
175
170
180
173
80
64
74
60
TRASCRIZIONE DEI DATI PER CLASSI
La rappresentazione di una DISTRIBUZIONE DI DATI PER CLASSI,
si presenta VANTAGGIOSA quando i dati sono molto NUMEROSI per una
rappresentazione ponderata
Rappresentazione ponderata
E
S
E
M
P
I
O
PESO (Kg)
(termini)
N° STUDENTI
(frequenze)
52
1
54
1
55
2
60
1
63
1
68
2
69
3
71
1
73
1
75
1
TOTALE
14
Rappresentazione per classi di peso
CLASSI DI PESO
(termini)
N° STUDENTI
(frequenze)
50 – 60 Kg
4
60 – 70 Kg
7
70 – 80 Kg
3
totale
14
L’ informazione, diviene meno precisa nel
caso di una distribuzione per classi, tuttavia
la visione della distribuzione diventa più
semplice e rapida
4) ELABORAZIONE DEI DATI
In questa fase i dati vengono sottoposti ad una elaborazione
matematica il cui scopo è quello di esprimere i risultati
dell’indagine in modo sintetico
Alcune forme di elaborazione dei dati statistici sono:
1)
2)
3)
4)
5)
6)
7)
8)
LE FREQUENZE ASSOLUTE E RELATIVE
LA MEDIA ARITMETICA
LA MEDIA PONDERATA
GLI SCARTI DALLA MEDIA ARITMETICA
LA VARIANZA
LO SCARTO QUADRATICO MEDIO
LA MODA
LA MEDIANA
FREQUENZE ASSOLUTE
La FREQUENZA ASSOLUTA indica quante volte la MODALITÀ
di un CARATTERE si ripete
carattere
Colore capelli
(carattere)
Neri
Castani
modalità
N° persone
(frequenza assoluta)
10
6
Rossi
1
biondi
5
totale
22
Frequenze
assolute
FREQUENZE RELATIVE
Le FREQUENZE ASSOLUTE, di due distribuzioni di dati, anche
della stessa specie, non sono confrontabili in quanto si riferiscono,
in generale, ad un diverso numero di casi complessivi.
Questo inconveniente viene superato introducendo il concetto di
FREQUENZA RELATIVA
La frequenza relativa di una certa modalità è data dal rapporto
tra la frequenza assoluta di tale modalità ed il numero totale dei
casi; se è percentuale il valore va moltiplicato per 100:
frequenza relativa 
frequenza relativa_ % 
frequenza assoluta
frequenza totale
frequenza assoluta100
frequenza totale
OSSERVAZIONE: Le frequenze relative % non sono
altro che RAPPORTI PERCENTUALI
CALCOLO DELLE FREQUENZE RELATIVE
Consideriamo i dati presenti nella seguente tabella
Colore capelli frequenze
(carattere)
assolute
neri
10
castani
6
rossi
1
biondi
5
TOTALE
22
Calcolo FREQUENZE RELATIVE %
10
100  45,45
22
6
100  27,27
22
1
100  4,54
22
5
100  22,72
22
Colore
capelli
frequenze
assolute
frequenze
relative %
neri
10
45,46
castani
6
27,27
rossi
1
4,55
biondi
5
22,72
TOTALE
22
100
Gli indici di posizione centrale
MEDIA ARITMETICA SEMPLICE
Consideriamo una distribuzione di DATI DIVERSI UNO
DALL’ALTRO:
a a .............. an
1 2
La MEDIA ARITMETICA SEMPLICE è uguale alla somma dei
dati divisa per n, cioè:
a  a  a ...... a
n
1
2
3
M
n
Gli indici di posizione centrale
MEDIA ARITMETICA SEMPLICE
Esempio di calcolo
Un alunno nei tre compiti di matematica ha riportato
i voti presenti in tabella.
Calcolare la MEDIA ARITMETICA dei voti.
COMPITO
VOTO
N° 1
7
N° 2
8
N° 3
6
TOTALE
21
a a a
M 1
M
2
3
n
7  8  6 21
 7
3
3
Dove:
21 = somma dei voti
3 = numero dei voti
7 = MEDIA ARITMETICA dei voti
Gli indici di posizione centrale
MEDIA ARITMETICA PONDERATA
Se i dati si presentano con una certa FREQUENZA o PESO
allora il calcolo della media deve essere effettuato sommando
ogni termine tante volte quante indica la sua frequenza
Supponiamo che:
Il termine a1 si presenta con frequenza p1
Il termine a2 si presenta con frequenza p2
…………………………………………………………………………
Il termine an si presenta con frequenza pn
Il calcolo della MEDIA PONDERATA si effettua con la relazione:
Mp 
a  p  a  p  a  p ...... an  pn
1
1
2
2
3
2
3
3
p  p  p ....... pn
1
Gli indici di posizione centrale
MEDIA ARITMETICA PONDERATA
Esempio di calcolo
20 Studenti di una classe, hanno ottenuti
in matematica i voti riportati in tabella
Calcolare la MEDIA PONDERATA dei voti.
a  p a  p a  p a  p a  p
Voto in
Matematica
Numero
studenti
Mp  1 1
4
2
Mp 
5
3
6
8
7
5
8
2
totale
20
2
2
3
3
4
p p p p p
1
2
3
4
4
5
5
5
4  2  53  6 8  7 5  8 2 122

 6,1
2  38  5  2
20
Dove:
122 = somma dei voti
20 = numero di studenti
6,1 = MEDIA PONDERATA dei voti
Gli indici di posizione centrale
MEDIA PONDERATA NEL CASO DI UNA
DISTRIBUZIONE DI DATI PER CLASSI
In questo caso ad ogni classe, viene sostituito il
TERMINE CENTRALE, calcolato mediante la semisomma
dei termini estremi della classe (X1-X2)
I termini centrali così ottenuti costituiscono i termini
a1; a2; a3; ecc. della distribuzione
classe
frequenza
X1-X2
p1
X2-X3
p2
X3-X4
p3
ecc.
ecc.
Infine la media
ponderata
si
calcola con la
relazione
SEMISOMME
x x
a1  1
2
a2 
3
Mp 
Termine
centrale
frequenze
a1
p1
a2
p2
a3
p3
ecc.
ecc.
2
x x
2
2
a  p  a  p  a  p ...... an  pn
1
1
2
2
3
2
3
3
p  p  p ....... pn
1
Gli indici di posizione centrale
MEDIA PONDERATA
DI UNA DISTRIBUZIONE DI DATI PER CLASSI
Esempio di calcolo
Si fa riferimento ai dati della tabella 1
Classi di
età (anni)
CALCOLO
n° persone
(Frequenze)
0 - 20
valori centrali
35
20 - 40
4
40 - 60
1
totale
40
a1 
0  20 20
 10
2
2
a2 
20  40 60
  30
2
2
termini
centrali
n° persone
(Frequenze)
a1 = 10
P1 = 35
a2 = 30
P2 = 4
a3 = 50
P3 = 1
totale
40
Calcolo della media ponderata
Mp 
a  p a  p a  p
1
1
2
2
p p p
1
2
3
3
3 1035 304  501 520 13
40
Età media = 13 anni
40
Gli indici di posizione centrale
MEDIANA
Si definisce MEDIANA il termine che occupa il POSTO CENTRALE
di una distribuzione di dati ordinati in modo crescenti
ESEMPIO: Determinare la MEDIANA della seguente distribuzione di voti:
VOTO
FREQUENZA
5
4
6
8
7
4
8
2
9
1
Si ordinano i dati in maniera crescente
5 5 5 5 6 6 6 6
6
6 6 6 7 7 7 7 8 8 9
Il TERMINE CENTRALE è il 6, infatti è quello
che lascia alla sua destra e alla sua sinistra un
eguale numero di termini, pertanto si ha:
MEDIANA = 6
Se i dati sono in numero pari, allora si hanno due
termini centrali, in tal caso come mediana si prende
la loro media aritmetica
Gli indici di posizione centrale
MODA
Si definisce MODA di una distribuzione di dati il termine
corrispondente alla MASSIMA FREQUENZA.
In sostanza si tratta del termine più comune
ESEMPIO: Determinare la MODA della seguente distribuzione di voti:
VOTO
FREQUENZA
5
4
6
8
7
4
8
2
9
1
Il termine che corrisponde alla
massima frequenza (8) è il 6,
pertanto:
MODA = 6
VARIABILITA’
DI UN FENOMENO STATISTICO
Per comprendere cos’è la VARIABILITA’ di un fenomeno statistico
consideriamo la tabella che segue, nella quale vengono indicati quanti
televisori sono stati venduti da un commerciante nei primi tre mesi
del 2003 e 2004
mese
2003
2004
Gennaio
30
40
febbraio
30
20
marzo
30
30
90
90
totale
Dalla tabella si nota che nel 2003 la vendita
mensile dei televisori risulta COSTANTE
(30-30-30), mentre nel 2004 essa subisce
una VARIAZIONE (40-20-30)
Pertanto:
1)
NON SI HA VARIABILITÀ nelle Vendite
del 2003
2) SI HA VARIABILITÀ nelle vendite del 2004
Si ha VARIABILITA’quando i dati relativi ad
un fenomeno statistico non sono tutti uguali
SCARTI
DALLA MEDIA ARITMETICA
Si definiscono SCARTI DALLA MEDIA ARITMETICA le
Differenze fra ciascun TERMINE e la MEDIA ARITMETICA
Data la seguente distribuzione di dati
a1; a2; a3; ……….; an
Sia M la loro media aritmetica, gli SCARTI sono:
(a1-M); (a2-M); (a3-M); (………); (an-M)
Gli scarti possono essere POSITIVI e NEGATIVI, tuttavia la
loro SOMMA è SEMPRE UGUALE A ZERO
S = (a1-M) + (a2-M) + (a3-M) + (………) + (an-M) = 0
VARIANZA
(σ2)
La VARIANZA serve per valutare la VARIABILITÀ di un
fenomeno statistico
La VARIANZA è la media aritmetica degli scarti al quadrato,
si indica con il simbolo σ2 ( si legge sigma al quadrato) e si
calcola con la relazione:
a  M 2  a  M 2  ........  an  M 2

2
2 1
n
1)
La VARIANZA è sempre POSITIVA: infatti i termini
(a-M)2 sono tutti positivi
2) La VARIANZA è uguale a ZERO se la VARIABILITÀ
è nulla
3) La VARIANZA è tanto più ALTA quanto più alta è la
VARIABILITÀ
CALCOLO DELLA VARIANZA
I prezzi di CILIEGIE ed ANGURIE, in una settimana, variano secondo
i dati riportati in tabella. Stabilire in base al calcolo della VARIANZA
quale dei due prodotti ha subito una maggiore variazione di prezzo.
giorno
1 Kg di
Ciliegie
1 Kg di
Angurie
Scarto
ciliegie
Scarto al
quadrato
Scarto
angurie
Scarto al
quadrato
Lunedì
€ 5,00
€ 1,00
- 0,25
0,0625
+ 0,25
0,0625
Martedì
€ 5,10
€ 1,00
- 0,15
0,0225
+ 0,25
0,0625
Mercoledì
€ 5,20
€ 0,80
- 0,05
0,0025
+ 0,05
0,0025
Giovedì
€ 5,30
€ 0,70
+ 0,05
0,0025
- 0,05
0,0025
Venerdì
€ 5,40
€ 0,50
+ 0,15
0,0225
- 0,25
0,0625
Sabato
€ 5,50
€ 0,50
+ 0,25
0,0625
- 0,25
0,0625
MEDIA
€ 5,25
€ 0,75
Somma=
0
Somma =
0,175
Somma
= 0
Somma =
0,225
Per le angurie si ha:
M = 0,75 e σ2 = 0,225/6 = 0,04
Per le ciliegie si ha: M = 5,25 e σ2 = 0,175/6 = 0,03
Essendo la VARIANZA delle angurie (0,04), maggiore della
VARIANZA delle ciliegie (0,03), il prezzo delle angurie ha
subito una variazione maggiore rispetto al prezzo delle ciliegie
SCARTO QUADRATICO
MEDIO (σ)
A volte per misurare il grado di VARIABILITÀ di una
distribuzione di dati, si preferisce ricorrere allo SCARTO
QUADRATICO MEDIO
cioè alla RADICE QUADRATA della VARIANZA
  varianza   2
L’IMPORTANZA dello scarto quadratico medio risiede
nel fatto che esso permette di giungere al concetto di
NORMALITA’ nel campo statistico
NORMA e FUORI NORMA
Un CARATTERE su cui si indaga si dice compreso NELLA NORMA
quando esso non differisce dal CARATTERE MEDIO di più o di meno
tre volte lo SCARTO QUADRATICO MEDIO.
Un CARATTERE che va fuori tali limiti si dice FUORI NORMA
Esempio:
Se una popolazione evidenzia un’ALTEZZA MEDIA
H = 175 cm con uno SCARTO QUADRATICO
MEDIO σ = 5 cm, possiamo dire che
Un’ALTEZZA rientra NELLA NORMA se compresa tra:
H – 3 σ = 175 – 3 x 5 = 160 cm
H + 3 σ = 175 + 3 x 5 = 190 cm
ALTEZZE fuori da tale intervallo (160;190cm) sono
FUORI NORMA
Prova tu………
Esercizio individuale per il 7 maggio
Lanciando due dadi, si sono registrati i seguenti punteggi totali:
10 – 9 – 8 – 11 – 5 – 4 – 10 – 4 – 7 – 7 – 9 – 10 – 4 – 6 – 8 – 9 – 6 –
5 – 6 – 8 – 7 – 10 – 9 – 5 – 6 – 3 – 8 – 7 – 5 – 7 – 11
1.
organizza i dati in una tabella di frequenza
2. qual è il dato con la maggior frequenza
3.
sono usciti più frequentemente risultati dispari o pari?
4.
sono usciti più frequentemente risultati maggiori o minori di 7?
5.
qual è la frequenza percentuale del punteggio 6?
6.
Determina la MODA e la MEDIANA
LAVORO DI GRUPPO (entro mercoledì 9 maggio):
INDAGINE STATISTICA
Questionario voi e lo sport
Dati generali
Dati specifici
1 Pratichi uno sport?
SI
NO
2 Se sì: calcio?
SI
NO
1 Cittadinanza
................
3 Se sì: nuoto/pallanuoto? SI
NO
2 Sesso
M
4 Se sì: danza/ginnastica? SI
NO
3 Età
................
5 Se sì: pallavolo?
SI
NO
4 Peso
................
6 Se sì: pallacanestro?
SI
NO
5 Altezza
.................
7 Se sì: arti marziali?
SI NO
8 Se sì: tennis?
Si
9 Se sì: altro?
SI
F
NO
NO