la statistica

Transcript

la statistica
Non lasciamoci ingannare …..
CHI LO DICE?
I dati possono anche provenire da una fonte autorevole, ma la conclusione …
Come è stata posta la domanda?…
Come è stato selezionato il campione?…
COME SONO STATI OTTENUTI QUESTI DATI?
Quanto numeroso è il campione?…
MA HA PROPRIO SENSO?
Un po’ di sano buonsenso …
Il caro buon vecchio Trilussa ….
LA STATISTICA
Sai ched‘ è la statistica? È ‘na cosa
che serve pe’ fà un conto in generale
de la gente che nasce, che sta male,
che more, che va in carcere e che sposa.
Ma pe’ me la statistica curiosa
è dove c'entra la percentuale,
pe’ via che lì la media è sempre eguale
puro co' la persona bisognosa.
Me spiego: da li conti che se fanno
secondo le statistiche d'adesso
risulta che te tocca un pollo all'anno:
e, se nun entra nelle spese tue,
t'entra ne la statistica lo stesso
perchè c'è un antro che ne magna due.
La scienza è fatta di dati come una casa di pietre.
Ma un ammasso di dati non è scienza più di quanto
un mucchio di pietre sia una casa.
(Jules Henri Poincaré)
Il termine “statistica” venne introdotto nel
diciassettesimo secolo col significato di “scienza
dello stato”, volta a raccogliere e ordinare
informazioni utili all’amministrazione pubblica:
entità e composizione della popolazione,
movimenti migratori, mutamenti anagrafici,
tavole di natalità e mortalità, dati sui commerci,
sui raccolti, sulla distribuzione della ricchezza,
sull’istruzione e la sanità.
Cos’è la statistica?
La STATISTICA si occupa di raccogliere
ed elaborare informazioni su un fenomeno
che si vuole studiare.
La raccolta e l’elaborazione dei dati
costituiscono l’INDAGINE STATISTICA
vera e propria.
Indagini statistiche
Fasi di un’indagine statistica
1.
2.
Individuazione dell’obiettivo da raggiungere,
definendo con accuratezza i termini del
problema a cui bisogna dare risposta, cioè quali
variabili statistiche bisogna osservare.
Individuazione dei metodi, dei mezzi e dei tempi
da utilizzare nella raccolta dati. Per quanto
riguarda i metodi è fondamentale decidere se
l’osservazione viene fatta su tutta la popolazione
oppure su un campione.
Indagini statistiche
3.
4.
5.
Programmazione dell’indagine ed effettiva
rilevazione dei dati. Una raccolta dei dati ben
organizzata, risparmia fatica nelle operazioni
successive e permette la corretta impostazione
del lavoro di analisi.
Sistemazione dei dati raccolti in forma di facile
lettura (tabelle e grafici). I dati allo stato grezzo
sono riferiti alla singola unità statistica
Determinazione di valori che descrivono
sinteticamente il fenomeno: media, moda,
mediana …...
Indagini statistiche
6.
Calcolo delle misure di dispersione che indicano
quanto le misure di tendenza (per esempio la
media) si discostano dai dati raccolti.
7.
Determinazione di rapporti statistici o numeri
indici: rapporti tra numeri che a volte sono più
significativi dai valori assoluti. (es. rapporto tra
m2 edificati in una regione e il numero di abitanti
della regione)
Indagini statistiche
La statistica descrittiva si occupa di individuare
metodi e tecniche per sintetizzare
l’informazione contenuta nei dati.
Gli strumenti di sintesi sono essenzialmente di tre
tipi:
• tabelle (vedremo con EXCEL quali sono le
possibilità)
• rappresentazioni grafiche (vedi EXCEL)
• indici sintetici
Nelle indagini statistiche a campione occorre
effettuare delle generalizzazioni di cui si occupa
la statistica inferenziale.
Indagini statistiche
IMPORTANTE
Quando sintetizziamo l’informazione contenuta nei
dati, ne perdiamo una parte. Gli strumenti di
sintesi devono essere scelti in modo tale da:
• preservare, per quanto possibile, l’informazione
rilevante per il problema analizzato
• eliminare l’informazione non necessaria
COME RACCOGLIERE I DATI
SCHEDE
QUESTIONARI
INTERVISTE (ANCHE TELEFONICHE)
EXIT POLL
Tipo della rilevazione
Totale : viene effettuata su tutte le unità statistiche della popolazione
(censimento)
costi elevati e tempi elevati risultati affidabili
Parziale (o campionaria): viene effettuata su una parte (o campione) della
popolazione
costi contenuti rapidità risultati approssimati
Occasionale: fatta "quando serve“
sondaggi d'opinione
Periodica: fatta regolarmente "ogni tanto tempo“
censimento (10 anni)
Esempio
Consideriamo l’indagine condotta su 30 famiglie per stabilire il numero
dei figli
n.figli 1
0
x
1
2
3
4
2
3
4
5
x
6
7
8
x
x
x
x
x
x
9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
x
x
x x
x x x
x
x
x
x
x x
x
x
x
x
x
x
x
x
x
La POPOLAZIONE statistica è l’insieme degli elementi oggetto
dell’indagine, cioè le 30 famiglie.
Il CARATTERE dell’indagine statistica è l’aspetto che si vuole studiare,
cioè il numero dei figli.
I DATI o le MODALITA’ di un carattere sono le informazioni acquisite
all’interno della popolazione, nel nostro caso sono i numeri 0,1,2,3,4.
Un po’ di definizioni ……
La frequenza assoluta ni di un generico dato
statistico xi è il numero delle volte in cui il dato si
presenta nell’indagine. Ad es. il dato 3 (figli) ha
frequenza assoluta 6.
La frequenza totale (N) è la somma delle frequenze
assolute, nel nostro caso 30.
La frequenza relativa fi è il rapporto tra la frequenza
assoluta e la frequenza totale
ni
cioè fi = N
…….
Moltiplicando la frequenza relativa per 100 si
ottiene la frequenza percentuale, pi
Dopo aver ordinato i dati quantitativi in ordine
crescente si chiama frequenza cumulata Fi di un
dato xi la somma della frequenza del dato
stesso con le frequenze di tutti i dati che lo
precedono
Natura dei caratteri
I caratteri qualitativi vengono indicati mediante
espressioni verbali. Sono caratteri qualitativi lo stato
civile (celibe o nubile, coniugato/a, ecc.), il sesso
(maschio o femmina), il colore degli occhi (grigi, azzurri,
verdi, castani, neri..)
I caratteri quantitativi sono esprimibili numericamente e
si dividono in:
caratteri discreti, come il numero degli alunni di una classe, o di
reti segnate in una partita di calcio, possono assumere solo
determinati valori, quasi sempre numeri interi.
caratteri continui, quali i pesi, le stature e più in generale le
grandezze che possono essere misurate, possono assumere
qualsiasi valore reale in un dato intervallo (anche se usualmente
si impiegano numeri decimali finiti).
Matrice dei dati
Matrice dei dati
relativa ad
una
rilevazione
statistica sugli
studenti iscritti
al corso di
Laurea in
Economia
Aziendale
Unità
Sesso
Peso(kg)
Altezza
(cm)
Colore
occhi
Anno
di
corso
n.
fratelli
1
0 (f)
65
170
azzurri
1
1
2
1 (m)
72
180
marroni
1
2
3
1
70
180
neri
2
0
4
0
75
182
marroni
1
0
5
0
81
180
azzurri
3
1
6
1
75
178
neri
2
1
7
0
74
173
marroni
1
0
8
1
83
184
azzurri
2
1
9
0
72
180
marroni
2
2
10
1
78
183
neri
1
1
11
1
78
174
Neri
3
0
12
1
76
178
marroni
3
2
COME RAPPRESENTARE I DATI
Il modo più semplice ed immediato per rappresentare i dati è
costituito da tabelle.
Esiste una classificazione
SERIAZIONE STATISTICA: Tabella contenente frequenze di
intensità di un carattere QUANTITATIVO
SERIE STATISTICA: Tabella contenente frequenze di
modalità di un carattere QUALITATIVO
SERIE STORICHE: Tabella contenente intensità di un
carattere QUANTITATIVO rilevato per modalità TEMPORALI
( p.es. le vendite di automobili negli ultimo 10 anni)
TITOLO DI STUDIO
N.
PERSONE
lic. elementare
n. STANZE
n. APPARTAMENTI
1
300
1.000
2
500
lic. Media
5.000
3
2.000
diploma
9.000
4
3.000
laurea
2.000
5
150
6
100
7
50
Serie statistica
Seriazione statistica
Peso (in grammi)
N°neonati
1.800-2.200
10
ANNO
VENDITE AUTO
2.200-2.600
32
1996
10.000
1997
15.000
1998
20.000
2.600-3.000
120
3.000-3.400
254
1999
18.000
3.400-3.800
134
2000
17.000
3.800-4.200
40
2001
22.000
2002
23.000
2003
10.000
4.200-4.600
10
Serie temporale
Seriazione statistica con dati
divisi in classi
Si suddividono i dati in classi
quando il carattere analizzato è
continuo
Come esempio si riportano i risultati su un’indagine condotta su un gruppo
di 50 persone relativa al numero di sigarette fumate ogni giorno:
Carattere
Frequenza
assoluta
Frequenza
relativa
Frequenza
percentuale
Frequenza
cumulata
0
20
0,4
40 %
40%
5
10
0,2
20 %
60%
10
10
0,2
20 %
80%
15
5
0,1
10 %
90%
20
5
0,1
10%
100%
TOTALE
50
1
100%
f relativa = f assoluta / Totale
Talvolta può essere utile calcolare anche la frequenza cumulata
(percentuale o relativa)
USO DEI GRAFICI
I dati raccolti in tabelle possono essere
rappresentati attraverso grafici che offrono il
vantaggio di una descrizione del fenomeno in
forma visiva.
Possono essere utilizzati i seguenti tipi di grafici:
Diagrammi cartesiani
Istogrammi e ortogrammi
Diagrammi a nastro
Diagrammi circolari
Diagrammi polari
Cartogrammi
Ideogrammi
Diagrammi cartesiani
sono usati soprattutto per le serie
temporali
25
20
15
10
5
0
0
2
4
6
8
10
12
14
16
Istogrammi
Si usano per rappresentare seriazioni continue con i dati
raggruppati in classi.
In generale, le aree dei rettangoli sono proporzionali alle
frequenze.
Se le classi hanno tutte la stessa ampiezza, le altezze dei
rettangoli sono proporzionali alle frequenze.
Istogramma delle altezze
9
frequenze assolute
8
7
6
5
4
3
2
1
0
<160
161-165
166-170
171-175
176-180
classi
181-185
186-190
191-195
>195
Ortogrammi
Sono simili agli istogrammi ma usati per
serie statistiche (cioè anche per dati
qualitativi). Possono anche
caratterizzarsi per più rettangoli
affiancati
Domanda 2.5 Qual è il modo migliore per ricevere comunicazioni e
informazioni dalla scuola
250
200
150
cellulare
internet
posta
diario
modulo
lib.giust.
telefono
100
50
0
PROGRAMMATORI
GEOMETRI
IGEA
NON SPECIFICATO
TOTALE
Diagrammi a nastro
H
20000
G
20000
F
50000
E
18000
D
10000
C
15000
B
25000
A
5000
0
10000
20000
30000
40000
50000
60000
Diagrammi circolari o diagrammi a torta
3%
12%
15%
12%
9%
6%
11%
32%
A
B
C
D
E
F
G
H
Le ampiezze degli angoli al centro dei settori colorati sono direttamente
proporzionali alle frequenze percentuali. Ad esempio, per la zona arancio si ha:
X:360°=32:100 cioè x=125,2°
Diagrammi circolari
T o r t a t r id im e n s io n a le
3%
12%
15%
12%
9%
6%
11%
32%
A
B
C
D
E
F
G
H
Diagrammi polari
sono usati per particolari serie
storiche con carattere di ciclicità
venerdì
lunedì
50
40
30
20
10
0
assenze
martedì
assenze
giovedì
mercoledì
Cartogrammi Sono utilizzati per
rappresentare serie territoriali
7,3
11
20,1
Ideogrammi Sono rappresentazioni
mediante figure stilizzate che rappresentano
il fenomeno studiato
Auto vendute
anni