LA STATISTICA

Transcript

LA STATISTICA
http://www.biostatistica.unich.it
LA
LA STATISTICA
STATISTICA
E’ l’insieme dei metodi che consentono di
raccogliere, ordinare, riassumere,
presentare ed analizzare dati e
informazioni, trarne valide conclusioni e
prendere decisioni sulla base di tali analisi
e risultati.
1
Statistica
Statistica
Funzione
Funzione
Descrittiva
Descrittiva
Offre il metodo per riassumere le
informazioni in modo da renderle
utilizzabili più
più facilmente. Riduce i
dati in forma maneggevole,
sostituendo a molti numeri poche
misure.
Funzione
Funzione
Inferenziale
Inferenziale
Permette di generalizzare le
informazioni, ricavando proprietà
proprietà e
leggi generali sulla base di dati
rilevati solamente su una parte
(campione)
campione) della popolazione.
CAMPIONE
CAMPIONE EE UNIVERSO
UNIVERSO
Un campione è un insieme di elementi tratti da un universo (o
popolazione).
popolazione). Un universo consiste della totalità
totalità degli elementi che
hanno certe caratteristiche. (Non
(Non necessariamente una popolazione deve
essere composta da un numero elevato di elementi).
Esempi:
• Universo:
Universo:
• Campione:
Campione:
tutti i dipendenti dei musei italiani.
• Universo:
Universo:
• Campione:
Campione:
un lotto di 5000 libri.
10 libri di quel lotto sottoposti a controllo.
10 dipendenti del Museo di storia delle Scienze Biomediche.
Il campione è soltanto una parte del tutto
UNITA’
UNITA’ STATISTICA
STATISTICA
Ogni elemento o caso appartenente alla
popolazione oggetto diretto della
osservazione (popolazione bersaglio) da
cui si raccolgono i dati.
Esempi:
Esempi: un singolo museo;
una singola regione o provincia;
2
VARIABILE
VARIABILE STATISTICA
STATISTICA
Ciascuna informazione, caratteristica che
verrà rilevata sulle unità statistiche sarà
chiamata VARIABILE.
Le variabili si presentano sotto differenti forme,
esse possono essere sia di tipo quantitativo sia
di tipo qualitativo, ed essere espresse o con
scale continue o con scale discrete.
MODALITA’
MODALITA’ DI
DI UNA
UNA VARIABILE
VARIABILE
Le “categorie” della variabile statistica in
osservazione.
FREQUENZA
FREQUENZA ASSOLUTA
ASSOLUTA
Numero di volte che si presenta una data
modalità.
Esempi
Le variabili sesso, età, titolo di studio, tipologia di
museo, etc hanno come modalità:
Maschio e femmina, per la variabile “genere";
anni, <18, 18-65, >=65 per la variabile "età";
elementare, media inferiore, media superiore,
università per la variabile "titolo di studio”
Artistico, storico-archeologico, scientifico per la
variabile “tipologia di museo”
3
Discreta
•Quantitative
Continua
Variabili
Nominale
•Qualitative
Ordinale
NOMINALI
Date due qualsiasi modalità, è possibile solo affermare se esse sono
uguali o diverse.
TIPOLOGIA DI MUSEO: artistici, storico archeologici, scientifici
ORDINALI
Esiste un criterio predeterminato per ordinare le modalità
GIORNO DI CHIUSURA: lunedì, martedì, mercoledì, etc
DISCRETO
L’insieme delle modalità assumibili può essere messo in
“corrispondenza biunivoca” con un sottoinsieme dei numeri naturali.
NUMERO DI VISITATORI: 1, 2, 3,….1000,….10000
CONTINUO
La variabile può assumere qualsiasi valore all’interno di intervalli di
numeri reali.
PREZZO MEDIO DEL BIGLIETTO: 1,75€; 2,50€
Stabilito il fenomeno collettivo da studiare
occorre individuare il collettivo su cui
studiarlo ed i caratteri da rilevare e, nel caso
di indagine campionaria, un campione
“significativo”
significativo” di unità
unità statistiche.
4
Esempio
Nome: Rossi Amerigo
Nome: Bianchi Paolo
Genere: maschio
Età: 32
Residenza: Roma
Genere: maschio
Età: 47
Residenza: Chieti
Titolo di studio: laurea
Titolo di studio: media
Nome: Valenzi Alberica Nome: Alinori Alfonso
Genere: femmina
Età: 45
Residenza: Roma
Titolo di studio: laurea
Genere: maschio
Età: 27
Residenza: Pescara
Titolo di studio: eleme
Le informazioni raccolte per essere
"trattate" da un computer devono essere
organizzate in strutture chiamate
comunemente
Data Base o File Dati.
Le informazioni vengono, comunemente,
organizzate per riga, cioè
cioè su ogni riga,
consecutivamente, vengono elencati i dati
relativi ad un soggetto.
N.
NOME
GENERE
ETA'
RESIDENZA
TITOLO DI
STUDIO
1
Rossi Amerigo
M
32
ROMA
LAUREA
2
Bianchi Paolo
M
47
CHIETI
MEDIA
3
ValenziAlberica
F
45
ROMA
LAUREA
4
Alinori Alfonso
M
27
PESCARA
ELEMENTARE
5
6
5
Esempio
Nome: A
Nome: B
N visitatori: 10000
Città: Roma
N visitatori: 15670
Città: Firenze
Tipologia: scientifico
Tipologia: artistico
Nome: C
Nome: D
N visitatori: 300
Città: Venezia
Tipologia: scientifico
N visitatori: 2500
Città: Bologna
Tipologia: storico-arch
DISTRIBUZIONI
DISTRIBUZIONI SEMPLICI
SEMPLICI
DI
FREQUENZE
DI FREQUENZE
I dati (cioè
(cioè le informazioni raccolte) spesso
sono di non immediata lettura.
Per questo si procede ad una sistematizzazione e
sintesi delle informazioni raccolte, cioè
cioè alla loro
tabulazione.
tabulazione. Per ogni variabile si calcolano le
frequenze assolute (f.a
.) che rappresentano il
(f.a.)
numero di u.s. che presentano una stessa modalità
modalità
del carattere.
Esempio Alcune distribuzioni semplici di
frequenze.
Sesso
f.a.
Residenza f.a.
Età
Età (anni)
f.a.
M
2
Roma
3
<5
2
F
10
Pescara
6
5-8
10
Tot
12
Chieti
12
9-12
15
Sassari
1
1313-16
7
Tot
22
>16
1
Tot
35
6
Frequenze assolute
Esempio Distribuzione doppia di frequenze assolute
Paganti
Gratuiti
Genere
freq. assolute
freq. assolute
M
100
70
F
180
100
Totale
280
170
Ci accorgiamo che il confronto non può
essere effettuato solo con le f.a. in
quanto esse si riferiscono a collettivi di
numerosità diversa.
7
Se vogliamo confrontare le frequenze le
dobbiamo “depurare” dalla numerosità del
collettivo; ciò lo si fa dividendo le f.a. per
la numerosità (N) della popolazione e
moltiplicando per 100
(cioè facendo riferimento ad una ipotetica
popolazione di 100 unità).
Le frequenze così calcolate sono le
frequenze percentuali (f%)
Esempio Distribuzione doppia di frequenze percentuali
Paganti
f.a.
f.%
f.a.
f.%
M
100
35.7
70
41.2
F
180
64.3
100
58.8
Totale
280
100
170
100
Genere
Gratuiti
Esempio Distribuzione di frequenze assolute,
relative e cumulate
Età
f.a.
f.%
f.a.cum
f%cum
17
3
13.6
3
13.6
18
6
27.3
9
40.9
19
12
54.6
21
95.5
20
1
4.5
22
100
Totale
22
100
8
Le frequenze cumulate indicano quante u.s.
si presentano fino a quella modalità.
Ha senso calcolare le f.cum solamente per le
variabili quantitative o qualitative ordinabili.
II GRAFICI
GRAFICI STATISTICI
STATISTICI
Scopo dei grafici è quello di rendere
l’informazione contenuta in una serie di dati:
di più facile comprensione;
di più diretta lettura.
Pertanto un grafico deve fornire al lettore
una informazione sintetica e facile da
interpretarsi.
ORTOGRAMMI
ORTOGRAMMI
Usati per variabili qualitative l’altezza delle barre
rappresenta la frequenza assoluta o
percentuale.
9
Frequenze cumulate
Fonte: I Dossier Touring Club - Dossier Musei 2007
ISTOGRAMMI
ISTOGRAMMI
Indicati per rappresentare distribuzioni in classi
costituiti da una serie di barre rettangolari contigue
ognuna in rappresentanza di una classe e con area
proporzionata alla rispettiva frequenza.
70
60
60
50
Numero di musei
50
40
32
30
20
10
5
1
0
<7 Euro
7-8 Euro
8-10 Euro
10-20 Euro
> 20 Euro
10
GRAFICI
GRAFICI PER
PER PUNTI
PUNTI
Costituito dai punti corrispondenti alle diverse
coppie di valori rilevati.
Indicati per evidenziare le associazioni tra variabili
quantitative.
Distribuzione della statura e del peso in un campione
sperimentale di maschi
80
Peso (Kg)
75
70
65
60
55
50
160
165
170
175
180
185
Statura (cm)
GRAFICI
GRAFICI PER
PER SPEZZATE
SPEZZATE
Si ottengono dai grafici per punti congiungendo i
vari punti. Indicati per evidenziare una continuità
tra valori come ad es. nella rappresentazione
delle serie temporali.
48.363/50.926
11
DIAGRAMMI
DIAGRAMMI A
A SETTORI
SETTORI
CIRCOLARI
CIRCOLARI (TORTE)
(TORTE)
Indicati per variabili
qualitative allo
scopo di
evidenziare le
frequenze % delle
singole modalità.
L’area di un cerchio
viene suddivisa in
settori proporzionali
alle frequenze %
Distribuzione
percentuale del
flusso turistico
nei musei veneti
12
13