lezione 2b - distribuzioni statistiche

Transcript

lezione 2b - distribuzioni statistiche
Rappresentazione
tabellare dei dati
Elaborazione dei dati
Quando si raccolgono informazioni su un determinato
fenomeno (v. anche matrice dei dati) ci si trova ad avere
un gran mole di informazioni; quindi il problema diventa
“sintetizzare la massa di dati grezzi” in pochi numeri o
indici utilizzando metodi di sintesi che descrivano i dati.
Elaborazione dei dati
‰ La distribuzione di un determinato collettivo secondo
alcuni caratteri contiene tutte le informazioni sul
collettivo che, spesso però sono troppe e quindi
diventa difficile acquisirle tutte insieme o utilizzarle per
fare confronti, ma occorrono delle sintesi (o
elaborazioni).
‰ Le “sintesi” dei dati facilitano la mente
nell’acquisizione delle informazioni ma fanno anche
perdere parte dell’informazione.
‰ Le elaborazioni che si possono fare dipendono dal tipo
di carattere (qualitativo o quantitativo)
Sistemazione dei dati in tabella: spoglio
563472323264393
203346542367342
513437021315045
0 |||
1 |||
2 IIIII II
3 IIIII IIIII II
4
5
6
7
8
9
Sistemazione dei dati in tabella: spoglio
563472323264393
203346542367342
513437021315045
‡
xi
0
1
2
3
4
5
6
7
8
9
frequenze
assolute
3
3
7
12
7
5
4
3
0
1
45
Dato un certo numero di unità
statistiche la prima operazione di
sintesi è “contare” quante volte si
presenta un determinato carattere sul
collettivo di riferimento
‡
Frequenza
assoluta: è il
numero di volte
con cui si presenta
una data modalità
Distribuzione di frequenza: è la tabella che associa ad ogni
modalità la sua frequenza
Età-xi
15-24
25-34
35-44
45-54
55-64
65-74
75-84
>=85
frequenze
assolute
frequenze cumulate
Decessi ni relative fi Ni
3
0.00068
14
0.00317
63
0.01424
240
0.05426
722
0.16324
1,206
0.27267
1,455
0.32896
720
0.16279
4,423
1.00000
frequenze
relative
cumulate
Fi
frequenze
assolute
retrocumulate
Ni'
frequenze
relative
retrocumulate
Fi'
Frequenze
Frequenza relativa: si
ottiene rapportando la
frequenza assoluta al
numero totale delle
osservazioni
ni
fi =
N
ni
0 ≤ fi = ≤ 1
N
La Frequenza
percentuale si
calcola
moltiplicando
ogni frequenza
relativa per 100
ni
pi = ×100
N
0 ≤ ni ≤ N
Frequenze cumulate e retrocumulate
•
La frequenza cumulata di una modalità corrisponde al numero (o
alla percentuale) di casi che presentano quella modalità o una
modalità precedente
•
La frequenza retrocumulata di una modalità corrisponde al
numero (o alla percentuale) di casi che presentano quella
modalità o una modalità successiva
•
La frequenza cumulata si può calcolare solo se la variabile è
ordinale o quantitativa. Essa è data dalla somma della frequenza
assoluta, relativa o percentuale, della modalità i-esima con tutte
le frequenze (assolute, relative o percentuali) precedenti:
precedenti
Cumulata assoluta:
Ni= n1 + n2 + ……….ni
Cumulata relativa:
Fi= f1 + f2 + ……….fi
Distribuzione statistica di due caratteri:
tabella di contingenza
Decessi yi
Età-xi
15-24
25-34
35-44
45-54
55-64
65-74
75-84
>=85
TOTALE
Malattie
cardiache
Malattie
dell'apparato
respiratorio
1
3
24
93
324
450
560
298
1753
Tumori
0
2
14
17
42
334
446
228
1083
1
5
22
95
298
345
435
157
1358
Altro
TOTALE
1
4
3
35
58
77
14
37
229
3
14
63
240
722
1,206
1,455
720
4,423
DISTRIBUZIONI PARZIALI
PER CLASSI DI ETA’
DISTRIBUZIONI MARGINALI
DISTRIBUZIONI PARZIALI
PER CAUSA DI DECESSO
Distribuzione statistica di quantità
Classi di spesa N° aziende
sanitaria- xi
sanitarie ni
<= 10000
10000--|20000
20000--|40000
> 40000
‡
7
20
20
3
50
Ammontare
di spesa
35000
270000
600000
160000
1065000
Distribuzione di quantità: è la tabella che associa ad ogni modalità
l’ammontare del carattere che è imputabile a quella data modalità.
Esempio di distribuzione di frequenza e di quantità
REGIONI E
RIPARTIZIONI
La serie geografica è la
tavola statistica che
descrive la distribuzione di
un carattere nello spazio
Distribuzione di
quantità
Spesa sanitaria
delle famiglie per
regione in milioni di
euro correnti Anno 2003
Piemonte
Valle d'Aosta
Lombardia
Trentino-Alto Adige
Veneto
Friuli-Venezia Giulia
Liguria
Emilia-Romagna
Toscana
Umbria
Marche
Distribuzione
Lazio
Abruzzo
frequenza
Molise
Campania
Puglia
Basilicata
Calabria
Sicilia
Sardegna
ITALIA
di
2097
57
4476
418
2077
631
715
2148
1512
288
617
2404
413
118
1765
1311
150
668
1381
502
23748
Famiglie per
regione Censimento 2001dati in milioni
1.8
0.1
3.7
0.4
1.7
0.5
0.7
1.7
1.4
0.3
0.5
2.0
0.5
0.1
1.9
1.4
0.2
0.7
1.8
0.6
21.8
Carattere quantitativo
SERIAZIONE
Carattere qualitativo
SERIE
La Serie storica è la
tavola statistica che
descrive
l’andamento di un
carattere nel tempo
Tempo t
N° pazienti dimessi
2001
245
2002
213
2003
187
2004
201