“Descrizione dei fenomeni collettivi” 1. Unità statistica e dato statistico

Transcript

“Descrizione dei fenomeni collettivi” 1. Unità statistica e dato statistico
Calcolo delle Probabilità e Statistica
CLASSI TERZE
“Descrizione dei fenomeni collettivi”
1. Unità statistica e dato statistico
L’unità statistica è il più piccolo elemento su cui è possibile effettuare
un’osservazione (es. un alunno di una scuola, un pezzo prodotto da una
fabbrica…).
Si definisce dato statistico il risultato di un’operazione compiuta sulle
unità statistiche (numero di alunni maschi di una classe, prezzo medio di
un certo bene…).
I dati statistici possono rappresentare due grandezze diverse:
frequenza, se esprimono il numero di volte in cui il fenomeno si è
verificato in un periodo di tempo (basta pensare ad un contatore che
esegue un conteggio); intensità, se rappresentano una media o una somma
di misure effettuate sulle unità statistiche (es. misura di un peso,
lunghezza, superficie, volume…, oppure un valore o una valuta).
Le unità statistiche vengono studiate secondo uno o più caratteri: un
carattere è un particolare aspetto dell’unità statistica che si vuole
mettere in evidenza.
Il carattere viene identificato mediante varie modalità, che possono
essere qualitative o quantitative.
• Le modalità quantitative sono espresse da valori risultanti da
misurazioni o conteggi: se questi valori sono compresi in un intervallo
si parla di modalità continue; se invece si tratta di determinati
valori si parla di modalità discrete.
• Le modalità qualitative sono indicate da espressioni verbali (marche
di automobili, anni di nascita, grado delle scuole…).
Prof. Daniele ATTAMPATO1
Es. Distribuzione di 30 giovani presenti in una sala giochi, secondo
carattere
l’età.
Età
Numero
15
16
17
18
19
7
8
5
4
6
30
tot.
modalità quantitativa
discreta
frequenze
________________________________________________________________________________
Es. Distribuzione delle auto consegnate da un concessionario nel
carattere
2001.
Marca/Modello
Consegne
Fiat Punto
Lancia Y
Toyota Yaris
Peugeot 206
Volkswagen Golf
Daewoo Matiz
Renault Megane
144017
57540
42481
42141
16849
19240
Opel Corsa
tot.
17258
40416
379942
modalità qualitativa
frequenze
________________________________________________________________________________
Es. Distribuzione delle importazioni dello Stato Francese dal 2000.
carattere
modalità qualitativa
Anni
Importazioni
(milioni di euro)
2000
112.877
2001
119.878
2002
127.123
2003
159.374
2004
278.091
2005
169.767
2006
197.245
2007
136.917
intensità
Prof. Daniele ATTAMPATO2
2. Sistemazione dei dati: serie e seriazioni
2.1.Tabelle a semplice entrata
Una tabella a semplice entrata (come visto nei due esempi precedenti) è
costituita da due colonne, la prima riporta le varie modalità qualitative o
quantitative del carattere, mentre la seconda riporta le frequenze o le
intensità.
Se il carattere è qualitativo, la successione dei dati è detta serie
statistica; se il carattere è quantitativo, la successione dei dati è detta
seriazione statistica.
Es. Distribuzione degli studenti italiani secondo il grado delle scuole.
Grado delle scuole
N.alunni iscritti
Scuole Materne
Scuole Elementari
Scuole Medie
1500000
2900000
1775000
2545000
8720000
Scuole Superiori
tot.
Modalità qualitative
Serie statistica
________________________________________________________________________________
Es. Elettori nelle elezioni del Parlamento Europeo, per circoscrizione
Circoscrizioni elettorali
Nord Occidentale
Nord Orientale
Centrale
Meridionale
Insulare
tot.
Elettori
12.702.945
8.879.456
9.445.290
11.654.099
5.576.311
48.258.101
Modalità qualitative
Serie territoriale o geografica
Prof. Daniele ATTAMPATO3
Es. Alunni delle scuole superiori italiane.
Anno Scolastico
N.alunni
1994/95
1995/96
1996/97
1997/98
1998/99
tot.
2.700.000
2.690.000
2.548.000
2.597.000
2.540.000
13.075.000
Modalità qualitative
Serie storica
_______________________________________________________________________________
Es. Rilevazione delle abitazioni di nuova costruzione, classificate per
stanze.
N.Stanze
1
2
3-4
5 e oltre
tot.
N.Abitazioni
2.000
5.700
70.000
35.000
112.700
Modalità quantitative discrete
Seriazione discreta
________________________________________________________________________________
Es. Distribuzione dei comuni italiani per classi di superficie nel 1991.
Classi di
superficie (in
migliaia di ha)
fino a 1
1-----| 2
2-----| 4
4-----| 6
6-----|10
10-----| 25
tot.
N.Comuni
1.741
2.061
2.093
883
742
513
8.033
Modalità quantitative continue
Seriazione continua
Prof. Daniele ATTAMPATO4
3. Sistemazione dei dati: serie e seriazioni
Tabelle a doppia entrata
Le tabelle a doppia entrata sono caratterizzate dal fatto che le unità
statistiche vengono classificate contemporaneamente rispetto a due
caratteri (e non più solo a uno, come visto nelle tabelle a semplice
entrata).
•
Se i due caratteri sono entrambi qualitativi, si parla di mutabile
statistica doppia.
• Se i due caratteri sono entrambi quantitativi, si parla di variabile
statistica doppia.
• Se uno dei due caratteri è quantitativo e l’altro qualitativo, si parla
di distribuzione mista.
________________________________________________________________________________
Es. di mutabile statistica doppia.
Regione Puglia: iscritti alle liste di collocamento.
Caratteri
modalità qualitative
carattere “sesso”
Sesso
Settore
Maschi Femmine
Agricoltura
44.000
60.000
Industria
97.000
37.000
Altre attività
46.000
44.000
Nessun settore
175.000 229.000
totali 362.000 370.000
totali
104.000
134.000
90.000
404.000
732.000
Modalità qualitative
carattere “settore”
Prof. Daniele ATTAMPATO5
Es. di variabile statistica doppia.
Distribuzione di 100 abitazioni secondo il numero dei vani e i componenti
della famiglia.
Modalità quantitative
carattere “Comp. Famiglia”
Caratteri
N.vani
1
2
3
4
5
totali
1
10
6
3
1
0
20
2
4
10
10
3
1
28
Componenti famiglia
3
4
1
0
5
2
12
8
8
4
2
1
28
15
5
0
0
2
2
1
5
6
0
0
1
2
1
4
totali
15
23
36
20
6
100
Modalità quantitative
carattere “N.vani”
________________________________________________________________________________
Es. di distribuzione mista.
Forze di lavoro per classe di età e condizione professionale, in famiglia.
Modalità qualitativa
del carattere “Condiz. Profess.”
Classe di età
15 - 19
20 - 24
25 - 29
30 - 34
35 - 44
45 - 54
55 - 64
65 e oltre
totali
Condizione professionale
Occupati
Disoccupati
321
222
1.461
650
2.566
578
3.313
421
6.063
463
4.756
232
1.879
94
333
8
20.692
2.668
totali
543
2.111
3.144
3.734
6.526
4.988
1.973
341
23.360
Modalità quantitativa
del carattere “Classe di età”
Prof. Daniele ATTAMPATO6
4. Variabili e mutabili statistiche
Frequenze assolute, relative, percentuali e cumulate
Una variabile statistica è definita dall’insieme dei valori di un carattere
quantitativo e dalle frequenze ad essi associate.
Una mutabile statistica è definita dall’insieme delle modalità di un
carattere qualitativo e dalle frequenze ad esse associate.
• Frequenza assoluta: numero delle unità statistiche che godono di
una certa proprietà.
F . A.
N
• Frequenza relativa:
F .R. =
• Frequenza percentuale:
F % = F .R. *100
N = tot unità statistiche
• Frequenza cumulata (assoluta, relativa, percentuale): associa ad ogni
valore o classe della variabile la somma della rispettiva frequenza,
con le frequenze dei valori precedenti.
Es. Completare la seguente tabella:
N.STANZE N.ABITAZIONI
Xi
Yi (F.A.)
1
2.877
2
19.878
3
69.767
4
F.R.
F%
F.C.A.
F.C.R.
F.C.%
36.917
tot.
Attenzione alla formula da impostare
Prof. Daniele ATTAMPATO7
5. Grafici
Si supponga di aver raccolto dei dati nel foglio di calcolo. Questi dati,
generalmente, vengono sistemati in più colonne all’interno di celle
contigue.
Per inserire questi valori in un grafico con l’aiuto della creazione guidata è
necessario procedere come segue:
1.
Selezionare il pulsante Creazione guidata grafico che si trova
sulla barra degli strumenti;
2.
Nella prima finestra (Tipo di grafico), selezionare un tipo di
grafico e premere il pulsante Avanti;
Prof. Daniele ATTAMPATO8
3.
La seconda finestra (Dati di Origine) consente di selezionare
l’intervallo dei dati: un utente esperto generalmente utilizza la
scheda Serie.
Cliccando il tasto Aggiungi, si aggiunge un grafico nella lista: ad
ogni Serie aggiunta corrisponde un grafico differente, sullo
stesso piano cartesiano (ogni andamento grafico sarà
caratterizzato da un colore).
4.
Nella casella Nome è possibile assegnare un titolo al grafico in
questione; nella casella Etichette asse categorie (X) dovranno
essere caricati i dati da rappresentare sull’asse delle ascisse;
nella casella Valori dovranno essere caricati i dati da
rappresentare sull’asse delle ordinate. Per procedere premere
Avanti.
Prof. Daniele ATTAMPATO9
5.
Nella finestra successiva, denominata Opzioni del grafico, c’è la
descrizione dettagliata di tutte le possibilità che si hanno per
personalizzare il grafico: titoli per gli assi cartesiani;
selezionare/ deselezionare gli assi; selezionare/deselezionare la
griglia; spostare la legenda… Se si desidera accettare le
impostazioni predefinite è sufficiente cliccare su Avanti.
6.
La quarta ed ultima finestra consente di scegliere se inserire il
grafico in un nuovo foglio di lavoro o come oggetto sul foglio
corrente. Selezionare l’opzione desiderata e premere Fine.
N.B. E’ sempre possibile modificare un grafico, una volta prodotto. Ogni
caratteristica o elemento del grafico può essere variata anche dopo la sua
creazione, per aggiungere informazioni ulteriori o per modificare la
significatività di quelle già inserite. Per farlo è sufficiente posizionarsi
sul grafico,cliccare il tasto DX del mouse e scegliere l’opzione desiderata.
10
Prof. Daniele ATTAMPATO
5.1.Diagrammi cartesiani
I diagrammi cartesiani sono utilizzati in genere per rappresentare:
- serie storiche
- seriazioni discrete
Tali diagrammi possono essere facilmente realizzati con Excel, mediante i
grafici a linee (per le serie storiche) ed i grafici a dispersione (per le
seriazioni discrete).
Es. Distribuzione delle importazioni dello Stato Francese dal 2000
grafico a linee*)
(serie storica
Anni
Importazioni
(milioni di euro)
2000
112.877
2001
119.878
2002
127.123
2003
159.374
2004
278.091
2005
169.767
2006
197.245
2007
136.917
importazioni (mil.di euro)
Importazioni in Francia
300.000
250.000
200.000
150.000
100.000
50.000
0
2000
2001
2002
2003
2004
2005
2006
2007
Anni
* Tale spezzata mette in evidenza l’evoluzione del fenomeno nel tempo.
11
Prof. Daniele ATTAMPATO
Es. Distribuzione di 30 giovani presenti in una sala giochi, secondo
grafico a dispersione*).
l’età (seriazione discreta
ETA'
15
16
17
18
19
tot.
NUMERO
(F.A.)
7
8
5
4
6
30
F.A.C.
7
15
20
24
30
ANDAMENTO DELLE F.A.
9
8
7
F.A.
6
5
4
3
2
1
0
14
15
16
17
18
19
20
Età
* Questo grafico è detto diagramma a segmenti, ed è rappresentabile con Excel seguendo
le fasi seguenti:
• Completare il grafico a dispersione (composto dai soli punti) e chiudere la ‘Creazione
guidata’;
• Posizionarsi su uno qualsiasi dei punti sul grafico e premere il tasto DX del mouse;
• Selezionare ‘Formato serie dati’;
• Selezionare la scheda ‘Barre di errore Y’;
• Selezionare la tipologia ‘Meno’;
• Settare l’’Intervallo di errore percentuale’ al valore 100%;
• Premere OK;
NB: Per migliorare l’aspetto del diagramma a segmenti è possibile cancellare la griglia,
scegliere una scala degli assi cartesiani opportuna ed aumentare la dimensione dei
segmenti.
12
Prof. Daniele ATTAMPATO
ANDAMENTO DELLE F.A.C.
35
30
F.A.C.
25
20
15
10
5
0
14
15
16
17
18
19
20
21
Età
Questo grafico è detto funzione a gradini, ed è rappresentabile con Excel seguendo le
fasi seguenti:
• Completare il grafico a dispersione (composto dai soli punti) e chiudere la ‘Creazione
guidata’;
• Posizionarsi su uno qualsiasi dei punti sul grafico e premere il tasto DX del mouse;
• Selezionare ‘Formato serie dati’;
• Selezionare la scheda ‘Barre di errore X’;
• Selezionare la tipologia ‘Più’;
• Premere OK;
NB: Per migliorare l’aspetto del diagramma a segmenti è possibile cancellare la griglia,
scegliere una scala degli assi cartesiani opportuna ed aumentare la dimensione dei
segmenti.
13
Prof. Daniele ATTAMPATO
5.2.Istogrammi
Gli Istogrammi vengono utilizzati per rappresentare:
- seriazioni continue, con dati raggruppati in classi
Sull’asse delle ascisse si riportano tanti intervalli quante sono le classi e
sui vari intervalli si costruiscono rettangoli le cui aree sono proporzionali
alle frequenze.
Bisogna distinguere due casi:
a) Classi di ampiezza diversa
b) Classi di pari ampiezza
a) Classi di ampiezza diversa (costruzione manuale di un Istogramma).
Nel caso di classi di ampiezze diverse, le altezze dei rettangoli si
ottengono dividendo la relativa frequenza per l’ampiezza della classe,
in modo che l’area del rettangolo rappresenti la frequenza: questo è
necessario per rispettare il requisito di proporzionalità.
E’ quindi necessario calcolare le cosiddette densità, che possono essere
definite equivalentemente come:
d=
FA
Ampiezza
d=
FR
Ampiezza
d=
F%
Ampiezza
Nell’esempio che segue, si definiscono classi per rappresentare il peso di
177 neonati (in tal caso la densità viene calcolata come FR/Ampiezza).
14
Prof. Daniele ATTAMPATO
In realtà, rappresentare un istogramma con Excel non è possibile. La
limitazione sta nel fatto che, indipendentemente dalle reali ampiezze
delle classi, Excel genera comunque rettangoli con basi di pari lunghezza.
Bisogna allora necessariamente procedere con la costruzione manuale
oppure utilizzare un software alternativo.
* Con gli istogrammi, la somma delle aree di tutti i rettangoli è proporzionale alla somma delle
frequenze.
15
Prof. Daniele ATTAMPATO
b) Classi di pari ampiezza (costruzione di un Istogramma con Excel)
Se le classi hanno la stessa ampiezza, l’altezza di ciascun rettangolo
è pari al valore della frequenza: questa condizione soddisfa il criterio di
proporzionalità tipico dell’istogramma (la base di ciascun rettangolo è
difatti un valore costante, per cui l’area è proporzionale alla frequenza).
Es. Distribuzione di 1000 persone presenti ad una manifestazione
sportiva, secondo l’età.
tot.
F.A.
120
207
358
189
80
30
16
1000
Manifestazione sportiva
F.A.
Età
15 - 20
20 - 25
25 - 30
30 - 35
35 - 40
40 - 45
45 - 50
400
350
300
250
200
150
100
50
0
15 - 20
20 - 25
25 - 30
30 - 35
35 - 40
40 - 45
45 - 50
Età
16
Prof. Daniele ATTAMPATO
5.3.Ortogrammi (diagrammi a canne d’organo)
Per quanto detto nel paragrafo precedente, il grafico “istogramma” di
Excel rappresenta, in realtà, il cosiddetto ortogramma, costituito da
rettangoli di basi uguali ed altezze proporzionali alle frequenze o alle
intensità del fenomeno.
Tale rappresentazione è utilizzata utilizzata nel caso di:
- serie storiche
- serie geografiche
- altri tipi di serie
E’ facile intuire come si possano accostare rettangoli riferiti a sessi, o ad
anni, o a paesi diversi, o a zone diverse, allo scopo di effettuare confronti
(alternativa: grafico a barre).
Es. Commercio mondiale: importazioni negli anni 1991-1999 (in
miliardi di dollari)
IMPORTAZIONI (miliardi dollari)
ANNI
1991
1992
1993
1994
1995
1996
1997
1998
1999
tot.
EUROPA
ASIA
3.464
3.570
3.890
4.600
4.780
4.900
5.150
5.350
5.680
41.384
2.800
2.930
3.100
3.200
3.350
3.400
3.470
3.700
3.900
29.850
CONTINENTI
AFRICA AMERICA OCEANIA
2.250
2.300
2.490
2.400
2.700
2.870
2.920
3.000
3.145
24.075
6.345
6.500
6.834
6.920
7.200
7.500
7.690
7.900
8.050
64.939
3.000
3.300
3.460
3.600
3.710
3.900
4.050
4.200
4.550
33.770
tot.
17.859
18.600
19.774
20.720
21.740
22.570
23.280
24.150
25.325
194.018
9.000
8.000
7.000
6.000
5.000
4.000
3.000
2.000
1.000
0
EUROPA
ASIA
AFRICA
AMERICA
OCEANIA
1991
1992
1993
1994
1995
1996
1997
1998
1999
ANNI
* Ogni continente è rappresentato da una serie. Questo è necessario trattandosi di tab.a doppia entr.
5.4.Diagrammi in coordinate polari (grafico Radar)
17
Prof. Daniele ATTAMPATO
Il sistema di riferimento in coordinate polari, a differenza del sistema
cartesiano, è caratterizzato da un punto O del piano, detto polo, e una
semiretta di origine O, detta asse polare.
Un qualunque punto P del piano può essere individuato conoscendo la sua
distanza OP dal polo e l’angolo α, che la semiretta di origine O e passante
per P forma con l’asse polare (per la misura dell’angolo si considerano, per
convenzione, rotazioni in senso antiorario).
α
I diagrammi in coordinate polari sono utilizzati per rappresentare
particolari serie storiche, dette cicliche, dove le modalità del carattere si
ripetono dopo un certo periodo di tempo (es. i giorni della settimana, i
mesi dell’anno…).
Si tracciano tante semirette, con origine nel polo O, quante sono le
modalità del carattere, in modo che gli angoli tra le varie semirette siano
uguali e sulle semirette, a partire dal polo O, si riportano i dati. I punti
così ottenuti si collegano con una spezzata (grafico radar).
MESE
ORDINI
20
Gennaio
24
Febbraio
25
Marzo
23
Aprile
27
Maggio
30
Giugno
43
Luglio
39
Agosto
25
Settembre
22
Ottobre
19
Novembre
10
Dicembre
ORDINI EFFETTUATI
Dicembre
Novembre
Gennaio
60
40
Febbraio
Marzo
20
Ottobre
0
Settembre
Aprile
Maggio
Agosto
Giugno
Luglio
5.4.Settori circolari (grafico a Torta)
18
Prof. Daniele ATTAMPATO
I settori di un cerchio vengono utilizzati in statistica per
rappresentare distribuzioni di frequenza nelle quali la totalità del
fenomeno viene ripartita in modalità rappresentate da settori i cui angoli
al centro sono proporzionali alle intensità del fenomeno.
Excel indica questo tipo di grafico col nome di grafico a torta.
Es. Sport praticati dagli alunni dell’Istituto “G.Marconi” di Latina.
Tipo di Sport
N. Alunni
(F.A.)
F.R.
F.%
Calcio
295
0,457
45,7
Pallacanestro
80
0,124
12,4
Pallavolo
92
0,143
14,3
Nuoto
54
0,084
8,4
Tennis
27
0,042
4,2
Atletica
34
0,053
5,3
Ciclismo
12
0,019
1,9
Equitazione
7
0,011
1,1
Sci / Snow
29
0,045
4,5
Altro
15
0,023
2,3
Tot.
645
1,000
100,0
Attività sportive praticate
Calcio
Pallacanestro
Pallavolo
Nuoto
Tennis
Atletica
Ciclismo
Equitazione
Sci / Snow
Altro
19
Prof. Daniele ATTAMPATO
Es. Data la seguente distribuzione degli studenti italiani secondo
il grado delle scuole (a.s.1998/99), completare la tabella e graficare
l’andamento delle F.A., F.% e frequenze cumulate.
Grado delle scuole
N.alunni iscritti
F.A.
Scuole materne
1.577.696
Scuole elementari
2.859.379
Scuole medie
1.775.009
Scuole superiori
2.543.750
Tot.
8.755.834
F.R.
F.%
F.C.A.
F.C.R.
Svolgimento:
N.alunni iscritti
F.A.
F.R.
F.%
Scuole materne
1.577.696
0,18
18,0
1.577.696
0,18
Scuole elementari
2.859.379
0,33
32,7
4.437.075
0,51
Scuole medie
1.775.009
0,20
20,3
6.212.084
0,71
Scuole superiori
2.543.750
0,29
29,1
8.755.834
1,00
Tot.
8.755.834
1,00
100,0
Grado delle scuole
F.C.A.
F.C.R.
Si tratta di una serie (carattere qualitativo) e le modalità del carattere
indicano i vari gradi delle scuole.
Il grafico delle F.A. deve riuscire a mettere in evidenza le diverse
modalità allo scopo di poter effettuare un confronto, in modo chiaro ed
evidente. La scelta ideale ricade quindi sull’ortogramma o sul grafico a
barre.
N.Alunni Iscritti a.s.98/99
grado
Scuole superiori
Scuole medie
Scuole elementari
Scuole materne
0
500000
1000000
1500000
2000000
2500000
3000000
3500000
n.alunni (F.A.)
20
Prof. Daniele ATTAMPATO
Per graficare le frequenze percentuali la scelta ideale è il grafico a torta.
N.alunni iscritti a.s. 98/99
18,0
29,1
Scuole materne
Scuole elementari
Scuole medie
Scuole superiori
32,7
20,3
21
Prof. Daniele ATTAMPATO