Distribuzioni campionarie

Transcript

Distribuzioni campionarie
3. Distribuzione di statistiche campionarie
3. 1. Alcuni concetti introduttivi
3. 1. 1. Parametri di una popolazione e statistiche campionarie
Se una statistica è calcolata sulla base dell’intera popolazione sotto osservazione, il valore ottenuto è detto parametro
della popolazione stessa. Ad esempio la media , la varianza 2 o la deviazione standard  calcolate sulla base dei dati
dell’intera popolazione sono parametri dell’intera popolazione.
Se ad esempio siamo interessati a conoscere quanti anni hanno dedicato gli italiani di età compresa fra i 50 e i 60 anni
alla loro formazione scolastica, dovremmo (il condizionale è d’obbligo) interpellare tutti i soggetti italiani in quella
fascia di età, e calcolare poi una media e una varianza. Queste due statistiche sarebbero parametri della popolazione
indagata. L’uso del condizionale è dovuto ovviamente alla circostanza che una ricerca cosiffatta nella pratica non è
realizzabile (almeno con tempi e costi ragionevoli). In situazioni come quella descritta ora si ricorre all’estrazione di un
(piccolo) campione che si ritiene sufficientemente rappresentativo dell’intera popolazione; solo sul campione si
calcolano poi le statistiche di interesse (nel nostro caso media e varianza); queste costituiscono delle semplici stime dei
parametri della popolazione, mentre i parametri veri e propri rimangono incogniti.
Statistiche basate solo su un campione vengono dette statistiche campionarie, a differenza delle statistiche basate
sull’intera popolazione che, come già sappiamo, sono dette parametri della popolazione stessa.
Per esemplificare quanto detto fino a qui consideriamo una statistica sull’altezza di un assegnato gruppo di ragazzi. Se
questo gruppo costituisce l’intera popolazione sotto osservazione la statistica calcolata è un parametro di quella
popolazione; se invece il gruppo è un campione estratto da una popolazione più vasta su cui occorre indagare, la
statistica calcolata è di tipo campionario e costituisce una semplice stima del corrispondente parametro della
popolazione.
3. 1. 2. Convenzioni simboliche
I parametri di una popolazione vengono indicati con lettere minuscole dell’alfabeto greco, mentre le statistiche
campionarie sono indicate da lettere minuscole dell’alfabeto latino; in particolare, per le principali statistiche fin qui
trattate valgono le seguenti convenzioni simboliche:
Simbolo
Simbolo per
Nome della statistica
per il
la statistica
parametro campionaria

Media
Y
Varianza
2
s2

s
Deviazione standard
In genere le statistiche parametriche e le corrispondenti statistiche campionarie sono rappresentate dalla stessa lettera,
facendo però uso dell’alfabeto greco nel primo caso, e di quello latino nel secondo.
Come si vede, la media (con poche altre statistiche) fa eccezione a questa convenzione.
3. 1. 3. Campionamento con e senza ripetizione
Richiamiamo e precisiamo meglio un concetto già introdotto in § 1.4.3. della Parte metodologica. Quando da una
popolazione si estrae un campione, è possibile seguire due modalità:
 campionamento con ripetizione: ogni elemento può essere estratto più di una volta;
 campionamento senza ripetizione: ogni elemento può essere estratto una sola volta.
In pratica, per visualizzare le due situazioni attraverso una immagine, si pensi di inserire l’identificativo di ogni
elemento della popolazione in un bussolotto all’interno di un urna. L’estrazione del campione avvenga attraverso
l’estrazione dei bussolotti dall’urna. Le due modalità definite prima equivalgono, con questa immagine, alle seguenti
due modalità di estrazione:
 campionamento con ripetizione: dopo aver estratto un singolo bussolotto dall’urna, questo viene letto e subito
riinserito nell’urna, prima dell’estrazione del successivo; in questo modo non è escluso che ogni elemento possa
figurare più volte nel campione;
 campionamento senza ripetizione: una volta estratto un bussolotto, questo non viene riinserito nell’urna fino a che
tutto il campione non è stato estratto; in questo caso all’interno di uno stesso campione un elemento non può
figurare più volte, cioè non può essere ripetuto.
3.1.4. Distribuzioni campionarie
Introduciamo il concetto attraverso un esempio.
Consideriamo una popolazione statistica di parametri  e . All’interno di questa popolazione estraiamo un campione di
dimensione n. Calcoliamo la media del campione estratto, e indichiamola con Y1 . Successivamente procediamo
all’estrazione dalla stessa popolazione di un nuovo campione, sempre della dimensione n. Calcoliamo un’altra volta la
media, che indichiamo col simbolo Y2 ; nella generalità dei casi, la nuova media attenuta potrà essere diversa dalla
precedente. Quindi procediamo all’estrazione di un nuovo campione (sempre di dimensione n), ottenendo una nuova
media
Y3 . Proseguiamo così fino ad estrarre dalla popolazione tutti i diversi possibili campioni di dimensione n.
Otteniamo così un insieme di valori: Y1 ,
Y2 , Y3 , Y4 , Y5 , Y6 , … ciascuno dei quali rappresenta una stima
campionaria della media  dell’intera popolazione.
I valori delle medie così ottenute costituiscono a loro volta una popolazione statistica, che è caratterizzata da una
propria distribuzione: la distribuzione dei valori delle medie campionarie, basate su campioni di dimensione n, detta
semplicemente distribuzione campionaria delle medie o distribuzione delle medie campionarie.
Analogamente, in ciascuno dei campioni precedentemente estratti potremmo calcolare la deviazione standard s,
ottenendo così una serie di valori s1, s2, s3, s4, s5, s6,… Anche questo insieme di valori numerici costituisce una
popolazione, caratterizzata da una propria distribuzione, detta distribuzione campionaria delle deviazioni standard.
Il concetto di distribuzione campionaria, illustrato attraverso le due statistiche campionarie media e deviazione
standard, può essere generalizzato a qualunque altra statistica campionaria (varianza, asimmetria, curtosi, mediana,
proporzioni…). In generale possiamo dire che data una popolazione statistica di elementi Y, la distribuzione dei valori
della statistica campionaria x calcolati su tutti i possibili campioni di dimensione n estratti dalla popolazione di
partenza, è detta distribuzione campionaria della statistica x.
Per comprendere correttamente il senso di quanto resta da esaminare nella Parte statistica del manuale, occorre avere
ben chiara la distinzione fra la distribuzione dei valori di una popolazione di elementi Y e le distribuzioni campionarie x
derivabili da essa. Nelle pagine precedenti ci siamo occupati solo della popolazione di elementi Y. Da qui in avanti ci
occuperemo prevalentemente delle distribuzioni campionarie.
3. 2. Medie campionarie
3. 2. 1. Media e deviazione standard delle medie campionarie
Torniamo al primo esempio di § 3.1.4., considerando la distribuzione delle medie campionarie tratte dalla popolazione
di elementi Y, la quale, ricordiamolo, è caratterizzata dai parametri  e .
Attraverso semplici calcoli si può dimostrare che la media di tutte le medie campionarie vale come la media della
popolazione. In simboli:
(3.1)
Y  
dove col simbolo
Y
intendiamo appunto la media di tutte le medie campionarie
Y.
Si può inoltre dimostrare che se la popolazione è infinita oppure se è finita ma campionando con ripetizione, la
deviazione standard delle medie campionarie è pari alla deviazione standard  della popolazione, divisa per la radice
del numero n. In simboli:
Y 
dove con il simbolo
n
(3.2)
 Y intendiamo la deviazione standard delle medie campionarie Y
.
Noi non dimostreremo le relazioni (3.1) e (3.2) in generale, ma ci accontenteremo di verificarle in un caso particolare
attraverso un esempio.
Supponiamo dunque che una popolazione P sia costituita da cinque elementi:
P = {4, 7, 5, 2, 3}.
Con semplici calcoli si ottengono i valori dei parametri  e  della popolazione P:

47523
 4.2
5
Per il calcolo della varianza 2 utilizziamo la formula (1.3). Quindi:
2 
(4  4.2) 2  (7  4.2) 2  (5  4.2) 2  (2  4.2) 2  (3  4.2) 2
 2.96
5
da cui
  1.720 .
Consideriamo ora tutti i campioni con ripetizione di dimensione n = 2. Questi si ottengono combinando ciascun
elemento di P con ciascun altro elemento (sé stesso compreso). Quindi abbiamo 5 elementi, ciascuno da combinare con
5 elementi: in tutto fanno 5 × 5 = 25 campioni differenti. I diversi campioni sono riportati nella prima colonna di
Tab.3.1. Nella seconda colonna troviamo le medie campionarie Y corrispondenti. La terza colonna riporta le varianze
di ciascun campione, calcolate con la (1.3). Queste varianze verranno utilizzate più oltre, in § 3. 3. 1. La quarta e la
quinta colonna saranno invece utilizzate in § 3. 3. 2.
Campioni
4;4
4;7
4;5
4;2
4;3
7;4
7;7
7;5
7;2
7;3
5;4
5;7
5;5
5;2
5;3
2;4
2;7
2;5
2;2
2;3
3;4
3;7
3;5
3;2
3;3
La media delle medie campionarie vale:
Y 
Y
s2
ŝ 2
ŝ
4
5.5
4.5
3
3.5
5.5
7
6
4.5
5
4.5
6
5
3.5
4
3
4.5
3.5
2
2.5
3.5
5
4
2.5
3
0
2.25
0.25
1
0.25
2.25
0
1
6.25
4
0.25
1
0
2.25
1
1
6.25
2.25
0
0.25
0.25
4
1
0.25
0
0
4.5
0.5
2
0.5
4.5
0
2
12.5
8
0.5
2
0
4.5
2
2
12.5
4.5
0
0.5
0.5
8
2
0.5
0
0
2.12
0.71
1.41
0.71
2.12
0
1.41
3.54
2.83
0.71
1.41
0
2.12
1.41
1.41
3.54
2.12
0
0.71
0.71
2.83
1.41
0.71
0
4  5.5  4.5  3    5  4  2.5  3
 4.2  
25
La (3.1) risulta pertanto verificata.
Analogamente calcoliamo la varianza delle medie campionarie:
Y 2 
(4  4.2) 2  (5.5  4.2) 2  (4.5  4.2) 2    (4  4.2) 2  (2.5  4.2) 2  (3  4.2) 2
 1.48
25
e quindi:
 Y  1.48  1.217 .
Se ora riconsideriamo il valore calcolato per  e lo dividiamo per la radice di n, che qui vale 2 otteniamo:

n  1.720
2  1.217   Y
e con ciò risulta verificata anche la (3.2).
Torniamo a sottolineare il fatto che la (3.2) vale se la popolazione è infinita ovvero se il campionamento è fatto con
ripetizione. Accenniamo solo di sfuggita al fatto che se il campionamento è fatto senza ripetizione la (3.2) deve essere
modificata al modo seguente:
Y 
n
N n
N 1
(3.3)
dove con N si indica la numerosità dell’intera popolazione, mentre con
n si indica la numerosità del campione.
Si dimostra facilmente con un limite che la (3.2) è un caso particolare della (3.3) quando n p   .
3. 2. 2. La distribuzione delle medie campionarie e il teorema del limite centrale
Supponiamo che la popolazione da cui estraiamo i campioni di dimensione n sia distribuita normalmente, con parametri
 e . In tal caso si può dimostrare che anche le medie campionarie sono distribuite normalmente e, per quanto visto nel
precedente § 3.2.1., i parametri di tale distribuzione campionaria sono  e
intuitivo.

n .Questo risultato è abbastanza
Meno intuitiva è una importantissima generalizzazione di questo risultato, nota col nome di teorema del limite centrale,
che riguarda la distribuzione delle medie campionarie. Una enunciazione del teorema corretta sotto il profilo formale
richiederebbe conoscenze piuttosto approfondite di statistica. Qui ci accontenteremo di evidenziarne il senso attraverso
un linguaggio piuttosto informale. In pratica si tratta di questo: supponiamo di avere una popolazione distribuita in un
modo qualsiasi (quindi non necessariamente normale). Se da tale popolazione estraiamo tutti i campioni possibili di
dimensione n, la distribuzione campionaria delle medie calcolate su tali campioni tende ad essere normale al crescere di
n. In altre parole, la distribuzione delle medie campionarie è approssimativamente normale, e al crescere di n
l’approssimazione è sempre più stretta; di fatto quando n  30 la distribuzione delle medie campionarie è
praticamente normale, anche se la distribuzione della popolazione di partenza non lo è.
3. 2. 3. Una generalizzazione della statistica z
Nei paragrafi del precedente § 2.4. abbiamo introdotto il concetto di standardizzazione in una popolazione costituita da
singole variate Y , attraverso la formula (2.3).
Anche nella popolazione statistica costituita dalle medie campionarie Y è possibile procedere alla standardizzazione,
attraverso una formula del tutto analoga.
Analizziamo la (2.3): abbiamo una frazione in cui:
 a numeratore abbiamo la differenza fra gli elementi Y della popolazione e la loro media parametrica ;
 a denominatore abbiamo la deviazione standard parametrica della popolazione .
Procedendo allo stesso modo nella popolazione delle medie campionarie, possiamo standardizzare attraverso una
frazione in cui:

a numeratore abbiamo la differenza fra i singoli elementi
(3.1) vale


Y e la loro media parametrica  Y che in forza della
a denominatore abbiamo la deviazione standard parametrica della popolazione
 Y  che in forza della (3.2) vale
 n.
L’espressione matematica che esprime la standardizzazione delle medie campionarie descritta ora è la seguente:
z
Y 

(3.4)
n
Sappiamo che se la popolazione delle variate Y è normalmente distribuita con parametri  e , allorala popolazione
delle medie campionarie è distribuita normalmente con parametri  e 
n ; di conseguenza la statistica z definita
dalla (3.4) sarà distribuita come una normale standardizzata (con media 0 e deviazione standard 1), e per essa valgono
tutte le proprietà di tale distribuzione viste in § 2.4.. In particolare anche per la distribuzione della statistica z definita
dalla (3.4) è possibile utilizzare Tavola 1 e Tavola 2 introdotte in § 2.4.3..
Come applicazione di quanto visto fino a qui, nel Box 3.1 la (3.4) è utilizzata per un calcolo probabilistico. Si tratta di
questo: di una popolazione si conoscono i parametri  e . Da tale popolazione normalmente distribuita si deve estrarre
un campione di n elementi e calcolarne la media
1.
che probabilità vi è che la media
2.
che probabilità vi è che la media
Y . Si desidera sapere:
Y sia compresa fra due valori u e v assegnati (Box 3.1, Parte a);
Y sia maggiore di un valore a assegnato (Box 3.1, Parte b).
3. 3. Varianze e deviazioni standard campionarie
3. 3.1. Stime corrette e stime distorte
Fino da quando in § 1.4.1. abbiamo introdotto la distinzione fra parametri e statistiche campionarie siamo abituati a dire
che le seconde sono delle semplici stime dei primi.
Si dice che una stima campionaria è corretta se il valore medio della sua distribuzione è uguale al corrispondente
parametro. Si parla invece di una stima distorta quando il valore medio della sua distribuzione è diverso dal
corrispondente parametro.
La (3.1) informa ad esempio che la media delle medie campionarie è uguale alla media parametrica; dunque la media
campionaria Y è una stima corretta della media parametrica  .
Invece una varianza campionaria s2 calcolata attraverso la (1.3) o la formula computazionalmente equivalente (1.9) è
una stima distorta del parametro 2. Si dimostra infatti che la media delle varianze s2 non è uguale al parametro 2, ma
vale la relazione
 s2 
n 1 2

n
(3.4)
Come per le (3.1) e (3.2) ci accontenteremo di una verifica empirica di quest’ultima relazione: torniamo dunque alla
s 2 calcolate attraverso la (1.3). Calcoliamone la media:
0  2.25  0.25  1    4  1  0.25  0
 s2 
 1.48
25
2
2
Si ricordi che la varianza parametrica  della popolazione calcolata in § 3. 2. 1. vale 2.96; dunque s è una stima
Tab. 3.1 e consideriamo la colonna delle varianze campionarie
distorta di
 2 . Per di più si ha che:
n 1 2 2 1
 
 2.96  1.48   2
s
n
2
e con questo risulta verifica anche la (3.4).
3. 3. 2. Correzione della formula per la varianza campionaria
La varianza s2 calcolata con la (1.3) è dunque una stima distorta del parametro 2. Si noti che la distorsione è tanto più
grande quanto più n è piccolo. Nel caso in cui n sia molto grande la (3.4) informa che il fattore di distorsione (espresso
dalla frazione) è sempre più trascurabile.
Per ovviare alla distorsione di stima, occorre moltiplicare la varianza s2 calcolata con la (1.3) per il fattore reciproco a
quello che dà la distorsione nella (3.4), al modo seguente:
n
n 2
n
s 

n 1
n 1
 (Y
i 1
i
n
 Y )2
n

 (Y
i
i 1
 Y )2
n 1
Una stima non distorta della varianza, calcolata con la formula appena ricavata, è in genere indicata col simbolo
ŝ 2 , in
2
cui l’uso della lettera dell’alfabeto latino sta ad indicare che si tratta di una statistica campionaria, il simbolo s indica
che si tratta di una varianza, ed il simbolo ^ (detto cappello) indica che si applica la correzione di calcolo ora introdotta.
Dunque abbiamo una nuova formula per il calcolo della varianza campionaria:
n
sˆ 2 
 (Y
i 1
i
 Y )2
n 1
(3.5)
Per verificare l’efficacia della correzione introdotta, cioè per verificare che
ŝ 2 è una stima non distorta di  2 , Tab.3.1
ŝ 2 ; ora, calcolandone la media ottengo:
0  4.5  0.5  2    8  2  0.5  0
 sˆ2 
 2.96   2
25
2
2
e con ciò abbiamo verificato che ŝ è una stima non distorta di  .
riporta, per ciascuno di 25 campioni, il corrispondente valore di
Dalla (3.5) estraendo la radice otteniamo una formula corretta per il calcolo della deviazione standard campionaria:
n
sˆ 
 (Y
i 1
i
 Y )2
n 1
(3.6)
In Tab. 3.1 sono calcolati i valori di ŝ per i 25 campioni. Se ne calcoliamo la media otteniamo:
0  2.12  0.71  1.41    2.83  1.14  0.71  0
 1.36  
25
(si ricordi che in § 3. 2. 1. abbiamo calcolato   1.720 ). Questo evidenzia che ŝ è ancora una stima distorta di  ,
2
2
nonostante sia calcolato a partire da ŝ che è una stima corretta di  .
 sˆ 
3. 3. 3. Convenzioni sul simbolismo e convenzioni di calcolo
Come si è potuto constatare da questi primi assaggi, il simbolismo in statistica è poco digeribile dai non matematici,
quali si suppone siano i destinatari di questo testo. L’esperienza didattica ed una esigenza di omogeneità rispetto una
buona parte della letteratura statistica per non matematici suggeriscono l’opportunità di stipulare una convenzione.
Da ora in avanti, e per le ragioni spiegate sopra, varianza e deviazione standard campionarie verranno sempre calcolate
attraverso le formule corrette, e per alleggerire il simbolismo ometteremo il cappello ^ nei simboli corrispondenti.
Dunque da ora in avanti utilizzeremo le due formule
n
s2 
 (Y
i 1
i
 Y )2
(3.7)
n 1
e
n
s
 (Y
i 1
i
 Y )2
(3.8)
n 1
con le relative equivalenti computazionali
 n 
Y

  Yi 

i
i 1
 i 1 
2
s 
n 1
n
2
2
n
(3.9)
e
 n 
Y

  Yi 

i
i 1
 i 1 
n 1
n
s
2
2
n
(3.10)
Sebbene l’itinerario per arrivare fin qui sia stato piuttosto laborioso, le conclusioni sono molto semplici, in quanto basta
ricordare di dividere per n  1 anziché per n nella frazione principale delle corrispondenti formule.
Come si vedrà, la quantità n  1 ha grande importanza in statistica e merita pertanto un nome ed un simbolo specifici;
da ora in avanti verrà indicata col termine di gradi di libertà della varianza, e verrà indicata col simbolo  dell’alfabeto
greco (non a caso corrispondente alla lettera n dell’alfabeto latino). Dunque:
(3.11)
  n 1
In letteratura capita talvolta di incontrare simboli alternativi a , come gl (in pubblicazioni italiane) o df (in
pubblicazioni in lingua inglese, da degree of freedom).
Il Box 3. 2. esemplifica il semplice calcolo di varianza e deviazione standard campionarie utilizzando le (3.9) e (3.10).
Box 3. 1. Probabilità di ottenere determinati valori di Y da una popolazione normalmente distribuita con
parametri  e  , attraverso un campione casuale di n elementi.
  140
  20
n  15
Parte a
Probabilità di ottenere una media Y compresa fra i valori u  120 e v  145 .
Analogamente a quanto illustrato nel Box 2.2 occorre per prima cosa standardizzare i valori u e v. Trattandosi di valori
che limitano una media si utilizza la formula (3.4):
zu 
zv 
120  140
20 15
145  140
 1.94
 0.97
20 15
Nella Tavola 2 trovo i valori delle aree tra –1.94 e 0 (per simmetria cerco il valore corrispondente a 1.94) e tra 0 e 0.97,
ottenendo:
A1.94  0.4738
A0.97 0.3340
da cui sommando ottengo l’area totale fra –1.94 e 0.97:
Atot  0.8078
pari a una probabilità dell’80,78%.
Parte b
Probabilità di ottenere una media Y maggiore di
Standardizziamo il valore u  155 :
zu 
155  140
u  155 .
 2.90
20 15
Nella Tavola 2 trovo l’area fra 0 e 2.90:
A2.90  0.4981
L’area sotto la coda della distribuzione a partire da 2.90 si ottiene per differenza da 0.5000, ed è:
A  0.5000  0.4981  0.0019
pari ad una probabilità dello 0.19%.
Rif.:
§ 3. 2. 3.
Box. 3.2. Calcolo di varianza e deviazione standard campionarie
Punteggi grezzi di una prova oggettiva di verifica:
24
25
11
38
34
28
27
22
n  10
Utilizzando le (3.9) e (3.10) otteniamo:
n
Y
i 1
n
Y
i 1
 24  25    11  21 241
i
2
i
 24 2  25 2    112  212  6481
SS 
 Yi   Yi  n  6481 
s2 
SS
672.9

 74.77
n 1
9
s
s2 
2
Rif.:
§ 3. 3. 3.
2
74.77  8.65
2412
 672.9
10
11
21