Diapositiva 1

Transcript

Diapositiva 1
La Distribuzione campionaria
La Distribuzione campionaria

La distribuzione campionaria delle medie campionarie è una
distribuzione di probabilità teorica.

Descrive la distribuzione delle medie campionarie di tutti i possibili
campioni (della stessa dimensione) che possono essere presi dalla
popolazione
Distribuzione campionaria delle medie campionarie

Per esempio: il seguente istogramma è una stima della distribuzione
campionaria del campione delle medie di BP calcolate su un campione
casuale di n = 50 soggetti selezionati dalla popolazione di (BP
misurazioni) uomini
Distribuzione campionaria delle medie campionarie

Non è possibile stimare la distribuzione campionaria delle medie
campionarie attraverso più (molti) campioni presi dalla popolazione

Gli esperimenti che abbiamo fatto non forniscono un approccio pratico
al problema della stima

Esiste un risultato matematico che ci permette di generalizzare le
conclusioni che abbiamo tratto dagli esempi
Il Teorema del Limite Centrale (CLT)

Il Teorema del Limite Centrale (CLT):
- La distribuzione delle medie campionarie di campioni di dimensione
n è approssimativamente Normale, indipendentemente dalla
distribuzione originale (valori individuali) nella popolazione/campione
- La media della distribuzione campionaria (delle medie campionarie)
è il valore medio µ della popolazione da cui il campione è stato tratto
- La deviazione standard della distribuzione campionaria è :

n
questo rapporto è detto standard error della media campionaria
e spesso di indica con SE ( x )
Esempio: pressione sistolica

Distribuzione dei valori di BP nella popolazione: Normale

Media di popolazione µ = 125 mmHg: σ = 14 mmHg
SD of Sample
SD of 5000
Means (SE)
Sample Means
by CLT
Sample
Sizes
Means of 500
Sample
Means
Means of
5000 Sample
Means
SD of 500
Sample
Means
n = 20
124.98 mmHg
125.05 mmHg
3.31
mmHg
3.11 mmHg
3.13 mmHg
n = 50
125.03 mmHg
125.01 mmHg
1.89
mmHg
1.96 mmHg
1.98 mmHg
n = 100
124.99 mmHg
125.01 mmHg
1.43
mmHg
1.39 mmHg
1.40 mmHg
Esempio: pressione sistolica

Distribuzione dei valori di BP nella popolazione: Normale

Media di popolazione µ = 125 mmHg: σ = 14 mmHg
SD of Sample
SD of 5000
Means (SE)
Sample Means
by CLT
Sample
Sizes
Means of 500
Sample
Means
Means of
5000 Sample
Means
SD of 500
Sample
Means
n = 20
124.98 mmHg
125.05 mmHg
3.31
mmHg
3.11 mmHg
3.13 mmHg
n = 50
125.03 mmHg
125.01 mmHg
1.89
mmHg
1.96 mmHg
1.98 mmHg
n = 100
124.99 mmHg
125.01 mmHg
1.43
mmHg
1.39 mmHg
1.40 mmHg
Esempio: pressione sistolica

Distribuzione dei valori di BP nella popolazione: Normale

Media di popolazione µ = 125 mmHg: σ = 14 mmHg
SD of Sample
SD of 5000
Means (SE)
Sample Means
by CLT
Sample
Sizes
Means of 500
Sample
Means
Means of
5000 Sample
Means
SD of 500
Sample
Means
n = 20
124.98 mmHg
125.05 mmHg
3.31
mmHg
3.11 mmHg
3.13 mmHg
n = 50
125.03 mmHg
125.01 mmHg
1.89
mmHg
1.96 mmHg
1.98 mmHg
n = 100
124.99 mmHg
125.01 mmHg
1.43
mmHg
1.39 mmHg
1.40 mmHg
Esempio: CLT

Secondo il Teorema del Limite Centrale:
- se prendiamo un camione casuale (dati di tipo continuo) di
dimensione n da unapopolazione con valore medio µ e sd σ,
allora la distribuzione teorica delle medie campionarie di tutti I possibili
Campioni di dimensione n è Normale con media µ e deviazione standard
σ/√n
µ
CLT: come è utile?
- Per il Teorema del Limite Centrale, dalle proprietà della distribuzione
Normale:
nel 95% dei campioni, la media campionaria cade entro 1.96 standard
error dalla media vera di popolazione µ:
µ
CLT: come è utile?
- Si consideri un singolo campione di dimensione n e media
- Non conosciamo il valore vero di popolazione µ
µ
CLT

Si consideri un singolo campione di dimensione n e media x

In circa il 95% dei campioni casuali, la media campionaria x
cade entro +/- 1.96 SE dalla media di popolazione µ
µ
CLT

Si consideri un singolo campione di dimensione n e media x

Pertanto, l’intervallo di valori che cadono entro 1.96 SE dalla media
campionaria conterrà (nel 95% delle volte) il valore vero di popolazione µ
µ
Stima di un Intervallo di Confidenza

Intervallo definito nella seguente maniera
IC 95% : x  1.96 

n
; x  1.96 

n
Interpretazione di un Intervallo di confidenza al 95%

Range di valori “plausibili” per il valore vero di popolazione
- I ricercatori non conoscono il valore medio (vero) di popolazione µ
- x è la miglior stima (basata su un singolo campione)
- un 95% CI fornisce una misura di incertezza (dell’errore casuale)
associata a tale stima

Tecnicamente
- Presi 100 campioni casuali di dimensione n dalla popolazione
e calcolato un intervallo di confidenza al 95% per ognuno di esso,
di tali 100 intervalli, 95 conterranno il valore medio vero di popolazione
Interpretazione di un Intervallo di confidenza al 95%
100 intervalli di confidenza al 95% calcolati su 100 campioni di n=50
(misurazioni di BP)

Intervalli di confidenza

Si calcolano solo CIs 95%?
- No
- Gli intervalli di confidenza al 95% sono I più utilizzati
- Un intervallo di confidenza al 99% è più ampio
- Un intervallo di confidenza al 90% è meno ampio

Per cambiare il livello di confidenza bisogna moltiplicare lo SE per:
- Per 99% CI: x
- Per 95% CI: x
- Per a 90% CI: x
2.58 SE
1.96 SE
1.68 SE
Standard Deviation vs. Standard Error

Il termine “deviazione standard” si riferisce alla variabilità tra le
osservazioni in un singolo campione (s) o nella populazione (σ)

Lo standard error della media campionaria è anch’esso una deviazione
standard tra le medie campionarie calcolate su più campioni (della
stessa dimensione n) presi dalla medesima popolazione
Caso di studio: trigliceridi
Si supponga che il livello di colesterolo (espresso in mg%/mL) medio
nei bambini di età compresa tra i 2 e i 14 anni sia noto, da ampi studi di
popolazione, essere pari a 175, con una deviazione standard di 30.

Si vuole valutare la possibilità che vi sia un'aggregazione familiare dei
livelli di colesterolo. Si identiFIca un gruppo di padri con pregresso IMA
ed elevati livelli di colesterolo, e si misura il livello di colesterolo dei FIgli
che abbiano un'età compresa nell'intervallo in esame.
Si supponga che il livello medio stimato in un campione di 100 figli sia
pari a 207.2.
Questo valore è sufficientemente lontano da quello di 175 da farci
credere che questi bambini abbiano una distribuzione dei livelli di
colesterolo con una media più elevata di quella della popolazione
generale dei bambini nella stessa classe di età?
Caso di studio: trigliceridi

Un intervallo di conFIdenza al 95% può aiutare a trovare la risposta

Non comprende il valore 175
Stima di un intervallo di confidenza al 95%

Intervallo di Confidenza al 95%
IC 95% : x  1.96 


n
; x  1.96 
Problema: se σ non è nota?
- possiamo utilizzare s, come stima di σ:

L’intervallo di confidenza è dato da:
- 

n
Esempio 1
Si supponga di avere un campione di 100 misurazioni di BP prese dalla
Popolazione di studenti universitari di Torino nel 2008

Vogliamo stimare un intervallo di confidenza al 95% per la pressione sistolica
media negli studenti dell’Università di Torino

Dati campionari:
- x = 123.4 mmHg; s = 13.7 mmHg

IC 95% CI per il valore medio di BP:
- 123.4 1.96 1.3 → 123.4 2.6
- IC95%: (120.8 mmHg, 126.0 mmHg)