Diapositiva 1
Transcript
Diapositiva 1
La Distribuzione campionaria La Distribuzione campionaria La distribuzione campionaria delle medie campionarie è una distribuzione di probabilità teorica. Descrive la distribuzione delle medie campionarie di tutti i possibili campioni (della stessa dimensione) che possono essere presi dalla popolazione Distribuzione campionaria delle medie campionarie Per esempio: il seguente istogramma è una stima della distribuzione campionaria del campione delle medie di BP calcolate su un campione casuale di n = 50 soggetti selezionati dalla popolazione di (BP misurazioni) uomini Distribuzione campionaria delle medie campionarie Non è possibile stimare la distribuzione campionaria delle medie campionarie attraverso più (molti) campioni presi dalla popolazione Gli esperimenti che abbiamo fatto non forniscono un approccio pratico al problema della stima Esiste un risultato matematico che ci permette di generalizzare le conclusioni che abbiamo tratto dagli esempi Il Teorema del Limite Centrale (CLT) Il Teorema del Limite Centrale (CLT): - La distribuzione delle medie campionarie di campioni di dimensione n è approssimativamente Normale, indipendentemente dalla distribuzione originale (valori individuali) nella popolazione/campione - La media della distribuzione campionaria (delle medie campionarie) è il valore medio µ della popolazione da cui il campione è stato tratto - La deviazione standard della distribuzione campionaria è : n questo rapporto è detto standard error della media campionaria e spesso di indica con SE ( x ) Esempio: pressione sistolica Distribuzione dei valori di BP nella popolazione: Normale Media di popolazione µ = 125 mmHg: σ = 14 mmHg SD of Sample SD of 5000 Means (SE) Sample Means by CLT Sample Sizes Means of 500 Sample Means Means of 5000 Sample Means SD of 500 Sample Means n = 20 124.98 mmHg 125.05 mmHg 3.31 mmHg 3.11 mmHg 3.13 mmHg n = 50 125.03 mmHg 125.01 mmHg 1.89 mmHg 1.96 mmHg 1.98 mmHg n = 100 124.99 mmHg 125.01 mmHg 1.43 mmHg 1.39 mmHg 1.40 mmHg Esempio: pressione sistolica Distribuzione dei valori di BP nella popolazione: Normale Media di popolazione µ = 125 mmHg: σ = 14 mmHg SD of Sample SD of 5000 Means (SE) Sample Means by CLT Sample Sizes Means of 500 Sample Means Means of 5000 Sample Means SD of 500 Sample Means n = 20 124.98 mmHg 125.05 mmHg 3.31 mmHg 3.11 mmHg 3.13 mmHg n = 50 125.03 mmHg 125.01 mmHg 1.89 mmHg 1.96 mmHg 1.98 mmHg n = 100 124.99 mmHg 125.01 mmHg 1.43 mmHg 1.39 mmHg 1.40 mmHg Esempio: pressione sistolica Distribuzione dei valori di BP nella popolazione: Normale Media di popolazione µ = 125 mmHg: σ = 14 mmHg SD of Sample SD of 5000 Means (SE) Sample Means by CLT Sample Sizes Means of 500 Sample Means Means of 5000 Sample Means SD of 500 Sample Means n = 20 124.98 mmHg 125.05 mmHg 3.31 mmHg 3.11 mmHg 3.13 mmHg n = 50 125.03 mmHg 125.01 mmHg 1.89 mmHg 1.96 mmHg 1.98 mmHg n = 100 124.99 mmHg 125.01 mmHg 1.43 mmHg 1.39 mmHg 1.40 mmHg Esempio: CLT Secondo il Teorema del Limite Centrale: - se prendiamo un camione casuale (dati di tipo continuo) di dimensione n da unapopolazione con valore medio µ e sd σ, allora la distribuzione teorica delle medie campionarie di tutti I possibili Campioni di dimensione n è Normale con media µ e deviazione standard σ/√n µ CLT: come è utile? - Per il Teorema del Limite Centrale, dalle proprietà della distribuzione Normale: nel 95% dei campioni, la media campionaria cade entro 1.96 standard error dalla media vera di popolazione µ: µ CLT: come è utile? - Si consideri un singolo campione di dimensione n e media - Non conosciamo il valore vero di popolazione µ µ CLT Si consideri un singolo campione di dimensione n e media x In circa il 95% dei campioni casuali, la media campionaria x cade entro +/- 1.96 SE dalla media di popolazione µ µ CLT Si consideri un singolo campione di dimensione n e media x Pertanto, l’intervallo di valori che cadono entro 1.96 SE dalla media campionaria conterrà (nel 95% delle volte) il valore vero di popolazione µ µ Stima di un Intervallo di Confidenza Intervallo definito nella seguente maniera IC 95% : x 1.96 n ; x 1.96 n Interpretazione di un Intervallo di confidenza al 95% Range di valori “plausibili” per il valore vero di popolazione - I ricercatori non conoscono il valore medio (vero) di popolazione µ - x è la miglior stima (basata su un singolo campione) - un 95% CI fornisce una misura di incertezza (dell’errore casuale) associata a tale stima Tecnicamente - Presi 100 campioni casuali di dimensione n dalla popolazione e calcolato un intervallo di confidenza al 95% per ognuno di esso, di tali 100 intervalli, 95 conterranno il valore medio vero di popolazione Interpretazione di un Intervallo di confidenza al 95% 100 intervalli di confidenza al 95% calcolati su 100 campioni di n=50 (misurazioni di BP) Intervalli di confidenza Si calcolano solo CIs 95%? - No - Gli intervalli di confidenza al 95% sono I più utilizzati - Un intervallo di confidenza al 99% è più ampio - Un intervallo di confidenza al 90% è meno ampio Per cambiare il livello di confidenza bisogna moltiplicare lo SE per: - Per 99% CI: x - Per 95% CI: x - Per a 90% CI: x 2.58 SE 1.96 SE 1.68 SE Standard Deviation vs. Standard Error Il termine “deviazione standard” si riferisce alla variabilità tra le osservazioni in un singolo campione (s) o nella populazione (σ) Lo standard error della media campionaria è anch’esso una deviazione standard tra le medie campionarie calcolate su più campioni (della stessa dimensione n) presi dalla medesima popolazione Caso di studio: trigliceridi Si supponga che il livello di colesterolo (espresso in mg%/mL) medio nei bambini di età compresa tra i 2 e i 14 anni sia noto, da ampi studi di popolazione, essere pari a 175, con una deviazione standard di 30. Si vuole valutare la possibilità che vi sia un'aggregazione familiare dei livelli di colesterolo. Si identiFIca un gruppo di padri con pregresso IMA ed elevati livelli di colesterolo, e si misura il livello di colesterolo dei FIgli che abbiano un'età compresa nell'intervallo in esame. Si supponga che il livello medio stimato in un campione di 100 figli sia pari a 207.2. Questo valore è sufficientemente lontano da quello di 175 da farci credere che questi bambini abbiano una distribuzione dei livelli di colesterolo con una media più elevata di quella della popolazione generale dei bambini nella stessa classe di età? Caso di studio: trigliceridi Un intervallo di conFIdenza al 95% può aiutare a trovare la risposta Non comprende il valore 175 Stima di un intervallo di confidenza al 95% Intervallo di Confidenza al 95% IC 95% : x 1.96 n ; x 1.96 Problema: se σ non è nota? - possiamo utilizzare s, come stima di σ: L’intervallo di confidenza è dato da: - n Esempio 1 Si supponga di avere un campione di 100 misurazioni di BP prese dalla Popolazione di studenti universitari di Torino nel 2008 Vogliamo stimare un intervallo di confidenza al 95% per la pressione sistolica media negli studenti dell’Università di Torino Dati campionari: - x = 123.4 mmHg; s = 13.7 mmHg IC 95% CI per il valore medio di BP: - 123.4 1.96 1.3 → 123.4 2.6 - IC95%: (120.8 mmHg, 126.0 mmHg)