Statistica descrittiva I. La frequenza
Transcript
Statistica descrittiva I. La frequenza
Statistica descrittiva I. La frequenza Supponiamo di ripetere n volte un esperimento che può dare esito 0 o 1, il numero di uni su n ripetizioni è detto frequenza di 1: f1,n = #{esperimenti con esito 1}. Più in generale supponiamo che Xi sia l’esito di un esperimento che possa assumere valori x1 , . . . , xK (ad esempio {1, 2, 3, 4, 5, 6} nel lancio di un dado), possiamo considerare la frequenza di ogni numero su n esperimenti, ossia fk,n = #{i: Xi = xk } Ad esempio, nel caso del lancio ripetuto di un dado, possiamo considerare f6,n = #{i: Xi = 6} Esempio 1. Si osservano i seguenti valori 5, 1, 5, 3, 5, 9, 7, 5, 5, 5 Determinare le frequenze relative e assolute. Esempio 2. Si osservano i seguenti valori 5, 1, 3, 7, 5, 9, 1, 7, 9, 3 Determinare le frequenze relative e assolute. Esempio 1 Esempio 2 xi fi,n fi,n /n xi fi,n fi,n /n 1 3 5 7 9 1 1 6 1 1 0.100 0.100 0.600 0.100 0.100 1 3 5 7 9 2 2 2 2 2 0.200 0.200 0.200 0.200 0.200 10 1.000 10 1.000 Ritorno alla probabilità. Teorema: legge dei grandi numeri (I) Si faccciano n esperimenti indipendenti con probabilità di successo p. Sia Xi la variabile aleatoria che vale 1 se l’i–esimo esperimento ha dato esito positivo (successo) 0 se ha dato esito negativo. Allora,P se f1,n è il numero di successi su n esperimenti, ossia f1,n = ni=1 Xi , si ha f1,n P lim = p = 1. n→+∞ n N.B. p = P{Xi = 1}. Attenzione sul libro non è scritta in modo preciso. In particolare l’ipotesi che gli eventi (esperimenti) siano indipendenti è fondamentale. !!! Si noti che questo è un teorema non la definizione di probabilità !!! simulazione con R n=1000 p=0.6 y=sample(c(0,1), n, replace = TRUE,prob=c(1-p,p)) yy=cumsum(y)/cumsum(rep(1,n)) y2=sample(c(0,1), n, replace = TRUE,prob=c(1-p,p)) yy2=cumsum(y2)/cumsum(rep(1,n)) plot(yy, col=”blue”) points(yy2,col=”red”) Statistica descrittiva II. L’istogramma Supponiamo di avere delle osservazioni di un dato fenomeno (numerico) x1 , x2 , . . . , xn (con eventuali possibili valori ripetuti!). Ad esempio i millilitri di pioggia caduti in n = 100 stazioni meteo. Fissiamo a0 < a1 < a2 < · · · < aM in modo che tutte le osservazioni cadano in [a0 , aM ) e determiniamo f0,n = numero osservazioni in [a0 , a1 ) sul totale di n f1,n = quante osservazioni in [a1 , a2 ) sul totale di n ... Statistica descrittiva II. L’istogramma Abbiamo calcolato le frequenze assolute. Possiamo anche calcolare le frequenze normalizzate (anche dette relative), dividendo le frequenze assolute per il numero di osservazioni: fk,n . n Con le frequenze (meglio quelle relative) possiamo costruire l’istogramma (guardare sul libro). Istogramma E la probabilità? Posso interpretare la frequenza relativa come una probabilità: che probabilità ho, scegliendo a caso con probabilità uniforme un’osservazione, di trovare un numero compreso fra [ak , ak+1 )? Esattamente fk,n /n. Posso anche interpretare le xi come realizzazioni di variabili aleatorie indipendenti con la stessa legge di probabilità. Che rapporto c’è fra frequenza relativa fk,n /n e la probabilità che Xi assuma valori in [ak , ak+1 ), ossia P{X1 ∈ [ak , ak+1 )}? Legge dei grandi numeri (II) Teorema Siano X1 , X2 , . . . variabili aleatorie indipendenti e con la stessa distribuzione. Allora, posto Tn = numero di Xi che appartengono ad [a, b) nelle prime n e p = P{X1 ∈ [a, b)}, si ha Tn P lim =p n→+∞ n = 1. Media o valore atteso Baricentro P{X = −4} = 0.25, = P{X = −2} = 0.25, P{X = 4} = 0.5 E[X ] = (−4 · 0.25) + (−2 · 0.25) + (4 · 0.5) = 0.5 Media o valore atteso Media La media di una v.a. discreta è X X E[X ] := x P{X = x} = x px x x La media di una v.a. continua è Z E[X ] := x f (x)dx N.B. nel libro si usa la notazione hX i al posto di E[X ]. Media empirica di n variabili aleatorie La media empirica delle variabile aleatorie X1 , . . . , Xn è il numero (aleatorio) X1 + · · · + Xn m̄n := . n Non confondetelo con E[X1 ]!! Media o valore atteso Esercizio. (a) Supponiamo che X sia una variabile aleatoria discreta che può assumere i valori 1, 2, 3, 4 con probabilità p1 = 0.3, p2 = 0.2, p3 = 0.1, p4 = 0.4. Calcolare E[X ]. Soluzione. Si ha E[X ] = 1 · 0.3 + 2 · 0.2 + 3 · 0.1 + 4 · 0.4 = 2.6 Media o valore atteso Esercizio. (b) Supponiamo di osservare il valore di n = 6 variabili aleatorie con legge descritta in precedenze, supponiamo che X1 = 1, X2 = 1, X3 = 2, X4 = 1, X5 = 4, X6 = 3. Qual è il valore della media empirica delle prime 6 osservazioni in corrispondenza ai risultati descritti? Soluzione. 1+1+2+1+4+3 = 2. 6 Legge dei grandi numeri (III) Teorema Siano X1 , X2 , . . . variabili aleatorie indipendenti e con la stessa distribuzione. Allora, si ha X 1 + · · · + Xn P lim = E[X1 ] = 1. n→+∞ n Media o valore atteso Esercizio. Si supponga che la distribuzione del vettore aleatorio discreto (X , Y ) sia data da X /Y 0 1 2 2 0.3 0.2 0 0.5 5 0.1 0 0 0.1 6 0 0 0.4 0.4 0.4 0.2 0.4 Calcolare E[X ] e E[Y ]. Soluzione. Si ha E[X ] = 0 · 0.4 + 1 · 0.2 + 2 · 0.4 = 1 E[Y ] = 2 · 0.5 + 5 · 0.1 + 6 · 0.4 = 3.9 Valore atteso di una funzione di una v.a. Sia g una funzione reale a valori reali allora e X una variabile aleatoria discreta, allora X E[g (X )] = g (x)P{X = x} x Se X è una v.a. continua Z E[g (X )] = g (x)f (x)dx. Valore atteso di una funzione di una v.a. Esercizio. Sia X una variabile aleatoria discreta che assume valori −1, 0, 1 con probabilità 1/4, 1/4, 1/2. Si calcoli E[X ] e E[X 2 ]. Soluzione. E[X ] = −1 · 1/4 + 0 · 1/4 + 1 · 1/2 = 1/4. E[X 2 ] = (−1)2 · 1/4 + 02 · 1/4 + 12 · 1/2 = 3/4. Linearità del valore atteso Il valore atteso è un integrale (o una somma). Ricordandoci la proprietà di linearità di somme e integrali abbiamo che se (X , Y ) sono v.a. e a e b sono costanti, allora E [aX + bY ] = aE [X ] + bE [Y ] E [aX + b] = aE [X ] + b, Linearità del valore atteso Esercizio. Si supponga che la distribuzione del vettore aleatorio discreto (X , Y ) sia data da X /Y 0 1 2 2 0.3 0.2 0 0.5 5 0.1 0 0 0.1 6 0 0 0.4 0.4 0.4 0.2 0.4 Calcolare E[3X + Y ]. Soluzione. Abbiamo visto che E[X ] = 0 · 0.4 + 1 · 0.2 + 2 · 0.4 = 1 e E[Y ] = 2 · 0.5 + 5 · 0.1 + 6 · 0.4 = 3.9 quindi E[3X + Y ] = 3E[X ] + E[Y ] = 2 · 1 + 3.9 = 5.9. La media è un modo di riassumere alcune caratteristiche di una variabile aleatoria in un solo numero. Attenzione: non sempre la media dice tutto Ci sono 1000 persone, una persona viene estratta a caso e vince 100000 euro, gli altri nulla. Scelgo una persona a caso e guardo quanto ha vinto. Sia X = “vincita della persona scelta a caso”. Si ha P{X = 0} = 999/1000, P{X = 100000} = 1/1000 e dunque E[X ] = 0 ∗ 999/1000 + 100000 ∗ 1/1000 = 100. La vincita media è 100 euro. Vuol dire molto? Varianza Varianza La varianza di una v.a. discreta è Var (X ) := E[(X − m)2 ] = X (x − m)2 px x con m = P con m = R xpx . La varianza di una v.a. continua è Z 2 Var (X ) := E[(X − m) ] = (x − m)2 f (x)dx x xf (x)dx. Varianza Varianza piccola= distribuzione concentrata attorno alla media Varianza grande= distribuzione sparpagliata Esercizio. Sia X una variabile aleatoria discreta che assume valori −1, 1 con probabilità 1/2, 1/2 e Y una variabile aleatoria discreta che assume valori −10, 10 con probabilità 1/2, 1/2. Calcolare Var (X ) e Var (Y ). Soluzione. Prima di tutto si osservi che E[X ] = E[Y ] = 0 (farlo), quindi Var (X ) = (−1 − 0)2 · 1/2 + (1 − 0)2 · 1/2 = 1. Var (Y ) = (−10 − 0)2 · 1/2 + (10 − 0)2 · 1/2 = 100.