Statistica descrittiva I. La frequenza

Transcript

Statistica descrittiva I. La frequenza
Supponiamo di ripetere n volte un esperimento che può dare esito
0 o 1, il numero di uni su n ripetizioni è detto frequenza di 1:
f1,n = #{esperimenti con esito 1}.
Più in generale supponiamo che Xi sia l’esito di un esperimento
che possa assumere valori x1 , . . . , xK (ad esempio {1, 2, 3, 4, 5, 6}
nel lancio di un dado), possiamo considerare la frequenza di ogni
numero su n esperimenti, ossia
fk,n = #{i: Xi = xk }
Ad esempio, nel caso del lancio ripetuto di un dado, possiamo
considerare
f6,n = #{i: Xi = 6}
Esempio 1. Si osservano i seguenti valori
5, 1, 5, 3, 5, 9, 7, 5, 5, 5
Determinare le frequenze relative e assolute.
Esempio 2. Si osservano i seguenti valori
5, 1, 3, 7, 5, 9, 1, 7, 9, 3
Determinare le frequenze relative e assolute.
Esempio 1
Esempio 2
xi
fi,n
fi,n /n
xi
fi,n
fi,n /n
1
3
5
7
9
1
1
6
1
1
0.100
0.100
0.600
0.100
0.100
1
3
5
7
9
2
2
2
2
2
0.200
0.200
0.200
0.200
0.200
10
1.000
10
1.000
Ritorno alla probabilità.
Teorema: legge dei grandi numeri (I)
Si faccciano n esperimenti indipendenti con probabilità di successo
p. Sia Xi la variabile aleatoria che vale 1 se l’i–esimo esperimento
ha dato esito positivo (successo) 0 se ha dato esito negativo.
Allora,P
se f1,n è il numero di successi su n esperimenti, ossia
f1,n = ni=1 Xi , si ha
f1,n
P
lim
= p = 1.
n→+∞ n
N.B. p = P{Xi = 1}.
Attenzione sul libro non è scritta in modo preciso. In particolare
l’ipotesi che gli eventi (esperimenti) siano indipendenti è
fondamentale.
!!! Si noti che questo è un teorema
non la definizione di probabilità !!!
simulazione con R
n=1000
p=0.6
y=sample(c(0,1), n, replace = TRUE,prob=c(1-p,p))
yy=cumsum(y)/cumsum(rep(1,n))
y2=sample(c(0,1), n, replace = TRUE,prob=c(1-p,p))
yy2=cumsum(y2)/cumsum(rep(1,n))
plot(yy, col=”blue”) points(yy2,col=”red”)
Statistica descrittiva II. L’istogramma
Supponiamo di avere delle osservazioni di un dato fenomeno
(numerico)
x1 , x2 , . . . , xn
(con eventuali possibili valori ripetuti!). Ad esempio i millilitri di
pioggia caduti in n = 100 stazioni meteo.
Fissiamo a0 < a1 < a2 < · · · < aM in modo che tutte le
osservazioni cadano in [a0 , aM ) e determiniamo
f0,n = numero osservazioni in [a0 , a1 ) sul totale di n
f1,n = quante osservazioni in [a1 , a2 ) sul totale di n
...
Statistica descrittiva II. L’istogramma
Abbiamo calcolato le frequenze assolute.
Possiamo anche calcolare le frequenze normalizzate (anche dette
relative), dividendo le frequenze assolute per il numero di
osservazioni:
fk,n
.
n
Con le frequenze (meglio quelle relative) possiamo costruire
l’istogramma (guardare sul libro).
Istogramma
E la probabilità?
Posso interpretare la frequenza relativa come una probabilità:
che probabilità ho, scegliendo a caso con probabilità uniforme
un’osservazione, di trovare un numero compreso fra
[ak , ak+1 )? Esattamente fk,n /n.
Posso anche interpretare le xi come realizzazioni di variabili
aleatorie indipendenti con la stessa legge di probabilità.
Che rapporto c’è fra frequenza relativa fk,n /n e la probabilità che
Xi assuma valori in [ak , ak+1 ), ossia
P{X1 ∈ [ak , ak+1 )}?
Legge dei grandi numeri (II)
Teorema
Siano X1 , X2 , . . . variabili aleatorie indipendenti e con la stessa
distribuzione. Allora, posto
Tn = numero di Xi che appartengono ad [a, b) nelle prime n
e
p = P{X1 ∈ [a, b)},
si ha
Tn
P
lim
=p
n→+∞ n
= 1.
Media o valore atteso
Baricentro
P{X = −4} = 0.25, = P{X = −2} = 0.25, P{X = 4} = 0.5
E[X ] = (−4 · 0.25) + (−2 · 0.25) + (4 · 0.5) = 0.5
Media
La media di una v.a. discreta è
X
X
E[X ] :=
x P{X = x} =
x px
x
x
La media di una v.a. continua è
Z
E[X ] := x f (x)dx
N.B. nel libro si usa la notazione hX i al posto di E[X ].
Media empirica di n variabili aleatorie
La media empirica delle variabile aleatorie X1 , . . . , Xn è il numero
(aleatorio)
X1 + · · · + Xn
m̄n :=
.
n
Non confondetelo con E[X1 ]!!
Esercizio. (a) Supponiamo che X sia una variabile aleatoria
discreta che può assumere i valori 1, 2, 3, 4 con probabilità
p1 = 0.3, p2 = 0.2, p3 = 0.1, p4 = 0.4. Calcolare E[X ].
Soluzione. Si ha
E[X ] = 1 · 0.3 + 2 · 0.2 + 3 · 0.1 + 4 · 0.4 = 2.6
Esercizio. (b) Supponiamo di osservare il valore di n = 6 variabili
aleatorie con legge descritta in precedenze, supponiamo che
X1 = 1, X2 = 1, X3 = 2, X4 = 1, X5 = 4, X6 = 3. Qual è il valore
della media empirica delle prime 6 osservazioni in corrispondenza ai
risultati descritti?
Soluzione.
1+1+2+1+4+3
= 2.
6
Legge dei grandi numeri (III)
Teorema
Siano X1 , X2 , . . . variabili aleatorie indipendenti e con la stessa
distribuzione. Allora, si ha
X 1 + · · · + Xn
P
lim
= E[X1 ] = 1.
n→+∞
n
Esercizio. Si supponga che la distribuzione del vettore aleatorio
discreto (X , Y ) sia data da
X /Y
0
1
2
2
0.3
0.2
0
0.5
5
0.1
0
0
0.1
6
0
0
0.4
0.4
0.4
0.2
0.4
Calcolare E[X ] e E[Y ].
Soluzione. Si ha
E[X ] = 0 · 0.4 + 1 · 0.2 + 2 · 0.4 = 1
E[Y ] = 2 · 0.5 + 5 · 0.1 + 6 · 0.4 = 3.9
Valore atteso di una funzione di una v.a.
Sia g una funzione reale a valori reali allora e X una variabile
aleatoria discreta, allora
X
E[g (X )] =
g (x)P{X = x}
x
Se X è una v.a. continua
Z
E[g (X )] =
g (x)f (x)dx.
Valore atteso di una funzione di una v.a.
Esercizio. Sia X una variabile aleatoria discreta che assume valori
−1, 0, 1 con probabilità 1/4, 1/4, 1/2. Si calcoli E[X ] e E[X 2 ].
Soluzione.
E[X ] = −1 · 1/4 + 0 · 1/4 + 1 · 1/2 = 1/4.
E[X 2 ] = (−1)2 · 1/4 + 02 · 1/4 + 12 · 1/2 = 3/4.
Linearità del valore atteso
Il valore atteso è un integrale (o una somma). Ricordandoci la
proprietà di linearità di somme e integrali abbiamo che se (X , Y )
sono v.a. e a e b sono costanti, allora
E [aX + bY ] = aE [X ] + bE [Y ]
E [aX + b] = aE [X ] + b,
Linearità del valore atteso
Esercizio. Si supponga che la distribuzione del vettore aleatorio
discreto (X , Y ) sia data da
X /Y
0
1
2
2
0.3
0.2
0
0.5
5
0.1
0
0
0.1
6
0
0
0.4
0.4
0.4
0.2
0.4
Calcolare E[3X + Y ].
Soluzione. Abbiamo visto che E[X ] = 0 · 0.4 + 1 · 0.2 + 2 · 0.4 = 1
e E[Y ] = 2 · 0.5 + 5 · 0.1 + 6 · 0.4 = 3.9 quindi
E[3X + Y ] = 3E[X ] + E[Y ] = 2 · 1 + 3.9 = 5.9.
La media è un modo di riassumere alcune caratteristiche di una
variabile aleatoria in un solo numero.
Attenzione: non sempre la media dice tutto
Ci sono 1000 persone, una persona viene estratta a caso e vince
100000 euro, gli altri nulla. Scelgo una persona a caso e guardo
quanto ha vinto. Sia X = “vincita della persona scelta a caso”.
Si ha
P{X = 0} = 999/1000,
P{X = 100000} = 1/1000
e dunque
E[X ] = 0 ∗ 999/1000 + 100000 ∗ 1/1000 = 100.
La vincita media è 100 euro. Vuol dire molto?
Varianza
Varianza
La varianza di una v.a. discreta è
Var (X ) := E[(X − m)2 ] =
X
(x − m)2 px
x
con m =
P
con m =
R
xpx . La varianza di una v.a. continua è
Z
2
Var (X ) := E[(X − m) ] = (x − m)2 f (x)dx
x
xf (x)dx.
Varianza
Varianza piccola= distribuzione concentrata attorno alla media
Varianza grande= distribuzione sparpagliata
Esercizio.
Sia X una variabile aleatoria discreta che assume valori −1, 1 con
probabilità 1/2, 1/2 e Y una variabile aleatoria discreta che assume
valori −10, 10 con probabilità 1/2, 1/2. Calcolare Var (X ) e
Var (Y ).
Soluzione. Prima di tutto si osservi che E[X ] = E[Y ] = 0 (farlo),
quindi
Var (X ) = (−1 − 0)2 · 1/2 + (1 − 0)2 · 1/2 = 1.
Var (Y ) = (−10 − 0)2 · 1/2 + (10 − 0)2 · 1/2 = 100.

Statistica descrittiva I. La frequenza

Transcript

Documenti analoghi

b-14) Valore atteso e varianza

b-15) Valore atteso, varianza e disuguaglianza di Tchebycheff

Esame 2012-06-06 (soluzioni)

Esercizi di Statistica della 2a settimana (Corso di Laurea in Biologia

CP110 - Calcolo delle Probabilitá

Corso di Laurea in Informatica Elementi di Probabilit`a

3 - UniFI

Matematica e Statistica - Docente

Esame di Probabilit`a e Statistica del 21 marzo 2007 (Corso di

Foglio di esercizi n. 3

VII Foglio di Esercizi (distribuzioni uniforme, gaussiana ed

G. Giunta - esercizi su Segnali Aleatori per

Dispensa di FSSB [Mod 1] - Department of Mathematics

versione degli appunti del 5-giugno-2009