IL TEOREMA CENTRALE DEL LIMITE Questo teorema `e senza
Transcript
IL TEOREMA CENTRALE DEL LIMITE Questo teorema `e senza
IL TEOREMA CENTRALE DEL LIMITE E. DI NARDO Questo teorema è senza dubbio uno dei più semplici teoremi asintotici che in più ha notevoli risvolti applicativi: sotto opportune condizioni, la somma di variabili aleatorie indipendenti tende a distribuirsi secondo una legge gaussiana per numero di addendi che va all’infinito. In altre parole, non è necessario avere molte informazioni sulla natura di queste variabili se lo scopo ultimo è lavorare con la loro somma. La storia di questo teorema comincia con Laplace alla fine del diciottesimo secolo. Prima del 1810, qualche indagine sulla somma di variabili aleatorie indipendenti con specifiche leggi di probabilità era stata già effettuata, ma senza portare alcun contributo alla teoria dal punto di vista generale. Tra queste, segnaliamo il risultato ottenuto in prima battuta da De Moivre (1732) e poi completato da Laplace (1801): siano X1 , X2 , . . . v.a. indipendenti e distribuite con legge di Bernoulli di parametro p; indicata con Sn = X1 + · · · + Xn risulta à ! Sn − np (0.1) lim P p ≤ x = φ(x) n→∞ np(1 − p) dove 1 φ(x) = √ 2π Z x ½ z2 exp − 2 −∞ ¾ dz. Osserviamo che quando si verifica la (0.1), si dice che la successione delle v.a. Un , ottenute standardizzando le v.a. Sn , converge in distribuzione alla variabile aleatoria gaussiana standard e si scrive Un ⇒ Z. Qui presentiamo il teorema centrale del limite nella sua versione più semplice (ed anche meno generale) relativa a variabili aleatorie somiglianti. Teorema 0.1. Siano X1 , X2 , . . . v.a. indipendenti ed identicamente distribuite con media E[Xi ] = µ < ∞ e V ar[Xi ] = σ 2 < ∞. La v.a. Un ottenuta per standardizzazione da Sn = X1 +X2 +· · ·+Xn converge in distribuzione ad una v.a. gaussiana standard. Per la dimostrazione del teorema ci serviamo di uno strumento molto simile a quello della funzione generatrice, ma che a differenza di questa ultima, esiste sempre finita: la funzione caratteristica. Ad integrazione della Lezione 15 - Calcolo delle Probabilità e Statistica Matematica II. 1 2 E. DI NARDO 1. Richiami sulla funzione caratteristica Definizione 1.1. Sia X una v.a. con funzione di ripartizione F (x). Si definisce funzione caratteristica della v.a. X la trasformata Z φ(t) = E[exp(itX)] = exp(itx)dF (x). R Questa definizione non differisce molto da quella della funzione generatrice dei momenti, se non per la presenza dell’unità immaginaria. L’introduzione però di questa costante, garantisce l’esistenza della funzione caratteristica a differenza della funzione generatrice dei momenti. È facile infatti provare che |φ(t)| ≤ 1 essendo ∀t ∈ R ¯Z ¯ Z ¯ ¯ ¯ exp(itx)dF (x)¯ ≤ | exp(itx)|dF (x) ¯ ¯ R e R | exp(itx)| = | sin(tx) + i cos(tx)| = q sin2 (tx) + cos2 (tx) = 1. Per la funzione caratteristica sussistono molti dei risultati che abbiamo provato per la funzione generatrice dei momenti e che si dimostrano seguendo le stesse linee. Ad esempio la funzione caratteristica di una somma di v.a. indipendenti corrisponde al prodotto delle funzioni caratteristiche corrispondenti agli addensi φX1 +···+Xn (t) = φX1 (t) · · · + φXn (t) ed in particolare φX1 +···+Xn (t) = [φX1 (t)]n se le v.a. Xi sono identicamente distribuite. Inoltre si ha φaX+b (t) = exp(itb)φX (at). Se esiste finito il momento di ordine r della v.a. X, si ha " # k d ik E[X k ] = φ(t) k≤r dtk t=0 cosa che avveniva anche per la funzione geratrice dei momenti, ma una volta certi che esistesse in un opportuno intorno dell’origine. In particolare, se esiste il momento di ordine r della v.a. X, allora la funzione caratteristica ammette derivata r−esima continua e quindi può essere rappresentata come polinomio di Taylor più un resto: i2 ir φ(t) = 1 + iµ1 t + µ2 t2 + · · · + µr tr + Rr (t) 2! r! con R(t) = o(tr ) infinitesimo di ordine superiore a tr . Altra proprietà della funzione caratteristica è quella di individuare univocamente la funzione di riportazione della v.a. ad essa associata (dimostrazione omessa) ed inoltre vale il seguente teorema (dimostrazione omessa) Proposizione 1.2. Sia {Xn } una successione di v.a. con funzione di ripartizione Fn (x) e funzione caratteristica φn (t). Sia poi X una v.a. con funzione di ripartizione F (x) e funzione caratteristica φ(t). Si ha Xn ⇒ X ⇔ lim φn (t) = φ(t) n ∀t ∈ R. IL TEOREMA CENTRALE DEL LIMITE 3 2. Dimostrazione del teorema centrale del limite Ricordiamo se se Xn ha finiti momento primo e secondo, allora si ha φXn −µ (t) = 1 − e quindi σ2 2 t + R2 (t) 2! µ ¶n σ2 2 φSn −nµ (t) = [φXn −µ (t)] = 1 − t + R2 (t) . 2! n Pertanto si ha φUn (t) ¶ µ t √ = φSn −nµ σ n · µ ¶¸n ½ · µ ¶¸¾n 2 t σ2 t t2 1 n t √ √ = 1− 2 + R2 + R2 = 1− σ n 2! n 2! t2 σ n σ n Effettuando il limite per n → ∞ si osservi che ³ ´ ¡ ¢ µ ¶ R2 σ√t n R2 σy n t √ lim R2 = lim ³ ´2 = lim =0 n→∞ t2 n→∞ y→0 y2 σ n √t n da cui µ 2¶ t lim φUn (t) = exp − n→∞ 2 dove questa ultima è la funzione caratteristica di una v.a. gaussiana standard, come si può facilmente ricavare dalla funzione generatrice dei momenti con al posto di t la variabile it. L’asserto segue dalla proposizione 1.3. Si vede facilmente come da questa versione dell’enunciato del teorema centrale del limite segua il teorema di De Moivre-Laplace. 3. Cenni alle generalizzazioni Il teorema centrale del limite può essere formulato anche per v.a. non identicamante distribuite. La formulazione del teorema di seguito riportata è dovuta a Liapunov, nel 1901. Dagli storici questo risultato è considerato la prima rigorosa formulazione del teorema centrale del limite. Teorema 3.1 (teorema di Liapunov). Siano X1 , X2 , . . . v.a. indipendenti con media E[Xn ] = µn < ∞, V ar(Xn ) < ∞ e tale che per qualche δ > 0 sia E[|Xn − µn |2+δ ] < ∞ per ogni n. Se vale che (3.1) E[|X1 − µ1 |2+δ + · · · + |Xn − µn |2+δ ] =0 n→∞ s2+δ n lim con s2n = σ12 + · · · + σn2 allora Un ⇒ Z con Z gaussiana standard e Un standardizzata della v.a. Sn . Qualche anno più tardi, e precisamente nel 1922, Linderberg pubblicò una dimostrazione del teorema centrale del limite senza ricorrere all’uso della funzione caratteristica, ed in condizioni più generali di quelle di Liapunov. 4 E. DI NARDO Teorema 3.2 (teorema di Linderberg). Siano X1 , X2 , . . . v.a. indipendenti con media E[Xn ] = µn < ∞, V ar(Xn ) < ∞. Se per ogni ² > 0 vale che Z n X 1 (3.2) lim (x − µi )2 dFi (x) = 0 2 n→∞ s |x−µ |≥²s n i n i=1 con s2n = σ12 + · · · + σn2 e Fi funzione di ripartizione di Xi allora Un ⇒ Z con Z gaussiana standard e Un standardizzata della v.a. Sn . Nella condizione (3.2) è implicito che almeno una delle v.a. Xn ha varianza non nulla: d’altra parte v.a. con varianze nulle, sono quasi certamente degeneri e non portano alcun contributo nè al numeratore nè al denominatore. Osserviamo che Z σi2 = (x − µi )2 dFi (x) ZR Z = (x − µi )2 dFi (x) + (x − µi )2 dFi (x) |x−µi |≥²sn |x−µi |<²sn Z < ²2 s2n + (x − µi )2 dFi (x) |x−µi |≥²sn e quindi e (3.3) 1 σi2 < ²2 + 2 s2n sn Z (x − µi )2 dFi (x) |x−µi |≥²sn σi2 = 0. n→∞ 1≤i≤n s2 n lim max La condizione (3.3) esprime l’importante condizione che nessuna delle v.a. Xn abbia una variabilità preponderante rispetto alle altre, in altre parole le singole v.a. Xn devono essere uniformemente trascurabili asintoticamente rispetto alle somma delle stesse. Si può dimostrare che se {Xn } è una successione di v.a. indipendenti tali che Un → Z affinchè valga la condizione di Linderberg, deve essere verificata la (3.3). Inoltre la condizione di Linderberg implica quella di Liapunov Z Z 1 1 |x − µi |2+δ 2 (x − µ ) dF (x) ≤ dFi (x) i i s2n |x−µi |≥²sn s2n |x−µi |≥²sn ²δ sδn £ ¤ 1 E |Xi − µi |2+δ ≤ ²δ s2+δ n Fu poi Levy nel 1935 a fornire delle condizioni necessarie e sufficienti perchè sussista il teorema centrale del limite nel caso di successioni di v.a. indipendenti. Nello stesso lavoro diede condizioni necessarie e sufficienti anche nel caso di una classe di v.a. dipendenti, le martingale.