Appunti su probabilità e statistica
Transcript
Appunti su probabilità e statistica
Probabilità e statistica (appunti di Paolo Gronchi) 1 An unsophisticated forecaster uses statistics as a drunken man uses lamp-posts: For support rather than for illumination. Andrew Lang Indice 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. Probabilità Spazi di probabilità discreti Probabilità condizionata Variabili aleatorie e funzioni distribuzioni Media e varianza di una variabile aleatoria Disuguaglianza di Chebyshev, legge dei grandi numeri e teorema centrale Statistica Test di ipotesi Indipendenza, correlazione e regressione Tavole numeriche di alcune distribuzioni 2 3 5 9 12 17 20 23 26 34 AT X un software libero, coperto dalla LAT X Project Public License (LPPL). Appunti composti utilizzando L E E 2 1. Probabilità Spesso nella pratica si ha a che fare con circostanze o esperimenti dei quali è impossibile predire con certezza l’esito. Il lancio di una moneta è il tipico esempio. Sono possibili due diversi esiti: o esce testa o esce croce. Ma ce ne sono di più complessi e allo stesso tempo usuali. Esperimenti con esiti casuali sono: - il risultato di una partita di calcio della prossima giornata di campionato. Esiti possibili: 1, X, 2; - il sesso di un nascituro al momento del suo concepimento. Esiti possibili: M, F; - i cinque numeri estratti al lotto nella ruota di Napoli. Esiti possibili: tutte le cinquine ordinate di numeri compresi tra 1 e 90; - l’altezza di un individuo. Esiti possibili: numeri (interi?) compresi tra un minimo ed un massimo. Il calcolo delle probabilità si propone di quantificare l’incertezza propria di queste situazioni aleatorie. In altre parole, stabilisce opportune regole per esprimere il grado di fiducia che si attribuisce al verificarsi di un evento (a partire da ipotesi o conoscenze su eventi meno complicati). Per parlare di probabilità è necessario chiarire l’ambiente nel quale operiamo. Lo spazio campione può essere definito come l’insieme di tutti gli esiti possibili di un esperimento dipendente dal caso. Usualmente è indicato con Ω ed i suoi elementi sono detti punti campione o esiti possibili. Qualche autore chiama spazio degli eventi lo spazio campione ed eventi elementari i punti campione. Un evento può essere visto come un sottoinsieme dello spazio campione, cioè come l’insieme dei possibili esiti dell’esperimento che indicano il verificarsi dell’evento. Per questo motivo le operazioni booleane definite tra gli insiemi si traducono in operazioni tra eventi. L’unione di due eventi A ∪ B è l’evento accade A o accade B o entrambi. L’intersezione di due eventi A ∩ B è l’evento accadono entrambi A e B. Il complemento di un evento Ac è l’evento non accade A. Esempi di spazi campione. Lancio di un dado. Lo spazio campione è Ω = {1, 2, 3, 4, 5, 6}. I punti campione o eventi elementari sono i sei elementi di Ω definibili a parole con il risultato del lancio è il numero n. L’evento D = il risultato del lancio è un numero dispari non è un evento elementare e possiamo scrivere D = {1, 3, 5}. Misurazione con cronometro del tempo di caduta di un grave. Lo spazio campione Ω può essere pensato discreto in quanto composto di tutti i numeri interi positivi compresi tra due valori di riferimento (esprimendo il tempo in un’opportuna unità di misura). I punti campione sono i singoli valori temporali. Un evento potrebbe essere il tempo di caduta è superiore ai 15 secondi. Lancio ripetuto di una moneta (Processo di Bernoulli). Lo spazio campione Ω è l’insieme delle successioni di due simboli o numeri (uno per testa e l’altro per croce). I matematici preferiscono usare i numeri 0 e 1 a simboleggiare il numero di testa uscito all’ennesimo lancio. I punti campione o eventi elementari sono le successioni di 0 e 1. L’evento è uscita testa al quinto lancio non è un evento elementare e non è proponibile descriverlo come sottoinsieme di Ω. Gli eventi è uscita testa all’n-esimo lancio sono detti eventi generatori e sono di fondamentale importanza per descrivere eventi più complessi e stabilire quindi la loro probabilità. 3 Per restare nell’ambito più generale possibile è bene introdurre il concetto di σ-algebra di insiemi. Dato un insieme Ω, una famiglia = non vuota di sottoinsiemi di Ω si dice una σ-algebra se verifica gli assiomi S (A1) se An ∈ = per n = 1, 2, . . . , allora An ∈ = n≥1 (A2) se A ∈ = allora Ac ∈ =. È semplice verificare che ogni σ-algebra contiene l’insieme Ω e l’insieme vuoto ∅. Inoltre è chiusa rispetto alla intersezione numerabile. Nel caso in cui l’insieme Ω contiene solo un numero finito di elementi, allora la (A1) può essere riformulata chiedendo che l’unione di due sottoinsiemi in = sia ancora in =. A questo punto possiamo introdurre il concetto di probabilità. Seguiremo il cosiddetto metodo assiomatico. Fissato uno spazio campione Ω ed una σ-algebra = di parti di Ω, una probabilità è una funzione P che assegna un numero reale P (A) ad ogni evento A appartenente a = con le seguenti proprietà: (P1) P (A) ≥ 0 (P2) P (Ω) = 1 (P3) se A1 , A2 , . . . è una successione di eventi di = a due a due disgiunti, allora P (A1 ∪ A2 ∪ . . . ) = P (A1 ) + P (A2 ) + . . . . Osserviamo che la probabilità risulta cosı̀ definita soltanto sui sottoinsiemi di Ω che appartengono a =. La terna (Ω, =, P ) si chiama spazio di probabilità. La proprietà (P3) si chiama additività completa; se il numero di eventi che vi compaiono è finito, allora si parla di additività finita e la sua necessità è abbastanza evidente. Le principali proprietà di una probabilità sono le seguenti: (P4) per ogni evento A è 0 ≤ P (A) ≤ 1 (P5) per ogni evento A risulta P (Ac ) = 1 − P (A) (P6) per l’evento impossibile ∅ risulta P (∅) = 0 (P7) se A e B sono eventi incompatibili allora P (A ∪ B) = P (A) + P (B) (P8) se A è un sottoevento di B allora P (A) ≤ P (B) (P9) se A e B sono eventi allora P (A ∪ B) = P (A) + P (B) − P (A ∩ B) (P10) gli eventi A e B sono indipendenti se e solo se P (A ∩ B) = P (A)P (B) La (P10) è una definizione più che una proprietà. Il concetto di indipendenza tra due eventi è intuitivo e traduce il fatto che due eventi non abbiano effetto l’uno sull’altro. L’esempio classico è il lancio ripetuto di una moneta: i risultati in lanci diversi devono essere indipendenti! Siccome l’indipendenza tra eventi è molto importante nel calcolo della probabilità, è giusto darne una definizione rigorosa. Per non confonderla con il concetto intuitivo di indipendenza a volte si preferisce parlare esplicitamente di indipendenza stocastica. La (P10) sarà quindi uno strumento utile per verificare la presunta indipendenza di eventi complessi e per svelare l’indipendenza stocastica di eventi apparentemente correlati. 2. Spazi di probabilità discreti La teoria della probabilità nasce nel 1654 da una corrispondenza tra Pascal e Fermat su alcuni giochi d’azzardo in uso a quel tempo, giochi che prevedevano soltanto un numero finito di esiti possibili. Cominciare il nostro studio dagli spazi di probabilità discreti (cioè con un numero finito di punti campione) è dovuto comunque ad esigenze didattiche più che a influenze storicistiche. Dato uno spazio campione finito Ω = {ω1 , ω2 , . . . , ωn }, possiamo scegliere come σ-algebra l’insieme delle parti di Ω, cioè la famiglia costituita da tutti i sottoinsiemi di Ω. Ogni evento A avrà quindi solo un numero finito di casi favorevoli, cioè di punti campione che implicano il verificarsi di A. Se A = {ωi1 , ωi2 , . . . , ωir }, allora dall’additività di P e 4 dall’incompatibilità di esiti diversi ricaviamo P (A) = P (ωi1 ) + P (ωi2 ) + · · · + P (ωir ) . Vediamo pertanto che ogni misura di probabilità P su uno spazio campione finito è determinata dai suoi valori sui punti. Con un po’ di abuso delle notazioni, confondendo cioè eventi e sottoinsiemi dello spazio campione, possiamo scrivere la formula (1) P (A) = X P (ω) ω∈A che permette di esprimere la probabilità di ogni evento in termini delle probabilità degli eventi elementari. Un esempio semplice e nello stesso tempo fondamentale è quello della equiprobabilità, quando cioè si suppone che ognuno degli esiti possibili abbia la stessa probabilità di accadere. Si deduce che per ogni punto campione ω deve essere 1 P (ω) = , |Ω| dove |Ω| indica la cardinalità di Ω. Quindi ritroviamo la definizione classica di probabilità (2) P (A) = |A| casi favorevoli = . |Ω| casi possibili La semplicità della formula (2) non deve indurre a credere che sia facile calcolare la probabilità di ogni evento. In ultima analisi, questa formula riconduce il calcolo della probabilità su spazi discreti a problemi di conteggio e quindi alla combinatoria. Una situazione tipica per un processo finito è quella del campionamento, cioè l’estrazione di un certo numero di unità o campioni da una popolazione fissata. L’esempio classico è l’estrazione di palline da un’urna (gioco del lotto, lancio di n dadi, ecc.). I possibili esiti della prima estrazione sono tanti quanti i campioni presenti nella popolazione. Se analizziamo invece la seconda estrazione ci rendiamo conto che vi sono differenze, ad esempio se pensiamo al gioco del lotto o al lancio di n dadi. Nel primo caso siamo in presenza di estrazione senza reimbussolamento (detto anche campionamento senza rimessa) nel secondo di estrazione con reimbussolamento o campionamento con rimessa. Facciamo un esempio. Sia Ω = {x, y, z} e consideriamo, per brevità, il caso di due estrazioni successive. Indichiamo con Ωr lo spazio campione con rimessa e con Ωs lo spazio campione senza rimessa. Abbiamo allora Ωr = {xx, xy, xz, yx, yy, yz, zx, zy, zz} , Ωs = {xy, xz, yx, yz, zx, zy} . A questo punto cerchiamo di calcolare la cardinalità degli spazi Ωr e Ωs nel caso generale di k estrazioni da una popolazione di n unità. Lo strumento più consono a questo scopo e la regola fondamentale del calcolo combinatorio: se un oggetto si forma facendo una successione di k scelte tali che ci siano n1 possibilità per la prima scelta, n2 possibilità per la seconda scelta, . . . , nk possibilità per la k-esima scelta, allora il numero totale di oggetti che si possono cosı̀ formare è il prodotto n1 n2 . . . nk . Ne segue facilmente che, nel caso di campionamenti di dimensione k (cioè con k estrazioni) da una popolazione di n unità, si ha n! , |Ωr | = nk , |Ωs | = n(n − 1)(n − 2) . . . (n − k + 1) = (n − k)! dove n! = n · (n − 1) · (n − 2)· . . . · 3 · 2 · 1 è l’usuale notazione per il fattoriale di n. 5 Esercizi. Menu al ristorante. Un ristorante offre una scelta tra tre antipasti, cinque primi, quattro secondi, tre contorni e tre dolci. Quanti pranzi completi (senza bis) distinti possono essere ordinati? [540] Insieme delle parti. Quanti sono i sottoinsiemi di un insieme con n elementi? Cinquine al lotto. Quante sono le possibili cinquine su una ruota del lotto? [2n ] [43 949 268] Il problema dei compleanni. In un’aula ci sono n studenti. Qual è la probabilità che almeno 365! due abbiano lo stesso compleanno? [1 − (365−n)!365 n] Scomposizione di numeri. In quanti modi possiamo scrivere il numero n come somma di k (n−1)! numeri interi positivi ordinati? [ (k−1)!(n−k)! ] Estrazioni indipendenti. Considerati i due eventi A = { i-esimo esito alla j-esima estrazione} e B = { h-esimo esito alla k-esima estrazione}, verificare la loro indipendenza o dipendenza stocastica nel caso di campionamenti con o senza rimessa. 3. Probabilità condizionata Spesso nella vita reale vogliamo valutare la probabilità di un evento avvantaggiandosi della conoscenza parziale dell’esito dell’esperimento. Un esempio è valutare la probabilità di fare 10 lanciando tre dadi. Semplici calcoli ci mostrano che tale probabilità (nel caso di un dado non truccato) è 1/8. Supponiamo di aver lanciato i dadi e di vedere che un dado si ferma indicando il numero 3. Nel breve attimo che precede l’arresto degli altri dadi possiamo sfruttare questa informazione e rivalutare la probabilità di fare 10. Questa è pari alla probabilità di fare 7 con due dadi e quindi è pari a 1/6. Quindi l’informazione avuta ha modificato la probabilità dell’evento in questione. Non sempre è cosı̀ semplice decidere quale cambiamento sia prodotto dall’informazione acquisita. A tal proposito citiamo il cosiddetto paradosso del carceriere. Tre condannati a morte A, B e C vengono informati che due di loro sono stati graziati ed uno solo sarà giustiziato. Comunque conosceranno il loro destino soltanto il giorno successivo, fissato per l’esecuzione. Il condannato A tornando nella sua cella chiede al carceriere di rivelargli il nome del compagno di prigionia che sarà graziato. Il carceriere si rifiuta di dare questa informazione perché altrimenti la sua probabilità di essere giustiziato aumenterebbe, passando da 1/3 a 1/2. Il condannato A ribatte che, siccome almeno uno dei due suoi compagni sarà sicuramente graziato, venire a conoscenza di un nome non può alterare la sua probabilità di essere giustiziato. Chi dei due ha ragione? Lo strumento ottimale per rispondere a questa domanda è la probabilità condizionata. Dato uno spazio di probabilità (Ω, =, P ) ed un evento H con probabilità non nulla, cerchiamo di valutare la probabilità di un evento A nell’ipotesi (o con la condizione) che H sia accaduto. Nell’esempio del lancio dei tre dadi H è l’evento un dado indica il numero 3. Ci aspettiamo che in generale la probabilità degli eventi cambi e quindi troviamo un nuovo nome a ciò che vogliamo definire. Chiamiamo PH la probabilità condizionata da H. Se pensiamo alla probabilità su Ω come all’area di un sottoinsieme, allora siamo immediatamente spinti a riconoscere che la probabilità condizionata di A dato H dipende dall’area di A ∩ H. Potremmo anche essere più rigorosi, osservando che PH (H c ) = 0 e quindi che PH (A) = PH (A ∩ H) ed anche che 6 PH (A)P (H) = P (A ∩ H). Comunque sia si può arrivare a concludere che deve valere la formula PH (A) = P (A ∩ H) , P (H) P (H) 6= 0 . La notazione usuale per PH (A) è P (A|H), dove la stanghetta verticale separa l’evento di cui valutare la probabilità dalla condizione assunta. La regola per calcolare la probabilità condizionata di A dato H è (3) P (A|H) = P (A ∩ H) , P (H) P (H) 6= 0 . La probabilità condizionata permette di dare definizioni alternative dell’indipendenza stocastica. Le seguenti tre affermazioni sono equivalenti: (PC1) A e B sono indipendenti, cioè P (A ∩ B) = P (A)P (B) (PC2) P (A|B) = P (A) (PC3) P (B|A) = P (B). In altre parole, l’informazione che un evento si è verificato non altera (chiaramente) la probabilità che si verifichi un evento indipendente. Dalla (3) ricaviamo la formula P (A ∩ H) = P (A|H)P (H) e pertanto, considerando l’evento H c e la probabilità condizionata dato H c , otteniamo facilmente la relazione P (A) = P (A ∩ H) + P (A ∩ H c ) = P (A|H)P (H) + P (A|H c )P (H c ) . Questa può essere generalizzata per arrivare ad una formula molto utile in varie applicazioni concrete. Supponiamo di avere diverse alternative Hi , cioè eventi Hi che verificano (LA1) H Si ∩ Hj = ∅, per i 6= j (incompatibilità) (LA2) i Hi = Ω (esaustività) (LA3) P (Hi ) 6= 0 per ogni indice i. Allora la legge delle alternative afferma che X (4) P (A) = P (A|H1 )P (H1 ) + P (A|H2 )P (H2 ) + · · · = P (A|Hi )P (Hi ) . i Supponiamo adesso di aver sottoposto uno studente ad un test a risposta multipla (m risposte possibili di cui solo una corretta). Immaginiamo che lo studente abbia probabilità p di conoscere la risposta esatta e non la conosca con probabilità 1 − p. Chiaramente possiamo assumere che conoscendo la risposta azzeccherà certamente quella esatta mentre, nel caso che non la conosca, abbia probabilità 1/m di indovinare (completamente a caso). Nell’ipotesi che abbia risposto esattamente al test, qual è la probabilità che conosca la risposta? Questo è un semplice esempio in cui si vuole invertire quello che appare il naturale susseguirsi delle scelte. Spieghiamoci meglio. In questo problema compaiono due scelte casuali: sapere o non sapere la risposta e indovinare o non indovinare la risposta. Nel formulare le ipotesi fatte abbiamo, più o meno esplicitamente, dato una valenza di causa e effetto alle singole scelte. Ci è parso naturale assumere la probabilità di indovinare data la conoscenza dello studente, mentre la domanda chiede esattamente l’opposto, cioè determinare la probabilità della conoscenza data la correttezza della risposta al test. In termini semplificativi, chiediamo la probabilità di una causa sapendo l’effetto prodotto. Facciamo un altro esempio. Tre artigiani confezionano in un giorno n1 , n2 e n3 borse delle quali, rispettivamente, d1 , d2 e d3 difettose. Scelta una borsa a caso, scopriamo che è difettosa. Qual è la probabilità che sia stata confezionata dal primo artigiano? Anche qui, è naturale definire la probabilità che una delle borse confezionate dal singolo artigiano sia difettosa, mentre chiedere la probabilità che una borsa difettosa sia stata confezionata da un certo artigiano ci appare un ragionamento inverso. 7 Analizziamo bene quest’ultimo esempio. Il nostro spazio campione è composto dalle n borse, con n = n1 + n2 + n3 . L’esperimento consiste nello sceglierne una a caso (ipotesi di equiprobabilità) ed abbiamo a che fare con i seguenti eventi: Ai = { la borsa è stata confezionata dall’i-esimo artigiano}, D = { la borsa è difettosa}. Sappiamo che P (Ai ) = nni , per i = 1, 2, 3 ed inoltre P (D|Ai ) = ndii . Ciò che cerchiamo invece è P (A1 |D). Nel gergo tecnico, P (A1 ) è detta probabilità a priori mentre P (A1 |D) è detta probabilità a posteriori. Dalla definizione di probabilità condizionata ricaviamo P (A1 ∩ D) P (D|A1 )P (A1 ) P (A1 |D) = = . P (D) P (D) Utilizzando la legge delle alternative arriviamo alla conclusione P (D|A1 )P (A1 ) d1 . P (A1 |D) = P = P (D|Ai )P (Ai ) d1 + d2 + d3 i Questo è un esempio molto semplice, in cui potevamo arrivare alla soluzione senza scomodare troppe regole e definizioni. Nel caso generale il ragionamento è del tutto analogo ed il risultato è una formula che va sotto il nome di legge di Bayes: P (A|Hi )P (Hi ) (5) P (Hi |A) = P , P (A|Hj )P (Hj ) j dove le Hi sono alternative e quindi incompatibili ed esaustive (vedi legge delle alternative). Vediamo a questo punto come si risolve il problema dello studente davanti ad un test a risposta multipla. Consideriamo i due eventi: C = { lo studente conosce la risposta} , R = { lo studente risponde esattamente} . Abbiamo P (C) = p, P (R|C) = 1 e P (R|C c ) = 1/m. Per calcolare P (C|R) applichiamo la legge di Bayes e scopriamo P (R|C)P (C) p mp P (C|R) = = = . c c P (R|C)P (C) + P (R|C )P (C ) p + (1 − p)/m mp − p + 1 Nel caso di un test con 5 risposte possibili (di cui una sola corretta), se p = 1/2, cioè lo studente conosce la metà degli argomenti del test, allora P (C|R) = 5/6, che a parole significa che una risposta giusta su sei è in media dovuta al caso. Se p = 3/4 allora, in media, soltanto una risposta esatta su 16 è dovuta al caso. Torniamo adesso al paradosso del carceriere. La vera difficoltà sta nel tradurre correttamente l’enunciato un po’ vago del problema in termini probabilistici. Un primo passo utile può essere quello di complicare le cose, anche se pare assurdo. Supponiamo che i condannati fossero 50 (non stiamo ad assegnare un nome ciascuno per ovvi motivi) e che uno solo verrà giustiziato. Il prigioniero A poteva in questo caso chiedere il nome di 49 suoi compagni che avevano ricevuto la grazia. Sarebbe salita ad 1/2 la sua probabilità di essere giustiziato? Chi di noi nei panni di A avrebbe avuto il coraggio di chiedere lo scambio con quell’unico prigioniero non nominato? Appare più naturale credere che l’informazione ricevuta non alteri le probabilità di A. Eppure, a ben vedere, potremmo pensare che il carceriere cominci ad elencare i graziati in ordine alfabetico (o di numero di matricola). Se salta un unico nome, allora anche noi, nei panni di A avremmo forse un sospiro di sollievo. Quindi istintivamente l’informazione ricevuta potrebbe cambiare le 8 probabilità precedenti. Questo esempio con molti condannati chiarisce meglio un punto che si rivela fondamentale e che nella formulazione iniziale è del tutto vago. Supponiamo che B e C siano entrambi graziati. Quale nome pronuncerebbe il carceriere? Per tradurre in termini probabilistici corretti, si possono considerare i seguenti eventi: GA = {A sarà giustiziato}, GB = {B sarà giustiziato}, GC = {C sarà giustiziato}, NB = { il carceriere rivelerà il nome di B}, NC = { il carceriere rivelerà il nome di C}. Per ipotesi, ribadita anche dalle parole del carceriere, P (GA ) = P (GB ) = P (GC ) = 1/3. Per quanto concerne invece le probabilità degli ultimi due eventi, nulla si può evincere dal testo del problema nel caso che A venga giustiziato. Supponiamo dunque che P (NB |GA ) = p e P (NC |GA ) = 1 − p , cioè che, nel caso che B e C siano entrambi graziati, il carceriere riveli il nome di B con probabilità p. Vogliamo valutare la probabilità condizionata di GA dati rispettivamente gli eventi NB e NC . Dalla (5) segue facilmente: P (GA |NB ) = P (NB |GA )P (GA ) . P (NB |GA )P (GA ) + P (NB |GB )P (GB ) + P (NB |GC )P (GC ) Osservando che P (NB |GB ) = 0 e P (NB |GC ) = 1 ricaviamo P (GA |NB ) = p p+1 P (GA |NC ) = 1−p . 2−p ed analogamente Osserviamo che ognuna delle due probabilità è 1/3 solo nel caso p = 1/2. Il ragionamento di A era quindi giusto nell’ipotesi p = 1/2. A suo favore potremmo dire che, non conoscendo p, la valutazione migliore è proprio 1/2. Invece per p = 0 oppure per p = 1, il ragionamento del carceriere acquista di significato e la probabilità a posteriori di GA risulta 0 o 1/2 a seconda della risposta. Un esempio che sorprende spesso gli studenti è il seguente. Un test antitumorale, come quasi tutti i test diagnostici, non è infallibile e commette due tipi di errori: i cosiddetti falsi positivi e falsi negativi. I primi sono esiti positivi per pazienti sani mentre i secondi sono esiti negativi per pazienti affetti dalla malattia in esame. La probabilità che un test azzecchi la giusta diagnosi è detta accuratezza. La probabilità di errore è in generale diversa tra pazienti sani e pazienti malati. Si chiama sensibilità del test la probabilità che fornisca esito positivo in presenza di malattia e specificità del test la probabilità che dia esito negativo su un soggetto sano. Supponiamo adesso che un test antitumorale con sensibilità del 98% e specificità del 99% dia esito positivo sul paziente X. Sapendo che la malattia ha un’incidenza dello 0,2% sulla popolazione, che probabilità ha X di essere affatto dalla malattia? Indichiamo con E l’evento il test ha dato esito positivo e con T l’evento il paziente ha il tumore. Le nostre informazioni sono: P (T ) = 2/1000, P (E|T ) = 98/100 e P (E|T c ) = 1/100. Vogliamo calcolare P (T |E). Dalla (5) otteniamo P (T |E) = P (E|T )P (T ) 0, 98 · 0, 002 = = 0, 1641 . c c P (E|T )P (T ) + P (E|T )P (T ) 0, 98 · 0, 002 + 0, 01 · 0, 998 Quindi il paziente risultato positivo al test ha una probabilità pari circa al 16,41% di avere un tumore. 9 4. Variabili aleatorie e funzioni distribuzioni Introduciamo un nuovo concetto, quello di variabile aleatoria. Come sempre accade in matematica, i concetti vengono introdotti per semplificare ragionamenti usuali in certi campi, anche se inizialmente allo studente appare solo la difficoltà ad incamerare nuove definizioni. Abbiamo già discusso dell’esempio del lancio di un dado. I sei esiti possibili li abbiamo chiamati eventi, vi abbiamo definito una probabilità e ci siamo più o meno abituati a questa terminologia. Possiamo rileggere questo esempio dando un nome X al numero ottenuto lanciando il dado. Quindi X è un numero, compreso tra 1 e 6, ma non sappiamo quale. Chiamiamo X una variabile aleatoria (intera) e diciamo di conoscerla una volta che abbiamo deciso non solo i suoi valori possibili ma anche la probabilità che essa assuma i singoli valori. In questo esempio non appare nessuna grande novità. Procediamo per gradi. Analizziamo il lancio di due dadi. Gli esiti possibili sono le coppie di numeri interi compresi tra 1 e 6, in tutto 36 eventi elementari. Abbiamo visto che con un po’ di calcoli è semplice determinare la probabilità che la somma dei due numeri usciti sia un certo numero fissato (pensiamo a dadi non truccati, per semplicità). Chiamiamo X tale somma. La variabile aleatoria X non è più equivalente all’esito del lancio, cioè esiti diversi possono produrre lo stesso valore di X. Presentare X vuol dire elencare tutti i valori che può assumere con la relativa probabilità che ciò avvenga. Anche in questo caso la variabile aleatoria si dice intera, perché assume solo valori interi. Un modo di esibire X potrebbe essere la matrice µ 2 3 4 5 6 7 8 9 10 11 12 1 36 1 18 1 12 1 9 5 36 1 6 5 36 1 9 1 12 1 18 ¶ 1 36 in cui ogni colonna riporta un valore possibile e la corrispondente probabilità dell’evento, dando per scontato che valori diversi hanno probabilità nulla. Un modo più compatto ed efficace è quello di ricorrere ad un grafico. Nel caso della variabile aleatoria X abbiamo il seguente grafico, dove l’unità di misura sulle ordinate è espressa in trentaseiesimi. Vediamo di generalizzare. Sia (Ω, =, P ) uno spazio di probabilità; una variabile aleatoria è una funzione X : Ω → R. Indichiamo con {X ≤ k} l’evento definito come l’insieme di tutti i punti campione ω ∈ Ω per i quali X(ω) ≤ k. Per la precisione il nome di variabile aleatoria spetta soltanto a quelle funzioni tali che eventi di questo tipo appartengono a =. Comunque noi ci occuperemo sempre di funzioni che hanno questa proprietà e quindi possiamo pensare ad una variabile aleatoria come ad una qualsiasi funzione a valori reali. 10 Diremo che una variabile aleatoria X è intera o positiva quando è tale come funzione. Nel caso del punteggio ottenuto col lancio di due dadi, ad esempio, la funzione è sia positiva che intera. Abbiamo detto in precedenza che conoscere la variabile aleatoria X significa non solo sapere quali numeri reali sono possibili valori di X, ma anche conoscere la probabilità che ciò avvenga. Supponiamo che X assuma i valori 1, 2, . . . , n: conoscere la variabile aleatoria X vuol dire sapere la probabilità degli eventi {X = k}, per ogni k = 1, 2, . . . , n. Posto pk = P (X = k) la successione delle coppie di numeri {(k, pk )} costituisce la distribuzione di probabilità di X e possiamo rappresentarla tramite una tabella o matrice oppure tramite Pun grafico simile a pk = 1. quello visto nel caso del lancio di due dadi. Osserviamo che dovrà valere k In seguito saremo interessati anche a variabili aleatorie non intere ma continue, che possono assumere cioè tutti i valori reali. Un esempio potrebbe essere dato dal lancio del giavellotto. Anche se le misurazioni sono espresse in centimetri (e quindi possiamo considerarla una variabile aleatoria intera) i risultati possibili sono talmente tanti che conviene utilizzare le notazioni (e tecniche) delle variabili continue. Indichiamo con L la variabile aleatoria che esprime il risultato di un singolo lancio. Come possiamo esprimere la probabilità che L assuma un certo valore? Nell’ipotesi di valori reali, la probabilità di azzeccare esattamente il risultato è evidentemente bassissima, anzi nulla. Cosa significa allora in questo caso conoscere la variabile aleatoria? Per le variabili aleatorie continue, e quindi anche per L, gli eventi da prendere in esame non sono quelli del tipo {L = x} ma quelli esprimibili come {L ≤ x}, per ogni x ∈ R. Al variare di x consideriamo la funzione F (x) = P (L ≤ x) , che chiamiamo la funzione di distribuzione di probabilità di L. Il grafico della funzione F ci fornisce tutte le informazioni che si possono desiderare sulla variabile aleatoria L. Osserviamo che dovrà valere lim F (x) = 1 e lim F (x) = 0 . x→+∞ x→−∞ Supponiamo che il grafico a fianco rappresenti la funzione di distribuzione di probabilità nel lancio del giavellotto da parte di una persona. Potremmo pensare di aver chiesto ad un numero enorme di persone di lanciare il giavellotto ed aver quindi stimato le probabilità in questione in base alle frequenze del campione statisticamente rappresentativo. Il record mondiale del lancio del giavellotto è di 98,48 metri e quindi la probabilità che un lancio sia inferiore ai 100 metri deve necessariamente essere 1 se si basa su lanci già effettuati. In figura sono evidenziati due segmenti correlati alla domanda: quale distanza è irraggiungibile nel 90% dei lanci? Si parte orizzontalmente dallo 0,9 segnato sull’asse delle ordinate e, raggiunto il grafico, si scende fino a leggere circa 17 metri. Pertanto la funzione di distribuzione di probabilità di una variabile aleatoria continua garantisce lo stesso tipo di informazioni fornite dalla distribuzione di probabilità di una variabile aleatoria intera (o discreta). Ciononostante i due grafici ci appaiono ben diversi. Da un punto di vista matematico il legame tra le due funzioni è molto chiaro: analizziamolo. 11 Nel definire la funzione di distribuzione di probabilità di una variabile aleatoria continua, ad esempio L, abbiamo evitato di definire la probabilità che un lancio sia esattamente di 84,60 metri (record italiano dal 1989). L’idea che abbiamo enfatizzato è che praticamente nessun lancio percorrerà esattamente quella distanza se prendiamo in considerazione i millimetri o addirittura i millesimi di millimetro. Quindi è la domanda stessa che non ha molto senso. Invece è naturale chiedere la probabilità che un lancio sia poi registrato pari a 84,60 metri da un giudice di gara. In altre parole ci disinteressiamo dell’errore che il giudice commette nell’approssimare il numero. Quindi la domanda potrebbe essere formulata meglio considerando l’evento che L sia compreso tra 84,595 e 84,605 metri. Questo ci porta ad utilizzare la variazione della funzione F più che la funzione stessa, cioè F (84, 605) − F (84, 595). Infatti l’evento {L ≤ b} = {a ≤ L ≤ b} ∪ {L ≤ a} e quindi P (a ≤ L ≤ b) = P (L ≤ b) − P (L ≤ a) = F (b) − F (a). Quando si parla di variazioni di una funzione il concetto di derivata dovrebbe saltare in mente anche agli studenti. Definita dalla formula F (x + h) − F (x) f (x) = F 0 (x) = lim , h→0 h si introduce la densità di probabilità della variabile aleatoria L. Dunque potremo scrivere Rb F (b) − F (a) = f (x) dx. a Osserviamo che risulta +∞ R f (x) dx = 1. −∞ Questa funzione assume un significato molto simile a quello visto per le variabili aleatorie intere nel caso dei grafici a barra. Ad esempio, qui a fianco è riportato il grafico della densità di probabilità della variabile L, la cui distribuzione è rappresentata nella pagina precedente. Il picco in corrispondenza dei lanci di 10-15 metri rivela che i dati non sono reali oppure, volendo cercare una giustificazione, che il campione statistico preso in esame per valutare la funzione F non era certo rappresentativo di atleti della disciplina. La densità di probabilità f conserva ancora tutte le informazioni necessarie per rispondere a domande sulla probabilità di eventi espressi in termini della variabile aleatoria L. Ad esempio, la probabilità che un lancio sia compreso tra 10 e 15 metri si legge valutando l’integrale della funzione f sul corrispondente intervallo, cioè calcolando l’area della regione racchiusa dal grafico della f , dall’asse delle ascisse e dalle due rette x = 10 e x = 15. In formule Z15 P (10 ≤ L ≤ 15) = f (x) dx = F (15) − F (10) (= 0, 6598) , 10 cioè quasi 2 lanci su 3 mandano il giavellotto ad una distanza di soli 10-15 metri dalla pedana. Torniamo ad un altro tipo di lancio, il lancio di una moneta o di un dado. Analizziamo la variabile aleatoria X che conta il numero di successi (di teste con una moneta o di pari alla roulette o altro ancora) in n lanci. Ogni lancio è indipendente dagli altri e, per mantenere maggiore generalità, immaginiamo che la probabilità di successo in un singolo lancio sia p (e quella di insuccesso sia q, con p + q = 1). Conoscere X significa capire i suoi valori possibili e le corrispondenti probabilità. I valori possibili sono chiaramente tutti i numeri interi compresi tra 0 e n. Valutiamo adesso la probabilità di avere k successi negli n lanci e conseguentemente n−k insuccessi. Qualsiasi sequenza a noi favorevole ha probabilità pk q n−k di accadere; il numero di n! . tali sequenze si conta facilmente e risulta pari a k!(n−k)! 12 Quindi la variabile aleatoria X è rappresentata dalla successione pk = P (X = k) = n! pk (1 − p)n−k . k!(n − k)! Questa distribuzione di probabilità prende il nome di distribuzione binomiale o di Bernoulli. Data la generalità del processo, questa distribuzione è molto comune. Quando il numero di lanci n è molto grande, non è agevole calcolare tutti i pk e certi ragionamenti si semplificano pensando la variabile aleatoria X una variabile aleatoria continua. Praticamente il passaggio che facciamo è quello di sostituire il grafico ad istogrammi della distribuzione con il grafico di una funzione f , cioè di una densità di probabilità. Questo passaggio va definito meglio e ci torneremo quando parleremo della legge dei grandi numeri, uno dei capisaldi della statistica moderna, formulata per la prima volta da J. Bernoulli (1654-1705) nella sua opera postuma del 1713, Ars conjectandi. Per il momento ricordiamo soltanto che il fattoriale, definito soltanto sui numeri naturali, può essere esteso ad ogni numero reale positivo tramite la funzione Γ(x) data dalla formula Z ∞ Γ(x) = tx−1 e−t dt . 0 Infatti risulta (facilmente ricavabile dalla regola di integrazione per parti) Γ(x + 1) = xΓ(x) e quindi, verificato che Γ(1) = 1, vale la relazione Γ(n + 1) = n!, per ogni n ≥ 0. Una seconda relazione concernente il fattoriale è la cosiddetta formula di Stirling che ne fornisce un’approssimazione asintotica: √ nn e−n 2πn lim = 1. n→∞ n! 5. Media e varianza di una variabile aleatoria Continuiamo a considerare il processo di Bernoulli, cioè il lancio di una moneta. Supponiamo di aver assistito a 20 lanci e di aver visto uscire testa una sola volta. Siamo spinti a credere che la moneta sia truccata, cioè che la probabilità di ottenere testa in un singolo lancio non sia 1/2 come pensavamo. Vedremo in seguito che questo esperimento può essere visto come un test di ipotesi, ma per il momento occupiamoci solo della nostra aspettativa o previsione. Immaginando di avere a che fare con una moneta equa, ci aspettiamo che esca testa circa nella metà dei lanci. Siamo disposti a credere che la casualità provochi un qualche discostamento dal valore preciso (10 in questo caso) ma ci insospettiamo se l’allontanamento è troppo evidente. Come abbiamo calcolato il valore preciso 10? Come possiamo distinguere un discostamento casuale da una truffa? Proprio per rispondere a queste domande introduciamo nuovi concetti. Come calcolare quel valore 10. Tradotto in termini matematici, il problema è risolto da quella che viene chiamata media o speranza matematica o valore atteso di una variabile aleatoria. Per darne una definizione precisa conviene distinguere le variabili aleatorie continue da quelle discrete. Se X è una variabile aleatoria (intera o discreta) che assume solo i valori x1 , x2 , . . . , xn ed inoltre pk = P (X = xk ), allora il valore atteso di X è dato da (6) E(X) = n X xk pk . k=1 Se invece X è una variabile aleatoria continua con densità di probabilità f (x), allora il valore atteso di X è dato da Z +∞ (7) E(X) = xf (x) dx , −∞ se l’integrale improprio è convergente (cosa che noi supporremo sempre verificata). 13 Formalmente il valore atteso è una media ponderata dei valori assunti da X con pesi pari alla probabilità del singolo valore. Teorema fondamentale della media. Date due variabili aleatorie X e Y risulta (8) E(X + Y ) = E(X) + E(Y ) . Dimostrazione. Limitiamoci a considerare il caso di variabili aleatorie intere per non complicare inutilmente i ragionamenti. La variabile aleatoria X + Y ha una sua distribuzione di probabilità: indichiamo con qk la probabilità che X + Y prenda il valore k. Non è semplicissimo vedere come la successione {qk } salti fuori a partire dalle distribuzioni di X e di Y . Conviene introdurre la cosiddetta distribuzione congiunta di X e Y , cioè la successione a due indici (come le matrici) ca,b = P ({X = a} ∩ {Y = b}) . Adesso possiamo scrivere qk = P (X + Y = k) = X ca,b , a+b=k dove l’ultima sommatoria è estesa a tutte le coppie di numeri interi a e b tali che la loro somma sia k. Pertanto, dalla definizione di media di una variabile aleatoria, risulta E(X + Y ) = X kqk = X k k k X ca,b = XX (a + b)ca,b a a+b=k b X X X X X X bP (Y = b) = E(X) + E(Y ) . aP (X = a) + ca,b = b ca,b + a = a b b a a b Per giustificare l’aggettivo fondamentale dato a questo teorema dobbiamo vederne qualche applicazione. Sia X il numero di successi su n lanci di moneta. Supponiamo che la probabilità di successo in ogni singolo lancio sia p. Abbiamo visto che X assume i valori tra 0 e n ed inoltre che n! P (X = k) = pk = pk (1 − p)n−k . k!(n − k)! n P kpk . Svolgere questo calcolo non è affatto semplice. Pertanto possiamo scrivere E(X) = k=0 Ragioniamo in modo diverso. Indichiamo con Xk la variabile aleatoria che conta i successi al k-esimo lancio. Chiaramente Xk può assumere soltanto i valori 0 e 1. Sappiamo anche che il valore 1 è assunto con probabilità p. Quindi E(Xk ) = 0 · (1 − p) + 1 · p = p , per ogni k , ossia il valore atteso di Xk è proprio p. Cogliamo l’occasione per sottolineare che il valore atteso non è il valore più probabile! Adesso, osservando che X = X1 + X2 + · · · + Xn , il teorema della media ci garantisce che E(X) = E(X1 ) + E(X2 ) + · · · + E(Xn ) = np , confermando il risultato immaginabile: su n lanci ci aspettiamo np successi. Il concetto di media è abbastanza intuitivo ed inoltre è cosı̀ usuale che sappiamo bene quali indicazioni ci fornisce a proposito di una variabile aleatoria. La nostra esperienza ci suggerisce anche che variabili diverse possono avere la stessa media e ciononostante caratteristiche diverse. Ad esempio, la media del consumo annuo procapite di acqua potabile può essere la stessa in due regioni diverse e non di meno queste stesse regioni possono presentare problemi diversi circa la distribuzione delle risorse idriche tra la popolazione. Ad esempio, la percentuale di abitazioni non raggiunte dalla rete idrica può essere notevolmente diversa. Quindi la conoscenza della media di una variabile aleatoria non svela ciò che potremmo chiamare la dispersione dei valori intorno alla media stessa. Insomma, stiamo cercando di 14 rispondere alla domanda precedentemente posta. Come possiamo distinguere uno scostamento dalla media dovuto al caso da uno dovuto ad una truffa, cioè ad una distribuzione di probabilità diversa da quella immaginata? La misura di dispersione maggiormente utilizzata è la varianza. La varianza di X è definita come il valore atteso del quadrato della distanza di X dalla sua media. In formule ¡ ¢ (9) V ar(X) = E (X − µ)2 , con µ = E(X) . La radice quadrata della varianza è la cosiddetta deviazione standard o scarto quadratico medio della variabile X e si scrive generalmente ricorrendo al simbolo σ p (10) σ(X) = V ar(X) . Le formule per calcolare la varianza in termini della distribuzione di probabilità nel caso discreto e della densità di probabilità nel caso continuo sono semplici conseguenze della definizione. Se X è discreta, E(X) = µ e P (X = xk ) = pk , allora X (11) V ar(X) = (xk − µ)2 pk . k Se X ha densità di probabilità f (x) e E(X) = µ, allora vale Z +∞ (12) V ar(X) = (x − µ)2 f (x) dx . −∞ Una formula (detta anche Teorema di König) utile in molti casi è la seguente (13) V ar(X) = E(X 2 ) − E(X)2 . La dimostrazione è molto semplice ¡ ¢ V ar(X) = E (X − µ)2 = E(X 2 − 2µX + µ2 ) = E(X 2 ) − 2µE(X) + µ2 = E(X 2 ) − µ2 . Tornando al nostro esempio dei 20 lanci di una moneta, possiamo calcolare la varianza del numero di successi X dalle formule appena viste. 20 20 X X 2 V ar(X) = (k − 10) pk = k 2 pk − 102 . k=0 k=0 Ancora una volta abbiamo qualche difficoltà a svolgere i calcoli. Potremmo cercare di ripetere il ragionamento fatto per calcolare il valore atteso, cioè utilizzare la scrittura X = X1 + X2 + · · · + X20 , ma ci manca una formula per la varianza di una somma di variabili aleatorie. Vedremo che questa formula esiste, è semplice, ma vale soltanto se le variabili aleatorie sono indipendenti. Due variabili aleatorie X e Y si dicono indipendenti quando sono indipendenti gli eventi {X ≤ a} e {Y ≤ b}, per ogni coppia di numeri reali a e b. In altri termini, la probabilità che X sia minore (o uguale o maggiore) di un certo numero è indipendente dal valore assunto da Y. Date due variabili aleatorie X e Y , si definisce la covarianza di X e Y tramite la formula (14) Cov(X, Y ) = E(XY ) − E(X)E(Y ) . Teorema della covarianza. Se X e Y sono variabili aleatorie indipendenti, allora Cov(X, Y ) = 0 , ovvero E(XY ) = E(X)E(Y ) . Dimostrazione. Limitiamoci a considerare variabili aleatorie discrete, dato che nel caso continuo dovremmo utilizzare qualche tecnicismo degli integrali. L’evento {XY = n} è una unione disgiunta 15 degli eventi {X = a} ∩ {Y = b} al variare dei numeri a e b tali che ab = n. Poiché X e Y sono indipendenti possiamo scrivere X P (XY = n) = P (X = a)P (Y = b) . ab=n Adesso passando alle medie otteniamo E(XY ) = X nP (XY = n) = n = XX X n n X P (X = a)P (Y = b) ab=n aP (X = a)bP (Y = b) = n ab=n X aP (X = a) a X bP (Y = b) b = E(X)E(Y ) . Teorema della varianza. Se X e Y sono variabili aleatorie indipendenti, allora V ar(X + Y ) = V ar(X) + V ar(Y ) . Dimostrazione. Questa è una banale conseguenza del risultato precedente. Infatti ¡ ¢ V ar(X + Y ) = E (X + Y )2 − E(X + Y )2 = E(X 2 + 2XY + Y 2 ) − (E(X) + E(Y ))2 = E(X 2 ) − E(X)2 + E(Y 2 ) − E(Y )2 + 2Cov(X, Y ) = V ar(X) + V ar(Y ) . Altre semplici proprietà della varianza sono (15) V ar(X + k) = V ar(X) V ar(kX) = k 2 V ar(X) , per ogni numero k. Continuiamo la nostra analisi dei 20 lanci di moneta. La variabile aleatoria X definita dal numero di successi ottenuti nei 20 lanci la vediamo come somma delle variabili aleatorie Xk che contano i successi (0 o 1) al k-esimo lancio. Le Xk sono chiaramente indipendenti e quindi il teorema della varianza ci assicura che V ar(X) = 20 V ar(X1 ). Essendo V ar(Xk ) = (0 − p)2 (1 − p) + (1 − p)2 p = p(1 − p) , ricaviamo V ar(X) = 20p(1 − p). Nel caso di una moneta equa è p = 1/2 e quindi V ar(X) = 5. Se vogliamo confrontare lo scostamento sperimentale dallapmedia, l’unità di misura da utilizzare è lo scarto quadratico medio; in questo esempio σ(X) = V ar(X) ' 2, 23. Dato che 2,23 è lo scarto quadratico medio, possiamo aspettarci che uno scostamento minore o uguale a 2σ sia del tutto normale, mentre differenze maggiori possono insospettirci. Come rendere rigorosi questi ragionamenti sarà l’argomento del prossimo capitolo. Introduciamo adesso la più nota funzione di distribuzione di probabilità di una variabile aleatoria: la distribuzione normale o Gaussiana. Una variabile aleatoria X ha distribuzione normale con media µ e varianza σ 2 se la sua densità di probabilità è data da (16) (x−µ)2 1 f (x) = √ e− 2σ2 . σ 2π 16 La figura sopra riporta i grafici della funzione f per µ = 0 e per tre diversi valori della varianza σ 2 . Valori diversi di µ comportano soltanto una traslazione della figura: il valore massimo della funzione è sempre assunto nel valore atteso µ. Per prima cosa dovremmo verificare che la funzione data è una densità di probabilità e che realmente la media e la varianza sono quelle volute. Queste affermazioni equivalgono ad espliciti calcoli che fanno intervenire integrali impropri. Alla base di tutto sta l’identità Z+∞ √ 2 e−x dx = π , −∞ che qualcuno avrà forse incontrato in precedenti corsi di matematica. La distribuzione normale è usualmente utilizzata per modelizzare l’errore commesso in una qualsiasi misurazione. La media µ rappresenta la misura esatta. Il fatto che la densità sia simmetrica rispetto a µ corrisponde all’osservazione sperimentale che l’errore è per eccesso o per difetto con la medesima probabilità. La varianza, o meglio la sua radice quadrata, cioè la deviazione standard, modula l’errore medio commesso. Al diminuire della varianza, il grafico della f diventa più ripido ed aumenta il valore puntuale in µ. Nella figura a lato è rappresentata la distribuzione di probabilità della variabile aleatoria somma dei risultati di sei dadi. La somiglianza con la densità della distribuzione normale è notevole. Nel prossimo capitolo vedremo che questa somiglianza è cosı̀ comune da dirsi appunto normale! Proprio questa particolarità rende la distribuzione Gaussiana fondamentale per la statistica. Vedremo che sarà molto importante conoscere la probabilità di eventi del tipo {|X −µ| ≤ tσ}. 17 Qui a fianco sono evidenziate le regioni le cui aree misurano tali probabilità per t = 1 e t = 2. La probabilità che X differisca dalla media per meno di σ è 0, 6827, cioè il 68,27%. La probabilità che X differisca dalla media per meno di due deviazioni standard è 0, 9545. La probabilità che X differisca dalla media per meno di tre deviazioni standard è 0, 9973. Altri numeri utili sono: il 95% dell’area del sottografico si trova a distanza inferiore di 1,96 deviazioni standard dalla media; il 99% si trova a distanza minore di 2,58 deviazioni standard dalla media. Una tabella che riporta i principali valori della distribuzione normale è riportata nell’ultima di queste pagine. 6. Disuguaglianza di Chebyshev, legge dei grandi numeri e teorema centrale Come abbiamo visto, è naturale aspettarsi che i valori di una variabile aleatoria X si dispongano intorno alla media µ(X) e che una unità di misura appropriata a X per valutare il discostamento dalla media sia la deviazione standard σ(X). Vorremmo a questo punto stimare la probabilità che X ha di differire dalla media per più di k volte σ(X). Lo strumento adatto è la cosiddetta disuguaglianza di Chebyshev. Testi diversi riportano scritture diverse del nome Chebyshev. Ciò è dovuto a scelte diverse di traslitterazione dal cirillico e non di attribuzione del risultato. P.L. Chebyshev (1821-1894) dette un enorme contributo allo sviluppo della teoria della probabilità e fu il fondatore della scuola di Pietroburgo, scuola che annoverò tra i suoi aderenti matematici come Liapunov e Markov. Disuguaglianza di Chebyshev. Sia X una variabile aleatoria e siano E(X) = µ V ar(X) = σ 2 . Allora, per ogni t > 0, risulta 1 (17) P (|X − µ| ≥ tσ) ≤ 2 . t e Dimostrazione. Supponiamo che X sia una variabile aleatoria continua con densità di probabilità f (x). Allora Z +∞ Z 2 2 σ = (x − µ) f (x) dx ≥ (x − µ)2 f (x) dx −∞ |x−µ|≥tσ Z ≥ t2 σ 2 f (x) dx = t2 σ 2 P (|X − µ| ≥ tσ) , |x−µ|≥tσ da cui segue la tesi. Nel caso in cui X sia una variabile aleatoria discreta si può procedere in modo analogo. 2 Sostituendo t nella (17) con k/σ otteniamo la versione equivalente P (|X − µ| ≥ k) ≤ σk2 . Quest’ultima implica la ben nota legge dei grandi numeri, spesso utilizzata a sproposito. Legge dei grandi numeri. Siano X1 , X2 , . . . variabili aleatorie indipendenti e con la stessa distribuzione di probabilità. Indichiamo con µ la loro media e con σ 2 la loro varianza. Allora, per ogni ε > 0, risulta ¯ ¶ µ¯ ¯ ¯ X1 + X2 + · · · + Xn ¯ ¯ − µ¯ ≥ ε = 0 . (18) lim P ¯ n→∞ n Dimostrazione. Consideriamo la variabile aleatoria Sn = X1 +X2n+···+Xn . Per il teorema fondamentale 2 della media e per il teorema della varianza, abbiamo che E(Sn ) = µ e V ar(Sn ) = σn . La tesi segue adesso dalla disuguaglianza di Chebyshev. 18 La legge dei grandi numeri permette di affermare, ad esempio, che la probabilità di successo nel lancio di una moneta è pari alla frequenza dei successi in n prove ripetute, cioè al rapporto tra il numero di successi ed il numero di prove effettuate, quando n tende all’infinito. Ciò che non indica è il numero di prove necessarie per avere una buona approssimazione. Supponiamo che la probabilità di successo in ogni singolo lancio sia p. La frequenza dei successi in n lanci è la variabile aleatoria Sn = X1 +X2n+···+Xn dove, come al solito, Xk conta . La i successi al k-esimo lancio. Abbiamo visto che Sn ha valore atteso p e varianza p(1−p) n disuguaglianza di Chebyshev ci dice che, volendo ad esempio essere sicuri al 99% (cioè disposti a sbagliare con probabilità 1/100), possiamo affermare che la differenza tra Sn e p è minore di p √ 10 p(1 − p)/ n. Se vogliamo p con un errore massimo di 0, 05, cioè 1/20, dovremo p valutare √ prendere n cosı̀ grande che 10 p(1 − p)/ n ≤ 1/20. Tale stima dipende da p, ma se osserviamo che p(1 − p) vale al più 1/4, troviamo che è sufficiente prendere n ≥ 10 000. Questa stima può essere notevolmente migliorata. Ciò non dovrebbe stupire se si tiene conto del tipo di ragionamenti utilizzati nel dimostrare la disuguaglianza di Chebyshev. L’ulteriore passo è rappresentato dal teorema centrale che, nel caso di esperimenti ripetuti, mostra la funzione di distribuzione di probabilità che si ottiene al crescere del numero degli esperimenti: la distribuzione normale. Teorema centrale. Siano X1 , X2 , . . . variabili aleatorie indipendenti e con la stessa distribuzione di probabilità. Indichiamo con µ la loro media e con σ 2 la loro varianza. Allora vale µ ¶ Zt 2 x X1 + X2 + · · · + Xn − nµ 1 √ (19) lim P ≤t = √ e 2 dx . n→∞ σ n 2π −∞ La stima fatta in precedenza che √ può essere migliorata nel seguente modo. La variabile 1 1 compare nella (19) è (Sn − µ) n/σ. Volendo trovare n tale che P (|Sn − p| > 20 ) ≤ 100 , è sufficiente scrivere µ √ ¶ √ n 1 P (|Sn − p| > ) = P |Sn − p| n/σ > 20 20σ n à ! Z10 2 x X1 + X2 + · · · + Xn − nµ n 1 √ = P > p →1− √ e 2 dx σ n 2π 20 p(1 − p) n − 10 dove abbiamo utilizzato E(Sn ) = p , V ar(Sn ) = p(1−p) e p(1 − p) ≤ 1/4. Osservando adesso la n tabella in fondo a queste note troviamo che è sufficiente prendere n/10 ≥ 2, 58, cioè n ≥ 26. A dire il vero non abbiamo affatto tenuto conto del limite che compare nel teorema centrale. Il teorema non afferma che per ogni n vale una certa cosa ma che questa vale al tendere di n all’infinito. Nella pratica si osserva che già dopo pochi lanci di una moneta equa la distribuzione di probabilità si adatta benissimo alla forma a campana della distribuzione normale. L’approssimazione è peggiore per valori di p diversi da 1/2. Nell’esempio appena fatto, la probabilità con cui eravamo disposti a sbagliare era fissata all’1%. Questo si chiama il livello di significatività del nostro test. Se il nostro test lo avevamo portato avanti per controllare l’equità di una moneta utilizzata da un amico, fissare il livello di significatività vuol dire decidere con quale probabilità siamo disposti ad accusare di truffa l’amico nel caso che la moneta sia equa. Tale numero dipende quindi dall’amicizia, dalla rilevanza del test o quant’altro: comunque sia dipende da fattori che non hanno niente a che vedere con la probabilità o la statistica. 19 I test del tipo descritto sono cosı̀ comuni che gli statistici utilizzano una terminologia particolare per due livelli di significatività specifici: 1% e 5%. Un esperimento è detto significativo se ci permette di rifiutare il modello congetturato avendo posto il livello di significatività pari al 5%; è detto molto significativo se ci permette il rifiuto con il livello di significatività pari all’1%. Un altro concetto simile al livello di significatività è quello dell’intervallo di confidenza. Tutti abbiamo sentito parlare di intervalli di confidenza quando ascoltiamo il susseguirsi di proiezioni dopo una tornata elettorale. Per chiarire il significato facciamo un esempio diverso, dove ancora interviene un processo di Bernoulli. Supponiamo che due compagnie aeree in competizione abbiano in programma un volo su una stessa tratta allo stesso orario. Entrambe sanno che il numero di passeggeri sulla tratta è costantemente 1000 e che la scelta di ogni passeggero è completamente casuale, indipendente dalle scelte altrui e che privilegia ogni compagnia con probabilità 1/2. Nessuna compagnia ha interesse a rifiutare passeggeri per mancanza di posti ma, allo stesso tempo, utilizzare aerei con un elevato numero di posti aumenta i costi per la compagnia. Per avere la certezza di non dover mai rifiutare passeggeri, l’unica possibilità è prevedere 1000 posti a sedere. Se sono disposte ad accettare una certa probabilità di rifiutare clienti, di quanto può essere ridotto il numero di posti? Per ogni compagnia il numero di richieste di biglietti per un singolo volo è una variabile aleatoria X la cui distribuzione di probabilità è quella che abbiamo già analizzato in precedenza e che abbiamo immaginato come somma di 1000 variabili Xk , ognuna con valori 0 e 1, con media p = 1/2 e varianza p(1 − p) = 1/4. Ne segue che X ha media 500 e varianza 1000/4,√cioè deviazione standard 15, 81 circa. Per il teorema centrale, la variabile aleatoria (X − 500)/ 250 ha una distribuzione di probabilità molto simile alla distribuzione normale. Se siamo interessati all’intervallo di confidenza del 95% (cioè siamo disposti a rifiutare passeggeri con la probabilità del 5%) allora dobbiamo cercare nella tabella della N (0, 1) quale è il più piccolo valore di z che fornisce un numero maggiore di 0, 45 (al valore della tabella dobbiamo aggiungere l’integrale tra −∞ e 0, che è 1/2); troviamo 1, 65 e quindi possiamo affermare che µ ¶ X − 500 95 √ P ≤ 1, 65 ≥ 100 250 e quindi 95 P (X ≤ 526, 08) ≥ . 100 Dunque è sufficiente che ogni compagnia predisponga aerei con soli 527 posti per non dover rifiutare passeggeri più del 5% delle volte. Se esigiamo una confidenza maggiore, ad esempio il 99%, allora cerchiamo il più piccolo numero che supera 1, 49 nella tabella (trovando 2, 33) e √ possiamo concludere che sono sufficienti 500 + 2, 33 250 posti a sedere sull’aereo, cioè soli 537 posti. In questo esempio l’intervallo di confidenza è [0, 537]. La confidenza è la probabilità di non sbagliare una previsione, dove la previsione è espressa dall’affermazione che la variabile X cade in un certo intervallo, detto intervallo di confidenza. Gli intervalli di confidenza possono essere unilateri (come nel nostro esempio) o bilateri (come avviene nelle proiezioni elettorali). 20 7. Statistica Il termine statistica fu introdotto da Gerolamo Ghislini nel 1647 per indicare la scienza descrittiva delle qualità ed elementi caratterizzanti degli Stati. Da allora molto è cambiato e non è affatto semplice caratterizzare oggi la statistica. Una definizione ricorrente afferma che la statistica si occupa dell’analisi quantitativa dei fenomeni collettivi, fenomeni cioè composti da un grande numero di unità elementari. Per cercare di essere più espliciti, potremmo dire che la statistica è la scienza che appronta metodi, fondati sul calcolo delle probabilità, per la raccolta, la sintesi, l’analisi, l’elaborazione e l’interpretazione di dati numerici. Con lo sviluppo dell’informatica verso la metà del secolo scorso è stato possibile gestire quantità di dati sempre più rilevanti diminuendo altresı̀ il tempo necessario per l’elaborazione. Ciò ha reso accessibili a tutti gli strumenti fondamentali della statistica ed onnipresenti i risultati di elaborazioni più o meno sofisticate di dati. Questa è la principale ragione della necessità di conoscere i metodi e strumenti basilari della statistica per ogni individuo che voglia consapevolmente partecipare alla realtà attuale. Il linguaggio della statistica è rappresentativo della sua storia: affonda le sue radici nell’analisi di fabbisogni e caratteristiche di popolazioni, si sovrappone sovente con quello della probabilità ed infine si intreccia con quello delle scienze sperimantali. Il punto di partenza di un’indagine è una popolazione (o collettivo statistico) composta di singoli individui o unità statistiche (ma anche elemento o caso) ed alcune caratteristiche o variabili (o caratteri) associate agli elementi della popolazione in esame. Una variabile si realizza in corrispondenza di ogni unità statistica in una modalità. Le modalità di un carattere devono essere • esaustive, cioè devono rappresentare tutte le possibilità • incompatibili, quando ad ogni unità è associabile una sola modalità (come le alternative in probabilità). Le variabili si dividono in qualitative, espresse da aggettivi o attributi, e quantitative se espresse da numeri. Le variabili qualitative si dividono in ordinali, quando esiste un ordine naturale e preciso tra le modalità, e nominali in caso contrario. Tra le variabili quantitative si distinguono quelle discrete e quelle continue. Una volta raccolti i dati relativi ad alcune caratteristiche di una popolazione numerosa, ci sono vari modi di presentarli. Se una variabile qualitativa o quantitativa discreta X assume le modalità x1 , x2 , . . . , xk , allora indichiamo con n1 , n2 , . . . , nk le rispettive frequenze assolute, cioè il numero di volte con cui la singola modalità viene osservata nella popolazione. Ad esempio, i dati forniti dall’ISTAT sull’età Età Maschi Femmine Totale della popolazione italiana nel 2006 vengono 0 281997 265162 547159 divulgati attraverso una tabella che riporta le 1 285961 271258 557219 frequenze assolute delle singole età, simile a 2 282708 268157 550865 quella abbozzata a fianco. Il numero 550865 3 279183 265925 545108 nella stessa riga del numero 2 indica che sono 4 280041 265457 545498 stati rilevati più di mezzo milione di abitan5 284193 268410 552603 ti con età di 2 anni. Osserviamo che l’IS.. .. .. .. . . . . TAT nella colonna delle età dopo il numero 99 1250 5400 6650 99 pone una sola casella con l’indicazione 100 100 e più 1729 8425 10154 e più. Probabilmente dovrà presto rivedere Totale 28526888 30224823 58751711 questa convenzione, dato che già nel 2006 gli ultracentenari erano 10154. Come abbiamo visto per la probabilità degli eventi, un modo efficace per rappresentare i dati è quello di un grafico ad istogrammi. Riportiamo di seguito il grafico relativo all’esempio. 21 Se avessimo un analogo grafico per la popolazione di un’altra nazione potremmo voler confrontare le due distribuzioni di frequenze, per affermare ad esempio che una è più anziana dell’altra. Chiaramente i singoli valori non forniscono nessuna informazione in proposito: si devono almeno normalizzare. Si considerano quindi le frequenze relative, ottenute dividendo la frequenza assoluta per il numero totale di individui della popolazione. Spesso si preferiscono le frequenze percentuali, che sono le precedenti moltiplicate per 100. Le frequenze relative sono ovviamente legate al concetto di probabilità. Infatti esprimono la probabilità che un individuo scelto a caso dalla popolazione realizzi quella particolare modalità (in ipotesi di equiprobabilità). Ancora più significative per un confronto sono le cosiddette frequenze cumulative. Queste possono essere definite per caratteristiche qualitative ordinali o quantitative come le frequenze di eventi che non prescrivono la modalità ma ne danno un limite (superiore o inferiore). Nel nostro esempio possiamo considerare il numero di abitanti con età maggiore o uguale a k: la distribuzione delle frequenze cumulative corrispondenti è schematizzata qui a fianco. Torniamo ad analizzare la tabella della pagina precedente. Possiamo osservare che età e sesso del singolo individuo sono variabili diverse e che quindi quella tabella non riporta soltanto le frequenze delle due variabili (sarebbero state sufficienti l’ultima colonna e l’ultima riga), ma qualcosa di più. Vengono mantenute distinte non solo le singole modalità delle due variabili ma tutte le possibili coppie di modalità. La variabile età ha 101 modalità diverse, cioè 101 possibili valori; la variabile sesso ha solo due modalità. La tabella in questione fornisce le frequenze di tutte le possibili accoppiate (e, s) e quindi 101 × 2 frequenze. Se avessimo analizzato la variabile età e la variabile regione di residenza, avremmo dovuto riportare 101 × 20 frequenze. In casi analoghi si parla di distribuzione doppia di frequenze o di distribuzione congiunta di due variabili statistiche. La rappresentazione completa può essere fornita da una opportuna matrice o da un grafico a istogrammi con più serie come quello della pagina precedente. 22 Un problema consueto in statistica è quello di cercare di descrivere la distribuzione di frequenze di una variabile su una popolazione ampia partendo dai dati ottenuti su un campione, cioè su un sottoinsieme relativamente piccolo della popolazione totale. Il campionamento, per certi versi simile a quello incontrato in probabilità, può essere effettuato in vari modi (casuale, stratificato, per quote, ecc.). Non entreremo nel merito e supporremo di avere già fissato il campione. Il problema adesso può essere diviso in due parti. Prima cercare di sintetizzare i dati raccolti in modo da evidenziare quelli più interessanti (caratteristica puramente soggettiva) e poi utilizzare i dati (o i soli indicatori di sintesi scelti) per fare delle previsioni sull’intera popolazione. Gli indicatori sintetici o caratteristici più utilizzati sono: • campo di variazione o range: quando la variabile è ordinale o quantitativa, cioè quando è possibile ordinare le possibili modalità e quindi parlare di maggiore e minore, il campo di variazione è dato dall’intervallo determinato dalla modalità minima e massima osservata sul campione; • moda o valore tipico: è definita come la modalità osservata nel maggior numero dei casi e quindi non dipende dalle altre modalità; • media: anche se solo per variabili quantitative, esistono diverse definizioni di media (aritmetica, geometrica, armonica, quadrata, ecc.); la più utilizzata in statistica è la media aritmetica; • mediana: solo per variabili ordinali o quantitative è definita come la modalità che bipartisce la distribuzione, cioè tale che una metà dei dati osservati sono maggiori o uguali e l’altra metà sono minori o uguali della mediana stessa; • percentili o quantili o centili: possono essere visti come una generalizzazione della mediana; invece di dividere i dati osservati a metà (una volta ordinati) il k-esimo percentile li divide in un k% e (100 − k)%. Il 25◦ percentile è detto primo quartile, il 50◦ percentile è la mediana o secondo quartile, il 75◦ è detto terzo quartile; • differenza interquantilica: definito per le variabili quantitative, è esattamente la differenza tra il terzo ed il primo quartile; • varianza: è definita per caratteristiche quantitative con la stessa formula incontrata per le variabili aleatorie discrete e quindi misura la differenza dalla media; • scarto quadratico medio: è la radice quadrata della varianza. La relazione tra statistica e probabilità è cosı̀ evidente che non serve giustificare l’interesse particolare che avremo nello stimare la media e la varianza delle variabili sulla popolazione. La media su un campione si chiama media campionaria e si calcola con la formula (6), dove le probabilità pk vanno sostituite con le frequenze relative, cioè con le frequenze assolute nk divise per la cardinalità del campione, oppure direttamente con la formula n (20) µ= 1X xk , n k=1 dove n indica il numero di elementi nel campione, xk le singole modalità registrate. Il teorema centrale garantisce che, all’aumentare della numerosità del campione, la media campionaria tende alla media della variabile in esame con probabilità 1. La varianza campionaria invece si definisce tramite la formula n (21) 1 X σ = (xk − µ)2 , n − 1 k=1 2 dove n indica il numero di elementi nel campione, xk le singole modalità registrate e µ la media campionaria. Osserviamo che non si divide per n, come potremmo aspettarci, ma per n − 1; chiaramente la differenza è trascurabile quando n è molto grande ma rilevante per piccoli valori di n. Ciò è dovuto al fatto che stiamo stimando contemporaneamente la media e la varianza. 23 Come conseguenza del teorema centrale abbiamo il seguente principio. Principio fondamentale della statica. Fatti n rilevamenti indipendenti di una stessa quantità X, per n abbastanza grande (n ≥ 30) la migliore previsione statistica di ogni ulteriore rilevamento si ottiene considerando X come una variabile aleatoria normale con media µ e deviazione standard σ. 8. Test di ipotesi Abbiamo già avuto modo di analizzare un test di ipotesi quando abbiamo immaginato di verificare l’equità di una moneta provando a lanciarla un certo numero di volte. Cerchiamo adesso di inquadrare l’esempio in un contesto più generale. I test riguardano la distribuzione di probabilità di una variabile aleatoria o semplicemente qualche parametro che dipende da questa (quali la media o la varianza). Inizialmente si assume che tale distribuzione (o parametro) ricalchi una previsione teorica o sperimentata precedentemente. Il test statistico mira ad accettare o rifiutare questa assunzione. Nel linguaggio statistico stiamo formulando la cosiddetta ipotesi nulla: i dati raccolti dall’indagine possono avere distribuzione (o parametro) diversa da quella assunta, ma le differenze sono imputabili alla casualità del risultato stesso, a fluttuazioni campionarie. Rifiutare l’ipotesi nulla vuol dire accettare l’ipotesi alternativa: le differenze non sono imputabili al caso e quindi la distribuzione di probabilità non è quella assunta. Nell’esempio della moneta, avevamo assunto come ipotesi nulla l’equità della moneta, da cui l’affermazione che la media dei successi su 20 lanci è 10. Abbiamo anche osservato che pretendere 10 successi su 20 lanci è molto esigente. Ci siamo quindi preoccupati di determinare se il numero di successi ottenuti era significativamente diverso da 10. Per poter prendere una decisione sulla base di un test abbiamo sempre bisogno di fissare un livello di significatività soggettivamente opportuno. Come abbiamo già detto, tale livello esprime la probabilità di rifiutare l’ipotesi nulla nel caso che sia vera. Nel caso della moneta abbiamo utilizzato la media campionaria (sul campione di 20 lanci) per stimare il valor medio della variabile numero di successi e quindi la probabilità p di successo in ogni singolo lancio. L’analisi teorica dell’esperimento ci ha portato a considerare la distribuzione binomiale con parametro p = 1/2 (che poi per semplicità abbiamo approssimato con la distribuzione normale) e conseguentemente ad individuare un intervallo ([5, 15] nel nostro esempio) in modo che la decisione se accettare o rifiutare l’ipotesi nulla con il livello di significatività prescelto è presa a seconda che la media campionaria sia contenuta o no in tale intervallo. In generale potremo utilizzare una funzione diversa dalla media campionaria che chiameremo test o statistica; l’aspetto fondamentale è che se ne conosca la distribuzione nel caso in cui l’ipotesi nulla sia vera. E proprio grazie a questa distribuzione dividiamo i valori possibili del test in due regioni: la regione di rifiuto e la regione di accettazione, con ovvio riferimento alla scelta finale. La regola di decisione del test dipende quindi dal livello di significatività e dalla distribuzione di probabilità della statistica utilizzata. Nel linguaggio statistico, un esperimento o campione che ci permette di rifiutare l’ipotesi nulla con livello di significatività del 5% (o 1%) è detto statisticamente significativo (o molto significativo). 24 Uno dei test più utilizzati è proprio quello che abbiamo già discusso: l’ipotesi nulla assegna un determinato valore alla media di una variabile aleatoria X ed il test prescelto è la media campionaria µ su successive realizzazioni di X. Nel caso in cui la distribuzione di probabilità di µ sia teoricamente nota (nell’esempio della moneta quella binomiale) le regioni di rifiuto e accettazione sono più o meno facilmente ottenibili una volta fissato il livello di significatività e l’ipotesi alternativa, che potrebbe essere unidirezionale o bidirezionale. In particolare la regione di accettazione è definita come un intervallo di confidenza (unilatero o bilatero) con livello di confidenza pari a 1 meno il livello di significatività. Basandoci sul teorema centrale, anche se la distribuzione di probabilità di µ è ignota, quando il campione in esame è sufficientemente ampio (> 100) possiamo approssimarla con una distribuzione normale con media determinata dall’ipotesi nulla (i valori medi di X e di µ sono uguali) e varianza pari alla varianza campionaria. Se invece il campione è limitato, allora si utilizza come riferimento un’altra distribuzione di probabilità: la distribuzione di Student di ordine g. La densità di probabilità di questa distribuzione è la seguente: (22) f (x) = C(g) (1 + x2 g+1 ) 2 g , dove g è un parametro detto ordine o numero dei gradi di libertà della distribuzione e C(g) è la costante giusta affinché l’integrale della f esteso a tutta la retta reale sia 1. Questa distribuzione, spesso chiamata t di Student o semplicemente t, prende il nome dallo pseudonimo usato da William Sealy Gosset nell’articolo del 1908 in cui fu introdotta. Gosset era un chimico impiegato nella famosa ditta Guinness di Dublino ed era costretto a pubblicare sotto pseudonimo a causa dell’esclusiva nel contratto con la birreria. Fu il primo a notare che, date n variabili aleatorie con la stessa distribuzione di probabilità, la variabile aleatoria normalizzata X1 + X2 + · · · + Xn − nµ √ (23) , σ n dove µ è la media e σ è la deviazione standard campionaria, può avere una distribuzione di probabilità molto diversa dalla normale standard quando n è piccolo. Il teorema centrale può essere utilizzato per dimostrare che al tendere di n all’infinito la normalizzata tende ad uniformarsi alla distribuzione normale standard ma, come abbiamo già notato, non quantifica la vicinanza per specifici valori di n. Supponendo che le variabili Xk siano tutte normali standard è possibile dimostrare che la variabile normalizzata (23) ha densità di probabilità data dalla (22) con n − 1 gradi di libertà, cioè con g = n − 1. Una variabile con distribuzione di probabilità t di Student di ordine g ha g . media nulla e varianza pari a g−2 A fianco sono riportati i grafici della densità (22) per g pari a 1, 3 e 30. La forma del grafico è molto simile ad una Gaussiana ma la funzione tende a zero molto più lentamente per x che tende all’infinito. Il valore della funzione in 0 aumenta al variare di g. Per g = 30 il grafico è indistinguibile da quello della Gaussiana standard, cioè con varianza 1. In fondo a questi appunti trovate varie tabelle, tra cui quella con i principali valori della t di Student per diversi gradi di libertà. 25 Un altro tipo di test abbastanza frequente è quello che riguarda la varianza anziché la media. Ad esempio, supponiamo di avere un certo strumento per effettuare una misurazione. La ditta fornitrice garantisce una specifica precisione. Una misura è inevitabilmente accompagnata da incertezza e quindi dovrebbe essere sempre corredata dall’indicazione dell’intervallo di indeterminazione. Pertanto la misura fornita da ogni strumento è una variabile aleatoria. Indichiamo con X la misura dello strumento in esame. L’accuratezza di uno strumento quantifica la differenza tra la media di X e la misura reale, mentre la precisione riguarda lo scostamento dalla media (da non confondere con la sensibilità e la portata di uno strumento che rappresentano il minimo e il massimo valore misurabile). Se lo strumento è accurato, ci aspettiamo che il valore medio di un discreto numero di misure ottenute sia sostanzialmente esatto. Come misura della precisione possiamo prendere lo scarto quadratico medio di X. Supponiamo adesso di avere una serie di 10 misurazioni X : 216,82 216,93 216,95 216,99 217,00 217,02 217,04 217,05 217,08 217,13 e di voler sottoporre a verifica l’ipotesi nulla: V ar(X) = 0,005 . La media campionaria della serie è 217,001, mentre la varianza campionaria è 0,00752. Quindi la deviazione standard nel campione è 0,08671 e quella ipotizzata è 0,0707. Dobbiamo decidere se la differenza riscontrata (0,00752 − 0,005 = 0,00252) è imputabile alle cosiddette fluttuazioni campionarie, oppure se è rivelatrice di una precisione dichiarata maggiore di quella reale. La decisione, come in ogni test statistico, dipenderà dal livello di significatività prescelto (e questa è la parte facile) e dalla distribuzione di probabilità del test che, nel caso specifico, è la varianza campionaria. Questo è un caso in cui possiamo dare anche una dimostrazione della scelta della distribuzione. Se l’ipotesi nulla è verificata, allora la variabile X − µ, dove µ rappresenta la media di X, può essere vista come una variabile aleatoria normale con media 217,001 e varianza 0,005. Ciò che dobbiamo determinare è la distribuzione della variabile (X − µ)2 . Indichiamo con N (x) e f (x) rispettivamente la densità di probabilità di X − µ e di (X − µ)2 . Per definizione di densità, sfruttando la regolarità di N (x) (uniforme continuità), abbiamo P (x − h ≤ X − µ ≤ x + h) . h→0 2h Analogamente, ipotizzando che anche f (x) sia una funzione regolare, possiamo scrivere √ ¡√ ¢ x−h≤X −µ≤ x+h 2P P (x − h ≤ (X − µ)2 ≤ x + h) f (x) = lim = lim , h→0 h→0 2h 2h dove √ abbiamo tenuto conto della simmetria di X − µ rispetto allo 0 (e che {a ≤ t2 ≤ b} equivale √ √ √ a {− b ≤ t ≤ − a} ∪ { a ≤ t ≤ b}). Dunque √ ¡√ ¢√ √ √ P x−h≤X −µ≤ x+h N ( x) x+h− x−h √ √ = √ f (x) = lim . h→0 h x x+h− x−h N (x) = lim Pertanto, dalla formula N (x) = √ 1 2πσ 2 x2 e− 2σ2 ricaviamo x e− 2σ2 f (x) = √ . 2πσ 2 x Per σ = 1, la densità di probabilità appena introdotta (e la corrispondente distribuzione) è molto utilizzata nei test statistici ed è comunemente chiamata distribuzione χ2 di ordine 1 o con 1 grado di libertà. In generale si definisce la distribuzione χ2 di ordine g o con g gradi di libertà tramite la sua densità di probabilità: g−2 (24) x 2 e−x/2 . χ (x) = g/2 2 Γ(g/2) 2 26 Una variabile aleatoria con distribuzione χ2 si dice semplicemente una variabile χ2 . La frequente apparizione di variabili χ2 è in parte giustificata dai seguenti risultati: (R1) Se X1 , X2 , . . . , Xn sono n variabili χ2 indipendenti con g1 , g2 , . . . , gn gradi di libertà rispettivamente, allora la loro somma è una variabile χ2 con g = g1 + g2 + · · · + gn gradi di libertà; (R2) Se X1 , X2 , . . . , Xn sono n normali standard indipendenti, allora la somma dei loro quadrati è una variabile χ2 con n gradi di libertà; (R3) Fatti n rilevamenti indipendenti di una stessa variabile normale con media µ e varianza σ 2 , la variabile (n − 1)σ 2 /σ 2 , dove σ è la varianza campionaria, è χ2 con (n − 1) gradi di libertà. A fianco sono rappresentate le densità (24) per g pari a 3, 5 e 10. Il valore massimo della funzione è assunto in g − 2. La media è g e la varianza è 2g. Al tendere di g all’infinito la funzione diventa Gaussiana. I percentili di queste distribuzioni si trovano tra le tabelle in fondo a queste pagine. Torniamo adesso al nostro test. Per il risultato (R3) citato sopra, la statistica più conveniente è il rapporto tra varianza campionaria e varianza ipotizzata moltiplicato per l’ampiezza del campione diminuita di 1, che nel nostro caso specifico diventa 0,00752 9 = 13,536 . 0,005 Questo valore va relazionato alla distribuzione χ2 con 9 gradi di libertà. Nella tabella del χ2 , alla riga corrispondente ai 9 gradi di libertà, il primo numero inferiore al valore ottenuto si trova nella colonna della significatività del 14%. Ciò indica che se il livello di significatività prescelto è inferiore al 14%, allora non dobbiamo rifiutare l’ipotesi che lo strumento abbia una precisione pari a quella dichiarata dalla ditta fornitrice. In letteratura si trovano molti altri test di ipotesi, basati su altrettante distribuzioni teoriche, che qui non tratteremo. Nel prossimo capitolo incontreremo test statistici di diverso tipo. 9. Indipendenza, correlazione e regressione Occupiamoci ora di un altro aspetto fondamentale della statistica: l’analisi dell’associazione tra due caratteristiche di una popolazione. Uno dei concetti principali di questa analisi lo abbiamo già incontrato ed è l’indipendenza tra variabili. In statistica si trovano altri concetti di indipendenza e quello che qui analizzeremo va sotto il nome di indipendenza assoluta. Due variabili o caratteri di una popolazione sono assolutamente indipendenti quando la conoscenza della modalità con cui si manifesta una delle due variabili non fornisce alcuna informazione sulle possibili modalità della seconda. Un metodo statistico per verificare l’indipendenza assoluta di due caratteri si basa sulla distribuzione congiunta o distribuzione doppia di frequenze. Come abbiamo già visto, la distribuzione doppia di due variabili può essere rappresentata graficamente oppure con una tabella, detta tabella a doppia entrata o tabella di correlazione. Facciamo un esempio. Consideriamo come popolazione gli studenti delle scuole elementari italiane che hanno partecipato al progetto Censimento a scuola promosso dall’ISTAT nel 2001. Come caratteri scegliamo il sesso X (due possibili modalità: maschio e femmina) e la zona geografica di appartenenza Y (cinque possibili modalità: nord ovest, nord est, centro, sud e isole). La corrispondente tabella a doppia entrata ha 6 righe e 3 colonne, dato che abbiamo aggiunto alle modalità previste anche una riga ed una colonna finale con i totali. L’ultima 27 colonna ci indica il numero di individui della popolazione divisi per aree geografiche e quindi rappresenta la distribuzione delle frequenze assolute della variabile Y . Questa, come parte di una distribuzione congiunta, prende il nome di distribuzione marginale del carattere Y . Analogamente l’ultima riga rappresenta la distribuzione marginale di X. Maschio Femmina Totale Nord Ovest 1355 1350 2705 Nord Est 192 188 380 Centro 484 462 946 Sud 876 814 1690 Isole 743 741 1484 Totale 3650 3555 7205 Tabella a doppia entrata delle frequenze assolute. Se invece analizziamo una colonna o riga diversa, possiamo ancora vederla come una distribuzione. Ad esempio, la terza riga fornisce le frequenze assolute del carattere X relativamente agli studenti del centro Italia. Questa distribuzione si chiama distribuzione condizionata di X alla modalità centro della variabile Y . Se le variabili X e Y fossero assolutamente indipendenti, allora le distribuzioni condizionate di X alle singole modalità di Y sarebbero tutte uguali e quindi tutte uguali alla distribuzione marginale di X. Il modo più semplice per verificare l’indipendenza assoluta di due variabili è dunque quello di osservare una tabella a doppia entrata con le frequenze relative (o percentuali) anziché le frequenze assolute. Nel caso della rilevazione precedente otterremmo distribuzioni condizionate che si avvicinano abbastanza alla distribuzione marginale di X, ma non sono esattamente uguali. Maschio Femmina Totale Nord Ovest 50,09% 49,91% 100% Nord Est 50,53% 49,47% 100% Centro 51,16% 48,84% 100% Sud 51,83% 48,17% 100% Isole 50,07% 49,93% 100% Totale 50,66% 49,34% 100% Tabella a doppia entrata delle frequenze percentuali. Quindi le due variabili dell’esempio non sono assolutamente indipendenti. Siamo nuovamente di fronte ad un risultato contrastante la nostra aspettativa e possiamo pertanto chiederci se la variazione osservata sia imputabile alle ormai note fluttuazioni statistiche oppure riveli una distribuzione del carattere sesso tra gli studenti del campione realmente dipendente dall’area geografica. In termini statistici abbiamo formulato l’ipotesi nulla le due variabili sono indipendenti e l’ipotesi alternativa esiste un legame tra le due variabili e vorremmo programmare un test di ipotesi. In questo caso il test più utilizzato è il cosidetto test del Chi-quadrato introdotto nel 1900 da Karl Pearson (1857-1936). Vediamo come è definito. Indichiamo con nij la frequenza assoluta rilevata congiuntamente per la i-esima modalità di X e per la j-esima modalità di Y , in altri termini il numero della tabella scritto nella riga e colonna corrispondenti alle modalità considerate. Indichiamo con ni ∗ la frequenza assoluta della i-esima modalità di X che si trova quindi nella riga del totale. Analogamente con n∗j indicheremo le frequenze della distribuzione marginale di Y . Sia infine n la cardinalità del campione (7205 nel nostro caso). Dividiamo il compito in passi successivi. 28 1◦ ) Si costruisce la tabella delle frequenze assolute teoriche d’indipendenza a partire dalle distribuzioni marginali. Indicate con n0ij tali frequenze si osserva che verificano la proporzione n0ij : n∗j = ni∗ : n e risultano quindi definite dalla formula ni ∗ n∗j n0ij = . n 2◦ ) Si calcolano le contingenze, cioè le differenze (nij − n0ij ) tra le frequenze osservate e quelle teoriche d’indipendenza per ogni cella della tabella. 3◦ ) Si calcola per ogni cella il quadrato della contingenza diviso per la frequenza teorica d’indipendenza. 4◦ ) Sommando i valori ottenuti per tutte le celle si ottiene il test χ2 della distribuzione congiunta in esame. Esplicitamente si ha X X (nij − n0ij )2 2 χ = . n0ij i j Come distribuzione teorica del test χ2 possiamo assumere la distribuzione χ2 di ordine 4; il numero di gradi di libertà da considerare è dato dalla formula (numero di righe − 1) × (numero di colonne − 1) . Scelto quindi il livello di significatività desiderato, osservando l’opportuna tabella in fondo a queste pagine, possiamo determinare le regole di decisione. In questo caso è naturale prendere in considerazione intervalli unilateri e pertanto la decisione sarà presa confrontando il χ2 della distribuzione congiunta in esame con il percentile (determinato dalla significatività richiesta) della distribuzione χ2 di ordine 4. Svolgiamo tutti i calcoli nel caso dell’esempio proposto. Scelto il livello di significatività del 5%, la tabella della distribuzione χ2 di ordine 4 indica come valore limite 9, 48773. Quindi decideremo di imputare al caso le discrepanze tra frequenze osservate e frequenze teoriche se l’indice χ2 della nostra tabella è inferiore a 9, 48773. Il calcolo esplicito del nostro test prevede i seguenti passaggi: Maschio Femmina Totale Nord Ovest 1370,33 1334,67 2705 Nord Est 192,51 187,49 380 Centro 479,24 466,76 946 Sud 856,14 833,86 1690 Isole 751,78 732,22 1484 Totale 3650 3555 7205 Tabella delle frequenze teoriche. Maschio Femmina Totale Nord Ovest -15,33 15,33 0 Nord Est -0,51 0,51 0 Centro 4,76 -4,76 0 Sud 19,86 -19,86 0 Isole -8,78 8,78 0 Totale 0 0 0 Tabella delle contingenze. (−15, 33)2 (−0, 51)2 (4, 76)2 (−19, 86)2 (8, 78)2 + + + ··· + + = 1, 5879 . 1370, 33 192, 51 479, 24 833, 86 732, 22 Pertanto l’ipotesi nulla è accettata al livello di significatività del 5%. La tabella riportata in queste pagine non è completa e termina al livello di significatività del 15%. Anche per tale livello l’ipotesi sarebbe stata accettata. Il primo percentile al di sotto del valore di χ2 trovato è l’ottanduesimo. χ2 = Un metodo più sbrigativo, anche se meno accurato, per verificare il grado di indipendenza assoluta tra due variabili si basa sull’indice V di Cramer. Indicati con r e c rispettivamente il numero di righe e di colonne nella tabella (totali esclusi e quindi il numero di modalità possibili delle due variabili), si definisce s χ2 . (25) V= n min{r − 1, c − 1} 29 L’indice V di Cramer è sempre compreso tra 0 e 1; vale 0 quando si ha indipendenza assoluta e vale 1 quando una delle due variabili determina univocamente la modalità dell’altra. Cioè i valori estremi sono assunti per comportamenti opposti della relazione tra due variabili. Se il valore è intermedio allora possiamo ricavarne solo un’indicazione sul comportamento più appropriato e non una presunta probabilità. Quando l’indice V di Cramer non è nullo o addirittura è vicino a 1, si parla di una più o meno evidente correlazione tra le due variabili in oggetto. Altri termini utilizzati sono quelli di covariazione e interrelazione. Gli esempi a tutti noti sono quelli in cui interviene un rapporto di causa-effetto, ma è bene osservare che l’eventuale interpretazione in senso causale di una correlazione prescinde comunque dai compiti della statistica. Se le due variabili considerate sono quantitative allora entrano in campo anche altri strumenti della statistica usati frequentemente nelle scienze sperimentali. Il primo per semplicità di realizzazione ed interpretazione è rappresentato dai grafici di dispersione, di cui la figura qui a lato è un esempio. X 0,36 0,14 0,73 0,49 0,84 0,91 0,56 0,17 0,66 0,33 0,40 0,95 0,63 0,01 0,46 0,87 0,88 0,89 0,36 0,02 0,36 0,81 0,01 0,74 0,71 0,56 0,75 Y 0,86 0,32 1,06 0,51 1,14 1,02 0,73 0,37 1,03 0,61 0,57 1,20 0,69 0,49 0,78 1,00 1,19 1,28 0,47 0,15 0,84 0,99 0,12 0,98 0,93 0,72 0,79 I valori assunti dalle variabili X e Y sul singolo individuo o caso del campione in esame vengono interpretati come coordinate in un sistema di riferimento ortogonale del piano. Il grafico di dispersione riporta i punti aventi queste coordinate. L’aspetto negativo di questo tipo di rappresentazione è la perdita dell’informazione sulle frequenze con cui i singoli valori sono rilevati. Tale difetto è statisticamente inesistente se le variabili sono continue. L’aspetto positivo è invece la propensione ad evindenziare leggi matematiche che collegano le due variabili. Immaginiamo ad esempio di disporre di 27 campioni di un certo materiale e di misurare su ognuno di essi due caratteristiche fisiche che chiameremo X ed Y per semplicità. La tabella a lato riporta le misurazioni ottenute, dove ogni riga contiene le informazioni su un singolo campione. Il grafico di dispersione corrispondente è quello sopra riportato. È del tutto intuitivo immaginare una relazione forte tra queste due variabili, cioè una legge matematica che per ogni valore osservato di X fornisce un ipotetico valore di Y sufficientemente vicino ai valori eventualmente osservati. A seconda della funzione matematica chiamata in causa si potranno effettuare calcoli diversi. Per ora limitiamoci al caso in cui la legge desiderata sia lineare. In altri termini immaginiamo di vedere i punti del grafico di dispersione addensati intorno ad una retta particolare. Tra tutte le rette del piano, cerchiamo quella che meglio si dispone nella nuvola di punti. Cerchiamo di essere più precisi. Indichiamo con xi e yi i dati ottenuti sull’i-esimo campione e con y = mx + q la generica retta del piano (ovviamente stiamo assumendo che tale retta non sia verticale). Se valesse yi = mxi + q per ogni i, allora tutti i punti del grafico di dispersione sarebbero proprio sulla retta. In generale tali equazioni non saranno verificate esattamente, ma solo con un certo scarto o errore. La retta che meglio approssima i dati raccolti è quella determinata dai valori m e q che minimizzano la funzione 27 1 X S(m, q) = (yi − mxi − q)2 , 27 i=1 cioè lo scarto quadratico medio. Questo è noto come il metodo dei minimi quadrati. 30 Per trovare gli eventuali punti di minimo della funzione di due variabili S, cerchiamo i punti critici, cioè quei valori di m e q che verificano il sistema ( ∂ S(m, q) = 0 ∂m . ∂ S(m, q) = 0 ∂q Otteniamo le equazioni 27 P xi (yi − mxi − q) = 0 i=1 27 P (yi − mxi − q) = 0 i=1 da cui ricaviamo facilmente (26) q= 27 X yi − mxi i=1 27 = y − mx , dove y e x indicano le medie campionarie di Y e X rispettivamente e da questa, sostituita nella prima equazione del sistema, 27 P (27) m= xi yi − 27x y i=1 27 P i=1 = x2i − 27x2 Cov(X, Y ) , V ar(X) dove, ricordando le formule (13) e (14), abbiamo indicato con Cov(X, Y ) e V ar(X) la covarianza e la varianza, calcolate non per le variabili X e Y ma per i dati presi in esame. Queste vengono dette covarianza empirica e varianza empirica. In particolare, la varianza empirica differisce dalla varianza campionaria per il solo fatto che qui si divide per il numero di dati, mentre nella varianza campionaria si divide per quel numero diminuito di 1. La retta y = mx + q, con m e q che verificano le (26) e (27), è detta retta di regressione di Y rispetto a X. Consideriamo il punto di coordinate (x, y), cioè l’ipotetico baricentro di un sistema di pesi identici disposti sui punti del grafico di dispersione; per la (26) la retta di regressione passa per tale punto. Scambiando il ruolo di X e Y , cioè prendendo in esame come scarti le differenze xi −(yi −q)/m tra le ascisse osservate e quelle teoriche ad ordinata fissata, si ottiene la retta di regressione di X rispetto ad Y . Riscritta nella forma x = m0 y + q 0 ricaviamo formule analoghe alle precedenti per i due coefficienti: Cov(X, Y ) . q 0 = x − m0 y con m0 = V ar(Y ) Osserviamo che la retta di regressione di Y rispetto a X è generalmente diversa da quella di X rispetto a Y . Le due rette risultano coincidenti se e solo se il prodotto dei due coefficienti angolari è 1, cioè se vale ±1 il numero (28) rxy = p Cov(X, Y ) V ar(X) V ar(Y ) detto coefficiente di correlazione lineare o coefficiente di correlazione di Bravais-Pearson. Per quantificare la bontà dell’approssimazione ottenuta con la retta di regressione potremmo calcolare il valore della funzione S(m, q) nel punto di minimo. Il numero trovato dipende chiaramente dall’unità di misura utilizzata per Y ; se per normalizzare dividiamo per V ar(Y ), allora 2 . Questo è un altro modo di introdurre il coefficiente semplici calcoli conducono al valore 1 − rxy di correlazione lineare ed inoltre chiarisce meglio il suo significato e la sua utilizzazione come misura di interrelazione (lineare) tra due variabili. 31 Si potrebbe dimostrare che il coefficiente di correlazione lineare è sempre compreso nell’intervallo [−1, 1] ed inoltre • se il suo valore è 0 allora non vi è certamente dipendenza lineare tra i due caratteri (ma non possiamo parlare di indipendenza assoluta!); • se il suo valore è positivo e relativamente vicino a 1, allora si è in presenza di una più o meno evidente correlazione diretta; • se il suo valore è negativo allora si parla di correlazione inversa. Alcuni esempi di grafici di dispersione con i corrispondenti valori del coefficiente di correlazione lineare sono riportati qui sotto. Nel grafico in alto a destra si può notare come, a dispetto del coefficiente di correlazione lineare quasi nullo, sia evidente una correlazione tra le due variabili. La funzione che può venire in mente è quadratica, cioè del tipo y = ax2 + bx + c. Quindi, per cercare la parabola che più si avvicina ai punti del grafico, il metodo precedente deve essere modificato. Questo tipo di problema è riportato su molti manuali di statistica e già implementato in diversi software. Esistono comunque classi di funzioni non lineari per le quali è possibile applicare esattamente lo stesso metodo delle funzioni lineari. Alcune di queste hanno un’importanza tale che è bene 32 analizzarle separatamente. A volte accade che il grafico di dispersione relativo a due variabili metta in evidenza una netta correlazione tra di esse con i punti che si addensano intorno ad una curva molto simile a mezza parabola. In questi casi, eventualmente dopo aver effettuato qualche cambiamento nelle unità di misura, si può congetturare una relazione del tipo y = axp . Sostituendo ad X e Y i corrispondenti logaritmi (in base e o diversa) possiamo scrivere ỹ = ln y = ln(axp ) = ln a + p ln x = c + px̃ . I calcoli precedenti ci assicurano che la scelta migliore dei parametri p e c è data da c = x̃ − pỹ con p= Cov(ln X, ln Y ) , V ar(ln X) dove x̃ e ỹ sono definiti da n 1X x̃ = ln xi n i=1 n 1X ỹ = ln yi , n i=1 e dunque sono il logaritmo delle corrispondenti medie geometriche. Prendiamo come esempio i dati contenuti nella seguente tabella. Pianeta Mer Ven Ter Mar Gio Sat Ura Net Plu distanza media dal sole 57,9 108,2 149,6 227,9 778,3 1429,4 2871,0 4504,3 5913,5 periodo di rivoluzione 7,6 19,4 31,6 59,4 374,3 929,7 2651,2 5200,4 7816,7 Questi forniscono per ogni pianeta del sistema solare la distanza media dal sole (in milioni di chilometri) ed il periodo di rivoluzione (in milioni di secondi). La relazione esistente tra queste due caratteristiche dei pianeti è collegata alla terza legge di Keplero (1619): il quadrato del periodo di rivoluzione di un pianeta intorno al sole è direttamente proporzionale al cubo del semiasse maggiore della sua orbita (che è un’ellisse per la prima legge di Keplero). La differenza tra distanza media dal sole e semiasse maggiore dell’orbita è molto piccola, data la lieve eccentricità delle orbite di ogni pianeta. Pertanto ci aspettiamo che, con buona approssimazione, il periodo di rivoluzione T sia relazionato alla distanza media dal sole D da una funzione del tipo T = aDp . Mostriamo, con l’aiuto di una tabella, i calcoli per determinare il coefficiente di correlazione lineare e l’equazione della retta di regressione. D T x = ln D y = ln T x2 y2 xy Mer 57,9 7,6 4,0587 2,0281 16,4732 4,1134 8,2317 Ven 108,2 19,4 4,6840 2,9653 21,9397 8,7928 13,8893 Ter 149,6 31,6 5,0080 3,4532 25,0797 11,9243 17,2933 Mar 227,9 59,4 5,4289 4,0843 29,4730 16,6815 22,1733 Gio 778,3 374,3 6,6571 5,9251 44,3171 35,1063 39,4438 Sat 1429,4 929,7 7,2650 6,8349 52,7804 46,7153 49,6553 Ura 2871,0 2651,2 7,9624 7,8828 63,4001 62,1380 62,7659 Net 4504,3 5200,4 8,4128 8,5565 70,7750 73,2135 71,9839 Plu 5913,5 7816,7 8,6850 8,9640 75,4291 80,3536 77,8524 medie 1782,2333 1898,9222 6,4624 5,6327 44,4075 37,6710 40,3654 Indicati con x e y i logaritmi delle distanze e dei periodi di ogni pianeta, abbiamo aggiunto tre colonne con i valori x2 , y 2 e xy. Le celle dell’ultima riga contengono la media aritmetica dei nove numeri nella loro colonna; indichiamo con E(x) la media della colonna corrispondente a 33 x e similmente per le altre colonne. Dalla formula (13), valida anche per la varianza empirica, ricaviamo V ar(x) = E(x2 ) − E(x)2 = 44, 4075 − (6, 4624)2 = 2, 6444 , V ar(y) = E(y 2 ) − E(y)2 = 37, 6710 − (5, 6327)2 = 5, 9440 , Cov(x, y) = E(xy) − E(x)E(y) = 40, 3654 − 6, 4624 · 5, 6327 = 3, 9647 . Da queste otteniamo immediatamente il coefficiente di correlazione lineare Cov(x, y) 3, 9647 rxy = p =√ = 0, 99999993 , 2, 6444 · 5, 9440 V ar(x) V ar(y) il coefficiente angolare della retta di regressione Cov(x, y) 3, 9647 m= = = 1, 4992 , V ar(x) 2, 6444 da cui possiamo dedurre q = E(y) − mE(x) = 5, 6327 − 1, 4992 · 6, 4624 = −4, 0560 . Qui sotto sono rappresentati i grafici di dispersione di T e D a sinistra (con la curva del tipo congetturato T = D1,4992 /57,7429 che meglio approssima i dati) e di ln T e ln D a destra. Nel grafico a destra è evidenziata anche la retta di regressione con la relativa equazione. I punti del grafico sono vicinissimi alla retta di regressione ed infatti, come abbiamo appena visto, il coefficiente di correlazione lineare risulta essere praticamente 1. 34 Distribuzione t di Student Nella prima colonna di entrambe le tabella sono indicati i gradi di libertà della corrispondente distribuzione, mentre nella prima riga sono indicati i livelli di significatività. Il numero 2, 22814 della tabella qui sopra nella riga corrispondente a 10 gradi di libertà e nella colonna relativa alla significatività del 5% indica che, per la distribuzione di Student di ordine 10, l’intervallo da −2, 22814 a 2, 22814 è un intervallo di confidenza al 95%. L’ultima riga della tabella qui sopra corrisponde ad infiniti gradi di libertà e quindi alla distribuzione normale standard. Nella tabella relativa alla distribuzione χ2 gli intervalli di confidenza sono invece unilateri. Il numero 9, 83659 nella sesta riga e decima colonna indica che per la distribuzione χ2 l’intervallo da 0 a 9, 83659 è un intervallo di confidenza al 92%. Distribuzione χ2 35 Distribuzione normale standard La tabella mostra i valori, approssimati alla quinta cifra decimale, della probabilità degli eventi {0 ≤ X ≤ z} se X ha distribuzione normale standard (media 0 e varianza 1), cioè l’area della regione evidenziata in figura. L’estremo z è la somma dei numeri in grassetto all’inizio delle corrispondenti righe e colonne. Indicato con T (z) il valore fornito dalla tabella per l’estremo z, sfruttando la simmetria della funzione Gaussiana G(x) possiamo calcolare l’integrale esteso ad un qualsiasi intervallo. Ad esempio avremo: 1,24 Z Z0 G(x) dx = T (1, 24) = 0, 39251 = G(x) dx 0 2,37 Z −1,24 G(x) dx = T (1, 1) + T (2, 37) = 0, 36433 + 0, 49111 = 0, 85544 −1,1 1,67 Z G(x) dx = T (1, 67) − T (1, 32) = 0, 45254 − 0, 40658 = 0, 04596 . 1,32