elementi di statistica_Welfare
Transcript
elementi di statistica_Welfare
Statistica descrittiva Francesco Truglia [email protected] 1 Obiettivi della lezione: •Le due statistiche:descrittiva e inferenziale •Popolazioni, collettivi e unità statistiche •Statistica descrittiva: caratteri st. e modalità •Frequenze: tabelle e grafici •Indici di posizione, di dispersione e di forma •Media e varianza di dati raggruppati •Correlazione tra variabili •Retta di regressione 2 Statistica Statistica Descrittiva Descrittiva Induttiva Induttiva Ho un insieme di dati e li voglio descrivere, sintetizzare e commentare Ho un insieme di dati e li utilizzo per fare inferenza. 3 Popolazione e Unità statistiche Popolazione: non ha un significato solo demografico. Ma è l’insieme delle unità statistiche. Unità statistica: elemento base della popolazione o del collettivo statistico. E’ necessario definire esattamente le caratteristiche dell’unità st. Dalla connotazione dell’unità( intensione) dipende la denotazione (estensione) del collettivo Dall’Unità st. astrattaÆ Caso concreto 4 i caratteri statistici Caratteri statistici: diversi aspetti dell’Unità St. ritenuti rilevanti ai fini della conoscenza del fenomeno che vogliamo analizzare. L’unità st. è un “oggetto” complesso, multidimensionale e possibile analizzarne solo alcuni aspetti. E’ il ricercatore che sceglie cosa rilevare in base ai suoi interessi. 5 caratteri e modalità Le modalità sono i diversi aspetti che un carattere può assumere. h= N° modalità del carattere. Alcune volte h è noto a priori altre volte no. Sex M F M ed F sono le 2 modalità cel carattere sesso 6 caratteri e modalità Le modalità di un carattere possono esprimersi sotto forma numerica o come categorie •Numeriche •Categoriali Variabili Mutabili Discrete Esempio 1 Continue Esempio 2 Sconnesse Esempio 3 rettilinee Esempio 4 7 caratteri e modalità Le variabili: Es.1 discrete; Es.2 continue. Esempio 1: N° componenti famiglia: 1 2 3 4 5 6 7 8 N° posti letto ospedale: 125 128 136 547 874 1258 2581 Residenti comune: 854 1258 5890 6587 15897 178.985 3.58.211 458.547 2.427.258 2.589.211 Esempio 2: precipitazioni in pollici a Torino nel mese di aprile (20 giorni) 2.9 3.7 3.0 3.2 3.3 4.0 3.2 3.9 1.0 2.1 2.2 2.9 5.4 2.9 3.5 1.1 0.4 3.6 4.0 Altezza maschi It.: 175,3 168,4 187,1 158,4 167,5 170.2 174,6 175.6 8 caratteri e modalità Le mutabili: Es.1 sconnesse; Es.2 rettilinee. Esempio 1: Esempio 2: Sesso:M, F. Corso di Laurea: Med. Ing. Sc.Pol. Giur. Stat. Mat. Provincia: Cz, Mi, Na, Pa, RM Religione. Cat.,Mus.,.Ebreo, Indù, Taoista Giudizio:Suff. Buono, Ottimo Posizione graduatoria: I II III IV V Classe Soc.: Bassa, Media Alta Tit. Studio: Nessuno, Elem., Med.inf., Med.sup., Laurea 9 Frequenza Si considerino N dati da analizzare. I dati vengono suddivisi i un opportuno numero di classi; per ogni classe si ha: Frequenza assoluta: ni numero di oggetti del tipo i-esimo 0 ≤ ni ≤ N ∑n i =N i ni Frequenza relativa: f i = N 0 ≤ fi ≤ 1 ∑ i ni f i = ∑ =1 i N 10 Frequenza percentuale: è la freq. relativa moltiplicata per 100 fi ⋅100 Ni Frequenza cumulativa assoluta: è la somma della freq. assoluta + la freq. cumulativa assoluta del dato precedente. i N i = N i −1 + ni = ∑ nk k =0 Frequenza cumulativa relativa: 0 ≤ Ni ≤ N Fi è la somma della freq. relativa + la freq. cumulativa relativa del dato precedente. i Fi = Fi −1 + f i = ∑ f k k =0 0 ≤ Fi ≤ 1 11 Tabella di distribuzioni di frequenze: Caso discreto: Esempio 1 Le classi sono: Ak = { xi | xi = k} N.B. : la somma delle freq.ass. = n° tot di osservazioni la somma delle freq.rel. =1 la somma delle freq.perc.=100 12 Tabella di distribuzioni di frequenze: Caso continuo: Esempio 2 Dati 2.9 3.7 3.2 4 3.9 2.1 2.9 2.9 1.1 0.4 3 3.3 Classi 0<x<=0,5 0,5<x<=1 1<x<=1,5 1,5<x<=2 2<x<=2,5 2,5<x<=3 3<x<=3,5 3,5<x<=4 4<x<=4,5 4,5<x<=5 5<x<=5.5 freq ass 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 5.5 TOT 1 2 1 0 2 4 4 5 0 0 1 20 freq rel freq cumul freq cumul relativa freq perc freq perc cumul 0.05 1 0.05 5 5 0.1 3 0.15 10 15 0.05 4 0.2 5 20 0 4 0.2 0 20 0.1 6 0.3 10 30 0.2 10 0.5 20 50 0.2 14 0.7 20 70 0.25 19 0.95 25 95 0 19 0.95 0 95 0 19 0.95 0 95 0.05 20 1 5 100 1 100 Le classi non sono scelte in modo univoco. Ogni osservazione deve appartenere a 1 sola classe! N.B. Nelle tabelle di frequenza nel caso di variabili continue perdo dell’informazione ma ho un guadagno nella leggibilità dei dati. Nel caso di variabili discrete non c’è perdita di informazione! 13 Tabella di distribuzioni di frequenze: Caso variabili categoriche: Esempio 3 I dati sono già raggruppati in classi N.B. Per variabili categoriche NON ha senso parlare di frequenze cumulative!!! 14 Tabella di distribuzioni di frequenze: Excel La funzione FREQUENZA calcola la frequenza relativa di occorrenza dei valori di un intervallo e restituisce una matrice verticale di numeri. Sintassi: FREQUENZA(matrice_dati; matrice classi) tale istruzione viene inserita come formula matrice dopo aver selezionato un intervallo di celle adiacenti nel quale dovrà apparire il risultato. Il numero di elementi nella matrice restituita è maggiore di un’unità rispetto al numero di elementi contenuti in matrice_classi 15 EXCEL: Formule in forma di matrice Una formula in forma di matrice può eseguire più calcoli e restituire uno o più risultati. Procedura: selezionare la cella o le celle in cui si desidera immettere la formula, creare la formula e premere CTRL+MAIUSC+INVIO 16 Grafici di distribuzioni di frequenze: Istogramma Caso discreto: Esempio 1 Si fissano sull’asse delle ascisse i valori delle classi e, in corrispondenza, si disegna una barra la cui altezza è pari alla frequenza (relativa o assoluta) L’altezza ha la stessa unità di misura della probabilità teorica 17 Istogramma Caso continuo: Esempio 2 Si disegnano rettangoli adiacenti, le cui basi sono gli intervalli che definiscono le classi e le altezze sono date dalle frequenze (relative o assolute) L’altezza NON ha la stessa unità di misura della probabilità teorica L’AREA ha la stessa unità di misura della probabilità l’altezza del rettangolo deve essere proporzionale al quoziente tra la frequenza della classe e l’ampiezza dell’intervallo che la definisce 6 5 4 Serie1 3 2 Istogramma delle frequenze assolute 1 0 1 2 3 4 5 6 7 8 9 10 11 18 Istogramma: quante classi scelgo? Taglia campione: n=100 6 classi 10 classi NORMAL NORMAL 26 50 24 45 22 20 35 18 30 16 No of obs No of obs 40 25 20 14 12 10 15 8 10 6 4 5 0 -3 -2 -1 0 1 2 3 Expected Normal Upper Boundaries (x <= boundary) 2 0 -3,0 -2,5 -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 2,5 Expected Normal Upper Boundaries (x <= boundary) NORMAL 13 12 Regola Regola pratica: pratica: 11 10 9 No of obs 8 7 n.classi n.classi≈≈ √n √n 6 5 4 3 2 1 0 -2,8 -2,4 -2,0 -1,6 -1,2 -0,8 -0,4 0,0 0,4 0,8 1,2 1,6 2,0 -2,6 -2,2 -1,8 -1,4 -1,0 -0,6 -0,2 0,2 0,6 1,0 1,4 1,8 2,2 Expected Normal 36 classi 19 Grafici di distribuzioni di frequenze: Diagramma a barre /di Pareto: Esempio 3 Viene utilizzato nel caso di distribuzioni categoriche, ad ogni classe corrisponde una barra la cui altezza ne indica la frequenza mentre la base (uguale per ogni classe) non ha significato. Ogiva: grafico delle frequenze cumulative di v. numeriche (discrete o continue) Sulle ordinate si riportano le frequenze cumulative Sulle ascisse si riportano (caso discreto) i valori osservati (caso continuo) gli estremi degli intervalli di variabilità Si uniscono con una spezzata i punti ottenuti. Es1 Es2 20 EXCEL: ANALISI DATI STRUMENTI DI ANALISI è un insieme di strumenti di analisi dei dati che consente di ridurre i passaggi necessari allo sviluppo di complesse analisi statistiche. Forniti i dati e i parametri per ciascuna analisi, lo strumento utilizzerà le funzioni macro statistiche appropriate, visualizzando i risultati in una tabella di output. Per visualizzare un elenco degli strumenti di analisi: scegliere Analisi dati dal menu Strumenti. Se tale comando non è visualizzato, dal menu Strumenti selezionare Aggiunte… e scegliere Analisi dati. 21 EXCEL: Strumento di analisi Istogramma Consente di calcolare le frequenze individuali e cumulative per un intervallo di celle e di classi di dati. Opzioni della finestra di dialogo Istogramma: •intervallo di input: immettere il riferimento di cella per l’intervallo di dati da analizzare •intervallo di classe (facoltativo): immettere un intervallo di celle contenente un insieme di valori limite che definiscano gli intervalli delle classi •intervallo di output: immettere il riferimento della cella superiore sinistra della tabella di output 22 STATISTICA MONOVARIATA 23 Principali indici statistici I grafici finora analizzati ci danno informazioni qualitative; possiamo quantificarle ricorrendo ai seguenti indici. n osservazioni numeriche Siano x1 , x2 ,..., xn Moda di sintesi INDICI MEDIE LASCHE Mediana Quantili MEDIE ANALAITICHE SCARTO QUADRATICO MEDIO di dispersione VARIANZA RANGE di forma ASIMMETRIA (SKEWNESS) CURTOSI ( KURTOSIS) 24 Indici di sintesi: le medie Due tipi di medie: Lasche o di posizione. Si possono utilizzare anche per mutabili e prendono in considerazione solo alcune modalità della distribuzione. Analitiche o di calcolo. Solo per variabili. prendono in considerazione tutte le modalità della distribuzione. 25 Indici di sintesi: le medie Mutabili indici sconnesse rettilinee Analitiche Lasche Variabili discreti continui no no si si moda si si si si mediana no si si si quantili no si si si 26 Medie lasche o di posizione: MODA E' definita come il valore che ha la frequenza più alta. Se la distribuzioni è in classi la classe modale è quella con la più alta densità di frequenza D=ni/a(frequenza classe/ ampiezza classe) MEDIANA Valore che nell’ordine crescente supera il 50% delle modalità ⊂ed è superato dal rimanente 50%. Come si calcola: 1. ordinare le modalità; 2. trovare la posizione mediana.Due casi : n n ; +1 2 2 n +1 b) N dispari Pme = 2 a) N pari Pme = 27 3. individuare il valore Xi che corrisponde alla Pme.Ne caso di distribuzioni di frequenze calcolare le f.cum.(Ni) È individuare la prima fr.cum che contiene Pme. Xi ni Ni 1 6 6 5 4 10 8 10 20 15 12 32 20 5 37 23 6 43 25 10 53 53 N dispari Pme=(N+1)/2=27 Pme è contenuta nella Ni=32 per cui Me=15 28 4. se la distribuzione è in classi, individuata la classe mediana, per trovare il valore mediano è necessario fare l’interpolazione. classi 10-20 20-30 30-40 40-50 50-60 ni 5 10 12 8 4 39 5 15 27 35 39 d' 27 b 20 15 a c c' Pme=20 classe mediana 30-40 30 In alternativa si può utilizzare la seguente formula: ( Pme − N r −1 ) ar Me = xr −1 + nr Xr estremo inferiore classe Md;Nr-1 fr. cum. Classe precedente a quella med; nr fr. cl med; a ampiezza cl. med Me 40 ac/bc=ac'/d'c' ac=x bc=20-15 ac'=40-30 X=10*5/8=6,25 d'c'=27-15 Me=30+6,35=30,25 29 proprietà della mediana: ∑X i − Me ni < ∑ X i − K ni QUANTILI Sono indici di posizione e dividono la distribuzione in quanti. Per calcolare i quantili è necessario seguire la stessa procedura che si segue per il calcolo della mediana. Quartini:dividono la distribuzione in quarti. Q1=il valore che nell’ordine crescente divide la distribuzione in due parti supera il 25% delle modalita’ ed e’ superato dal restante 75% PT1=N/4. Q2= il valore che nell’ordine crescente divide la distribuzione in due parti supera il 50% delle modalita’ ed e’ superato dal restante 50% Pq2=2*N/4. Q3=il valore che nell’ordine crescente divide la distribuzione in due parti supera il 75% delle modalita’ ed e’ superato dal restante 25% Pq3=3*N/4. Q4=il valore che nell’ordine crescente supera il 100% delle modalita’ Pq4=4*N/4. 30 Terzili:dividono la distribuzione in terzi. T1=il valore che nell’ordine crescente supera il 33,3% delle modalita’ Pt1=N/3. T2= il valore che nell’ordine crescente supera il 66,6% delle modalita’ Pt2=2*N/3. T3=il valore che nell’ordine crescente supera il 100% delle modalità Pt3=3*N/3. Decili:dividono la distribuzione in decimi. D1=il valore che nell’ordine crescente supera il 10% delle modalita’ Pd1=N/10. D2= il valore che nell’ordine crescente supera il 20% delle modalita’ Pd2=2*N/10. D3=il valore che nell’ordine crescente supera il 30% delle modalità Pd3=3*N/10. . . D10=il valore che nell’ordine crescente supera il 100% delle modalità Pd10=3*N/10. 31 Centili:dividono la distribuzione in decimi. C1=il valore che nell’ordine crescente supera il 1% delle modalita’ Pc1=N/100. C2= il valore che nell’ordine crescente supera il 2% delle modalita’ Pc2=2*N/100. C3=il valore che nell’ordine crescente supera il 30% delle modalità Pc3=3*N/100. . . C100=il valore che nell’ordine crescente supera il 100% delle modalità Pc100=3*N/100. 32 Medie analitiche Le medie analitiche sono riconducibili alla media di potenza s. Ms = s s x ∑ i ni N s può avere un qualsiasi valore purché intero. Se s = -1ÆMs = M-1 Media Armonica. Se s = 0ÆMs ÆM0 Media Geometrica. Se s = 1ÆMs = M1 Media Aritmetica. Se s = 2ÆMs = M2 Media Quadratica E cosi via. 33 ARITMETICA La media aritmetica ci fornisce un valore che sostituito ad ogni modalità ne lascia invariata la somma. n h M= ∑x i =1 N i semplice M = ∑xn i i =1 N i pondrata quando la distribuzione e’ in classi calcolare il valore centrale XC = Xinf + Xsup 2 34 Es.1 MediaSemplice Es.1 Media ponderata Es.1 classi Età classi 25 Età (Xi) ni 25 Xcni 25 -26 5 25,5 127,5 2 50 28-30 3 29 87 26 3 78 32-35 2 33,5 67 26 28 2 56 28 30 1 30 32 1 32 35 1 35 10 281 26 28 30 32 35 10 Media 281,5 28,15 281 N=10 Media Xc 25 26 Totale Xini ni 28,1 Media 28,1 35 Proprietà della media aritmetica La media aritmetica gode delle seguenti proprietà: X min ≤ M 1 ≤ X max 1. internalità: 2. traslativa: la M1 varia in modo uniforme M1+ h = ∑ Xi + h N 3. omogenea: la M1 varia in modo proporzionale M 1 * h = ∑ Xi * h N 36 4. associativa: la M1 non varia se ha più sottogruppi della distribuzione viene sostituito il loro valore medio Mm * Nm + Mf * Nf M1 = Nm + Nf Le quattro proprietà tranne quella traslativa valgono per tutte le medie analitiche. Oltre a queste quattro proprietà le medie analitiche godono anche di altre due importanti proprietà degli scarti. 37 Scarto è la distanza tra le variabili Xi ed una costante k. Quando k= M1 allora parleremo di scarti dalla media. Due proprietà degli scarti: 1°.proprietà: la somma algebrica degli scarti tra le modalità Xi e la M1 è uguale a zero n ∑ ( Xi − M )ni = 0 i =1 2°.proprietà: la somma algebrica degli scarti al quadrato tra le modalità Xi e la M1 è uguale ad un minimo, è cioè sempre minore della somma al quadrato degli scarti tra le modalità Xi ed un valore k scelto a caso. n n ∑( Xi − M ) ni ≤∑( Xi − K) ni i =1 2 2 i =1 38 Ci fornisce un valore che sostituito ad ogni modalità Xi ne lascia invariata la somma degli inversi. ARMONICA M -1 = N 1 ∑x i → semplice GEOMETRICA M0 = h h Ci fornisce un valore che sostituito ad ogni modalità Xi ne lascia invariato il prodotto. ∏ xi semplice i =1 N M -1 = → ponderata ni ∑x i M0 = n n ni x ∏ i ponderata i =1 39 Il calcolo della media geometrica richiede l’uso dei logoritmi. LOGORITMO: esponente da dare alla base per ottenere un numero. x BASE = NUMERO I log. Usati in questo caso hanno base 10. quattro proprietà: 1. logA*B=logA+logB; 2. logA/B= LogA-logB; 3. logAx= x logA; 4. Logn√A=1/n log A Utilizzando queste proprietà possiamo linerizzare l’espressione della media geometrica trasformandola in log Mo. n log x ∑ logMo = i i N Calcolata LogMo è necessario trasformarla in numero 40 Ci fornisce un valore che sostituito ad ogni modalità Xi ne lascia invariata la somma dei quadrati. QUADRATICA M2 = 2 xi ∑ → semplice N Xi ni 5 10 15 20 25 30 X in i 8 5 12 6 4 2 37 ∑ xi n 2 M2 = 40 50 180 120 100 60 550 n i/X i 1 ,6 0 ,5 0 ,8 0 ,3 0 ,1 6 0 ,0 7 3 ,4 2 6 6 6 7 M1 1 4 ,8 6 4 8 6 M -1 1 0 ,7 9 7 6 7 i N lo g X i 0 ,6 9 8 9 7 1 1 ,1 7 6 0 9 1 1 ,3 0 1 0 3 1 ,3 9 7 9 4 1 ,4 7 7 1 2 1 7 ,0 5 1 1 5 3 → ponderata 2 n ilo g X i 5 ,5 9 1 7 6 5 1 4 ,1 1 3 1 7 ,8 0 6 1 8 5 ,5 9 1 7 6 2 ,9 5 4 2 4 3 4 1 ,0 5 7 0 4 Xi ni 200 500 2700 2400 2500 1800 10100 Mo 1 2 ,8 7 2 1 1 M2 1 6 ,5 2 1 8 9 1 ,1 0 9 6 5 lo g M o 41 Relazione tra le medie Tra le medie analitiche esiste la seguente relazione: M -1 ≤ M 0 ≤ M 1 ≤ M 2 la seguente relazione è sempre valida a condizione che almeno una delle modalità Xi sia diversa dalle altre S Ms 18 16 14 12 10 8 6 4 2 0 -1 0 1 Ms -1 10,79767 0 12,87211 1 14,86486 2 16,52189 2 42 Indici di dispersione: Se le medie ci forniscono una sintesi dei dati Gli indici di dispersione ci dicono quanto la media, e la sintesi da essa operata, è rappresentativa dei dati. La capacità rappresentativa della media è in relazione al livello di variabilità della distribuzione. 43 Variabilità, dispersione e mutabilità Si parla di variabilità e dispersione nel caso di variabili statistiche Æseriazioni st. Mentre si utilizza il termine mutabilità quando si ha a che fare con mutabiliÆserie st. A differenza del concetto di media quello di variabilità ,dispersione e mutabilità possono essere espressi non solo in termini assoluti. 44 Variabilità e dispersione Questi indici possono esprimersi in tre diversi modi: 1. Assoluti. Si esprimono nella stessa unità di misura o negli stessi termini del carattere. 2. Percentuali. Sono indici adimensionali e prescindono dall’unità di misura del carattere permetto di confrontare la variabilità tra collettivi non omogenei. 3. Relativi. Si esprimono in numeri puri, e permettono di quantificare quanto è grande la dispersione o la variabilità all’interno di un collettivo. 45 Variabilità e dispersione 1.Assoluti: CAMPO DI VARIAZIONE: RANGE Indici immediato ma molto rozzo. Tiene conto di solo due valori, quelli estremi per cui può portare a delle informazioni distorte. DIFFERENZA INTERQUARTILICA Cv= xmax -xmin D i= Q3 –Q1 Tra il primo ed il terzo quartile “cadono” il 50% dei casi.Questo indice non è soggetto come il precedente alla “fluttuazione” dei valori estremi. Anche questo indice, tuttavia può produrre distorsioni 46 ES. Xi ni Ni 1 2 3 4 5 6 Pq1 Pq3 6 20 2 2 1 1 32 8 24 6 26 28 30 31 32 Q1=2 Q2=2 Di=2-2=0 DIFFERENZA IN MEDIA Questo indice è più accurato dei due precedenti in quanto pende in considerazione tutte le midalità Xi calcolando le differenze, in valore assoluto tra ogni una di esse e tutte le altre. La differenza in media ci dice quanto in media ogni Xi si discosta da ogni Xj Due versioni: 1. Senza ripetizione. Non considero gli scarti = 0; 2. Con ripetizione. Considera gli scarti = 0. 47 n 1. ∆ = ∑∑ | Xi − Xj | i =1 j =1 N ( N − 1) n 2. ∆ r = n n → semplice; ∆ = ∑∑ | Xi − Xj |ninj i =1 j =1 n ∑∑ | Xi − Xj | i =1 j =1 N 2 ni 8 5 12 6 4 2 37 nj Xi\Xj 5 10 15 20 25 30 n N ( N − 1) n → semplice; ∆ r = 8 5 0 200 960 720 640 400 2920 5 10 200 0 300 300 300 200 1100 ∆ = 8,26 12 15 960 300 0 360 480 360 1200 → ponderata n ∑∑ | Xi − Xj |ninj i =1 j =1 N 6 20 720 300 360 0 120 120 240 4 25 640 300 480 120 0 40 40 2 2 30 400 200 360 120 40 0 5500 → ponderata 37 2920 1100 1200 240 40 5500 48 Gli indici visti fino ad ora ci forniscono indicazioni sulla variabilità senza tener in considerazione gli indici di sintesi. Sulle medie sono costruiti gli indici di dispersione, i quali ci forniscono una misura della distanza media tra ogni Xi e le medie. Indichiamo con S= Xi-k lo scarto tra le modalità e una valore costanre quando k= media avremo gli scarti dalla media. Se la Media è quella aritmetica allora ricordando le due proprietà degli scarti si ha: DEVIANZA Dev(x) Ci fornisce una misura della dispersione o “inerzia” totale. n Dev( X ) = ∑ ( Xi − M ) → semplice 2 i =1 n Dev( X ) = ∑ ( Xi − M ) ni → Ponderata 2 i =1 Sviluppando il quadrato di binomio la Dev(X) può essere scritta cosi: Dev(x)= ΣXi2ni-NM12 49 Varianza Var(x) σ2 Dividendo la devianza per la numerosità N si ottiene la varianza. Questo è un indice medio che ci dice quanto ogni modalità Xi in media si discosta dalla media. Basandosi sugli scarti al quadrato la Var(X) ci fornisce una distanza media “amplificata”. n σ2 = ∑ ( Xi − M ) i =1 N n 2 → semplice σ2 = 2 ( ) Xi M ni − ∑ i =1 N → ponderata La varianza può essere espressa anche come la differenza tra la la differenza tra il quadrato della media quadratica e la media aritmetica al quadrato. σ 2 = M22- M12 50 Media e varianza: Media uguale Deviazione Standard Diversa Istogramma 80 70 60 50 40 30 20 10 0 Frequenza Frequenza 200 150 100 Frequenza 50 9 6 3 0 8 3, Media=2 Varianza=1.33 -3 2 3, Classe -6 6 4 1, 2, 8 0, 2 2 0 0, Frequenza Istogramma Classe Media=2 Varianza=4 51 Scarto quadratico medio o deviazione standard σ Lo Sqm ci fornisce una misura media della dispersione, espressa negli stessi termini delle modalità Xi. Lo Sqm è la radice quadrata della varianza. n σ = ∑ ( Xi − M ) i =1 N n 2 → semplice σ= ∑ ( Xi − M ) i =1 N 2 ni → ponderata TEOREMA DI BIEYNAME-CHEBYCHEV Se si conosce la media e lo sqm di una distribuzione fissato un valore k>1 è possibile calcolare la fr dei valori Xi compresi tra M1-kσ ed M1+kσ è uguale o maggiore di 1-1/k2 fr {M − k σ ≤ Xi ≤ M + k σ } ≥ 1 − 1 k2 52 Es. Reddito medio M=22mila € sqm=8 mila €. Fissato un valore k=1.5 fr {22 − 1.5 * 8 ≤ Xi ≤ 22 + 1.5 * 8} ≥ 1 − 1 = {10 ≤ Xi ≤ 34} ≥ 0.555 2 1 .5 Almeno il 55,5% delle modalità (redditi) è compreso tra 10 e 34 mila €. M sq m 22 k 8 M -k σ 0 ,5 1 1 ,5 2 2 ,5 3 1 -1 /k M + kσ 18 14 10 6 2 -2 26 30 34 38 42 46 2 -3 0 0 ,5 5 5 5 5 6 0 ,7 5 0 ,8 4 0 ,8 8 8 8 8 9 53 Scarto semplice medio SSM Lo SSM ci fornisce la media aritmetica degli scarti in valore assoluto trale modalità Xi e un valore medio. Lo SSM può essere calcolato rispetto alla M1 (SSM1) o rispetto alla mediana (SSMe). SSM 1 ∑ = | xi − M | N → semplice SSM 1 = ∑ | xi − M | ni N → pondrata Lo SSM1< Sqm in quanto il primo è media aritmetica degli scarti e il Secondo è media quadratica degli scarti. Lo Sqm, a differenza dello SSM1, utilizza gli scarti al quadrato per cui da maggior risalto ai grandi scarti e sottoridimensiona i piccoli scarti. Lo Scarto semplice medio è da preferire quando si utilizza come indice di sintesi la mediana in quanto: Xi − Me ni = minimo ∑ Per cui lo SSMe= ∑ SSM = | xi − M | ni N 54 Scomposizione della devianza Consiste nello scomporre la devianza al fine di individuare quali sono le fonti della variabilità. Variabilità distinta in Interna (Dev(W)) e variabilità Esterna (Dev(B)). La Dev(W) rappresenta la variabilità non Attribuibile a fattori esterni ma interna ad ogni gruppo. La Dev(B) Rappresenta, al contrario, la variabilità dovuta al fattore in base al quale si sono formati i gruppi. SIMBOLI M media aritmetica dell’intero collettivo; Mj media aritmetica del gruppi (j=1,2,3..k) Dev(T) devianza totale = Σ(Xi-M)2niÆ ΣXi2ni - NM2; Dev(W) devianza interna = Σ(Xij-Mj)2niÆDev(Xi1)+Dev(Xi2)….Dev(Xik) Dev(B) devianza esterna = Σ(Mj-M)2nj. La devianza gode della proprietà dell’additività per cui: Dev(T)=Dev(W)+Dev(B) 55 Es. 2 Xa Xa 2 5 6 8 9 5 4 Somme X 2 Somme X Medie Mj Nj Dev(T) = Dev(B) = Dev(W) 2 Xb Xb 4 25 36 64 81 25 16 39 3 2 3 3 5 6 4 2 28 251 5,6 7 9 4 9 9 25 36 16 4 5 4 4 6 2 426-20*4,4 2 2 2 (5,6-4,4) *7+(3,5-4,4) *8+(4,2-4,4) *5 25 16 16 36 4 Totali 21 103 3,5 8 2 2 Xc Xc 72 4,2 5 88 426 4,4 20 38,8 16,76 22,04 56 2.Percentuali: Il confronto tra la dispersione rilevata su collettivi non omogenei non può essere effettuata con indici assoluti di dispersione. A tale scopo si ricorre ad indici adimensionali tra questi: Cv = σ M * 100 3. Relativi: Gli indici relativi sono numeri puri e ci permettono di stabilire quanto è grande la dispersione all’interno del collettivo. Si ottengono rapportando Ogni indice di dispersione, per es. Sqm, al valore massimo che lo stesso indice può assumere e che corrisponde alla massima dispersione. Questi indici possono avere un valore compreso tra 0 e 1. 57 Per calcolare il valore massimo che un indice di dispersione può avere si Opera sulla cosi detta distribuzione masimante. Una distrubuzione teorica nella quale la dispersione è massima. Per costruire la distribuzione massimante è necessario ridistribuire le frequenze tra due sole modalita l=Xmin e L= Xmax. In questo modo ad ogni unità del collettivo sarà imputata la modalità più bassa o quela più alta. Per tanto è necessario calcolare( h) numero di unità che saranno imputate ad (l),ed N-h numero di unità alle quali andrà (L). Xi ni 5 10 15 20 25 30 M Sqm 2 Xini 14 18 25 20 15 8 100 70 180 375 400 375 240 1640 (Xi-M) ni 1819,44 737,28 49 259,2 1109,4 1479,68 5454 Xi l L ni h N-h N 16,40 7,38512 58 Calcolo di h lh + L( N − h) = M → lh + L( N − h) = MN → lh + LN − Lh = MN → N lh − Lh = MN − LN → h(l − L) = N ( M − L) → h= N ( M − L) l−L Xi ni 5 10 15 20 25 30 2 Xini 14 18 25 20 15 8 100 70 180 375 400 375 240 1640 (Xi-M) ni 1819,44 737,28 49 259,2 1109,4 1479,68 5454 Xi ni 5 30 54 46 100 59 Sulla distribuzione massimante possono essere calcolati i valori massimi degli indici di dispersione. Se volessimo trovare il massimo dello Sqm la sua formula sarà: (L − M)2 (N − h) + (l − M)2 h σ max= N σ rel = Mentre lo Sqm relativo sarà: σ σ max Continuando il ns esempio si avra: Xi ni 5 10 15 20 25 30 2 Xini 14 18 25 20 15 8 100 70 180 375 400 375 240 1640 (Xi-M) ni 1819,44 737,28 49 259,2 1109,4 1479,68 5454 Xi ni 5 30 M Sqm Max(sqm) Sqm(rel) 2 (Xi-M) ni 54 7017,84 46 23525,91 100 30543,75 16,40 7,38512 17,47677 0,423 60 In alternativa senza ricorrere alla distribuzione massimante possiamo calcolare i massimi utilizzando le seguenti formule: σ max = ( L − M )(M − l ) se il carattere è trasferibile ed l = 0 mentre L = NM → σ max = M N − 1 2( L − M )(M − l ) SM 1 max = L-l 2 N ( L − M )(M − l ) ∆ max = (L - l)(N - 1) 61 Mutabilità Il concetto di mutabilità, analogo a quello di variabilità, si riferisce però a serie statistiche cioè a variabili qualitativi. I due indici che esporremo sono:L’indice di Eterogeneità di Gini e quello di Entropia. Entrambi tali indici possono essere espressi in termini assoluti e relativi. In una serie statistica abbiamo max omogeneità quando tutte il carattere si presenta con una sola modalità. La max eterogeneità (omogeneità nulla) quando le h modalità del carattere hanno la stessa frequenza per cui ogni ni = N/h. Eterogeneità G G = 1− k ∑ fr 2 i =1 G=o Eterogeneità nulla. Per avere una misura del livello di eterogeneità È necessario rapportare G al suo massimo. G max= 1-1/p. Grel =G/Gmax 0<Grel<1 62 ni ni Hs = −∑ lg N N Entropia Hs Hs=o Eterogeneità nulla. Per avere una misura del livello di eterogeneità è necessario rapportare Hs al suo massimo. Hs = logH. Hsrel=Hs/Hsmax 0<Hsrel<1 Ai A1 A2 A3 A4 A5 2 ni 125 248 236 147 125 881 fr fr lo g f r f r lo g f r 0 ,1 4 1 8 8 4 0 ,0 2 0 1 3 1 -0 ,8 4 8 0 7 -0 ,1 2 0 3 3 0 ,2 8 1 4 9 8 0 ,0 7 9 2 4 1 -0 ,5 5 0 5 2 -0 ,1 5 4 9 7 0 ,2 6 7 8 7 7 0 ,0 7 1 7 5 8 -0 ,5 7 2 0 6 -0 ,1 5 3 2 4 0 ,1 6 6 8 5 6 0 ,0 2 7 8 4 1 -0 ,7 7 7 6 6 -0 ,1 2 9 7 6 0 ,1 4 1 8 8 4 0 ,0 2 0 1 3 1 -0 ,8 4 8 0 7 -0 ,1 2 0 3 3 1 0 ,2 1 9 1 0 3 -0 ,6 7 8 6 3 G G m ax G re l 0 ,7 8 0 8 9 7 0 ,8 0 ,9 7 6 1 2 2 Hs H s m ax H e re l 0 ,6 7 8 6 2 6 0 ,6 9 8 9 7 0 ,9 7 0 8 9 4 63 Concentrazione Caratteri quantitativi Xi devono essere: 1. Trasferibili, quote del carattere possono transitare da una unita del collettivo all’altra ; 2. Cumulabili, è la conseguenza della trasferibilità. Un carattere è equamante ripartito quando ogni unità detiene la stessa quota Xi dell’ammontare A del carattere. In questo caso ogni Xi=M. La concentrazione è massima quando una sola unità detiene l’intero ammontare A del carattere. 64 ki N δ= Ai log A log Due tipi di indici di concentrazione: 1. Analitici, mettono a confronto due parti della distribuzione: le Nk unità più “ricche” rispetto a tutto il collettivo. Per cui sullo stesso collettivo si possono calcolare più indici di questo tipo in quanto è il ricercatore che decide chi fa parte degli Nk 2.Sintetici, si calcolano su tutto il collettivo. 1. Analitici δ di Gini. L’ammontare di una carattere A è detenuto da N unità Nk sono le unità più ricche e detengono una quaota dell’ammontare pari ad Ak. Per cui se ci fosse una situazione di equilibrio allora Ak/A=Nk/N se al contrario non ci fosse equilibrio (Ak/A)>Nk/N. 65 Per cui l’indice delta rapresena l’esponente al quale è necessario elevarela frazione Ak/A affinché essa ci sia uguale a Nk/N . δ= 1Æ Equilibrio; δ > 1Æ squilibbrio Nk log Nk ⎛ Ai ⎞ N →δ = ⎜ ⎟ = Ai N ⎝ A ⎠ log A δ reddito 10 20 30 40 50 60 80 90 100 ni Xini 800 785 562 587 547 325 258 247 125 4236 8000 15700 16860 23480 27350 19500 20640 22230 12500 166260 fascia dei piu ricchi. 270 redditieri (Nk)detengono 55370€ (Ak) δ=log(270/4236)/log(55370/166260) = 2,50 66 2. Sintetici Simboli A= ammontare carattere; Xi=quote del carattere A; Ai= cumulo delle Xi. X1=A1, X1+X2=A2, X1+X2+..Xn= An; N = Collettivo; Ni= frequenze cumulate. Pi=Ni/N; Qi=Ai/A. Due casi estremi Equidistribuzione: P1=Q1,P2=Q2,…Pn-1=Qn-1, Pn=Qn Max Concentrazione: P1>Q1,P2>Q2,…Pn-1>Qn-1, Pn=Qn 67 La distanza, quindi, tra le Pi e le Qi segna la misura della concentrazione Due modi per calcolare la concentrazione: R di Gini Rt Lorenz. Entrambi questi indici possono avere un valore compreso tra 0 e 1 0 = equidistribuzione; 1 = max concentrazione. n −1 R = ∑ n −1 ( pi − qi ) = 1 − i=1 n −1 ∑ pi i=1 ∑ qi ∑ pi i=1 n −1 i=1 n Rt = 1− ∑(qi + qi+1 )( pi − pi−1 ) i =1 68 Es. reddito ni 10 20 30 40 50 60 80 90 100 Xini 800 785 562 587 547 325 258 247 125 4236 Ai 8000 15700 16860 23480 27350 19500 20640 22230 12500 166260 Ni 8000 23700 40560 64040 91390 110890 131530 153760 166260 R=1,471/5,224 Pi 800 1585 2147 2734 3281 3606 3864 4111 4236 Qi 0,189 0,374 0,507 0,645 0,775 0,851 0,912 0,970 1 5,224 0,048 0,143 0,244 0,385 0,550 0,667 0,791 0,925 1 Pi-Qi 0,141 0,232 0,263 0,260 0,225 0,184 0,121 0,046 0 1,471 0,281585 Qi 1,000 0,900 0,800 0,700 0,600 0,500 0,400 0,300 0,200 0,100 0,000 0,000 0,100 0,200 0,300 0,400 0,500 0,600 0,700 0,800 0,900 1,000 69 Trasformate lineari Yi= a+bXi a, b sono i parametri. Yi = a + bX i → ∑ Yi = ∑ (a + bX i ) →∑ Yi = aN + b∑ X i dividendo entrambi imenbri per N → My = a + bMx Yi = a + bX i − My = a + bMx = Yi − My = b( X i − Mx) → elevando al quadrato e sommando 2 2 2 ( ) Y − My = b ( X − Mx ) ∑ i ∑ i Dev(X) = b 2 Dev(Y); σx 2 = b 2 σy 2 ; σx = b σy. 70 Standardizzazione Ponendo a = − Mx σ eb= 1 σ → si ottiene la trasformata Mx 1 Xi − Mx + xi → Zi = − σ σ σ La variabile standardizzata Zi = Xi − Mx σ ha media Mz = 0 e Var(Z) = 1 La standardizzazione ci permette di confrontare punteggi espressi in Unità di misura diverse o che sono stati rilevati su collettivi non omogenei 71 Media Sqm Peso padri Peso figli Zp Zf 78 25 0,5141 0,0687614 85 29 1,809631 1,3064669 79 23 0,699176 -0,550091 76 20 0,143948 -1,47837 78 25 0,5141 0,0687614 70 26 -0,96651 0,3781878 68 27 -1,33666 0,6876142 72 28 -0,59636 0,9970405 71 20 -0,78143 -1,47837 75,22 24,78 0 0 5,403 3,232 1 1 padri 85 Zi 1 Mp=75,22 0 -1 68 20 Mf=24,78 29 figli 72 Distribuzione Normale Se si riducono progressivamente le ampiezze delle classi di un istogramma fino a ridurli ad una ampiezza infinitesimale dx di estremi x, x , m si perviene alla costruzione di una curva di frequenza. Quando la curva è: unimodale,simmetrica e illimitata si dice normale X~N(µ,σ2). 73 Le distribuzioni normali sono una famiglia di distribuzioni che hanno le stesse caratteristiche e lo stesso andamento. Sono curve simmetriche con valori più concentrati verso il centro e meno nelle estremità laterali. Le distribuzioni normali sono delle curve a campana (ma non tutte le curve a campana sono distribuzioni normali). Esempi di distribuzione normale sono mostrati qui sotto. 74 Si noti come le curve normali differiscano per il modo in cui i valori si distribuiscono. Una distribuzione normale può essere espressa matematicamente in funzione di due parametri: la media (µ) e lo scarto tipo (o deviazione standard) (σ). µ rappresenta la media, si colloca nel punto di massimo della curva, dove essa da crescente diventa decrescente. La media determina la posizione della curva sull’asse delle ascisse. Data la simmetria e l’unimodalità nella curva normale µ = Me=Mo. σ Scarto quadratico medio si colloca nei punti di flesso dove la curva cambia andamento e da concava diventa convessa. Lo Sqm determina l’appiattimento o l’allungamento della curva. 75 La figura seguente illustra un'esempio di distribuzioni normali con la stessa media ma sqm. Indipendentemente dal valore della media e dello sqm l’area di qualsiasi curva normale compresa tra µ-σ e µ+σ è circa il 68% dell’area totale. Fr(µ-σ <X< µ+σ )=0.68 il 68% dei casi ha un valore compreso in questo intervallo. Cosi pure: Fr(µ-2σ <X< µ+2σ )=0.95 76 La figura seguente illustra un'esempio di distribuzion normali con la media diversa ma stesso sqm . Equazione della curva normale π = costante 3,14159. e è la base dei logaritmi naturali ed è uguale a 2,718282. Y= 1 σ 2π Modulo di precisione altezza max della curva sull’asse delle ordinate 77 Curva normale standardizzata Un particolare tipo di curva è quella normale standardizzata. Questa curva ha media =0 e varianza=1. 0,45 0,4 0,35 0,3 0,25 0,2 0,15 0,1 0,05 0 -4 -3 -2 -1 0 1 2 3 4 Grazie al teorema della standardizzazione è ossibile calcolare le aree = frequenze di una qualsiasi curva normale standardizzandola fr{x a < X < x b } = fr{z a < Z < z b } 78 Calcolo aree curva normale Il concetto geometrico di area in statistica si utilizza per rappresentare le frequenze e le probabilità. L’Area di una curva normale rappresenta dunque il totale delle Frequenze è sarà = N, 100 o ad 1 a seconda se operiamo con frequenze assolute,percentuali o relative. Simboli Xi ascisse, f(x) ordinate di una normale Zi, ascisse, f(z) ordinate normale standardizzata. N(z) area curva norm. st. compresa tra -∞ e un punto Z ≥ 0 NB: la curva norm. stand. Ha solo il “ramo” che si estende nel quadrante positivo per cui N(-z)=1-N(z).Excel lo fa in automatico 79 Es. N(170,100) fr(160<X<180)= fr[(160-170)/10<Z<(180-170)/10] = fr(-1<Z<1). E’ necessario trovare N(-1) ed N(1) A tale sopo si puo ricorrere alle funzioni statistiche di excel: 1. Inserisci funzione; 2. Selezionare statistica; 3. Trovare distribuzione norm.st. Nel ns esempio N(1)=0.8413; N(-1)=0.1586. Per cui fr(160<X<180)=0.8413-0.1586 =0.6827 n(x) 250 200 150 100 50 0 140 150 160 170 180 0 1 190 200 0,45 0,4 0,35 0,3 0,25 0,2 0,15 0,1 0,05 0 -3 -2 -1 2 3 80 Indici di forma INDICE DI ASIMMETRIA (Skewness) >0 coda a destra <0 coda a sinistra =0 simmetrica CURTOSI Misura quanto la distribuzione è appuntita >3 poco appuntita =3 caso della distribuzione normale <3 molto appuntita N.B. In molti software il coeff. di curtosi viene confrontato con il valore 0 81 Altri indici di forma Distribuzioni simmetriche unimodali M=Me=Mo; Distribuzioni asimmetriche Dx M<Me<Mo; Distribuzioni asimmetriche Sx M>Me>Mo. A1 = M − Me A3 = M − Mo σ A2 = M − Me σ M − Mo A3 = 3( M − Me) ( Me − Q1 ) − (Q3 − Me) 2 Me − Q1 − Q3 A4 = = ( Me − Q1 ) + (Q3 − Me) Q3 − Q1 82 EXCEL: Strumento di analisi Statistica descrittiva Fa un’analisi statistica dei dati selezionati fornendo informazioni sulla tendenza e dispersione dei dati Opzioni della finestra di dialogo Statistica descrittiva: •intervallo di input: immettere il riferimento di cella per l’intervallo di dati da analizzare •intervallo di output: immettere il riferimento della cella superiore sinistra della tabella di output •Riepilogo statistiche: genera una tabella di output con le seguenti statistiche:Media, Errore standard (della media), Mediana, Moda, Dev. Standard, Varianza, Curtosi, Asimmetria, Intervallo, Min, Max, Somma Conteggio. 83 Media e varianza di dati raggruppati Supponiamo di avere a disposizione solo la tabella di distribuzione delle frequenze (dati raggruppati) di dati continui. Il calcolo diretto di media e varianza NON è più possibile!!! Siano t1 ,..., t k i punti medi degli Classi ti vi intervalli che definiscono le classi 0<x<=1 0,5 e siano ν i le frequenze assolute di 1<x<=2 1,5 ,,, ,,, ,,, ogni classe Media ∑ x= Varianza σ 2 k 1 0 t νi i =1 i N ( t ∑ = i =1 ) 2 k i − x νi N 1 = N ∑ k t νi − x 2 2 i =1 i 84 Media e varianza di dati raggruppati Utilizzo i dati raggruppati dell’Esempio 2 85 LE RELAZIONI STATISTICHE 86 Le relazioni statistiche rappresentano un momento fondamentale nell’ambito di ogni tipo di ricerca. Se Xi e Yi sono due caratteri statistici abbiamo diversi modi di analizzare la relazione che intercorre tra di essi. Ad ogn’ uno di questi modi corrisponde una diverso concetto di Dipendenza. Per cui si parla di: 1. Dipendenza o associazione assoluta; 2. Dipendenza in media; 3. Correlazione lineare; 4. Dipendenza analitica. Siano Ci e Cj due caratteri statistici se entrambi sono quantitativi la loro distribuzione di frequenza congiunta e rappresentata da una tabella a doppia entrata. Tale tab. si chiama di contingenza se almeno un carattere è di tipo qualitativo; di correlazione se entrambi caratteri sono quantitativi. 87 Ci\Cj C1 C2 . . Ci . . Cr nj. C1 n11 n12 . . n1i . . n1r n1. C2 n21 n22 . . n2i . . n2r n2. ……….. ………. Cj nj1 nj2 . . nji . . njr nj. ……. ……….. Cc nc1 nc2 . . nci . . ncr nc. n.i n.1 n.2 . . n.i . . ncr N.. nij sono le frequenze vincolate. i posizione di riga, j posizione di colonna; n.i frequenze marginali di riga; nj. frequenza marginale di colonna. Dall’analisi della distribuzione di frequenze si può capire se tra Ci e cj c’è associazione oppure no. Ci troveremo in una situazione di max indipenenzaÆ associazione nulla se: n1 j n n11 n 21 = = = .. i . ecc . n .1 n .2 n. j N n 1i n1. n 11 n 12 = = = .. ecc . n .1 n .2 n .i N 88 C’è massima dipendenza assoluta Æ associazione altissima Quando ad ogni modalità Ci corrisponderà una sola modalità Cj. La massima dipendenza può essere binuvoca se abbiamo tabelle quadrata Æ r=c. In questo caso per ogni riga o colonna una sola frequenza diversa da 0 C1 C1 C2 C3 C2 0 50 0 50 C3 0 0 25 25 15 0 0 15 15 50 25 90 89 C’è massima dipendenza assoluta Æ associazione altissima quando ad ogni modalità Ci corrisponderà una sola modalità Cj.La massima dipendenza può essere univoca se abbiamo tabelle rettangolari Æ r=c. In questo caso solo sulle righe o sulle colonne avremo una sola frequenza diversa da 0 r>c r<c C1 C1 C2 C3 C2 0 50 0 50 0 0 25 25 C1 C1 C2 C2 0 50 C3 0 0 15 0 15 50 90 1. Misura della associazione:χ2 Il Chiq. È un indice che misura la dipendenza assoluta. Si calcola confrontando una distribuzione osservata di frequenze nij con una teorica o attesa nij. La distribuzione delle frequenze teoriche rappresenta come dovrebbero essere distribuite le frequenze se non ci fosse associazione. L distanza tra ogni nij e la rispettiva nijÆ(nij-nij*)= Contingenza. Maggiore è la contingenza più il modello osservato si allontana da quello teorico di indipendenza. Contingenze uguali possono avere significati diversi, per cui ogni contingenza va rapportata alla rispettiva frequenza teorica la somma delle contingenze cosi ponderate ci da il Chiq. χ2 = ∑ c (nij − nij*) 2 ∑r nij * 91 Frequenze teoriche si calcolano cosi: Totale riga i x totale colonna j N Tavola di contingenza FUMOS_N * CAT_PESB CAT_PESB peso<3694,063g peso>=3694,063g FUMOS_N Non fumatori Conteggio 86 117 Conteggio atteso 99,10 103,90 fumatori Conteggio 79 56 Conteggio atteso 65,90 69,10 Totale 165 173 Totale 203 135 338 Chiq= (86-99,10)^2/99,10+(117-103,9)^2/103,9+(79-65,9)^2/65,9+(56-69,1)^2/69,1= 8,4709688 Il Chiq è un indice assoluto e può avere un valore compreso tra 0 e infinito. Per cui se non c’è associazione Chiq= 0 quando c’è associazione il Chiq> 0 , nel nostro caso 8.47096, tuttavia non possiamo dire se il grado di associazione è alto o basso. A tale scopo è necessario calcolare il chiq realativo 92 Chiq relativo = Chiq/ max Chiq. Questo indice varierà tra 0 e 1. 0 indipendenza assoluta. 1 max dipendenza assoluta Max Chiq N[min(r,c-1)]. Nel ns caso max Chiq = 338*(2-1). Chiq rel= 8,4796/338=0.025 93 2. Dipendenza parametrica: η2 La dipendenza parametrica ci fornisce informazioni su come fariano le medie delle variabile dipendente o variabile criterio al variare delle modalità della variabile indipendente o fattore. Per costruire l’indice η2 è necessario scomporre la devianza totale in devianza interna ed esterna secondo lo schema già visto (cfr.diap.n° ). L’indice η2 non è simmetrico cioè ηxy2 può essere diverso da ηyx2 ηxy2 ed ηyx dipendenti 2 Le variabili dipendenti devono essere solo quantitative. 94 η xy 2 (Xi − M )ni ∑ = 1− ∑ ( Xi − Mx )ni η yx 2 (Yi − M )ni ∑ = 1− ∑ (Yi − My )ni 2 ( x )i 2 ( y )i 2 2 (M − Mx )ni ∑ = ∑ ( Xi − Mx )ni 2 ( x )i 2 (M − My )ni ∑ = ∑ (Yi − My )ni 1-Dev(int)/Dev (T) 2 ( y )i 2 Dev(est)/Dev (T) 0<η2<1 95 Es. 2 X a Xa 2 5 6 8 9 5 4 Som m e X 2 Som m e X M edie M j Nj Dev (T) = Dev (B) = Dev (W ) 2 X b Xb 4 25 36 64 81 25 16 39 3 2 3 3 5 6 4 2 28 251 5,6 7 2 X c Xc 9 4 9 9 25 36 16 4 5 4 4 6 2 25 16 16 36 4 Totali 21 103 3,5 8 2 426-20*4,4 2 2 2 (5,6-4,4) *7+(3,5-4,4) *8+(4,2-4,4) *5 72 4,2 5 88 426 4,4 20 38,8 16,76 22,04 η2=16.76/38.8=0.43 96 3. Correlazione lineare Finora abbiamo considerato una variabile alla volta, ora tratteremo analisi di tipo comparativo: a. Osservo una variabile su piu’ gruppi di individui b. Osservo piu’ variabili su un gruppo di individui c. Entrambe le situazioni a. e b. Esiste correlazione tra le variabili? Scatterplot, diagramma a dispersione Umidita' Evaporazione del solvente 35,3 11 29,7 11,1 30,8 12,5 58,8 8,4 61,4 9,3 71,3 8,7 74,4 6,4 76,7 8,5 70,7 7,8 57,5 9,1 46,4 8,2 28,9 12,2 Evaporazione del solvente 14 12 10 8 Evaporazione del solvente 6 4 2 0 0 50 100 97 Date n osservazioni congiunte di 2 variabili {( x1 , y1 ), ( x2 , y2 ),..., ( xn , yn )} Codevianza cod(xy) = ∑ (Xi - Mx)(Yi - My) = ∑ XiYi - MxMy Covarianza cov(xy) = σ xy cod(xy) = = N ∑ (Xi - Mx)(Yi - My) = ∑ XiYi − NMxMy = Myx − MxMy •Se σx,y>0 concordanza •Se σx,y<0 discordanza •Se σx,y= 0 indifferenza N N La cov(xy) ci segnali quindi se c’è concordanza, discorcanza o indifferenza, ma essendo un indice assoluto non ci dice quanto la concordanza, la discordanza o l’indifferenza sono grandi. Per avere questa informazione si ricorre all’indice di correlazione 98 Correlazione lineare di Bravais-Pearson:rxy=ryx=r Indice di correlazione r= cod(xy) Dev(x)Dev(y) = cov(xy) var(x) var( y) → ∑ XiYi - NMxMy [∑ Xi − NMx ][ ∑ Yi − NMy 2 2 2 2 ] | r |≤ 1, cioè − 1 ≤ r ≤ 1 99 Diagramma di dispersione e indice di correlazione r = 0.6 r=1 y y x x y y r = -0.8 r = -1 x r=0 y r=0 x y x v x 100 4.Dipendenza analitica: retta di regressione Si vuole cercare la relazione lineare tra due variabili x e y. { } Date n osservazioni congiunte di 2 variabili ( x1 , y1 ), ( x2 , y2 ),..., ( xn , yn ) cerco due coefficienti a e b tali che y*=ax+b passi il più possibile vicino a questi punti. 101 Retta di regressione y i = axi + b + ε i b → intercetta a → coefficente di regressione yi = variabile indipendente xi = variabiledipendente εi = fattori esogeni La relazione tra Xi e Yi è, per la presenza diεi, e di natura statistica e non deterministica. Cioè la Xi non determina il valore della Yi in modo univoco per cui ad ogni valore di Xi non corrisponde sempre un solo e unico valore di Yi . Ci chiediamo quali dovrebbero essere i valori di Yi se fossero determinati solo da Xi, se non ci fosse cioè l’effetto di εi. 102 Ci proponiamo dunque di stimare i valori Yi che chiameremo Yi* (Yteoriche) Yi=aXi+bεÆYi*=aXi+b A tale scopo è necessario compiere tre passi: 1. Decidere quale tipo di funzione utilizzare. ( nel ns caso equaz.1°retta); 2. Stimare i parametri della equazione ; 3. Valutare la bontà del modello. 1. Si può a tale scopo esplorare il diagramma di dispersione per valutare se l’andamento dei punti può essere rappresentato in modo efficace con una retta. Inoltre facendo (η2-r2)/(1-r2) otteniamo un indice di non linearità. 2. Il metodo per stimate i parametri che si utilizza è quello dei minimi quadrati, che consiste nello stimare i parametri sotto la condizione che la somma degli scarti al quadrato tra Yi e Yi* sia minima. n [ ] f (a , b) = ∑ yi − (axi + b) i =1 2 103 Yi*=aXi+b a= cod(xy) cov (xy) = → Dev(x) Var(x) ∑ XiYi-NMxMy = r σy σx ∑ Xi − NMx 2 2 b = My − aMx Xi*=cYi+d c= cod(xy) cov (xy) = → Dev(y) Var(y) ∑ XiYi-NMxMy = r σx σy ∑ Yi − NMy 2 2 d = Mx − cMy 104 Scomposizione della devianza 3. Valutazione bontà di adattamento. D(T)= devianza totale. D(reg)= devianza regressioneÆ quanta parte della variabilità totale di Yi è “intercettata” dal modello di regressione. D(res)= devianza residuaÆ quanta parte del modello di regressione non è “intercettata” dalla retta di regressione . 2 ( Yi * − My ) ∑ 2 ( Yi − My ) ∑ 2 ( Yi − Yi *) ∑ 105 Erore standard della stima e indice di determinazione σy / x = 2 − Yi Yi ( *) ∑ N ; σx / y = 2 − Xi Xi ( *) ∑ N Dev(reg) Dev(res) ρ= = 1− = r2 Dev(T) Dev(T) 0 ≤ ρ ≤1 106 6000 5000 4000 PES_BAM 3000 2000 1000 30 40 50 60 70 80 90 100 P_MAM 107 Riepilogo del modello Modello 1 R ,250a R-quadrato corretto ,059 R-quadrato ,062 Errore std. della stima 528,8169 a. Stimatori: (Costante), P_MAM Coefficientia Modello 1 (Costante) P_MAM Coefficienti non s tandardizzati B Errore s td. 2894,249 178,101 14,068 3,037 Coefficienti s tandardizzati Beta ,250 t 16,251 4,632 Sig. ,000 ,000 a. Variabile dipendente: PES_BAM ANOVAb Modello 1 Som m a dei quadrati Regress ione 6000925,931 Res iduo 90326081,3 Totale 96327007,2 df 1 323 324 Media dei quadrati 6000926 279647,3 F 21,459 Sig. ,000 a a. Stim atori: (Cos tante), P_MAM b. Variabile dipendente: PES_BAM 108 EXCEL: Retta di regressione Es: Stabilire se c’e’ dipendenza lineare tra l’umidita’ del magazzino e l’evaporazione di un certo componente chimico. Umidita' Evaporazione del solvente 35,3 11 29,7 11,1 30,8 12,5 58,8 8,4 61,4 9,3 71,3 8,7 74,4 6,4 76,7 8,5 70,7 7,8 57,5 9,1 46,4 8,2 28,9 12,2 28,1 11,9 Evaporazione del solvente 14 12 10 8 6 4 2 0 Evaporazione del solvente 0 50 100 Utilizzando la funzione =CORRELAZIONE(dati_1;dati_2) ottengo r = - 0.84695 Ha senso determinare la retta di regressione 109 EXCEL: Retta di regressione Step3: Retta di regressione Avendo gia’ lo scatterplot seleziono: Grafico-Aggiungi linea di tendenza y = -0,0801x + 13,639 14 12 10 8 Serie1 6 Lineare (Serie1) 4 y = -0,0801x + 13,639 2 0 0 50 100 110