Descrittiva 3
Transcript
Descrittiva 3
DIPENDENZA E ASSOCIAZIONE DISTRIBUZIONE CONGIUNTA DI DUE VARIABILI Sinora abbiamo considerato l’analisi di un’unica variabile per volta. Tuttavia, le rilevazioni su un’unità statistica sono in generale relative ad un insieme di variabili (confronto con la matrice di dati vista nella prima lezione). Ci limiteremo a considerare il caso di due variabili. Siano X e Y due variabili che possono essere entrambe qualitative, entrambe quantitative, oppure una di un tipo e una di un altro. Distribuzioni doppie unitarie (dati bivariati in forma grezza) Unità (X, Y ) 1 2 ... i ... N (x1, y1) (x2, y2) ... (xi, yi) ... (xN , yN ) Coppia di modalità osservate su ciascuna unità statistica In questo caso su ogni unità statistica rileviamo una coppia di modalità, quella di X e quella di Y . Esempi: Per ogni persona, sesso e età; per ogni azienda, settore e fatturato; per ogni nucleo familiare, reddito e consumo mensile. 84 Alcuni dati sul Titanic Dopo il disastro, una commissione d’inchiesta del British Board of Trade ha compilato una lista di tutti i 1316 passeggeri con alcune informazioni aggiuntive riguardanti: l’esito (salvato, non salvato), la classe (I,II, III) in cui viaggiavano, il sesso, l’età, ecc.. Ci limitiamo a considerare le informazioni sull’esito e la classe. I dati bivariati in forma grezza saranno del tipo Passeggero Classe Esito nome 1 II salvato nome 2 III non salvato nome 3 I non salvato ... ... nome 1316 III salvato 85 Una prima sintesi che possiamo operare consiste nel costruire una tabella del tipo Esito Classe I II III Totale Salvato 203 118 178 Non Salvato 122 167 528 Totale 325 285 706 499 817 1316 chiamata Tabella a doppia entrata o Tabella di contingenza. Ci dice, ad esempio, che 203 è il numero di passeggeri che viaggiavano in I classe e sono sopravvissuti. Analogamente, 528 è il numero di passeggeri che viaggiavano in III classe e non sono sopravvissuti. Ci dice ancora che 499 è il numero complessivo di passeggeri che sono sopravvissuti, a prescindere dalla classe, e, similmente, che 285 è il numero di passeggeri che viaggiavano in II classe, a prescindere dall’esito del disastro. 86 Una tabella di contingenza contiene diverse informazioni. Parte centrale della tabella: Distribuzione di frequenza assoluta congiunta delle due variabili Esito Classe I II III Salvato 203 118 178 Non Salvato 122 167 528 Totale 325 285 706 Totale 499 817 1316 I bordi della tabella: Distribuzione di frequenza assoluta marginale (di una sola variabile) Esito Classe I II III Salvato 203 118 178 Non Salvato 122 167 528 Totale Totale 499 817 325 285 706 1316 Distribuzione marginale della variabile Esito, a prescindere dalla variabile Classe. 87 Esito Classe I II III Salvato 203 Non Salvato 122 Totale 118 167 178 528 Totale 499 817 325 285 706 1316 Distribuzione marginale della variabile Classe, a prescindere dalla variabile Esito. Una sola riga (o colonna): Distribuzione di frequenza assoluta di una variabile condizionata ad una modalità dell’altra variabile Esito Classe I II III Totale Salvato 203 118 178 499 Non Salvato 122 Totale 325 167 528 817 285 706 1316 Distribuzione della variabile Classe condizionata alla modalità “Salvato” della variabile Esito: guardiamo alla distribuzione delle frequenze assolute della variabile Classe limitando l’attenzione ai sopravvissuti. 88 Esito I Classe II III 118 167 178 528 499 817 325 285 706 1316 Salvato 203 Non Salvato 122 Totale Totale Distribuzione della variabile Esito condizionata alla modalità “II classe” della variabile Classe: guardiamo alla distribuzione delle frequenze assolute della variabile Esito limitando l’attenzione ai viaggiatori della II classe. N. B.: Le distribuzioni marginali e condizionate sono distribuzioni univariate, per le quali valgono tutte le considerazioni fatte nella prima parte del corso. 89 STRUTTURA GENERALE DI UNA TABELLA A DOPPIA ENTRATA Variabile X con modalità x1, x2, . . . , xr Variabile Y con modalità y1, y2, . . . , ys X y1 y2 Y . . . yj . . . ys Totale x1 x2 ... xi ... xr n11 n21 ... ni1 ... nr1 n12 n22 ... ni2 ... nr2 ... ... ... ... ... ... n1j n2j ... nij ... nrj ... ... ... ... ... ... n1s n2s ... nis ... nrs n1· n2· ... ni· ... nr· Totale n·1 n·2 . . . n·j . . . n·s N Quando una o entrambe le variabili sono continue o discrete con molte modalità, le righe e/o le colonne possono anche corrispondere alle classi di suddivisione della variabile. 90 Distribuzione di frequenza assoluta congiunta (parte centrale della tabella) X y1 y2 Y . . . yj . . . ys x1 x2 ... xi ... xr n11 n21 ... ni1 ... nr1 n12 n22 ... ni2 ... nr2 ... ... ... ... ... ... n1j n2j ... nij ... nrj ... ... ... ... ... ... n1s n2s ... nis ... nrs N nij = numero di unità con la modalità i–esima di X e j–esima di Y = frequenza assoluta congiunta della coppia (xi, yj ). Pr Ps i=1 j=1 nij =N 91 Distribuzioni di frequenza assoluta marginali (bordi della tabella) X x1 x2 ... xi ... xr n1· n2· ... ni· ... nr· Totale N ni·=numero di unità che hanno il valore xi della variabile X senza tener conto del valore della Y = frequenza assoluta marginale di xi P ni· = sj=1 nij Y y1 y2 ... yj ... ys n·1 n·2 ... n·j ... n·s Totale N n·j =numero di unità che hanno il valore yj della variabile Y senza tener conto del valore della X= frequenza assoluta marginale di yj P n·j = ri=1 nij 92 Distribuzione di frequenza assoluta di X condizionata alla modalità yj di Y (colonna j–esima della tabella) Si denota con X|Y = yj o X|yj X x1 x2 ... xi ... xr n1j n2j ... nij ... nrj Totale n·j È una distribuzione univariata. Una tabella a doppia entrata contiene s distribuzioni condizionate di X. Distribuzione di frequenza assoluta di Y condizionata alla modalità xi di X (riga i–esima della tabella) Si denota con Y |X = xi o Y |xi Y y1 y2 ... yj ... ys ni1 ni2 ... nij ... nis Totale ni· È una distribuzione univariata. Una tabella a doppia entrata contiene r distribuzioni condizionate di Y . 93 DISTRIBUZIONI DI FREQUENZA RELATIVA X y1 y2 Y . . . yj . . . ys ToT x1 x2 ... xi ... xr f11 f21 ... fi1 ... fr1 f12 f22 ... fi2 ... fr2 ... ... ... ... ... ... f1j f2j ... fij ... frj ... ... ... ... ... ... f1s f2s ... fis ... frs f1· f2· ... fi· ... fr· frequenze ⇐ relative marginali di X ToT f·1 f·2 . . . f·j . . . f·s 1 ⇑ frequenze relative marginali di Y n fij =frequenza relativa congiunta della coppia (xi, yj )= Nij Pr Ps j=1 fij = 1 i=1 P fi·=frequenza relativa marginale di xi= nNi· = sj=1 fij P n f·j =frequenza relativa marginale di yj = N·j = ri=1 fij Esempio TITANIC Esito Classe I II III Salvato 0,15 0,09 0,14 Non Salvato 0,09 0,13 0,40 Totale 0,25 0,22 0,54 94 Totale 0,38 0,62 1 Distribuzione di frequenza relativa di X condizionata alla modalità yj di Y X freq. ass. X freq. rel. x1 x2 ... xi ... xr n1j n2j ... nij ... nrj x1 x2 ... xi ... xr n1j /n·j n2j /n·j ... nij /n·j ... nrj /n·j Totale n·j Totale 1 ATTENZIONE: Le frequenze relative congiunte fij NON sono le frequenze relative condizionate!! Si noti che nij /n·j = fij /f·j . Esempio TITANIC Classe Esito I II III Salvato 203 118 178 Non Salvato 122 167 528 Totale 325 285 706 95 Esito Classe I II III Salvato 0,62 0,41 0,25 Non Salvato 0,38 0,59 0,75 Totale 1 1 1 Distribuzione di frequenza relativa di Y condizionata alla modalità xi di X Y freq. ass. Y freq. rel. y1 y2 ... yj ... ys ni1 ni2 ... nij ... nis y1 y2 ... yj ... ys ni1/ni· ni2/ni· ... nij /ni· ... nis/ni· Totale ni· Totale 1 Si noti che nij /ni· = fij /fi· Esempio TITANIC Esito Classe I II III Totale Salvato 203 118 178 Non Salvato 122 167 528 Esito Classe I II III Salvato 0,41 0,24 0,36 Non Salvato 0,15 0,20 0,65 96 499 817 Totale 1 1 Medie e varianze marginali e condizionate Si consideri il caso in cui X è quantitativa. Poiché le distribuzioni marginali e condizionate di X sono univariate, possiamo calcolare medie e varianze marginali e condizionate. Marginali P P M (X) = N1 ri=1 xi · ni· = ri=1 xi · fi· P V (X) = N1 ri=1 x2i · ni· − M 2(X) Condizionate Pr 1 M (X|Y = yj ) = n·j i=1 xinij P V (X|Y = yj ) = n1·j ri=1 xinij − M 2(X|Y = yj ) calcolabili per ogni j = 1, . . . , s Analogo ragionamento per Y , se è quantitativa. Esempio Voto all’esame Sesso 26 28 30 Totale M 4 2 4 10 F 1 8 1 10 Totale 5 10 5 20 =28 M(Voto)= 26·5+28·10+30·5 20 2 2 2 V(Voto)= 26 ·5+2820·10+30 ·5 − 282=2 = 28 M(Voto|Sesso=M)= 26·4+28·2+30·4 10 = 28 M(Voto|Sesso=F)= 26·1+28·8+30·1 10 2 2 2 V(Voto|Sesso=M)= 26 ·4+2810·2+30 ·4 − 282 = 3, 2 2 2 2 V(Voto|Sesso=F)= 26 ·1+2810·8+30 ·1 − 282 = 0, 8 97 DIPENDENZA E INDIPENDENZA STATISTICA (IN DISTRIBUZIONE) TRA DUE VARIABILI Spesso due caratteri vengono osservati insieme per vedere se vi è tra loro dipendenza. Si vuole, allora, usare i dati della tabella a doppia entrata per stabilire se tra X e Y c’è dipendenza o se sono tra loro indipendenti. Riprendiamo l’esempio del TITANIC. Le distribuzioni di frequenza relativa della variabile Esito condizionate alle tre modalità della variabile Classe sono: Classe Esito I II III freq. rel. marg. di Esito Salvato 0,62 0,41 0,25 0,38 0,62 Non Salvato 0,38 0,59 0,75 Totale 1 1 1 È evidente che l’Esito dipende dalla Classe. Si noti, infatti, che in I classe si è salvato il 62% dei passeggeri, mentre in III classe solo il 25% dei passeggeri è sopravvissuto (viene da pensare che i viaggiatori della I classe abbiano avuto un trattamento preferenziale). N.B.: Il confronto tra le tre distribuzioni condizionate ha senso solo in termini di frequenze relative; non ha senso in termini di frequenze assolute, poiché le marginali della Classe sono diverse. Ad esempio, è sbagliato dire che si sono salvate più persone nella III classe rispetto alla II classe (178 contro 118), dato che 178 rappresenta solo il 25% del numero complessivo di passeggeri della 98 III classe, mentre 118 rappresenta ben il 41% del numero complessivo di passeggeri della II classe. Se l’Esito e la Classe fossero indipendenti, ci aspetteremmo di osservare delle distribuzioni di frequenza relativa condizionate fatte in questo modo: Classe Esito I II III freq. rel. marg. di Esito Salvato 0,38 0,38 0,38 0,38 Non Salvato 0,62 0,62 0,62 0,62 Totale 1 1 1 ossia 1. tutte uguali tra loro 2. uguali alla distribuzione di frequenza relativa marginale di Esito, dato che questa non tiene conto della suddivisione in classi. Questo ragionamento intuitivo si formalizza nella definizione di indipendenza statistica (o in distribuzione). DEFINIZIONE: X è statisticamente indipendente da Y se le s distribuzioni di frequenza relativa di X condizionate alle modalità di Y sono uguali alla distribuzione di frequenza relativa marginale di X: nij ni· = per ogni i = 1, . . . , r e per ogni j = 1, . . . , s n·j N 99 L’indipendenza è un concetto simmetrico. Vale, infatti, la seguente proposizione. PROPOSIZIONE: Se X è indipendente da Y , allora Y è indipendente da X e viceversa. DIMOSTRAZIONE: X indipendente da Y equivale a nij ni· i = 1, . . . , r j = 1, . . . , s = n·j N da cui nij n·j = i = 1, . . . , r j = 1, . . . , s ni· N ossia le r distribuzioni di frequenza relativa di Y condizionate alle modalità di X sono tutte uguali alla distribuzione di frequenza relativa marginale di Y e quindi Y è statisticamente indipendente da X. Analogamente, Y indipendente da X equivale a nij n·j i = 1, . . . , r j = 1, . . . , s = ni· N da cui nij ni· i = 1, . . . , r j = 1, . . . , s = n·j N ossia le s distribuzioni di frequenza relativa di X condizionate alle modalità di Y sono tutte uguali alla distribuzione di frequenza relativa marginale di X e quindi X è statisticamente indipendente da Y . In base a questa proposizione possiamo tranquillamente parlare di indipendenza di X e Y senza specificare la “direzione”. 100 In sintesi, X e Y sono indipendenti se le distribuzioni di frequenza relativa di X|Y sono uguali alla distribuzione di frequenza relativa marginale di X e se le distribuzioni di frequenza relativa di Y |X sono uguali alla distribuzione di frequenza relativa marginale di Y . Dalla definizione di indipendenza, dire che X e Y sono statisticamente indipendenti equivale a ni· × n·j N ossia ogni frequenza assoluta congiunta nij è pari al prodotto del totale della riga i e il totale della colonna j diviso per il numero complessivo di unità. nij = 101 DIPENDENZA Abbiamo visto cosa significa indipendenza tra X e Y . Se X e Y non sono indipendenti, allora vi è dipendenza. Casi estremi di dipendenza: MASSIMA ASSOCIAZIONE (DIPENDENZA PERFETTA): Y dipende perfettamente da X se in corrispondenza ad ogni modalità di X si verifica una sola modalità di Y (ossia, per ogni i si ha un solo j tale che nij 6= 0). INTERDIPENDENZA PERFETTA: se ciascuna variabile dipende perfettamente dall’altra. Esempio X x1 x2 x3 x4 y1 0 13 0 0 Y y2 4 0 15 0 y3 0 0 0 7 Y dipende perfettamente da X, ma X non dipende perfettamente da Y . L’interdipendenza perfetta è possibile solo in tabelle .... La dipendenza perfetta è rara, si osserva esclusivamente quando tra le due variabili esiste una dipendenza deterministica (una delle due variabile è funzione dell’altra). 102 MISURA DI ASSOCIAZIONE IN UNA TABELLA A DOPPIA ENTRATA: L’INDICE CHI–QUADRATO Come valutiamo se una tabella doppia osservata è vicina o lontana dalla situazione di indipendenza? Possiamo calcolare i valori teorici delle frequenze assolute congiunte che si avrebbero nel caso in cui X e Y fossero indipendenti: ni·n·j n∗ij = N e confrontarli con le frequenze assolute congiunte effettivamente osservate nij . Se rileviamo delle differenze notevoli tra le due frequenze abbiamo l’indicazione che tra le due variabili non c’è indipendenza. Potremmo pensare di costruire le differenze cij = nij − n∗ij e ottenere una misura dell’associazione nella tabella osservata dall’indice r X s X cij i=1 j=1 Il problema è che questo indice è sempre identicamente uguale a 0, dato che r X s r X s X X n∗ij nij = N = i=1 j=1 i=1 j=1 Infatti, r X s X i=1 j=1 n∗ij = r X s X ni·n·j i=1 j=1 N r s 1 X X N2 = =N ni· n·j = N i=1 N j=1 103 Possiamo ovviare a questo problema usando c2ij al posto di cij . Il principale indice utilizzato per misurare l’associazione in una tabella è l’indice chi–quadrato: s r X s r X 2 X X (nij − n∗ij )2 c ij 2 χ = ∗ = ∗ n n ij ij i=1 j=1 i=1 j=1 Caratteristiche dell’indice chi–quadrato 1. χ2 ≥ 0 2. χ2 = 0 nel caso di indipendenza tra X e Y 3. χ2 è tanto più grande quanto più ci allontaniamo dal caso di indipendenza 4. può essere calcolato anche attraverso la formula r X s X n2ij 2 χ = N( − 1) n n i=1 j=1 i· ·j 5. è un indice di dipendenza simmetrico: non tiene conto della direzione della dipendenza (causa–effetto) e rimane invariato se scambiamo il ruolo di X e Y . 104 Il valore dell’indice chi–quadrato dipende anche da N e dalla dimensione della tabella (r e s). Per facilitarne l’interpretazione, si ricorre spesso a indici normalizzati (compresi tra 0 e 1) derivati da χ2. In particolare, è frequente l’uso di √ χ2 e V = T T = N · min(r − 1, s − 1) Sono entrambi compresi tra 0 e 1. Entrambi sono pari a 1 in caso di interdipendenza perfetta. T tende a sottovalutare il livello di dipendenza, questo problema è un pò attenuato con l’uso di V . Esempi di calcolo dell’indice chi–quadrato 1. IL TITINIC Classe I II III Totale Esito Salvato 203 118 178 Non Salvato 122 167 528 Totale 325 285 706 499 817 1316 La tabella delle frequenze teoriche sotto l’ipotesi di indipendenza, n∗ij = ni·n·j /N , è Esito Classe II I III Totale Salvato 499·325 1316 = 123, 2 108,1 499·706 1316 = 267, 7 499 Non Salvato 817·325 1316 = 201, 8 176,9 817·706 1316 = 438, 3 817 Totale 325 285 105 706 1316 Il confronto tra frequenze teoriche e frequenze osservate è istruttivo. Ad esempio, ci indica che, senza la preferenza accordata ai passeggeri di I classe, si sarebbero salvati un centinaio di passeggeri di III classe in più. (528 − 438, 3)2 (203 − 123, 2)2 (118 − 108, 1)2 + +. . .+ = 133, 05 χ = 123, 2 108, 1 438, 3 s 133, 05 V = = 0, 32 1316 · min(3 − 1, 2 − 1) 2 che indica un certo grado di associazione tra Classe ed Esito. 2. ATTEGGIAMENTO RIGUARDO L’IMMIGRAZIONE DI EXTRA–COMUNITARI Area di provenienza Atteggiamento Nord Centro Sud Isole Totale Favorevoli Contrari 80 286 103 187 182 238 16 74 381 785 Totale 366 290 420 90 1166 Costruiamo le 4 distribuzioni di frequenza relativa dell’Atteggiamento condizionate all’Area di provenienza 106 Area di provenienza freq. rel. marg. Atteggiamento Nord Centro Sud Isole di Atteggiamento Favorevoli Contrari 0,219 0,781 0,355 0,645 Totale 1 1 0,433 0,178 0,567 0,822 1 1 0,327 0,633 1 Da cui notiamo, ad esempio, che la percentuale di favorevoli al Sud è superiore sia rispetto al Nord che rispetto al Centro. Questo ci fa pensare che ci sia una qualche forma di associazione tra le due variabili. Ricordiamo che, se le due variabili fossero indipendenti, le distribuzioni di frequenza relativa dell’Atteggiamento condizionate all’Area di provenienza dovrebbero essere uguali alla distribuzione di frequenza relativa marginale dell’Atteggiamento, ossia, si dovrebbe avere una tabella del tipo Area di provenienza freq. rel. marg. Atteggiamento Nord Centro Sud Isole di Atteggiamento Favorevoli Contrari 0,327 0,633 0,327 0,633 Totale 1 1 0,327 0,327 0,633 0,633 1 1 0,327 0,633 1 Per valutare il grado di associazione all’interno della tabella osservata, costruiamo l’indice chi–quadrato, partendo dalla tabella delle frequenze teoriche sotto l’ipotesi di indipendenza che risulta essere 107 Area di provenienza Atteggiamento Nord Centro Sud Isole Totale Favorevoli Contrari 119,6 246,4 94,8 195,2 Totale 366 290 137,2 29,4 282,8 60,6 420 90 381 785 1166 Possiamo calcolare l’indice chi–quadrato: (80 − 119, 6)2 (103 − 94, 8)2 (74 − 60, 6)2 χ = + +. . .+ = 51, 3 199, 6 94, 8 60, 6 2 e da questo V = s 51, 3 = 0, 22 1166 · min(2 − 1, 4 − 1) che indica una forma di associazione tra le due variabili, seppure non molto forte. 108 Talvolta sono possibili associazioni spurie, ossia la presenza di un legame statistico empirico tra due variabili logicamente indipendenti. Spesso sono dovute ad una variabile latente. Esempio -R=reddito basso, +R=reddito medio-alto <165=statura< 165 cm, ≥165=statura ≥ 165cm Maschi -R +R <165 9 61 ≥ 165 42 293 V=0,004 Femmine -R +R <165 36 34 ≥ 165 13 12 V=0,005 Totale -R +R <165 45 95 ≥ 165 55 305 V=0,19 Si provi a calcolare l’indice chi–quadrato tra Sesso e Reddito. 109 Esercizi Si usino i dati del TITANIC. 1. Potrebbe venire il dubbio che la preferenza accordata alla I classe sia dipesa dal fatto che in I classe viaggiava un numero più elevato di donne e di bambini (associazione spuria) e quindi che quello che abbiamo osservato era semplicemente una manifestazione di una “politica di salvataggio” del tipo “prima le donne e i bambini”. La seguente tabella si riferisce solo alle donne e ai bimbi. Esito Classe I II III Salvato 146 105 103 Non Salvato 4 13 141 Lo studenti commenti questa nuova tabella e calcoli la distribuzione di frequenza relativa congiunta; le distribuzioni di frequenza relativa marginale di en- trambe le variabili; le distribuzioni di frequenza relativa dell’Esito condi- zionate alla Classe; l’indice chi–quadrato. 2. Lo studente ricostruisca dai dati forniti la distribuzione congiunta di Esito e Classe riferita solo ai maschi e la analizzi con le tecniche studiate. 110 DIPENDENZA DI UNA VARIABILE QUANTITATIVA DA UNA QUALITATIVA Spesso si osserva una variabile quantitativa Y classificata secondo le modalità di una variabile qualitativa X e l’interesse principale riguarda l’analisi del comportamento di quella quantitativa. Più precisamente, si vuole verificare se l’analisi di Y può essere approfondita quando, invece di analizzare l’intero insieme delle sue osservazioni indistintamente, si considerano queste suddivise in classi identificate dalle modalità della variabile qualitativa. Ad esempio, la distribuzione del reddito pro–capite (Y ) per provincia italiana (X), oppure il peso (Y ) per uomini/donne (X). In questi contesti, i dati sono organizzati per gruppi distinti: X x1 y11 ... ... ... ... yn1,1 x2 x3 y12 y13 ... ... ... ... ... ... ... ... ... ... ... y n3 ,3 yn2,3 111 ... xr . . . y1r . . . ... . . . ... . . . ... . . . ... . . . ... . . . ynr ,r Si noti che le y della tabella non sono frequenze, ma le osservazioni della variabile. Ciascuna colonna della tabella ci dà la distribuzione di Y condizionata a ciascuna delle modalità di X: Y |X = xi. Per verificare quanto è utile la suddivisione in gruppi, bisogna sapere se queste distribuzioni condizionate sono simili oppore no. Vogliamo quindi rappresentare in modo sintentico ciascuna distribuzione Y |X = xi. Due delle soluzioni possibili sono: 1. Costruzione di una tabella a doppia entrata Possiamo raggruppare la variabile Y in s classi. In tal modo, otteniamo una tabella a doppia entrata per la quale possiamo verificare se c’è indipendenza guardando al valore dell’indice chi–quadrato. La tabella avrà la seguente forma Y y1 — y2 . . . ys−1 — ys Totale X y0 — y1 x1 x2 ... xr n11 n21 ... nr1 n12 n22 ... nr2 ... ... ... ... n1s n2s ... nrs n1· n2· ... nr· Totale n·1 n·2 ... n·s N 112 2. Rappresentazione grafica di ciascuna distribuzione condizionata Possiamo rappresentare graficamente ciascuna distribuzione condizionata Y |X = xi, ad esempio tramite istogramma, e confrontare i diversi istogrammi. Se tutti gli istogrammi sono uguali, allora le distribuzioni condizionate sono uguali e non vi è dipendenza statistica tra Y e X. Tuttavia, il confronto degli istogrammi potrebbe essere laborioso e di difficile interpretazione. Può risultare più agevole un confronto dei boxplot. Ancora, se tutti i boxplot sono uguali, Y e X sono indipendenti. 113 25 20 15 Numero di insetti 10 5 0 A B C D E F Tipo di Spray Esempio di confronto mediante boxplot: distribuzione del numero di insetti rilevati su unità agricole trattate con 6 differenti tipi di insetticida (A, B, C, D, E e F). Non solo dal confonto possiamo concludere che c’è dipendenza del numero di insetti Y dal tipo di insetticida adottato X, ma possiamo anche notare che alcuni insetticidi (C, D e E) hanno un’efficacia nettamente superiore agli altri. 114