SUL RANGE DI OSCILLAZIONE DEL MASSIMO CHI QUADRATO
Transcript
SUL RANGE DI OSCILLAZIONE DEL MASSIMO CHI QUADRATO
Quaderni del Dipartimento Semeq – Facoltà di Economia - Novara SUL RANGE DI OSCILLAZIONE DEL MASSIMO CHI QUADRATO On the maximum Chi-square range of variation Giovanni Portoso Dipartimento Semeq - Facoltà di Economia - Novara [email protected] 1. Introduzione Oggetto della presente nota é la massimizzazione dell’indice Chi quadrato di K. Pearson, esaminata in relazione a condizioni antitetiche, anzi estreme, d’intensità del legame associativo tra due variabili categoriche di tipo sconnesso e con riferimento sia a tavole di contingenza quadrate che rettangolari. Il massimo del suddetto indice, indicato nel seguito con MaxT , fu individuato da C.E. Bonferroni (1940) ed utilizzato da C.E. Cramer (1951) quale fattore normalizzante nell’indice che richiama il suo nome. Esso, come è noto, si formalizza come segue : MaxT = N [min(s,t) -1] (1) in cui N sta ad indicare la dimensione del collettivo del quale si esaminano due caratteri qualitativi non ordinabili disposti in una distribuzione doppia, s il numero delle righe e t quello delle colonne. Si sono considerate e definite le condizioni di dipendenza bilaterale e unilaterale, che devono sussistere affinché la tavola di contingenza possa configurarsi come una distribuzione massimante e quindi condurre a MaxT . Esse, come si rileverà nel seguito, sono basate sulla valutazione comparativa delle frequenze marginali e richiedono la sussistenza di vincoli di uguaglianza difficilmente riscontrabili nei contesti empirici; pertanto, in assenza delle suddette condizioni, MaxT finisce con l’essere il più delle volte un massimo teorico ed assumere un ruolo del tutto virtuale, ponendosi 1 Quaderno n. 14 del 2008 Giovannei Portoso come un valore target difficilmente raggiungibile e quindi distaccato dal massimo Chi quadro compatibile con i marginali empirici ed indicato nel seguito con MaxE . Si sono esaminate le condizioni sulla base delle quali la distanza tra MaxT e MaxE - ai fini del calcolo del Chi quadrato – diventa massima; ciò ha consentito di determinare l’estremo inferiore di MaxE , che risulta relativamente lontano da MaxT e di definire il range di variazione. Nell’ultima parte con riferimento alla valutazione del legame associativo fra due variabili categoriche, si è posto l’accento su distorsioni di carattere interpretativo, cui l’uso generalizzato di MaxT, quale elemento di normalizzazione nell’indice di Cramer, può condurre. 2. Massima dipendenza unilaterale e bilaterale MaxT , per tavole quadrate e quindi per s=t , si riduce a N (s-1) ; esso si realizza in caso di massima dipendenza bilaterale - absolute dependence nella dizione anglosassone - allorquando i totali marginali di riga, gli ni0 per 1< i < s, coincidono perfettamente con gli omologhi di colonna, n0i per 1< i < t ed ogni xi é legato al corrispondente yi da una relazione di uguaglianza. Generalizzando quindi, la distribuzione massimante per il calcolo del massimo Chi quadrato e per s=t , postula l’uguaglianza : ni0 = nii = n0i per ogni i ε (1,...., s). Per le distribuzioni rettangolari, s >< t , MaxT si raggiunge solo in caso di massima dipendenza unilaterale - complete dependence secondo la terminologia anglosassone - che si manifesta allorquando più categorie della mutabile statistica X (o Y) risultano strettamente legate a qualche categoria di Y (o X) ; con riferimento ai marginali, nella massima dipendenza unilaterale, alcuni totali di riga (o colonna) sono perfettamente disaggregabili in quelli di colonna (o riga) ed altri totali risultano perfettamente coincidenti con i loro omologhi come esemplificato nella schema riportato nella Tab. 1. Nella Tab. 1 si presenta un esempio di massima dipendenza unilaterale; infatti la categoria x3 dipende funzionalmente da y3 , y4 , y5 attraverso un legame di tipo additivo e quindi n30 =150 risulta disaggregato in : [(n03 = n33 = 40) + (n04 = n34 = 50) + (n05 = n35 = 60)] . 2 Quaderni del Dipartimento Semeq – Facoltà di Economia - Novara Tabella 1 – Completa dipendenza di X da Y in una tavola 3x5 di massima associazione (dati ipotetici). X|Y x1 x2 x3 n0h y1 20 20 y2 30 30 y3 y4 y5 ni0 20 30 40 50 60 150 40 50 60 200 MaxT = 400, calcolato secondo la (1) , coincide con il Chi quadrato calcolabile sui dati contenuti in Tab. 1 se la dipendenza si manifesta solo su un versante nel senso di X da Y come nell’esempio riportato nella tabella in esame o viceversa nel senso di Y da X . In verità la (1) , come si rileverà nel seguito, andrebbe rettificata tenendo conto delle possibili scomponibilità, ma se esse si manifestano solo su un versante non vanno ad intaccare il min che compare nella formula. Ovviamente le dipendenze possono manifestarsi sull’uno e sull’altro fronte anche nella medesima tavola nel senso che a qualche modalità della X possono corrispondere più modalità della Y e viceversa. Pertanto qualche xi potrà dipendere funzionalmente da diversi yh sulla base di un legame additivo e viceversa; quindi qualche ni0 potrà risultare scomponibile in più n0h come qualche n0h potrà disaggregarsi in alcuni ni0 . Tabella 2 – Completa dipendenza di X da Y e di Y da X in una tavola 5x6 di massima associazione (dati ipotetici). X|Y x1 x2 x3 x4 x5 n0h y1 y2 8 12 30 y3 y4 - y5 - y6 - ni0 8 12 30 35 35 45 55 65 165 20 30 35 45 55 65 250 Osservando la Tab. 2 si può rilevare che y1 dipende unilateralmente da x1 e x2 in quanto n01 = 20 = [(n11 = n10 = 8) + (n21 = n20 = 12)] , x5 dipende da y4 , y5 , y6 poichè n50 = 165 = [(n54 = n04 = 45) + (n55 = n05 = 55) + (n56 = n06 = 65)] mentre tra x3 ed y2 ricorre una relazione di dipendenza bilaterale e 3 Quaderno n. 14 del 2008 Giovannei Portoso quindi n30 = n32 = n02 = 30; medesimo legame si rinviene tra x4 ed y3 e pertanto n40 = n43 = n03 = 35. Calcolando il Chi quadro sulla Tab. 2, si ottiene 750 , che sembra divergere da quello ottenibile applicando la (1) . Quest’ultimo, infatti, risulta essere : 250 [min(5,6)-1] = 1000 . In realtà occorre tener conto delle scomponibilità e rettificare la (1) considerando i vincoli connesse ad esse; pertanto nel caso in questione si ha : 250 [min(5-2+1,6-3+1)-1] = 250 [min(4,4)-1] = 750 . Sempre con riferimento alla Tab. 2, i due marginali di riga : n10 + n20 risultano aggregati in un marginale di colonna : n01 = 20 ; da cui : -2+1 ; sull’altro versante tre marginali di colonna : n04 + n05 + n06 risultano aggregati in un marginale di riga : n05 = 165, da cui : -3+1 . Non va sottaciuto che nel calcolo di MaxT non si tiene conto dei contrappesi dovuti alla scomponibilità come sopra configurata allorquando essa ricorre - anche se ciò avviene molto raramente - con la possibile conseguenza di elevarlo verso l’alto e falsare ancor più la valutazione e l’interpretazione del legame associativo quando esso viene utilizzato come fattore di normalizzazione nell’indice di Cramer. In generale la distribuzione massimante, che conduce al calcolo del massimo Chi quadrato e per s<>t , presuppone alcune o tutte le uguaglianze esemplificate nella Tab. 2 e formalizzate nel seguito : a) ni0 = nih = n0h per il caso di dipendenza bilaterale e quindi analoga alla condizione posta per s=t ; b) ni0 = Σ h (nih = n0h) per la dipendenza unilaterale di X da Y ; c) n0h = Σi (nih = ni0) per la dipendenza unilaterale di Y da X . Considerato che nella Tab. 2 compaiono diverse tipologie di dipendenze unilaterali di verso opposto, si fa osservare che non sembra essere pienamente adeguata la terminologia italiana, che classifica lo schema di cui alla Tab. 2 come massima dipendenza unilaterale in quanto, potendo coesistere nella medesima distribuzione massimante l’unilateralità di Y da X e di X da Y, si potrebbero ingenerare equivoche interpretazioni mentre risulta più consona o perlomeno aliena da malintesi quella anglosassone di complete dependence . 4 Quaderni del Dipartimento Semeq – Facoltà di Economia - Novara 3. Minima associazione in distribuzioni quadrate Allorquando non ricorrono i suddetti presupposti di massima associazione, identificabili, per le tavole quadrate, nella assoluta coincidenza tra i totali marginali di riga e colonna e, per le distribuzioni rettangolari, nella coincidenza parziale nel senso succitato di alcuni totali marginali scomponibili negli omologhi trasposti, si delineano condizioni di dipendenza più riduttive ed il massimo Chi quadrato calcolabile risulta più basso di MaxT . Validi contributi ed interessanti riflessioni sul grado di dipendenza di matrici di contingenza sono sviluppati nei lavori di Marshall e Olkin (1979), Joe (1985), Cifarelli e Ragazzini (1986), Scarsini (1990) Greselin e Zenga (2004); tutti, pur partendo da diversi angoli di visuale, individuano criteri di ordinamento delle suddette matrici in relazione al grado di associazione. E’ opportuno precisare che l’obiettivo perseguito in questa nota, anche se si pone in detto solco di studi, è leggermente diverso in quanto al fine della costruzione del range di oscillazione del massimo Chi quadro, dopo aver precisato le condizioni che conducono all’individuazione di MaxT , che rappresenta l’estremo superiore, s’intende identificare l’estremo inferiore sulla base del più debole legame associativo tra le due variabili categoriche X ed Y ; la ricerca s’indirizza pertanto sulla formalizzazione dello schema associativo che garantisca il binomio : minima connessione – massimo Chi quadro. Sviluppando un’idea rinvenibile nel lavoro di Joe (1985), che fa accenno alla concentrazione delle frequenze senza considerare i marginali ed in quello di Scarsini (1990), che invece tiene conto di essi per ordinare le matrici di contingenza secondo il loro grado di dipendenza , si è adottata la massima dissomiglianza tra i due vettori marginali quale criterio base per puntualizzare la minima associazione sia in relazione a tavole di contingenza quadrate che rettangolari. Per tavole di contingenza quadrate quindi il criterio suddetto si realizza allorquando una delle due variabili categoriche (X o Y) presenta frequenze marginali fortemente eterogenee e l’altra minimamente eterogenee, o che è lo stesso, massimamente omogenee; ciò si verifica quando ad una sequenza di 1, in numero pari a s-1, chiusa da N-s+1 , si contrappone un vettore di N/t in numero pari a t (Portoso, 2007/1). L’allocazione dei valori, pari ai minimi dei marginali omologhi all’interno della distribuzione in cui il legame associativo è minimale, è suscettibile di due soluzioni alternative : diagonalizzazione degli 1 o linearizzazione, intesa come posizionamento su una riga o colonna, di essi. 5 Quaderno n. 14 del 2008 Giovannei Portoso Si è assunta la soluzione basata sulla linearizzazione in quanto conduce al Chi quadro più elevato, indicato con MaxD2 . Quindi, anche se la soluzione diagonalizzante conduce ad un valore minorante, si è considerato l’estremo inferiore del massimo Chi quadrato, che risulta, come si evince dalla (2) , molto condizionato dal valore di N a parità di s . Infatti : MaxD2 = N (s-1)2/(N-s+1) = MaxT (s-1)/(N-s+1) (2) Cioè MaxD2 acquisisce valori pari al suo valore massimo MaxT , fattorizzato per il rapporto (s-1)/(N-s+1). Il range di oscillazione, indicato con MaxG , risulta essere : MaxG = N (s-1) - N(s-1)2/(N-s+1) = N (s-1) [1 - (s-1)/(N-s+1)] = = MaxT (N-2s+2)/(N-s+1) (3) Essendo il fattore di riduzione massimo, (N-2s+2)/(N-s+1) , di poco inferiore ad 1 , ne deriva che il range di oscillazione - nel caso di tavole di contingenza quadrate – è abbastanza prossimo a MaxT . Allo scopo di visualizzare l’ampiezza delle oscillazione del massimo Chi quadrato, la si è espressa in termini relativi rispetto al massimo teorico, MaxT , ai livelli percentuali del 90%, 95% e 99% , vincolandola ai minimi di N e ad s come nella Fig. 1. In detta Fig. si è ritenuto opportuno non considerare valori di s superiori a 16 per non dilatare troppo il grafico; comunque non sussiste alcun impedimento a superare detto valore. I minimi di N , evidenziati attraverso cornici quadrate ombreggiate, linearmente legati ai valori di s , indicano le soglie più basse necessarie per garantire la possibilità potenziale che il range di oscillazione del massimo Chi quadro possa ampliarsi fino a raggiungere il 90%, il 95%, il 99% di MaxT , com’è noto, pari a N (s-1). , ricorrendo comunque condizioni minimali di connessione. Considerando ad esempio una tavola di contingenza 3x3 e per N pari rispettivamente a 22, 42, 193 - in caso di minima dipendenza tra le due variabili categoriche - il massimo Chi quadro ottenibile, raggiunge per i suddetti valori, rispettivamente, un livello pari al 90%, 95% e 99% di quello teorico. 6 Quaderni del Dipartimento Semeq – Facoltà di Economia - Novara Fig. 1 – Minima Associazione : Valori di s e minimi di N , necessari per un’ampiezza di oscillazione del massimo Chi quadro ai livelli percentuali indicati in legenda . Minimi di N 1600 1400 1200 1000 800 600 400 97 193 200 21 42 0 90% 95% 99% 1348 1155 963 770 578 385 1444 1252 1059 867 674 482 63 84 315 252 273 294 189 210 231 168 147 105 126 289 165 110 121 132 143 154 11 22 33 44 55 66 77 88 99 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 s = numero di righe e colonne La forte ampiezza del range di oscillazione del massimo Chi quadrato adombra la scarsa idoneità di quest’ultimo ad essere usato in modo generalizzato come fattore normalizzante del Chi quadrato empirico calcolato sui dati osservati. 4. Minima associazione in distribuzioni rettangolari Nelle distribuzioni rettangolari, per s<>t , la ricerca dell’estremo inferiore è complicata dalla diversità di s da t. Per semplicità di trattazione, poniamo t>s ; il caso alternativo è riconducibile al primo, scambiando t con s. Il concetto chiave è sempre quello seguito nelle distribuzioni quadrate e cioè che il massimo Chi quadrato, calcolato tenendo conto dei marginali osservati, si riduce man mano che la diversità tra i vettori dei marginali si accentua. Si pongono, però, due tipi di problemi per la ricerca del massimo Chi quadrato corrispondente ad una minima dipendenza tra le due variabili 7 Quaderno n. 14 del 2008 Giovannei Portoso categoriche; cioè a dire per la ricerca dell’estremo inferiore del range di oscillazione. . 1) Problema di contrapposizione . E’ più alto il Chi quadrato ottenibile da una sequenza di 1 , in numero di t-1, non superiore alla sequenza di N/s o viceversa? 2) Problema di allocazione .Si ricava un Chi quadrato più elevato posizionando la sequenza di 1 , sia pure parzialmente, sulla diagonale della tavola di contingenza o linearizzandola su una qualsiasi riga o colonna di essa? Incrociando le soluzioni ottenibili, si hanno quattro possibili casi : 1) Numero di 1 , pari a t , non inferiori al numero di N/s e parzialmente diagonalizzati nella tavola di minima associazione; il Chi quadro ottenibile, indicato con D1 , come da verifica riportata nell’Appendice n. 1, é : D1 = N (s-1)(t-1)/(N-t+1) - s (s-1)(2t-s-2)/(N-t+1) (4) 2) Numero di 1 , pari a t , non inferiori al numero di N/s e posizionati su una riga qualsiasi della tavola di minima dipendenza; il Chi quadro ottenibile, indicato con D2 , come da verifica riportata nell’Appendice n. 2, risulta essere : D2 = N (s-1)(t-1)/(N-t+1) (5) 3) Numero di 1 , pari a s , inferiori al numero di N/t e diagonalizzati nella tavola di minima connessione; il Chi quadro ottenibile, indicato con D3 , come da verifica riportata nell’Appendice n. 3, é : D3 = N (s-1)(t-1)/(N-s+1) - t (s-1)(s-2)/(N-s+1) (6) 4) Numero di 1 , pari a s , inferiori al numero di N/t e posizionati su una colonna qualsiasi della tavola di minima associazione; il Chi quadro ottenibile, indicato con D4 , come da verifica riportata nell’Appendice n. 4, é : D4 = N (s-1)(t-1)/(N-s+1) (7) 8 Quaderni del Dipartimento Semeq – Facoltà di Economia - Novara Comparando i risultati di cui alla (4), (5), (6), (7), non è difficile desumere che quelli di cui alla (4) e alla (6), considerando la negatività del secondo fattore, sono minoranti; il D4 è anch’esso un minorante rispetto a D2 in quanto - essendo s<t - (N-s+1) > (N-t+1) . Pertanto l’estremo inferiore del massimo Chi quadrato, D2 si realizza allorquando gli 1 sono prevalenti e risultano allocati su una riga o colonna qualsiasi della tavola di minima connessione; esso é funzionalmente dipendente solo da N , s e t . Il range di oscillazione, MaxG , è quindi : MaxG = N (s-1) - N (s-1)(t-1)/(N-t+1) = N (s-1) [1-(t-1)/(N-t+1)] = = MaxT (N-2t+2)/(N-t+1) (8) Per s=t , la (8) si identifica con la (3) e la (5) con la (2); valgono pertanto le medesime osservazioni emerse in precedenza e cioè che il range di oscillazione, MaxG , é molto ampio e quindi - per s<t - MaxT = N (s-1) può distaccarsi notevolmente dal massimo Chi quadro calcolabile sulla base dei marginali contenuti nella tavola di contingenza osservata. Poiché, come è stato ribadito, MaxT viene utilizzato quale fattore normalizzante nell’indice di Cramer, anche nel caso di tavole di contingenza rettangolari non si possono non nutrire seri dubbi sulla sua idoneità a detto uso ed all’errore interpretativo che esso introduce in tema di valutazione del legame associativo tra due variabili categoriche. Pertanto una sua correzione con la surrogazione di un massimo ancorato ai marginali empirici diventa più che auspicabile. 5. Indice di Cramer e discrepanze inferenziali Nei paragrafi precedenti si è focalizzata l’attenzione sul campo di oscillazione del massimo Chi quadrato, che, in relazione ai marginali osservati, può oscillare in modo alquanto ampio come si può desumere dalla (3), dalla Fig 1 e dalla (8). Sulla base di tutto ciò, si pongono seri problemi interpretativi del legame associativo tra due variabili categoriche allorquando viene usato, come si è già accennato, MaxT quale unico fattore normalizzante dell’indice di Cramer. In altri lavori (Portoso, 2007/2) e (Portoso, 2008) si sono delineate le procedure, diagonalizzazione e cograduazione (Salvemini, 1939), atte a 9 Quaderno n. 14 del 2008 Giovannei Portoso configurare distribuzioni massimanti, intendendo come tali quelle che evidenziano il massimo legame ancorato però ai totali marginali osservati e quindi consentono di calcolare il massimo Chi quadro empirico, indicato con MaxE < MaxT . In questa sede non ci si sofferma sulle suddette procedure ma si rinvia ad esse. Si vuole soltanto porre in evidenza che l’uso generalizzato di MaxT nell’indice di Cramer può condurre talvolta a situazioni inaccettabili anche sotto il profilo inferenziale. Un semplice esempio, riportato nella Tab. 3 può essere di valido ausilio in tal senso. Supponendo un campione casuale semplice di dimensione 900, la Tab. 3 presenta un Chi quadro empirico pari a 30,368 con un p-value bassissimo pari a 2,545 . 10 -7. Detto valore, consentendo il rigetto dell’ipotesi nulla d’indipendenza tra le due variabili, fa propendere per un’ipotesi di connessione nella popolazione di riferimento. Tabella 3 – Tavola di contingenza (valori ipotetici) 3x2 ed indici relativi. X|Y x1 x2 x3 n0h y1 5 10 35 50 y2 285 290 275 850 ni0 INDICI 290 χ² = 30,368 300 p-value = 2,545 . 10 -7 310 MaxT = 900 900 χ²/MaxT = 0,034 Il valore dell’indice di Cramer pari a 0,034, riportato nell’ultima finca della Tab. 3 - pur non avendo valenza inferenziale - configura in ambito campionario, un’associazione bassissima, molto vicina alla indipendenza mentre il medesimo campione, usato in ottica induttiva, fornisce con l’induzione ricavabile attraverso la valutazione del p-value il supporto per il rigetto dell’ipotesi nulla. Se invece lo si rettifica con MaxE pari a 111,359 della Tab 3bis, ricavato massimizzando la connessione, si perviene al risultato di 0,273 riportato nella medesima tabella, che denota l’esistenza di un legame associativo sia pure non elevato ma più in assonanza con il risultato campionario. La valutazione del risultato desumibile dall’indice quadratico pari a (0,273)1/2 = 0,522 amplifica ancora di più l’aumento del legame associativo nell’ambito del campione esaminato. Si noti anche nella Tab. 3bis la sensibile riduzione che subisce MaxT allorquando si consideri la minima associazione possibile sulla base solo di N , s e t secondo la (5); D2 risulta essere di poco superiore a 2 , molto 10 Quaderni del Dipartimento Semeq – Facoltà di Economia - Novara distante da MaxT = 900 con un range di oscillazione pari a circa 898, corrispondente al 99,8% del suo estremo superiore. Tabella 3bis – Distribuzione massimante della Tab.3 ed indici relativi. X|Y y1 x1 50 x2 x3 n0h 50 y2 240 300 310 850 ni0 INDICI 290 MaxE = 111,359 300 χ²/MaxE = 0,273 310 D2 = 2,0045 900 I% = 87,8 % Nell’ultima finca della Tab. 3bis è stato anche calcolato il guadagno associativo percentuale pari all’87,8%, atto a valutare il potenziamento valutativo del legame connettivo tra le due variabili categoriche attraverso l’uso della formula : I% = 100 (MaxT – MaxE) / (MaxT - D2) (9) Esso non è di poco conto e quantifica su base normalizzata, fatta pari a 100, il miglioramento interpretativo della connessione esistente tra le due variabili categoriche. 5. Considerazioni conclusive L’analisi degli estremi superiori ed inferiori del massimo Chi quadro ha fatto emergere interessanti considerazioni sia in merito alle condizioni di massima associazione, che sono state ulteriormente precisate con la valutazione della scomponibilità dei totali marginali sia con riferimento alle condizioni di minima dipendenza, di cui si sono esaminate configurazioni alternative con l’individuazione di quella che conduce al calcolo del massimo Chi quadro compatibile con dipendenza minimale. Il range d’oscillazione è risultato essere alquanto ampio e ciò depone a favore delle tesi orientata alla sostituzione di MaxT , che, come si è visto, si realizza solo in casi di assoluta o completa dipendenza anche se va sottolineato, dall’altro canto, che sul versante opposto difficilmente la realtà presenta variabili categoriche con legami associativi minimi. Pertanto l’accettabilità incondizionata e generalizzata del massimo Chi quadrato espressa dalla (1) come fattore normalizzante dell’indice di Cramer sembra 11 Quaderno n. 14 del 2008 Giovannei Portoso non possa essere sempre condivisa anche perché essa si traduce, il più delle volte, in una interpretazione distorta dell’associazione tra due variabili categoriche. Sarebbe più che opportuno ancorare la sua determinazione alle frequenze marginali disponibili soprattutto allorquando esse sono comparativamente molto divergenti nel senso esplicitato nella presente nota. In conclusione va ribadito che la necessità della rimozione di MaxT nell’indice di Cramer e la sua surrogazione con un massimo legato ai totali si accentua allorquando le distribuzioni marginali delle frequenze risultano, sotto il profilo dell’eterogeneità, fortemente antitetiche. 12 Quaderni del Dipartimento Semeq – Facoltà di Economia - Novara Riferimenti bibliografici Bonferroni C.E. (1940) Elementi di Statistica Generale, Litografia Gilli, Torino, pag. 275. Ciferelli D. M., Regazzini E. (1986) Concentration function and its role in descriptive statistics, Proceedings of the 33rd scientific meeting of the Italian statistical society, vol. 2, 347-352. Cramer H. (1951) Mathematical Methods of Statistics, Princeton University Press, Princeton. Greselin F., Zenga M. (2004) A partial ordering of Dependence for contingency tables, Statistica & Applicazioni, Vol. II, 1, 53-71. Joe H. (1985) An ordering of dependence for contingency tables, Linear algebra and its applications, 70, 89-103. Marshall A. W., Olkin I. (1979), Inequalities : Theory of Majorization and its Applications, Academic Press, New York. Portoso G. (2007/1) Indici e Distribuzioni Massimanti in Tavole di Contingenza quadrate con marginali prefissati, Rivista Italiana di Economia, Demografia e Statistica, Vol. LXI, n. 3-4, 391-400. Portoso G. (2007/2) Una proposta di correzione dell’Indice di Cramer per Tavole di Contingenza quadrate, Quaderno n. 25 del Dipartimento Semeq, Novara, 1-15. Portoso G. (2008) Rilievi ed Osservazioni sulla Massimizzazione del Chi Quadrato, Rivista Italiana di Economia, Demografia e Statistica, in corso di pubblicazione. . Salvemini T. (1939) Sugli indici di omofilia, Atti della I Riunione della Società Italiana di Statistica, Pisa. Scarsini M. (1990) An ordering of Dependence, Topics in Statistical Dependence, Hayward Institute of Mathematical Statistics. 13 Quaderno n. 14 del 2008 Giovannei Portoso Appendice n. 1 per t > s Verifica della relazione : D1 = N(s-1)(t-1)/(N-t +1) – s (s -1)(2t - s -2) / (Nt+1) D1 = N [(s-1)/(N/s) + (t-s)/(N/s) + (s-1)(N/s-1)2/(N/s)/(N-t+1) + (N/s–t +s)2 /(N/s)/(N-t+1) - 1] = = [(t-1)(N-t+1) + (s-1)(N/s-1)2 + (N/s–t+s)2 – (N/s)(N-t+1)] / [(N-t+1)/s] = = [(N-t+1)(t-1-N/s) + (s-1)(N2/s2- 2N/s+1) + (N/s–t)2 + s2 + 2s(N/s-t)] / [(N-t+1)/s] = = [(N-t+1)(t-1-N/s) + N2/s + s + 2N/s -1 - 2tN/s + t2+ s2 - 2st] / [(N-t+1)/s]= = [(N-t+1)(t-1-N/s) + N/s (N + 2 - 2t) + (s-1) + (t – s)2 ] / [(N-t+1)/s] = = [(N-t+1)(t-1-N/s) + N/s (N + 2 - 2t) + (s-1) + (t – s)2 ] / [(N-t+1)/s] = = [s(N-t+1)(t-1-N/s) + N (N + 2 - 2t) + s(s-1) + s(t – s)2 ] / [N-t+1] = = [ Nt -N + Nst + st - Ns + st - s + s2 - s - 2ts2 + s3 + 2N – 2tN ] / [N-t+1] = = [N – Nt + Nts – Ns + s3 + s2 + 2st – 2ts2 - 2s ] / [N-t+1] = = [ N(s -1)(t -1) + s(s -1)(s - 2t + 2)] / [N-t+1] = = [ N(s -1)(t -1) / (N-t+1)] - [s(s -1)( 2t - s - 2)/(N-t+1)] Appendice n. 2 per t > s Verifica della relazione : D2 = N (s-1)(t-1) / (N-t+1) D2 = N [(t-1)/(N/s)+(N/s-t+1)2/(N/s)/(N-t+1)+(s-1)(N2/s2)/(N/s)/(N-t+1)-1] = = N[(t-1)(N-t+1)+(N/s-t+1)2+(s-1)(N2/s2)-(N/s)(N-t+1)] / [(N-t+1)/s] = = [(-N/s+t-1)(N-t+1) + (N/s-t+1)2 + /s-1)( N2/s2) ] / [ (N-t+1)/s] = 14 Quaderni del Dipartimento Semeq – Facoltà di Economia - Novara = [(-N+N/s) (N/s-t+1) + (s-1) N2/s2) ] / [(N-t+1)/s] = = [(s-1)/s (-N) (N/s-t+1) + (s-1) N2/s2) ] / [(N-t+1)/s] = = [(s-1)/s (Nt - N)] / [(N-t+1)/s ] = [N (s-1)(t-1)] / [N - t+1] Appendice n. 3 per t > s Verifica della relazione : D3 = N(s-1)(t-1)/(N-s+1) – t (s-1)(s-2) / (N-s+1) D3 = N [(s-1)/(N/t)+(s-1)(N/t-1)2/(N/t)/(N-s+1)+(N2/t2)(t-s+1)/(N/t)/(N-s+1) - 1] = = [(s-1)(N-s+1)+(s-1)(N/t-1)2+(N2/t2)(t-s+1) – (N/t)(N-s+1)] / [(N-s+1)/t] = = [(N-s+1)(s-1-N/t) + (s-1) (N2/t2- 2N/t +1)+ (N2/t2)(t-s+1)] / [(N-s+1)/t ] = = [(N-s+1)(s-1-N/t) + N2/t - 2sN/t + s + 2N/t - 1)] / [(N-s+1)/t ] = = [(N-s+1)(st-t-N) + N2 - 2sN + st + 2N - t)] / [N-s+1] = = [ Ns -N + Nst – s2t + st - Nt + st - t + st - t + 2N – 2sN ] / [N-s+1] = = [ Nst - Nt + N – sN - s2t + 3st – 2t ] / [ N-s+1] = = [ N ( st - t + 1 -s) – s2t + 3st - 2t ] / [ N-s+1] = = [ N(s-1) (t -1) – t (s2 - 3s + 2)] / [N-s+1] = = [ N(s-1)(t-1) /(N-s+1)] – [t(s-1)(s-2)/(N-s+1)] Appendice n. 4 per t > s Verifica della relazione : D4 = N (s-1)(t-1) / (N-s+1) 15 Quaderno n. 14 del 2008 Giovannei Portoso D4 = N [s-1)/(N/t)+(N/t-s+1)2/(N/t)/(N-s+1)+(t-1)(N2/t2) / (N/t)/(N-s+1) -1] = = N [(s-1)(N-s+1)+(N/t-s+1)2+(t-1)(N2/t2)-(N/t)(N-s+1)] / [(N-s+1)/t] = = [(-N/t+s-1)(N-s+1) + (N/t-s+1)2 + /t-1)( N2/t2) ] / [ (N-s+1)/t] = = [(-N+N/t) (N/t-s+1) + (t-1) N2/t2 ] / [(N-s+1)/t] = = [(t-1)/t (-N) (N/t-s+1) + (t-1)/t (N2/t) ] / [(N-s+1)/t] = = [(t-1)/t (Ns - N)] / [(N-s+1)/t ] = [N (s-1)(t-1)] / [N -s+1] 16 Quaderni del Dipartimento Semeq – Facoltà di Economia - Novara Summary On the maximum Chi-square range of the variation In this paper we analyze the maximum of the K. Pearson’s index χ², named by us : MaxT , that for rectangular contingency tables as per common knowledge, is calculated by multiplying N [min(s,t) -1], as being the product between the observed population’s numerousness, N , and the categories’ number, where s is the number of rows and t the number of columns. This maximum is achievable just in case of absolute and complete dependence between the two categorical variables; such variables were analysed in both rectangular and quadratic contingency tables. Otherwise from the conditions mentioned here above, the MaxT is unachievable and the maximum empirical χ² , named by us : MaxE , is calculated by maximizing the associative relationship resultant from the contingency table observed; this value decreases more and more following the rise of the divergence between the two distributions of marginal totals. We determined the conditions of maximum divergence between the two distributions of marginal totals for both rectangular and quadratic tables in order to reckon the lower bound, namely the maximum χ² achievable and compatible with the lowest associative relationship between the two variables. All the evidence makes it clear that the lower bound is solely dependent on N , s e t and could be very distant from the upper bound (MaxT). The fluctuation of maximum χ² over wide-range of values invalidates the common taking on MaxT as standardizing factor in the H. Cramer index, therefore we propose the substitution of MaxT with MaxE . By proposing an exemplifying case, we examine the discrepancy that may arise in such statistical sampling ambit when p-value turns out to be very low and therefore we dismiss the hypothesis of independence between the two variables. The Cramer index - that has no inferential value - borders zero and therefore this is expressive of an independence condition; otherwise, by considering MaxE as the standardizing factor, it properly represents quantitatively conditions of relative dependence in line with the sampling data. 17