SUL RANGE DI OSCILLAZIONE DEL MASSIMO CHI QUADRATO

Transcript

SUL RANGE DI OSCILLAZIONE DEL MASSIMO CHI QUADRATO
Quaderni del Dipartimento Semeq – Facoltà di Economia - Novara
SUL RANGE DI OSCILLAZIONE
DEL MASSIMO CHI QUADRATO
On the maximum Chi-square range of variation
Giovanni Portoso
Dipartimento Semeq - Facoltà di Economia - Novara
[email protected]
1. Introduzione
Oggetto della presente nota é la massimizzazione dell’indice Chi
quadrato di K. Pearson, esaminata in relazione a condizioni antitetiche, anzi
estreme, d’intensità del legame associativo tra due variabili categoriche di
tipo sconnesso e con riferimento sia a tavole di contingenza quadrate che
rettangolari.
Il massimo del suddetto indice, indicato nel seguito con MaxT , fu
individuato da C.E. Bonferroni (1940) ed utilizzato da C.E. Cramer (1951)
quale fattore normalizzante nell’indice che richiama il suo nome.
Esso, come è noto, si formalizza come segue :
MaxT = N [min(s,t) -1]
(1)
in cui N sta ad indicare la dimensione del collettivo del quale si
esaminano due caratteri qualitativi non ordinabili disposti in una
distribuzione doppia, s il numero delle righe e t quello delle colonne.
Si sono considerate e definite le condizioni di dipendenza bilaterale e
unilaterale, che devono sussistere affinché la tavola di contingenza possa
configurarsi come una distribuzione massimante e quindi condurre a MaxT .
Esse, come si rileverà nel seguito, sono basate sulla valutazione comparativa
delle frequenze marginali e richiedono la sussistenza di vincoli di
uguaglianza difficilmente riscontrabili nei contesti empirici; pertanto, in
assenza delle suddette condizioni, MaxT finisce con l’essere il più delle
volte un massimo teorico ed assumere un ruolo del tutto virtuale, ponendosi
1
Quaderno n. 14 del 2008
Giovannei Portoso
come un valore target difficilmente raggiungibile e quindi distaccato dal
massimo Chi quadro compatibile con i marginali empirici ed indicato nel
seguito con MaxE .
Si sono esaminate le condizioni sulla base delle quali la distanza tra
MaxT e MaxE - ai fini del calcolo del Chi quadrato – diventa massima; ciò
ha consentito di determinare l’estremo inferiore di MaxE , che risulta
relativamente lontano da MaxT e di definire il range di variazione.
Nell’ultima parte con riferimento alla valutazione del legame associativo
fra due variabili categoriche, si è posto l’accento su distorsioni di carattere
interpretativo, cui l’uso generalizzato di MaxT, quale elemento di
normalizzazione nell’indice di Cramer, può condurre.
2. Massima dipendenza unilaterale e bilaterale
MaxT , per tavole quadrate e quindi per s=t , si riduce a N (s-1) ; esso si
realizza in caso di massima dipendenza bilaterale - absolute dependence
nella dizione anglosassone - allorquando i totali marginali di riga, gli ni0 per
1< i < s, coincidono perfettamente con gli omologhi di colonna, n0i per 1< i
< t ed ogni xi é legato al corrispondente yi da una relazione di uguaglianza.
Generalizzando quindi, la distribuzione massimante per il calcolo del
massimo Chi quadrato e per s=t , postula l’uguaglianza : ni0 = nii = n0i per
ogni i ε (1,...., s).
Per le distribuzioni rettangolari, s >< t , MaxT si raggiunge solo in caso
di massima dipendenza unilaterale - complete dependence secondo la
terminologia anglosassone - che si manifesta allorquando più categorie della
mutabile statistica X (o Y) risultano strettamente legate a qualche categoria di
Y (o X) ; con riferimento ai marginali, nella massima dipendenza unilaterale,
alcuni totali di riga (o colonna) sono perfettamente disaggregabili in quelli di
colonna (o riga) ed altri totali risultano perfettamente coincidenti con i loro
omologhi come esemplificato nella schema riportato nella Tab. 1.
Nella Tab. 1 si presenta un esempio di massima dipendenza unilaterale;
infatti la categoria x3 dipende funzionalmente da y3 , y4 , y5 attraverso un
legame di tipo additivo e quindi n30 =150 risulta disaggregato in : [(n03 = n33
= 40) + (n04 = n34 = 50) + (n05 = n35 = 60)] .
2
Quaderni del Dipartimento Semeq – Facoltà di Economia - Novara
Tabella 1 – Completa dipendenza di X da Y in una tavola 3x5 di
massima associazione (dati ipotetici).
X|Y
x1
x2
x3
n0h
y1
20
20
y2
30
30
y3 y4 y5 ni0
20
30
40 50 60 150
40 50 60 200
MaxT = 400, calcolato secondo la (1) , coincide con il Chi quadrato
calcolabile sui dati contenuti in Tab. 1 se la dipendenza si manifesta solo su
un versante nel senso di X da Y come nell’esempio riportato nella tabella in
esame o viceversa nel senso di Y da X . In verità la (1) , come si rileverà nel
seguito, andrebbe rettificata tenendo conto delle possibili scomponibilità, ma
se esse si manifestano solo su un versante non vanno ad intaccare il min che
compare nella formula.
Ovviamente le dipendenze possono manifestarsi sull’uno e sull’altro
fronte anche nella medesima tavola nel senso che a qualche modalità della X
possono corrispondere più modalità della Y e viceversa. Pertanto qualche xi
potrà dipendere funzionalmente da diversi yh sulla base di un legame
additivo e viceversa; quindi qualche ni0 potrà risultare scomponibile in più
n0h come qualche n0h potrà disaggregarsi in alcuni ni0 .
Tabella 2 – Completa dipendenza di X da Y e di Y da X in una tavola
5x6 di massima associazione (dati ipotetici).
X|Y
x1
x2
x3
x4
x5
n0h
y1 y2
8 12 30
y3
y4
-
y5
-
y6
-
ni0
8
12
30
35
35
45 55 65 165
20 30 35 45 55 65 250
Osservando la Tab. 2 si può rilevare che y1 dipende unilateralmente da x1
e x2 in quanto n01 = 20 = [(n11 = n10 = 8) + (n21 = n20 = 12)] , x5 dipende da
y4 , y5 , y6 poichè n50 = 165 = [(n54 = n04 = 45) + (n55 = n05 = 55) + (n56 =
n06 = 65)] mentre tra x3 ed y2 ricorre una relazione di dipendenza bilaterale e
3
Quaderno n. 14 del 2008
Giovannei Portoso
quindi n30 = n32 = n02 = 30; medesimo legame si rinviene tra x4 ed y3 e
pertanto n40 = n43 = n03 = 35.
Calcolando il Chi quadro sulla Tab. 2, si ottiene 750 , che sembra
divergere da quello ottenibile applicando la (1) . Quest’ultimo, infatti, risulta
essere : 250 [min(5,6)-1] = 1000 . In realtà occorre tener conto delle
scomponibilità e rettificare la (1) considerando i vincoli connesse ad esse;
pertanto nel caso in questione si ha : 250 [min(5-2+1,6-3+1)-1] = 250
[min(4,4)-1] = 750 .
Sempre con riferimento alla Tab. 2, i due marginali di riga : n10 + n20
risultano aggregati in un marginale di colonna : n01 = 20 ; da cui : -2+1 ;
sull’altro versante tre marginali di colonna : n04 + n05 + n06 risultano
aggregati in un marginale di riga : n05 = 165, da cui : -3+1 .
Non va sottaciuto che nel calcolo di MaxT non si tiene conto dei
contrappesi dovuti alla scomponibilità come sopra configurata allorquando
essa ricorre - anche se ciò avviene molto raramente - con la possibile
conseguenza di elevarlo verso l’alto e falsare ancor più la valutazione e
l’interpretazione del legame associativo quando esso viene utilizzato come
fattore di normalizzazione nell’indice di Cramer.
In generale la distribuzione massimante, che conduce al calcolo del
massimo Chi quadrato e per s<>t , presuppone alcune o tutte le uguaglianze
esemplificate nella Tab. 2 e formalizzate nel seguito :
a) ni0 = nih = n0h per il caso di dipendenza bilaterale e quindi analoga
alla condizione posta per s=t ;
b) ni0 = Σ h (nih = n0h) per la dipendenza unilaterale di X da Y ;
c) n0h = Σi (nih = ni0) per la dipendenza unilaterale di Y da X .
Considerato che nella Tab. 2 compaiono diverse tipologie di dipendenze
unilaterali di verso opposto, si fa osservare che non sembra essere
pienamente adeguata la terminologia italiana, che classifica lo schema di cui
alla Tab. 2 come massima dipendenza unilaterale in quanto, potendo
coesistere nella medesima distribuzione massimante l’unilateralità di Y da X
e di X da Y, si potrebbero ingenerare equivoche interpretazioni mentre risulta
più consona o perlomeno aliena da malintesi quella anglosassone di
complete dependence .
4
Quaderni del Dipartimento Semeq – Facoltà di Economia - Novara
3. Minima associazione in distribuzioni quadrate
Allorquando non ricorrono i suddetti presupposti di massima
associazione, identificabili, per le tavole quadrate, nella assoluta coincidenza
tra i totali marginali di riga e colonna e, per le distribuzioni rettangolari,
nella coincidenza parziale nel senso succitato di alcuni totali marginali
scomponibili negli omologhi trasposti, si delineano condizioni di dipendenza
più riduttive ed il massimo Chi quadrato calcolabile risulta più basso di
MaxT .
Validi contributi ed interessanti riflessioni sul grado di dipendenza di
matrici di contingenza sono sviluppati nei lavori di Marshall e Olkin (1979),
Joe (1985), Cifarelli e Ragazzini (1986), Scarsini (1990) Greselin e Zenga
(2004); tutti, pur partendo da diversi angoli di visuale, individuano criteri di
ordinamento delle suddette matrici in relazione al grado di associazione.
E’ opportuno precisare che l’obiettivo perseguito in questa nota, anche se
si pone in detto solco di studi, è leggermente diverso in quanto al fine della
costruzione del range di oscillazione del massimo Chi quadro, dopo aver
precisato le condizioni che conducono all’individuazione di MaxT , che
rappresenta l’estremo superiore, s’intende identificare l’estremo inferiore
sulla base del più debole legame associativo tra le due variabili categoriche
X ed Y ; la ricerca s’indirizza pertanto sulla formalizzazione dello schema
associativo che garantisca il binomio : minima connessione – massimo Chi
quadro.
Sviluppando un’idea rinvenibile nel lavoro di Joe (1985), che fa accenno
alla concentrazione delle frequenze senza considerare i marginali ed in
quello di Scarsini (1990), che invece tiene conto di essi per ordinare le
matrici di contingenza secondo il loro grado di dipendenza , si è adottata la
massima dissomiglianza tra i due vettori marginali quale criterio base per
puntualizzare la minima associazione sia in relazione a tavole di contingenza
quadrate che rettangolari.
Per tavole di contingenza quadrate quindi il criterio suddetto si realizza
allorquando una delle due variabili categoriche (X o Y) presenta frequenze
marginali fortemente eterogenee e l’altra minimamente eterogenee, o che è
lo stesso, massimamente omogenee; ciò si verifica quando ad una sequenza
di 1, in numero pari a s-1, chiusa da N-s+1 , si contrappone un vettore di N/t
in numero pari a t (Portoso, 2007/1).
L’allocazione dei valori, pari ai minimi dei marginali omologhi
all’interno della distribuzione in cui il legame associativo è minimale, è
suscettibile di due soluzioni alternative : diagonalizzazione degli 1 o
linearizzazione, intesa come posizionamento su una riga o colonna, di essi.
5
Quaderno n. 14 del 2008
Giovannei Portoso
Si è assunta la soluzione basata sulla linearizzazione in quanto conduce al
Chi quadro più elevato, indicato con MaxD2 . Quindi, anche se la soluzione
diagonalizzante conduce ad un valore minorante, si è considerato l’estremo
inferiore del massimo Chi quadrato, che risulta, come si evince dalla (2) ,
molto condizionato dal valore di N a parità di s .
Infatti :
MaxD2 = N (s-1)2/(N-s+1) = MaxT (s-1)/(N-s+1)
(2)
Cioè MaxD2 acquisisce valori pari al suo valore massimo MaxT ,
fattorizzato per il rapporto (s-1)/(N-s+1).
Il range di oscillazione, indicato con MaxG , risulta essere :
MaxG = N (s-1) - N(s-1)2/(N-s+1) = N (s-1) [1 - (s-1)/(N-s+1)] =
= MaxT (N-2s+2)/(N-s+1)
(3)
Essendo il fattore di riduzione massimo, (N-2s+2)/(N-s+1) , di poco
inferiore ad 1 , ne deriva che il range di oscillazione - nel caso di tavole di
contingenza quadrate – è abbastanza prossimo a MaxT .
Allo scopo di visualizzare l’ampiezza delle oscillazione del massimo Chi
quadrato, la si è espressa in termini relativi rispetto al massimo teorico,
MaxT , ai livelli percentuali del 90%, 95% e 99% , vincolandola ai minimi di
N e ad s come nella Fig. 1.
In detta Fig. si è ritenuto opportuno non considerare valori di s superiori a
16 per non dilatare troppo il grafico; comunque non sussiste alcun
impedimento a superare detto valore.
I minimi di N , evidenziati attraverso cornici quadrate ombreggiate,
linearmente legati ai valori di s , indicano le soglie più basse necessarie per
garantire la possibilità potenziale che il range di oscillazione del massimo
Chi quadro possa ampliarsi fino a raggiungere il 90%, il 95%, il 99% di
MaxT , com’è noto, pari a N (s-1). , ricorrendo comunque condizioni
minimali di connessione.
Considerando ad esempio una tavola di contingenza 3x3 e per N pari
rispettivamente a 22, 42, 193 - in caso di minima dipendenza tra le due
variabili categoriche - il massimo Chi quadro ottenibile, raggiunge per i
suddetti valori, rispettivamente, un livello pari al 90%, 95% e 99% di quello
teorico.
6
Quaderni del Dipartimento Semeq – Facoltà di Economia - Novara
Fig. 1 – Minima Associazione : Valori di s e minimi di N , necessari per
un’ampiezza di oscillazione del massimo Chi quadro ai livelli percentuali
indicati in legenda .
Minimi di N
1600
1400
1200
1000
800
600
400 97 193
200 21 42
0
90%
95%
99%
1348
1155
963
770
578
385
1444
1252
1059
867
674
482
63
84
315
252 273 294
189 210 231
168
147
105 126
289
165
110 121 132 143 154
11
22
33
44
55
66
77
88
99
2
3
4
5
6
7
8
9
10 11 12 13 14 15 16
s = numero di righe e colonne
La forte ampiezza del range di oscillazione del massimo Chi quadrato
adombra la scarsa idoneità di quest’ultimo ad essere usato in modo
generalizzato come fattore normalizzante del Chi quadrato empirico
calcolato sui dati osservati.
4. Minima associazione in distribuzioni rettangolari
Nelle distribuzioni rettangolari, per s<>t , la ricerca dell’estremo
inferiore è complicata dalla diversità di s da t. Per semplicità di trattazione,
poniamo t>s ; il caso alternativo è riconducibile al primo, scambiando t con
s.
Il concetto chiave è sempre quello seguito nelle distribuzioni quadrate e
cioè che il massimo Chi quadrato, calcolato tenendo conto dei marginali
osservati, si riduce man mano che la diversità tra i vettori dei marginali si
accentua.
Si pongono, però, due tipi di problemi per la ricerca del massimo Chi
quadrato corrispondente ad una minima dipendenza tra le due variabili
7
Quaderno n. 14 del 2008
Giovannei Portoso
categoriche; cioè a dire per la ricerca dell’estremo inferiore del range di
oscillazione.
.
1) Problema di contrapposizione . E’ più alto il Chi quadrato ottenibile da
una sequenza di 1 , in numero di t-1, non superiore alla sequenza di N/s o
viceversa?
2) Problema di allocazione .Si ricava un Chi quadrato più elevato
posizionando la sequenza di 1 , sia pure parzialmente, sulla diagonale della
tavola di contingenza o linearizzandola su una qualsiasi riga o colonna di
essa?
Incrociando le soluzioni ottenibili, si hanno quattro possibili casi :
1) Numero di 1 , pari a t , non inferiori al numero di N/s e parzialmente
diagonalizzati nella tavola di minima associazione; il Chi quadro ottenibile,
indicato con D1 , come da verifica riportata nell’Appendice n. 1, é :
D1 = N (s-1)(t-1)/(N-t+1) - s (s-1)(2t-s-2)/(N-t+1)
(4)
2) Numero di 1 , pari a t , non inferiori al numero di N/s e posizionati su
una riga qualsiasi della tavola di minima dipendenza; il Chi quadro
ottenibile, indicato con D2 , come da verifica riportata nell’Appendice n. 2,
risulta essere :
D2 = N (s-1)(t-1)/(N-t+1)
(5)
3) Numero di 1 , pari a s , inferiori al numero di N/t e diagonalizzati nella
tavola di minima connessione; il Chi quadro ottenibile, indicato con D3 ,
come da verifica riportata nell’Appendice n. 3, é :
D3 = N (s-1)(t-1)/(N-s+1) - t (s-1)(s-2)/(N-s+1)
(6)
4) Numero di 1 , pari a s , inferiori al numero di N/t e posizionati su una
colonna qualsiasi della tavola di minima associazione; il Chi quadro
ottenibile, indicato con D4 , come da verifica riportata nell’Appendice n. 4, é
:
D4 = N (s-1)(t-1)/(N-s+1)
(7)
8
Quaderni del Dipartimento Semeq – Facoltà di Economia - Novara
Comparando i risultati di cui alla (4), (5), (6), (7), non è difficile
desumere che quelli di cui alla (4) e alla (6), considerando la negatività del
secondo fattore, sono minoranti; il D4 è anch’esso un minorante rispetto a D2
in quanto - essendo s<t - (N-s+1) > (N-t+1) .
Pertanto l’estremo inferiore del massimo Chi quadrato, D2 si realizza
allorquando gli 1 sono prevalenti e risultano allocati su una riga o colonna
qualsiasi della tavola di minima connessione; esso é funzionalmente
dipendente solo da N , s e t .
Il range di oscillazione, MaxG , è quindi :
MaxG = N (s-1) - N (s-1)(t-1)/(N-t+1) = N (s-1) [1-(t-1)/(N-t+1)] =
= MaxT (N-2t+2)/(N-t+1)
(8)
Per s=t , la (8) si identifica con la (3) e la (5) con la (2); valgono pertanto
le medesime osservazioni emerse in precedenza e cioè che il range di
oscillazione, MaxG , é molto ampio e quindi - per s<t - MaxT = N (s-1) può
distaccarsi notevolmente dal massimo Chi quadro calcolabile sulla base dei
marginali contenuti nella tavola di contingenza osservata.
Poiché, come è stato ribadito, MaxT viene utilizzato quale fattore
normalizzante nell’indice di Cramer, anche nel caso di tavole di contingenza
rettangolari non si possono non nutrire seri dubbi sulla sua idoneità a detto
uso ed all’errore interpretativo che esso introduce in tema di valutazione del
legame associativo tra due variabili categoriche.
Pertanto una sua correzione con la surrogazione di un massimo ancorato
ai marginali empirici diventa più che auspicabile.
5. Indice di Cramer e discrepanze inferenziali
Nei paragrafi precedenti si è focalizzata l’attenzione sul campo di
oscillazione del massimo Chi quadrato, che, in relazione ai marginali
osservati, può oscillare in modo alquanto ampio come si può desumere dalla
(3), dalla Fig 1 e dalla (8).
Sulla base di tutto ciò, si pongono seri problemi interpretativi del legame
associativo tra due variabili categoriche allorquando viene usato, come si è
già accennato, MaxT quale unico fattore normalizzante dell’indice di
Cramer.
In altri lavori (Portoso, 2007/2) e (Portoso, 2008) si sono delineate le
procedure, diagonalizzazione e cograduazione (Salvemini, 1939), atte a
9
Quaderno n. 14 del 2008
Giovannei Portoso
configurare distribuzioni massimanti, intendendo come tali quelle che
evidenziano il massimo legame ancorato però ai totali marginali osservati e
quindi consentono di calcolare il massimo Chi quadro empirico, indicato con
MaxE < MaxT .
In questa sede non ci si sofferma sulle suddette procedure ma si rinvia ad
esse. Si vuole soltanto porre in evidenza che l’uso generalizzato di MaxT
nell’indice di Cramer può condurre talvolta a situazioni inaccettabili anche
sotto il profilo inferenziale.
Un semplice esempio, riportato nella Tab. 3 può essere di valido ausilio
in tal senso.
Supponendo un campione casuale semplice di dimensione 900, la Tab. 3
presenta un Chi quadro empirico pari a 30,368 con un p-value bassissimo
pari a 2,545 . 10 -7. Detto valore, consentendo il rigetto dell’ipotesi nulla
d’indipendenza tra le due variabili, fa propendere per un’ipotesi di
connessione nella popolazione di riferimento.
Tabella 3 – Tavola di contingenza (valori ipotetici) 3x2 ed indici relativi.
X|Y
x1
x2
x3
n0h
y1
5
10
35
50
y2
285
290
275
850
ni0
INDICI
290
χ² = 30,368
300 p-value = 2,545 . 10 -7
310
MaxT = 900
900
χ²/MaxT = 0,034
Il valore dell’indice di Cramer pari a 0,034, riportato nell’ultima finca
della Tab. 3 - pur non avendo valenza inferenziale - configura in ambito
campionario, un’associazione bassissima, molto vicina alla indipendenza
mentre il medesimo campione, usato in ottica induttiva, fornisce con
l’induzione ricavabile attraverso la valutazione del p-value il supporto per il
rigetto dell’ipotesi nulla. Se invece lo si rettifica con MaxE pari a 111,359
della Tab 3bis, ricavato massimizzando la connessione, si perviene al
risultato di 0,273 riportato nella medesima tabella, che denota l’esistenza di
un legame associativo sia pure non elevato ma più in assonanza con il
risultato campionario. La valutazione del risultato desumibile dall’indice
quadratico pari a (0,273)1/2 = 0,522 amplifica ancora di più l’aumento del
legame associativo nell’ambito del campione esaminato.
Si noti anche nella Tab. 3bis la sensibile riduzione che subisce MaxT
allorquando si consideri la minima associazione possibile sulla base solo di
N , s e t secondo la (5); D2 risulta essere di poco superiore a 2 , molto
10
Quaderni del Dipartimento Semeq – Facoltà di Economia - Novara
distante da MaxT = 900 con un range di oscillazione pari a circa 898,
corrispondente al 99,8% del suo estremo superiore.
Tabella 3bis – Distribuzione massimante della Tab.3 ed indici relativi.
X|Y y1
x1 50
x2
x3
n0h 50
y2
240
300
310
850
ni0
INDICI
290 MaxE = 111,359
300 χ²/MaxE = 0,273
310
D2 = 2,0045
900
I% = 87,8 %
Nell’ultima finca della Tab. 3bis è stato anche calcolato il guadagno
associativo percentuale pari all’87,8%, atto a valutare il potenziamento
valutativo del legame connettivo tra le due variabili categoriche attraverso
l’uso della formula :
I% = 100 (MaxT – MaxE) / (MaxT - D2)
(9)
Esso non è di poco conto e quantifica su base normalizzata, fatta pari a
100, il miglioramento interpretativo della connessione esistente tra le due
variabili categoriche.
5. Considerazioni conclusive
L’analisi degli estremi superiori ed inferiori del massimo Chi quadro ha
fatto emergere interessanti considerazioni sia in merito alle condizioni di
massima associazione, che sono state ulteriormente precisate con la
valutazione della scomponibilità dei totali marginali sia con riferimento alle
condizioni di minima dipendenza, di cui si sono esaminate configurazioni
alternative con l’individuazione di quella che conduce al calcolo del
massimo Chi quadro compatibile con dipendenza minimale.
Il range d’oscillazione è risultato essere alquanto ampio e ciò depone a
favore delle tesi orientata alla sostituzione di MaxT , che, come si è visto, si
realizza solo in casi di assoluta o completa dipendenza anche se va
sottolineato, dall’altro canto, che sul versante opposto difficilmente la realtà
presenta variabili categoriche con legami associativi minimi. Pertanto
l’accettabilità incondizionata e generalizzata del massimo Chi quadrato
espressa dalla (1) come fattore normalizzante dell’indice di Cramer sembra
11
Quaderno n. 14 del 2008
Giovannei Portoso
non possa essere sempre condivisa anche perché essa si traduce, il più delle
volte, in una interpretazione distorta dell’associazione tra due variabili
categoriche.
Sarebbe più che opportuno ancorare la sua determinazione alle frequenze
marginali disponibili soprattutto allorquando esse sono comparativamente
molto divergenti nel senso esplicitato nella presente nota.
In conclusione va ribadito che la necessità della rimozione di MaxT
nell’indice di Cramer e la sua surrogazione con un massimo legato ai totali
si accentua allorquando le distribuzioni marginali delle frequenze risultano,
sotto il profilo dell’eterogeneità, fortemente antitetiche.
12
Quaderni del Dipartimento Semeq – Facoltà di Economia - Novara
Riferimenti bibliografici
Bonferroni C.E. (1940) Elementi di Statistica Generale, Litografia Gilli, Torino, pag.
275.
Ciferelli D. M., Regazzini E. (1986) Concentration function and its role in
descriptive statistics, Proceedings of the 33rd scientific meeting of the Italian
statistical society, vol. 2, 347-352.
Cramer H. (1951) Mathematical Methods of Statistics, Princeton University Press,
Princeton.
Greselin F., Zenga M. (2004) A partial ordering of Dependence for contingency
tables, Statistica & Applicazioni, Vol. II, 1, 53-71.
Joe H. (1985) An ordering of dependence for contingency tables, Linear algebra
and its applications, 70, 89-103.
Marshall A. W., Olkin I. (1979), Inequalities : Theory of Majorization and its
Applications, Academic Press, New York.
Portoso G. (2007/1) Indici e Distribuzioni Massimanti in Tavole di Contingenza
quadrate con marginali prefissati, Rivista Italiana di Economia, Demografia e
Statistica, Vol. LXI, n. 3-4, 391-400.
Portoso G. (2007/2) Una proposta di correzione dell’Indice di Cramer per Tavole di
Contingenza quadrate, Quaderno n. 25 del Dipartimento Semeq, Novara, 1-15.
Portoso G. (2008) Rilievi ed Osservazioni sulla Massimizzazione del Chi Quadrato,
Rivista Italiana di Economia, Demografia e Statistica, in corso di pubblicazione. .
Salvemini T. (1939) Sugli indici di omofilia, Atti della I Riunione della Società
Italiana di Statistica, Pisa.
Scarsini M. (1990) An ordering of Dependence, Topics in Statistical Dependence,
Hayward Institute of Mathematical Statistics.
13
Quaderno n. 14 del 2008
Giovannei Portoso
Appendice n. 1
per t > s
Verifica della relazione : D1 = N(s-1)(t-1)/(N-t +1) – s (s -1)(2t - s -2) / (Nt+1)
D1 = N [(s-1)/(N/s) + (t-s)/(N/s) + (s-1)(N/s-1)2/(N/s)/(N-t+1) + (N/s–t +s)2
/(N/s)/(N-t+1) - 1] =
= [(t-1)(N-t+1) + (s-1)(N/s-1)2 + (N/s–t+s)2 – (N/s)(N-t+1)] / [(N-t+1)/s] =
= [(N-t+1)(t-1-N/s) + (s-1)(N2/s2- 2N/s+1) + (N/s–t)2 + s2 + 2s(N/s-t)] /
[(N-t+1)/s] =
= [(N-t+1)(t-1-N/s) + N2/s + s + 2N/s -1 - 2tN/s + t2+ s2 - 2st] / [(N-t+1)/s]=
= [(N-t+1)(t-1-N/s) + N/s (N + 2 - 2t) + (s-1) + (t – s)2 ] / [(N-t+1)/s] =
= [(N-t+1)(t-1-N/s) + N/s (N + 2 - 2t) + (s-1) + (t – s)2 ] / [(N-t+1)/s] =
= [s(N-t+1)(t-1-N/s) + N (N + 2 - 2t) + s(s-1) + s(t – s)2 ] / [N-t+1] =
= [ Nt -N + Nst + st - Ns + st - s + s2 - s - 2ts2 + s3 + 2N – 2tN ] / [N-t+1] =
= [N – Nt + Nts – Ns + s3 + s2 + 2st – 2ts2 - 2s ] / [N-t+1] =
= [ N(s -1)(t -1) + s(s -1)(s - 2t + 2)] / [N-t+1] =
= [ N(s -1)(t -1) / (N-t+1)] - [s(s -1)( 2t - s - 2)/(N-t+1)]
Appendice n. 2
per t > s
Verifica della relazione : D2 = N (s-1)(t-1) / (N-t+1)
D2 = N [(t-1)/(N/s)+(N/s-t+1)2/(N/s)/(N-t+1)+(s-1)(N2/s2)/(N/s)/(N-t+1)-1] =
= N[(t-1)(N-t+1)+(N/s-t+1)2+(s-1)(N2/s2)-(N/s)(N-t+1)] / [(N-t+1)/s] =
= [(-N/s+t-1)(N-t+1) + (N/s-t+1)2 + /s-1)( N2/s2) ] / [ (N-t+1)/s] =
14
Quaderni del Dipartimento Semeq – Facoltà di Economia - Novara
= [(-N+N/s) (N/s-t+1) + (s-1) N2/s2) ] / [(N-t+1)/s] =
= [(s-1)/s (-N) (N/s-t+1) + (s-1) N2/s2) ] / [(N-t+1)/s] =
= [(s-1)/s (Nt - N)] / [(N-t+1)/s ] = [N (s-1)(t-1)] / [N - t+1]
Appendice n. 3
per t > s
Verifica della relazione : D3 = N(s-1)(t-1)/(N-s+1) – t (s-1)(s-2) / (N-s+1)
D3 = N [(s-1)/(N/t)+(s-1)(N/t-1)2/(N/t)/(N-s+1)+(N2/t2)(t-s+1)/(N/t)/(N-s+1)
- 1] =
= [(s-1)(N-s+1)+(s-1)(N/t-1)2+(N2/t2)(t-s+1) – (N/t)(N-s+1)] / [(N-s+1)/t] =
= [(N-s+1)(s-1-N/t) + (s-1) (N2/t2- 2N/t +1)+ (N2/t2)(t-s+1)] / [(N-s+1)/t ] =
= [(N-s+1)(s-1-N/t) + N2/t - 2sN/t + s + 2N/t - 1)] / [(N-s+1)/t ] =
= [(N-s+1)(st-t-N) + N2 - 2sN + st + 2N - t)] / [N-s+1] =
= [ Ns -N + Nst – s2t + st - Nt + st - t + st - t + 2N – 2sN ] / [N-s+1] =
= [ Nst - Nt + N – sN - s2t + 3st – 2t ] / [ N-s+1] =
= [ N ( st - t + 1 -s) – s2t + 3st - 2t ] / [ N-s+1] =
= [ N(s-1) (t -1) – t (s2 - 3s + 2)] / [N-s+1] =
= [ N(s-1)(t-1) /(N-s+1)] – [t(s-1)(s-2)/(N-s+1)]
Appendice n. 4
per t > s
Verifica della relazione : D4 = N (s-1)(t-1) / (N-s+1)
15
Quaderno n. 14 del 2008
Giovannei Portoso
D4 = N [s-1)/(N/t)+(N/t-s+1)2/(N/t)/(N-s+1)+(t-1)(N2/t2) /
(N/t)/(N-s+1) -1] =
= N [(s-1)(N-s+1)+(N/t-s+1)2+(t-1)(N2/t2)-(N/t)(N-s+1)] / [(N-s+1)/t] =
= [(-N/t+s-1)(N-s+1) + (N/t-s+1)2 + /t-1)( N2/t2) ] / [ (N-s+1)/t] =
= [(-N+N/t) (N/t-s+1) + (t-1) N2/t2 ] / [(N-s+1)/t] =
= [(t-1)/t (-N) (N/t-s+1) + (t-1)/t (N2/t) ] / [(N-s+1)/t] =
= [(t-1)/t (Ns - N)] / [(N-s+1)/t ] = [N (s-1)(t-1)] / [N -s+1]
16
Quaderni del Dipartimento Semeq – Facoltà di Economia - Novara
Summary
On the maximum Chi-square range of the variation
In this paper we analyze the maximum of the K. Pearson’s index χ²,
named by us : MaxT , that for rectangular contingency tables as per common
knowledge, is calculated by multiplying N [min(s,t) -1], as being the product
between the observed population’s numerousness, N , and the categories’
number, where s is the number of rows and t the number of columns.
This maximum is achievable just in case of absolute and complete
dependence between the two categorical variables; such variables were
analysed in both rectangular and quadratic contingency tables.
Otherwise from the conditions mentioned here above, the MaxT is
unachievable and the maximum empirical χ² , named by us : MaxE , is
calculated by maximizing the associative relationship resultant from the
contingency table observed; this value decreases more and more following
the rise of the divergence between the two distributions of marginal totals.
We determined the conditions of maximum divergence between the two
distributions of marginal totals for both rectangular and quadratic tables in
order to reckon the lower bound, namely the maximum χ² achievable and
compatible with the lowest associative relationship between the two
variables.
All the evidence makes it clear that the lower bound is solely dependent
on N , s e t and could be very distant from the upper bound (MaxT).
The fluctuation of maximum χ² over wide-range of values invalidates
the common taking on MaxT as standardizing factor in the H. Cramer index,
therefore we propose the substitution of MaxT with MaxE .
By proposing an exemplifying case, we examine the discrepancy that
may arise in such statistical sampling ambit when p-value turns out to be
very low and therefore we dismiss the hypothesis of independence between
the two variables. The Cramer index - that has no inferential value - borders
zero and therefore this is expressive of an independence condition;
otherwise, by considering MaxE as the standardizing factor, it properly
represents quantitatively conditions of relative dependence in line with the
sampling data.
17