Appunti di analisi fattoriale

Transcript

Appunti di analisi fattoriale
Germano Rossi e Paola Venuti
15 maggio 2004
vers. 0.1.4
1
Indice
Indice
2
1 L’analisi fattoriale da un punto di vista intuitivo
5
2 Come si esegue un’analisi fattoriale: indicazioni
2.1 Introduzione . . . . . . . . . . . . . . . . . . . . .
2.2 Scelta del campione . . . . . . . . . . . . . . . .
2.3 Dai dati alla matrice di correlazione. . . . . . . .
2.4 Determinazione dei fattori . . . . . . . . . . . . .
2.5 Rotazione dei fattori . . . . . . . . . . . . . . . .
2.6 L’interpretazione dei fattori . . . . . . . . . . . .
2.7 Esempio di interpretazione . . . . . . . . . . . . .
2.8 Punteggi fattoriali . . . . . . . . . . . . . . . . .
2.9 Appendice . . . . . . . . . . . . . . . . . . . . . .
Riferimenti bibliografici . . . . . . . . . . . . . . . . .
2
intuitive
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
13
13
14
15
16
23
26
27
35
35
36
Introduzione
L’analisi fattoriale può genericamente essere pensata come la ricerca di variabili latenti a partire
da alcune variabili osservate. Una variabile osservata è una variabile che è stata effettivamente
misurata, mentre una variabile latente è un tipo di variabile che non è stata misurata, che forse
non è neppure misurabile e che perciò viene ipotizzata e “analizzata” attraverso i suoi effetti.
Le influenze che una variabile latente ha su altre variabili misurabili diventano un modo per
risalire a questa variabile nascosta. Storicamente, nell’ambito dell’analisi fattoriale, le variabili
latenti vengono chiamate “fattori”. Nei suoi primi modelli matematici, l’analisi fattoriale era
una tecnica di analisi esplorativa appunto perché permetteva di “esplorare” le relazioni nascoste
fra un gran numero di variabili. In tempi più recenti, la tecnica delle equazioni strutturali ha
permesso di sviluppare una tecnica di analisi fattoriale di tipo confermativo, che cioè permette
di verificare se effettivamente i fattori ipotizzati servono a spiegare le variabili misurate.
3
Capitolo 1
L’analisi fattoriale da un punto di
vista intuitivo
L’analisi fattoriale è un metodo di elaborazione dei dati che appare molto complesso, in quanto si
basa su una serie di tecniche matematiche piuttosto difficili da studiare e da spiegare in termini
semplici.
Il procedimento logico che sta alla base di questa tecnica e gli scopi per cui viene generalmente
usata sono meno complessi da capire ed è quello che cercheremo qui di illustrare, partendo da
un ipotetico esempio di ricerca basato su dati immaginari.
Supponiamo di voler fare una ricerca per vedere, al termine di una terza media inferiore, che
tipo di abilità hanno acquisito gli allievi, per poterli cosı̀ indirizzare verso la scelta scolastica del
loro futuro.
Si decide di applicare ad ognuno dei 301 ragazzi delle classi terze, una serie di prove (variabili osservate) relative a varie abilità ed acquisizioni insegnate ed apprese nel corso degli anni
scolastici.
Le prove sono le seguenti:
1. Lettura di un testo;
2. Comprensione del brano letto;
3. Descrizione orale di avvenimenti;
4. Invenzione e racconto di una storia;
5. Risoluzione di problemi aritmetici;
6. Contare e ordinare sequenze numeriche;
7. Risoluzione di problemi geometrici;
8. Riconoscimento di figure;
9. Individuazione di parole contenenti errori;
10. Individuazione di particolari uguali in due figure diverse;
11. Individuazione di particolari diversi in due figure uguali;
12. Descrizione scritta di stati d’animo;
13. Risoluzione di rebus.
Queste prove vengono somministrate in ordine casuale e ogni soggetto ottiene per ciascuna
di esse un punteggio compreso fra 1 e 10. Questi risultati sono mostrati nella Tab. 1.1.
Già ad una prima osservazione, questi risultati mostrano che, generalmente, i soggetti che
hanno ottenuto un punteggio alto (ss. 10 e 18), medio (ss. 2 e 15), basso (ss. 20 e 27) nella
prima prova hanno ottenuto risultati simili anche nelle prove 2 e 3. Ancora, i ss. che hanno
ottenuto un punteggio alto (ss. 10 e 4) nella prova 5 hanno ottenuto punteggi alti anche nelle
1
Usiamo un numero di soggetti ridotto a puro titolo esemplificativo (cfr. il cap. 1).
5
6
CAPITOLO 1. UN PUNTO DI VISTA INTUITIVO
Tabella 1.1: Risultati ipotetici ottenuti da 30 ragazzi di terza media in 13 prove finali
Sog.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
1
6
4
7
9
3
4
6
5
5
10
4
6
3
6
4
3
5
10
8
2
4
6
3
7
9
9
1
5
8
7
2
7
3
7
8
2
3
6
4
6
9
3
7
2
7
3
2
6
9
7
1
3
7
2
7
8
10
2
6
7
7
3
6
2
6
7
3
4
6
4
7
7
4
7
3
6
2
3
5
7
6
3
4
6
3
6
7
7
3
7
6
8
4
6
3
7
9
1
4
7
5
6
10
2
8
3
6
3
1
5
9
5
1
2
6
1
7
9
10
1
6
7
8
5
4
8
5
9
6
6
8
6
9
9
4
7
5
6
7
3
6
9
9
4
1
10
5
9
10
8
3
6
7
7
Prove
6
7
3
5
7
7
6
6
10
7
5
5
5
5
7
8
4
6
8
8
7
7
4
4
9
7
6
6
5
5
7
6
2
2
6
7
10 10
9
8
5
4
3
1
9 10
4
5
8
9
9
9
7
7
3
2
6
6
6
7
7
7
8
4
8
6
7
6
5
8
4
9
9
5
6
5
8
7
4
7
8
10
5
4
10
6
7
9
7
5
4
6
6
9
8
1
6
8
4
3
7
4
6
10
2
8
1
8
1
4
6
9
7
3
2
7
3
6
7
8
4
6
8
6
10
5
9
7
6
7
6
9
3
10
10
4
6
5
9
6
4
7
8
9
4
4
9
7
6
8
6
6
4
7
6
11
4
10
7
7
6
7
8
2
9
9
3
5
6
8
5
3
7
8
10
4
3
9
6
7
7
7
8
3
7
5
12
7
1
7
7
2
3
6
4
7
10
1
7
2
7
1
2
6
9
5
4
2
7
3
7
7
9
2
7
7
6
13
5
6
5
9
4
4
7
5
9
7
3
9
5
7
6
2
8
8
10
1
2
8
7
6
8
7
2
9
9
8
prove 6 e 7. I ss. che hanno ottenuto bassi punteggi (s. 21) nella prova 10 li hanno avuti anche
nella 11. Non si riesce però a notare un andamento costante in tutte le prove, ad es. il soggetto 1
ha un punteggio medio nelle prime tre prove, un basso punteggio nelle prove 5 e 6, un punteggio
alto nella nona prova e nuovamente un punteggio basso nelle prove 10 e 11. Questo andamento
si può notare meglio nel grafico di Fig. 1.1 relativo ai ss. 1, 2, 11 e 12.
Si può a questo punto tentare un’ipotesi: tra alcune delle variabili esiste un particolare
rapporto per cui i ss. che ottengono un determinato punteggio in una di queste prove ottengono
punteggi analoghi nelle altre prove dello stesso gruppo. Allo stesso tempo fra altre variabili
esiste un rapporto analogo al precedente anche se non sembra che vi sia una relazione precisa
fra i due gruppi di variabili.
Questa nostra ipotesi sull’andamento dei dati rilevati, però non è facilmente dimostrabile.
Si può perciò pensare di ricorrere ad una metodica statistica che permetta di rilevare in che
misura le variabili siano tra loro in relazione. In statistica ne esiste una che effettivamente
risponde alle nostre esigenze: il coefficiente di correlazione prodotto-momento di Bravais-Pearson
(Cristante, Lis, & Sambin, 1982). Ricordiamo che questo indice statistico misura il grado di
relazione esistente fra due variabili: se le variabili mutano concordemente (nel senso che soggetti
che hanno ottenuto punteggi alti nella prima prova li ottengono pure alti nella seconda, e i
soggetti che invece ottengono punteggi bassi nella prima lo ottengono anche nella seconda) si
7
Figura 1.1: Rappresentazione grafica dei punteggi di alcuni soggetti
avrà una correlazione elevata, se mutano indipendentemente l’una dall’altra non si avrà alcuna
correlazione. Abbiamo utilizzato questo coefficiente di “accordo” considerando tutte le coppie
che è stato possibile ottenere tra le variabili. La Tab. 1.2 riporta i valori di questi coefficienti
in una tabella che è chiamata matrice delle correlazioni. All’incrocio fra una riga e una colonna
si trova l’indice di somiglianza delle due variabili indicate rispettivamente all’inizio della riga ed
in cima alla colonna.
Analizziamo questa tabella considerando come elevate, a solo titolo esemplificativo, le correlazioni superiori o uguali a .80 (anche se questo valore è di molto superiore a quello critico per
un livello di significatività del 5%; cfr. Cristante et al., 1982). La tabella che segue presenta solo
metà dell’intera matrice delle correlazioni perché, la correlazione della variabile 2 con la variabile
3 (.91) è uguale alla correlazione della variabile 3 con la variabile 2. L’intera matrice, quindi, è
simmetrica rispetto alla diagonale (definita principale), cioè le due metà risultano speculari l’una
all’altra. Una seconda caratteristica di questa tabella è la presenza di un trattino ad indicare
la correlazione di una variabile con se stessa che generalmente non viene calcolata oppure viene
indicata con il valore 1.
Tabella 1.2: Matrice delle correlazioni fra prove finali
1
2
3
4
5
6
7
8
9
10
11
12
13
1
.94
.81
.92
.70
.68
.68
.54
.81
.43
.37
.82
.67
2
3
4
5
6
7
8
9
10
11
12
13
.91
.96
.67
.65
.68
.54
.89
.45
.39
.92
.72
.89
.56
.58
.59
.39
.87
.33
.24
.90
.69
.70
.69
.71
.47
.83
.39
.34
.90
.70
.89
.93
.83
.54
.68
.65
.58
.77
.87
.75
.49
.55
.57
.55
.76
.74
.53
.59
.56
.63
.78
.45
.90
.84
.44
.62
.45
.36
.93
.62
.91
.41
.56
.33
.47
.64
-
8
Osservando questa tabella ci rendiamo conto che la nostra ipotesi iniziale era esatta. Esistono
infatti delle relazioni molto alte tra alcune variabili (ad esempio la 1 con la 2; la 1 con la 3; la 2
con la 3, tutte con valori superiori a .80) e altri valori più bassi (ad esempio la 1 con le variabili
8, 10 e 11 tutte inferiori a .55).
Si può quindi dire che le prime 3 variabili sono strettamente collegate fra loro e quindi
potrebbe essere che misurino abilità simili o addirittura aspetti diversi di una sola abilità. Se
ciò è facile da individuare analizzando le prime tre variabili oppure la 5 e la 6, perché sono le
une vicine alle altre, per altre variabili che non presentano questa vicinanza sulla matrice (ad
esempio la 1 e la 9) questo rapporto non è immediatamente visibile.
Proviamo a riorganizzare la matrice delle correlazioni in modo che la maggior parte delle
variabili molto correlate fra loro si trovino le une vicino alle altre anche fisicamente nella matrice
stessa.
Cerchiamo la correlazione più alta esistente nella matrice (.95 tra la variabile 2 e la variabile
4) e riorganizziamo la variabile 2 in ordine decrescente di valori (Tab. 1.3).
Tabella 1.3: Correlazioni della variabile 2 con le altre variabili
var.
2
4
1
12
3
9
13
7
5
6
8
10
11
2
.96
.94
.92
.91
.89
.72
.68
.67
.65
.54
.45
.39
A questo punto riproduciamo tutta la matrice di correlazione secondo l’ordine delle variabili
indicato dai valori decrescenti della variabile 2 (Tab. 1.4).
Possiamo vedere che le variabili 2, 4, 1, 12, 3, 9 e 13 sono tutte tra loro altamente correlate,
mentre le loro correlazioni con tutte le altre variabili sono minori. Analogamente per le variabili
7, 5, 6 e per le variabili 8, 10, 11 le quali formano altri due gruppetti fra loro isolati. Come
risulta dalla Tab. 1.5 si possono individuare, quindi, 3 blocchi di variabili, strettamente unite al
loro interno e separate dalle altre.
Per spiegarci il motivo di questi raggruppamenti2 proviamo ad analizzare il significato delle
variabili che li compongono.
1. Il primo raggruppamento è formato dalle variabili:
2 - Comprensione di un brano letto
4 - Invenzione e racconto di una storia
1 - Lettura di un testo
12 - Descrizione scritta di stati d’animo
3 - Descrizione orale di avvenimenti
2
Usiamo il termine “ raggruppamento” nel suo significato quotidiano; non intendiamo affatto riferirci a tecniche
di analisi particolari quali la cluster analysis.
9
Tabella 1.4: Matrice delle correlazioni ordinata secondo i valori decrescenti della variabile 2
2
4
1
12
3
9
13
7
5
6
8
10
11
2
.96
.94
.92
.91
.89
.72
.68
.67
.65
.54
.45
.39
4
1
12
3
9
13
7
5
6
8
10
11
.92
.90
.89
.83
.70
.71
.70
.69
.47
.39
.34
.82
.81
.81
.67
.68
.70
.68
.54
.43
.37
.90
.93
.64
.63
.58
.55
.44
.41
.33
.87
.69
.59
.56
.58
.39
.33
.24
.62
.53
.54
.49
.45
.45
.36
.78
.77
.76
.62
.56
.47
.93
.87
.74
.59
.56
.89
.83
.68
.65
.75
.55
.57
.90
.84
.91
-
Tabella 1.5: Matrice delle correlazioni con i raggruppamenti delle variabili evidenziati
2
4
1
12
3
9
13
7
5
6
8
10
11
2
.96
.94
.92
.91
.89
.72
.68
.67
.65
.54
.45
.39
4
1
12
3
9
13
7
5
6
8
10
11
.92
.90
.89
.83
.70
.71
.70
.69
.47
.39
.34
.82
.81
.81
.67
.68
.70
.68
.54
.43
.37
.90
.93
.64
.63
.58
.55
.44
.41
.33
.87
.69
.59
.56
.58
.39
.33
.24
.62
.53
.54
.49
.45
.45
.36
.78
.77
.76
.62
.56
.47
.93
.87
.74
.59
.56
.89
.83
.68
.65
.75
.55
.57
.90
.84
.91
-
9 - Individuazione di parole contenenti errori
13 - Risoluzione di rebus
Queste variabili indicano tutte delle abilità di tipo linguistico e verbale legate ai processi
di lettura, scrittura e comprensione di materiale scritto o letto. Le ultime due variabili
indicano delle capacità logiche legate a conoscenze linguistiche o ortografiche.
2. Il secondo raggruppamento è formato da:
7 - Risoluzione di problemi geometrici
5 - Risoluzione di problemi aritmetici
6 - Contare e ordinare sequenze numeriche
Chiaramente, queste variabili indicano tutte un’abilità legata alla conoscenza dei numeri,
dei rapporti matematici e geometrici.
3. Quest’ultimo raggruppamento comprende:
8 - Riconoscimento di figure
10 - Individuazione di particolari uguali in due figure diverse
11 - Individuazione di particolari diversi in due figure uguali
10
Altrettanto chiaramente queste variabili indicano abilità di tipo percettivo relative alla
discriminazione di stimoli visivi.
L’aver raggruppato i dati in questo modo ci ha reso molto più evidente i rapporti esistenti
tra le variabili e ci ha permesso con più facilità di interpretare i risultati. In questo caso, essendo l’esempio immaginario e i dati pochi, stato possibile realizzare raggruppamenti in maniera
empirica ottenendo dei risultati estremamente chiari.
Nella realtà della ricerca psicologica i tatti non sono cosı̀ semplici: il numero dei dati è sovente
maggiore, sono presenti errori nel modo di rilevare i dati, il livello delle correlazioni non sempre
risulta cosı̀ nettamente differenziato... Da queste difficoltà è nata l’esigenza di elaborare una
tecnica matematica e statistica che permettesse di ottenere dei raggruppamenti di variabili in
base ad un tratto comune che li unifica e che consente di spiegare le correlazioni tra esse esistenti.
Questa tecnica è l’analisi fattoriale, che, sebbene utilizzi sofisticati calcoli matematici, nei suoi
processi più intuitivi e logici segue le fasi da noi suesposte. Infatti il punto di partenza di questa
tecnica è una matrice delle correlazioni tra le variabili. Un indice di correlazione ci informa
sull’andamento concomitante di due variabili, non è però possibile dire che, se A correla con B,
allora A è causa di B oppure che B è causa di A. Vale a dire che un alto indice di correlazione ci
permette di capire che al variare di una, varia contemporaneamente anche l’altra. E’ impossibile
dire se una delle due sia responsabile del variare della seconda oppure se entrambe siano legate
ad una terza variabile (sconosciuta) che è responsabile del loro variare concomitante.
Questo stesso ragionamento può essere esteso a tre, quattro o n variabili tutte tra loro
altamente correlate. Una di queste è responsabile del variare delle altre, oppure esiste un’ulteriore
variabile a cui imputare il variare concorde di tutte?
L’Analisi Fattoriale parte appunto dall’ipotesi che esista questa ulteriore variabile che in
qualche modo influenza ed agisce su un gruppo di variabili fra loro altamente correlate. Questa
variabile sottostante (definita fattore) agisce evidentemente su un particolare “tratto” comune
a tutte le altre. L’Analisi fattoriale allora, si assume il compito d’individuare il o i fattori, cioè
le variabili sottostanti ad un gruppo di altre variabili.
Per questo, nell’interpretare i fattori, si procede nel modo da noi seguito in precedenza. Si
cerca cioè di trovare il significato comune alle variabili che confluiscono in un fattore, tenendo
presente che tali variabili non hanno lo stesso peso nel determinare il significato di questo fattore.
Infatti, in base ai calcoli matematici che poi spiegheremo, ad ogni variabile viene attribuito un
valore, chiamato saturazione che ci indica l’importanza che ha quella variabile nel determinare il
significato del fattore. Allora, una variabile con una grande importanza in un fattore, ossia con
un’alta saturazione in quel fattore, influirà più di una variabile con una saturazione più bassa.
Possiamo quindi dire che, poiché l’analisi fattoriale si applica ad un’insieme di dati raccolti
attraverso osservazioni, test, questionari... e tutta la gamma di misurazioni che sono comunemente utilizzate in psicologia, il suo scopo prioritario è quella di ridurre questa vasta quantità
di misurazioni o variabili, attraverso delle variabili-fattore che siano in numero inferiore alle
variabili di partenza e che spieghino tutte le correlazioni delle variabili di quel raggruppamento.
L’analisi fattoriale è stata inizialmente proposta da Charles Spearman nel 1904 e successivamente ampliata con il contributo di altri psicologi. Il contributo di alcuni matematici è
stato importante non tanto nello sviluppo teorico, quanto nell’affinamento di alcune tecniche di
calcolo.
Spearman sosteneva che tutte le misure di abilità mentale relative ad un test potevano essere
spiegate come attribuibili ad un’abilità generale e ad un’abilità specifica. Ciascuna di queste
due abilità dipende, per Spearman da un fattore: un fattore generale e un fattore specifico.
Applicando un test di Q.I. che comprenda una prova di abilità verbale, una di abilità numerica
e una di abilità spaziale, il punteggio finale ottenuto (secondo Spearman) sarà determinato sia
11
dai risultati ottenuti grazie all’abilità specifica del soggetto nei tre campi (fattori specifici) sia
dal suo livello “generale” d’intelligenza (fattore generale).
Questa teoria, denominata teoria dei due fattori, ha orientato per vari anni le ricerche psicologiche finché Thurstone (1945) non propose una modifica, conosciuta come teoria
multifattoriale.
Egli ritenne che non esistesse un unico fattore generale, ma piuttosto diversi fattori definiti
comuni. Questi fattori vengono chiamati comuni in quanto raccolgono solo alcune delle variabili
in esame differenziandosi in tal modo dal fattore generale che era comune a tutte le variabili
contemporaneamente. Ogni fattore comune ha caratteristiche diverse dagli altri fattori e dalle
singole variabili che lo definiscono. Ciò che lo caratterizza in realtà è l’esprimere un tratto che
è comune ad ognuna delle variabili in esso raccolte.
Ritorniamo al primo esempio del capitolo: consideriamo i tre raggruppamenti che si sono
formati tra le prove di abilità e di apprendimento somministrate a ragazzi di Scuola Media. In
linea di massima potremmo dire che il primo raggruppamento corrisponde ad abilità di tipo
verbale-linguistico, il secondo ad abilità legate alle conoscenze numeriche e il terzo ad abilità di
tipo percettivo.
Secondo la teoria di Thurstone il punteggio di un certo soggetto in una certa prova, ad
esempio, risoluzione di problemi geometrici sarà dovuta in gran parte ad abilità numerica, ma
anche ad un piccolissimo contributo di tutte le altre abilità.
Anche ad un semplice livello intuitiva, si capisce che la capacità di una persona di risolvere
problemi geometrici è legata alla capacità soggettiva di saper risolvere quella specifica prova,
ma anche alla sua abilità più generale di tipo matematico, all’abilità di percepire gli elementi
caratterizzanti la prova oltre che alla capacità di esprimere la soluzione in forma verbale o scritta. Si vede chiaramente che il peso di ciascuna di queste abilità è diverso e dipende dal tipo di
problema; in questo caso l’abilità specifica e quella numerica saranno sicuramente più determinanti di quella linguistica o percettiva. Al contrario in una prova, ad esempio di comprensione
di un brano letto, il peso dell’abilità linguistica sarà molto più determinante di quello dell’abilità
matematica.
Questa teoria è tuttora alla base di tutti i modelli matematici di analisi fattoriale.
L’analisi fattoriale è ormai una metodologia usata con larga diffusione sia in psicologia come
anche, in generale, in tutte le scienze sociali. Essa si è rapidamente diffusa nei vari settori
della psicologia perché il problema che si incontra solitamente nella ricerca psicologica è quello
di cercare quali componenti sottostanno ad uno stesso comportamento globale oppure, anche,
quello di trovare quali relazioni esistono fra comportamenti, reazioni, manifestazioni psicologiche
in generale emessi in determinate situazioni.
L’analisi fattoriale è stata ampiamente utilizzata in psicologia proprio perché permette:
a) di conoscere le relazioni che esistono tra le variabili relative ad un certo comportamento a
manifestazione psicologica e su cui non è ancora possibile stabilire ipotesi di lavoro.
Esempio:
Quando si parla di comportamento sociale di bambini in età prescolare s’intende riferirsi ad
un gruppo di comportamenti, abbastanza facilmente definibili, quali il contatto, il gioco,
la comunicazione, l’aggressività, che anche a livello intuitivo sono strettamente connessi
tra loro e reciprocamente influenzabili e interdipendenti. Se è facile comprendere tutto
questo, è più difficile capire fra quali comportamenti esiste realmente una relazione, quali
sono invece indipendenti, qual è il “motivo” che fa mettere in rapporto alcuni comportamenti invece di altri. Per sapere ciò si ricorre all’analisi fattoriale. Raccolti i dati relativi al
comportamento sociale attraverso un’osservazione diretta del comportamento di un campione di bambini, in cui vengono rilevati i comportamenti del tipo “giocare insieme ad
12
altri bambini con un oggetto”, “giocare insieme ad altri bambini senza oggetto”, “giocare
con l’adulto”, “sorridere a qualcuno”, “picchiare un altro bambino”, “piangere”, “giocare
da soli”, ecc. sarà possibile vedere come, una serie di variabili indicanti i comportamenti
osservati vengono a riunirsi insieme, dando origine ad una serie di raggruppamenti, che ci
indicano il modo in cui vengono raggruppati i comportamenti di “gioco insieme con i coetanei”, di “sorriso”, “verbalizzazione”, escludendo invece comportamenti quali “contatto
aggressivo”, “gioco da soli”...
b) la conferma di un’ipotesi specifica, da cui si è partiti, sulle relazioni esistenti tra alcune
variabili psicologiche.
Esempio:
In un questionario elaborato nel 1975 da Dan Olweus e relativo all’autovalutazione dell’aggressività in preadolescenti, si era interessati a valutare le manifestazioni aggressive sotto
certi particolari aspetti: le manifestazioni aggressive di tipo verbale, quelle di tipo fisico e
le manifestazioni implicanti un’inibizione della risposta aggressiva. Si è quindi costruito un
questionario che contenesse una serie di item relativi a questi tre aspetti particolari: per la
manifestazione fisica dell’aggressività, item tipo “Faccio a botte con gli altri ragazzi della
scuola”, per quella verbale “Quando un adulto è ingiusto con me, mi arrabbio e protesto”,
per l’inibizione dell’aggressività “Quando un adulto è irritato con me, generalmente mi
sento in colpa”. L’ipotesi della ricerca era che ciascuno di questi item fosse relativo ad un
diverso aspetto di un determinato tipo di aggressività. Si è quindi sottoposto il questionario, con gli item fra loro mischiati, a due gruppi di circa 80 soggetti l’uno. Ogni soggetto
doveva giudicare su una scala da 1 a 5 se l’affermazione proposta dall’item era più o meno
appropriata a se stesso. L’uso dell’analisi fattoriale ha permesso di verificare l’esattezza di
quest’ipotesi, infatti gli item da Olweus selezionati come indicativi di manifestazione fisica
dell’aggressività sono risultati appartenere ad un unico fattore. Analoghi risultati si sono
ottenuti per gli altri due tipi di item.
Ribadiamo ulteriormente che l’analisi fattoriale è una metodologia statistico-matematica che
permette di esplicitare e formalizzare due modi di operare tipici della psicologia: o raggruppando
insieme eventi o variabili che si manifestano o mutano congiuntamente, per cogliere il legame
esistente tra loro, oppure individuando le influenze, più o meno importanti, e i comportamenti
che sottostanno ad ulteriori comportamenti o avvenimenti.
Abbiamo cercato di spiegare in questo capitolo in modo estremamente intuitivo cosa sia
l’analisi fattoriale, mentre i capitoli seguenti forniranno delle spiegazioni più dettagliate e precise.
Nel capitolo secondo analizziamo quelle nozioni di analisi fattoriale necessarie a chi, pur volendola
applicare, non desidera approfondirne, immediatamente, gli aspetti matematici.
Capitolo 2
Come si esegue un’analisi fattoriale:
indicazioni intuitive
2.1
Introduzione
In questo capitolo cercheremo di illustrare le varie fasi attraverso cui si passa nell’effettuare
un’analisi fattoriale mantenendoci ancora ad un livello intuitivo e rimandando i dettagli matematici al successivo capitolo. Come abbiamo già accennato lo scopo fondamentale di ogni teoria
fattoriale è quello di cogliere le variabili latenti (i fattori) capaci di spiegare le relazioni comuni
ad un ampio gruppo di variabili, di solito rilevate mediante l’uso di una misura di correlazione.
Ricordiamo che per correlazione si intende la misura del grado di interdipendenza reciproca
fra due variabili: se all’aumentare di una aumenta anche l’altra e al diminuire di una corrisponde
la diminuzione dell’altra si parlerà di correlazione positiva; se all’aumentare di una corrisponde
il diminuire dell’altra, si parlerà di correlazione negativa.
Il punto di partenza di ogni analisi fattoriale è quindi l’insieme di tutte le correlazioni tra un
gruppo n di variabili che, per facilitarne lo studio, viene disposto in una matrice delle correlazioni,
cioè in una tabella a doppia entrata in cui all’incrocio fra una riga e una colonna si trova quel
valore che rappresenta la correlazioni tra le variabili indicate in quella stessa riga e colonna.
Ottenuta la matrice delle correlazioni, il passo successivo è quello di determinare quali e
quanti siano i fattori che spiegano tale matrice. Si tratta quindi di rispondere alla domanda:
“Quanti fattori sono necessari per spiegare questa matrice delle correlazioni?”. A tale domanda
è possibile dare una risposta attraverso dei metodi matematici chiamati metodi di estrazione dei
fattori, che consentono di individuarli.
Tuttavia, se da un punto di vista matematico, il numero dei fattori che si possono estrarre
è ben determinato, per altri motivi, la loro determinazione non è per nulla semplice. Si deve
ricorrere a dei metodi approssimati ed è spesso necessario utilizzare contemporaneamente più
metodi.
Una volta identificato il numero dei fattori e dopo averli determinati secondo uno dei diversi
metodi di estrazione, si è risolto solo il primo problema fondamentale dell’analisi fattoriale,
quello appunto di trovare una possibile soluzione fattoriale, cioè un insieme di K fattori che
spieghino la matrice delle correlazioni tra le n variabili.
Tuttavia, trovato che da una particolare matrice sia possibile estrarre K fattori, questo
non ci dice nulla circa il modo di identificarli. Bisogna infatti precisare che, sempre a livello
matematico, è possibile trovare infinite soluzioni di K fattori e ciascuna di queste soddisfa e
spiega, matematicamente, la stessa matrice delle correlazioni.
Si apre a questo punto una seconda questione (denominata problema dell’indeterminazione
13
14
CAPITOLO 2. COME SI ESEGUE UN’ANALISI FATTORIALE: INDICAZIONI
INTUITIVE
fattoriale) e si tratta allora di cercare una risposta alla successiva domanda: “Quale fra le infinite
soluzioni scegliere?”.
La risposta non può essere evidentemente di tipo matematico perché le soluzioni, da questo
punto di vista, sono tutte ugualmente buone. Si dovranno invece, individuare dei criteri di
ordine diverso, che si adeguino in ogni caso allo scopo dell’analisi fattoriale. Se teniamo presente
che tale scopo è quello di individuare dei fattori che spieghino dei gruppi di variabili, si dovranno
probabilmente cercare dei criteri del tipo “ogni fattore dovrebbe influenzare in maniera massima
un gruppo di variabili ed in maniera minima tutte le altre”.
I criteri fino ad oggi individuati si pongono proprio su questa linea e prendono il nome di
criteri per la individuazione della struttura semplice. Da un punto di vista storico, si trattava inizialmente di criteri del tutto empirici, che poi sono stati via via ricondotti a formule
matematiche.
Il compito di questo capitolo è appunto quello di indicare le possibili risposte a queste due
questioni. In particolare, questi due problemi saranno meglio analizzati e spiegati, sempre in
modo intuitivo, nei paragrafi dedicati alla Determinazione dei fattori e in quella dedicato alla
Rotazione dei fattori. Ovviamente, in questo capitolo, si tratterà anche di tutti i passaggi
necessari per poter giungere alla soluzione di tali problemi, partendo dai dati di cui si dispone.
Inoltre, poiché ormai l’analisi fattoriale viene effettuata con l’ausilio degli elaboratori elettronici, questo capitolo farà spesso riferimento al loro uso. Proprio per questo motivo, in alcuni
casi, i termini italiani saranno accompagnati dalla relativa terminologia inglese. In questo modo
si potranno più facilmente leggere e capire i tabulati contenenti i risultati di un’analisi fattoriale
effettuata da un elaboratore.
2.2
Scelta del campione
Il problema è già conosciuto all’interno della psicologia ma è importante sottolinearlo in relazione
a questa metodologia. Si deve fare in modo di ridurre, al massimo, la possibilità di errore relativo
al campione stesso e alle risposte date dal singolo soggetto, che costituiscono quella che in termini
matematici viene chiamata varianza dell’errore, la quale interviene nel determinare la precisione
delle saturazioni dei fattori estratti.
Gli aspetti da considerare nella scelta del campione sono la sua ampiezza rispetto ai tratti
misurati e la sua rappresentatività rispetto alle caratteristiche che si ipotizzano correlate con
i fattori. Se lo scopo della ricerca è semplicemente l’identificazione di fattori ire una nuova
area di ricerca, è preferibile un campione molto ampio. “Se comunque i risultati devono essere
generalizzati, a una popolazione accuratamente definita” (Fruchter, 1954), il campione deve
essere rappresentativo delle caratteristiche studiate.
A tal fine è estremamente importante decidere sulla eterogeneità o sulla omogeneità del
campione rispetto alle variabili da studiare. Ad esempio, se si vogliono studiare delle variabili
specifiche di una particolare zona geografica, il campione da esaminare dovrà essere rappresentativo di quella regione, vale a dire che nella selezione del campione bisognerà rispettare la
proporzione esistente nella popolazione a cui ci si riferisce per quanto riguarda le variabili più
importanti quali il sesso, l’età, il livello socio-economico, il livello culturale... rispetto alla o alle
variabili specifiche studiate.
Se invece si cerca di determinare l’eventuale esistenza di fattori comuni, cioè se si ipotizza
che, rispetto a dei compiti proposti esistono dei possibili raggruppamenti sottostanti la riuscita di essi, si dovrà perseguire al massimo l’eterogeneità del campione in modo da eliminare
l’importanza di differenze individuali attribuibili a piccoli gruppi di soggetti. Cosı̀ se si vuole
standardizzare un test, un questionario, una scala o qualunque tipo di misura utilizzata in psicologia è necessario avere un campione estremamente eterogeneo comprendente cioè individui
2.3. DAI DATI ALLA MATRICE DI CORRELAZIONE.
15
appartenenti ai possibili livelli economici, sociali, di sesso, di età, di zone geografiche... in modo
da evitare che una qualunque di queste variabili influenzi ire modo determinante la standardizzazione del test. In questo caso la numerosità del campione e la sua eterogeneità servono
per poter eliminare l’influenza sulla misurazione di alcune variabili individuali che non possono
essere precedentemente controllate, misurate e neppure stimate quantitativamente.
In conclusione il campione da utilizzare nell’analisi fattoriale deve essere abbastanza numerosa ed in genere si pub ritenere tale un campione formato da un numero di soggetti maggiore delle
variabili misurate. In particolare, Harris (1967) suggerisce di usare un campione pari almeno al
doppio delle variabili che si intendono analizzare.
Esempio:
Nelle ricerche effettuate allo scopo di adattare il questionario di Olweus ad un campione
rappresentativo dei pre-adolescenti e degli adolescenti sono stati scelti una serie di campioni
omogenei rispetto alle variabili età e sesso, zone geografiche di residenza, eterogenei rispetto alle
variabili livello socio-economico, e tipo di scuola frequentata. I campioni utilizzati sono stati i
seguenti:
1. 91 soggetti (54 maschi e 37 femmine) di età compresa fra i 14 e i 19 anni, frequentanti
un Istituto Professionale (58 ss.) e un Liceo Scientifico (33 ss.) di una città dell’Italia
Settentrionale di livello economica basso ed elevato;
2. 100 soggetti (50 maschi e 50 femmine) di età compresa fra i 17 e i 19 anni frequentanti
un Istituto Magistrale (femmine) e un Istituto Tecnico (maschi) di una città dell’Italia
Settentrionale e di livello socio-economico medio-basso;
3. 202 soggetti di età compresa fra i 10 e i 18 anni di entrambi i sessi, frequentanti le Medie
Inferiori (82 ss.) a il Liceo Scientifico (130 ss.) di un paese dell’Italia Settentrionale.
I campioni scelti presentano aspetti di omogeneità e di eterogeneità sia se considerati individualmente sia rispetto all’insieme di tutti i soggetti. Infatti le variabili sesso e zona geografica
sono omogenee perché le abbiamo mantenute costanti nei vari campioni; ugualmente eterogenee
sono le variabili età, livello socia-economico e tipo di scuola che risultano diverse nelle varie
ricerche.
2.3
Dai dati alla matrice di correlazione.
Il primo passo di un’analisi fattoriale è il passaggio dai dati alla matrice delle correlazioni. In
linea di massima si utilizza la correlazione prodotto-momento di Pearson, in quanto soddisfa al
criterio di linearità che è una dei presupposti delle teorie fattoriali. E’ però possibile utilizzare
altri tipi di misure di correlazione ed in particolare il coefficiente rho di Spearman, senza che ciò
influenzi in moda particolare i calcoli (Gorsuch, 1974).
Una misura di correlazione può essere utilizzata per misurare il grado di associazione delle
variabili oppure dei soggetti, degli eventi...
Un’analisi fattoriale effettuata sulla matrice delle correlazioni fra variabili si chiami Rfactor analysis, mentre quella effettuata sulla matrice delle correlazioni fra soggetti Q-factor
analysis. Nel corso di questo libro ci si è sempre riferiti ad una analisi R-fattoriale.
Se l’analisi viene effettuata tramite un elaboratore, è importante disporre i dati nel modi
appropriato al tipo di analisi che si vuol ottenere. Nel caso di una R-analisi i dati devono essere
disposti cosı̀ come appaiono nella tab. 1.1 del capitolo 1; vale a dire che, per ogni soggetto,
bisognare elencare il punteggio da lui ottenuto in tutte le variabili.
Come abbiamo detto più volte, il punto di partenza di un’analisi fattoriale è la matrice delle
correlazioni. In questa matrice, lungo la diagonale principale devono essere inseriti dei particolari valori denominati “comunanze” (communality). Essi vengono individuati con particolari
procedimenti matematici di calcolo che saranno analizzati più avanti e che, come si vedrà nel
16
INTUITIVE
capitolo 3*, non possono essere calcolati in modo preciso ed è perciò necessario effettuarne una
stima.
Nella pratica, poiché l’analisi fattoriale viene generalmente effettuata tramite l’ausilio di
elaboratori, la scelta della stima della comunanze, da parte nostra, non è sempre necessaria.
Infatti, la maggior parte dei programmi di analisi fattoriale sceglie autonomamente la stima
della comunanza più appropriata al metodo di analisi prescelto (cfr. Cap. 4*).
2.3.0.1
Analisi della matrice di correlazione
Perché un’analisi fattoriale possa produrre dei fattori rilevanti bisogna che la matrice di correlazione contenga valori elevati accanto ad altri di bassa entità. Un primo modo per scoprirlo è
quello di stampare e osservare la matrice di correlazione, ma la cosa non è facile se il numero di
variabili è alto.
Il determinante della matrice di correlazione è un primo indice che si può utilizzare. Quando
è elevato, possiamo dire che le correlazioni sono generalmente basse e viceversa.
Una seconda possibilità è tramite il test di sfericità di Bartlett che cerca di verificare se la
matrice di correlazione sia una matrice identitò, ovvero se i valori fuori dalla diagonale principale
sono zero e quelli lungo la diagonale sono 1. Si basa sul valore del determinante e si distribuisce
come un chi-quadro (cfr. la formula a p. 35). Se assume un valore elevato, R non è una
matrice identità. Ha il difetto di dipendere dalla numerosità del campione e quindi di tendere
alla significatività all’aumentare del numero dei soggetti.
Una terza soluzione è l’indice di Kaiser-Meyer-Olkin (KMO). Si basa sulle correlazioni parziali di ogni variabile con ogni altra, parzializzando su tutte le restanti. Se ci sono variabili
correlate fra loro (la base per ipotizzare un fattore comune), la loro correlazione parziale dovrebbe essere molto bassa. Un valore di KMO maggiore di 0.60 indica che si può effettuare
un’AFE.
Infine si può osservare la matrice anti-immagine, che contiene il complemento a 1 delle correlazioni parziali. Ovviamente funziona al contrario rispetto all’indice KMO e quindi cercheremo
all’interno della matrice anti-immagine i valori elevati.
2.4
Determinazione dei fattori
2.4.1
Numero dei fattori da estrarre
Il numero dei fattori da estrarre dipende dal valore assunto dalle comunanze nel senso che
una volta conosciute le comunanze, anche il numero dei fattori è esattamente determinato.
Purtroppo, come abbiamo già osservato, non è possibile conoscere i valori esatti delle comunanze,
ma soltanto stimarli e questo comporta, come conseguenza, che non tutti i fattori teoricamente
estraibili siano dei fattori “veri” e non, invece, dei fattori di errore.
A questo primo problema si aggiunge i1 fatto che il numero esatto dei fattori può essere
determinato solo quando le correlazioni sono calcolate sull’intera popolazione, mentre nella realtà
esse sono misurate in un campione e questo potrebbe condurre ad altri fattori di errore.
Un terzo tipo di problema che influenza il numero dei fattori riguarda un aspetto che potremo
definire di tipo psicologico: non sempre i fattori “significativi” da un punto di vista matematico,
sono tali da un punto di vista “psicologico” e questo per varie e differenti ragioni. La più evidente
è che un fattore deve saturare in maniera elevata un certo numero di variabili affinché gli si possa
attribuire un significato psicologico; può accadere che un fattore “significativo” da un punto di
vista matematico non soddisfi a questa condizione.
2.4. DETERMINAZIONE DEI FATTORI
17
D’altra parte, proprio in relazione all’uso dei calcolatori è necessario, oggi, sapere in anticipo
il numero dei fattori da estrarre oppure fornire al calcolatore un criterio che lo guidi nei calcoli
e su cui possa basarsi per arrestare l’estrazione dei fattori.
Nel paragrafo 10 del capitolo 3* saranno presentati i metodi empirici, matematici e statistici
che sono stati proposti per la determinazione del numero dei fattori. Alcuni di questi metodi
non trovano oggi una loro utilizzazione pratica in quanto non è sempre possibile disporre di
alcuni dati intermedi dei calcoli. Cerchiamo di descriverli qui di seguito in maniera intuitiva e,
soprattutto, operativa.
Un primo criterio che si può seguire è quello di basarsi sull’ipotesi di ricerca: la teoria
o lo scopo della ricerca possono suggerire un numero di fattori,da estrarre; successivamente
sarà possibile verificarne l’effettiva significatività ed eventualmente rieffettuare l’analisi fattoriale
stessa. Ad esempio, nella ricerca che qui presentiamo, volendo confrontare i risultati ottenuti
sui dati del questionario italiano con quelli ottenuti sui dati della ricerca scandinava, si sono
direttamente chiesti 6 fattori, in quanto corrispondente al numero dei fattori interpretabili della
ricerca di confronto.
In alternativa a questo criterio è possibile utilizzare uno di questi altri:
a) uso di un criterio interno, proposto da Guttman, con il quale si decide di estrarre tanti
fattori quanti sono gli eigenvalues maggiori o uguali a un numero prefissato che è generalmente
1. Questa è la scelta adottata, in modo automatico, nei programmi per calcolatore presentati
al capitolo 4*. L’uso di questo criterio conduce all’estrazione di un ampio numero di fattori che
viene, generalmente, considerato eccessivo rispetto al numero di variabili analizzate.
b) controllando la tabella della proporzione cumulativa della varianza totale e chiedendo un
numero di fattori tale da raggiungere almeno il 70/75% della varianza totale. Questo criterio
risulta particolarmente valido quando la matrice delle correlazioni contiene molti valori particolarmente alti, mentre è del tutto inutile quando i valori della matrice di correlazione tendono ad
essere generalmente bassi. In questo caso infatti sono necessari molti fattori per poter raggiungere il 75% della varianza totale e la maggior parte di questi fattori spiega una parte piccolissima
di varianza. Il rischio di questo metodo è quello di estrarre come validi un numero di fattori
maggiore di quanti sarebbero effettivamente significativi.
c) utilizzando il metodo grafico proposto da Cattell (1966), conosciuto con il nome di scree
test (test del ciottolo). Si rappresentano graficamente su un piano cartesiano gli eigenvalues
(ordinata) relativi a ciascun fattore (ascissa) con dei punti che verranno poi collegati da una linea.
In corrispondenza del punto in cui la curva tende a divenire uria retta si pone il limite dei fattori
da estrarre che risulteranno probabilmente significativi. Il vischio di questo criterio è quello di
estrarre meno fattori di quanti potrebbero essere effettivamente significativi. Un secondo rischio
è legato alla scala con cui viene rappresentato il grafico; infatti a seconda dell’unità che si sceglie
per distanziare i fattori, la linea diverrà piatta più o meno velocemente (cfr. Runyon & Haber,
1976, cap. 1).
Normalmente l’analisi fattoriale viene effettuata in due passaggi: si effettua una prima analisi
fattoriale a carattere esplorativo. Se l’analisi è effettuata tramite l’ausilio di un elaboratore, si
ottengono tutti i fattori che è possibile estrarre secondo il criterio di Guttman. Una volta
ottenuta questa prima matrice fattoriale si può chiederne una seconda in cui invece, il numero
dei fattori sarà predeterminato utilizzando uno degli altri due criteri citati.
Esempio:
Per illustrare i criteri per la scelta del numero dei fattori, analizziamo un’analisi fattoriale
che abbiamo effettuato sulle 62 variabili che formano il questionario di Olweus (1975) nella traduzione di Rossi e Venuti (1983) ? (?). La Tab. 2.1 riporta gli eigenvalues associati ai fattori.
INTUITIVE
18
Factor
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
Variance
explained
7,15
5,72
3,07
2,96
2,39
1,86
1,78
1,72
1,61
1,49
1,46
1,39
1,30
1,23
1,21
1,16
1,09
1,07
1,02
0,99
0,95
0,93
0,90
0,84
0,83
0,80
0,75
0,75
0,71
0,68
0,68
Cumulative proportion
of total variance
0,115
0,207
0,257
0,305
0,343
0,373
0,402
0,430
0,456
0,480
0,504
0,526
0,547
0,567
0,587
0,606
0,623
0,641
0,657
0,673
0,689
0,704
0,718
0,732
0,745
0,759
0,771
0,783
0,794
0,805
0,816
Factor
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
Variance
explained
0,64
0,63
0,59
0,58
0,56
0,52
0,50
0,49
0,45
0,44
0,42
0,41
0,41
0,39
0,37
0,35
0,34
0,33
0,31
0,30
0,27
0,26
0,25
0,23
0,21
0,18
0,18
0,17
0,15
0,15
0,17
Cumulative proportion
of total variance
0,827
0,837
0,847
0,856
0,865
0,874
0,882
0,890
0,897
0,904
0,911
0,918
0,924
0,931
0,937
0,942
0,948
0,953
0,958
0,963
0,968
0,972
0,976
0,980
0,983
0,986
0,989
0,992
0,995
0,997
1,000
Tabella 2.1: Eigenvalues della matrice di correlazione
a) criterio di Guttman.
Consiste nell’estrarre tanti fattori quanti sono gli eigenvalues maggiori o uguali a 1. In Tab.
2.1 bisogna controllare la colonna intestata “Variance explained”: sono 19 fattori.
b) criterio della proporzione di varianza.
Consiste nell’estrarre tanti fattori quanti sono gli eigenvalues compresi nel 70 o 75% di
percentuale cumulativa della varianza totale. Controlliamo, sempre in tabella 2.1, la colonna
“Cumulative proportion of total variance”: sono 25 a 26 fattori. Questo può essere giustificato
dal fatto che la matrice delle correlazioni fra le variabili (che non riportiamo) presenta poche
correlazioni elevate: ad esempio, 2 correlazioni superiori a .60, 6 fra .50 e .60, 19 fra .40 e .50,
su un totale di 1860 valori.
c) scree test di Cattell.
Costruiamo un grafico (Fig. 2.1) in cui in ascissa compaiono i fattori e in ordinata compaiono
i valori degli eigenvalues. Colleghiamo tra di loro i punti che rappresentano la varianza spiegata
da ogni fattore. Dopo il fattore 6 la curva inizia a diventare piatta. Secondo lo scree test, perciò,
19
Figura 2.1: Scree test di Cattell
bisognerebbe estrarre 6 fattori.
2.4.2
Metodi di estrazione
Una volta stabilito il criterio per il numero dei fattori, il passo successivo consiste nell’ottenere una prima soluzione fattoriale, chiamata matrice fattoriale non ruotata (unrotated factor
matrix ).
Esistono diversi metodi per. ottenere l’estrazione dei fattori, ognuno dei quali presenta delle
caratteristiche particolari, dei vantaggi e degli svantaggi. La scelta del metodo è collegata ai motivi specifici della ricerca, alla possibilità di utilizzare dei metodi automatici di calcolo, al numero
delle variabili che compongono la ricerca, alle caratteristiche della matrice di correlazione...
Elenchiamo e descriviamo brevemente i principali metodi disponibili su calcolatore, dedicando un breve spazio ad alcuni dei metodi di importanza storica, anche se non più
utilizzati.
2.4.2.1
Metodi di estrazione dei fattori non disponibili su calcolatore
Esistono molti metodi sviluppati prima dell’introduzione dell’uso dei calcolatori, che oggi non
sono affatto utilizzati. La maggior parte di questi sono stati sviluppati da Thurstone (1931,
1945) o da Burt (1937) nella prima metà del XX secolo. La tendenza generale di questi metodi
consiste nel tentativo di semplificare al massimo i calcoli a scapito della semplicità logica. Una
tendenza del tutto opposta a quella ricercata dai metodi disponibili sui calcolatori.
Metodo diagonale (diagonal method) Questo metodo ha il privilegio di essere molto semplice e veloce, ma ha il difetto di necessitare, per i calcoli, dei valori della comunanza. Si può
utilizzare quando’si conosce, a priori, il valore delle comunalità. Ciò però è un evento molto raro,
e proprio per questo, il metodo diagonale è usato solo come momento intermedio nell’ambito
20
INTUITIVE
di altri metodi di estrazione dei fattori. E’ un metodo che si può teoricamente utilizzare con
ogni tipo di matrice di correlazione (singolare o non-singolare), ma è molto sensibile ai valori
scelti per la comunanza che deve perciò essere accuratamente stimata (Fruchter, 1954; ?, ?, ?)
(Fruchter, 1954; Metelli, s.d.; Lis, 1977).
Metodo centroide (centroid method) Il metodo centroide era tra i metodi più usati un
tempo; infatti è abbastanza semplice nei calcoli, anche se non permette di giungere ad un’unica
soluzione fattoriale. E’ necessario utilizzare una stima della comunalità che andrà a sostituire il
valore lungo la diagonale della matrice di correlazione. Solitamente si usa, per, questo metodo,
la correlazione più alta (in valore assoluto) di ogni colonna (Fruchter, 1954; ?, ?, ?) (Fruchter,
1954; Metelli, s.d.; Lis, 1977).
Metodo multigruppo (multiple-group method) Questo metodo è una variazione di quello
centroide. La differenza principale è che, anziché estrarre un fattore alla volta, vengono estratti
più fattori assieme. E’ consigliabile inserire lungo la diagonale una buona stima della comunanza.
Inoltre è necessario raggruppare le variabili in gruppi di almeno 3 a 4 variabili. Ciò si può ottenere
o in base ad un’ipotesi teorica a priori o dopo aver effettuato qualche analisi dei cluster fra le
variabili. Si aggiunga che le variabili incluse in un gruppo devono essere tra loro linearmente
dipendenti. Con questo metodo si ottengono fattori obliqui (cfr. il paragrafo seguente) che si
possono, eventualmente, ortogonalizzare (Fruchter, 1954; ?, ?, ?) (Fruchter, 1954; Metelli, s.d.;
Harman, 1967)
2.4.2.2
Metodi di estrazione dei fattori disponibili al calcolatore
Componenti principali (principal component) e Assi principali (principal axis) La
proprietà basilare di questo metodo di estrazione dei fattori è che ogni fattore estratto cerca di
essere il più possibile esplicativo rispetto ai dati di partenza. Al di là dei calcoli matematici
ciò significa che il primo fattore estratto avrà la massima importanza, in quanto “spiega” una
percentuale maggiore di variabilità dei dati, rispetto agli altri fattori. Non significa però che
avrà le saturazioni maggiori. Il secondo fattore estratto spiega la massima varianza possibile di
quanta ne è rimasta dopo il primo fattore... e cosı̀ via fino all’ultimo fattore estratto.
Altre caratteristiche del metodo sono: vengono estratti pochi fattori che sono tra loro indipendenti (ortogonali, cioè non correlati); la soluzione fattoriale non ruotata è unica. Accanto
a questi aspetti positivi vi è il fatto che richiede calcoli matematici lunghi, laboriosi e ripetitivi (Hotelling, 1935). Ma questo aspetto negativo è stato ampiamente superato dall’utilizzo
dell’elaboratore elettronico.
Quando lungo la diagonale principale della matrice delle correlazioni si pone, come stima
della comunalità, il valore 1, il metodo viene designato “componenti principali”. In questo caso
dovrebbero essere teoricamente estratti tanti fattori quanti sono le variabili implicate nell’analisi.
Purtroppo per diversi problemi di calcolo, non tutti questi fattori sarebbero significativi da un
punto di vista psicologico. I fattori estratti, perciò, sono in numero inferiore e il metodo prende
il nome di “componenti troncate”.
Quando invece, lungo la diagonale della matrice delle correlazioni si pone una stima della
comunanza diversa dall’unità (il valore 1), allora il metodo prende il nome di “assi principali o
fattori principali”. La maggior parte dei programmi per elaboratore, in questo caso, usano il
metodo iterativo per la stima delle comunanze.
Il metodo degli assi principali, secondo Thurstone (1945, p. 509) permette di ottenere la
soluzione fattoriale migliore tra tutte quelle ottenibili con altri metodi, a parità di fattori estratti,
proprio perché ogni fattore rende conto della massima percentuale possibile di varianza.
21
Se all’epoca di Thurstone, e fino agli anni ’60, questo metodo era poco usato (Reuchlin, 1964),
ora le possibilità offerte dagli elaboratori lo ha reso estremamente sfruttato anche a scapito di
altri metodi altrettanto validi.
Analisi fattoriale canonica (Rao’s canonical factoring) Questo metodo di estrazione
dei fattori stato inizialmente sviluppato da Rao (1955) a partire dai procedimenti di calcolo
della correlazione canonica, quindi ampliato da Harris (1962). Lo scopo è quello di trovare
una soluzione fattoriale in cui la correlazione fra i fattori e le variabili sia la massima possibile.
E’ quanto fa il metodo della massima verosimiglianza, che ha infatti sostituito, nella pratica
statistica, quello di Rao.
Massima verosimiglianza (maximum likelihood factor ) La teoria multifattoriale di
Thurstone, presuppone che si lavori sulla matrice delle correlazioni fra le variabili calcolate sull’intera popolazione mentre invece si utilizza una matrice che è stata calcolata su un campione.
Questo metodo, al contrario, è ben consapevole di utilizzare misure effettuate su un campione
e cerca perciò di calcolare una stima delle correlazioni sulla popolazione. A tal fine, utilizza
un procedimento tipicamente matematico, chiamato “massima verosimiglianza”. Associato a
questo specifico metodo, è stato sviluppato un test di significatività sul numero di fattori da
estrarre, basato su un’approssimazione alla funzione di chi-quadro e denominato “indice di adeguamento al campione”. Per il suo utilizzo pratico basterà dire che se il valore di questo indice
è significativamente elevato, è necessario un numero maggiore di fattori di quanti ne sono stati
estratti.
Image factoring L’analisi fattoriale per immagine è stata proposta da Kaiser (1963) ampliando alcuni suggerimenti di Guttman. Per l’identificazione della varianza comune, questo metodo
fa uso della “teoria dell’immagine”, che considera non la matrice delle correlazioni fra le variabili,
ma una matrice che contiene le “proiezioni” di ogni variabile su tutte le altre. Questa matrice
chiamata “matrice immagine” perché contiene l’immagine che una variabile proietta sulle altre.
Secondo Guttman la matrice immagine è quella che si avvicina maggiormente alla matrice delle
correlazioni fra variabili una volta che sia stato eliminato il peso dei fattori specifici.
Il numero dei fattori teoricamente estraibili è generalmente pari alla metà delle variabili,
anche se equivale ad ottenere un numero di fattori maggiore di quelli che il ricercatore si aspetta.
E’ possibile che fra questi fattori ne compaiano alcuni banali e non significativi ed è anche
possibile che i fattori banali compaiano solo dopo una rotazione ortogonale (Kaiser, 1963).
Kaiser’s second generation little jiffy Nel tentativo di migliorare l’analisi fattoriale per
immagine, Kaiser (1970) ha sviluppato quest’altro metodo d’analisi che è sostanzialmente costituito dal precedente, a cui viene applicata una rotazione particolare chiamata ortobliqua (Kaiser
& Rice, 1974).
Alpha factoring Questo metodo cerca di ottenere fattori che abbiano il valore massimo
di “9eneralizability”. Tale valore viene misurato tramite il coefficiente di fedeltà di KuderRichardson o con il coefficiente alpha di Cronbach (Kaiser & Caffry, 1965).
Esempio:
L’analisi fattoriale che interpreteremo al termine di questo capitolo è stata ottenuta con il
metodo delle componenti principali ed ha prodotto la matrice fattoriale non ruotata di Tab. 2.2.
22
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
INTUITIVE
1
0,467
0,449
0,207
0,394
0,477
0,306
-0,082
0,585
0,078
-0,304
0,590
-0,114
0,417
0,213
0,569
-0,037
0,537
-0,288
-0,187
-0,087
0,320
0,027
-0,022
0,437
0,523
0,118
0,100
-0,291
0,510
0,338
-0,014
0,509
-0,141
0,523
-0,227
-0,198
-0,348
0,014
0,032
-0,322
-0,046
0,172
-0,581
-0,058
-0,312
-0,040
-0,262
0,162
-0,409
0,594
-0,407
-0,486
-0,219
-0,409
0,152
0,047
0,500
0,241
-0,232
0,451
-0,122
2
0,171
-0,026
0,144
0,247
-0,016
0,211
-0,103
-0,049
-0,019
0,508
0,309
0,355
0,353
0,357
-0,045
0,036
0,295
0,261
0,195
-0,129
0,185
0,219
0,236
0,224
0,211
0,294
0,308
0,232
0,221
0,245
0,395
-0,100
0,031
0,279
0,599
0,498
0,375
0,370
0,187
0,323
0,372
0,283
0,261
0,242
0,341
0,363
0,413
0,284
0,585
0,386
0,536
0,583
0,474
0,149
0,354
0,465
0,080
0,224
0,000
0,265
-0,016
Fattori
3
4
-0,381 -0,006
0,210
0,354
0,241
0,230
0,047
0,109
0,238
0,221
-0,161 -0,073
0,146
0,094
0,247
0,279
0,070 -0,264
-0,100 -0,105
-0,216
0,089
0,174 -0,363
-0,414 -0,206
0,121 -0,134
0,198
0,342
0,177
0,072
-0,210
0,188
-0,039
0,073
-0,102 -0,205
0,234
0,464
0,344 -0,183
-0,060 -0,036
-0,080
0,340
-0,343 -0,221
0,013
0,078
0,001 -0,212
0,347 -0,435
0,187
0,442
-0,286 -0,002
0,488 -0,219
-0,104
0,326
0,195
0,232
0,074
0,017
-0,221 -0,052
-0,226
0,045
-0,007 -0,039
0,022
0,255
0,514
0,006
0,112 -0,093
0,068
0,357
0,435 -0,366
0,194
0,147
0,039
0,135
0,469 -0,082
-0,228
0,179
0,207 -0,381
-0,056
0,446
-0,037
0,113
-0,137
0,141
-0,058 -0,008
-0,221
0,133
-0,080 -0,144
-0,050
0,049
0,188
0,182
0,002
0,075
0,409 -0,169
0,098
0,303
0,010
0,013
0,214
0,285
-0,304 -0,013
0,092
0,108
5
0,013
-0,276
-0,241
0,147
-0,061
0,197
-0,211
-0,017
0,085
-0,080
-0,095
-0,371
0,015
0,438
0,160
0,020
0,073
0,127
-0,189
0,281
0,004
0,396
-0,197
0,057
-0,036
0,085
0,004
-0,002
0,011
0,047
-0,248
-0,244
0,266
0,045
-0,164
0,149
0,089
0,139
0,527
-0,003
-0,235
-0,155
-0,182
0,082
-0,305
-0,284
0,054
0,149
-0,112
0,009
-0,050
0,083
0,318
0,076
0,149
-0,164
-0,324
-0,136
0,348
0,089
0,336
6
0,122
0,089
0,147
-0,055
0,123
0,170
0,259
0,136
-0,167
0,105
0,137
-0,272
0,184
0,049
-0,066
-0,253
0,024
0,062
0,350
-0,026
0,101
0,153
-0,223
0,075
-0,117
0,104
0,060
0,000
-0,372
-0,009
-0,175
-0,224
-0,023
-0,371
0,152
-0,027
-0,235
0,156
0,168
-0,026
0,025
0,534
0,270
-0,200
-0,176
-0,262
0,088
0,153
-0,048
0,039
-0,029
0,019
-0,159
0,176
-0,240
-0,099
0,063
0,097
-0,186
0,044
-0,040
2.5. ROTAZIONE DEI FATTORI
23
Tabella 2.2: Matrice fattoriale non ruotata
2.5
Rotazione dei fattori
Una volta ottenuta la prima soluzione fattoriale (matrice fattoriale non ruotata), si deve ora
passare alla fase di rotazione dei fattori. Rotazioni si chiamano le operazioni che i calcolatori
effettuano alla ricerca di soluzioni fattoriali alternative a quella individuata, purché soddisfino,
sia matematicamente che logicamente, al criterio della struttura semplice.
Al tempo in cui i calcoli venivano effettuati a mano, era più comodo cercare di raggiungere
la struttura semplice utilizzando un procedimento di rotazione di assi sulle rappresentazioni
grafiche delle variabili e dei fattori. Proprio da questo procedimento deriva l’attuale nome di
rotazione dei fattori.
Per meglio chiarire il meccanismo della rotazione della matrice fattoriale, anche noi useremo
il metodo grafico su una matrice fattoriale a due fattori ottenuta da una matrice di correlazione
di 5 variabili (Tab. 2.3). Possiamo rappresentare graficamente le saturazioni delle 5 variabili
considerando i due fattori come gli assi di un piano cartesiano. Per ogni variabile avremo
una coppia di valori (le saturazioni nel primo e nel secondo fattore), che può essere perciò
rappresentata con un punto.
1
2
3
4
5
I
.92
-.68
.64
.72
-.40
II
.08
.76
.60
.48
.40
Tabella 2.3: Matrice fattoriale non ruotata
Proprio perché le variabili possono essere rappresentate come punti su un piano cartesiano (e
le saturazioni costituiscono le coordinate di questi punti) è possibile anche spostare (o meglio ruotare) gli assi di riferimento e calcolare le coordinate di questo nuovo piano (che corrisponderanno
a nuove saturazioni negli stessi fattori).
E’ possibile effettuare un numero infinito di rotazioni, ma solo alcune hanno importanza e
significato per i nostri scopi.
Nella Fig. 2.2 vediamo la rappresentazione grafica delle saturazioni della Tab. 2.4. Se spostiamo l’asse delle x (cioè il fattore I) in modo che passi esattamente sul punto n.3 e spostiamo
coerentemente l’asse delle y (cioè il fattore II) e quindi calcoliamo le nuove coordinate, otterremo
le saturazioni di Tab. 2.4.
Anche se non staremo a spiegare il procedimento matematico necessario per effettuare una
rotazione di assi cartesiani, si può comunque empiricamente osservare (Fig. 2.3) che se il punto
n.3 (e quindi la variabile n.3) cade esattamente sull’ascissa, il valore che esprime la sua ordinata
è 0. Tale sarà perciò la sua saturazione nel fattore II’ (rappresentato dall’asse delle y). Analogamente, la variabile n.2 la cui rappresentazione grafica cade molto vicino all’asse delle y, avrà
saturazione quasi nulla con il fattore I’.
La differenza sostanziale fra le due soluzioni fattoriali è che nel primo caso (matrice fattoriale
non ruotata) tutte le variabili erano spiegate in parti molto simili da entrambi i fattori (ad
eccezione della variabile 1), mentre nella seconda soluzione (matrice fattoriale ruotata), avendo
reso massimo il contributo di un fattore e minimo quello dell’altro per ogni variabile, abbiamo
che la terza e la quarta variabile sono spiegate principalmente dal primo fattore e la seconda e
la quinta dal secondo fattore.
24
INTUITIVE
Figura 2.2: Rotazione
1
2
3
4
5
I
.72
.02
.87
.85
.01
II
-.57
.96
.00
-.14
.58
Tabella 2.4: Matrice fattoriale ruotata
Figura 2.3: Rappresentazione ruotata
2.5. ROTAZIONE DEI FATTORI
25
In questo modo ci si è avvicinati, quanto più possibile, alla cosiddetta struttura semp1ice
proposta da Thurstone, per cui ogni variabile dovrebbe appartenere ad un unico fattore comune,
cioè dovrebbe essere molto satura in un fattore e debolmente o per niente satura in tutti gli altri.
Questo è il motivo per cui si effettua la rotazione della matrice dei fattori. Bisogna sottolineare che, dopo la rotazione, i fattori non sono più necessariamente ordinati in modo decrescente
di importanza.
E’ possibile effettuare la rotazione in molti e diversi modi, che possono però essere riassunti
in due categorie: i metodi ortogonali e quelli obliqui.
I metodi ortogonali presuppongono che fra i fattori non esista alcun legame e cioè che siano
fra loro indipendenti e che quindi la loro correlazione sia sempre zero. Graficamente ciò si
esprime tramite un angolo retto e quindi la rotazione è stata chiamata “ortogonale”.
Al contrario, i metodi obliqui presuppongono che fra i fattori esista un certo legame di dipendenza e che quindi la loro correlazione (in valore assoluto) sia compresa fra zero e uno. Graficamente ciò si esprime tramite una serie di angoli non retti che non sono facilmente disegnabili,
soprattutto se le dimensioni del grafico (cioè il numero dei fattori) sono molte.
Il problema relativo alla scelta del metodo di rotazione consiste proprio nella possibilità o
meno di ipotizzare la dipendenza reciproca o l’indipendenza dei fattori che si intende estrarre.
Purtroppo non esiste un metodo matematico sicuro per decidere tra un metodo obliquo e una
ortogonale di rotazione. Anzi, Coleman (1964) afferma che l’ipotesi dell’ ortogonalità o meno
dei fattori riguarda esclusivamente l’interpretazione dei risultati.
I metodi ortogonali hanno il vantaggio di presentare fattori fra loro indipendenti, una struttura maggiormente stabile rispetto alla soluzione fattoriale che non è legata al campione, una
maggiore semplicità nei calcoli e nell’interpretazione dei fattori, nonché la possibilità di rappresentazioni grafiche della matrice fattoriale che permette una migliore visione della disposizione
delle variabili nello spazio fattoriale.
I metodi obliqui, proprio perché presuppongono una dipendenza di un fattore da un altro,
sono più aderenti alla realtà dei dati e, quasi sempre, anche alla realtà delle variabili stesse;
inoltre permettono di sottoporre la matrice di correlazione tra fattori ad un’analisi fattoriale per
individuare i fattori di ordine superiore, cioè quanto hanno in comune fra loro i fattori comuni.
La decisione sulla scelta della rotazione dev’essere guidata soprattutto dall’ipotesi che è
possibile formulare sulle variabili (Reuchlin, 1964, p. 69). Se si può presumere che fra i fattori
che si estrarrà ci possa essere una certa dipendenza, allora converrà utilizzare una rotazione
obliqua. Ad esempio, se dobbiamo analizzare i dati ottenuti da un questionario psicosomatico e
ci aspettiamo che i fattori raggruppino fra loro item omogenei rispetto ai disturbi circolatori, a
quelli respiratori, a quelli digestivi..., possiamo anche tranquillamente ipotizzare una dipendenza
reciproca dei tre fattori in quanto le funzioni svolte da cuore, polmoni e stomaco sono sicuramente
tra loro relate.
Anche gli scopi della ricerca possono influire sulla scelta. Se stiamo analizzando un test o un
questionario per una sua futura standardizzazione, abbiamo bisogno di una rotazione ortogonale
che ci isoli gli item molto saturi in un solo fattore. Nella ricerca sull’aggressività di Olweus,
ad esempio, il ricercatore ha utilizzato un metodo ortogonale di rotazione perché desiderava
verificare una sua ipotesi di lavoro e cioè che un determinato item misurasse un certo tipo di
manifestazione aggressiva e non un altro tipo. Se invece avesse voluto semplicemente indagare
sul più ampio fenomeno dell’aggressività, avrebbe potuto utilizzare un metodo obliquo, infatti
non è possibile ipotizzare che fra diversi tipi di manifestazioni dell’aggressività non esista alcuna
correlazione.
Reuchlin (1964) consiglia di effettuare dapprima una rotazione ortogonale e di procedere
eventualmente in seguito ad effettuare delle rotazioni oblique. L’autore francese consiglia in
quest’ultimo caso di effettuare anche un’analisi fattoriale di secondo ordine.
INTUITIVE
26
2.6
L’interpretazione dei fattori
Dopo la rotazione dei fattori, la matrice finale deve essere interpretata. Questa è una fase
particolarmente delicata in quanto non esistono specifiche indicazioni che guidino il lavoro interpretativo. Non è stato infatti possibile elaborare un test statistico per- la significatività delle
saturazioni. Dipende, perciò, dalla capacità e dall’esperienza del ricercatore cogliere il significato
comune delle variabili confluite in un fattore, attenendosi alla realtà delle singole variabili senza
costruire interpretazioni fantastiche.
Questa fase è importante soprattutto in quanto, sia la scelta del metodo di estrazione dei
fattori, sia il problema del numero dei fattori da estrarre e quello del metodo con cui effettuare
la rotazione, rendono molto arbitraria l’interpretazione di un’unica soluzione fattoriale. Tutti
questi aspetti e momenti in cui il ricercatore può e deve scegliere fra diversi metodi contribuiscono
a creare una situazione di indeterminazione e di dubbio sui risultati che si sono ottenuti. Alcuni
autori consigliano addirittura di effettuare analisi diverse per metodi e numero dei fattori e di
scegliere come definitiva “quella che si adatta meglio ai dati osservati o che è più aderente agli
scopi del ricercatore” (Sadocchi, 1980, p. 147).
Si ricordi che, se è stata effettuata una rotazione ortogonale si otterrà una sola matrice
ruotata (rotated factor matrix corrispondente alla composizione fattoriale) mentre se è stata
effettuata una rotazione obliqua si otterranno 2 matrici ruotate, la pattern matrix (composizione
fattoriale) e la structure matrix (struttura fattoriale). In questo caso è la pattern che si usa per
l’interpretazione.
Qui di seguito mostriamo i passaggi teorici necessari per interpretare una matrice fattoriale
ruotata mentre nel paragrafo seguente presentiamo un esempio pratico.
1) E’ necessario definire un livello arbitrario per le saturazioni che ci indichi il limite oltre il
quale non riteniamo le variabili sufficientemente importanti per caratterizzare quel determinato fattore. In linea di massima (come prassi e non come regola) il valore generalmente
prescelto è .40, ma è possibile usare livelli inferiori o superiori, come ad esempio, .35 a .50,
a seconda che si abbia un numero ristretto o troppo ampio di variabili da interpretare.
Ripetere i passi da 2 a 4 per ogni fattore.
2) Ordinare le saturazioni delle variabili del fattore in ordine decrescente (in valore assoluto),
fermandosi al livello prescelto.
3) Scrivere accanto ad ogni saturazione la denominazione della variabile corrispondente o il
testo dell’item se si tratta di un questionario.
4a) Si deve ora cercare quale tratto, caratteristica, aspetto... abbiano in comune queste variabili, in modo da poter attribuire una denominazione al fattore che definisce questo tratto
comune. Si tenga presente che più una variabile è satura più essa contribuisce alla definizione del carattere comune del fattore e, viceversa, ciò che è stato individuato come tratto
comune delle variabili deve comparire in particolare e in maggior grado nelle variabili più
sature.
4b) Nell’interpretazione dei fattori, si tenga conto che il segno negativo di una saturazione
indica solamente un’opposizione rispetto alle saturazioni positive. Il tratto comune alle
variabili dovrebbe essere pensato come un continuum che passa dalla sua massima presenza
alla sua negazione o al suo opposto. Per procedere all’interpretazione conviene iniziare.dalle
variabili il cui segno è più frequente e considerarle come se fossero positive. Di conseguenza,
le altre (siano esse di segno positivo o negativo) devono essere considerate di segno opposto.
4c) Nel caso in cui non si riesca a riscontrare nessun tratto comune alle variabili del fattore,
si dovrà concludere che il fattore non è interpretabile e che le variabili sono state tra loro
associate per un errore implicito nei calcoli e attribuibile o al campione o alla misurazione
2.7. ESEMPIO DI INTERPRETAZIONE
27
delle variabili stesse o perché, ancora, la varianza attribuibile al fattore è molto bassa.
Normalmente i “primi” fattori estratti sono facilmente interpretabili mentre gli “ultimi”,
soprattutto se ne sono stati estratti molti o se la matrice delle correlazioni iniziale fra le
variabili contiene molti valori bassi, sono spesso difficilmente interpretabili o saturi di una
sola variabile e quindi fattori specifici di quella variabile. In linea di massima se i fattori
non interpretabili sono molti converrà riesaminare tutti i punti nodali che contribuiscono
all’indeterminazione della soluzione fattoriale per vedere se non ci sia stato qualche errore
di impostazione. Quindi, se ci sono diversi fattori ininterpretabili è meglio non considerare
affatto i risultati dell’analisi fattoriale.
2.7
Esempio di interpretazione
Dimostriamo praticamente come è possibile procedere nell’interpretazione dei fattori; per questo
scopo utilizzeremo la matrice di Fig. 2.5 ottenuta effettuando un tipo di rotazione, denominata
Varimax, sulla matrice di Fig. 2.3. In questa tabella si possono vedere 6 colonne indicanti le
saturazioni di ogni variabile nei 6 fattori estratti.
I fattori vengono presentati nell’ordine a loro attribuito dal calcolatore, che dipende dalla
loro importanza nello spiegare la matrice delle correlazioni o dei dati, relativamente alla matrice
fattoriale non ruotata. Per assicurarsene, basta sommare i quadrati delle saturazioni di ogni
variabile in un determinato fattore. A partire dal primo fattore della Fig. 2.3, questi totali
dovrebbero essere decrescenti (i valori cosı̀ ottenuti sono presentati in fondo ad ogni fattore).
Partendo dal primo fattore incominciamo a definire un livello arbitrario delle saturazioni che
ci indichi il limite sotto il quale non riteniamo che le variabili siano sufficientemente significative
all’interno di quel fattore. Questo limite, che dev’essere uguale per tutti i fattori, è stabilito in
modo arbitrario.
Stabiliamo, per ora, il limite di .40.
Tabella 2.5: Matrice fattoriale ruotata (Varimax)
28
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
INTUITIVE
1
0,608
0,083
0,012
0,347
0,145
0,437
-0,207
0,193
0,050
0,097
0,634
-0,014
0,714
0,322
0,210
-0,131
0,586
-0,044
0,053
-0,289
0,149
0,218
0,038
0,631
0,412
0,266
0,097
-0,266
0,575
0,115
0,128
0,102
-0,090
0,587
0,225
0,122
-0,121
-0,075
0,142
-0,168
-0,064
0,129
-0,319
-0,173
-0,011
0,037
-0,019
0,268
0,026
0,609
0,061
0,021
0,118
-0,318
0,253
0,021
0,228
0,244
-0,288
0,604
-0,116
2
-0,050
-0,072
0,098
0,017
-0,174
-0,037
-0,003
-0,231
-0,181
0,486
0,023
0,193
0,017
0,016
-0,196
0,062
0,065
0,343
0,159
0,081
-0,158
0,074
0,388
-0,103
-0,048
0,045
-0,075
0,475
-0,015
-0,160
0,502
-0,191
0,049
-0,016
0,612
0,420
0,551
0,158
-0,023
0,593
0,094
0,148
0,528
0,096
0,564
0,138
0,619
0,156
0,721
0,001
0,685
0,589
0,443
0,332
0,213
0,207
-0,016
0,066
0,167
0,005
0,035
Fattori
3
4
0,100 -0,133
0,646 -0,015
0,458
0,129
0,266
0,102
0,546
0,050
0,038
0,018
0,178 -0,013
0,636
0,006
-0,146
0,195
-0,223
0,223
0,335
0,009
-0,167
0,567
-0,053
0,038
0,003
0,272
0,565 -0,066
0,054
0,110
0,310 -0,068
-0,138
0,014
-0,161
0,125
0,280 -0,225
0,239
0,424
-0,093
0,015
0,178 -0,076
-0,053
0,035
0,332
0,125
-0,062
0,250
-0,043
0,617
0,216 -0,041
0,077
0,006
0,263
0,571
0,188 -0,001
0,524
0,042
-0,098
0,004
0,075
0,099
-0,113
0,117
-0,161
0,227
-0,072
0,038
0,255
0,465
-0,077
0,119
0,088 -0,021
0,014
0,694
0,423
0,157
-0,109
0,031
0,081
0,466
-0,112 -0,036
-0,142
0,593
0,132 -0,123
0,146
0,025
-0,160
0,112
0,307
0,196
-0,216
0,028
-0,390
0,266
-0,202
0,125
0,000
0,027
0,061
0,146
0,138
0,621
0,599
0,010
0,201
0,137
0,035 -0,077
0,093 -0,039
-0,043 -0,067
5
-0,062
-0,163
-0,086
0,162
0,033
0,182
-0,095
0,075
0,019
0,002
-0,089
-0,344
-0,049
0,468
0,187
0,023
0,053
0,182
-0,106
0,354
0,104
0,408
-0,177
-0,038
-0,045
0,113
0,095
0,149
-0,147
0,160
-0,199
-0,238
0,273
-0,096
-0,071
0,206
0,137
0,351
0,565
0,116
-0,083
0,080
-0,009
0,181
-0,292
-0,258
0,181
0,208
-0,027
0,025
0,005
0,153
0,327
0,224
0,133
-0,022
-0,236
-0,079
0,379
0,024
0,340
6
0,063
-0,010
0,104
-0,163
-0,005
0,097
0,274
-0,032
-0,146
0,208
0,057
-0,092
0,173
-0,054
-0,266
-0,258
-0,096
0,078
0,450
-0,171
0,060
0,073
-0,215
0,053
-0,198
0,108
0,108
-0,035
-0,414
-0,055
-0,150
-0,302
-0,061
-0,416
0,240
0,000
-0,218
0,097
0,058
-0,028
0,134
0,479
0,372
-0,201
-0,057
-0,112
0,051
0,077
0,048
-0,048
0,057
0,131
-0,171
0,180
-0,286
-0,045
-0,014
0,084
-0,274
-0,024
-0,114
29
Utilizzando la colonna FACTOR 1, sottolineiamo tutte le saturazioni superiori al limite che
abbiamo stabilito.
Ora trascriviamo, in ordine decrescente di saturazione, il numero della variabile e la
saturazione corrispondente.
Scriviamo accanto ad ogni variabile, la sua spiegazione per esteso.
Si dovrebbe ottenere la seguente tabella:
Tabella 2.6: Fattore 1
49
51
35
.718
.687
.613
47
52
45
37
43
40
31
10
28
53
.612
.595
.583
.541
.533
.524
.492
.490
.462
.436
Quando un adulto è irritato con me, generalmente mi sento in colpa.
Dopo essere stato in disaccordo con un insegnante tendo a sentirmi in colpa.
Quando un adulto è adirato con me, io cerco di essere particolarmente
simpatico.
Sono spesso arrabbiato con me stesso per essermi comportato male.
Io penso che i ragazzi dovrebbero essere gentili e rispettosi con gli adulti.
Quando un insegnante mi critica, mi sento ridicolo e stupido.
Quando un adulto è ingiusto con me, sono dispiaciuto e depresso.
Mi piacerebbe essere simpatico con quelli che sono cattivi con me.
Tendo a rammaricarmi di essere stato troppo impetuoso.
Dico e faccio cose di cui poi mi rammarico sinceramente.
Vorrei cercare di obbedire agli adulti anche quando penso che siano in errore.
Mi sento spesso dispiaciuto per le persone che sono adirate con me.
Preferisco non ricordare le situazioni in cui ho avuto un disaccordo con un
adulto.
Le variabili che hanno le saturazioni più elevate in questo fattore indicano “senso di colpa” da
parte del soggetto quando si vengono a creare delle situazioni di disaccordo con persone adulte.
Gli altri item indicano il desiderio di essere socialmente accettati, la tendenza a rammaricarsi dei
propri atti impulsivi e delle proprie disobbedienze. Tali atteggiamenti manifestano un comportamento di totale accettazione del giudizio e dell’opinione dell’adulto e la tendenza a dispiacersi
di non essere riusciti a controllare il proprio comportamento. La situazione descritta da questi
item implica, quindi, la totale assenza di comportamenti aggressivi e l’inibizione di qualunque
tipo di comportamento o di risposta verbale che potrebbe essere interpretata come una forma di
opposizione verso l’adulto. Per tali motivi abbiamo identificato questo fattore come RISPOSTE
DI INIBIZIONE DELL’AGGRESSIVITA’.
Facciamo ora lo stesso lavoro sulla colonna intestata FACTOR 2.
Tutti gli item confluiti nel secondo fattore rilevano la presenza di aggressività fisica manifestata nei confronti dei coetanei (item 13, 24, 50, 60), nei confronti di oggetti (il, 17) o
genericamente rilevano la presenza di impulsi di tipo aggressivo (1, 34, 29). Tutti questi item si
riferiscono a forme esplicite, anche se non sempre dirette, di aggressività fisica. Per tale motivo,
si può senz’altro definirlo come fattore di AGGRESSIVITA’ FISICA.
Gli item raccolti nel fattore 3 esprimono delle forme di protesta e di opposizione nei confronti
di critiche, osservazioni e soprusi da parte di adulti. Le forme di aggressività espresse in questo
fattore sono manifestate principalmente nei confronti di adulti che assumono un ruolo di autorità
e sono esplicitate attraverso un canale di tipo verbale. Notiamo che in questo fattore compaiono
due item “3-Generalmente ascolto musica” e “42-Mi piace viaggiare”) che sebbene non sembrino
attinenti con le manifestazioni dirette di aggressività verbale, possono denotare un atteggiamento
oppositivo dei giovani nei confronti del mondo degli adulti. Atteggiamento che si esplica non
tanto in una forma violenta, quanto nell’esaltazione di valori tipicamente giovanili, che possono
INTUITIVE
30
13
24
11
1
60
50
17
.730
.642
.623
.617
.608
.594
.562
34
.528
29
.516
6
.431
Faccio a batte con gli altri ragazzi della scuola.
Io ammira sinceramente quei ragazzi che fanno a botte con me.
Sono spesso tosi agitato che provo piacere fracassando oggetti.
Quando sono di malumore, provo piacere picchiando qualcuno.
Gli altri ragazzi iniziano dei combattimenti con me.
Quando un ragazzo mi molesta, cerco di dargli una buona lezione.
Quando le cose non vanno come mi aspetto, sento piacere a spaccare
qualcosa.
E’ piacevole osservare che qualcuno che non ti piace, ricevé una buona
lezione.
Attualmente, mi sento molto contento quando qualcuno che non mi piace si
prende una buona sgridata.
Mi piacerebbe diventare un pugile.
2
8
57
.652
.642
.600
15
32
.580
.548
5
.548
3
42
.452
.413
Quando un adulto è ingiusto con me, mi arrabbio e protesto.
Quando un insegnante mi critica, sono portato a ribattere e protestare.
Quando un adulto critica i miei abiti o i miei capelli gli dico che non sono
fatti suoi.
E’ giusto procurare del fastidio ad un insegnante irritante.
Quando un adulta cerca, con insistenza, di darmi ordini, mi oppongo
decisamente.
Quando un adulto cerca di prendere il mio posto in una fila, gli dica
decisamente che quel posto è mio.
Generalmente ascolto musica.
Mi piace viaggiare.
perciò rappresentare forme di aggressività simili alla verbale (in quanto non fisica). Si giustifica,
perciò, la denominazione di AGGRESSIVITA’ VERBALE.
41
56
27
46
30
12
44
21
38
.687
.614
.610
.579
.565
.561
.465
.415
.414
Io mi sento sempre felice e tranquillo.
Io non mi sento mai triste o infelice.
Io non mi sento mai spaventato o ansioso.
Gli adulti non mi rimproverano mai.
Io ho sempre successo in qualsiasi cosa faccia
Io non vengo mai rimproverato dagli adulti.
I ragazzi a scuola non dicono mai cose cattive su di me.
Io so sempre cosa dire alla gente.
I ragazzi a scuola sono sempre simpatici con me.
Le variabili che formano il fattore 4 si riferiscono a situazioni in cui i soggetti manifestano
stima e sicurezza di se stessi. Ciò avviene sia con affermazioni relative ad uno stato di benessere
e di tranquillità personale, sia con affermazioni che tendono a credere di essere valutati in
modo positivo nel giudizio espresso dalle altre persone. Per tali motivi il fattore stato definito
VALUTAZIONE POSITIVA DI SE’.
Il fattore 5 ha sature sole tre variabili che identificano quelle situazioni di sport e hobby che
31
39
14
22
.554
.415
.411
Nel mio tempo libero gioco a scacchi.
Mi piace molto giocare al calcio.
Mi piace molto collezionare francobolli.
non sembrano avere nessuna apparente legame con l’aggressività. Bisogna aggiungere che questi
item, nella logica del questionario, svolgevano la funzione di “riempitivi”. La loro funzione era
quella di verificare se le risposte dei soggetti avevano un senso oppure erano state attribuite
in modo casuale. Il fatto che questi item appaiano in un fattore isolato, serve a dimostrare la
validità dei dati raccolti. Si potrebbe chiamare questo fattore “Attività del tempo libero”, ma
proprio per la sua funzione logica, preferiamo chiamarlo fattore RIEMPITIVO.
34
.498
29
.493
42
19
43
-.476
-.443
-.408
E’ piacevole osservare che qualcuno che non ti piace, riceve una buona
lezione
Attualmente, mi sento molto contento quando qualcuno che non mi piace
si prende una buona sgridata.
Mi piace viaggiare.
Mi piace disegnare.
Mi piacerebbe essere simpatico con quelli che sono cattivi con me.
Di difficile interpretazione è invece il fattore 6 in cui risultano sature 5 variabili già saturate
nei precedenti fattori. Tali variabili vengono perciò chiamate “bifattoriali” ed essendo le loro
saturazioni in questo fattore minori di quelle degli altri fattori, la loro importanza può essere
trascurata. Volendo comunque tentare un’interpretazione di questo fattore si può vedere che
le variabili 34 e 29 si riferiscono a manifestazioni di impulsi aggressivi, cioè situazioni in cui il
soggetto prova piacere nel vedere realizzato un proprio desiderio di aggressività; in accordo con
tale interpretazione è la variabile 43 che, comparendo qui con una saturazione negativa, assume
un significato opposto a quello che aveva nel fattore 1. Essa esprime quindi, il desiderio di poter
essere in grado di opporsi a chi commette ingiustizie. Gli ultimi due item sono da considerarsi
dei riempitivi e non trovano una loro esatta collocazione logica nell’ambito del fattore. Questo
fattore potrebbe, con molte riserve, essere definito come IMPULSI AGGRESSIVI.
Nella Fig. 2.4 si vede la matrice delle correlazioni tra le variabili in una particolare forma
grafica. Le variabili sono state anche riordinate in modo che le correlazioni più elevate compaiano
in vicinanza della diagonale principale. Questo tipo di rappresentazione può essere paragonato
a quanto è stato da noi fatto sulla matrice delle correlazioni fra le prove di apprendimento che è
stata presentata nel capitolo 1. In questa rappresentazione grafica un simbolo più scuro equivale
ad una correlazione alta. Si possono allora ritrovare raggruppate fra loro le stesse variabili che
risultano essere maggiormente sature in ciascuno dei sei fattori sopra descritti. Si notano in
particolare quattro raggruppamenti corrispondenti rispettivamente al fattore di Inibizione, al
fattore di Aggressività Fisica, al fattore di Aggressività Verbale e al fattore di Autovalutazione.
Per una migliore comprensione dei metodi di estrazione dei fattori presentati precedentemente e per dimostrare che cosa si intende per indeterminazione della soluzione fattoriale abbiamo
effettuato una seconda analisi. Abbiamo utilizzato le stesse variabili relative al questionario di
Olweus questa volta però abbiamo estratto i fattori con il metodo degli assi principali iterati,
utilizzando come stima iniziale della comunanza la correlazione multipla al quadrato1 .
1
Intuitivamente, per correlazione multipla di una variabile con tutte le altre bisogna intendere il grado di
32
INTUITIVE
Figura 2.4: Matrice delle correlazioni in forma simbolica
Di questa seconda analisi presentiamo (Tab. 2.12) solo la matrice fattoriale ruotata (con
il metodo Varimax) in una forma particolare definita “ sorted”. Le variabili, cioè, sono state
riordinate secondo la loro saturazione nei fattori e tutte le saturazioni inferiori a .25 sono state
eliminate per facilitare la lettura.
Si può quindi vedere facilmente che, pur con qualche diversità nell’ordine dei fattori e delle
saturazioni delle variabili in ogni singolo fattore, l’interpretazione porta comunque a risultati
sovrapposizione di una variabile con tutte le altre. Per maggiori informazioni su questo concetto si può consultare
Mulaik (1972) Mulaik (1972) e Gorsuch (1974) Gorsuch (1974).
analoghi.
33
34
49
51
35
47
52
45
37
8
2
15
57
32
5
13
24
11
1
60
50
17
41
56
27
46
30
12
29
34
23
25
31
26
33
28
3
36
7
38
39
40
21
42
43
44
6
10
4
48
20
19
9
14
53
INTUITIVE
1
0,695
0,657
0,585
0,578
0,569
0,522
0,500
2
Fattori
3
4
-0,397
0,276
5
6
0,619
0,596
0,591
0,571
0,540
0,501
0,367
0,353
0,360
0,717
0,599
0,586
0,566
0,539
0,517
0,510
0,654
0,567
0,558
0,527
0,519
0,513
0,272
0,314
0,337
-0,275
0,669
0,633
0,337
0,369
0,330
0,458
0,423
0,369
0,396
0,428
0,317
0,455
0,487
0,372
0,305
-0,303
-0,475
0,491
0,383
0,406
0,453
0,297
0,287
-0,272
0,306
0,256
0,412
0,409
0,318
2.8. PUNTEGGI FATTORIALI
35
Tabella 2.12: Seconda matrice fattoriale ruotata (Varimax)
2.8
Punteggi fattoriali
Dopo aver effettuato un’analisi fattoriale ed aver ottenuto un certo numero di fattori, ci potrebbe
interessare conoscere la posizione di ogni soggetto rispetto a quei fattori. Se, ad esempio, abbiamo isolato un fattore di Aggressività fisica, potremmo voler conoscere quali dei nostri soggetti
manifesti molta aggressività e quali non ne manifesti affatto. Ci interessa quindi il punteggio di
ogni soggetto nei singoli fattori. Tale punteggio è chiamato, appunto, punteggio fattoriale.
Esistono diversi metodi per calcolare i punteggi fattoriali di ogni soggetto nei fattori
individuati, ma solo due vengono maggiormente utilizzati nella realtà pratica.
Il primo metodo è quello della regressione multipla (cfr. cap. 3*). E’ il metodo matematico
per il calcolo dei punteggi fattoriali che viene generalmente utilizzato dai programmi di analisi
fattoriale per calcolatori ed è perciò molto comodo. Il punteggio fattoriale, in questo caso,
tiene conto di tutte le variabili, proporzionalmente alla loro importanza fattoriale. Il suo difetto
principale è che non è facile da interpretare, non conoscendo la sua gamma di variazione.
Il secondo è un metodo approssimato (punteggi fattoriali compositi ) e si usa quando si vuol
calcolare un punteggio fattoriale che non tenga conto di tutte le variabili sottoposte ad analisi
fattoriale, ma soltanto della variabile o delle variabili più sature in un particolare fattore (monofattoriali). In questo caso, si analizza la matrice di composizione fattoriale e, per ciascuno
dei fattori di cui si vogliono conoscere i punteggi fattoriali, si selezionano le variabili più sature,
vale a dire con le saturazioni più alte. A questo punto si considera la somma dei punteggi grezzi
che ogni soggetto ha ottenuto in quelle variabili, oppure se ne calcola la media. In quest’ultimo
caso, se (come capita spesso) tutte le variabili hanno la stessa gamma, anche i punteggi fattoriali
avranno la stessa gamma e sono quindi di facile interpretazione.
Quest’ultimo metodo è molto semplice se le variabili selezionate hanno tutte saturazioni
con lo stesso segno. Le cose, invece, si complicano un poco quando le saturazioni di alcune
delle variabili scelte hanno segno diverso, perché bisogna tenerne conto e il modo per farlo è
strettamente legato al tipo di misurazione utilizzata inizialmente.
I punteggi fattoriali possono essere utilizzati per effettuare altre elaborazioni statistiche, come
l’analisi della varianza o il t di Student e verificare determinate ipotesi formulabili su alcune
caratteristiche del campione rispetto ai fattori. Ad esempio, nella ricerca di Rossi e Venuti
(1983) ? (?) di cui si è ampiamente parlato, si era ottenuto il fattore di Aggressività fisica.
Essendo il campione eterogeneo rispetto all’età e al sesso, gli autori avevano ipotizzato che il
sottocampione femminile manifestasse minore aggressività fisica rispetto a quello maschile e che
il sottocampione di età minore (preadolescenti, 11-13 anni) manifestasse maggiore aggressività
fisica rispetto a quello di età maggiore (17-18 anni). Un’analisi della varianza effettuata sui
punteggi fattoriali (con il secondo metodo qui proposto) ha permesso di verificare queste ipotesi.
2.9
Appendice
Test di Sfericità di Bartlett
1
χ2 = −[n − 1 − (2p + 5)]ln|R|
6
con (p2 − p)/2 gradi di libertà
dove |R| è il determinante della matrice di correlazione, N è la numerosità del campione, e
p indica il numero delle variabili.

Appunti di analisi fattoriale

Transcript

Documenti analoghi

time management

Esame di Algebra e Geometria - Prof. L. Alessandrini (6 settembre

LA VALUTAZIONE dei FLUSSI COMUNICATIVI

donna con libro

Funzione CERCA.VERT

Buona Programmazione in C

Significato geometrico di n - Dipartimento di Matematica Tor Vergata

L`algoritmo di Gauss-Jordan. Per calcolare l`inversa di una matrice A

contenuti analisi dei rischi

Programma di ricerca supernovae