Appunti di analisi fattoriale
Transcript
Appunti di analisi fattoriale
Appunti di analisi fattoriale Germano Rossi e Paola Venuti 15 maggio 2004 vers. 0.1.4 1 Indice Indice 2 1 L’analisi fattoriale da un punto di vista intuitivo 5 2 Come si esegue un’analisi fattoriale: indicazioni 2.1 Introduzione . . . . . . . . . . . . . . . . . . . . . 2.2 Scelta del campione . . . . . . . . . . . . . . . . 2.3 Dai dati alla matrice di correlazione. . . . . . . . 2.4 Determinazione dei fattori . . . . . . . . . . . . . 2.5 Rotazione dei fattori . . . . . . . . . . . . . . . . 2.6 L’interpretazione dei fattori . . . . . . . . . . . . 2.7 Esempio di interpretazione . . . . . . . . . . . . . 2.8 Punteggi fattoriali . . . . . . . . . . . . . . . . . 2.9 Appendice . . . . . . . . . . . . . . . . . . . . . . Riferimenti bibliografici . . . . . . . . . . . . . . . . . 2 intuitive . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 13 14 15 16 23 26 27 35 35 36 Introduzione L’analisi fattoriale può genericamente essere pensata come la ricerca di variabili latenti a partire da alcune variabili osservate. Una variabile osservata è una variabile che è stata effettivamente misurata, mentre una variabile latente è un tipo di variabile che non è stata misurata, che forse non è neppure misurabile e che perciò viene ipotizzata e “analizzata” attraverso i suoi effetti. Le influenze che una variabile latente ha su altre variabili misurabili diventano un modo per risalire a questa variabile nascosta. Storicamente, nell’ambito dell’analisi fattoriale, le variabili latenti vengono chiamate “fattori”. Nei suoi primi modelli matematici, l’analisi fattoriale era una tecnica di analisi esplorativa appunto perché permetteva di “esplorare” le relazioni nascoste fra un gran numero di variabili. In tempi più recenti, la tecnica delle equazioni strutturali ha permesso di sviluppare una tecnica di analisi fattoriale di tipo confermativo, che cioè permette di verificare se effettivamente i fattori ipotizzati servono a spiegare le variabili misurate. 3 Capitolo 1 L’analisi fattoriale da un punto di vista intuitivo L’analisi fattoriale è un metodo di elaborazione dei dati che appare molto complesso, in quanto si basa su una serie di tecniche matematiche piuttosto difficili da studiare e da spiegare in termini semplici. Il procedimento logico che sta alla base di questa tecnica e gli scopi per cui viene generalmente usata sono meno complessi da capire ed è quello che cercheremo qui di illustrare, partendo da un ipotetico esempio di ricerca basato su dati immaginari. Supponiamo di voler fare una ricerca per vedere, al termine di una terza media inferiore, che tipo di abilità hanno acquisito gli allievi, per poterli cosı̀ indirizzare verso la scelta scolastica del loro futuro. Si decide di applicare ad ognuno dei 301 ragazzi delle classi terze, una serie di prove (variabili osservate) relative a varie abilità ed acquisizioni insegnate ed apprese nel corso degli anni scolastici. Le prove sono le seguenti: 1. Lettura di un testo; 2. Comprensione del brano letto; 3. Descrizione orale di avvenimenti; 4. Invenzione e racconto di una storia; 5. Risoluzione di problemi aritmetici; 6. Contare e ordinare sequenze numeriche; 7. Risoluzione di problemi geometrici; 8. Riconoscimento di figure; 9. Individuazione di parole contenenti errori; 10. Individuazione di particolari uguali in due figure diverse; 11. Individuazione di particolari diversi in due figure uguali; 12. Descrizione scritta di stati d’animo; 13. Risoluzione di rebus. Queste prove vengono somministrate in ordine casuale e ogni soggetto ottiene per ciascuna di esse un punteggio compreso fra 1 e 10. Questi risultati sono mostrati nella Tab. 1.1. Già ad una prima osservazione, questi risultati mostrano che, generalmente, i soggetti che hanno ottenuto un punteggio alto (ss. 10 e 18), medio (ss. 2 e 15), basso (ss. 20 e 27) nella prima prova hanno ottenuto risultati simili anche nelle prove 2 e 3. Ancora, i ss. che hanno ottenuto un punteggio alto (ss. 10 e 4) nella prova 5 hanno ottenuto punteggi alti anche nelle 1 Usiamo un numero di soggetti ridotto a puro titolo esemplificativo (cfr. il cap. 1). 5 6 CAPITOLO 1. UN PUNTO DI VISTA INTUITIVO Tabella 1.1: Risultati ipotetici ottenuti da 30 ragazzi di terza media in 13 prove finali Sog. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 1 6 4 7 9 3 4 6 5 5 10 4 6 3 6 4 3 5 10 8 2 4 6 3 7 9 9 1 5 8 7 2 7 3 7 8 2 3 6 4 6 9 3 7 2 7 3 2 6 9 7 1 3 7 2 7 8 10 2 6 7 7 3 6 2 6 7 3 4 6 4 7 7 4 7 3 6 2 3 5 7 6 3 4 6 3 6 7 7 3 7 6 8 4 6 3 7 9 1 4 7 5 6 10 2 8 3 6 3 1 5 9 5 1 2 6 1 7 9 10 1 6 7 8 5 4 8 5 9 6 6 8 6 9 9 4 7 5 6 7 3 6 9 9 4 1 10 5 9 10 8 3 6 7 7 Prove 6 7 3 5 7 7 6 6 10 7 5 5 5 5 7 8 4 6 8 8 7 7 4 4 9 7 6 6 5 5 7 6 2 2 6 7 10 10 9 8 5 4 3 1 9 10 4 5 8 9 9 9 7 7 3 2 6 6 6 7 7 7 8 4 8 6 7 6 5 8 4 9 9 5 6 5 8 7 4 7 8 10 5 4 10 6 7 9 7 5 4 6 6 9 8 1 6 8 4 3 7 4 6 10 2 8 1 8 1 4 6 9 7 3 2 7 3 6 7 8 4 6 8 6 10 5 9 7 6 7 6 9 3 10 10 4 6 5 9 6 4 7 8 9 4 4 9 7 6 8 6 6 4 7 6 11 4 10 7 7 6 7 8 2 9 9 3 5 6 8 5 3 7 8 10 4 3 9 6 7 7 7 8 3 7 5 12 7 1 7 7 2 3 6 4 7 10 1 7 2 7 1 2 6 9 5 4 2 7 3 7 7 9 2 7 7 6 13 5 6 5 9 4 4 7 5 9 7 3 9 5 7 6 2 8 8 10 1 2 8 7 6 8 7 2 9 9 8 prove 6 e 7. I ss. che hanno ottenuto bassi punteggi (s. 21) nella prova 10 li hanno avuti anche nella 11. Non si riesce però a notare un andamento costante in tutte le prove, ad es. il soggetto 1 ha un punteggio medio nelle prime tre prove, un basso punteggio nelle prove 5 e 6, un punteggio alto nella nona prova e nuovamente un punteggio basso nelle prove 10 e 11. Questo andamento si può notare meglio nel grafico di Fig. 1.1 relativo ai ss. 1, 2, 11 e 12. Si può a questo punto tentare un’ipotesi: tra alcune delle variabili esiste un particolare rapporto per cui i ss. che ottengono un determinato punteggio in una di queste prove ottengono punteggi analoghi nelle altre prove dello stesso gruppo. Allo stesso tempo fra altre variabili esiste un rapporto analogo al precedente anche se non sembra che vi sia una relazione precisa fra i due gruppi di variabili. Questa nostra ipotesi sull’andamento dei dati rilevati, però non è facilmente dimostrabile. Si può perciò pensare di ricorrere ad una metodica statistica che permetta di rilevare in che misura le variabili siano tra loro in relazione. In statistica ne esiste una che effettivamente risponde alle nostre esigenze: il coefficiente di correlazione prodotto-momento di Bravais-Pearson (Cristante, Lis, & Sambin, 1982). Ricordiamo che questo indice statistico misura il grado di relazione esistente fra due variabili: se le variabili mutano concordemente (nel senso che soggetti che hanno ottenuto punteggi alti nella prima prova li ottengono pure alti nella seconda, e i soggetti che invece ottengono punteggi bassi nella prima lo ottengono anche nella seconda) si 7 Figura 1.1: Rappresentazione grafica dei punteggi di alcuni soggetti avrà una correlazione elevata, se mutano indipendentemente l’una dall’altra non si avrà alcuna correlazione. Abbiamo utilizzato questo coefficiente di “accordo” considerando tutte le coppie che è stato possibile ottenere tra le variabili. La Tab. 1.2 riporta i valori di questi coefficienti in una tabella che è chiamata matrice delle correlazioni. All’incrocio fra una riga e una colonna si trova l’indice di somiglianza delle due variabili indicate rispettivamente all’inizio della riga ed in cima alla colonna. Analizziamo questa tabella considerando come elevate, a solo titolo esemplificativo, le correlazioni superiori o uguali a .80 (anche se questo valore è di molto superiore a quello critico per un livello di significatività del 5%; cfr. Cristante et al., 1982). La tabella che segue presenta solo metà dell’intera matrice delle correlazioni perché, la correlazione della variabile 2 con la variabile 3 (.91) è uguale alla correlazione della variabile 3 con la variabile 2. L’intera matrice, quindi, è simmetrica rispetto alla diagonale (definita principale), cioè le due metà risultano speculari l’una all’altra. Una seconda caratteristica di questa tabella è la presenza di un trattino ad indicare la correlazione di una variabile con se stessa che generalmente non viene calcolata oppure viene indicata con il valore 1. Tabella 1.2: Matrice delle correlazioni fra prove finali 1 2 3 4 5 6 7 8 9 10 11 12 13 1 .94 .81 .92 .70 .68 .68 .54 .81 .43 .37 .82 .67 2 3 4 5 6 7 8 9 10 11 12 13 .91 .96 .67 .65 .68 .54 .89 .45 .39 .92 .72 .89 .56 .58 .59 .39 .87 .33 .24 .90 .69 .70 .69 .71 .47 .83 .39 .34 .90 .70 .89 .93 .83 .54 .68 .65 .58 .77 .87 .75 .49 .55 .57 .55 .76 .74 .53 .59 .56 .63 .78 .45 .90 .84 .44 .62 .45 .36 .93 .62 .91 .41 .56 .33 .47 .64 - 8 CAPITOLO 1. UN PUNTO DI VISTA INTUITIVO Osservando questa tabella ci rendiamo conto che la nostra ipotesi iniziale era esatta. Esistono infatti delle relazioni molto alte tra alcune variabili (ad esempio la 1 con la 2; la 1 con la 3; la 2 con la 3, tutte con valori superiori a .80) e altri valori più bassi (ad esempio la 1 con le variabili 8, 10 e 11 tutte inferiori a .55). Si può quindi dire che le prime 3 variabili sono strettamente collegate fra loro e quindi potrebbe essere che misurino abilità simili o addirittura aspetti diversi di una sola abilità. Se ciò è facile da individuare analizzando le prime tre variabili oppure la 5 e la 6, perché sono le une vicine alle altre, per altre variabili che non presentano questa vicinanza sulla matrice (ad esempio la 1 e la 9) questo rapporto non è immediatamente visibile. Proviamo a riorganizzare la matrice delle correlazioni in modo che la maggior parte delle variabili molto correlate fra loro si trovino le une vicino alle altre anche fisicamente nella matrice stessa. Cerchiamo la correlazione più alta esistente nella matrice (.95 tra la variabile 2 e la variabile 4) e riorganizziamo la variabile 2 in ordine decrescente di valori (Tab. 1.3). Tabella 1.3: Correlazioni della variabile 2 con le altre variabili var. 2 4 1 12 3 9 13 7 5 6 8 10 11 2 .96 .94 .92 .91 .89 .72 .68 .67 .65 .54 .45 .39 A questo punto riproduciamo tutta la matrice di correlazione secondo l’ordine delle variabili indicato dai valori decrescenti della variabile 2 (Tab. 1.4). Possiamo vedere che le variabili 2, 4, 1, 12, 3, 9 e 13 sono tutte tra loro altamente correlate, mentre le loro correlazioni con tutte le altre variabili sono minori. Analogamente per le variabili 7, 5, 6 e per le variabili 8, 10, 11 le quali formano altri due gruppetti fra loro isolati. Come risulta dalla Tab. 1.5 si possono individuare, quindi, 3 blocchi di variabili, strettamente unite al loro interno e separate dalle altre. Per spiegarci il motivo di questi raggruppamenti2 proviamo ad analizzare il significato delle variabili che li compongono. 1. Il primo raggruppamento è formato dalle variabili: 2 - Comprensione di un brano letto 4 - Invenzione e racconto di una storia 1 - Lettura di un testo 12 - Descrizione scritta di stati d’animo 3 - Descrizione orale di avvenimenti 2 Usiamo il termine “ raggruppamento” nel suo significato quotidiano; non intendiamo affatto riferirci a tecniche di analisi particolari quali la cluster analysis. 9 Tabella 1.4: Matrice delle correlazioni ordinata secondo i valori decrescenti della variabile 2 2 4 1 12 3 9 13 7 5 6 8 10 11 2 .96 .94 .92 .91 .89 .72 .68 .67 .65 .54 .45 .39 4 1 12 3 9 13 7 5 6 8 10 11 .92 .90 .89 .83 .70 .71 .70 .69 .47 .39 .34 .82 .81 .81 .67 .68 .70 .68 .54 .43 .37 .90 .93 .64 .63 .58 .55 .44 .41 .33 .87 .69 .59 .56 .58 .39 .33 .24 .62 .53 .54 .49 .45 .45 .36 .78 .77 .76 .62 .56 .47 .93 .87 .74 .59 .56 .89 .83 .68 .65 .75 .55 .57 .90 .84 .91 - Tabella 1.5: Matrice delle correlazioni con i raggruppamenti delle variabili evidenziati 2 4 1 12 3 9 13 7 5 6 8 10 11 2 .96 .94 .92 .91 .89 .72 .68 .67 .65 .54 .45 .39 4 1 12 3 9 13 7 5 6 8 10 11 .92 .90 .89 .83 .70 .71 .70 .69 .47 .39 .34 .82 .81 .81 .67 .68 .70 .68 .54 .43 .37 .90 .93 .64 .63 .58 .55 .44 .41 .33 .87 .69 .59 .56 .58 .39 .33 .24 .62 .53 .54 .49 .45 .45 .36 .78 .77 .76 .62 .56 .47 .93 .87 .74 .59 .56 .89 .83 .68 .65 .75 .55 .57 .90 .84 .91 - 9 - Individuazione di parole contenenti errori 13 - Risoluzione di rebus Queste variabili indicano tutte delle abilità di tipo linguistico e verbale legate ai processi di lettura, scrittura e comprensione di materiale scritto o letto. Le ultime due variabili indicano delle capacità logiche legate a conoscenze linguistiche o ortografiche. 2. Il secondo raggruppamento è formato da: 7 - Risoluzione di problemi geometrici 5 - Risoluzione di problemi aritmetici 6 - Contare e ordinare sequenze numeriche Chiaramente, queste variabili indicano tutte un’abilità legata alla conoscenza dei numeri, dei rapporti matematici e geometrici. 3. Quest’ultimo raggruppamento comprende: 8 - Riconoscimento di figure 10 - Individuazione di particolari uguali in due figure diverse 11 - Individuazione di particolari diversi in due figure uguali 10 CAPITOLO 1. UN PUNTO DI VISTA INTUITIVO Altrettanto chiaramente queste variabili indicano abilità di tipo percettivo relative alla discriminazione di stimoli visivi. L’aver raggruppato i dati in questo modo ci ha reso molto più evidente i rapporti esistenti tra le variabili e ci ha permesso con più facilità di interpretare i risultati. In questo caso, essendo l’esempio immaginario e i dati pochi, stato possibile realizzare raggruppamenti in maniera empirica ottenendo dei risultati estremamente chiari. Nella realtà della ricerca psicologica i tatti non sono cosı̀ semplici: il numero dei dati è sovente maggiore, sono presenti errori nel modo di rilevare i dati, il livello delle correlazioni non sempre risulta cosı̀ nettamente differenziato... Da queste difficoltà è nata l’esigenza di elaborare una tecnica matematica e statistica che permettesse di ottenere dei raggruppamenti di variabili in base ad un tratto comune che li unifica e che consente di spiegare le correlazioni tra esse esistenti. Questa tecnica è l’analisi fattoriale, che, sebbene utilizzi sofisticati calcoli matematici, nei suoi processi più intuitivi e logici segue le fasi da noi suesposte. Infatti il punto di partenza di questa tecnica è una matrice delle correlazioni tra le variabili. Un indice di correlazione ci informa sull’andamento concomitante di due variabili, non è però possibile dire che, se A correla con B, allora A è causa di B oppure che B è causa di A. Vale a dire che un alto indice di correlazione ci permette di capire che al variare di una, varia contemporaneamente anche l’altra. E’ impossibile dire se una delle due sia responsabile del variare della seconda oppure se entrambe siano legate ad una terza variabile (sconosciuta) che è responsabile del loro variare concomitante. Questo stesso ragionamento può essere esteso a tre, quattro o n variabili tutte tra loro altamente correlate. Una di queste è responsabile del variare delle altre, oppure esiste un’ulteriore variabile a cui imputare il variare concorde di tutte? L’Analisi Fattoriale parte appunto dall’ipotesi che esista questa ulteriore variabile che in qualche modo influenza ed agisce su un gruppo di variabili fra loro altamente correlate. Questa variabile sottostante (definita fattore) agisce evidentemente su un particolare “tratto” comune a tutte le altre. L’Analisi fattoriale allora, si assume il compito d’individuare il o i fattori, cioè le variabili sottostanti ad un gruppo di altre variabili. Per questo, nell’interpretare i fattori, si procede nel modo da noi seguito in precedenza. Si cerca cioè di trovare il significato comune alle variabili che confluiscono in un fattore, tenendo presente che tali variabili non hanno lo stesso peso nel determinare il significato di questo fattore. Infatti, in base ai calcoli matematici che poi spiegheremo, ad ogni variabile viene attribuito un valore, chiamato saturazione che ci indica l’importanza che ha quella variabile nel determinare il significato del fattore. Allora, una variabile con una grande importanza in un fattore, ossia con un’alta saturazione in quel fattore, influirà più di una variabile con una saturazione più bassa. Possiamo quindi dire che, poiché l’analisi fattoriale si applica ad un’insieme di dati raccolti attraverso osservazioni, test, questionari... e tutta la gamma di misurazioni che sono comunemente utilizzate in psicologia, il suo scopo prioritario è quella di ridurre questa vasta quantità di misurazioni o variabili, attraverso delle variabili-fattore che siano in numero inferiore alle variabili di partenza e che spieghino tutte le correlazioni delle variabili di quel raggruppamento. L’analisi fattoriale è stata inizialmente proposta da Charles Spearman nel 1904 e successivamente ampliata con il contributo di altri psicologi. Il contributo di alcuni matematici è stato importante non tanto nello sviluppo teorico, quanto nell’affinamento di alcune tecniche di calcolo. Spearman sosteneva che tutte le misure di abilità mentale relative ad un test potevano essere spiegate come attribuibili ad un’abilità generale e ad un’abilità specifica. Ciascuna di queste due abilità dipende, per Spearman da un fattore: un fattore generale e un fattore specifico. Applicando un test di Q.I. che comprenda una prova di abilità verbale, una di abilità numerica e una di abilità spaziale, il punteggio finale ottenuto (secondo Spearman) sarà determinato sia 11 dai risultati ottenuti grazie all’abilità specifica del soggetto nei tre campi (fattori specifici) sia dal suo livello “generale” d’intelligenza (fattore generale). Questa teoria, denominata teoria dei due fattori, ha orientato per vari anni le ricerche psicologiche finché Thurstone (1945) non propose una modifica, conosciuta come teoria multifattoriale. Egli ritenne che non esistesse un unico fattore generale, ma piuttosto diversi fattori definiti comuni. Questi fattori vengono chiamati comuni in quanto raccolgono solo alcune delle variabili in esame differenziandosi in tal modo dal fattore generale che era comune a tutte le variabili contemporaneamente. Ogni fattore comune ha caratteristiche diverse dagli altri fattori e dalle singole variabili che lo definiscono. Ciò che lo caratterizza in realtà è l’esprimere un tratto che è comune ad ognuna delle variabili in esso raccolte. Ritorniamo al primo esempio del capitolo: consideriamo i tre raggruppamenti che si sono formati tra le prove di abilità e di apprendimento somministrate a ragazzi di Scuola Media. In linea di massima potremmo dire che il primo raggruppamento corrisponde ad abilità di tipo verbale-linguistico, il secondo ad abilità legate alle conoscenze numeriche e il terzo ad abilità di tipo percettivo. Secondo la teoria di Thurstone il punteggio di un certo soggetto in una certa prova, ad esempio, risoluzione di problemi geometrici sarà dovuta in gran parte ad abilità numerica, ma anche ad un piccolissimo contributo di tutte le altre abilità. Anche ad un semplice livello intuitiva, si capisce che la capacità di una persona di risolvere problemi geometrici è legata alla capacità soggettiva di saper risolvere quella specifica prova, ma anche alla sua abilità più generale di tipo matematico, all’abilità di percepire gli elementi caratterizzanti la prova oltre che alla capacità di esprimere la soluzione in forma verbale o scritta. Si vede chiaramente che il peso di ciascuna di queste abilità è diverso e dipende dal tipo di problema; in questo caso l’abilità specifica e quella numerica saranno sicuramente più determinanti di quella linguistica o percettiva. Al contrario in una prova, ad esempio di comprensione di un brano letto, il peso dell’abilità linguistica sarà molto più determinante di quello dell’abilità matematica. Questa teoria è tuttora alla base di tutti i modelli matematici di analisi fattoriale. L’analisi fattoriale è ormai una metodologia usata con larga diffusione sia in psicologia come anche, in generale, in tutte le scienze sociali. Essa si è rapidamente diffusa nei vari settori della psicologia perché il problema che si incontra solitamente nella ricerca psicologica è quello di cercare quali componenti sottostanno ad uno stesso comportamento globale oppure, anche, quello di trovare quali relazioni esistono fra comportamenti, reazioni, manifestazioni psicologiche in generale emessi in determinate situazioni. L’analisi fattoriale è stata ampiamente utilizzata in psicologia proprio perché permette: a) di conoscere le relazioni che esistono tra le variabili relative ad un certo comportamento a manifestazione psicologica e su cui non è ancora possibile stabilire ipotesi di lavoro. Esempio: Quando si parla di comportamento sociale di bambini in età prescolare s’intende riferirsi ad un gruppo di comportamenti, abbastanza facilmente definibili, quali il contatto, il gioco, la comunicazione, l’aggressività, che anche a livello intuitivo sono strettamente connessi tra loro e reciprocamente influenzabili e interdipendenti. Se è facile comprendere tutto questo, è più difficile capire fra quali comportamenti esiste realmente una relazione, quali sono invece indipendenti, qual è il “motivo” che fa mettere in rapporto alcuni comportamenti invece di altri. Per sapere ciò si ricorre all’analisi fattoriale. Raccolti i dati relativi al comportamento sociale attraverso un’osservazione diretta del comportamento di un campione di bambini, in cui vengono rilevati i comportamenti del tipo “giocare insieme ad 12 CAPITOLO 1. UN PUNTO DI VISTA INTUITIVO altri bambini con un oggetto”, “giocare insieme ad altri bambini senza oggetto”, “giocare con l’adulto”, “sorridere a qualcuno”, “picchiare un altro bambino”, “piangere”, “giocare da soli”, ecc. sarà possibile vedere come, una serie di variabili indicanti i comportamenti osservati vengono a riunirsi insieme, dando origine ad una serie di raggruppamenti, che ci indicano il modo in cui vengono raggruppati i comportamenti di “gioco insieme con i coetanei”, di “sorriso”, “verbalizzazione”, escludendo invece comportamenti quali “contatto aggressivo”, “gioco da soli”... b) la conferma di un’ipotesi specifica, da cui si è partiti, sulle relazioni esistenti tra alcune variabili psicologiche. Esempio: In un questionario elaborato nel 1975 da Dan Olweus e relativo all’autovalutazione dell’aggressività in preadolescenti, si era interessati a valutare le manifestazioni aggressive sotto certi particolari aspetti: le manifestazioni aggressive di tipo verbale, quelle di tipo fisico e le manifestazioni implicanti un’inibizione della risposta aggressiva. Si è quindi costruito un questionario che contenesse una serie di item relativi a questi tre aspetti particolari: per la manifestazione fisica dell’aggressività, item tipo “Faccio a botte con gli altri ragazzi della scuola”, per quella verbale “Quando un adulto è ingiusto con me, mi arrabbio e protesto”, per l’inibizione dell’aggressività “Quando un adulto è irritato con me, generalmente mi sento in colpa”. L’ipotesi della ricerca era che ciascuno di questi item fosse relativo ad un diverso aspetto di un determinato tipo di aggressività. Si è quindi sottoposto il questionario, con gli item fra loro mischiati, a due gruppi di circa 80 soggetti l’uno. Ogni soggetto doveva giudicare su una scala da 1 a 5 se l’affermazione proposta dall’item era più o meno appropriata a se stesso. L’uso dell’analisi fattoriale ha permesso di verificare l’esattezza di quest’ipotesi, infatti gli item da Olweus selezionati come indicativi di manifestazione fisica dell’aggressività sono risultati appartenere ad un unico fattore. Analoghi risultati si sono ottenuti per gli altri due tipi di item. Ribadiamo ulteriormente che l’analisi fattoriale è una metodologia statistico-matematica che permette di esplicitare e formalizzare due modi di operare tipici della psicologia: o raggruppando insieme eventi o variabili che si manifestano o mutano congiuntamente, per cogliere il legame esistente tra loro, oppure individuando le influenze, più o meno importanti, e i comportamenti che sottostanno ad ulteriori comportamenti o avvenimenti. Abbiamo cercato di spiegare in questo capitolo in modo estremamente intuitivo cosa sia l’analisi fattoriale, mentre i capitoli seguenti forniranno delle spiegazioni più dettagliate e precise. Nel capitolo secondo analizziamo quelle nozioni di analisi fattoriale necessarie a chi, pur volendola applicare, non desidera approfondirne, immediatamente, gli aspetti matematici. Capitolo 2 Come si esegue un’analisi fattoriale: indicazioni intuitive 2.1 Introduzione In questo capitolo cercheremo di illustrare le varie fasi attraverso cui si passa nell’effettuare un’analisi fattoriale mantenendoci ancora ad un livello intuitivo e rimandando i dettagli matematici al successivo capitolo. Come abbiamo già accennato lo scopo fondamentale di ogni teoria fattoriale è quello di cogliere le variabili latenti (i fattori) capaci di spiegare le relazioni comuni ad un ampio gruppo di variabili, di solito rilevate mediante l’uso di una misura di correlazione. Ricordiamo che per correlazione si intende la misura del grado di interdipendenza reciproca fra due variabili: se all’aumentare di una aumenta anche l’altra e al diminuire di una corrisponde la diminuzione dell’altra si parlerà di correlazione positiva; se all’aumentare di una corrisponde il diminuire dell’altra, si parlerà di correlazione negativa. Il punto di partenza di ogni analisi fattoriale è quindi l’insieme di tutte le correlazioni tra un gruppo n di variabili che, per facilitarne lo studio, viene disposto in una matrice delle correlazioni, cioè in una tabella a doppia entrata in cui all’incrocio fra una riga e una colonna si trova quel valore che rappresenta la correlazioni tra le variabili indicate in quella stessa riga e colonna. Ottenuta la matrice delle correlazioni, il passo successivo è quello di determinare quali e quanti siano i fattori che spiegano tale matrice. Si tratta quindi di rispondere alla domanda: “Quanti fattori sono necessari per spiegare questa matrice delle correlazioni?”. A tale domanda è possibile dare una risposta attraverso dei metodi matematici chiamati metodi di estrazione dei fattori, che consentono di individuarli. Tuttavia, se da un punto di vista matematico, il numero dei fattori che si possono estrarre è ben determinato, per altri motivi, la loro determinazione non è per nulla semplice. Si deve ricorrere a dei metodi approssimati ed è spesso necessario utilizzare contemporaneamente più metodi. Una volta identificato il numero dei fattori e dopo averli determinati secondo uno dei diversi metodi di estrazione, si è risolto solo il primo problema fondamentale dell’analisi fattoriale, quello appunto di trovare una possibile soluzione fattoriale, cioè un insieme di K fattori che spieghino la matrice delle correlazioni tra le n variabili. Tuttavia, trovato che da una particolare matrice sia possibile estrarre K fattori, questo non ci dice nulla circa il modo di identificarli. Bisogna infatti precisare che, sempre a livello matematico, è possibile trovare infinite soluzioni di K fattori e ciascuna di queste soddisfa e spiega, matematicamente, la stessa matrice delle correlazioni. Si apre a questo punto una seconda questione (denominata problema dell’indeterminazione 13 14 CAPITOLO 2. COME SI ESEGUE UN’ANALISI FATTORIALE: INDICAZIONI INTUITIVE fattoriale) e si tratta allora di cercare una risposta alla successiva domanda: “Quale fra le infinite soluzioni scegliere?”. La risposta non può essere evidentemente di tipo matematico perché le soluzioni, da questo punto di vista, sono tutte ugualmente buone. Si dovranno invece, individuare dei criteri di ordine diverso, che si adeguino in ogni caso allo scopo dell’analisi fattoriale. Se teniamo presente che tale scopo è quello di individuare dei fattori che spieghino dei gruppi di variabili, si dovranno probabilmente cercare dei criteri del tipo “ogni fattore dovrebbe influenzare in maniera massima un gruppo di variabili ed in maniera minima tutte le altre”. I criteri fino ad oggi individuati si pongono proprio su questa linea e prendono il nome di criteri per la individuazione della struttura semplice. Da un punto di vista storico, si trattava inizialmente di criteri del tutto empirici, che poi sono stati via via ricondotti a formule matematiche. Il compito di questo capitolo è appunto quello di indicare le possibili risposte a queste due questioni. In particolare, questi due problemi saranno meglio analizzati e spiegati, sempre in modo intuitivo, nei paragrafi dedicati alla Determinazione dei fattori e in quella dedicato alla Rotazione dei fattori. Ovviamente, in questo capitolo, si tratterà anche di tutti i passaggi necessari per poter giungere alla soluzione di tali problemi, partendo dai dati di cui si dispone. Inoltre, poiché ormai l’analisi fattoriale viene effettuata con l’ausilio degli elaboratori elettronici, questo capitolo farà spesso riferimento al loro uso. Proprio per questo motivo, in alcuni casi, i termini italiani saranno accompagnati dalla relativa terminologia inglese. In questo modo si potranno più facilmente leggere e capire i tabulati contenenti i risultati di un’analisi fattoriale effettuata da un elaboratore. 2.2 Scelta del campione Il problema è già conosciuto all’interno della psicologia ma è importante sottolinearlo in relazione a questa metodologia. Si deve fare in modo di ridurre, al massimo, la possibilità di errore relativo al campione stesso e alle risposte date dal singolo soggetto, che costituiscono quella che in termini matematici viene chiamata varianza dell’errore, la quale interviene nel determinare la precisione delle saturazioni dei fattori estratti. Gli aspetti da considerare nella scelta del campione sono la sua ampiezza rispetto ai tratti misurati e la sua rappresentatività rispetto alle caratteristiche che si ipotizzano correlate con i fattori. Se lo scopo della ricerca è semplicemente l’identificazione di fattori ire una nuova area di ricerca, è preferibile un campione molto ampio. “Se comunque i risultati devono essere generalizzati, a una popolazione accuratamente definita” (Fruchter, 1954), il campione deve essere rappresentativo delle caratteristiche studiate. A tal fine è estremamente importante decidere sulla eterogeneità o sulla omogeneità del campione rispetto alle variabili da studiare. Ad esempio, se si vogliono studiare delle variabili specifiche di una particolare zona geografica, il campione da esaminare dovrà essere rappresentativo di quella regione, vale a dire che nella selezione del campione bisognerà rispettare la proporzione esistente nella popolazione a cui ci si riferisce per quanto riguarda le variabili più importanti quali il sesso, l’età, il livello socio-economico, il livello culturale... rispetto alla o alle variabili specifiche studiate. Se invece si cerca di determinare l’eventuale esistenza di fattori comuni, cioè se si ipotizza che, rispetto a dei compiti proposti esistono dei possibili raggruppamenti sottostanti la riuscita di essi, si dovrà perseguire al massimo l’eterogeneità del campione in modo da eliminare l’importanza di differenze individuali attribuibili a piccoli gruppi di soggetti. Cosı̀ se si vuole standardizzare un test, un questionario, una scala o qualunque tipo di misura utilizzata in psicologia è necessario avere un campione estremamente eterogeneo comprendente cioè individui 2.3. DAI DATI ALLA MATRICE DI CORRELAZIONE. 15 appartenenti ai possibili livelli economici, sociali, di sesso, di età, di zone geografiche... in modo da evitare che una qualunque di queste variabili influenzi ire modo determinante la standardizzazione del test. In questo caso la numerosità del campione e la sua eterogeneità servono per poter eliminare l’influenza sulla misurazione di alcune variabili individuali che non possono essere precedentemente controllate, misurate e neppure stimate quantitativamente. In conclusione il campione da utilizzare nell’analisi fattoriale deve essere abbastanza numerosa ed in genere si pub ritenere tale un campione formato da un numero di soggetti maggiore delle variabili misurate. In particolare, Harris (1967) suggerisce di usare un campione pari almeno al doppio delle variabili che si intendono analizzare. Esempio: Nelle ricerche effettuate allo scopo di adattare il questionario di Olweus ad un campione rappresentativo dei pre-adolescenti e degli adolescenti sono stati scelti una serie di campioni omogenei rispetto alle variabili età e sesso, zone geografiche di residenza, eterogenei rispetto alle variabili livello socio-economico, e tipo di scuola frequentata. I campioni utilizzati sono stati i seguenti: 1. 91 soggetti (54 maschi e 37 femmine) di età compresa fra i 14 e i 19 anni, frequentanti un Istituto Professionale (58 ss.) e un Liceo Scientifico (33 ss.) di una città dell’Italia Settentrionale di livello economica basso ed elevato; 2. 100 soggetti (50 maschi e 50 femmine) di età compresa fra i 17 e i 19 anni frequentanti un Istituto Magistrale (femmine) e un Istituto Tecnico (maschi) di una città dell’Italia Settentrionale e di livello socio-economico medio-basso; 3. 202 soggetti di età compresa fra i 10 e i 18 anni di entrambi i sessi, frequentanti le Medie Inferiori (82 ss.) a il Liceo Scientifico (130 ss.) di un paese dell’Italia Settentrionale. I campioni scelti presentano aspetti di omogeneità e di eterogeneità sia se considerati individualmente sia rispetto all’insieme di tutti i soggetti. Infatti le variabili sesso e zona geografica sono omogenee perché le abbiamo mantenute costanti nei vari campioni; ugualmente eterogenee sono le variabili età, livello socia-economico e tipo di scuola che risultano diverse nelle varie ricerche. 2.3 Dai dati alla matrice di correlazione. Il primo passo di un’analisi fattoriale è il passaggio dai dati alla matrice delle correlazioni. In linea di massima si utilizza la correlazione prodotto-momento di Pearson, in quanto soddisfa al criterio di linearità che è una dei presupposti delle teorie fattoriali. E’ però possibile utilizzare altri tipi di misure di correlazione ed in particolare il coefficiente rho di Spearman, senza che ciò influenzi in moda particolare i calcoli (Gorsuch, 1974). Una misura di correlazione può essere utilizzata per misurare il grado di associazione delle variabili oppure dei soggetti, degli eventi... Un’analisi fattoriale effettuata sulla matrice delle correlazioni fra variabili si chiami Rfactor analysis, mentre quella effettuata sulla matrice delle correlazioni fra soggetti Q-factor analysis. Nel corso di questo libro ci si è sempre riferiti ad una analisi R-fattoriale. Se l’analisi viene effettuata tramite un elaboratore, è importante disporre i dati nel modi appropriato al tipo di analisi che si vuol ottenere. Nel caso di una R-analisi i dati devono essere disposti cosı̀ come appaiono nella tab. 1.1 del capitolo 1; vale a dire che, per ogni soggetto, bisognare elencare il punteggio da lui ottenuto in tutte le variabili. Come abbiamo detto più volte, il punto di partenza di un’analisi fattoriale è la matrice delle correlazioni. In questa matrice, lungo la diagonale principale devono essere inseriti dei particolari valori denominati “comunanze” (communality). Essi vengono individuati con particolari procedimenti matematici di calcolo che saranno analizzati più avanti e che, come si vedrà nel 16 CAPITOLO 2. COME SI ESEGUE UN’ANALISI FATTORIALE: INDICAZIONI INTUITIVE capitolo 3*, non possono essere calcolati in modo preciso ed è perciò necessario effettuarne una stima. Nella pratica, poiché l’analisi fattoriale viene generalmente effettuata tramite l’ausilio di elaboratori, la scelta della stima della comunanze, da parte nostra, non è sempre necessaria. Infatti, la maggior parte dei programmi di analisi fattoriale sceglie autonomamente la stima della comunanza più appropriata al metodo di analisi prescelto (cfr. Cap. 4*). 2.3.0.1 Analisi della matrice di correlazione Perché un’analisi fattoriale possa produrre dei fattori rilevanti bisogna che la matrice di correlazione contenga valori elevati accanto ad altri di bassa entità. Un primo modo per scoprirlo è quello di stampare e osservare la matrice di correlazione, ma la cosa non è facile se il numero di variabili è alto. Il determinante della matrice di correlazione è un primo indice che si può utilizzare. Quando è elevato, possiamo dire che le correlazioni sono generalmente basse e viceversa. Una seconda possibilità è tramite il test di sfericità di Bartlett che cerca di verificare se la matrice di correlazione sia una matrice identitò, ovvero se i valori fuori dalla diagonale principale sono zero e quelli lungo la diagonale sono 1. Si basa sul valore del determinante e si distribuisce come un chi-quadro (cfr. la formula a p. 35). Se assume un valore elevato, R non è una matrice identità. Ha il difetto di dipendere dalla numerosità del campione e quindi di tendere alla significatività all’aumentare del numero dei soggetti. Una terza soluzione è l’indice di Kaiser-Meyer-Olkin (KMO). Si basa sulle correlazioni parziali di ogni variabile con ogni altra, parzializzando su tutte le restanti. Se ci sono variabili correlate fra loro (la base per ipotizzare un fattore comune), la loro correlazione parziale dovrebbe essere molto bassa. Un valore di KMO maggiore di 0.60 indica che si può effettuare un’AFE. Infine si può osservare la matrice anti-immagine, che contiene il complemento a 1 delle correlazioni parziali. Ovviamente funziona al contrario rispetto all’indice KMO e quindi cercheremo all’interno della matrice anti-immagine i valori elevati. 2.4 Determinazione dei fattori 2.4.1 Numero dei fattori da estrarre Il numero dei fattori da estrarre dipende dal valore assunto dalle comunanze nel senso che una volta conosciute le comunanze, anche il numero dei fattori è esattamente determinato. Purtroppo, come abbiamo già osservato, non è possibile conoscere i valori esatti delle comunanze, ma soltanto stimarli e questo comporta, come conseguenza, che non tutti i fattori teoricamente estraibili siano dei fattori “veri” e non, invece, dei fattori di errore. A questo primo problema si aggiunge i1 fatto che il numero esatto dei fattori può essere determinato solo quando le correlazioni sono calcolate sull’intera popolazione, mentre nella realtà esse sono misurate in un campione e questo potrebbe condurre ad altri fattori di errore. Un terzo tipo di problema che influenza il numero dei fattori riguarda un aspetto che potremo definire di tipo psicologico: non sempre i fattori “significativi” da un punto di vista matematico, sono tali da un punto di vista “psicologico” e questo per varie e differenti ragioni. La più evidente è che un fattore deve saturare in maniera elevata un certo numero di variabili affinché gli si possa attribuire un significato psicologico; può accadere che un fattore “significativo” da un punto di vista matematico non soddisfi a questa condizione. 2.4. DETERMINAZIONE DEI FATTORI 17 D’altra parte, proprio in relazione all’uso dei calcolatori è necessario, oggi, sapere in anticipo il numero dei fattori da estrarre oppure fornire al calcolatore un criterio che lo guidi nei calcoli e su cui possa basarsi per arrestare l’estrazione dei fattori. Nel paragrafo 10 del capitolo 3* saranno presentati i metodi empirici, matematici e statistici che sono stati proposti per la determinazione del numero dei fattori. Alcuni di questi metodi non trovano oggi una loro utilizzazione pratica in quanto non è sempre possibile disporre di alcuni dati intermedi dei calcoli. Cerchiamo di descriverli qui di seguito in maniera intuitiva e, soprattutto, operativa. Un primo criterio che si può seguire è quello di basarsi sull’ipotesi di ricerca: la teoria o lo scopo della ricerca possono suggerire un numero di fattori,da estrarre; successivamente sarà possibile verificarne l’effettiva significatività ed eventualmente rieffettuare l’analisi fattoriale stessa. Ad esempio, nella ricerca che qui presentiamo, volendo confrontare i risultati ottenuti sui dati del questionario italiano con quelli ottenuti sui dati della ricerca scandinava, si sono direttamente chiesti 6 fattori, in quanto corrispondente al numero dei fattori interpretabili della ricerca di confronto. In alternativa a questo criterio è possibile utilizzare uno di questi altri: a) uso di un criterio interno, proposto da Guttman, con il quale si decide di estrarre tanti fattori quanti sono gli eigenvalues maggiori o uguali a un numero prefissato che è generalmente 1. Questa è la scelta adottata, in modo automatico, nei programmi per calcolatore presentati al capitolo 4*. L’uso di questo criterio conduce all’estrazione di un ampio numero di fattori che viene, generalmente, considerato eccessivo rispetto al numero di variabili analizzate. b) controllando la tabella della proporzione cumulativa della varianza totale e chiedendo un numero di fattori tale da raggiungere almeno il 70/75% della varianza totale. Questo criterio risulta particolarmente valido quando la matrice delle correlazioni contiene molti valori particolarmente alti, mentre è del tutto inutile quando i valori della matrice di correlazione tendono ad essere generalmente bassi. In questo caso infatti sono necessari molti fattori per poter raggiungere il 75% della varianza totale e la maggior parte di questi fattori spiega una parte piccolissima di varianza. Il rischio di questo metodo è quello di estrarre come validi un numero di fattori maggiore di quanti sarebbero effettivamente significativi. c) utilizzando il metodo grafico proposto da Cattell (1966), conosciuto con il nome di scree test (test del ciottolo). Si rappresentano graficamente su un piano cartesiano gli eigenvalues (ordinata) relativi a ciascun fattore (ascissa) con dei punti che verranno poi collegati da una linea. In corrispondenza del punto in cui la curva tende a divenire uria retta si pone il limite dei fattori da estrarre che risulteranno probabilmente significativi. Il vischio di questo criterio è quello di estrarre meno fattori di quanti potrebbero essere effettivamente significativi. Un secondo rischio è legato alla scala con cui viene rappresentato il grafico; infatti a seconda dell’unità che si sceglie per distanziare i fattori, la linea diverrà piatta più o meno velocemente (cfr. Runyon & Haber, 1976, cap. 1). Normalmente l’analisi fattoriale viene effettuata in due passaggi: si effettua una prima analisi fattoriale a carattere esplorativo. Se l’analisi è effettuata tramite l’ausilio di un elaboratore, si ottengono tutti i fattori che è possibile estrarre secondo il criterio di Guttman. Una volta ottenuta questa prima matrice fattoriale si può chiederne una seconda in cui invece, il numero dei fattori sarà predeterminato utilizzando uno degli altri due criteri citati. Esempio: Per illustrare i criteri per la scelta del numero dei fattori, analizziamo un’analisi fattoriale che abbiamo effettuato sulle 62 variabili che formano il questionario di Olweus (1975) nella traduzione di Rossi e Venuti (1983) ? (?). La Tab. 2.1 riporta gli eigenvalues associati ai fattori. CAPITOLO 2. COME SI ESEGUE UN’ANALISI FATTORIALE: INDICAZIONI INTUITIVE 18 Factor 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 Variance explained 7,15 5,72 3,07 2,96 2,39 1,86 1,78 1,72 1,61 1,49 1,46 1,39 1,30 1,23 1,21 1,16 1,09 1,07 1,02 0,99 0,95 0,93 0,90 0,84 0,83 0,80 0,75 0,75 0,71 0,68 0,68 Cumulative proportion of total variance 0,115 0,207 0,257 0,305 0,343 0,373 0,402 0,430 0,456 0,480 0,504 0,526 0,547 0,567 0,587 0,606 0,623 0,641 0,657 0,673 0,689 0,704 0,718 0,732 0,745 0,759 0,771 0,783 0,794 0,805 0,816 Factor 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 Variance explained 0,64 0,63 0,59 0,58 0,56 0,52 0,50 0,49 0,45 0,44 0,42 0,41 0,41 0,39 0,37 0,35 0,34 0,33 0,31 0,30 0,27 0,26 0,25 0,23 0,21 0,18 0,18 0,17 0,15 0,15 0,17 Cumulative proportion of total variance 0,827 0,837 0,847 0,856 0,865 0,874 0,882 0,890 0,897 0,904 0,911 0,918 0,924 0,931 0,937 0,942 0,948 0,953 0,958 0,963 0,968 0,972 0,976 0,980 0,983 0,986 0,989 0,992 0,995 0,997 1,000 Tabella 2.1: Eigenvalues della matrice di correlazione a) criterio di Guttman. Consiste nell’estrarre tanti fattori quanti sono gli eigenvalues maggiori o uguali a 1. In Tab. 2.1 bisogna controllare la colonna intestata “Variance explained”: sono 19 fattori. b) criterio della proporzione di varianza. Consiste nell’estrarre tanti fattori quanti sono gli eigenvalues compresi nel 70 o 75% di percentuale cumulativa della varianza totale. Controlliamo, sempre in tabella 2.1, la colonna “Cumulative proportion of total variance”: sono 25 a 26 fattori. Questo può essere giustificato dal fatto che la matrice delle correlazioni fra le variabili (che non riportiamo) presenta poche correlazioni elevate: ad esempio, 2 correlazioni superiori a .60, 6 fra .50 e .60, 19 fra .40 e .50, su un totale di 1860 valori. c) scree test di Cattell. Costruiamo un grafico (Fig. 2.1) in cui in ascissa compaiono i fattori e in ordinata compaiono i valori degli eigenvalues. Colleghiamo tra di loro i punti che rappresentano la varianza spiegata da ogni fattore. Dopo il fattore 6 la curva inizia a diventare piatta. Secondo lo scree test, perciò, 2.4. DETERMINAZIONE DEI FATTORI 19 Figura 2.1: Scree test di Cattell bisognerebbe estrarre 6 fattori. 2.4.2 Metodi di estrazione Una volta stabilito il criterio per il numero dei fattori, il passo successivo consiste nell’ottenere una prima soluzione fattoriale, chiamata matrice fattoriale non ruotata (unrotated factor matrix ). Esistono diversi metodi per. ottenere l’estrazione dei fattori, ognuno dei quali presenta delle caratteristiche particolari, dei vantaggi e degli svantaggi. La scelta del metodo è collegata ai motivi specifici della ricerca, alla possibilità di utilizzare dei metodi automatici di calcolo, al numero delle variabili che compongono la ricerca, alle caratteristiche della matrice di correlazione... Elenchiamo e descriviamo brevemente i principali metodi disponibili su calcolatore, dedicando un breve spazio ad alcuni dei metodi di importanza storica, anche se non più utilizzati. 2.4.2.1 Metodi di estrazione dei fattori non disponibili su calcolatore Esistono molti metodi sviluppati prima dell’introduzione dell’uso dei calcolatori, che oggi non sono affatto utilizzati. La maggior parte di questi sono stati sviluppati da Thurstone (1931, 1945) o da Burt (1937) nella prima metà del XX secolo. La tendenza generale di questi metodi consiste nel tentativo di semplificare al massimo i calcoli a scapito della semplicità logica. Una tendenza del tutto opposta a quella ricercata dai metodi disponibili sui calcolatori. Metodo diagonale (diagonal method) Questo metodo ha il privilegio di essere molto semplice e veloce, ma ha il difetto di necessitare, per i calcoli, dei valori della comunanza. Si può utilizzare quando’si conosce, a priori, il valore delle comunalità. Ciò però è un evento molto raro, e proprio per questo, il metodo diagonale è usato solo come momento intermedio nell’ambito 20 CAPITOLO 2. COME SI ESEGUE UN’ANALISI FATTORIALE: INDICAZIONI INTUITIVE di altri metodi di estrazione dei fattori. E’ un metodo che si può teoricamente utilizzare con ogni tipo di matrice di correlazione (singolare o non-singolare), ma è molto sensibile ai valori scelti per la comunanza che deve perciò essere accuratamente stimata (Fruchter, 1954; ?, ?, ?) (Fruchter, 1954; Metelli, s.d.; Lis, 1977). Metodo centroide (centroid method) Il metodo centroide era tra i metodi più usati un tempo; infatti è abbastanza semplice nei calcoli, anche se non permette di giungere ad un’unica soluzione fattoriale. E’ necessario utilizzare una stima della comunalità che andrà a sostituire il valore lungo la diagonale della matrice di correlazione. Solitamente si usa, per, questo metodo, la correlazione più alta (in valore assoluto) di ogni colonna (Fruchter, 1954; ?, ?, ?) (Fruchter, 1954; Metelli, s.d.; Lis, 1977). Metodo multigruppo (multiple-group method) Questo metodo è una variazione di quello centroide. La differenza principale è che, anziché estrarre un fattore alla volta, vengono estratti più fattori assieme. E’ consigliabile inserire lungo la diagonale una buona stima della comunanza. Inoltre è necessario raggruppare le variabili in gruppi di almeno 3 a 4 variabili. Ciò si può ottenere o in base ad un’ipotesi teorica a priori o dopo aver effettuato qualche analisi dei cluster fra le variabili. Si aggiunga che le variabili incluse in un gruppo devono essere tra loro linearmente dipendenti. Con questo metodo si ottengono fattori obliqui (cfr. il paragrafo seguente) che si possono, eventualmente, ortogonalizzare (Fruchter, 1954; ?, ?, ?) (Fruchter, 1954; Metelli, s.d.; Harman, 1967) 2.4.2.2 Metodi di estrazione dei fattori disponibili al calcolatore Componenti principali (principal component) e Assi principali (principal axis) La proprietà basilare di questo metodo di estrazione dei fattori è che ogni fattore estratto cerca di essere il più possibile esplicativo rispetto ai dati di partenza. Al di là dei calcoli matematici ciò significa che il primo fattore estratto avrà la massima importanza, in quanto “spiega” una percentuale maggiore di variabilità dei dati, rispetto agli altri fattori. Non significa però che avrà le saturazioni maggiori. Il secondo fattore estratto spiega la massima varianza possibile di quanta ne è rimasta dopo il primo fattore... e cosı̀ via fino all’ultimo fattore estratto. Altre caratteristiche del metodo sono: vengono estratti pochi fattori che sono tra loro indipendenti (ortogonali, cioè non correlati); la soluzione fattoriale non ruotata è unica. Accanto a questi aspetti positivi vi è il fatto che richiede calcoli matematici lunghi, laboriosi e ripetitivi (Hotelling, 1935). Ma questo aspetto negativo è stato ampiamente superato dall’utilizzo dell’elaboratore elettronico. Quando lungo la diagonale principale della matrice delle correlazioni si pone, come stima della comunalità, il valore 1, il metodo viene designato “componenti principali”. In questo caso dovrebbero essere teoricamente estratti tanti fattori quanti sono le variabili implicate nell’analisi. Purtroppo per diversi problemi di calcolo, non tutti questi fattori sarebbero significativi da un punto di vista psicologico. I fattori estratti, perciò, sono in numero inferiore e il metodo prende il nome di “componenti troncate”. Quando invece, lungo la diagonale della matrice delle correlazioni si pone una stima della comunanza diversa dall’unità (il valore 1), allora il metodo prende il nome di “assi principali o fattori principali”. La maggior parte dei programmi per elaboratore, in questo caso, usano il metodo iterativo per la stima delle comunanze. Il metodo degli assi principali, secondo Thurstone (1945, p. 509) permette di ottenere la soluzione fattoriale migliore tra tutte quelle ottenibili con altri metodi, a parità di fattori estratti, proprio perché ogni fattore rende conto della massima percentuale possibile di varianza. 2.4. DETERMINAZIONE DEI FATTORI 21 Se all’epoca di Thurstone, e fino agli anni ’60, questo metodo era poco usato (Reuchlin, 1964), ora le possibilità offerte dagli elaboratori lo ha reso estremamente sfruttato anche a scapito di altri metodi altrettanto validi. Analisi fattoriale canonica (Rao’s canonical factoring) Questo metodo di estrazione dei fattori stato inizialmente sviluppato da Rao (1955) a partire dai procedimenti di calcolo della correlazione canonica, quindi ampliato da Harris (1962). Lo scopo è quello di trovare una soluzione fattoriale in cui la correlazione fra i fattori e le variabili sia la massima possibile. E’ quanto fa il metodo della massima verosimiglianza, che ha infatti sostituito, nella pratica statistica, quello di Rao. Massima verosimiglianza (maximum likelihood factor ) La teoria multifattoriale di Thurstone, presuppone che si lavori sulla matrice delle correlazioni fra le variabili calcolate sull’intera popolazione mentre invece si utilizza una matrice che è stata calcolata su un campione. Questo metodo, al contrario, è ben consapevole di utilizzare misure effettuate su un campione e cerca perciò di calcolare una stima delle correlazioni sulla popolazione. A tal fine, utilizza un procedimento tipicamente matematico, chiamato “massima verosimiglianza”. Associato a questo specifico metodo, è stato sviluppato un test di significatività sul numero di fattori da estrarre, basato su un’approssimazione alla funzione di chi-quadro e denominato “indice di adeguamento al campione”. Per il suo utilizzo pratico basterà dire che se il valore di questo indice è significativamente elevato, è necessario un numero maggiore di fattori di quanti ne sono stati estratti. Image factoring L’analisi fattoriale per immagine è stata proposta da Kaiser (1963) ampliando alcuni suggerimenti di Guttman. Per l’identificazione della varianza comune, questo metodo fa uso della “teoria dell’immagine”, che considera non la matrice delle correlazioni fra le variabili, ma una matrice che contiene le “proiezioni” di ogni variabile su tutte le altre. Questa matrice chiamata “matrice immagine” perché contiene l’immagine che una variabile proietta sulle altre. Secondo Guttman la matrice immagine è quella che si avvicina maggiormente alla matrice delle correlazioni fra variabili una volta che sia stato eliminato il peso dei fattori specifici. Il numero dei fattori teoricamente estraibili è generalmente pari alla metà delle variabili, anche se equivale ad ottenere un numero di fattori maggiore di quelli che il ricercatore si aspetta. E’ possibile che fra questi fattori ne compaiano alcuni banali e non significativi ed è anche possibile che i fattori banali compaiano solo dopo una rotazione ortogonale (Kaiser, 1963). Kaiser’s second generation little jiffy Nel tentativo di migliorare l’analisi fattoriale per immagine, Kaiser (1970) ha sviluppato quest’altro metodo d’analisi che è sostanzialmente costituito dal precedente, a cui viene applicata una rotazione particolare chiamata ortobliqua (Kaiser & Rice, 1974). Alpha factoring Questo metodo cerca di ottenere fattori che abbiano il valore massimo di “9eneralizability”. Tale valore viene misurato tramite il coefficiente di fedeltà di KuderRichardson o con il coefficiente alpha di Cronbach (Kaiser & Caffry, 1965). Esempio: L’analisi fattoriale che interpreteremo al termine di questo capitolo è stata ottenuta con il metodo delle componenti principali ed ha prodotto la matrice fattoriale non ruotata di Tab. 2.2. 22 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 CAPITOLO 2. COME SI ESEGUE UN’ANALISI FATTORIALE: INDICAZIONI INTUITIVE 1 0,467 0,449 0,207 0,394 0,477 0,306 -0,082 0,585 0,078 -0,304 0,590 -0,114 0,417 0,213 0,569 -0,037 0,537 -0,288 -0,187 -0,087 0,320 0,027 -0,022 0,437 0,523 0,118 0,100 -0,291 0,510 0,338 -0,014 0,509 -0,141 0,523 -0,227 -0,198 -0,348 0,014 0,032 -0,322 -0,046 0,172 -0,581 -0,058 -0,312 -0,040 -0,262 0,162 -0,409 0,594 -0,407 -0,486 -0,219 -0,409 0,152 0,047 0,500 0,241 -0,232 0,451 -0,122 2 0,171 -0,026 0,144 0,247 -0,016 0,211 -0,103 -0,049 -0,019 0,508 0,309 0,355 0,353 0,357 -0,045 0,036 0,295 0,261 0,195 -0,129 0,185 0,219 0,236 0,224 0,211 0,294 0,308 0,232 0,221 0,245 0,395 -0,100 0,031 0,279 0,599 0,498 0,375 0,370 0,187 0,323 0,372 0,283 0,261 0,242 0,341 0,363 0,413 0,284 0,585 0,386 0,536 0,583 0,474 0,149 0,354 0,465 0,080 0,224 0,000 0,265 -0,016 Fattori 3 4 -0,381 -0,006 0,210 0,354 0,241 0,230 0,047 0,109 0,238 0,221 -0,161 -0,073 0,146 0,094 0,247 0,279 0,070 -0,264 -0,100 -0,105 -0,216 0,089 0,174 -0,363 -0,414 -0,206 0,121 -0,134 0,198 0,342 0,177 0,072 -0,210 0,188 -0,039 0,073 -0,102 -0,205 0,234 0,464 0,344 -0,183 -0,060 -0,036 -0,080 0,340 -0,343 -0,221 0,013 0,078 0,001 -0,212 0,347 -0,435 0,187 0,442 -0,286 -0,002 0,488 -0,219 -0,104 0,326 0,195 0,232 0,074 0,017 -0,221 -0,052 -0,226 0,045 -0,007 -0,039 0,022 0,255 0,514 0,006 0,112 -0,093 0,068 0,357 0,435 -0,366 0,194 0,147 0,039 0,135 0,469 -0,082 -0,228 0,179 0,207 -0,381 -0,056 0,446 -0,037 0,113 -0,137 0,141 -0,058 -0,008 -0,221 0,133 -0,080 -0,144 -0,050 0,049 0,188 0,182 0,002 0,075 0,409 -0,169 0,098 0,303 0,010 0,013 0,214 0,285 -0,304 -0,013 0,092 0,108 5 0,013 -0,276 -0,241 0,147 -0,061 0,197 -0,211 -0,017 0,085 -0,080 -0,095 -0,371 0,015 0,438 0,160 0,020 0,073 0,127 -0,189 0,281 0,004 0,396 -0,197 0,057 -0,036 0,085 0,004 -0,002 0,011 0,047 -0,248 -0,244 0,266 0,045 -0,164 0,149 0,089 0,139 0,527 -0,003 -0,235 -0,155 -0,182 0,082 -0,305 -0,284 0,054 0,149 -0,112 0,009 -0,050 0,083 0,318 0,076 0,149 -0,164 -0,324 -0,136 0,348 0,089 0,336 6 0,122 0,089 0,147 -0,055 0,123 0,170 0,259 0,136 -0,167 0,105 0,137 -0,272 0,184 0,049 -0,066 -0,253 0,024 0,062 0,350 -0,026 0,101 0,153 -0,223 0,075 -0,117 0,104 0,060 0,000 -0,372 -0,009 -0,175 -0,224 -0,023 -0,371 0,152 -0,027 -0,235 0,156 0,168 -0,026 0,025 0,534 0,270 -0,200 -0,176 -0,262 0,088 0,153 -0,048 0,039 -0,029 0,019 -0,159 0,176 -0,240 -0,099 0,063 0,097 -0,186 0,044 -0,040 2.5. ROTAZIONE DEI FATTORI 23 Tabella 2.2: Matrice fattoriale non ruotata 2.5 Rotazione dei fattori Una volta ottenuta la prima soluzione fattoriale (matrice fattoriale non ruotata), si deve ora passare alla fase di rotazione dei fattori. Rotazioni si chiamano le operazioni che i calcolatori effettuano alla ricerca di soluzioni fattoriali alternative a quella individuata, purché soddisfino, sia matematicamente che logicamente, al criterio della struttura semplice. Al tempo in cui i calcoli venivano effettuati a mano, era più comodo cercare di raggiungere la struttura semplice utilizzando un procedimento di rotazione di assi sulle rappresentazioni grafiche delle variabili e dei fattori. Proprio da questo procedimento deriva l’attuale nome di rotazione dei fattori. Per meglio chiarire il meccanismo della rotazione della matrice fattoriale, anche noi useremo il metodo grafico su una matrice fattoriale a due fattori ottenuta da una matrice di correlazione di 5 variabili (Tab. 2.3). Possiamo rappresentare graficamente le saturazioni delle 5 variabili considerando i due fattori come gli assi di un piano cartesiano. Per ogni variabile avremo una coppia di valori (le saturazioni nel primo e nel secondo fattore), che può essere perciò rappresentata con un punto. 1 2 3 4 5 I .92 -.68 .64 .72 -.40 II .08 .76 .60 .48 .40 Tabella 2.3: Matrice fattoriale non ruotata Proprio perché le variabili possono essere rappresentate come punti su un piano cartesiano (e le saturazioni costituiscono le coordinate di questi punti) è possibile anche spostare (o meglio ruotare) gli assi di riferimento e calcolare le coordinate di questo nuovo piano (che corrisponderanno a nuove saturazioni negli stessi fattori). E’ possibile effettuare un numero infinito di rotazioni, ma solo alcune hanno importanza e significato per i nostri scopi. Nella Fig. 2.2 vediamo la rappresentazione grafica delle saturazioni della Tab. 2.4. Se spostiamo l’asse delle x (cioè il fattore I) in modo che passi esattamente sul punto n.3 e spostiamo coerentemente l’asse delle y (cioè il fattore II) e quindi calcoliamo le nuove coordinate, otterremo le saturazioni di Tab. 2.4. Anche se non staremo a spiegare il procedimento matematico necessario per effettuare una rotazione di assi cartesiani, si può comunque empiricamente osservare (Fig. 2.3) che se il punto n.3 (e quindi la variabile n.3) cade esattamente sull’ascissa, il valore che esprime la sua ordinata è 0. Tale sarà perciò la sua saturazione nel fattore II’ (rappresentato dall’asse delle y). Analogamente, la variabile n.2 la cui rappresentazione grafica cade molto vicino all’asse delle y, avrà saturazione quasi nulla con il fattore I’. La differenza sostanziale fra le due soluzioni fattoriali è che nel primo caso (matrice fattoriale non ruotata) tutte le variabili erano spiegate in parti molto simili da entrambi i fattori (ad eccezione della variabile 1), mentre nella seconda soluzione (matrice fattoriale ruotata), avendo reso massimo il contributo di un fattore e minimo quello dell’altro per ogni variabile, abbiamo che la terza e la quarta variabile sono spiegate principalmente dal primo fattore e la seconda e la quinta dal secondo fattore. 24 CAPITOLO 2. COME SI ESEGUE UN’ANALISI FATTORIALE: INDICAZIONI INTUITIVE Figura 2.2: Rotazione 1 2 3 4 5 I .72 .02 .87 .85 .01 II -.57 .96 .00 -.14 .58 Tabella 2.4: Matrice fattoriale ruotata Figura 2.3: Rappresentazione ruotata 2.5. ROTAZIONE DEI FATTORI 25 In questo modo ci si è avvicinati, quanto più possibile, alla cosiddetta struttura semp1ice proposta da Thurstone, per cui ogni variabile dovrebbe appartenere ad un unico fattore comune, cioè dovrebbe essere molto satura in un fattore e debolmente o per niente satura in tutti gli altri. Questo è il motivo per cui si effettua la rotazione della matrice dei fattori. Bisogna sottolineare che, dopo la rotazione, i fattori non sono più necessariamente ordinati in modo decrescente di importanza. E’ possibile effettuare la rotazione in molti e diversi modi, che possono però essere riassunti in due categorie: i metodi ortogonali e quelli obliqui. I metodi ortogonali presuppongono che fra i fattori non esista alcun legame e cioè che siano fra loro indipendenti e che quindi la loro correlazione sia sempre zero. Graficamente ciò si esprime tramite un angolo retto e quindi la rotazione è stata chiamata “ortogonale”. Al contrario, i metodi obliqui presuppongono che fra i fattori esista un certo legame di dipendenza e che quindi la loro correlazione (in valore assoluto) sia compresa fra zero e uno. Graficamente ciò si esprime tramite una serie di angoli non retti che non sono facilmente disegnabili, soprattutto se le dimensioni del grafico (cioè il numero dei fattori) sono molte. Il problema relativo alla scelta del metodo di rotazione consiste proprio nella possibilità o meno di ipotizzare la dipendenza reciproca o l’indipendenza dei fattori che si intende estrarre. Purtroppo non esiste un metodo matematico sicuro per decidere tra un metodo obliquo e una ortogonale di rotazione. Anzi, Coleman (1964) afferma che l’ipotesi dell’ ortogonalità o meno dei fattori riguarda esclusivamente l’interpretazione dei risultati. I metodi ortogonali hanno il vantaggio di presentare fattori fra loro indipendenti, una struttura maggiormente stabile rispetto alla soluzione fattoriale che non è legata al campione, una maggiore semplicità nei calcoli e nell’interpretazione dei fattori, nonché la possibilità di rappresentazioni grafiche della matrice fattoriale che permette una migliore visione della disposizione delle variabili nello spazio fattoriale. I metodi obliqui, proprio perché presuppongono una dipendenza di un fattore da un altro, sono più aderenti alla realtà dei dati e, quasi sempre, anche alla realtà delle variabili stesse; inoltre permettono di sottoporre la matrice di correlazione tra fattori ad un’analisi fattoriale per individuare i fattori di ordine superiore, cioè quanto hanno in comune fra loro i fattori comuni. La decisione sulla scelta della rotazione dev’essere guidata soprattutto dall’ipotesi che è possibile formulare sulle variabili (Reuchlin, 1964, p. 69). Se si può presumere che fra i fattori che si estrarrà ci possa essere una certa dipendenza, allora converrà utilizzare una rotazione obliqua. Ad esempio, se dobbiamo analizzare i dati ottenuti da un questionario psicosomatico e ci aspettiamo che i fattori raggruppino fra loro item omogenei rispetto ai disturbi circolatori, a quelli respiratori, a quelli digestivi..., possiamo anche tranquillamente ipotizzare una dipendenza reciproca dei tre fattori in quanto le funzioni svolte da cuore, polmoni e stomaco sono sicuramente tra loro relate. Anche gli scopi della ricerca possono influire sulla scelta. Se stiamo analizzando un test o un questionario per una sua futura standardizzazione, abbiamo bisogno di una rotazione ortogonale che ci isoli gli item molto saturi in un solo fattore. Nella ricerca sull’aggressività di Olweus, ad esempio, il ricercatore ha utilizzato un metodo ortogonale di rotazione perché desiderava verificare una sua ipotesi di lavoro e cioè che un determinato item misurasse un certo tipo di manifestazione aggressiva e non un altro tipo. Se invece avesse voluto semplicemente indagare sul più ampio fenomeno dell’aggressività, avrebbe potuto utilizzare un metodo obliquo, infatti non è possibile ipotizzare che fra diversi tipi di manifestazioni dell’aggressività non esista alcuna correlazione. Reuchlin (1964) consiglia di effettuare dapprima una rotazione ortogonale e di procedere eventualmente in seguito ad effettuare delle rotazioni oblique. L’autore francese consiglia in quest’ultimo caso di effettuare anche un’analisi fattoriale di secondo ordine. CAPITOLO 2. COME SI ESEGUE UN’ANALISI FATTORIALE: INDICAZIONI INTUITIVE 26 2.6 L’interpretazione dei fattori Dopo la rotazione dei fattori, la matrice finale deve essere interpretata. Questa è una fase particolarmente delicata in quanto non esistono specifiche indicazioni che guidino il lavoro interpretativo. Non è stato infatti possibile elaborare un test statistico per- la significatività delle saturazioni. Dipende, perciò, dalla capacità e dall’esperienza del ricercatore cogliere il significato comune delle variabili confluite in un fattore, attenendosi alla realtà delle singole variabili senza costruire interpretazioni fantastiche. Questa fase è importante soprattutto in quanto, sia la scelta del metodo di estrazione dei fattori, sia il problema del numero dei fattori da estrarre e quello del metodo con cui effettuare la rotazione, rendono molto arbitraria l’interpretazione di un’unica soluzione fattoriale. Tutti questi aspetti e momenti in cui il ricercatore può e deve scegliere fra diversi metodi contribuiscono a creare una situazione di indeterminazione e di dubbio sui risultati che si sono ottenuti. Alcuni autori consigliano addirittura di effettuare analisi diverse per metodi e numero dei fattori e di scegliere come definitiva “quella che si adatta meglio ai dati osservati o che è più aderente agli scopi del ricercatore” (Sadocchi, 1980, p. 147). Si ricordi che, se è stata effettuata una rotazione ortogonale si otterrà una sola matrice ruotata (rotated factor matrix corrispondente alla composizione fattoriale) mentre se è stata effettuata una rotazione obliqua si otterranno 2 matrici ruotate, la pattern matrix (composizione fattoriale) e la structure matrix (struttura fattoriale). In questo caso è la pattern che si usa per l’interpretazione. Qui di seguito mostriamo i passaggi teorici necessari per interpretare una matrice fattoriale ruotata mentre nel paragrafo seguente presentiamo un esempio pratico. 1) E’ necessario definire un livello arbitrario per le saturazioni che ci indichi il limite oltre il quale non riteniamo le variabili sufficientemente importanti per caratterizzare quel determinato fattore. In linea di massima (come prassi e non come regola) il valore generalmente prescelto è .40, ma è possibile usare livelli inferiori o superiori, come ad esempio, .35 a .50, a seconda che si abbia un numero ristretto o troppo ampio di variabili da interpretare. Ripetere i passi da 2 a 4 per ogni fattore. 2) Ordinare le saturazioni delle variabili del fattore in ordine decrescente (in valore assoluto), fermandosi al livello prescelto. 3) Scrivere accanto ad ogni saturazione la denominazione della variabile corrispondente o il testo dell’item se si tratta di un questionario. 4a) Si deve ora cercare quale tratto, caratteristica, aspetto... abbiano in comune queste variabili, in modo da poter attribuire una denominazione al fattore che definisce questo tratto comune. Si tenga presente che più una variabile è satura più essa contribuisce alla definizione del carattere comune del fattore e, viceversa, ciò che è stato individuato come tratto comune delle variabili deve comparire in particolare e in maggior grado nelle variabili più sature. 4b) Nell’interpretazione dei fattori, si tenga conto che il segno negativo di una saturazione indica solamente un’opposizione rispetto alle saturazioni positive. Il tratto comune alle variabili dovrebbe essere pensato come un continuum che passa dalla sua massima presenza alla sua negazione o al suo opposto. Per procedere all’interpretazione conviene iniziare.dalle variabili il cui segno è più frequente e considerarle come se fossero positive. Di conseguenza, le altre (siano esse di segno positivo o negativo) devono essere considerate di segno opposto. 4c) Nel caso in cui non si riesca a riscontrare nessun tratto comune alle variabili del fattore, si dovrà concludere che il fattore non è interpretabile e che le variabili sono state tra loro associate per un errore implicito nei calcoli e attribuibile o al campione o alla misurazione 2.7. ESEMPIO DI INTERPRETAZIONE 27 delle variabili stesse o perché, ancora, la varianza attribuibile al fattore è molto bassa. Normalmente i “primi” fattori estratti sono facilmente interpretabili mentre gli “ultimi”, soprattutto se ne sono stati estratti molti o se la matrice delle correlazioni iniziale fra le variabili contiene molti valori bassi, sono spesso difficilmente interpretabili o saturi di una sola variabile e quindi fattori specifici di quella variabile. In linea di massima se i fattori non interpretabili sono molti converrà riesaminare tutti i punti nodali che contribuiscono all’indeterminazione della soluzione fattoriale per vedere se non ci sia stato qualche errore di impostazione. Quindi, se ci sono diversi fattori ininterpretabili è meglio non considerare affatto i risultati dell’analisi fattoriale. 2.7 Esempio di interpretazione Dimostriamo praticamente come è possibile procedere nell’interpretazione dei fattori; per questo scopo utilizzeremo la matrice di Fig. 2.5 ottenuta effettuando un tipo di rotazione, denominata Varimax, sulla matrice di Fig. 2.3. In questa tabella si possono vedere 6 colonne indicanti le saturazioni di ogni variabile nei 6 fattori estratti. I fattori vengono presentati nell’ordine a loro attribuito dal calcolatore, che dipende dalla loro importanza nello spiegare la matrice delle correlazioni o dei dati, relativamente alla matrice fattoriale non ruotata. Per assicurarsene, basta sommare i quadrati delle saturazioni di ogni variabile in un determinato fattore. A partire dal primo fattore della Fig. 2.3, questi totali dovrebbero essere decrescenti (i valori cosı̀ ottenuti sono presentati in fondo ad ogni fattore). Partendo dal primo fattore incominciamo a definire un livello arbitrario delle saturazioni che ci indichi il limite sotto il quale non riteniamo che le variabili siano sufficientemente significative all’interno di quel fattore. Questo limite, che dev’essere uguale per tutti i fattori, è stabilito in modo arbitrario. Stabiliamo, per ora, il limite di .40. Tabella 2.5: Matrice fattoriale ruotata (Varimax) 28 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 CAPITOLO 2. COME SI ESEGUE UN’ANALISI FATTORIALE: INDICAZIONI INTUITIVE 1 0,608 0,083 0,012 0,347 0,145 0,437 -0,207 0,193 0,050 0,097 0,634 -0,014 0,714 0,322 0,210 -0,131 0,586 -0,044 0,053 -0,289 0,149 0,218 0,038 0,631 0,412 0,266 0,097 -0,266 0,575 0,115 0,128 0,102 -0,090 0,587 0,225 0,122 -0,121 -0,075 0,142 -0,168 -0,064 0,129 -0,319 -0,173 -0,011 0,037 -0,019 0,268 0,026 0,609 0,061 0,021 0,118 -0,318 0,253 0,021 0,228 0,244 -0,288 0,604 -0,116 2 -0,050 -0,072 0,098 0,017 -0,174 -0,037 -0,003 -0,231 -0,181 0,486 0,023 0,193 0,017 0,016 -0,196 0,062 0,065 0,343 0,159 0,081 -0,158 0,074 0,388 -0,103 -0,048 0,045 -0,075 0,475 -0,015 -0,160 0,502 -0,191 0,049 -0,016 0,612 0,420 0,551 0,158 -0,023 0,593 0,094 0,148 0,528 0,096 0,564 0,138 0,619 0,156 0,721 0,001 0,685 0,589 0,443 0,332 0,213 0,207 -0,016 0,066 0,167 0,005 0,035 Fattori 3 4 0,100 -0,133 0,646 -0,015 0,458 0,129 0,266 0,102 0,546 0,050 0,038 0,018 0,178 -0,013 0,636 0,006 -0,146 0,195 -0,223 0,223 0,335 0,009 -0,167 0,567 -0,053 0,038 0,003 0,272 0,565 -0,066 0,054 0,110 0,310 -0,068 -0,138 0,014 -0,161 0,125 0,280 -0,225 0,239 0,424 -0,093 0,015 0,178 -0,076 -0,053 0,035 0,332 0,125 -0,062 0,250 -0,043 0,617 0,216 -0,041 0,077 0,006 0,263 0,571 0,188 -0,001 0,524 0,042 -0,098 0,004 0,075 0,099 -0,113 0,117 -0,161 0,227 -0,072 0,038 0,255 0,465 -0,077 0,119 0,088 -0,021 0,014 0,694 0,423 0,157 -0,109 0,031 0,081 0,466 -0,112 -0,036 -0,142 0,593 0,132 -0,123 0,146 0,025 -0,160 0,112 0,307 0,196 -0,216 0,028 -0,390 0,266 -0,202 0,125 0,000 0,027 0,061 0,146 0,138 0,621 0,599 0,010 0,201 0,137 0,035 -0,077 0,093 -0,039 -0,043 -0,067 5 -0,062 -0,163 -0,086 0,162 0,033 0,182 -0,095 0,075 0,019 0,002 -0,089 -0,344 -0,049 0,468 0,187 0,023 0,053 0,182 -0,106 0,354 0,104 0,408 -0,177 -0,038 -0,045 0,113 0,095 0,149 -0,147 0,160 -0,199 -0,238 0,273 -0,096 -0,071 0,206 0,137 0,351 0,565 0,116 -0,083 0,080 -0,009 0,181 -0,292 -0,258 0,181 0,208 -0,027 0,025 0,005 0,153 0,327 0,224 0,133 -0,022 -0,236 -0,079 0,379 0,024 0,340 6 0,063 -0,010 0,104 -0,163 -0,005 0,097 0,274 -0,032 -0,146 0,208 0,057 -0,092 0,173 -0,054 -0,266 -0,258 -0,096 0,078 0,450 -0,171 0,060 0,073 -0,215 0,053 -0,198 0,108 0,108 -0,035 -0,414 -0,055 -0,150 -0,302 -0,061 -0,416 0,240 0,000 -0,218 0,097 0,058 -0,028 0,134 0,479 0,372 -0,201 -0,057 -0,112 0,051 0,077 0,048 -0,048 0,057 0,131 -0,171 0,180 -0,286 -0,045 -0,014 0,084 -0,274 -0,024 -0,114 2.7. ESEMPIO DI INTERPRETAZIONE 29 Utilizzando la colonna FACTOR 1, sottolineiamo tutte le saturazioni superiori al limite che abbiamo stabilito. Ora trascriviamo, in ordine decrescente di saturazione, il numero della variabile e la saturazione corrispondente. Scriviamo accanto ad ogni variabile, la sua spiegazione per esteso. Si dovrebbe ottenere la seguente tabella: Tabella 2.6: Fattore 1 49 51 35 .718 .687 .613 47 52 45 37 43 40 31 10 28 53 .612 .595 .583 .541 .533 .524 .492 .490 .462 .436 Quando un adulto è irritato con me, generalmente mi sento in colpa. Dopo essere stato in disaccordo con un insegnante tendo a sentirmi in colpa. Quando un adulto è adirato con me, io cerco di essere particolarmente simpatico. Sono spesso arrabbiato con me stesso per essermi comportato male. Io penso che i ragazzi dovrebbero essere gentili e rispettosi con gli adulti. Quando un insegnante mi critica, mi sento ridicolo e stupido. Quando un adulto è ingiusto con me, sono dispiaciuto e depresso. Mi piacerebbe essere simpatico con quelli che sono cattivi con me. Tendo a rammaricarmi di essere stato troppo impetuoso. Dico e faccio cose di cui poi mi rammarico sinceramente. Vorrei cercare di obbedire agli adulti anche quando penso che siano in errore. Mi sento spesso dispiaciuto per le persone che sono adirate con me. Preferisco non ricordare le situazioni in cui ho avuto un disaccordo con un adulto. Le variabili che hanno le saturazioni più elevate in questo fattore indicano “senso di colpa” da parte del soggetto quando si vengono a creare delle situazioni di disaccordo con persone adulte. Gli altri item indicano il desiderio di essere socialmente accettati, la tendenza a rammaricarsi dei propri atti impulsivi e delle proprie disobbedienze. Tali atteggiamenti manifestano un comportamento di totale accettazione del giudizio e dell’opinione dell’adulto e la tendenza a dispiacersi di non essere riusciti a controllare il proprio comportamento. La situazione descritta da questi item implica, quindi, la totale assenza di comportamenti aggressivi e l’inibizione di qualunque tipo di comportamento o di risposta verbale che potrebbe essere interpretata come una forma di opposizione verso l’adulto. Per tali motivi abbiamo identificato questo fattore come RISPOSTE DI INIBIZIONE DELL’AGGRESSIVITA’. Facciamo ora lo stesso lavoro sulla colonna intestata FACTOR 2. Tutti gli item confluiti nel secondo fattore rilevano la presenza di aggressività fisica manifestata nei confronti dei coetanei (item 13, 24, 50, 60), nei confronti di oggetti (il, 17) o genericamente rilevano la presenza di impulsi di tipo aggressivo (1, 34, 29). Tutti questi item si riferiscono a forme esplicite, anche se non sempre dirette, di aggressività fisica. Per tale motivo, si può senz’altro definirlo come fattore di AGGRESSIVITA’ FISICA. Gli item raccolti nel fattore 3 esprimono delle forme di protesta e di opposizione nei confronti di critiche, osservazioni e soprusi da parte di adulti. Le forme di aggressività espresse in questo fattore sono manifestate principalmente nei confronti di adulti che assumono un ruolo di autorità e sono esplicitate attraverso un canale di tipo verbale. Notiamo che in questo fattore compaiono due item “3-Generalmente ascolto musica” e “42-Mi piace viaggiare”) che sebbene non sembrino attinenti con le manifestazioni dirette di aggressività verbale, possono denotare un atteggiamento oppositivo dei giovani nei confronti del mondo degli adulti. Atteggiamento che si esplica non tanto in una forma violenta, quanto nell’esaltazione di valori tipicamente giovanili, che possono CAPITOLO 2. COME SI ESEGUE UN’ANALISI FATTORIALE: INDICAZIONI INTUITIVE 30 Tabella 2.7: Fattore 2 13 24 11 1 60 50 17 .730 .642 .623 .617 .608 .594 .562 34 .528 29 .516 6 .431 Faccio a batte con gli altri ragazzi della scuola. Io ammira sinceramente quei ragazzi che fanno a botte con me. Sono spesso tosi agitato che provo piacere fracassando oggetti. Quando sono di malumore, provo piacere picchiando qualcuno. Gli altri ragazzi iniziano dei combattimenti con me. Quando un ragazzo mi molesta, cerco di dargli una buona lezione. Quando le cose non vanno come mi aspetto, sento piacere a spaccare qualcosa. E’ piacevole osservare che qualcuno che non ti piace, ricevé una buona lezione. Attualmente, mi sento molto contento quando qualcuno che non mi piace si prende una buona sgridata. Mi piacerebbe diventare un pugile. Tabella 2.8: Fattore 3 2 8 57 .652 .642 .600 15 32 .580 .548 5 .548 3 42 .452 .413 Quando un adulto è ingiusto con me, mi arrabbio e protesto. Quando un insegnante mi critica, sono portato a ribattere e protestare. Quando un adulto critica i miei abiti o i miei capelli gli dico che non sono fatti suoi. E’ giusto procurare del fastidio ad un insegnante irritante. Quando un adulta cerca, con insistenza, di darmi ordini, mi oppongo decisamente. Quando un adulto cerca di prendere il mio posto in una fila, gli dica decisamente che quel posto è mio. Generalmente ascolto musica. Mi piace viaggiare. perciò rappresentare forme di aggressività simili alla verbale (in quanto non fisica). Si giustifica, perciò, la denominazione di AGGRESSIVITA’ VERBALE. Tabella 2.9: Fattore 4 41 56 27 46 30 12 44 21 38 .687 .614 .610 .579 .565 .561 .465 .415 .414 Io mi sento sempre felice e tranquillo. Io non mi sento mai triste o infelice. Io non mi sento mai spaventato o ansioso. Gli adulti non mi rimproverano mai. Io ho sempre successo in qualsiasi cosa faccia Io non vengo mai rimproverato dagli adulti. I ragazzi a scuola non dicono mai cose cattive su di me. Io so sempre cosa dire alla gente. I ragazzi a scuola sono sempre simpatici con me. Le variabili che formano il fattore 4 si riferiscono a situazioni in cui i soggetti manifestano stima e sicurezza di se stessi. Ciò avviene sia con affermazioni relative ad uno stato di benessere e di tranquillità personale, sia con affermazioni che tendono a credere di essere valutati in modo positivo nel giudizio espresso dalle altre persone. Per tali motivi il fattore stato definito VALUTAZIONE POSITIVA DI SE’. Il fattore 5 ha sature sole tre variabili che identificano quelle situazioni di sport e hobby che 2.7. ESEMPIO DI INTERPRETAZIONE 31 Tabella 2.10: Fattore 5 39 14 22 .554 .415 .411 Nel mio tempo libero gioco a scacchi. Mi piace molto giocare al calcio. Mi piace molto collezionare francobolli. non sembrano avere nessuna apparente legame con l’aggressività. Bisogna aggiungere che questi item, nella logica del questionario, svolgevano la funzione di “riempitivi”. La loro funzione era quella di verificare se le risposte dei soggetti avevano un senso oppure erano state attribuite in modo casuale. Il fatto che questi item appaiano in un fattore isolato, serve a dimostrare la validità dei dati raccolti. Si potrebbe chiamare questo fattore “Attività del tempo libero”, ma proprio per la sua funzione logica, preferiamo chiamarlo fattore RIEMPITIVO. 34 .498 29 .493 42 19 43 -.476 -.443 -.408 E’ piacevole osservare che qualcuno che non ti piace, riceve una buona lezione Attualmente, mi sento molto contento quando qualcuno che non mi piace si prende una buona sgridata. Mi piace viaggiare. Mi piace disegnare. Mi piacerebbe essere simpatico con quelli che sono cattivi con me. Tabella 2.11: Fattore 6 Di difficile interpretazione è invece il fattore 6 in cui risultano sature 5 variabili già saturate nei precedenti fattori. Tali variabili vengono perciò chiamate “bifattoriali” ed essendo le loro saturazioni in questo fattore minori di quelle degli altri fattori, la loro importanza può essere trascurata. Volendo comunque tentare un’interpretazione di questo fattore si può vedere che le variabili 34 e 29 si riferiscono a manifestazioni di impulsi aggressivi, cioè situazioni in cui il soggetto prova piacere nel vedere realizzato un proprio desiderio di aggressività; in accordo con tale interpretazione è la variabile 43 che, comparendo qui con una saturazione negativa, assume un significato opposto a quello che aveva nel fattore 1. Essa esprime quindi, il desiderio di poter essere in grado di opporsi a chi commette ingiustizie. Gli ultimi due item sono da considerarsi dei riempitivi e non trovano una loro esatta collocazione logica nell’ambito del fattore. Questo fattore potrebbe, con molte riserve, essere definito come IMPULSI AGGRESSIVI. Nella Fig. 2.4 si vede la matrice delle correlazioni tra le variabili in una particolare forma grafica. Le variabili sono state anche riordinate in modo che le correlazioni più elevate compaiano in vicinanza della diagonale principale. Questo tipo di rappresentazione può essere paragonato a quanto è stato da noi fatto sulla matrice delle correlazioni fra le prove di apprendimento che è stata presentata nel capitolo 1. In questa rappresentazione grafica un simbolo più scuro equivale ad una correlazione alta. Si possono allora ritrovare raggruppate fra loro le stesse variabili che risultano essere maggiormente sature in ciascuno dei sei fattori sopra descritti. Si notano in particolare quattro raggruppamenti corrispondenti rispettivamente al fattore di Inibizione, al fattore di Aggressività Fisica, al fattore di Aggressività Verbale e al fattore di Autovalutazione. Per una migliore comprensione dei metodi di estrazione dei fattori presentati precedentemente e per dimostrare che cosa si intende per indeterminazione della soluzione fattoriale abbiamo effettuato una seconda analisi. Abbiamo utilizzato le stesse variabili relative al questionario di Olweus questa volta però abbiamo estratto i fattori con il metodo degli assi principali iterati, utilizzando come stima iniziale della comunanza la correlazione multipla al quadrato1 . 1 Intuitivamente, per correlazione multipla di una variabile con tutte le altre bisogna intendere il grado di 32 CAPITOLO 2. COME SI ESEGUE UN’ANALISI FATTORIALE: INDICAZIONI INTUITIVE Figura 2.4: Matrice delle correlazioni in forma simbolica Di questa seconda analisi presentiamo (Tab. 2.12) solo la matrice fattoriale ruotata (con il metodo Varimax) in una forma particolare definita “ sorted”. Le variabili, cioè, sono state riordinate secondo la loro saturazione nei fattori e tutte le saturazioni inferiori a .25 sono state eliminate per facilitare la lettura. Si può quindi vedere facilmente che, pur con qualche diversità nell’ordine dei fattori e delle saturazioni delle variabili in ogni singolo fattore, l’interpretazione porta comunque a risultati sovrapposizione di una variabile con tutte le altre. Per maggiori informazioni su questo concetto si può consultare Mulaik (1972) Mulaik (1972) e Gorsuch (1974) Gorsuch (1974). 2.7. ESEMPIO DI INTERPRETAZIONE analoghi. 33 34 49 51 35 47 52 45 37 8 2 15 57 32 5 13 24 11 1 60 50 17 41 56 27 46 30 12 29 34 23 25 31 26 33 28 3 36 7 38 39 40 21 42 43 44 6 10 4 48 20 19 9 14 53 CAPITOLO 2. COME SI ESEGUE UN’ANALISI FATTORIALE: INDICAZIONI INTUITIVE 1 0,695 0,657 0,585 0,578 0,569 0,522 0,500 2 Fattori 3 4 -0,397 0,276 5 6 0,619 0,596 0,591 0,571 0,540 0,501 0,367 0,353 0,360 0,717 0,599 0,586 0,566 0,539 0,517 0,510 0,654 0,567 0,558 0,527 0,519 0,513 0,272 0,314 0,337 -0,275 0,669 0,633 0,337 0,369 0,330 0,458 0,423 0,369 0,396 0,428 0,317 0,455 0,487 0,372 0,305 -0,303 -0,475 0,491 0,383 0,406 0,453 0,297 0,287 -0,272 0,306 0,256 0,412 0,409 0,318 2.8. PUNTEGGI FATTORIALI 35 Tabella 2.12: Seconda matrice fattoriale ruotata (Varimax) 2.8 Punteggi fattoriali Dopo aver effettuato un’analisi fattoriale ed aver ottenuto un certo numero di fattori, ci potrebbe interessare conoscere la posizione di ogni soggetto rispetto a quei fattori. Se, ad esempio, abbiamo isolato un fattore di Aggressività fisica, potremmo voler conoscere quali dei nostri soggetti manifesti molta aggressività e quali non ne manifesti affatto. Ci interessa quindi il punteggio di ogni soggetto nei singoli fattori. Tale punteggio è chiamato, appunto, punteggio fattoriale. Esistono diversi metodi per calcolare i punteggi fattoriali di ogni soggetto nei fattori individuati, ma solo due vengono maggiormente utilizzati nella realtà pratica. Il primo metodo è quello della regressione multipla (cfr. cap. 3*). E’ il metodo matematico per il calcolo dei punteggi fattoriali che viene generalmente utilizzato dai programmi di analisi fattoriale per calcolatori ed è perciò molto comodo. Il punteggio fattoriale, in questo caso, tiene conto di tutte le variabili, proporzionalmente alla loro importanza fattoriale. Il suo difetto principale è che non è facile da interpretare, non conoscendo la sua gamma di variazione. Il secondo è un metodo approssimato (punteggi fattoriali compositi ) e si usa quando si vuol calcolare un punteggio fattoriale che non tenga conto di tutte le variabili sottoposte ad analisi fattoriale, ma soltanto della variabile o delle variabili più sature in un particolare fattore (monofattoriali). In questo caso, si analizza la matrice di composizione fattoriale e, per ciascuno dei fattori di cui si vogliono conoscere i punteggi fattoriali, si selezionano le variabili più sature, vale a dire con le saturazioni più alte. A questo punto si considera la somma dei punteggi grezzi che ogni soggetto ha ottenuto in quelle variabili, oppure se ne calcola la media. In quest’ultimo caso, se (come capita spesso) tutte le variabili hanno la stessa gamma, anche i punteggi fattoriali avranno la stessa gamma e sono quindi di facile interpretazione. Quest’ultimo metodo è molto semplice se le variabili selezionate hanno tutte saturazioni con lo stesso segno. Le cose, invece, si complicano un poco quando le saturazioni di alcune delle variabili scelte hanno segno diverso, perché bisogna tenerne conto e il modo per farlo è strettamente legato al tipo di misurazione utilizzata inizialmente. I punteggi fattoriali possono essere utilizzati per effettuare altre elaborazioni statistiche, come l’analisi della varianza o il t di Student e verificare determinate ipotesi formulabili su alcune caratteristiche del campione rispetto ai fattori. Ad esempio, nella ricerca di Rossi e Venuti (1983) ? (?) di cui si è ampiamente parlato, si era ottenuto il fattore di Aggressività fisica. Essendo il campione eterogeneo rispetto all’età e al sesso, gli autori avevano ipotizzato che il sottocampione femminile manifestasse minore aggressività fisica rispetto a quello maschile e che il sottocampione di età minore (preadolescenti, 11-13 anni) manifestasse maggiore aggressività fisica rispetto a quello di età maggiore (17-18 anni). Un’analisi della varianza effettuata sui punteggi fattoriali (con il secondo metodo qui proposto) ha permesso di verificare queste ipotesi. 2.9 Appendice Test di Sfericità di Bartlett 1 χ2 = −[n − 1 − (2p + 5)]ln|R| 6 con (p2 − p)/2 gradi di libertà dove |R| è il determinante della matrice di correlazione, N è la numerosità del campione, e p indica il numero delle variabili.