Item Analysis

Transcript

Item Analysis
Item Analysis
perché la risposte ad un item
differiscono tra di loro?
Sostanzialmente per due motivi:

i rispondenti hanno differenti opinioni, l’item raccoglie
correttamente questa differenza e produce in una
misura “affidabile” o “attendibile”

i rispondenti sono confusi o non hanno sufficienti
informazioni per capire correttamente la domanda e
danno perciò interpretazioni diverse. In tal caso l’item
non riflette una diversa opinione, semmai un diverso
tipo d'errore associato ad ogni rispondente. L'errore,
anche aleatorio ma comunque ampio, non produce una
misura “affidabile” / “attendibile”
Affidabilità
L’affidabilità (attendibilità) è una proprietà del
questionario e riguarda l’accuratezza con cui esso
riesce a misurare il CL in esame.
Un questionario affidabile produce praticamente gli
stessi risultati per una stessa situazione,
considerando modesto l’effetto dovuto all’errore
aleatorio e in assenza altri errori di misura.
Il coefficiente di affidabilità esprime, in questo
senso, la precisione del questionario nel misurare
un CL ed è inversamente proporzionale all’errore di
misura.
Affidabilità
il Concetto Latente in esame in questi casi
potrebbe essere, ad esempio:
• l’attitudine a svolgere uno specifico sport, come
il nuoto, ad esempio
• Il grado di autosufficienza di una persona
anziana.
Si parla anche di “scale di misura” in ambito
psicometrico, basate su questionari con
punteggi sommabili su ogni item, quest’ultimo
cerca di ottenere una particolare misura del CL
Affidabilità
Nella maggior parte dei questionari psicometrici si
assume che il punteggio, per singolo item o aggregato,
sia rilevato su una “scala di misura” e questo punteggio
osservato, in realtà, sia dovuto a due componenti: il
punteggio vero e l’errore di misura
x=v+e
x
v
e
= punteggio osservato
= punteggio vero
= errore di misura (correlato o incorr.)
Affidabilità
Ogni misura implica un errore
Il punteggio osservato e ottenuto da certo un soggetto non
sarà mai il punteggio vero, ma uno dei possibili punteggi
che il soggetto potrà offrire, dato il suo punteggio vero
errore e :
aleatorio  correlato al valore di v
sitematico  correlato al valore di v
(v  punteggio vero)
Affidabilità: definizione
Il linea teorica, possiamo definire l’affidabilità con rt per
indicare il rapporto tra varianza vera (dovuta al variare del
fenomeno misurato) e varianza osservata o totale (dovuta alla
causa precedente più l’errore di misura :
Nota: spesso l’affidabilità è
simbolicamente indicata con rtt
definita
attendibilità
e
Affidabilità: definizione
Evidentemente, se errore e punteggio vero sono incorrelati,
tale indice si ottiene anche come complemento a 1 del
rapporto tra la varianza d’errore e la varianza osservata
rt indica sia il concetto teorico sia il rispettivo coefficiente
stimato empiricamente.
Stime empiriche dell’affidabilità
Esistono diversi criteri di stima (empirica) dell'affidabilità, in
riferimento a diverse accezioni dell'affidabilità stessa.
Immaginiamo un questionario in cui si misura il CL attraverso
punteggi e che questi punteggi siano misurati su una stessa
scala a intervalli e sommabili
In questo modo possiamo ottenere il punteggio somma
complessivo come misura del concetto latente ammettendo
dimensioni a peso uniforme e valutare l'affidabilità complessiva.
Oppure otteniamo somme distinte per dimensione, da
sintetizzare successivamente tramite una media ponderata, e
consideriamo l'affidabilità in riferimento ad una dimensione
specifica.
Stime empiriche dell’affidabilità
1. TEST-RETEST
Se usiamo lo stesso questionario in due tempi diversi sugli
stessi soggetti, l’affidabilità è definita come stabilità delle
singole misure nel tempo ed è denominata test-retest.
L’affidabilità è allora stimata con rtr , cioè la correlazione tra i
punteggi ottenuti nelle due occasioni
Stime empiriche dell’affidabilità
2. SPLIT HALF
Dividiamo il questionario a metà, per poi calcolare r12 , la
correlazione tra i punteggi somma rispettivi. Sommando
entro le due metà, la componente aleatoria si riduce nelle
due variabili somma.
La divisione del questionario va fatta opportunamente: ad
esempio, con sorteggio, oppure item pari vs e dispari e non
prima vs seconda metà (potrebbero essere in sequenza
propedeutica …)
Stime empiriche dell’affidabilità
2. SPLIT HALF
Le stime possibli sono, in realtà, pari al numero delle
possibili suddivisioni a metà del questionario: con L item,
avremo
Stime empiriche dell’affidabilità
3. COERENZA INTERNA
L'accezione più comune considera l’affidabilità come
COERENZA INTERNA, ovvero come grado di accordo tra gli
item del questionario
Ne segue che la coerenza interna dipende dal grado di
corelazione tra gli item, quindi dalla matrice di correlazione
Stime empiriche dell’affidabilità
3. COEFFICIENTI DI COERENZA INTERNA
L'affidabilità è allora stimabile attraverso il coefficiente Alfa di
Cronbach
Stime empiriche dell’affidabilità
ALFA DI CRONBACH
Ricordando quanto già accennato (x = v + e), il procedimento
si basa su una considerazione semplice.
Se l’errore e è aleatorio e la misura esatta v sempre correlata
al CL (le variabili sono riflessive), sommando tutte le
determinazioni di x otteniamo una variabile somma in cui la
componente di misura è rafforzata e l’errore aleatorio tende
al suo valore atteso nullo.
In questa situazione, più variabili abbiamo a disposizione per
la somma, tanto più questa sarà precisa per la misura del CL.
Stime empiriche dell’affidabilità
Ovviamente, se e esprime un errore importante - anche se
aleatorio - e la componente di misura v è debole e la nostra
variabile somma non misura nulla di interessante, se non un
grosso errore con anche una piccola componente di misura.
L’alfa di Cronbach si basa sul rapporto tra la variabilità delle
singole variabili (o punteggi) e la variabilità della variabile
somma.
Stime empiriche dell’affidabilità
Esiste un collegamento tra alfa di Cronbach e ACP
Sì, nel caso si trattino variabili standardizzate tutte correlate
positivamente tra loro…
CL riflessivo o formativo?
… si dimostra che la variabile somma è proporzionale alla
prima componente principale nell’ACP.
Stime empiriche dell’affidabilità
Quanto vale la varianza della somma di due varaibli
aleatorie?
È la somma delle varianze più due volte la covarianza
Quindi, se la covarianza è positiva, come accade per
variabili correlate positivamente, allora è sempre maggiore
della somma delle due varianze
Stime empiriche dell’affidabilità
Stime empiriche dell’affidabilità
Cronbach, L. J. (1951). Coefficient alpha
and the internal structure of tests.
Psychometrika, 16, 297-334.
  varia tra 0 e 1
 se le L variabili sono completamente incorrelate, allora
misurano quantità tra loro indipendenti, dunque la
quantità entro parentesi, e quindi anche , vale 0
 se invece ciascuna variabile è identica alle altre, tutte
misurano lo stesso fenomeno, e quindi entro parentesi
avremo (L-1)/L e conseguentemente  =1
Stime empiriche dell’affidabilità
In pratica  confronta la somma delle varianze dei singoli
item con la varianza della somma
Somma delle varianze
(numeratore)
covarianza tra gli item
Varianza della somma
(denominatore)
Quanto più sono correlati gli item, tanto maggiore è la
varianza della somma rispetto alla somma delle varianze
esempio
Stime empiriche dell’affidabilità
Empiricamente si considerano:
valori
valori
valori
valori
valori
> 0.90: ottimi
compresi tra 0.80 e .90: buoni
compresi tra 0.70 e .80: discreti
compresi tra 0.60 e .70: sufficienti
< 0.60 insufficienti
Stime empiriche dell’affidabilità
Va anche considerato che  si può calcolare con
riferimento a variabili standardizzate. Dato il coefficiente di
correlazione medio r inteso come media di tutte le
correlazioni possibili tra coppie di variabili, avremo
Stime empiriche dell’affidabilità
Oltre a valutare il valore  complessivo esitono altri indici
utili:
• Mean if deleted: la media della variabile somma quando
l’item in esame è escluso
• Variance if deleted : la varianza della variabile somma
quando l’item in esame è escluso
• Item to correlation: la correlazione tra la variabile e la
varaibile somma quando l’item in esame è escluso
• Alfa if deleted: il coefficiente  che si ottiene quando
l’item è escluso
Stime empiriche dell’affidabilità
Infatti  offre un’informazione complessiva dell’affidabilità
della scala di misura, ovvero un’informazione relativa
alla scala nella sua totalità, che non riguarda ogni
singolo item che lo compone
Per avere un’idea più precisa dell’affidabilità di ogni singolo
item della scala è possibile esaminare il coefficiente di
correlazione Item to correlation: coefficienti bassi
indicano item potenzialmente dissociati dal CL,
peggiorativi per l’affidabilità della scala (intesa sempre
come coerenza interna)
Stime empiriche dell’affidabilità
Al contrario, gli item con elevate correlazioni con il totale
tendono a discriminare i soggetti quasi come punteggio
totale.
Quindi Item to correlation rappresenta un indicatore della
capacità discriminante del singolo item: se l’item è
fortemente correlato alla variabile somma di tutte le
rimanenti variabili, in pratica, può sostituirle
Stime empiriche dell’affidabilità
Anche Variance if deleted è un indicatore interessante: se
aumenta (rispetto alle altre situazioni) significa che l’item
escluso ha un basso contributo di covarianza, quindi una
correlazione bassa con i rimanenti item. Quando invece
escludo una variabile fortemente correlata alle altre,
ottengo una varianza della residua variabile somma
minore rispetto alla precedente situazione, dove escludo
una componente poco correlata.
Questo esame consente di scegliere item che presentano
parametri (media, varianza, forma della distribuzione,
correlazione con il punteggio totale) migliori per
l’affidabilità della scala
Stime empiriche dell’affidabilità
Se il numero degli item è molto elevato tuttavia questi
indicatori sono poco utili poiché l’effetto indotto da una
singola variabile è generalmente piccolo
Stime empiriche dell’affidabilità
 aumenta con la lunghezza del questionario, a parità delle
restanti condizioni, con un incremento che dipende:
1. dalla lunghezza del questionario iniziale (L)
2. dall’affidabilità iniziale (rt)
Va tenuto conto che il questionario non può essere allungata
a piacere in modo eccessivo per aumentare l’affidabilità.
Se l’affidabilità iniziale è bassa, conviene rifare un nuovo
questionario di misura
Stime empiriche dell’affidabilità
La relazione tra lunghezza e affidabilità è rappresentata dalla
cosiddetta formula profetica di Spearman-Brown che indica il
valore che avrebbe l’affidabilità aumentando gli item in
ragione di un moltiplicatore pari ad f
f =L’/L rapporto tra numero di item nella versione ipotetica e
numero di item nella versione esistente
r’t = affidabilità della versione ipotetica
Stime empiriche dell’affidabilità
Data una scala con 30 item e affidabilità di 0.8, cosa
cambierà se aggiungiamo altri 5 item?
Avremo f =35/30=1.17 e quindi:
Stime empiriche dell’affidabilità
Al crescere di L e a parità di rt, l'incremento di 5 item aumenta
rt' sempre allo stesso modo?
Quanto occorre aumentare L per raggiungere un
dato valore di rt’, ovvero che f =L’/L occorre ?
Stime empiriche dell’affidabilità
Stima quante volte aumentare il numero di item per
raggiungere r’t (un nuovo valore di affidabilità) dato rt (il
valore precedente di affidabilità)
Stime empiriche dell’affidabilità
Dato r=0,8 e 30 item, quanti item dobbiamo aggiungere
per arrivare ad un affidabilità pari ad almeno 0.9?
Dovremo aggiungere 30(2.25)-30 =37,5 item
Item analysis
L’item analysis considera tuttavia che i punteggi considerati
misurino un unico carattere latente (o meglio una sua
singola dimensione)
Tale ipotesi in alcune situazioni può essere adeguata, in
altre decisamente riduttiva.
Se gli aspetti rilevati si riferiscono a fenomenti distinti che
compongono un processo complesso, non è lecito
attendersi indicatori soddisfacenti.
Questo non significa che la scelta degli item sia
insoddisfacente, ma che ogni variabile introduce
informazioni autonome all’interno di un contesto
complessive e in queste circostanze è consigliabile ricorrere
a tecniche di analisi multivariata
Item analysis
Prima di procedere ad una item analysis conviene tuttavia
prendere in considerazione il fatto che gli item siano ben
“calibrati”.
Se alcune domande sono troppo facili o scontate, con
risposte su cui tutti concordano, è opporuno considerare la
possibilità di una loro esclusione
Validità e affidabilità
Affidabilità
Bassa
Bassa
•
•
•
Alta
•••
•••
•
•
•
Validità
•
Alta
•
•
•
•
•
•••
•
••
Validità e affidabilità
Validità e affidabilità
¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦
Valore vero
solo affidabilità
¦¦¦¦¦¦¦¦¦
Validità
“Il nostro indicatore di sintesi, ottenuto come somma di punteggi, misura
relamente quello che vogliamo che misuri?
Quidi per validità si intende il grado di precisione con cui un test riesce a
misurare ciò che si propone di misurare.
La validità di un questionario-test può essere valutata da più punti di vista
purtroppo empirici e non oggettivi:
•
attraverso ciò che, all’esterno il test sembra misurare
•
attraverso l'esame del contenuto interno del test
•
attraverso le correlazioni con altri test supposti validi
•
attraverso la rispondenza ad un dato criterio.
Validità
Ricapitolando, il concetto di validità in psicometria si distingue in:
1 Validità apparente (ciò che il questionario-test sembra misurare)
2 Validità di contenuto (la qualità degli elementi contenuti)
3 Validità di costrutto (la connessione ad altre misure del CL)
4 Validità di criterio (rispetto ad un criterio)
Validità di contenuto
Preliminarmente, definiamo chiaramente, su precise basi concettuali, quello
che vogliamo misurare
Selezioniamo item che rappresentino correttamente questo concetto
(validità di contenuto)
Controlliamo se gli item sono chiari, comprensibili e rilevanti per questo
concetto (sensibilità).
Dovremmo quindi avere un insieme di item pronti per il successivo stadio,
l’item analysis, ovvero somministrare il questionario e analizzare le risposte
per il controllo degli item (pre-test).
Item analysis
L’item analysis include:
Valutare la distribuzione degli Item: item che non variano non misurano
nulla, item dissociati dal CL…
Valutare la distribuzione dei missing: item a cui non risponde la metà dei
partecipanti sono altrettanto problematici
Valutare quanto sinora abbiamo visto come “stime di affidabilità”
Richiamare l’affidabilità, le cui stime sono empiriche, per spiegare la
validità….non è particolarmente corretto
Validità di costrutto
(costrutto  concetto latente)
Frequentemente la validità di costrutto viene considerata come la “validità tuot
court” e comprende la possibilità che il test in oggetto possieda una correlazione
con altre misure della stessa caratteristica (validità convergente) e che sia in grado
di distinguere misure di costrutti diversi (validità discriminante). In altre parole, due
o più misure dello stesso costrutto devono avere sia un’alta correlazione sia una
bassa correlazione quando misurano costrutti diversi.
VALIDITÀ DI COSTRUTTO
grado in cui uno strumento misura ciò che deve misurare
VALIDITÀ CONVERGENTE
grado di accordo tra misure di
uno steso costrutto
VALIDITÀ DISCRIMINANTE
grado di distinzione tra misure
di costrutti diversi
due o più misure dello stesso
costrutto debbono possedere
un’elevata correlazione
misure di costrutti diversi
debbono possedere una
bassa correlazione
Validità rispetto ad un criterio
Validità predittiva: intesa come correlazione tra il test e un ulteriore criterio di
misura come una attitudine o un risultato futuri: ad esempio un lavoro o risultati di
profitto scolastico. È utilizzata spesso nell'ambito della selezione del personale e in
ambito scolastico.
Validità concorrente. Correlazione tra misura e criterio sono contemporanei:
relazione tra la misura di un test di organizzazione spaziale e la soluzione di un
quesito di natura spaziale
Q.I 
Misura e risultato
soluzione
Validità
sono rilevati
problema
concorrente
allo stesso tempo
cognitivo
Validità di
criterio
Validità
predittiva
Il risultato è
successivo alla
misura
Test
attitudinale 
successo al
lavoro
Validità
1 Validità di facciata (ciò che il questionario sembra misurare)
2 Validità di contenuto (la qualità degli elementi contenuti)
3 Validità di costrutto (la connessione al CL)
3.1 Validità convergente
3.2 Validità discriminante
4 Validità di criterio (rispetto ad un criterio o un risultato)
4.1 Validità predittiva
4.2 Validità concorrente