Item Analysis
Transcript
Item Analysis
Item Analysis perché la risposte ad un item differiscono tra di loro? Sostanzialmente per due motivi: i rispondenti hanno differenti opinioni, l’item raccoglie correttamente questa differenza e produce in una misura “affidabile” o “attendibile” i rispondenti sono confusi o non hanno sufficienti informazioni per capire correttamente la domanda e danno perciò interpretazioni diverse. In tal caso l’item non riflette una diversa opinione, semmai un diverso tipo d'errore associato ad ogni rispondente. L'errore, anche aleatorio ma comunque ampio, non produce una misura “affidabile” / “attendibile” Affidabilità L’affidabilità (attendibilità) è una proprietà del questionario e riguarda l’accuratezza con cui esso riesce a misurare il CL in esame. Un questionario affidabile produce praticamente gli stessi risultati per una stessa situazione, considerando modesto l’effetto dovuto all’errore aleatorio e in assenza altri errori di misura. Il coefficiente di affidabilità esprime, in questo senso, la precisione del questionario nel misurare un CL ed è inversamente proporzionale all’errore di misura. Affidabilità il Concetto Latente in esame in questi casi potrebbe essere, ad esempio: • l’attitudine a svolgere uno specifico sport, come il nuoto, ad esempio • Il grado di autosufficienza di una persona anziana. Si parla anche di “scale di misura” in ambito psicometrico, basate su questionari con punteggi sommabili su ogni item, quest’ultimo cerca di ottenere una particolare misura del CL Affidabilità Nella maggior parte dei questionari psicometrici si assume che il punteggio, per singolo item o aggregato, sia rilevato su una “scala di misura” e questo punteggio osservato, in realtà, sia dovuto a due componenti: il punteggio vero e l’errore di misura x=v+e x v e = punteggio osservato = punteggio vero = errore di misura (correlato o incorr.) Affidabilità Ogni misura implica un errore Il punteggio osservato e ottenuto da certo un soggetto non sarà mai il punteggio vero, ma uno dei possibili punteggi che il soggetto potrà offrire, dato il suo punteggio vero errore e : aleatorio correlato al valore di v sitematico correlato al valore di v (v punteggio vero) Affidabilità: definizione Il linea teorica, possiamo definire l’affidabilità con rt per indicare il rapporto tra varianza vera (dovuta al variare del fenomeno misurato) e varianza osservata o totale (dovuta alla causa precedente più l’errore di misura : Nota: spesso l’affidabilità è simbolicamente indicata con rtt definita attendibilità e Affidabilità: definizione Evidentemente, se errore e punteggio vero sono incorrelati, tale indice si ottiene anche come complemento a 1 del rapporto tra la varianza d’errore e la varianza osservata rt indica sia il concetto teorico sia il rispettivo coefficiente stimato empiricamente. Stime empiriche dell’affidabilità Esistono diversi criteri di stima (empirica) dell'affidabilità, in riferimento a diverse accezioni dell'affidabilità stessa. Immaginiamo un questionario in cui si misura il CL attraverso punteggi e che questi punteggi siano misurati su una stessa scala a intervalli e sommabili In questo modo possiamo ottenere il punteggio somma complessivo come misura del concetto latente ammettendo dimensioni a peso uniforme e valutare l'affidabilità complessiva. Oppure otteniamo somme distinte per dimensione, da sintetizzare successivamente tramite una media ponderata, e consideriamo l'affidabilità in riferimento ad una dimensione specifica. Stime empiriche dell’affidabilità 1. TEST-RETEST Se usiamo lo stesso questionario in due tempi diversi sugli stessi soggetti, l’affidabilità è definita come stabilità delle singole misure nel tempo ed è denominata test-retest. L’affidabilità è allora stimata con rtr , cioè la correlazione tra i punteggi ottenuti nelle due occasioni Stime empiriche dell’affidabilità 2. SPLIT HALF Dividiamo il questionario a metà, per poi calcolare r12 , la correlazione tra i punteggi somma rispettivi. Sommando entro le due metà, la componente aleatoria si riduce nelle due variabili somma. La divisione del questionario va fatta opportunamente: ad esempio, con sorteggio, oppure item pari vs e dispari e non prima vs seconda metà (potrebbero essere in sequenza propedeutica …) Stime empiriche dell’affidabilità 2. SPLIT HALF Le stime possibli sono, in realtà, pari al numero delle possibili suddivisioni a metà del questionario: con L item, avremo Stime empiriche dell’affidabilità 3. COERENZA INTERNA L'accezione più comune considera l’affidabilità come COERENZA INTERNA, ovvero come grado di accordo tra gli item del questionario Ne segue che la coerenza interna dipende dal grado di corelazione tra gli item, quindi dalla matrice di correlazione Stime empiriche dell’affidabilità 3. COEFFICIENTI DI COERENZA INTERNA L'affidabilità è allora stimabile attraverso il coefficiente Alfa di Cronbach Stime empiriche dell’affidabilità ALFA DI CRONBACH Ricordando quanto già accennato (x = v + e), il procedimento si basa su una considerazione semplice. Se l’errore e è aleatorio e la misura esatta v sempre correlata al CL (le variabili sono riflessive), sommando tutte le determinazioni di x otteniamo una variabile somma in cui la componente di misura è rafforzata e l’errore aleatorio tende al suo valore atteso nullo. In questa situazione, più variabili abbiamo a disposizione per la somma, tanto più questa sarà precisa per la misura del CL. Stime empiriche dell’affidabilità Ovviamente, se e esprime un errore importante - anche se aleatorio - e la componente di misura v è debole e la nostra variabile somma non misura nulla di interessante, se non un grosso errore con anche una piccola componente di misura. L’alfa di Cronbach si basa sul rapporto tra la variabilità delle singole variabili (o punteggi) e la variabilità della variabile somma. Stime empiriche dell’affidabilità Esiste un collegamento tra alfa di Cronbach e ACP Sì, nel caso si trattino variabili standardizzate tutte correlate positivamente tra loro… CL riflessivo o formativo? … si dimostra che la variabile somma è proporzionale alla prima componente principale nell’ACP. Stime empiriche dell’affidabilità Quanto vale la varianza della somma di due varaibli aleatorie? È la somma delle varianze più due volte la covarianza Quindi, se la covarianza è positiva, come accade per variabili correlate positivamente, allora è sempre maggiore della somma delle due varianze Stime empiriche dell’affidabilità Stime empiriche dell’affidabilità Cronbach, L. J. (1951). Coefficient alpha and the internal structure of tests. Psychometrika, 16, 297-334. varia tra 0 e 1 se le L variabili sono completamente incorrelate, allora misurano quantità tra loro indipendenti, dunque la quantità entro parentesi, e quindi anche , vale 0 se invece ciascuna variabile è identica alle altre, tutte misurano lo stesso fenomeno, e quindi entro parentesi avremo (L-1)/L e conseguentemente =1 Stime empiriche dell’affidabilità In pratica confronta la somma delle varianze dei singoli item con la varianza della somma Somma delle varianze (numeratore) covarianza tra gli item Varianza della somma (denominatore) Quanto più sono correlati gli item, tanto maggiore è la varianza della somma rispetto alla somma delle varianze esempio Stime empiriche dell’affidabilità Empiricamente si considerano: valori valori valori valori valori > 0.90: ottimi compresi tra 0.80 e .90: buoni compresi tra 0.70 e .80: discreti compresi tra 0.60 e .70: sufficienti < 0.60 insufficienti Stime empiriche dell’affidabilità Va anche considerato che si può calcolare con riferimento a variabili standardizzate. Dato il coefficiente di correlazione medio r inteso come media di tutte le correlazioni possibili tra coppie di variabili, avremo Stime empiriche dell’affidabilità Oltre a valutare il valore complessivo esitono altri indici utili: • Mean if deleted: la media della variabile somma quando l’item in esame è escluso • Variance if deleted : la varianza della variabile somma quando l’item in esame è escluso • Item to correlation: la correlazione tra la variabile e la varaibile somma quando l’item in esame è escluso • Alfa if deleted: il coefficiente che si ottiene quando l’item è escluso Stime empiriche dell’affidabilità Infatti offre un’informazione complessiva dell’affidabilità della scala di misura, ovvero un’informazione relativa alla scala nella sua totalità, che non riguarda ogni singolo item che lo compone Per avere un’idea più precisa dell’affidabilità di ogni singolo item della scala è possibile esaminare il coefficiente di correlazione Item to correlation: coefficienti bassi indicano item potenzialmente dissociati dal CL, peggiorativi per l’affidabilità della scala (intesa sempre come coerenza interna) Stime empiriche dell’affidabilità Al contrario, gli item con elevate correlazioni con il totale tendono a discriminare i soggetti quasi come punteggio totale. Quindi Item to correlation rappresenta un indicatore della capacità discriminante del singolo item: se l’item è fortemente correlato alla variabile somma di tutte le rimanenti variabili, in pratica, può sostituirle Stime empiriche dell’affidabilità Anche Variance if deleted è un indicatore interessante: se aumenta (rispetto alle altre situazioni) significa che l’item escluso ha un basso contributo di covarianza, quindi una correlazione bassa con i rimanenti item. Quando invece escludo una variabile fortemente correlata alle altre, ottengo una varianza della residua variabile somma minore rispetto alla precedente situazione, dove escludo una componente poco correlata. Questo esame consente di scegliere item che presentano parametri (media, varianza, forma della distribuzione, correlazione con il punteggio totale) migliori per l’affidabilità della scala Stime empiriche dell’affidabilità Se il numero degli item è molto elevato tuttavia questi indicatori sono poco utili poiché l’effetto indotto da una singola variabile è generalmente piccolo Stime empiriche dell’affidabilità aumenta con la lunghezza del questionario, a parità delle restanti condizioni, con un incremento che dipende: 1. dalla lunghezza del questionario iniziale (L) 2. dall’affidabilità iniziale (rt) Va tenuto conto che il questionario non può essere allungata a piacere in modo eccessivo per aumentare l’affidabilità. Se l’affidabilità iniziale è bassa, conviene rifare un nuovo questionario di misura Stime empiriche dell’affidabilità La relazione tra lunghezza e affidabilità è rappresentata dalla cosiddetta formula profetica di Spearman-Brown che indica il valore che avrebbe l’affidabilità aumentando gli item in ragione di un moltiplicatore pari ad f f =L’/L rapporto tra numero di item nella versione ipotetica e numero di item nella versione esistente r’t = affidabilità della versione ipotetica Stime empiriche dell’affidabilità Data una scala con 30 item e affidabilità di 0.8, cosa cambierà se aggiungiamo altri 5 item? Avremo f =35/30=1.17 e quindi: Stime empiriche dell’affidabilità Al crescere di L e a parità di rt, l'incremento di 5 item aumenta rt' sempre allo stesso modo? Quanto occorre aumentare L per raggiungere un dato valore di rt’, ovvero che f =L’/L occorre ? Stime empiriche dell’affidabilità Stima quante volte aumentare il numero di item per raggiungere r’t (un nuovo valore di affidabilità) dato rt (il valore precedente di affidabilità) Stime empiriche dell’affidabilità Dato r=0,8 e 30 item, quanti item dobbiamo aggiungere per arrivare ad un affidabilità pari ad almeno 0.9? Dovremo aggiungere 30(2.25)-30 =37,5 item Item analysis L’item analysis considera tuttavia che i punteggi considerati misurino un unico carattere latente (o meglio una sua singola dimensione) Tale ipotesi in alcune situazioni può essere adeguata, in altre decisamente riduttiva. Se gli aspetti rilevati si riferiscono a fenomenti distinti che compongono un processo complesso, non è lecito attendersi indicatori soddisfacenti. Questo non significa che la scelta degli item sia insoddisfacente, ma che ogni variabile introduce informazioni autonome all’interno di un contesto complessive e in queste circostanze è consigliabile ricorrere a tecniche di analisi multivariata Item analysis Prima di procedere ad una item analysis conviene tuttavia prendere in considerazione il fatto che gli item siano ben “calibrati”. Se alcune domande sono troppo facili o scontate, con risposte su cui tutti concordano, è opporuno considerare la possibilità di una loro esclusione Validità e affidabilità Affidabilità Bassa Bassa • • • Alta ••• ••• • • • Validità • Alta • • • • • ••• • •• Validità e affidabilità Validità e affidabilità ¦¦¦¦¦¦¦¦¦¦¦¦¦¦¦ Valore vero solo affidabilità ¦¦¦¦¦¦¦¦¦ Validità “Il nostro indicatore di sintesi, ottenuto come somma di punteggi, misura relamente quello che vogliamo che misuri? Quidi per validità si intende il grado di precisione con cui un test riesce a misurare ciò che si propone di misurare. La validità di un questionario-test può essere valutata da più punti di vista purtroppo empirici e non oggettivi: • attraverso ciò che, all’esterno il test sembra misurare • attraverso l'esame del contenuto interno del test • attraverso le correlazioni con altri test supposti validi • attraverso la rispondenza ad un dato criterio. Validità Ricapitolando, il concetto di validità in psicometria si distingue in: 1 Validità apparente (ciò che il questionario-test sembra misurare) 2 Validità di contenuto (la qualità degli elementi contenuti) 3 Validità di costrutto (la connessione ad altre misure del CL) 4 Validità di criterio (rispetto ad un criterio) Validità di contenuto Preliminarmente, definiamo chiaramente, su precise basi concettuali, quello che vogliamo misurare Selezioniamo item che rappresentino correttamente questo concetto (validità di contenuto) Controlliamo se gli item sono chiari, comprensibili e rilevanti per questo concetto (sensibilità). Dovremmo quindi avere un insieme di item pronti per il successivo stadio, l’item analysis, ovvero somministrare il questionario e analizzare le risposte per il controllo degli item (pre-test). Item analysis L’item analysis include: Valutare la distribuzione degli Item: item che non variano non misurano nulla, item dissociati dal CL… Valutare la distribuzione dei missing: item a cui non risponde la metà dei partecipanti sono altrettanto problematici Valutare quanto sinora abbiamo visto come “stime di affidabilità” Richiamare l’affidabilità, le cui stime sono empiriche, per spiegare la validità….non è particolarmente corretto Validità di costrutto (costrutto concetto latente) Frequentemente la validità di costrutto viene considerata come la “validità tuot court” e comprende la possibilità che il test in oggetto possieda una correlazione con altre misure della stessa caratteristica (validità convergente) e che sia in grado di distinguere misure di costrutti diversi (validità discriminante). In altre parole, due o più misure dello stesso costrutto devono avere sia un’alta correlazione sia una bassa correlazione quando misurano costrutti diversi. VALIDITÀ DI COSTRUTTO grado in cui uno strumento misura ciò che deve misurare VALIDITÀ CONVERGENTE grado di accordo tra misure di uno steso costrutto VALIDITÀ DISCRIMINANTE grado di distinzione tra misure di costrutti diversi due o più misure dello stesso costrutto debbono possedere un’elevata correlazione misure di costrutti diversi debbono possedere una bassa correlazione Validità rispetto ad un criterio Validità predittiva: intesa come correlazione tra il test e un ulteriore criterio di misura come una attitudine o un risultato futuri: ad esempio un lavoro o risultati di profitto scolastico. È utilizzata spesso nell'ambito della selezione del personale e in ambito scolastico. Validità concorrente. Correlazione tra misura e criterio sono contemporanei: relazione tra la misura di un test di organizzazione spaziale e la soluzione di un quesito di natura spaziale Q.I Misura e risultato soluzione Validità sono rilevati problema concorrente allo stesso tempo cognitivo Validità di criterio Validità predittiva Il risultato è successivo alla misura Test attitudinale successo al lavoro Validità 1 Validità di facciata (ciò che il questionario sembra misurare) 2 Validità di contenuto (la qualità degli elementi contenuti) 3 Validità di costrutto (la connessione al CL) 3.1 Validità convergente 3.2 Validità discriminante 4 Validità di criterio (rispetto ad un criterio o un risultato) 4.1 Validità predittiva 4.2 Validità concorrente