psicometria pedon gnisci cap 7

Transcript

psicometria pedon gnisci cap 7
ATTENDIBILITA’ E VALIDITA’ DELLA MISURAZIONE (cap 7)
Un attributo psicologico e un costrutto, ossia una variabile psicologica latente. Latente (contrario di
manifesta) significa che non e ne osservata e ne osservabile direttamente. Per renderla misurabile, e
necessario operazionalizzarla.
123-
Definizione del costrutto
Scomposizione del costrutto in sotto dimensioni
Individuazione di indicatori che siano manifestazione di ciascuna dimensione, ad esempio sintomi
fisici, comportamentali e cognitivi
psicologia, nella maggior parte dei casi, si misurano COSTRUTTI, ossia concetti astratti che indicano un
complesso della vita psichica degli individui, non osservabili direttamente ma inferiti a partire da una serie
di indicatori empirici osservabili.
Gli INDICATORI sono variabili o misure empiriche che indicano il costrutto non osservabile tramite una
regola di corrispondenza. Il rapporto tra costrutto e indicatori può essere di due tipi e da questo dipende la
denominazione degli indicatori, che si distinguono in formativi e riflettivi.
Secondo la teoria classica dei test, un indicatore “ideale” dovrebbe riflettere un unico costrutto, senza
essere influenzato da altri costrutti. Un costrutto deve essere definito da più indicatori.
Caso 1: Estroversione: Il mio tratto di estroversione fa si che io risponda in un certo modo alle domande del
test => Analisi fattoriale
Caso 2: Rischio di morte: La combinazione degli indicatori (ad esempio, livello di colesterolo nel sangue,
propensione a correre in macchina e propensione a fare uso di alcol) concorrono a determinare il mio
rischio di morte => Analisi in componenti principali
Stabilità, accuratezza e precisione
Accuratezza: il grado di corrispondenza tra misurazione e costrutto misurato (validità)
Precisione e stabilità: il grado di sistematicità e coerenza con cui eseguiamo la misurazione (attendibilità)
Se uno strumento di misura è accurato allora è anche stabile e preciso. Non e necessariamente vero il
contrario: uno strumento può essere preciso ma non accurato, cosi come stabile ma non accurato.
È ATTENDIBILE (o affidabile) lo strumento che fornisce misurazioni tra loro coerenti (se effettuando più
misurazioni indipendenti dello stesso costrutto esse risultano tra loro coerenti). L’attendibilità è pertanto il
grado di accordo tra misurazioni indipendenti del medesimo costrutto.
è VALIDO lo strumento di misura che effettivamente misura la proprietà per cui e stato costruito. La validità
e pertanto il grado in cui uno strumento misura ciò che dice di misurare.
L’attendibilità e considerata la base della validità: una misurazione, per essere valida, deve essere anche
attendibile. Si dice anche la l’attendibilità e il limite massimo della validità: una misurazione non può essere
valida più di quanto sia attendibile.
Ma attenzione: una misurazione può essere attendibile senza per questo essere necessariamente anche
valida.
Solitamente si associa l’attendibilità all’errore CASUALE (accidentale) e la validità all’errore SISTEMATICO.
L’attendibilità e quindi più facilmente rilevabile della validità. L’errore accidentale è individuabile attraverso
repliche della misurazione sullo stesso soggetto e le variazioni di valore tra le rilevazioni sono dovute
all’errore accidentale.
La validità è di più difficile individuazione dato che l’errore sistematico che e alla sua base si presenta
costantemente in ogni rilevazione e quindi rende lo stato effettivo della proprietà studiata non conoscibile.
L’attendibilità corrisponde al grado di fiducia che è lecito riporre in uno strumento, in quanto produce
misurazioni coerenti. L’attendibilità si riferisce quindi al grado di coerenza tra misurazioni indipendenti
della medesima proprietà. È legittimo pretendere anche una stabilità diacronica delle misurazioni, se la
proprietà mentale che stiamo cercando di misurare non subisce variazioni sostanziali nel tempo.
In base alla teoria classica dei test sappiamo che: X = V + E
E, di conseguenza, anche che:
Siccome il valore vero V e dato da ripetizioni infinte della misurazione, altro non e che il valore atteso di X:
Da cui discende che:
Assunti:
 gli errori casuali non sono in relazione tra loro
 punteggi osservati ed errori non sono in relazione tra loro
L’attendibilità è ricavabile come rapporto tra la varianza della parte vera var(V) e la varianza totale del
punteggio osservato var(X). Questo rapporto indica in quale misura la variabilità osservata dei punteggi
dipende dalle reali variazioni degli stati individuali sulla proprietà misurata dal test, antiche dall’errore
casuale.
Diverse applicazioni dell’attendibilità
Metodi basati su due applicazioni

Test-retest: coerenza diacronica dei punteggi ricavati a partire dal medesimo strumento, applicato
al tempo t e t+1
 Forme parallele o equivalenti: coerenza sincronica dei punteggi ricavati a partire da due strumenti
paralleli, applicati al tempo t
Metodi basati su una sola applicazione



Split-half: coerenza dei punteggi ricavati dividendo in due il medesimo strumento, applicato al
tempo t (consistenza interna dello strumento)
Generalizzazione dello split-half: consistenza interna dello strumento valutata attraverso la media
delle correlazioni inter-item ricavabili a partire da tutte le possibili divisioni a meta (α di Cronbach,
1951)
Accordo tra valutatori: concordanza delle valutazioni espresse da diversi giudici
L’α di Cronbach di una scala di misura
Utilizzato per valutare la consistenza (coerenza) interna di un test.
Varia tra 0 e 1. NON fornisce informazioni sulla dimensionalità della scala.
Media delle intercorrelazioni tra tutte le possibili divisioni a meta del test. Dipende dalla intercorrelazione
degli item e dalla lunghezza della scala (numerosità degli item).
FORMULA PROFETICA DI SPEARMAN-BROWN = identifica la relazione tra attendibilità e numero di item. Si
utilizza una volta calcolato il valore dell’α e stabilita la lunghezza di una scala per stimare l’attendibilità di
un test di lunghezza diversa oppure per individuare il numero di item che posso aggiungere/eliminare dal
test di partenza per ottenere una certa attendibilità prestabilita.
Varia tra 0 (min coerenza) a 1 (max coerenza) ma non esiste accordo unanime su quale sia il livello minimo
che deve assumere l’α. Siccome dipende non solo dalle intercorrelazioni tra gli item ma anche dalla loro
numerosità, si deve tenerne conto nella scelta del livello.
Attenzione agli item ridondanti (non informativi) => “scale gonfiate”
Le scale “gonfiate” sono alla base di due problemi:
Paradosso dell’attenuazione: Incrementare oltre un certo limite la coerenza interna di una scala non
aumenta necessariamente la validità di costrutto e anzi, in alcuni casi, finisce per limitarla. Ad esempio, se
la maggior coerenza viene ottenuta sovra rappresentando con item ridondanti una dimensione del
costrutto a scapito delle altre…
Dilemma della larghezza della banda: L’eccessivo restringimento del contenuto della scala anche se
permette di prevedere comportamenti specifici (alta fedeltà) non correla con nient’altro di rilevanza
psicologica. Al contrario, item troppo generici hanno alto valore predittivo rispetto a costrutti
psicologicamente rilevanti, a spese pero di comportamenti specifici (bassa fedeltà).
K di Cohen
Coefficiente di attendibilità utilizzato quando ci sono due o più valutatori che eseguono la medesima
misurazione. Il concetto di base dell’attendibilità e basato sul grado di accordo tra questi giudici (o
rilevatori). Due osservatori codificano indipendentemente lo stesso flusso di comportamento.
Dopo la codifica si costruisce la MATRICE DI CONFUSIONE, che riporta in riga le osservazioni riferibili al
primo osservatore e in colonna quelle del secondo.
Nella diagonale principale si trovano i casi di accordo (AO) tra i giudici:
Nelle celle extra-diagonal si trovano i casi di disaccordo (D) tra i giudici.
I totali marginali di riga e di colonna consentono di calcolare l’accordo dovuto al caso (AC)
L’accordo vero e dato da:
La formula del K di Cohen: Una volta che abbiamo calcolato l’accordo osservato, il disaccordo, l’accordo
dovuto al caso e, di conseguenza, quello “vero”, possiamo calcolare il K di Cohen. Per comodità alcune
volte si moltiplica il risultato per 100.
Validità della misurazione
Uno dei momenti più difficili nel processo di sviluppo di una misura e quello dell'interpretazione dei
punteggi ottenuti dalla misurazione. La registrazione di una significativa affidabilità rivela solo che lo
strumento misura veramente qualcosa ma non da alcuna informazione sulla natura di ciò che si sta
misurando.
La difficoltà deriva dal fatto che la validazione può essere verificata all'interno di un sistema di relazioni
ipotizzate tra il costrutto di interesse e altri costrutti; tali relazioni possono essere di causa, effetto o di
correlazione. Le prove di validità implicano la verifica simultanea dell'ipotesi riguardante i costrutti e lo
strumento.
La validazione di una misura può quindi essere vista come la verifica di una teoria. Il processo di validazione
non può essere affrontato prima che non sia stato portato a termine quello di verifica dell'affidabilità.


VALIDITÀ DI CONTENUTO
E il grado con cui gli item dello strumento costituiscono un campione rappresentativo dell’universo
dei comportamenti relativi al costrutto.
VALIDITÀ DI CRITERIO



È il grado di corrispondenza tra la misura e una variabile esterna, diversa dal costrutto originario,
che si assume come criterio di riferimento.
VALIDITÀ DI COSTRUTTO
E il grado con cui la misura del costrutto correla con misure dello stesso costrutto fatte con metodi
diversi (CONVERGENTE) e non correla con misure di costrutti diversi fatte con lo stesso o con
metodi diversi (DIVERGENTE)
VALIDITÀ NOMOLOGICA
E il grado con cui il costrutto che vogliamo misurare si inserisce in una serie di relazioni predittive
tra costrutti e criteri appositamente definiti. Il costrutto predice ciò che deve predire e non predice
ciò che non deve predire, e si inserisce in una rete di relazioni di costrutti affini.
VALIDITÀ DI FACCIATA
Ha a che vedere con la serietà e l’utilità percepita del test da parte dei soggetti cui il test e
destinato.
Validità di contenuto
E il grado con cui gli item dello strumento costituiscono un campione rappresentativo dell’universo dei
comportamenti relativi al costrutto (Pedon Gnisci).
E il grado con cui gli elementi di uno strumento di assessment (valutazione sistematica del comportamento
di una persona) sono rilevanti e rappresentativi del costrutto target per un particolare scopo di valutazione
(Haynes 1995).
La convalida può avvenire solo su un piano puramente LOGICO (alcuni autori parlano di convalida logica) e
consiste nella scomposizione analitica del concetto in esame al fine di assicurarsi che tutte le dimensioni
siano state ricoperte dagli indicatori selezionati.
Alcuni fanno rientrare nella validità di contenuto anche la validità di facciata, ovvero il grado in cui gli item
paiono ragionevoli e plausibili indicatori del costrutto.
Validità in relazione ad un criterio (predittiva/concorrente)
E il grado di corrispondenza tra la misura e una variabile esterna, diversa dal costrutto originario, che si
assume come criterio di riferimento. La logica sottostante e la ricerca di una misura, detta criterio, che
possa essere considerata una buona approssimazione della variabile di interesse.
Il punteggio di un test e utile se consente di stimare o predire il punteggio nella variabile criterio.
Due strategie:
1- rapportare il punteggio ottenuto nel test a un criterio esterno (successivo ed indipendente) dalla
misura stessa (ad esempio, la valutazione a posteriori del rendimento lavorativo degli individui
selezionati). La rilevazione del criterio e posteriore al test, prevede un intervallo tra temporale tra
la somministrazione del test e la rilevazione del criterio => VALIDITA’ PREDITTIVA
2- rapportare il punteggio ottenuto nel test a un criterio rilevato nello stesso momento (ad esempio,
l’osservazione dei candidati in situazione di interazione). La rilevazione del criterio avviene in modo
concomitante alla somministrazione del test, e simultanea al test =>VALIDITA’ CONCORRENTE)
Sono basate sulla correlazione tra i punteggi.
Esiste anche la validità POSTDITTIVA, che e quella ad esempio utilizzata in Tribunale per stabilire se
l’imputato era in possesso al momento del delitto della capacita di intendere e di volere. Fa parte della
validità di criterio anche la validità PER GRUPPI NOTI in cui la misura e applicata anche a persone di cui e già
nota la posizione sulla proprietà da rilevare.
La validità di costrutto
Definita come il grado in cui uno strumento misura ciò che dice di misurare, la validità di costrutto è
l’aspetto della validità che ha ricevuto maggiore attenzione da parte di ricercatori e metodologi, tanto da
rappresentare tout court il significato stesso di validità.
Si tratta di valutare la rispondenza di un indicatore alle attese teoriche in termini di relazioni con altre
variabili.
o
o
Validità CONVERGENTE => grado di accordo tra due misurazioni del medesimo costrutto fatte con
metodi diversi Se la misurazione e valida dal punto di vista del costrutto, l’accordo tra due misure
del medesimo costrutto fatte con metodi differenti deve essere elevata (esempio: due scale di
pregiudizio razziale)
Validità DISCRIMINANTE => grado di discriminazione tra due misurazioni di costrutti diversi (parte
della medesima rete nomologica). Se la misurazione e valida dal punto di vista del costrutto, non vi
e correlazione tra la misurazione del costrutto e misurazioni di altri costrutti
La validità nomologica
La validità della misurazione del costrutto non va limitata solo alle manifestazioni empiriche di
quest’ultimo, ma deve prendere in considerazione anche le sue relazioni con altri costrutti e/o criteri della
rete di relazioni nomologiche in cui e inserito.
La validità nomologica e definita come il grado in cui un costrutto si inserisce in una serie di relazioni
predittive, positive o negative o nulle tra costrutti e criteri appositamente definiti.
La validità di facciata (o esteriore)
La misurazione deve sembrare valida dal punto di vista logico e concettuale a un osservatore esterno
(esperti ma anche utilizzatori del test). Non si riferisce a ciò che il test effettivamente misura (validità di
contenuto) ma a ciò che sembra misurare.
La capacita di un test di produrre risultati affidabili, dipende dall’atteggiamento di chi lo usa (soggetti ed
esperti).
La matrice MTMM di Campbell e Fiske
Il modo migliore per valutare la validità di costrutto e sviluppare uno studio in cui vengono misurati diversi
costrutti con diversi strumenti, al fine di ottenere una matrice multi tratto-multi metodo (MTMM).
Campbell e Fiske (1959) hanno suggerito 4 criteri per ispezionare la matrice al fine di valutare validita
convergente e discriminante:
1- le correlazioni tra misure diverse dello stesso tratto (monotrattoeterometodo) devono essere
diverse da zero, sufficientemente grandi e statisticamente significative;
2- tali correlazioni devono essere maggiori di quelle relative a misure diverse di tratti diversi
(correlazioni eterotratto- eterometodo);
3- tali correlazioni devono poi essere maggiori delle correlazioni tra misure di diversi tratti ottenute
con lo stesso metodo (etero tratto mono metodo);
4- il quarto criterio richiede che vi sia una configurazione analoga tra le correlazioni etero tratto-mono
metodo e le correlazioni etero tratto etero metodo.