Validità e controllo

Transcript

Validità e controllo
2. Validità e controllo nella ricerca
2. 1. Validità
Sebbene il concetto venga precisato in modo più dettagliato e specifico nel seguito, possiamo in generale dire che la
validità di una ricerca attiene alla qualità, sotto i diversi aspetti specificati oltre, dei risultati raggiunti, in termini di
rigore metodologico, significatività, attendibilità e generalizzabilità degli enunciati proposti, solidità di impianto.
Occorre altresì precisare che il concetto di validità di una ricerca trattato in queste pagine è ben distinto da quello di
validità di una definizione operativa o di un strumento di misura trattato in § 1.2.2..
2. 1. 1. Validità interna
Una ricerca si pone in linea generale degli obiettivi che si possono esprimere in termini di incremento di conoscenza
sugli specifici fatti indagati. Talvolta tale incremento di conoscenza consiste nell’enunciazione esplicita di un nuovo
nesso relazionale di associazione (variazione concomitante) fra più variabili, o magari di un nuovo nesso causale fra una
variabile indipendente VI e una variabile dipendente VD (vedi § 1.2.3.).
Affinché si abbia validità interna occorre che il nesso relazionale enunciato nelle conclusioni della ricerca sia effettivo,
cioè sussista realmente e non sia dovuto in modo erroneo a circostanze inquinanti non controllate dallo sperimentatore o
non sia comunque reso più incerto, se non addirittura sbagliato, da fattori di disturbo.
Facciamo un esempio.
In un esperimento si vuole effettuare un confronto fra due particolari espedienti didattici; due classi parallele (diciamo
A e B), di cui è accertata l’equivalenza sotto i vari aspetti di interesse per quella sperimentazione, sono sottoposte ai due
corrispondenti trattamenti; al termine, entrambe le classi sono sottoposte ad un medesimo test; dai risultati raccolti
emerge che la classe A ha dato risultati superiori alla B. Conclusioni: l’espediente A dà migliori risultati del B.
Ora, immaginiamo che il giorno prima della verifica un ragazzo della classe B abbia compiuto gli anni e abbia dato una
festa, invitando i suoi compagni. Dunque i ragazzi della classe B il giorno prima della verifica non si sono esercitati e,
magari, si sono anche coricati un po’ più tardi del solito. A questo punto è giustificato il dubbio seguente: i migliori
risultati di A sono davvero da imputare al corrispondente espediente didattico? O piuttosto sono imputabili alle diverse
condizioni (non controllate dallo sperimentatore) in cui si sono presentati alla verifica i ragazzi della classe B?
Nell’esempio la circostanza non controllata potrebbe invalidare le conclusioni formulate dal ricercatore. La circostanza
fortuita del compleanno minaccia la validità interna della ricerca, nel senso che l’affermazione contenuta nelle
conclusioni del ricercatore non è esente da un fattore di disturbo.
Un elenco delle principali minacce alla validità interna più comunemente citate dai metodologi, con i corrispondenti
possibili rimedi, è fornito in § 2.3..
2. 1. 2. Validità esterna
Nel corso di una ricerca, sulla base dell’osservazione empirica condotta su un campione, si formula conclusivamente un
enunciato il quale conferma o smentisce l’ipotesi formulata nella fase iniziale della ricerca. In forza della
rappresentatività del campione utilizzato, tale enunciato si estende poi all’intero universo da cui il campione è stato
tratto. Si ha validità esterna quando la generalizzazione dal campione osservato alla popolazione universo è legittima.
Ovviamente la legittimità dell’estensione dei risultati è garantita nella misura in cui il sottinsieme osservato è
effettivamente rappresentativo dell’universo da cui è stato tratto, e questa è la prima ovvia condizione necessaria per
avere validità esterna. Tuttavia, come vedremo nel seguito, esistono diversi altri fattori che possono determinare un
maggiore o minore grado di generalizzabilità dei risultati, e ben precisi vincoli prudenziali da rispettare.
Ancora una volta esemplifichiamo.
Si supponga di coinvolgere alcuni docenti in una sperimentazione; alcuni somministreranno alle classi un trattamento
didattico ordinario, altri un trattamento sperimentale. In genere è difficile poter assegnare in modo casuale i docenti ai
diversi trattamenti, in quanto fra di essi vi è sempre una certa quota tendenzialmente diffidente nei confronti del nuovo,
così come ne esiste un’altra tendenzialmente incline ad accettare la novità (con spirito più o meno critico). Comunque
sia, di fatto spesso si verifica che siano i docenti stessi a scegliere per quale trattamento optare, e noi ci mettiamo in
questa ipotesi per completare l’esempio.
Ora supponiamo che, cifre alla mano, il trattamento sperimentale abbia fatto conseguire risultati migliori, e supponiamo
di avere buoni motivi per dire che questa conclusione è esente da fattori interni di disturbo; supponiamo cioè che vi sia
buona validità interna. Supponiamo inoltre che la campionatura delle classi sia stata condotta con rigore e che le classi
utilizzate siano effettivamente rappresentative di una certa popolazione scolastica (si noti che ciascuna delle
supposizioni fin qui fatte è piuttosto impegnativa; tuttavia prendiamo tutto per accertato). Ora si pone il problema di
vedere se l’affermazione «Il metodo X è migliore del metodo Y» è generalizzabile alla popolazione da cui è stato tratto
il campione. Se, come abbiamo ipotizzato, il campione è effettivamente rappresentativo della popolazione, sembrerebbe
di poter concludere di sì. Ma facciamo semplici e realistiche ipotesi aggiuntive (molto meno impegnative delle
precedenti): i docenti autoassegnati al trattamento sperimentale abbiano una particolare sensibilità pedagogica, per cui
non sia detto che lo stesso metodo darà lo stesso brillante risultato quando applicato da altri docenti; oppure: i docenti
del gruppo sperimentale siano maggiormente coinvolti da un punto di vista emotivo, mantenendo un alto livello di
entusiasmo e di motivazione a far bene, livello che magari loro stessi non sarebbero in grado di mantenere l’anno
successivo; oppure ancora: i docenti coinvolti siano coordinati (ma per quello che interessa il nostro discorso siano
osservati) da un esperto dell’IRRSAE; il fatto di essere sotto osservazione può indurre, anche inconsapevolmente, ad
assumere comportamenti ed atteggiamenti differenti da quelli che si assumerebbero in condizioni normali (cioè in
assenza di un osservatore).
Ciascuno dei casi riportati sopra costituisce un esempio di sottile minaccia alla validità esterna, in quanto rende dubbia
la generalizzabilità delle conclusioni della ricerca a situazioni diverse, pur in presenza, si badi bene, di un campione
rappresentativo.
Presentiamo ora una classificazione che può essere utile a chiarificare ulteriormente il concetto. La validità esterna può
dividersi in tre tipi: la validità di popolazione, la validità temporale e la validità ecologica.
Validità di popolazione. Si ha quando il campione è rappresentativo della popolazione universo. Si ricorderà (§ 1.4.2.)
che anche ammettendo di effettuare un campionamento il più possibile scrupoloso, sussiste sempre il problema della
non coincidenza fra la popolazione universo e la popolazione accessibile, e dunque di norma, anche nell’ipotesi che il
campionamento sia effettuato con tutti i crismi, la generalizzazione può essere estesa legittimamente solo alla
popolazione accessibile, mentre il salto inferenziale dalla popolazione accessibile alla popolazione universo non è
legittimo o quanto meno è problematico.
Validità temporale. Quando si effettua una generalizzazione occorre saper precisare entro quali limiti temporali essa è
legittima. Dicendo questo si allude a due diverse circostanze. La prima (e di più immediata comprensione) è che le
conclusioni raggiunte da una ricerca su una certa popolazione, diciamo di quindicenni di oggi, non sarà in generale
automaticamente valida per i quindicenni del prossimo secolo; anzi, probabilmente una generalizzazione ai quindicenni
del prossimo decennio e già un azzardo; le condizioni ambientali e umane in cui versiamo variano con progressione
esponenziale. La seconda circostanza ha effetti meno spettacolari ma ugualmente rilevanti; restiamo alla ricerca in
ambito scolastico condotta sul profitto di soggetti quindicenni; qualunque insegnante sa perfettamente che il profitto di
ragazzi in questa età ha rilevantissime variazioni stagionali (ad esempio nel periodo primaverile si ha un forte calo delle
capacità attentive e nell’applicazione) e che quindi di norma la generalizzazione dovrà tenere presenti queste
fluttuazioni. In generale possiamo dire di avere una buona validità temporale quando a) le generalizzazioni sono
sufficientemente indipendenti dal fattore temporale oppure b) quando una eventuale dipendenza dai fattori temporali è
precisata e circoscritta in modo esplicito.
Validità ecologica. Per chiarire infine cosa si intenda per validità ecologica ci si può riferire con profitto alle situazioni
illustrate sopra per esemplificare possibili minacce alla validità esterna. La conduzione degli esperimenti determina
spesso condizioni ecologiche (ambientali) un po’ artificiali, che possono causare nei soggetti uno snaturamento dei loro
comportamenti, che così non corrispondono più a quelli sviluppati in condizioni ambientali naturali (nel caso degli
esempi riportati sopra sono da considerarsi naturali le condizioni ambientali della didattica ordinaria e quotidiana).
Ebbene: si ha validità ecologica tanto maggiore quanto più le caratteristiche ambientali in cui si svolge la ricerca sono a)
controllate dal ricercatore e b) simili alle condizioni ambientali naturali della popolazione.
Nel seguente § 2.4. è riportato un elenco delle minacce di validità esterna più comunemente citate in letteratura ed i
corrispondenti possibili rimedi.
2. 1. 3. Validità statistica
Le tematiche coinvolte in questo tipo di validità sono ampiamente trattate nella Parte statistica del testo. Qui ci
limiteremo a qualche cenno essenziale.
E’ esperienza comune che la realtà empirica sia dominata dalla variabilità; ogni suo aspetto è cioè caratterizzato da una
ampia gamma di possibili modalità di manifestazione, da soggetto a soggetto. Da un punto di vista scientifico si
riconoscono nella variabilità del reale due componenti distinte: la prima è la variabilità casuale, non riferibile
precisamente a nessun fattore specifico, o (cosa del tutto equivalente) è sì riferibile a un complesso di fattori, ma così
inestricabilmente legati fra loro da nessi non noti o imprevedibili dalla nostra mente che l’effetto risultante è di fatto
ancora quello di variabilità casuale. Vi è poi una seconda componente di variabilità che invece è spiegabile, con le
nostre facoltà conoscitive, riferendosi a determinati fattori e opportuni nessi (causali), la cui esistenza riusciamo a
dimostrare attraverso la metodologia sperimentale.
Ebbene, si ha validità statistica quando la variabilità casuale dei soggetti è tenuta sotto controllo attraverso opportune
tecniche (illustrate dettagliatamente nella Parte statistica del testo), fondate sul calcolo della probabilità. In pratica si ha
validità statistica quando si è in grado di indicare percentualmente quale parte della variabilità osservata nei soggetti sia
imputabile a fattori ben precisi ed individuati dallo sperimentatore, e quale parte sia invece da imputare alla somma di
un numero imprecisabile di fattori indistinti interagenti, il cui esito è di fatto casuale.
2. 1. 4. Validità di costrutto
Nel precedente § 1.2.2. abbiamo visto che se il costrutto su cui si sta ricercando è ad un elevato livello di astrazione la
definizione operativa delle variabili può essere molto problematica, in quanto il divario esistente fra il livello astratto e
quello operativo tende ad essere piuttosto divaricato. Si è già detto che il rischio maggiore a cui ci si espone è quello di
individuare insiemi inadeguati di indicatori e quindi di giungere ad una definizione operativa delle variabili di scarsa o
nulla validità e attendibilità (nel senso precisato ancora una volta in § 1.2.2.). Per quanto riguarda la validità di
costrutto, essa è legata direttamente alla validità della definizione operativa delle variabili. In altre parole, si ha validità
di costrutto quando i vari elementi del processo sperimentale riflettono accuratamente il costrutto su cui si intende
indagare e non altre variabili.
Da quanto detto appare chiaro che si pone il problema di questo tipo di validità soprattutto quando si ha a che fare con
costrutti piuttosto impegnativi e quindi a livelli di ricerca avanzati. Visto il carattere introduttivo di questo manuale è
quindi fuori luogo un ulteriore approfondimento del pur importante concetto (per approfondimenti su questa tematica
vedi A. Pedon, 1995).
2. 2. Controllo
In linea generale possiamo affermare che il controllo è costituito dall’insieme di tutte le tecniche utili a garantire
validità alla ricerca, eliminandone o almeno riducendone il più possibile tutte le minacce. Essenzialmente le tecniche di
controllo sono catalogabili in due categorie generali: l’esperimento di controllo e il controllo sperimentale.
2.2.1. L’esperimento di controllo
Partiamo da un esempio: si desidera verificare l’efficacia di una nuova strategia didattica su un determinato
apprendimento cognitivo. Supponiamo di effettuare la verifica empirica sottoponendo un gruppo al nuovo trattamento
didattico e valutando poi l’esito dell’esperimento sulla base dei risultati conseguiti dal gruppo.
Purtroppo così facendo non si ha alcun termine di paragone per valutare l’efficacia del nuovo trattamento. Non di meno,
ricorrere ad un confronto con precedenti esperienze condotte sulla base del trattamento ordinario sarebbe poco corretto
per una quantità di diversi motivi; eccone esemplificati alcuni:
potremmo avere un ricordo delle esperienze passate distorto o non obiettivo; eventuali registrazioni documentarie
oggettive potrebbero essere lacunose; risulta difficile o addirittura impossibile comparare le condizioni ambientali e
storiche in cui si è svolta la nuova sperimentazione rispetto alle precedenti; i soggetti coinvolti nella nuova e nelle
passate esperienze didattiche (alunni e docenti) potrebbero avere qualità molto differenti; l’impegno nella conduzione
dei due percorsi didattici (tradizionale e sperimentale) potrebbe essere stato differente…
Insomma, vi sono mille buoni motivi per escludere la possibilità di un confronto oggettivo fra esperienze differite nel
tempo e di cui non sia controllata attentamente l’omogeneità in tutti gli aspetti. Occorre dunque che la comparazione
venga effettuata su due esperienze per cui tutte le circostanze che possono influenzare il risultato finale siano
sostanzialmente uguali e controllate. Il metodo migliore per ottenere questo risultato è quello di condurre ex novo e
contemporaneamente due esperienze didattiche; una con il metodo tradizionale, l’altra col metodo sperimentale. Nella
conduzione delle due esperienze sarà compito dello sperimentatore di vigilare affinché le condizioni che fanno da
cornice alle due esperienze siano in tutto e per tutto equivalenti.
Ma non basta: come è possibile confrontare risultati prodotti da gruppi di soggetti differenti? Chi assicura che, in caso
di migliori esiti del trattamento didattico sperimentale, ciò non sia dovuto ai particolari soggetti del gruppo sperimentale
(magari più intelligenti, più diligenti, più preparati, più motivati, con condizioni familiari più favorevoli…)?
E’ dunque necessario premunirsi garantendo in qualche modo a priori che anche i due gruppi di soggetti coinvolti
nell’esperimento siano equivalenti, almeno sotto quegli aspetti che si ritengono rilevanti ai fini dell’esperienza di
apprendimento che sta per essere intrapresa. Abbiamo già visto in § 1.4.6. alcune tecniche idonee allo scopo.
La situazione descritta nell’esempio può ora essere ripresa in termini più formalizzati.
Quando si pone sotto osservazione un nesso causale fra due variabili V1 (trattamento)e V2 (risultato) e si desidera essere
certi che il nesso sia effettivo ed esente da fattori di disturbo o confusione (ciò equivale a garantire validità interna alla
ricerca), si ricorre all’esperimento di controllo, cioè ad una sperimentazione condotta contemporaneamente con due
gruppi equivalenti di soggetti, uno sottoposto al trattamento sperimentale, l’altro, detto di controllo, sottoposto al
trattamento ordinario. La valutazione conclusiva potrà allora essere fatta confrontando direttamente i risultati finali.
In certe circostanze può essere utile fare in modo che il gruppo di controllo coincida col gruppo sperimentale, sia cioè
costituito dagli stessi soggetti, i quali vengono esposti in successione temporale a tutti e due i trattamenti. L’idea è che
in questo caso si ha massima garanzia della perfetta equivalenza fra i due gruppi. In pratica ogni soggetto funge da
controllo di se stesso. La certezza dell’equivalenza dei gruppi si paga tuttavia con un nuovo elemento di incertezza:
nessuno potrà escludere (a meno di sperimentazioni più sofisticate) che l’apprendimento finale non sia almeno in parte
imputabile alla ripetuta esposizione a più trattamenti didattici (vedi il successivo § 2.3.7.).
La problematica è qui solo adombrata e verrà sviluppata successivamente in § 4.3..
2.2.2. Il controllo sperimentale
Col termine di controllo sperimentale si indica il complesso di tutte quelle tecniche poste in atto dallo sperimentatore
nel corso dell’esperimento, al fine di tenere sotto stretta osservazione le variabili, i loro reciproci nessi e gli effetti di
disturbo che possono inquinare il quadro dei risultati finali e quindi minacciare la validità complessiva della ricerca.
A questo aspetto è dedicata la restante parte di questo capitolo in cui vengono presentate diverse tecniche di controllo in
relazione alle corrispondenti minacce di validità.
In questo paragrafo ci limiteremo ad un veloce accenno ad un aspetto specifico del controllo sperimentale che per
motivi di ordine espositivo non trova adeguata collocazione nei paragrafi successivi.
Alludiamo qui alle problematiche connesse alla misurazione delle risposte dei soggetti sperimentali (in parte già
affrontate in § 1.2.2.); per avere un buon controllo sperimentale è indispensabile che tali misurazioni siano:
a) oggettive, cioè indipendenti dal soggetto che valuta;
b) valide, cioè che misurino effettivamente quello che intendono misurare e non altro;
c) attendibili, cioè ripetibili e fedeli;
d) sensibili, cioè capaci di raccogliere la maggior quantità possibile di informazione.
2. 3. Principali minacce di validità interna e possibili rimedi
2. 3. 1. Storia
Si tratta di eventi storici esterni all’ambiente sperimentale che possono avere rilevanti influenze sul comportamento dei
soggetti nell’ambito della sperimentazione. Ad esempio: una forzata e prolungata sospensione dell’attività didattica a
causa di eventi atmosferici; un evento di forte disturbo in concomitanza ad una importante prova di verifica, come un
evento luttuoso; un improvviso cambio nelle abitudini di lavoro scolastico dovuto alla modifica di un regolamento, o
all’apertura di nuove infrastrutture, come una biblioteca o un laboratorio…
Se uno (o più) di questi eventi dovesse accadere nella fase centrale della sperimentazione (vale a dire fra la rilevazione
della situazione iniziale e quella dei risultati finali, cioè nel corso della somministrazione del trattamento) potrebbe
influenzarne positivamente o negativamente i risultati (a seconda che si tratti di un evento favorevole o sfavorevole), in
modo tale che potrebbe indurre il ricercatore a trarre conclusioni sbagliate o comunque non del tutto affidabili. Per
meglio dire: un esito positivo (o negativo) della sperimentazione potrebbe erroneamente essere imputato al solo
trattamento, mentre in realtà l’evento storico potrebbe aver influito sul risultato finale, magari anche pesantemente. In
questo senso si tratta chiaramente di una minaccia di validità interna.
Un esempio relativo all’effetto storia è quello descritto in § 2.1.1..
Occorre adesso fare attenzione ad una circostanza importante: quando si parla di effetto della storia (o della storia
attuale), non ci si riferisce alle storie individuali dei singoli soggetti sperimentali, perché queste influiscono solo sui
risultati conseguiti singolarmente dai soggetti stessi. Ora, siccome si suppone che gli eventi individuali si distribuiscano
casualmente, ed i corrispondenti effetti possono essere sia positivi che negativi, possiamo affermare che gli eventi sui
singoli soggetti tendono a compensarsi reciprocamente, e quindi l’effetto medio complessivo sulla sperimentazione è
tendenzialmente nullo. L’unica conseguenza di questi eventi (per altro ineliminabili, per ovvie ragioni) è un aumento
della variabilità casuale (vedi il precedente § 2.1.3.), ma ciò non minaccia la validità interna.
Invece è una forte minaccia per la validità interna un evento (negativo o positivo) a cui siano esposti tutti i soggetti (o la
maggior parte di essi) perché in tal caso non avremmo effetti casuali di natura opposta che tenderebbero a compensarsi
reciprocamente, ma uno stesso effetto (positivo o negativo) che tenderebbe a migliorare o peggiorare la situazione di
tutti (o della maggior parte).
Gli eventi storici possono influenzare notevolmente l’esito di una ricerca, e nelle valutazioni finali occorre tenerle in
debito conto. Tuttavia, nei limiti del possibile, è sempre meglio cercare di prevedere tali eventualità perché le loro
conseguenze sull’andamento dell’esperimento non sempre sono valutabili con esattezza.
A questo scopo vediamo qualche tecnica di controllo per la prevenzione di questo effetto indesiderato. Ovviamente il
fattore decisivo è il tempo; più dura la fase che coinvolge i soggetti sperimentali e più si è esposti al rischio di qualche
evento storico rilevante. Il primo ovvio rimedio alla minaccia dovuta alla storia è dunque quello di tenere, ove possibile,
tempi sperimentali brevi. Questo nella ricerca pedagogica non sempre è possibile, in quanto spesso accade che i tempi
della sperimentazione si misurino in unità di anni scolastici, specialmente per quelle sperimentazioni che lavorano sul
curricolo. In tal caso si può tentare di parcellizzare il piano e gli obiettivi della ricerca, in modo da individuare e
realizzare una successione di tappe concettualmente e temporalmente ben delimitate e concluse; in particolare, i
momenti sperimentali più forti (come la somministrazione della parte saliente di un trattamento, o quella della verifica
oggettiva, o dell’applicazione di un determinato sussidio…) è meglio che si articolino in sessione unica; quando questo
non sia possibile occorre cercare di abbreviare i tempi di intervallo (per ridurre ancora una volta la possibilità di eventi
storici rilevanti per il complesso dei soggetti sotto osservazione).
2. 3. 2. Maturazione
Se i tempi di un esperimento sono lunghi (ad esempio un anno scolastico o una sua frazione significativa) occorre tenere
presente che i soggetti sperimentali sono sottoposti ad un naturale processo di maturazione (organica e psichica)
indipendente dalla sperimentazione stessa; gli effetti di tale processo sull’esperimento possono essere molto differenti a
seconda del periodo evolutivo dei soggetti. Se ad esempio si studia un certo apprendimento cognitivo, il naturale
processo di maturazione psichica comporta per lo più effetti positivi (una acquisita maggiore capacità di
concentrazione, nei primi anni di scuola elementare) ma talvolta gli effetti possono essere anche negativi (si pensi al il
subentrare di tematiche esistenziali di forte disturbo nella fase adolescenziale).
Dunque lavorando su soggetti in età evolutiva non si può mai essere certi che l’esito della sperimentazione non sia
almeno parzialmente influenzato dalla maturazione piuttosto che dal particolare trattamento didattico cui sono sottoposti
i soggetti.
Anche nel caso dell’effetto maturazione il fattore tempo è decisivo. E’ possibile quindi mettere in atto gli stessi
accorgimenti suggeriti per rimediare alle minacce dovute alla storia, salvo che mentre gli effetti dovuti alla storia sono
imprevedibili, gli effetti della maturazione sono in genere progressivi e costantemente in atto.
Questa caratteristica permette un tipo di controllo che consiste in un monitoraggio costante della variabile sottoposta a
processo di maturazione. Supponiamo ad esempio che si vogliano tenere controllati gli effetti dovuti al progressivo
incremento della capacità di concentrazione; in tal caso basta somministrare periodicamente dei reattivi appositi e tenere
costantemente registrati, per ogni soggetto, i punteggi conseguiti nelle prove di concentrazione. Apposite tecniche
statistiche (ANCOVA, vedi § 8. 5. 1.– 4. della Parte statistica) permettono poi di valutare correttamente le prove
oggettive sperimentali tenendo conto dei risultati dei test di controllo sulla concentrazione.
E’ inoltre possibile evidenziare gli effetti di maturazione e scorporarli dagli effetti del trattamento utilizzando un gruppo
di controllo che sia esposto agli stessi processi di maturazione, ma a cui non verrà somministrato il trattamento.
2. 3. 3. Regressione statistica
Per comprendere l’effetto della regressione statistica occorre anticipare almeno in modo descrittivo informale alcuni
concetti relativi alla distribuzione normale presentati con maggiore estensione nel Cap. 2 della Parte statistica.
Partiamo da un esempio: per mezzo di una prova strutturata piuttosto ampia ed articolata abbiamo fatto una indagine
relativa alle capacità matematiche di soggetti appartenenti ad una data popolazione scolastica, diciamo gli alunni delle
prime classi di un grosso istituto; la popolazione è stata osservata in modo esaustivo, cioè si sono misurati tutti i
soggetti. Dopo aver calcolato il punteggio medio, poniamo che sia 50, si elabora un istogramma per evidenziare quanti
siano i soggetti per ciascuna delle diverse fasce di punteggio che abbiamo stabilito. Non occorre una preparazione
statistica particolare per capire che il grosso dei soggetti si collocherà nella fascia di punteggio medio, diciamo nella
fascia fra 45 e 55; se poi ci allontaniamo dal punteggio medio e guardiamo quanti sono i soggetti con punteggio poco
sotto e poco sopra la media (35-45 e 55-65), noteremo che i due nuovi gruppi di soggetti numericamente sono
all’incirca uguali fra loro, e comunque in numero inferiore rispetto a quelli della fascia media; considerando poi fasce di
punteggio ancora più lontane dalla media (diciamo 25-35 e 65-75) ancora una volta avremo due gruppi di consistenza
numerica simile fra loro ma inferiore a quella delle fasce considerate prima. Continuando di questo passo potremo
constatare che i gruppi con punteggi estremi, cioè sia quelli eccellenti (95-100) che quelli scarsissimi (0-5) saranno
costituiti da pochissimi soggetti. Questo si esprime dicendo che i punteggi estremi (cioè quelli più lontani dal punteggio
medio) sono poco frequenti o poco probabili. Analogamente, se facessimo una statistica delle altezze avremmo
pochissimi giganti e pochissimi nanetti; ed ancora se indagassimo sui pesi corporei osserveremmo pochissimi obesi e
pochissimi cachettici. Questi esempi servono a chiarire la proprietà per cui più ci si allontana dai valori medi e più si
riducono le corrispondenti probabilità o le frequenze; questa è una caratteristica generale comune alla gran parte delle
distribuzioni di misure di qualsiasi tipo. Riassumendo: più ci allontaniamo dal valore medio e più calano le probabilità
di trovare soggetti con quella misura.
Ritorniamo ora alla indagine sulle capacità matematiche degli alunni delle prime classi di un istituto. Ogni insegnante sa
che un questionario non può essere uno strumento di misura perfettamente stabile, nel senso che somministrato una
seconda volta potrebbe non dare esattamente gli stessi risultati per ogni soggetto. Supponiamo dunque di somministrare
il questionario una seconda volta agli stessi soggetti, dopo un lasso di tempo sufficiente a far dimenticare a ciascuno le
risposte date nel corso della prima somministrazione. E’ ragionevole aspettarsi che i punteggi nuovi non coincidano
perfettamente con quelli conseguiti nella prima somministrazione.
Concentriamo la nostra attenzione sui soggetti con punteggi estremi.
Un soggetto nella prima prova aveva preso 98; nella seconda prova cosa ci aspettiamo che prenda? lo stesso punteggio,
uno superiore o uno inferiore? Partendo da 98, migliorare il punteggio significherebbe andare da un punteggio già di per
sé poco probabile ad uno ancora meno probabile (perché ancora più lontano dalla media); peggiorare il punteggio
significherebbe passare ad un punteggio un po’ meno improbabile (in quanto ci avvicineremmo alla media). Dunque,
relativamente al soggetto che nella prima somministrazione aveva raggiunto il punteggio 98, il calcolo della probabilità
suggerisce che in presenza di sole fluttuazioni casuali se cambiamento ci deve essere, è più probabile che sia un (lieve)
peggioramento.
Passiamo ora ai punteggi scadenti estremi: cosa è più probabile che ottenga nella seconda prova un soggetto che nella
prima prova aveva conseguito il punteggio 4? Per ragioni simmetriche a quelle del caso precedente, se vi è fluttuazione
casuale è più probabile che si passi a punteggi leggermente superiori (diciamo 5, 6, 7…) che, essendo meno lontani dal
punteggio medio, sono più probabili.
Attenzione: fra la prima e la seconda prova non si è ipotizzato nessun trattamento, e le fluttuazioni nei punteggi sono da
attribuirsi esclusivamente a fattori casuali.
In sintesi possiamo concludere dicendo che quando uno strumento di misurazione (un questionario o un reattivo) non è
perfettamente stabile (praticamente sempre) nel corso di una somministrazione ripetuta le misure sono soggette a
fluttuazioni casuali che fanno sì che i punteggi tendano probabilisticamente ad avvicinarsi al punteggio medio. Questa
circostanza è nota col termine di regressione statistica verso la media, o semplicemente regressione statistica. Per il suo
effetto, nel corso di misurazioni successive i punteggi più scadenti pur rimanendo tali tenderanno ad essere leggermente
migliori e analogamente i punteggi eccellenti, pur mantenendosi su quei livelli, tenderanno a essere un po’ meno alti
(per approfondimenti sullo sfuggente concetto di regressione statistica vedi P. Scilligo, 1975).
Si tratta ora di comprendere perché la regressione statistica costituisca una minaccia di validità interna ed in quali
circostanze.
Spesso nella sperimentazione didattica vi è un confronto fra le misure ottenute prima e dopo un determinato
trattamento. Nella ripetizione delle misure fra prima e dopo si verifica la regressione statistica. Per i soggetti che
occupano le posizioni centrali della distribuzione la regressione statistica non è un grosso problema. Diversa è la
situazione per i soggetti con punteggi estremi; supponiamo ad esempio che nella misurazione effettuata dopo il
trattamento si noti un miglioramento dei punteggi dei soggetti peggiori; prima di concludere che il trattamento migliora
la situazione dei peggiori (sarebbe un risultato davvero importante!) occorre accertarsi che ciò non sia una pura illusione
dovuta all’effetto della regressione verso la media. Analogamente, considerazioni affrettate ed incaute potrebbero
magari portare a concludere che il trattamento è sì utile nei casi peggiori, ma è parimenti dannoso per i migliori; ma
ancora potremmo essere in presenza di una pura regressione verso la media e non di un peggioramento dei migliori
dovuto al trattamento.
La minaccia di validità interna dovuta alla regressione statistica non è in genere preoccupante quando si sperimenta su
soggetti nella media o non lontani da essa. Assume invece dimensioni più rilevanti quando si sperimenta su popolazioni
estreme.
Per tenere sotto controllo l’effetto della regressione statistica occorre estrarre dalle code estreme della popolazione
anche un campione di controllo che non venga sottoposto a trattamento; è così possibile vedere nelle differenze fra
prima ed ultima prova quale sia la parte di variazione imputabile alla regressione statistica e quale al trattamento.
Ovviamente il problema non sussiste se si sperimenta solo su soggetti estremi (solo sui bravissimi o solo su quelli molto
scarsi) perché in tale caso i punteggi (eccellenti o scarsi che siano) sono nella media del gruppo osservato; ciò
naturalmente a patto che tutti i reattivi siano tarati sulle prestazioni medie del gruppo osservato (anche in questo caso
avremmo comunque marginali problemi di regressione, ma solo fra i più bravi dei bravi e fra i più scarsi degli scarsi).
2. 3. 4. Selezione
Si intende qui fare riferimento alle problematiche connesse con la selezione dei soggetti per la sperimentazione nel
corso del campionamento. I principali elementi di disturbo in fase di selezione sono due.
Il primo: se i soggetti sono scelti per adesione volontaria (nella sperimentazione scolastica è quasi la regola quando i
soggetti sono gli insegnanti) il quadro dei risultati finali può essere fortemente inquinato, principalmente a causa di una
probabile forte motivazione all’innovazione didattica dei soggetti che hanno concesso la loro disponibilità.
Il secondo: se in una sperimentazione con due gruppi ( vedi § 4.2.1. e § 5.2.) quello sperimentale non è perfettamente
equivalente al gruppo di controllo sotto tutti gli aspetti rilevanti per la ricerca, non è detto che i risultati finali della
sperimentazione siano attribuibili al trattamento sperimentato.
La minaccia è neutralizzata nella misura in cui vengono posti in atto correttamente i criteri di campionamento e di
assegnazione (con molte cautele per quanto riguarda le tecniche di bilanciamento, che vanno utilizzate solo in caso di
comprovata validità ed attendibilità dei reattivi utilizzati) descritte in § 1.4.6..
2. 3. 5. Mortalità
E’ il fenomeno per cui nel corso della sperimentazione si verifica una perdita progressiva dei soggetti sperimentali
dovuta ad abbandono. Il problema non è tanto una questione di numeri che si assottigliano (per quanto talvolta la
perdita di soggetti possa assumere consistenza numerica preoccupante); piuttosto si tratta del fatto che la perdita può
essere selettiva e non casuale. Ciò significa che spesso i soggetti persi non sono soggetti qualsiasi, ma tutti appartenenti
a date categorie, che in qualche modo potrebbero essere connesse al trattamento sperimentato. Questo è un grave
handicap per la ricerca, in quanto non vengono rilevati gli effetti del trattamento su una intera tipologia di soggetti.
Una incauta conclusione da parte del ricercatore potrebbe ad esempio affermare l’efficacia di un trattamento, perché
tutti i soggetti che hanno portato a termine l’esperimento hanno dato risposte positive. Ma se coloro che hanno
abbandonato fossero rimasti nella partita, i risultati complessivi sarebbero magari stati complessivamente inferiori.
E ancora, chi assicura che gli abbandoni non siano riferibili al trattamento stesso (cosa che spesso succede quando i
soggetti sperimentali sono adulti che hanno facoltà di abbandonare l’esperimento)?
Anche questa volta la minaccia di validità è strettamente connessa al fattore tempo (nel senso che più dura la
sperimentazione e più crescono le probabilità di abbandono) e quindi anche in questo caso è possibile rimediare con
tempi stretti nella sperimentazione. Occorre tuttavia segnalare la possibilità di ottenere statisticamente stime dei valori
mancanti, a causa di abbandono della sperimentazione da parte di un soggetto, attraverso tecniche di regressione (vedi il
Cap. 8 della Parte statistica); in tal caso occorre tuttavia che i dati raccolti con i rimanenti soggetti mostrino una ottima
correlazione fra le variabili (vedi ancora il Cap. 8 della Parte statistica) e che l’abbandono non sia precoce.
2. 3. 6. Interazione fra gli effetti precedenti
Oltre agli effetti di disturbo elencati sopra e presi singolarmente, occorre precisare che spesso due o più di essi possono
sovrapporsi con esiti non semplicemente sommativi, dando luogo alla cosiddetta interazione.
Un esempio di interazione fra selezione e maturazione: se i soggetti sperimentali sono selezionati da due differenti fasce
di età, facilmente i processi di maturazione saranno in fasi differenti, per cui solo i soggetti di una certa età potrebbero
evidenziare l’effetto della maturazione.
Un esempio di interazione fra selezione e mortalità: i soggetti sperimentali potrebbero essere reclutati per adesione
volontaria ma non in numero sufficiente; per raggiungere la numerosità del campione stabilita supponiamo sia
necessario incentivare (economicamente o in altra forma) gli ultimi soggetti; in tal caso potremmo avere mortalità
differenziata fra volontari ed incentivati.
Un esempio di interazione fra storia e maturazione: alcuni dei soggetti potrebbero avere in atto un processo di
maturazione che li espone più di altri (già maturati o ancora da maturare) ad essere sensibili ad un evento storico.
2. 3. 7. Effetti dell’ordine e della sequenza
Si possono avere quando in un esperimento ogni soggetto deve essere sottoposto a più trattamenti in successione.
L’effetto dell’ordine è quello per cui il risultato finale dell’esperimento è condizionato dal particolare ordine in cui il
soggetto è sottoposto ai trattamenti; cioè: ad ordinamenti differenti dei trattamenti possono corrispondere risultati finali
differenti.
L’effetto della sequenza invece non si manifesta sul soggetto al termine di tutti i trattamenti come risultato globale; è
piuttosto un effetto che si può manifestare al termine dei singoli trattamenti, in dipendenza dei trattamenti
immediatamente precedenti. Un esempio classico è quello del cosiddetto effetto contrasto: se il soggetto è stato
precedentemente esposto a percezioni piuttosto intense (ad esempio uditive, con forti rumori) e poi è bruscamente
esposto a percezioni di intensità inferiore (ad esempio a rumori di media intensità) per contrasto le nuove percezioni
saranno soggettivamente giudicate molto inferiori alla loro reale intensità (i rumori saranno giudicati non medi bensì
leggeri).
E’ possibile rimediare parzialmente alle minacce di validità derivanti dall’effetto della sequenza lasciando opportuni
intervalli temporali fra una prova e la successiva (intervalli che tuttavia non devono essere così ampi da esporre ai rischi
legati al fattore tempo precedentemente esaminati).
Per quanto invece riguarda l’effetto dell’ordine esistono appositi disegni sperimentali detti a blocchi descritti in § 4.3.2..
2. 4. Principali minacce di validità esterna e possibili rimedi
2.4.1. Minacce alla validità di popolazione
Si è già detto in § 2.1.2. che il primo vincolo di validità esterna è dato dalla rappresentatività del campione. Da quanto
detto segue direttamente che la prima e migliore garanzia di validità esterna è l’ossequio scrupoloso delle regole di
campionamento, ricordando in particolare che la generalizzazione è di norma possibile solo con la popolazione da cui è
stato estratto il campione: se ad esempio il campione è stato estratto a livello provinciale, o regionale, o nazionale, di
norma la generalizzazione può essere effettuata a livello rispettivamente provinciale, o regionale, o nazionale.
La regola non è rigida, ma è un buon punto di riferimento; essa risulta tanto più vincolante quanto più le variabili di
interesse hanno una distribuzione geografica differenziata. Se ad esempio si sta ricercando sulle aspettative di lavoro
presso i giovani in età scolare, un campione prelevato su base regionale (qualunque sia la regione) non permette
assolutamente estensioni a livelli territoriali superiori, in quanto sappiamo che le opportunità di lavoro sono
estremamente differenziate sul territorio nazionale.
Si ricordi inoltre che in ogni generalizzazione occorre tenere sempre ben presente il divario tra popolazione accessibile
e popolazione universo.
2.4.2 Minacce alla validità temporale
Per quanto riguarda quegli elementi di invalidità temporale legati all’evoluzione del contesto sociale in cui la ricerca è
stata condotta vi è un semplice ed ovvio rimedio, che consiste nel ripetere la sperimentazione (o se possibile quelle sole
parti che si suppongono influenzate dal nuovo contesto sociale che si è venuto a determinare) in modo da verificare
direttamente la validità attuale delle conclusioni allora raggiunte (da qui si capisce una volta di più l’importanza di
relazionare dettagliatamente la ricerca in ogni suo aspetto in fase di comunicazione dei risultati come detto in § 1.6.).
Ancora a proposito di validità temporale § 2.1.2. abbiamo esemplificato una situazione in cui si ipotizza un forte
disturbo legato al ciclo stagionale: i risultati della ricerca sperimentale condotta nel periodo primaverile si possono
estendere ad un periodo stagionale differente? Anche relativamente alle minacce di validità temporale legate alla
ciclicità di alcuni aspetti essenziali nella ricerca, le tecniche di controllo sono simili ed intuitive: nel caso dell’esempio il
più semplice rimedio alla minaccia di validità temporale è quello di ripetere almeno nelle fasi salienti la
sperimentazione nei differenti periodi dell’anno.
2. 4. 3. Minacce alla validità ecologica
Esempi concreti sono già stati fatti in § 2.1.2. illustrando il concetto generale di validità esterna.
Possiamo riferirli a quelli che in letteratura sono catalogati come:
- effetto novità (in cui almeno una parte dell’effetto positivo del trattamento è legata al fatto che i soggetti rispondono
positivamente perché percepiscono una stimolante novità);
- effetto Hawthorne (un soggetto che sa di essere osservato dallo sperimentatore può anche inconsapevolmente
modificare i propri comportamenti naturali);
-
effetto John Henry (i soggetti dei gruppi sperimentali tendono ad offrire più o meno inconsciamente prestazioni
migliori rispetto ai soggetti del gruppo di controllo, per il solo fatto di essere consapevoli di stare nel gruppo
sperimentale).
Vi sono poi numerosi altri effetti riferiti nel complesso come effetti dovuti ai soggetti, studiati in particolare dalla ricerca
psicologica, legati alla presenza di uno sperimentatore ed alle sue caratteristiche psicologiche, professionali e
personologiche; tali effetti tendono comunque ad indurre modificazioni nelle risposte agli stimoli da parte dei soggetti
sperimentali (legate per lo più al maggiore o minore grado di affinità che il soggetto osservato percepisce rispetto allo
sperimentatore che lo osserva, affinità che può riguardare aspetti che vanno dal sesso alla provenienza geografica, dallo
stile personale più o meno coinvolgente al modo di abbigliarsi…).
Vi sono poi gli effetti di distorsione della percezione da parte dello sperimentatore legati alle sue aspettative; sono gli
stessi noti effetti a cui è soggetto ogni docente nel momento della valutazione: effetto alone, effetto Pigmalione, effetto
contrasto, effetto proiezione.
Fra le tecniche di controllo degli effetti dovuti ai soggetti vale la pena di richiamare le due tecniche denominate del
singolo cieco e del doppio cieco. La prima consiste nel tenere all’oscuro i soggetti sperimentali dello scopo
dell’esperimento e delle sue modalità di svolgimento, quando si teme che l’eventuale conoscenza possa causare in essi
reazioni non previste o non prevedibili, che potrebbero vanificare in parte o del tutto il piano sperimentale. La seconda
comporta che anche coloro i quali operano in collaborazione con lo sperimentatore, e sono a contatto coi soggetti, siano
all’oscuro di uno o più dettagli essenziali (noti solo allo sperimentatore, che però non ha contatti diretti coi soggetti); ciò
permette di evitare che eventuali comportamenti inconsci di chi sta a contatto con i soggetti possano influenzarne le
risposte allo stimolo sperimentale.
Ancora, fra le tecniche che servono a limitare l’effetto dello sperimentatore sui soggetti occorre citare almeno
l’automazione. Si tratta di ricorrere a tecnologie computerizzate atte ad impartire ai soggetti le istruzioni via monitor, in
modo imparziale ed asettico, in modo da garantire che le istruzioni e le loro modalità di comunicazione siano
assolutamente uguali per tutti i soggetti. Nello specifico della ricerca in campo pedagogico è possibile, attraverso
strumenti multimediali appositamente predisposti dallo sperimentatore, impartire vere e proprie lezioni computerizzate,
in modo da garantire l’assoluta indipendenza dalla variabile docente (diversi docenti impartiscono diverse lezioni) o
dalla variabile lezione (lo stesso docente in momenti differenti può impartire sullo stesso argomento diverse lezioni). La
tecnica dell’automazione attraverso strumenti multimediali può garantire inoltre un controllo perfetto su tutte le
variabili che concorrono a definire la tipologia di una lezione, permettendo di sperimentarne efficacemente ciascuno dei
diversi fattori mantenendo fissi (e perfettamente sotto controllo) tutti gli altri: allo scopo basterà di volta in volta
modificare nella lezione multimediale informatizzata quell’aspetto (e solo quello) di cui si desidera cercare le modalità
didatticamente più efficaci.
2.4.4. Altre minacce alla validità esterna
Riportiamo infine in questo paragrafo altre due tipiche minacce di validità esterna non direttamente riferibili alle tre
tipologie precedenti.
Sensibilizzazione al pre–test e/o al post–test. Come vedremo nel Cap. 4, i piani sperimentali comportano spesso un pre–
test per accertare la situazione iniziale, un trattamento (di cui si desidera testare l’efficacia) ed un post–test che rileva i
risultati finali; questi ultimi sono confrontati con quelli iniziali, e se il riscontro è positivo il trattamento viene dichiarato
efficace. Chi sulla base dei risultati della ricerca si converte al nuovo trattamento non ha più bisogno di controllarne
l’efficacia e quindi non sottopone (di norma) i propri soggetti al pre–test ma direttamente al trattamento. Ora, talvolta
accade che presso i soggetti la somministrazione del pre–test ed il suo esito interagiscano positivamente col trattamento
e ne determinino almeno in parte il successo. In tal senso si dice che talvolta l’esposizione ad un pre–test può
minacciare la validità esterna. Quando così fosse, il trattamento dovrebbe essere esportato globalmente (pre–test
compreso) per mantenere la propria validità. Esiste un disegno sperimentale, denominato disegno di Solomon e
descritto in § 4.2.3. che permette di verificare efficacemente quando si verifica l’effetto del pre–test. Analogo effetto
può presentarsi nei confronti del post–test: ciò accade quando l’effetto del trattamento, o un suo particolare aspetto,
rimane ad uno stato latente, ed è solo attraverso il post–test che perviene ad un livello effettivo ed esplicito di coscienza.
Definizione ambigua delle variabili. Talvolta succede che nella definizione operativa di una variabile riferita ad un
costrutto concettuale molto astratto il ricercatore sia impreciso o ambiguo; una buona definizione operativa richiede una
adeguata e attenta considerazione di una pluralità di fattori che devono essere esplicitamente dichiarati in modo non
equivoco. Questa condizione è irrinunciabile per due motivi: il primo è che altrimenti l’esperimento è di fatto
irripetibile e quindi non sottoposto al vaglio di un controllo da parte della comunità scientifica; il secondo motivo sta nel
fatto che se le variabili sono esposte ad un margine di ambiguità nella loro interpretazione, ciascuno potrà leggere nelle
conclusioni della ricerca una cosa diversa, con ovvie conseguenze negative sotto il profilo della validità esterna.
2. 5. Principali minacce di validità statistica e possibili rimedi
Ci limiteremo a brevi accenni, visto che l’argomento è pienamente sviluppato nella Parte statistica del testo.
La validità statistica definita in § 2.1.3. è sostanzialmente legata alla correttezza dei metodi statistici impiegati. In
particolare vi sono due possibili minacce di validità.
La prima e più intuitiva riguarda l’eventuale violazione delle assunzioni che stanno alla base di un determinato test
statistico. In pratica, come si vedrà nella Parte statistica, ogni procedura di calcolo parte da determinati presupposti
impliciti; nel caso in cui la realtà empirica a cui si applica la procedura non si adatti a tali presupposti (siano cioè violate
le assunzioni del test) i risultati dell’elaborazione statistica (e quindi i risultati della ricerca) sono inaffidabili. Più
precisamente è poco affidabile il calcolo che quantifica percentualmente le quote di variabilità, casuale e non, insite nei
dati. Ne segue l’obbligo di controllare, ogni volta che si usa un test, che le assunzioni su cui si basa siano rispettate.
Una seconda e più sottile minaccia alla validità statistica è legata ai concetti di errore statistico del primo e del secondo
tipo, di potenza di un test e di livello di significatività (Cap. 4 della Parte statistica). Qui ci accontenteremo di esprimere
la minaccia alla validità statistica in modo intuitivo ed attraverso un linguaggio piuttosto informale, rimandando alla
lettura dei paragrafi indicati per una formulazione più formalizzata. In sostanza si tratta di trovare il giusto equilibrio fra
il rischio di far dire ai dati meno di quanto possano (arrivando cioè a conclusioni eccessivamente prudenti), e viceversa
il rischio di far dire ai dati più di quanto possano (formulando conclusioni decisamente avventate). La chiave di questo
equilibrio è quella di scegliere test di adeguata potenza, dove per potenza possiamo (per il momento, ed in modo del
tutto informale ed intuitivo) intendere questo: un test statistico è tanto più potente quanti meno soggetti è necessario
osservare per giungere a conclusioni con un assegnato livello di affidabilità (per una nozione formalizzata di potenza di
un test vedi § 4.3.2. della Parte statistica).