Materiali III Modulo I parte - Disegni pre

Transcript

Materiali III Modulo I parte - Disegni pre
Estratto da D.T. Campbell, J.C, Stanley, Disegni sperimentali e quasi-sperimentali per la ricerca
La nozione di validità interna
La validità interna è il requisito minimo necessario, senza il quale l’esperimento non può essere
interpretato. Essa pertiene al controllo dell’esistenza di un’effettiva connessione tra il trattamento
sperimentale e un dato effetto empiricamente rilevabile. La nozione di validità interna è introdotta dalla
domanda: in questo caso specifico, il trattamento sperimentale ha effettivamente determinato una differenza?
In altre parole, la differenza osservata tra lo stato di un dato oggetto al tempo t0 e lo stato dello stesso oggetto
al tempo t2 è effettivamente imputabile allo specifico trattamento sperimentale al quale l’oggetto in questione
è stato sottoposto al tempo t1, o tale differenza avrebbe comunque avuto luogo anche in assenza del
trattamento sperimentale la cui efficacia si intende valutare?
La nozione di validità esterna
La validità esterna riguarda la possibilità di generalizzare i risultati sperimentali: a quali
popolazioni, contesti, variabili di trattamento e variabili di misurazione questo effetto può essere
generalizzato? Detto altrimenti, i risultati ottenuti mediante un dato esperimento, e dotati di validità interna,
possono essere generalizzati?
Ovviamente, entrambi i requisiti sono importanti, anche se spesso entrano in contrapposizione, nel
senso che gli elementi che soddisfano l’uno possono mettere a repentaglio l’altro. Se, da una parte, la validità
interna è la conditio sine qua non, e la questione relativa alla validità esterna, così come quella relativa
all’inferenza induttiva, non è mai interamente risolvibile, dall’altra, l’individuazione di disegni capaci di
fornire delle garanzie con riferimento tanto al primo quanto al secondo tipo di validità rappresenta,
naturalmente, il nostro ideale.
I fattori della validità/invalidità interna ed esterna
Possono essere considerati 8 differenti classi di fattori esterni, rilevanti ai fini della validità interna, i
quali, se non controllati nell’ambito del disegno sperimentale, potrebbero produrre effetti tali da potersi
confondere con l’effetto dello stimolo sperimentale. I fattori in questione sono i seguenti:
1. il fattore storia, ossia l’insieme degli eventi specifici che intervengono fra la prima e la seconda
misurazione in aggiunta alla variabile sperimentale;
2. il fattore maturazione, ossia i processi di maturazione interna dei soggetti che si sottopongono
all’esperimento, che operano come funzione del semplice trascorrere del tempo (non
specificatamente legati a eventi particolari) e che comprendono, per esempio, l’invecchiamento,
l’aumento dell’appetito, l’aumento della stanchezza e simili;
3. il fattore testing, ossia le conseguenze prodotte da un test sui risultati ottenuti in occasione di un test
successivo;
4. il fattore strumentazione, che rimanda alle situazioni in cui le variazioni dovute alle alterazioni dello
strumento di misurazione o i mutamenti riguardanti gli osservatori o i rilevatori impiegati possono
produrre differenze nelle misurazioni ottenute;
5. il fattore regressione statistica, che opera nel caso in cui i gruppi vengano selezionati sulla base dei
punteggi estremi;
6. il fattore selezione, che rinvia alle distorsioni risultanti dall’attribuzione differenziale dei soggetti ai
gruppi di comparazione;
7. il fattore mortalità sperimentale, ossia la perdita differenziale dei soggetti facenti parte dei gruppi di
comparazione;
8. il fattore interazione selezione-maturazione, etc., che, in alcuni disegni quasi-sperimentali viene
confusa con (ossia, può essere scambiata per) l’effetto della variabile sperimentale.
I fattori che mettono a rischio la validità esterna o la rappresentatività sono i seguenti:
9. il fattore effetto reattivo o interattivo del testing, in base al quale il pre-test potrebbe acuire o ridurre
la sensibilità o la reattività alla variabile sperimentale, rendendo così i risultati ottenuti per la
popolazione sottoposta al pre-test non rappresentativi degli effetti che la variabile sperimentale
potrebbe indurre sull’universo non sottoposto a pre-test, da cui vengono estratti i soggetti sui quali
viene condotto l’esperimento;
10. il fattore effetto interattivo fra le distorsioni legate al fattore selezione (di cui al precedente punto 6)
e la variabile sperimentale;
11. il fattore legato agli effetti reattivi delle condizioni sperimentali, che renderebbero impossibile
generalizzare gli effetti della variabile sperimentale ai soggetti esposti ad essa in contesti non
sperimentali;
1
12. il fattore interferenza dovuta ai trattamenti multipli, probabile quando gli stessi soggetti vengono
sottoposti a trattamenti multipli, in quanto, di norma, non è possibile cancellare gli effetti dei
trattamenti precedenti.
3 DISEGNI PRE-SPERIMENTALI, 3 DISEGNI SPERIMENTALI VERI E PROPRI, 10 DISEGNI
QUASI-SPERIMENTALI
3 DISEGNI PRE-SPERIMENTALI
1. IL DISEGNO “ONE SHOT”
Il disegno sperimentale “one shot” prevede una sola osservazione di un singolo gruppo, effettuata
successivamente all’intervento di un agente o di un trattamento che si suppone abbia prodotto un mutamento.
Questi studi possono essere rappresentati graficamente come segue:
X
O
In questo tipo di studi l’assenza di controllo è tale che essi sono pressoché privi di valore scientifico.
Nei case studies basati sul Disegno 1, un singolo caso accuratamente studiato viene implicitamente
comparato con altri eventi casualmente osservati di cui si ha memoria. Le inferenze si fondano su aspettative
generiche relative a quali dati si sarebbero riscontrati in assenza di X. Molto spesso, questo tipo di studi
richiede attività estremamente noiose, quali la raccolta di dettagli specifici, l’effettuazione di osservazioni
accurate, la realizzazione di test e simili, comportando, in questi casi, l’errore della precisione malposta. Di
fatto, queste ricerche sarebbero molto più preziose se si dimezzassero le osservazioni e si dedicassero le
energie così risparmiate allo studio parimenti analitico di un caso di comparazione appositamente scelto. In
generale, è preferibile distribuire lo sforzo descrittivo, dedicandolo in egual misura a due soli elementi, che
possano costituire i termini di una comparazione interessante.
Il Disegno 1, se considerato congiuntamente alle comparazioni implicite di «senso comune», presenta
gran parte dei difetti che caratterizzano i disegni successivi. Per questa ragione, l’analisi di tali difetti è
rimandata a questi contesti più specifici.
2. IL DISEGNO CON PRE-TEST E POST-TEST SENZA GRUPPO DI CONTROLLO
Esso viene introdotto come «cattivo esempio», per illustrare il ruolo giocato da molte delle variabili
estranee i cui effetti tendono a confondersi con quelli della variabile sperimentale e che possono essere causa
di invalidità interna. Queste variabili offrono ipotesi plausibili per spiegare la differenza O1–O2, che si
contrappongono all’ipotesi secondo cui tale differenza è causata da X:
O1
X O2
La prima di queste ipotesi rivali non controllate è legata al fattore storia. Oltre alla variabile
sperimentale X considerata dal ricercatore, infatti, è possibile che fra O1 ed O2 siano interventi molti altri
eventi capaci di determinare una variazione. Se il pre-test (O1) ed il post-test (O2) vengono effettuati in giorni
diversi, è possibile che la differenza osservata fra l’uno e l’altro sia dovuta agli avvenimenti occorsi nel
frattempo. Affinché un evento si configuri nei termini di un’ipotesi rivale plausibile, è necessario che esso
riguardi la maggior parte dei soggetti che costituiscono il gruppo sotto indagine; ad esempio, nel caso di un
gruppo formato da studenti, l’evento dovrebbe aver luogo in differenti ore di lezione oppure dovrebbe
manifestarsi attraverso una notizia di cronaca di grande risonanza. Nella ricerca di Collier sugli studenti di
una classe (realizzata nel 1940 e pubblicata nel 1944), mentre gli studenti leggevano materiale di propaganda
nazista la Francia si arrese alla Germania: le variazioni osservate negli atteggiamenti degli studenti
sembravano imputabili più all’evento storico verificatosi nel frattempo che alla lettura del materiale
propagandistico in sé. La plausibilità del fattore storia come principio di spiegazione rivale della variazione
osservata aumenta a mano a mano che il periodo di tempo che intercorre fra O1 ed O2 si estende, mentre può
essere considerata un problema secondario negli esperimenti che vengono completati nell’arco di una o due
ore. Tuttavia, anche in quest’ultimo caso è necessario tenere conto delle altre possibili cause di variazione,
esterne rispetto alla variabile sperimentale, quali una risata, un evento che distrae, e così via. Importante ai
2
fini del controllo del fattore storia è l’isolamento sperimentale, che i fisici riescono a realizzare in modo
quasi perfetto nei loro laboratori. Per questo motivo il Disegno 2 può essere applicato nella maggior parte
delle ricerche di questo tipo. Classificheremo come fattore storia l’insieme dei possibili effetti determinati
dalle variazioni stagionali o dalle scadenze istituzionali, sebbene essi possano essere ricondotti altresì al
fattore maturazione. Così, ad esempio, l’ottimismo può variare a seconda della stagione e l’ansia a causa
della maggiore o minore prossimità dell’esame di fine semestre. Questi effetti possono produrre una
variazione fra O1 ed O2 facilmente confondibile con l’effetto determinato dalla variabile sperimentale X.
Una seconda variabile, o classe di variabili, rivale rispetto ad X rimanda al fattore maturazione.
Questo termine è utilizzato in questa sede per indicare tutti quei processi biologici o psicologici che variano
sistematicamente con il trascorrere del tempo, indipendentemente dagli specifici eventi esterni. Così, fra O1
ed O2 gli studenti oggetto di indagine aumentano di età, hanno più appetito, sono più stanchi, più annoiati, e
così via. Di conseguenza, le differenze rilevate per via sperimentale potrebbero rappresentare un riflesso di
detti processi piuttosto che della variabile X. Nel caso dei corsi di recupero per bambini con disturbi
dell’apprendimento, che si focalizzano sugli studenti particolarmente svantaggiati, è possibile che un
processo di «recupero spontaneo», analogo alla guarigione di una ferita, venga scambiato per un effetto
specifico dell’intervento di recupero X. (Ovviamente, questo recupero non è «spontaneo» in senso casuale,
ma rappresenta piuttosto la somma fra gli effetti dei processi di apprendimento e gli effetti delle pressioni
esercitate dall’esperienza quotidiana del mondo circostante, che agirebbero anche nel caso in cui non si
introducesse alcuna variabile X).
Una terza spiegazione rivale rispetto alla spiegazione che chiama in causa la variabile sperimentale
rinvia all’azione del fattore testing, ossia l’effetto del pre-test stesso. Nei test di intelligenza e di abilità, gli
studenti che si sottopongono al test per la seconda volta o a cui viene somministrata una forma diversa dello
stesso test, e così via, ottengono, di norma, risultati migliori rispetto a coloro che affrontano la prova per la
prima volta. Questi effetti – come, ad esempio, un Q.I. superiore di 3-5 punti rispetto alla media raggiunta
nel primo test – si evidenziano anche nel caso in cui non si indichino ai soggetti coinvolti né i punteggi
ottenuti né le risposte errate nel corso del primo test. Naturalmente, la garanzia dell’anonimato, l’accresciuta
consapevolezza in merito alle risposte socialmente desiderabili, e così via, sono tutti fattori che influenzano i
risultati. Nel caso di un test anonimo riguardante i pregiudizi, l’adattamento determinato dalle asserzioni
informate ad un atteggiamento di ostilità può far slittare verso una maggiore intolleranza le aspettative degli
studenti riguardo ai tipi di atteggiamento socialmente accettabili. Nel caso, invece, di un test della personalità
o dell’adattamento, controfirmato dal soggetto, la somministrazione iniziale ha a che fare con una sorta di
attività di problem-solving, in cui gli studenti si sforzano di scoprire le finalità nascoste del test stesso.
Dopodiché (o dopo aver discusso con gli amici le risposte date ad alcune domande particolarmente bizzarre),
l’intervistato è in grado di presentarsi sotto una luce migliore in occasione del secondo test.
Gli effetti reattivi sono molto probabili quando il test stesso funziona come stimolo al cambiamento
piuttosto che come una registrazione passiva del comportamento. Ad esempio, in un esperimento riguardante
le terapie dimagranti, il fatto che il peso dei soggetti sia rilevato prima di intraprendere la cura potrebbe, esso
stesso, rappresentare uno stimolo a perdere peso, anche in assenza di qualsiasi trattamento terapeutico.
Analogamente, la presenza in classe di osservatori esterni incaricati di valutare, preliminarmente ad un
apposito corso di formazione, le capacità degli insegnanti nei rapporti con gli studenti, può influenzare le
modalità adottate dagli stessi insegnanti per mantenere la disciplina, così come un microfono posto sulla
cattedra può far cambiare il modello di interazione del gruppo, e così via. In generale, più lo strumento
utilizzato è innovativo e stimolante, più esso sarà reattivo.
Con l’espressione strumentazione o «alterazione strumentale» si indica una quarta ipotesi rivale non
controllata, ossia i cambiamenti autonomi dello strumento di misurazione che potrebbero spiegare la
differenza osservata fra O1 ed O2. Tali variazioni sono simili, ad esempio, alla deformazione o
all’affaticamento delle molle di una bilancia o alla formazione di condensa all’interno di una camera a
nebbia, e così via. Se le rilevazioni O1 ed O2 vengono effettuate da esseri umani, è possibile che le differenze
osservate dipendano dai processi di apprendimento, di affaticamento e simili che riguardano gli osservatori
stessi. Se si decide di classificare le rilevazioni effettuate, i modelli di riferimento possono oscillare fra O1 ed
O2 (suggerendo la tecnica di controllo consistente nello scompigliare le rilevazioni O1 ed O2, classificandole
quindi senza sapere quale delle due sia stata effettuata per prima). Nel caso in cui il fenomeno oggetto di
studio sia la partecipazione alla vita di classe, è possibile che, in occasione della seconda rilevazione, gli
osservatori siano più abili o più disincantati. Nel caso siano coinvolti i genitori degli studenti, è possibile che
la dimestichezza dell’intervistatore con il questionario proposto e la confidenza con i genitori possa
3
provocare variazioni. Infine, se gli osservatori che effettuano le due rilevazioni non sono gli stessi, si
possono determinare delle differenze fra O1 ed O2.
In alcune applicazioni del Disegno 2, un quinto fattore i cui effetti vengono spesso confusi con gli
effetti di X è rappresentato dalla regressione statistica. Se, ad esempio, in un esperimento sui corsi di
recupero per bambini con disturbi dell’apprendimento, gli studenti sottoposti ad un particolare trattamento
sperimentale vengono selezionati sulla base degli scarsi risultati ottenuti in un test di abilità (che diventano
per loro O1), i punteggi (O2) che essi otterranno quando, in un secondo momento, verrà loro somministrato lo
stesso test o una forma alternativa di esso saranno, in media, quasi certamente migliori rispetto a quelli
ottenuti nel corso della prima rilevazione. Questo risultato certo non è dovuto ad un effetto della variabile
sperimentale X né dipende dalla procedura test-retest, ma rappresenta, piuttosto, un aspetto di natura
tautologica dell’imperfetta correlazione esistente fra O1 ed O2.
3. LA COMPARAZIONE FRA GRUPPI STATICI
Il terzo disegno pre-sperimentale, utile ai fini della nostra analisi dei fattori invalidanti, è
rappresentato dalla comparazione fra gruppi statici. In questo tipo di disegno, un gruppo sottoposto ad X
viene confrontato con un gruppo non sottoposto ad X, allo scopo di stabilire l’effetto della variabile
sperimentale.
X
O1
O2
Rientrano in questa categoria, ad esempio: la comparazione fra sistemi scolastici che richiedono il
possesso della laurea (X) da parte degli insegnanti e quelli che non lo richiedono; il raffronto fra gli studenti
che hanno frequentato un corso per la lettura veloce e quelli che non lo hanno frequentato; il confronto fra gli
individui che hanno seguito un determinato programma televisivo e quelli che non lo hanno seguito, e così
via. A differenza di quanto accade per l’esperimento «vero e proprio» – definito, più oltre, Disegno 6 – nel
Disegno 3 non è possibile in alcun modo affermare esplicitamente che, se non fosse per l’esperienza X, i
gruppi sarebbero equivalenti. Questa lacuna, rappresentata nel diagramma su riportato con la linea
tratteggiata che divide i due gruppi, indica quale sia il fattore immediatamente successivo da controllare,
ossia la selezione. Se O1 ed O2 presentano delle differenze, è possibile che esse dipendano dai diversi criteri
adottati per scegliere i soggetti che costituiscono i due gruppi su cui sono state condotte le osservazioni (O1
ed O2): i due gruppi, infatti, avrebbero potuto essere comunque diversi l’uno dall’altro, anche in assenza di X.
Come si dirà in seguito discutendo l’analisi ex post facto, il matching basato su caratteristiche di fondo dei
soggetti diverse da quelle sottoposte all’osservazione O si rivela, di norma, poco efficace e fuorviante, in
particolare nei casi in cui i soggetti del «gruppo sperimentale» si siano autoselezionati, richiedendo
esplicitamente di sottoporsi all’esperimento.
Un ultimo fattore i cui effetti vengono spesso confusi con quelli della variabile X può essere definito
in termini di mortalità sperimentale: in questo caso, le differenze fra O1 ed O2 rilevabili nei gruppi sono
dovute a differenze nella perdita di unità di analisi da parte dei gruppi stessi. Così, anche se, inizialmente, i
due gruppi impiegati per il Disegno 3 risultavano equiparabili, è possibile che, successivamente, essi
mostrino delle differenze, ascrivibili non già a un cambiamento verificatosi nei soggetti che li compongono,
bensì alla perdita di alcune unità di analisi da parte di uno dei gruppi. Per quanto riguarda la ricerca in ambito
didattico-pedagogico, questo problema si riscontra con maggiore frequenza negli studi che si propongono di
accertare gli effetti dell’istruzione universitaria comparando le misurazioni effettuate sulle matricole (non
ancora sottoposte ad X) con quelle effettuate sugli studenti dei corsi superiori (già sottoposti ad X). Nel caso
in cui si evidenzi che le ragazze del primo anno sono più belle delle studentesse che frequentano i corsi
superiori, lo studioso si guarderà bene dal concludere che l’effetto dei duri corsi universitari sia quello di
imbruttire; piuttosto, egli sottolineerà che il fatto che una bella ragazza concluda gli studi prima di sposarsi è
estremamente improbabile. Questo tipo di effetto viene classificato come mortalità sperimentale.
(Naturalmente, se consideriamo le stesse ragazze sia come matricole sia, tempo dopo, come studentesse dei
corsi superiori questo problema scompare e si ritorna al Disegno 2).
3 DISEGNI SPERIMENTALI VERI E PROPRI
I tre disegni di base di cui ci occuperemo in questa sezione sono quelli che, di norma, vengono
raccomandati dalla letteratura metodologica. Il più utilizzato fra questi è il Disegno 4; perciò ci
soffermeremo ampiamente su di esso, con un’analisi che diventerà occasione di discussioni di natura più
generale. Tutti e tre i disegni vengono presentati nella forma classica di una comparazione basata sulla
presenza/assenza di una singola variabile sperimentale X. I disegni che prevedono un numero maggiore di
4
trattamenti sperimentali rappresentano importanti rielaborazioni che toccano soltanto in modo tangenziale la
discussione svolta nel presente studio; essi verranno analizzati nella parte conclusiva del capitolo,
successivamente alla trattazione del Disegno 6 (v. oltre). Nondimeno, in questo stadio della nostra analisi,
una prospettiva di questo tipo può essere utile per rammentarci che la comparazione fra ciò che accade in
presenza di X e ciò che accade in assenza di X rappresenta una semplificazione. In realtà, la comparazione
riguarda le specifiche attività che caratterizzano il gruppo di controllo nella fase in cui il gruppo sperimentale
è sottoposto all’azione di X. La comparazione potrebbe quindi essere attuata fra X1 ed Xc o fra X1 ed X0 o,
ancora, fra X1 ed X2. Il fatto che le attività riguardanti il gruppo di controllo siano spesso imprecisate apporta
un’indesiderata ambiguità all’interpretazione del contributo della variabile sperimentale X. Tenendo presenti
queste osservazioni, ricorreremo qui, ancora una volta, alla convenzione grafica consistente nella
presentazione di gruppi di controllo non sottoposti all’azione della variabile sperimentale X.
4. IL DISEGNO CON PRE-TEST E POST-TEST ED UN GRUPPO DI CONTROLLO
I controlli riguardanti la validità interna
Fra il 1900 ed il 1920, considerazioni di natura simile a quelle svolte nelle pagine precedenti spinsero
gli studiosi che si occupavano di ricerca psicologica o didattico-pedagogica ad integrare il Disegno 2 con
l’aggiunta del gruppo di controllo, dando luogo così a quello che oggi è il disegno classico con gruppo di
controllo. McCall (1923), Solomon (1949) e Boring (1954) hanno dato conto in parte di questo passaggio, e
l’esame del Teachers College Record di quel periodo ci dice ancor di più: sin dal 1912, infatti, si fa
riferimento ai gruppi di controllo senza ritenere necessaria alcuna giustificazione (ad esempio, Pearson,
1912). Nel presente lavoro, i disegni con gruppo di controllo così introdotti sono suddivisi in due tipologie: il
Disegno sperimentale 4, che prevede l’impiego di gruppi equivalenti ottenuti attraverso l’assegnazione
casuale (indicata dal simbolo R), ed il Disegno quasi-sperimentale 10, che si avvale invece di gruppi di
comparazione già esistenti, la cui composizione non viene alterata e la cui equivalenza non è affatto certa. Il
Disegno 4 assume la seguente forma:
R
R
O1
O3
X
O2
O4
Poiché questo disegno controlla in modo così netto tutte le sette ipotesi rivali fin qui discusse, gli
analisti non esplicitano, di norma, le esigenze di controllo che esso soddisfa. Nella tradizione della ricerca
sull’apprendimento, gli effetti di acquisizione di una pratica indotti dal fattore testing sembrano fornire un
primo riconoscimento della necessità di ricorrere a un gruppo di controllo. Il fattore maturazione ha spesso
rappresentato uno dei principali interessi critici tanto nell’ambito delle ricerche sperimentali in campo
didattico-pedagogico, quanto nel settore degli studi sull’età evolutiva … . Nel caso delle ricerche sul
mutamento degli atteggiamenti … è possibile che sia il fattore storia a porsi come l’elemento che necessita
di maggiore attenzione. In ogni caso, sembra a questo punto necessario discutere brevemente il modo in cui,
o le condizioni nelle quali, tali fattori vengono controllati.
Il fattore storia è controllato nella misura in cui gli accadimenti storici di natura generale che
potrebbero aver determinato la differenza osservata fra O1 ed O2 causino anche la differenza osservata fra O3
ed O4.
I fattori maturazione e testing sono controllati in quanto dovrebbero toccare nella stessa misura sia il
gruppo sperimentale sia il gruppo di controllo. Il fattore strumentazione viene facilmente controllato nel caso
in cui vengano soddisfatte le condizioni che consentono di controllare la storia di sessione, in particolare nel
caso in cui l’osservazione O si ottenga attraverso le risposte degli studenti ad uno strumento stabile quale un
questionario prestampato. Nel caso in cui vengano utilizzati osservatori o intervistatori, tuttavia, il problema
assume proporzioni maggiori. Se il numero dei rilevatori è talmente limitato da impedire di assegnarli
casualmente a una singola sessione, non soltanto ognuno di essi dovrebbe essere impiegato tanto nella
sessione sperimentale quanto in quella di controllo, ma, per evitare distorsioni nelle valutazioni e nei
protocolli prodotti, essi dovrebbero, inoltre, essere tenuti all’oscuro di quali soggetti siano sottoposti a quale
trattamento. L’uso di resoconti concernenti l’interazione di gruppo – di modo che sia possibile giudicare una
serie randomizzata di tali trascrizioni, relative al pre-test, al post-test, al gruppo sperimentale e al gruppo di
controllo – contribuisce a controllare il fattore strumentazione nelle ricerche sul comportamento in classe e
sull’interazione di gruppo.
Per quanto riguarda le differenze fra le medie, il fattore regressione è controllato se tanto i soggetti
che compongono il gruppo sperimentale quanto quelli appartenenti al gruppo di controllo sono scelti con
5
procedimento casuale fra coloro che hanno ottenuto i risultati più estremi nel pre-test, a prescindere da
quanto estremi siano i punteggi che ciascuno dei due gruppi ha conseguito. In questo caso, il gruppo di
controllo regredisce tanto quanto il gruppo sperimentale. Tuttavia, anche nelle condizioni previste dal
Disegno 4, sono spesso possibili errori di interpretazione dovuti a effetti della regressione. Un ricercatore
potrebbe servirsi del gruppo di controllo per confermare gli effetti di X sulla media del gruppo, lasciandolo
poi da parte quando decide di esaminare quali fra i sottogruppi del gruppo sperimentale caratterizzati da una
omogeneità di punteggio nel pre-test siano stati maggiormente influenzati a seguito del trattamento. Se la
media generale del gruppo si innalza, il ricercatore perviene alla stimolante conclusione che i soggetti
inizialmente caratterizzati da un punteggio basso fanno molti progressi, mentre, con tutta probabilità, quelli
già in origine contraddistinti da un punteggio elevato non miglioreranno affatto. Un esito di questo tipo è
pressoché certo perché, nel caso in cui si registri un innalzamento della media generale del gruppo, l’effetto
della regressione integrerà i punteggi che nel pre-test erano al di sotto della media, mentre tenderà ad
annullare l’incremento relativo ai punteggi inizialmente più alti. (Se, invece, non si registra alcun
innalzamento della media del gruppo, è possibile che il ricercatore «scopra», sbagliando, che ciò è
determinato da due effetti che si annullano reciprocamente, ossia un innalzamento per i punteggi più bassi ed
una diminuzione per quelli più elevati). Per ovviare a questi errori di interpretazione, occorre analizzare
parallelamente i soggetti del gruppo di controllo che nel pre-test avevano ottenuto i punteggi più estremi,
valutando quindi i differenti incrementi sulla base di comparazioni effettuate con i punteggi ottenuti nel posttest dai corrispondenti sottogruppi del pre-test, tanto per il gruppo sperimentale quanto per il gruppo di
controllo.
Il fattore selezione non interviene nella spiegazione della differenza osservata nella misura in cui la
randomizzazione consente di costituire gruppi equivalenti nel momento R. Tale margine di sicurezza è dato
dalle statistiche per campione: la probabilità di ottenere gruppi equivalenti sarà, quindi, maggiore se le
assegnazioni casuali sono numerose. Nella misura indicata dal margine di errore per l’ipotesi secondo cui
non si avrà alcuna differenza, questo assunto è, in alcuni casi, errato. Nel caso del Disegno 4, ciò significa
che, in alcuni casi, si osserverà una differenza in apparenza «significativa» fra i risultati del pre-test. Di
conseguenza, se, da una parte, la randomizzazione semplice o stratificata consente di effettuare
un’assegnazione priva di distorsioni, dall’altra, essa è una pratica tutt’altro che perfetta ai fini
dell’equivalenza iniziale dei gruppi. La randomizzazione rimane, nondimeno, l’unico sistema, ed il più
importante, per far ciò. La natura dogmatica della nostra affermazione scaturisce dal fatto che, nel corso
degli ultimi trent’anni, la ricerca in ambito didattico-pedagogico ha ampiamente ed erroneamente preferito
perseguire l’equivalenza dei gruppi attraverso il matching. McCall (1923) e Peters e Van Voorhis (1940)
hanno contribuito a perpetuare questo equivoco. Come chiariremo più avanti discutendo il Disegno 10 e
l’analisi ex post facto, il matching non si dimostra di alcuna utilità se viene utilizzato per superare le
differenze iniziali fra i gruppi. Con ciò non si vuole dichiarare l’inammissibilità del matching in subordine
alla randomizzazione, come nel caso in cui si ottiene una maggiore precisione statistica creando coppie di
studenti attraverso l’applicazione di tale procedura ed assegnando quindi in modo casuale una unità di
ciascuna coppia al gruppo sperimentale e l’altra al gruppo di controllo. Nella letteratura statistica, questo
procedimento è conosciuto come «assegnazione casuale stratificata». A tal proposito, si vedano, in
particolare, Cox (1957), Feldt (1958) e Lindquist (1953). Tuttavia, considerare il matching come un sostituto
della randomizzazione costituisce un tabù anche per i disegni quasi-sperimentali che utilizzano due soli
gruppi naturali puri, uno sperimentale e l’altro di controllo: anche nell’ambito di questa forma debole di
«esperimento», infatti, è possibile ricorrere a procedimenti più efficaci del matching per correggere le
differenze iniziali osservate nelle medie dei due campioni.
I dati acquisiti mediante l’applicazione del Disegno 4 consentono di dire se il fattore mortalità offra
una spiegazione plausibile per l’incremento osservato fra O1 ed O2. La mortalità, la perdita di alcune unità di
analisi, e la presenza all’interno dei gruppi di casi rispetto ai quali si hanno a disposizione soltanto dati
parziali rappresentano aspetti particolarmente problematici e vengono solitamente nascosti sotto il tappeto.
Di norma, gli esperimenti riguardanti i metodi di insegnamento vengono condotti nell’arco di giorni,
settimane o mesi. Se i pre-test ed i post-test vengono effettuati nella stessa classe da cui si estraggono il
gruppo sperimentale ed il gruppo di controllo e se la condizione sperimentale richiede che i soggetti coinvolti
si sottopongano ad alcune sessioni non previste dalla condizione di controllo, il differente livello di
partecipazione degli studenti nelle tre differenti occasioni sperimentali (pre-test, trattamento e post-test)
produrrà una «mortalità» che può generare piccole distorsioni di campionamento.
Se si scartano i componenti del gruppo sperimentale che non partecipano alle sessioni previste
dall’esperimento, si sottoporrà tale gruppo ad una riduzione selettiva che non toccherà, invece, il gruppo di
6
controllo. In questo modo, il gruppo sperimentale subirà una distorsione in direzione dei soggetti più
disponibili e coscienziosi. Il procedimento più corretto – sebbene, di solito, poco applicato – consiste
nell’utilizzare tutti gli studenti del gruppo sperimentale e del gruppo di controllo che hanno completato tanto
il pre-test quanto il post-test, inclusi gli studenti del gruppo sperimentale assenti nella fase di attuazione della
sessione sperimentale, in cui viene introdotta la variabile X. Naturalmente, questa procedura attenua gli
effetti apparenti di X, ma consente di evitare distorsioni di campionamento. Essa si basa sull’assunto che non
vi siano distorsioni più elementari determinate dalla mortalità: un assunto che può essere, in parte, verificato
prendendo in considerazione tanto il numero dei soggetti presenti al pre-test ma non al post-test, quanto i
punteggi da essi ottenuti. È possibile infatti che, invece di determinare una variazione dei punteggi
individuali, alcune X influiscano sulla percentuale di dispersione. Naturalmente, anche quando tali
percentuali siano le stesse, rimane la possibilità che interazioni complesse rendano differente la natura delle
defezioni dal gruppo sperimentale e dal gruppo di controllo.
Il problema della mortalità si presenta in forma parossistica nelle ricerche riguardanti i corsi di
recupero a partecipazione sollecitata. In questo caso, ad esempio, un campione di studenti di una scuola
superiore che presentano particolari difficoltà nella lettura viene invitato a prender parte ad un corso di
recupero volontario, mentre a un gruppo equivalente non viene rivolto lo stesso invito. Tra i soggetti
appartenenti al primo gruppo, la quota di coloro che seguiranno effettivamente i corsi sarà, probabilmente,
pari all’incirca al 30%. Per ricavare i punteggi del pre-test e del post-test, si somministrano a tutti gli studenti
della stessa classe dei test standard di abilità di lettura. In questo caso, non sarebbe corretto comparare le
prestazioni ottenute dal 30% di studenti che si sottopone volontariamente al corso di recupero con i risultati
conseguiti dalla totalità degli studenti appartenenti al gruppo di controllo: i primi, infatti, saranno i soggetti
rimasti maggiormente impressionati dai punteggi ottenuti nel pre-test, quelli maggiormente suscettibili di
miglioramenti significativi, e così via. Tuttavia, è impossibile individuare le loro esatte controparti nel
gruppo di controllo. Se, da una parte, può sembrare ugualmente scorretto ai fini del controllo dell’ipotesi
relativa all’efficacia del trattamento, comparare l’intero gruppo dei soggetti invitati a sottoporsi all’intervento
di recupero con il totale dei soggetti non sollecitati in tal senso, dall’altra, tale soluzione è certamente
accettabile, sebbene tesa alla conservazione. Nondimeno, è possibile che sia l’invito stesso, piuttosto che
l’intervento, a determinare l’effetto osservato. In generale, così come accade per il gruppo sperimentale,
anche il gruppo di controllo – che non viene invitato a frequentare il corso di recupero – dovrebbe essere
messo a conoscenza dei risultati ottenuti nel pre-test. In alternativa, si può proporre l’intervento di recupero a
tutti gli studenti che ne hanno bisogno, suddividendo poi coloro che accettano in due gruppi, uno dei quali
sarà sottoposto al trattamento effettivo, l’altro ad un placebo. Ma, allo stato attuale dell’arte, qualsiasi
placebo che possa plausibilmente apparire come un sostegno agli studenti può rivelarsi anche una terapia
valida quanto il trattamento che si sta sperimentando. Si noti, a ogni modo, come sia di gran lunga più
semplice valutare i test sperimentali tendenti a determinare l’efficacia relativa di due diverse procedure
terapeutiche piuttosto che quelli che puntano a determinare l’efficacia assoluta di ciascuna di esse.
I fattori di invalidità esterna
I fattori di invalidità interna descritti nelle pagine precedenti esercitano un’influenza diretta sui
punteggi rilevati mediante le osservazioni O. Detti fattori, infatti, sono in grado di produrre autonomamente
variazioni che il ricercatore potrebbe interpretare come conseguenze della variabile sperimentale X. Detto
altrimenti, nel caso di un esperimento con gruppo di controllo, gli effetti da essi indotti si manifesterebbero
in quanto tali nel gruppo di controllo, sovrapponendosi invece, nel gruppo sperimentale, agli effetti generati
da X. Nei termini dell’analisi della varianza, la storia, la maturazione, il testing e così via sono stati
considerati effetti principali e, in quanto tali, sono stati controllati nell’ambito del Disegno 4, conferendo a
quest’ultimo validità interna. Viceversa, i fattori di invalidità esterna possono essere definiti effetti di
interazione che coinvolgono la variabile sperimentale X congiuntamente ad altre variabili. Essi rappresentano
quindi una potenziale specificità degli effetti della variabile sperimentale X, data una serie, purtroppo
limitata, di condizioni. Ossia, per quanto ci consta, è possibile che nel Disegno 4 gli effetti osservati di X
riguardino segnatamente i gruppi precedentemente sottoposti al pre-test. Non è quindi logicamente possibile
generalizzare tali effetti all’intero universo non sottoposto al pre-test, del quale, pure, vorremmo poter
discutere.
Analizzeremo in questo paragrafo numerosi fattori di ostacolo alla generalizzazione, nonché alcune
procedure per superarli. Poiché esistono validi disegni privi di pre-test e poiché in molti contesti (ma non
necessariamente nell’ambito delle ricerche sull’insegnamento) si intende generalizzare i risultati ottenuti a
gruppi non sottoposti a pre-test, tali disegni vengono preferiti sulla base di considerazioni legate alla validità
esterna o alla generalizzabilità. Nel settore di ricerca didattico-pedagogica, i dubbi frequentemente espressi
7
in merito alla possibilità di applicare nella pratica comune i risultati ottenuti nel corso di esperimenti
estremamente artificiali rappresentano nient’altro che giudizi sulla validità esterna. L’introduzione di
considerazioni di questa natura all’interno di una discussione che si propone di stabilire quali siano i migliori
disegni sperimentali colpirà quindi positivamente il professionista che ritenga, a giusto titolo, che esse siano
state indebitamente trascurate nei trattati convenzionali di metodologia sperimentale. Nelle pagine che
seguono, sosterremo questo punto di vista ed evidenzieremo diverse procedure che consentono di accrescere
la validità esterna degli esperimenti, cosicché possano costituire una base più adeguata di generalizzazioni
concernenti i metodi di insegnamento, senza che, tuttavia, ne risulti pregiudicata la validità interna.
L’interazione fra il fattore testing e la variabile sperimentale X. Con riferimento a questo tipo di
disegno, la possibilità che il pre-test potesse compromettere la validità esterna dell’esperimento fu
evidenziata per la prima volta da Solomon (1949), sebbene considerazioni dello stesso ordine avessero spinto
in precedenza alcuni ricercatori a ricorrere al Disegno 6 (v. oltre), che omette il pre-test. In particolare, negli
studi sulle variazioni degli atteggiamenti – nei quali il test stesso presenta in forma accentuata posizioni
anomale (ad esempio, raramente la stampa contiene tante espressioni a forte contenuto di intolleranza come
quelle che figurano nei normali test sul pregiudizio razziale) – è molto probabile che il pre-test determini dei
cambiamenti in relazione agli atteggiamenti individuali e alla predisposizione del soggetto alla persuasione.
… L’effetto che il pre-test esercita su X, riducendo la validità esterna dell’esperimento, è, naturalmente, una
funzione del grado in cui le misurazioni ripetute sono prerogative dell’universo al quale si intende estendere
la generalizzazione. Nel campo delle comunicazioni di massa, l’intervista da parte del ricercatore e le
procedure convenzionali di rilevazione degli atteggiamenti sono piuttosto atipiche. Viceversa, nell’ambito
delle ricerche riguardanti l’insegnamento, la generalizzazione cercata riguarda un contesto in cui testare gli
individui rappresenta un fatto del tutto normale. Se, in particolare, l’esperimento può utilizzare, come
osservazioni O, i compiti in classe regolarmente svolti nel corso dell’anno scolastico – ma, probabilmente,
perfino quando le osservazioni sperimentali siano simili a quelle di norma effettuate – non sarà presente
alcuna sgradita interazione fra il testing ed X. Nel caso in cui si scelgano procedure particolarmente desuete o
quando la procedura adottata implichi simulazioni, ristrutturazioni percettive o cognitive, sorpresa, stress, e
così via, i disegni che prevedono gruppi non sottoposti a pre-test sono certamente preferibili, se non
indispensabili.
L’interazione fra il fattore selezione e la variabile sperimentale X. Sebbene il Disegno 4 controlli gli
effetti della selezione con riferimento alla spiegazione delle differenze osservabili fra il gruppo sperimentale
ed il gruppo di controllo, rimane tuttavia aperta la possibilità che gli effetti validamente confermati valgano
soltanto per la specifica popolazione da cui i due gruppi sono stati estratti. Questa eventualità diventa ancora
più probabile nel caso in cui sia particolarmente difficoltoso mettere insieme i soggetti da sottoporre
all’esperimento. Si consideri, ad esempio, il caso di un ricercatore che intenda effettuare un esperimento sui
metodi di insegnamento e che venga respinto da nove scuole diverse per essere, infine, accolto da una
decima. Quest’ultima presenterà certamente differenze specifiche rispetto alle precedenti scuole e
all’universo cui il ricercatore desidera estendere la generalizzazione; di conseguenza, essa non è
rappresentativa. Infatti, quasi certamente, rispetto alla media delle altre scuole, il suo corpo docente sarà
caratterizzato da un atteggiamento più fiducioso, da minor timore nei confronti dell’indagine, da maggiore
volontà di migliorarsi. Pertanto, pur rispettando i requisiti della validità interna, gli effetti osservati per via
sperimentale possono essere specificamente legati a quel particolare tipo di scuola. Per consentire al lettore
di giudicare su questioni di tale natura, sarebbe bene che nei rapporti di ricerca fosse specificato il numero ed
il tipo di istituti scolastici cui il ricercatore si è rivolto e che hanno opposto un rifiuto all’esperimento, così da
poter valutare l’ampiezza delle possibili distorsioni legate alla selezione. In generale, più alto è il livello di
cooperazione richiesto e più l’esperimento interferisce con la routine, più elevato risulterà il numero dei
rifiuti e maggiori saranno le opportunità che si verifichi un effetto legato alla specificità dei soggetti testati.
Ci sia consentito, a questo punto, di specificare ulteriormente il significato dell’espressione
«interazione fra il fattore selezione e la variabile sperimentale X». Nel caso in cui dovessimo effettuare una
ricerca nell’ambito di una singola scuola che si sottopone volontariamente al nostro esperimento ed
assegnassimo i soggetti al gruppo sperimentale ed al gruppo di controllo secondo un procedimento casuale,
non ci preoccuperemmo affatto di quale sia l’«effetto principale» della scuola stessa. Se tale effetto
producesse un identico innalzamento delle medie nei due gruppi, l’esperimento non risulterebbe in alcun
modo compromesso. Diversamente, se, in virtù di alcune caratteristiche peculiari della scuola sotto indagine,
il trattamento si rivelasse qui più efficace di quanto non sarebbe nella popolazione totale delle scuole, ciò
potrebbe rivelarsi particolarmente significativo. Il ricercatore vorrebbe poter affermare con certezza che
l’interazione fra le caratteristiche distintive della scuola sotto indagine (probabilmente legate al fatto che essa
8
si è sottoposta volontariamente all’esperimento) ed i trattamenti sperimentali è trascurabile. Alcune variabili
sperimentali potrebbero risultare molto sensibili alle (interagire con le) caratteristiche della scuola, mentre è
possibile che altre non lo siano. … .
Si hanno, spesso, notevoli distorsioni di campionamento a causa della negligenza di ricercatori che
non danno l’opportunità ad una selezione più rappresentativa di scuole di rifiutare di partecipare
all’esperimento. Di conseguenza, la maggior parte delle ricerche viene condotta nelle scuole in cui la
percentuale di studenti figli di professori universitari è più elevata. Malgrado sia impossibile ottenere un
campione perfettamente rappresentativo e malgrado tale problema sia ignorato del tutto nell’ambito di molte
scienze (ad esempio, nella maggior parte degli studi pubblicati sul Journal of Experimental Psychology),
esso può e deve essere posto in evidenza come un desideratum della ricerca didattico-pedagogica. Un modo
per ottenere una maggiore rappresentatività consiste nel ridurre il numero di studenti o di classi appartenenti
ad una data scuola o ad un dato anno di corso, aumentando nello stesso tempo il numero di scuole e di anni
di corso con riferimento ai quali viene condotto l’esperimento. Naturalmente, non si avranno mai esperimenti
effettuati su campioni estratti in modo rappresentativo da tutte le classi scolastiche degli Stati Uniti o del
mondo. Fino a che punto è possibile generalizzare una scoperta ottenuta in adempimento ai requisiti della
validità interna lo si apprende solo in modo graduale, attraverso prove ed errori. Ma questi tentativi di
generalizzazione sono destinati ad un maggiore successo se nel corso dell’esperimento iniziale il risultato è
stato ottenuto in presenza di un’ampia varietà di condizioni.
Nel campo degli atteggiamenti sociali, il Disegno 4 richiede un livello tale di collaborazione da parte
dei rispondenti o dei soggetti studiati che si finisce per condurre le ricerche soltanto su coloro che non
possono rifiutare di partecipare agli esperimenti, piuttosto che sull’uomo comune, di cui ogni ricercatore
vorrebbe essere in grado di parlare. In tale ambito, attribuiremmo al Disegno 4 un segno negativo (-) per la
selezione degli intervistati. Pure, per quanto riguarda le ricerche sull’insegnamento, l’universo di interesse è
costituito da una popolazione che non può sottrarsi alla sperimentazione e per la quale è possibile realizzare
numerose e diverse applicazioni del Disegno 4, tutte caratterizzate da un’elevata rappresentatività.
Condizioni sperimentali reattive. Nell’esperimento psicologico standard, se non nella ricerca in
ambito didattico-pedagogico, una delle principali cause di non rappresentatività risiede nel carattere
manifestamente artificiale del contesto sperimentale nonché nella consapevolezza da parte degli studenti di
sottoporsi a un esperimento. Nel caso in cui i soggetti testati siano esseri umani, essi si trovano a dover
svolgere un’attività di problem-solving più complessa; in questo caso, infatti, gli individui reagiscono alle
procedure ed al trattamento sperimentale non solo in quanto fonti di stimolo, ma anche in quanto chiavi per
risalire all’intento del ricercatore. La circostanza che i soggetti possano recitare un ruolo, che tentino di
cogliere le intenzioni del ricercatore, che assumano pose del tipo «sono pronto per l’ispezione» o «sono una
cavia» e simili, rimanda all’assunzione di atteggiamenti non rappresentativi del contesto scolastico e tali da
configurarsi quali elementi qualificatori dell’effetto esercitato da X, ostacolando seriamente qualsiasi
generalizzazione. Quando tali condizioni sperimentali reattive non possono essere evitate, occorrerà in tutti i
modi garantire lo svolgimento di esperimenti che soddisfino i requisiti della validità interna; resta tuttavia
inteso che è preferibile, ove possibile, procedere secondo disegni sperimentali non reattivi. Tale riflessione ci
riconduce, per certi aspetti, alle critiche che di solito vengono mosse contro la realizzazione di esperimenti
nelle scuole o nelle facoltà di Pedagogia, avvalorando l’obiezione più frequente, secondo la quale «tutte
queste ricerche» sarebbero inutili. Tuttavia, la nostra conclusione, più moderata, rifiuta l’idea che, per questi
motivi, si debbano abbandonare le ricerche, e sostiene il principio che, per questi stessi motivi, sia necessario
migliorarle. Le pagine che seguono contengono alcuni suggerimenti in proposito.
Qualsiasi aspetto della procedura sperimentale utilizzata può produrre tale effetto di reazione. Il pretest stesso, a prescindere dal suo contenuto, può determinare l’effetto di reazione, così come l’interazione fra
il pre-test e la variabile X può, in parte, essere di questa natura, per quanto, ai fini del controllo della validità
esterna, i maggiori sospetti ricadano sulle caratteristiche di contenuto del processo di testing. Il processo di
randomizzazione e di assegnazione dei soggetti ai trattamenti può ugualmente produrre una reazione: si
consideri l’effetto che potrebbe esercitare su una classe lo spostamento in un’altra aula della metà degli
studenti, scelti con procedimento casuale (come in Solomon, 1949). Tale iniziativa, insieme con la presenza
di questi strani «insegnanti», creerà certamente aspettative di qualcosa di insolito e spingerà i ragazzi a
chiedersi quale ne sia lo scopo. Lo stesso annuncio del trattamento sperimentale X, nel caso in cui esso sia
rappresentato da un evento non ordinario, potrebbe provocare un effetto reattivo. Anche nelle procedure
sperimentali che, come il Disegno 6 (v. oltre), prevedono soltanto il post-test, e dunque un’unica rilevazione,
è prevedibile che possano prodursi atteggiamenti di questo tipo. Più ovvio è il legame fra il trattamento
sperimentale ed il contenuto del post-test, maggiori probabilità sussistono che tale effetto si verifichi.
9
Nel campo della ricerca sui cambiamenti dell’opinione pubblica, il tentativo di evitare condizioni
sperimentali reattive può rivelarsi estremamente arduo. Per contro, nella maggior parte degli studi in ambito
didattico-pedagogico non è necessario comunicare agli studenti che si sta effettuando un esperimento. …
Vari aspetti dell’esperimento stesso possono essere funzionali allo scopo. Se, ad esempio, si scelgono come
X delle varianti degli avvenimenti che caratterizzano la normale vita di classe in determinati momenti del
calendario scolastico, e se i trattamenti sperimentali non vengono preceduti da particolari annunci, un terzo
della battaglia è vinta. Allo stesso modo, possiamo soddisfare anche la seconda esigenza, facendo passare le
osservazioni O per normali compiti in classe. Se i trattamenti X vengono somministrati sotto forma di
comunicazioni indirizzate a singoli studenti, la randomizzazione potrà essere ottenuta senza spostare
fisicamente in due aule diverse i campioni equivalenti ottenuti mediante procedimento casuale, e così via.
A seguito di tali considerazioni – ed a seguito delle osservazioni personali di ricercatori che hanno
pubblicato i loro dati malgrado fossero a tal punto insignificanti da condurre a risultati estremamente
fuorvianti – gli autori del presente lavoro vanno vieppiù convincendosi che la sperimentazione nelle scuole
deve essere condotta, quando è possibile, dallo stesso corpo docente, in particolare nel caso in cui si intenda
generalizzare i risultati ad altre classi.
Sebbene non rientri tra le finalità del presente lavoro individuare, nell’ambito della letteratura
disponibile, i buoni o i cattivi esempi di ricerca, vale la pena di citare, come caso concreto di ricerca ottimale,
un recente lavoro di Page (1958), in cui i parametri qui descritti sono adottati in modo eccellente (si evitano
condizioni sperimentali reattive, si ottengono campioni rappresentativi e non si danno interazioni fra il
fattore testing ed X). Lo studio di Page mostra come brevi commenti trascritti sui compiti in classe già svolti
migliorino i risultati che gli studenti conseguono nei compiti successivi. Questa scoperta è stata ottenuta
lavorando su un campione di 74 insegnanti, 12 scuole, 6 anni di corso (dalla 7a alla 12a classe), 5 differenti
votazioni (A, B, C, D, E) e su una grande varietà di materie scolastiche, senza riscontrare quasi alcun effetto
di interazione. Gli insegnanti e le classi sono stati selezionati con procedimento casuale ed il primo compito
realizzato in ciascuna classe è stato utilizzato come pre-test. L’insegnante assegnava gli studenti ai gruppi di
trattamento attraverso il lancio di uno speciale dado e, a seconda dell’esito del lancio, registrava o meno per
iscritto dei commenti sul foglio dell’elaborato svolto. Il successivo compito in classe, già previsto
nell’ambito delle normali attività didattiche, aveva la funzione di post-test. Per quanto a nostra conoscenza,
nessuno dei 2.139 studenti coinvolti sapeva di essere sottoposto ad un esperimento. Poche procedure di
istruzione riguardanti le varie fasi del procedimento si prestano ad una randomizzazione nascosta di questo
tipo, dal momento che, di norma, le comunicazioni orali necessarie sono rivolte all’intera classe e non a
singoli individui. (Le comunicazioni scritte consentono un’assegnazione randomizzata ai trattamenti, ma è
possibile che gli studenti si rendano conto dell’esistenza di trattamenti differenziati). Tuttavia, tenendo
presenti questi obiettivi ideali, i ricercatori possono rendere gli esperimenti non reattivi adottando un numero
di procedure di gran lunga superiore rispetto ad oggi.
La soluzione sempre valida per questo problema consiste nello spostare la randomizzazione al
livello dell’intera classe considerata come unità e nel costruire il gruppo sperimentale ed il gruppo di
controllo assegnando numerose classi all’uno o all’altro con procedimento casuale (si vedano Lindquist,
1940 e 1953). Di norma, ma non necessariamente, le classi vengono suddivise, ai fini dell’analisi, sulla base
di fattori quali la scuola, l’insegnante (nel caso in cui ciascun insegnante eserciti in più classi), la materia di
studio, l’orario, il livello medio di intelligenza, e così via; a partire da tale suddivisione, i gruppi da destinare
al trattamento sperimentale saranno determinati mediante assegnazione casuale. Le ricerche che ricalcano
questo schema generale realizzate fino a questo momento rappresentano un’eccezione, ma dovrebbero presto
diventare la regola. Si noti come il test di significatività appropriato non consisterebbe, in questo caso, nel
riunificare tutti gli studenti in un solo gruppo, come se essi fossero stati assegnati con procedimento casuale.
Questa procedura sarà analizzata più approfonditamente nel paragrafo successivo.
5. IL DISEGNO DI SOLOMON A QUATTRO GRUPPI
Malgrado il Disegno 4 sia il più utilizzato, il Disegno 5, ovvero il disegno di Solomon (1949) a
quattro gruppi, gode, a giusto titolo, di maggiore prestigio e rappresenta il primo esempio di disegno
sperimentale che tiene conto esplicitamente dei fattori da cui dipende la validità esterna. Il disegno di
Solomon è così strutturato:
R
R
R
R
O1
O3
X
X
O2
O4
O5
O6
10
Aggiungendo agli elementi del Disegno 4 (da O1 ad O4) un gruppo sperimentale ed un gruppo di
controllo non sottoposti a pre-test, tanto l’effetto principale ascrivibile al fattore testing quanto l’interazione
fra il fattore testing ed X diventano determinabili. In questo modo, non soltanto si ottiene un incremento della
generalizzabilità delle risultanze sperimentali ma, in aggiunta a ciò, l’effetto della variabile X viene replicato
in quattro diverse forme: O2 > O1 , O2 > O4 , O5 > O6 ed O5 > O3. In realtà, i fattori di instabilità che
intervengono nella sperimentazione sono talmente numerosi che, se queste comparazioni sono in accordo fra
loro, la forza dell’inferenza che se ne trae è notevolmente maggiore. Un altro contributo indiretto alla
generalizzabilità degli esiti sperimentali consiste nel fatto che, grazie all’esperienza derivante dalla ripetuta
applicazione del disegno di Solomon a vari ambiti di ricerca, si comprende meglio quale sia la probabilità
generica che si verifichino interazioni fra il fattore testing ed X, aumentando così la nostra capacità di
interpretare i Disegni 4 passati e futuri. Analogamente, si può notare, comparando O6 con O1 e con O3 ) un
effetto combinato del fattore maturazione e del fattore storia.
6. IL DISEGNO CON IL SOLO POST-TEST ED UN GRUPPO DI CONTROLLO
Sebbene il pre-test sia un concetto profondamente radicato in coloro che si occupano di ricerca in
ambito didattico e psicologico, esso non è affatto necessario ai fini della realizzazione di un autentico
disegno sperimentale. Per ragioni di natura psicologica, è difficile rinunciare all’idea di «sapere con
certezza» che il gruppo sperimentale e quello di controllo erano «equivalenti» prima di essere sottoposti a
differenti trattamenti sperimentali. Nondimeno, la procedura universale più adeguata per l’eliminazione di
distorsioni iniziali fra i due gruppi è la randomizzazione: entro gli intervalli di confidenza fissati dai test di
significatività, infatti, essa può dimostrarsi sufficiente anche in assenza di pre-test. Di fatto, quasi tutti gli
esperimenti condotti nelle scienze agrarie sulla falsariga della tradizione fisheriana non prevedono il pre-test
(Fisher, 1925 e 1935). Inoltre, in ambito pedagogico, in particolare per quanto riguarda la scuola elementare,
è necessario sperimentare frequentemente metodi per presentare agli studenti materie del tutto nuove e, in
questi casi, è impossibile realizzare un pre-test di tipo tradizionale. Analogamente, un pre-test sulle personali
convinzioni dei giurati in merito all’innocenza o alla colpevolezza dell’imputato sarebbe inopportuno in uno
studio sugli effetti delle arringhe degli avvocati. Il Disegno 6 soddisfa questa necessità ed è, inoltre,
applicabile a tutti i contesti in cui si potrebbero utilizzare anche i Disegni 4 e 5, ossia i disegni sperimentali
che consentono di effettuare una vera e propria randomizzazione. Il Disegno 6 assume questa forma:
R
X
O1
R
O2
Sebbene tale disegno sia stato applicato già a partire dagli anni 20’, esso non rientra fra quelli
consigliati dalla maggior parte dei testi di metodologia della ricerca didattico-pedagogica. Ciò si deve, in
parte, al fatto che il Disegno 6 viene spesso confuso con il Disegno 3 e, in parte, alla sfiducia nella
randomizzazione come procedura per ottenere gruppi equivalenti. Esso può essere considerato come una
sezione – gli ultimi due gruppi – del disegno di Solomon. Com’è evidente, il Disegno 6 permette di
controllare tanto l’effetto principale del testing quanto il suo effetto di interazione, ma, a differenza del
Disegno 5, non ne consente la misurazione. Tuttavia, quest’ultimo aspetto può essere considerato marginale
a fronte della questione centrale che riguarda la presenza o meno di un effetto di X. Pertanto, se, da una parte,
per le ragioni summenzionate, il Disegno 5 è da preferire al 6, dall’altra, i vantaggi supplementari derivanti
dall’adozione del Disegno 5 potrebbero non valere lo sforzo più che doppio che esso richiede.
Analogamente, il Disegno 6 deve essere, di norma, preferito al 4, a meno che non si abbia motivo di dubitare
del carattere autenticamente casuale del procedimento di assegnazione dei soggetti ai gruppi. In generale, il
Disegno 6 è scarsamente utilizzato nell’ambito della ricerca pedagogica e psicologica.
Tuttavia, nei contesti caratterizzati da test ripetuti, che contraddistinguono la maggior parte delle
ricerche sull’insegnamento, ove siano disponibili significative variabili antecedenti, esse dovrebbero
senz’altro essere utilizzate per l’assegnazione casuale stratificata o il livellamento randomizzato, oppure
come covariate. Questo per due ragioni. In primo luogo, i test statistici per il Disegno 4 sono più potenti
rispetto a quelli che si applicano con riferimento al Disegno 6. Sebbene, in gran parte dei contesti di ricerca,
il maggiore impegno richiesto per la realizzazione del Disegno 4 annulli questo vantaggio, tale inconveniente
potrebbe essere superato nell’eventualità di poter disporre di dati rilevanti raccolti precedentemente.
Secondariamente, la disponibilità dei risultati di un pre-test consente di esaminare l’interazione fra la
variabile X ed il livello di risposta rilevato attraverso il pre-test, indagando così in maniera più approfondita
circa la generalizzabilità dei risultati. Qualcosa di simile è possibile per il Disegno 6, utilizzando, in questo
caso, in luogo dei risultati del pre-test gli altri dati disponibili. Ma queste valutazioni, unitamente alla
11
considerazione che nel campo della ricerca didattico-pedagogica la frequente realizzazione di test costituisce
una prerogativa dell’universo al quale si desiderano generalizzare le risultanze sperimentali, possono
capovolgere il giudizio, facendo preferire il Disegno 4 rispetto al 6. Inoltre, nel Disegno 4, quale che sia la
mortalità fra R ed il post-test, i dati ricavati dal pre-test offrono maggiori opportunità di escludere l’ipotesi
secondo cui il gruppo sperimentale ed il gruppo di controllo presentano un tasso di mortalità differente.
Malgrado ciò, in molti casi il pre-test è impossibile, non conveniente o, con molta probabilità, reattivo; a
queste condizioni, l’applicazione del Disegno 6 diventa legittima in molti ambiti di ricerca. Oltre alle
ricerche riguardanti i metodi di insegnamento di materie nuove per gli studenti, esistono molti casi in cui (1)
il trattamento sperimentale X e l’osservazione O del post-test possono essere effettuati su singoli studenti, o
su gruppi trattabili come un unico insieme naturale, e (2) un pre-test sarebbe inopportuno. Tali situazioni
ricorrono spesso nelle ricerche riguardanti le stesse procedure di testing, come negli studi sulle differenti
modalità di addestramento al test, sui differenti formati dei questionari, e così via. Molto simili a questi sono
gli studi sugli inviti persuasivi a partecipare volontariamente a determinate iniziative o attività. Qualora sia
necessario garantire l’anonimato dei partecipanti all’esperimento, il Disegno 6 è, di norma, il più
conveniente. In questi casi, la randomizzazione si ottiene combinando i materiali in distribuzione.
12