Estratto da D.T. Campbell, J.C, Stanley, Disegni sperimentali e quasi

Transcript

Estratto da D.T. Campbell, J.C, Stanley, Disegni sperimentali e quasi
Estratto da D.T. Campbell, J.C, Stanley, Disegni sperimentali e quasi-sperimentali per la ricerca
I DISEGNI QUASI-SPERIMENTALI
In numerosi contesti sociali naturali è possibile effettuare la raccolta dei dati ricorrendo a
procedure che si approssimano ad un disegno sperimentale (potendo decidere, ad esempio, quando
compiere l’osservazione e quali soggetti osservare), anche qualora non sia possibile controllare
appieno, come richiederebbe un esperimento vero e proprio, la sequenza degli stimoli sperimentali
(quando effettuare il trattamento e quali soggetti esporre ad esso, tenendo altresì conto della
randomizzazione delle esposizioni). Queste situazioni possono essere definite, nell’insieme, “disegni
quasi-sperimentali”. Uno degli scopi del presente capitolo consiste nel promuovere l’uso dei disegni
quasi-sperimentali e nell’incrementare la capacità di riconoscere i contesti in cui si danno le condizioni
per un loro impiego. Ma, proprio perché tali disegni non permettono un controllo sperimentale
completo, è necessario che il ricercatore conosca quali sono le specifiche variabili di cui il particolare
disegno di ricerca utilizzato non garantisce il controllo.
Il capitolo precedente avrà probabilmente accresciuto le preoccupazioni dello studioso medio
o del potenziale ricercatore alle prese con la progettazione di un esperimento. Ciò è senz’altro positivo
se spinge a mettere a punto e realizzare esperimenti migliori e se conduce ad una maggiore cautela nel
trarre inferenze dai risultati ottenuti. Tuttavia, tali preoccupazioni potrebbero determinare un
indesiderato effetto collaterale se il ricercatore maturasse la convinzione che il controllo sperimentale
è irraggiungibile, essendo così indotto ad abbandonare qualsiasi tentativo in tal senso a favore di
procedure di indagine ancor più informali. Inoltre – e con probabilità persino maggiori – questo
impressionante elenco di fattori di invalidità potrebbe ridurre la volontà di avvalersi dei disegni quasisperimentali, nei quali appare subito evidente la mancanza di un controllo sperimentale completo. Se
così fosse si sarebbe ottenuto il risultato opposto a quello che il presente lavoro si propone di
raggiungere.
Qualsiasi esperimento è imperfetto dal punto di vista dell’interpretazione definitiva dei
risultati raggiunti e del tentativo di collocarlo nell’ambito di una scienza in evoluzione.
L’esplicitazione dei criteri di validità dovrebbe contribuire ad accrescere la consapevolezza del
ricercatore in merito alle imperfezioni residue del disegno adottato, di modo che, con riguardo alle
questioni rilevanti, egli possa prendere atto dell’esistenza di differenti possibili interpretazioni dei dati
raccolti. Naturalmente, è auspicabile che il ricercatore si sforzi di predisporre il miglior esperimento
possibile in rapporto alla situazione, e valuti attentamente quali sono i contesti artificiali e naturali in
cui risultano soddisfatte al meglio le condizioni di controllo. Inoltre, il ricercatore dovrebbe condurre
l’esperimento e procedere all’interpretazione avendo piena cognizione dei punti in merito ai quali i
risultati ottenuti sono ambigui. Tale consapevolezza, pure importante per gli esperimenti in cui si
esercita un controllo “pieno”, risulta essenziale per quanto riguarda i disegni quasi-sperimentali.
Adempiendo a questa finalità generale, analizzeremo, nella sezione che segue, i punti di forza
e di debolezza di alcuni disegni quasi-sperimentali, ciascuno dei quali riteniamo sia meritevole di
adozione qualora non sia possibile ricorrere a disegni migliori.
Alcune osservazioni preliminari sulla teoria della sperimentazione
(…) La scienza, così come altri processi conoscitivi, implica la formulazione di teorie, ipotesi,
modelli, etc., suscettibili di essere accettati o rifiutati sulla base di qualche criterio esterno. La
sperimentazione appartiene a questa seconda fase, alla fase di vaglio, rifiuto e rielaborazione.
Potremmo immaginare un’ecologia della scienza di cui ci occupiamo, nella quale il numero delle
possibili ipotesi positive superi notevolmente il numero delle ipotesi che si dimostreranno alla lunga
compatibili con le nostre osservazioni. Il compito di raccogliere dati che consentano di controllare
una teoria in gran parte coincide, quindi, con il rifiuto delle ipotesi inadeguate. Per portare a termine
tale compito, qualsiasi struttura organizzata di dati osservativi in grado di determinare esiti invalidanti
per la teoria sarà utile, inclusi i disegni quasi-sperimentali, caratterizzati da un’efficacia inferiore
rispetto agli esperimenti propriamente detti.
Ma, ci si potrebbe chiedere, disegni imperfetti di questo tipo non daranno origine a conferme
spurie di teorie inadeguate? Non indirizzeranno nella direzione errata le ricerche che seguiranno? Non
1
riempiranno le riviste con dozzine di studi, apparentemente necessari per sradicare un solo falso
positivo pubblicato con grande rilievo? Certo, si tratta di un grave rischio, che, tuttavia, bisogna
correre. Un rischio della stessa natura, sebbene di grado diverso, è presente negli esperimenti “veri e
propri” che abbiamo definito come Disegni 4, 5 e 6. Essenzialmente, i risultati sperimentali non
“confermano” né “provano” mai una teoria – piuttosto, la teoria accettata è stata sottoposta a controllo
ed è sfuggita alla sconferma. In virtù del fatto che viene spesso utilizzato per indicare la validità
deduttiva, il termine “prova” ha acquisito per la nostra generazione una connotazione impropria, tanto
con riferimento agli usi più consolidati quanto con riferimento alle sue applicazioni a procedure
induttive quali la sperimentazione. I risultati di un esperimento “indagano” non “provano” una teoria.
Un’ipotesi adeguata è quella che è ripetutamente sopravvissuta a tale indagine – tuttavia, essa potrebbe
essere sconfermata in qualsiasi momento da una nuova indagine.
È, oggi, universalmente condivisa l’idea secondo cui l’”ipotesi nulla”, spesso formulata per
convenienza nella forma di una proposizione alla base di un esperimento, non può mai essere
“accettata” in virtù dei dati ottenuti; essa può soltanto essere “rifiutata” o “non rifiutata”. Lo stesso
dicasi delle ipotesi intese in senso più generale – tecnicamente, esse non sono mai “confermate”:
quando, per convenienza, impieghiamo questo termine intendiamo, piuttosto, che l’ipotesi è stata
sottoposta a sconferma e non è stata sconfermata. Questo punto di vista è compatibile con tutte le
filosofie della scienza di stampo humeano, che enfatizzano l’impossibilità di provare per via deduttiva
leggi ottenute per via induttiva. Recentemente, Hanson (1958) e Popper (1959) sono stati
particolarmente espliciti su questo punto. Molti dati raccolti nell’ambito della ricerca
sull’insegnamento hanno un valore minimo o nullo e molte ipotesi sono eccessivamente flessibili, al
punto di non poter essere sconfermate sulla base delle indagini che vengono condotte. Aumentare la
credibilità di queste pseudo-ricerche non fa parte dei nostri desideri. Riteniamo, tuttavia, che i disegni
di ricerca che si analizzeranno nelle pagine seguenti abbiano una capacità di indagine sufficiente per
essere utilizzati nel caso in cui non siano possibili indagini più efficaci.
Se, da una parte, la nozione secondo cui gli esperimenti non “confermano” mai una teoria è
corretta, dall’altra, essa è talmente contraria ai nostri atteggiamenti e alle nostre esperienze di
scienziati da risultare quasi intollerabile. Questa enfasi appare particolarmente inadeguata se si pensa
alle raffinate e sorprendenti conferme rintracciabili nell’ambito della fisica e della chimica, dove è
possibile che, in numerosi punti di misurazione, i dati sperimentali si dispongano perfettamente lungo
la curva complessa prevista dalla teoria. E questa prospettiva diventa fenomenologicamente
inaccettabile per molti di noi quando viene estesa ai risultati induttivi ricavati attraverso la vista. Ad
esempio, è difficile accettare che i tavoli e le sedie che “vediamo” davanti a noi non sono “confermati”
o “provati” dall’evidenza visiva, ma sono “mere” ipotesi sugli oggetti esterni non ancora sconfermate
dalle molteplici investigazioni del sistema visivo. Tale riluttanza contiene un briciolo di verità.
Le numerose ipotesi rivali plausibili, capaci di dar conto dei dati raccolti conferiscono a una teoria
gradi diversi di “conferma”: minore è il numero delle ipotesi rivali residue, maggiore è il grado di
“conferma” della teoria. Presumibilmente, anche per le scienze più avanzate, in qualsiasi stadio del
processo di accumulazione delle prove esistono numerose teorie possibili che sono compatibili con i
dati, in particolare se vengono ammesse tutte le teorie che presuppongono evenienze complesse.
Eppure, è probabile che siano poche o nulle le ipotesi teoriche rivali disponibili a livello pratico o
seriamente proponibili, in grado di competere con teorie “saldamente fondate” e con teorie sottoposte
a controlli approfonditi mediante esperimenti complessi. Questa scarsità rappresenta la controparte
epistemologica della conferma positiva di una teoria, che la sperimentazione sofisticata sembra offrire.
Un’analoga scarsità di ipotesi rivali si ha nella conoscenza fenomenologicamente positiva che la vista
sembra offrire, in contrasto, ad esempio, con la relativa ambiguità della esplorazione tattile dei non
vedenti.
In questa prospettiva, l’elencazione dei fattori di invalidità che i disegni sperimentali
controllano può essere considerata come una esplicitazione di ipotesi, spesso plausibili, rivali rispetto
a quella secondo cui la variabile sperimentale ha avuto un effetto. Nel caso in cui un disegno
sperimentale “controllasse” uno di tali fattori di invalidità, sarebbe annullata semplicemente l’ipotesi
rivale associata al fattore in questione, sebbene, attraverso possibili, complesse coincidenze, essa possa
ancora essere tirata in ballo per spiegare il risultato sperimentale. Le “ipotesi rivali plausibili” che
hanno richiesto il consueto ricorso a speciali gruppi di controllo hanno lo status di leggi empiriche
accettate: gli effetti determinati dalla pratica hanno determinato l’aggiunta di un gruppo di controllo al
2
Disegno 2, così come, in campo medico, la suggestionabilità e lo shock operatorio hanno imposto che
si selezionassero, rispettivamente, il gruppo di controllo placebo e il gruppo di controllo sottoposto ad
una operazione chirurgica simulata. Le ipotesi rivali sono plausibili fin tanto che siamo disposti ad
attribuire loro lo status di leggi empiriche. Interpretando i risultati di un quasi-esperimento in cui
manchi qualche tipo di controllo, si dovrà considerare accuratamente l’ipotesi che vi siano fattori non
controllati in grado di spiegarli. Minore è la plausibilità di questa ipotesi, maggiore risulterà la
“validità” dell’esperimento.
Come è stato sottolineato analizzando il disegno di Solomon a quattro gruppi (Disegno 5),
maggiore è il numero e maggiore è l’indipendenza delle modalità attraverso le quali l’effetto
sperimentale viene controllato, minore sarà il numero e minore sarà la plausibilità di singole ipotesi
rivali invalidanti. Il nostro è un appello alla parsimonia. La “validità” dell’esperimento diventa una
questione riguardante la credibilità relativa delle teorie rivali: l’ipotesi teorica secondo cui X ha
prodotto un effetto versus le ipotesi teoriche della causazione che presuppongono l’azione di fattori
incontrollati diversi da X. Se un’unica ipotesi teorica, secondo cui X ha prodotto un effetto, può essere
introdotta per dar conto di più insiemi di differenze osservate, mentre, in alternativa, bisognerebbe
presumere molti altri effetti separati determinati da variabili incontrollate, un effetto per ciascuna
differenza osservata, allora sembra ragionevole far propria la prima opzione. Gli scienziati fanno
spesso appello a questa modalità di inferenza quando riassumono una letteratura caratterizzata dalla
scarsa presenza di esperimenti perfettamente controllati. Così, Watson (1959, p. 296) ha rilevato che
gli effetti negativi prodotti dalla deprivazione materna sono sostenti da una quantità di evidenze di
diversa natura, la cui specificità varia da uno studio all’altro. Del pari, Glickman (1961), pur rilevando
la presenza di ipotesi rivali plausibili praticamente in tutte le indagini riguardanti uno specifico settore
di studi, ha fatto notare che il processo di consolidamento di una data ipotesi sperimentale risulta
sorprendente proprio perché l’ipotesi rivale plausibile varia da un’indagine all’altra.
(…) Nelle pagine che seguono ci occuperemo in primo luogo degli esperimenti basati su un
solo gruppo. A partire, perlomeno, dal 1920, il disegno sperimentale dominante all’interno della
psicologia e della pedagogia prevede un gruppo di controllo, come, ad esempio, il Disegno 4, il 6 o,
forse ancora più spesso, il Disegno 10, che sarà analizzato più oltre. Nelle scienze sociali e nella
riflessione riguardante le indagini sul campo, i disegni che prevedono un gruppo di controllo
dominano a tal punto la scena da essere considerati dai più sinonimo di “sperimentazione”. Di
conseguenza, è possibile che molti ricercatori rinuncino al tentativo di una sperimentazione in quei
contesti in cui non sono disponibili gruppi di controllo, finendo così con l’ottenere risultati di ricerca
ancor più approssimativi. Esistono, di fatto, molti disegni quasi-sperimentali che risultano applicabili a
singoli gruppi e proficuamente utilizzabili, secondo una logica e un’ interpretazione sperimentali, in
molti contesti in cui non è possibile attuare un disegno che preveda il gruppo di controllo. Spesso, la
collaborazione e l’accesso sperimentale sono possibili all’interno di unità di tipo amministrativo: un
insegnante ha a disposizione la sua classe, il preside di una scuola superiore potrebbe voler effettuare
periodicamente indagini sul morale degli insegnanti e degli studenti, e così via. In questi casi, il
trattamento differenziale dei segmenti interni all’unità (necessario per un esperimento con gruppo di
controllo) potrebbe essere impraticabile per ragioni di carattere strutturale-amministrativo, ovvero,
sebbene attuabile, potrebbe essere giudicato poco desiderabile proprio dal punto di vista dei risultati
dell’indagine, a causa degli effetti reattivi che determinerebbe. In contesti così caratterizzati, si
possono quindi prendere in considerazione disegni sperimentali basati su un solo gruppo.
7. L’ESPERIMENTO BASATO SULLE SERIE TEMPORALI
L’essenza del presente disegno consiste nell’introduzione di una variazione sperimentale
all’interno di un processo periodico di misurazione riguardante un dato gruppo o individuo, gli effetti
della quale sono indicati proprio da una discontinuità dei risultati delle misurazioni effettuate nella
serie temporale considerata. Questo disegno può essere rappresentato graficamente nella seguente
forma:
O1 O2 O3 O4 X O5 O6 O7 O8
Il disegno basato sulle serie temporali ha caratterizzato la maggior parte degli esperimenti
classici condotti nel XIX secolo nell’ambito delle scienze fisiche e della biologia. Ad esempio,
3
consideriamo l’immersione in un bagno di acido nitrico di una barra di ferro il cui peso è rimasto
invariato per molti mesi; e immaginiamo che dopo l’immersione si registri una variazione
decrementale del peso della barra. Nel caso specifico, l’istituzione di un nesso tra l’immersione in
acido nitrico e la susseguente perdita di peso della barra seguirebbe una logica sperimentale di questo
tipo. Certamente, sarebbe possibile costituire dei “gruppi di controllo” rappresentati da barre di ferro
riposte sugli scaffali, il cui peso rimane invariato; tuttavia, la misurazione e la registrazione del peso di
queste barre non sarebbero, di norma, ritenute necessarie né rilevanti. Si comprende, dunque, perché
questo disegno venga spesso giudicato ammissibile nelle scienze di maggior successo, mentre
raramente esso viene annoverato tra i disegni sperimentali validi per le scienze sociali (si vedano,
tuttavia, Maxwell, 1958; Underwood, 1957b, p. 133). Tale differenza di status si basa su fondati
motivi, una considerazione attenta dei quali consentirà di capire meglio a quali condizioni tale disegno
può essere efficacemente impiegato dagli scienziati sociali qualora un controllo sperimentale più
completo sia impossibile. Questo disegno caratterizza gli esperimenti classici condotti dal British
Industrial Fatigue Research Board sui fattori che influenzano la produzione industriale (ad esempio,
Farmer, Brooks e Chambers, 1923).
4
La Figura 3 mostra alcuni possibili modelli derivanti dall’introduzione in una serie temporale
(O1 - O8) di una variazione sperimentale, rappresentata dalla linea verticale X. Ai fini della nostra
discussione, supponiamo che un ricercatore sia tentato di inferire che X abbia avuto un effetto
analizzando le serie temporali rappresentate in A e B e, probabilmente, C, D ed E, ma che non sia
incline ad inferire tale effetto studiando le serie temporali rappresentate in F, G ed H, pur avendo egli
osservato che lo scarto fra i valori registrati in O4 ed in O5 nei casi F, G ed H presenta la stessa
ampiezza e la stessa stabilità statistica rilevata nei casi precedenti, ad eccezione del caso D. (...)
possiamo assumere che il problema della validità interna rinvia in ultima analisi alla presenza di
plausibili ipotesi rivali in grado di fornire una spiegazione credibile – e alternativa a quella offerta
dall’ipotesi sperimentale – della variazione osservata nelle serie temporali. I punti di forza di questo
disegno appaiono evidenti in contrapposizione al Disegno 2, con il quale presenta un’affinità
superficiale rappresentata dalla mancanza di un gruppo di controllo e dall’utilizzazione di misurazioni
prima-e-dopo.
Analizzando i problemi relativi alla validità interna, si rileva che il principale punto debole del
Disegno 7 risiede nell’assenza di garanzie in merito al controllo del fattore storia. In altri termini, è
possibile formulare un’ipotesi rivale secondo cui non X, ma un evento più o meno contemporaneo ad
X abbia determinato la variazione rilevata. La fiducia attribuita alle potenzialità interpretative di questo
disegno sperimentale nelle singole, concrete applicazioni di ricerca riposa sulla possibilità di eliminare
stimoli estranei di tale natura. Si consideri un esperimento, basato su misurazioni ripetute, sull’effetto
di un documentario sull’ottimismo degli studenti in merito all’eventualità di una guerra. In questo
caso, l’incapacità di controllare chiaramente il fattore storia sembrerebbe rappresentare un problema
estremamente serio, considerato che gli studenti sono quotidianamente esposti a molte fonti di stimoli,
potenzialmente rilevanti, che si aggiungono a quelli somministrati in classe, sotto il diretto controllo
del ricercatore. Naturalmente, persino in questo caso, se l’esperimento dovesse essere accompagnato
dalla registrazione accurata degli stimoli non sperimentali aggiuntivi e potenzialmente rilevanti,
sarebbe possibile quell’interpretazione plausibile che fa sì che valga la pena di effettuare la
sperimentazione. Come evidenziato in precedenza, il fattore storia rappresenta la controparte di quello
che nelle ricerche di laboratorio condotte nell’ambito della fisica e della biologia viene definito
isolamento sperimentale. La plausibilità della storia come fattore di spiegazione di variazioni quali
quelle rilevate nelle serie temporali A e B della Figura 3 dipende in larga misura dal grado di
isolamento sperimentale che il ricercatore può assicurare. Gli studi sul riflesso condizionato realizzati
da Pavlov sui cani – essenzialmente, esperimenti con “un solo gruppo” o con “un solo animale” –
avrebbero fornito un sostegno di gran lunga meno credibile alle sue teorie se fossero stati condotti
all’angolo di una strada molto trafficata piuttosto che in un laboratorio isolato acusticamente. Ciò che
costituisce l’isolamento sperimentale varia in ragione del problema studiato e del tipo di strumento di
misurazione utilizzato. Costruire l’isolamento sperimentale in uno studio sulle particelle subatomiche
che si avvale delle camere a nebbia o dei contatori di scintillazione richiede più precauzioni di quante
non siano necessarie per l’ipotetico esperimento sulle barre di ferro immerse in acido nitrico, citato in
precedenza. In molte delle situazioni che consentirebbero l’utilizzo del Disegno 7, il ricercatore
potrebbe plausibilmente richiamarsi a una nozione di isolamento sperimentale inteso come
consapevolezza, da parte sua, dei possibili eventi rivali capaci di determinare la variazione rilevata, e
potrebbe plausibilmente argomentare la scarsa probabilità di spiegare l’effetto osservato nei termini di
quegli eventi.
Gli effetti del clima e della stagione rientrano fra le altre variabili estranee che potremmo per
comodità ricondurre al fattore storia. Gli esperimenti di questo tipo, infatti, sono suscettibili di
estendersi per periodi di tempo talmente lunghi da comprendere variazioni stagionali, e, come negli
studi sulla produttività dei lavoratori, le fluttuazioni stagionali della luce, del clima, e così via possono
essere confuse con l’introduzione di una variazione sperimentale. Potrebbero, forse, essere ugualmente
ricondotte al fattore storia, sebbene siano in un certo senso pertinenti al fattore maturazione, le
variazioni periodiche nelle serie temporali corrispondenti a determinate consuetudini istituzionali del
gruppo, quali, ad esempio, i cicli settimanali di lavoro, i cicli legati alla retribuzione stipendiale, i
periodi degli esami, le vacanze e le festività studentesche. Le serie di osservazioni dovrebbero essere
messe a punto in modo tale da mantenere costanti i cicli noti o, in alternativa, dovrebbero essere
prolungate fino a contenere svariati cicli completi di questo tipo.
5
Proseguendo l’analisi dei fattori da controllare, sembra possibile escludere l’azione del fattore
maturazione, dato che, se il risultato ottenuto è del tipo rappresentato nei diagrammi A o B della figura
3, non è possibile, di norma, formulare sulla base di detto fattore ipotesi rivali plausibili capaci di
spiegare la variazione verificatasi nel passaggio da O4 ad O5, ma non rilevata nelle osservazioni
effettuate nei periodi precedenti. (Tuttavia, è possibile che la maturazione non si manifesti in forma
semplice e regolare. Si noti come, in mancanza di ulteriori informazioni, l’improvvisa apparizione del
ciclo mestruale nelle ragazze che frequentano il primo anno della scuola media inferiore potrebbe
sembrare, sulla base del solo dato fisiologico, un effetto del passaggio da un livello di istruzione
all’altro). Analogamente, risulterebbe in generale scarsamente plausibile un’ipotesi rivale che tentasse
di spiegare lo scarto rilevato fra O4 ed O5 nei termini di un effetto del fattore testing. Evidentemente,
potendo disporre, come nel Disegno 2, esclusivamente delle osservazioni O4 ed O5, verrebbe meno la
possibilità di escludere dalla spiegazione tanto l’effetto della maturazione quanto l’effetto del testretest. In ciò risiede il grande vantaggio che il Disegno 7 presenta rispetto al Disegno 2.
Analogamente, molte delle ipotesi che attribuiscono la variazione osservata ad una variazione
dello strumento utilizzato non sarebbero in grado di spiegare per quale ragione l’errore strumentale si
verifica nello specifico caso considerato, ma non nei precedenti. In quanto al fattore strumentazione,
qui si richiama l’attenzione sulle situazioni in cui la conseguenza di un’alterazione dello strumento di
misura potrebbe essere erroneamente interpretata come effetto di X. (…) Il Disegno 7 può spesso
essere impiegato per misurare gli effetti di una significativa variazione delle politiche governative.
Tenendo conto di quanto si è detto, quando si introduce un cambiamento di questo tipo è preferibile
lasciare immutato lo strumento utilizzato per rilevarne gli effetti. In molti casi, per preservare
l’interpretabilità di una serie temporale, è preferibile continuare ad impiegare uno strumento già in uso
piuttosto che adottare uno nuovo.
Gli effetti dovuti al fattore regressione sono, di norma, una funzione accelerata inversamente
proporzionale al tempo trascorso; di conseguenza, essi non tornano utili per spiegare plausibilmente
perché il valore rilevato in O5 risulta maggiore rispetto a quello rilevato in O2, O3 ed O4. In quanto al
fattore selezione, nel caso in cui tutte le osservazioni O siano effettuate sugli stessi soggetti, esso può
essere escluso in qualità di causa di un effetto principale, sia con riferimento a questo tipo di disegno
sia con riferimento al Disegno 2. Se i dati relativi ad un gruppo sono fondamentalmente costituiti da
informazioni riguardanti i singoli componenti, allora è possibile escludere altresì il fattore mortalità,
come già avveniva per il Disegno 2. Tuttavia, se le osservazioni sono costituite da prodotti di natura
collettiva, allora è necessario monitorare l’assenteismo, gli abbandoni e i subentri all’interno del
gruppo in modo da assicurarsi che la concomitanza di questi cambiamenti non fornisca un’ipotesi
rivale plausibile.
Per quanto riguarda la validità esterna, è evidente che l’effetto sperimentale potrebbe ben
essere circoscritto alle popolazioni ripetutamente sottoposte al test. Nell’ambito della ricerca
sull’insegnamento, è molto difficile che si presenti un problema di questa natura, se non nei casi in cui
siano previsti cicli di osservazioni artificiali che esulano dal normale contesto scolastico. Di più:
questo disegno è particolarmente adatto a quei contesti istituzionali in cui la raccolta sistematica di
dati inerenti all’attività svolta si configura come un adempimento essenziale. Gli esami di profitto
effettuati annualmente nelle scuole pubbliche, l’annotazione delle assenze per malattia, e simili,
rappresentano, di norma, attività non reattive, in quanto rientrano in modo del tutto naturale tra le
funzioni proprie dell’universo al quale si desidera estendere la generalizzazione. L’interazione fra X e
il fattore selezione rinvia alla possibilità che gli effetti della variabile sperimentale siano limitati allo
specifico campione su cui è stato condotto l’esperimento e che la reazione osservata non sia tipica
dell’universo oggetto di indagine, rispetto al quale il gruppo esposto al trattamento, proprio perché
aggregatosi in modo naturale, non è che un campione distorto. Ad esempio, i vincoli posti da questo
disegno sperimentale possono indurre il ricercatore a prendere in considerazione soltanto gli studenti
che si sono sottoposti ai test con continuità e che costituiscono, ovviamente, un sottoinsieme a sé
stante. Inoltre, qualora siano state effettuate numerose osservazioni, come il Disegno 7 del resto
prevede, è possibile che proprio la ripetizione del test abbia causato un effetto di assenteismo e di
conseguente riduzione/selezione del gruppo originario di studenti.
Affinché le serie temporali possano essere correttamente interpretate come esperimenti, è
necessario che il ricercatore sia in grado di specificare l’ampiezza attesa dell’intervallo di tempo
compreso fra l’introduzione della variabile sperimentale e la manifestazione di un suo effetto. Con una
6
simile precisazione, il modello indicato dalla serie temporale D della Figura 3 potrebbe essere
giudicato non meno conclusivo del modello della serie temporale A. (…) A mano a mano che aumenta
l’intervallo temporale fra la variabile sperimentale X e l’effetto osservato, aumenta anche la probabilità
che l’effetto osservato sia dovuto a circostanze storiche estranee.
Appare, inoltre, indispensabile specificare la X prima di esaminare il risultato delle serie
temporali. L’esame post hoc di una serie temporale allo scopo di inferire quale X abbia preceduto la
variazione più vistosa non è ammissibile, perché consente una capitalizzazione opportunistica della
casualità che rende difficile, se non impossibile, qualsiasi tentativo di stimare la significatività
dell’effetto.
La prevalenza di questo disegno nell’ambito delle scienze di maggiore successo dovrebbe
indurci a considerarlo con notevole rispetto. Tuttavia, va ricordato che le questioni dell’”isolamento
sperimentale” e delle “condizioni costanti” rendono i risultati delle applicazioni del Disegno 7 di più
facile interpretazione per queste scienze che per le nostre. Bisogna, inoltre, tenere presente che, così
come applicato negli ambiti di nostra competenza, un solo esperimento non è mai decisivo. Sebbene
sia possibile che non si faccia mai ricorso al gruppo di controllo, è bene che l’indagine basata sul
Disegno 7 sia replicata in situazioni differenti da differenti ricercatori prima che possa essere stabilito
un dato risultato. Anche noi dovremmo utilizzarlo in questo modo; soprattutto, sapendo che
ricorreremo ad esso quando non è possibile applicare un disegno che consenta un controllo migliore.
Organizzeremo i nostri archivi di dati istituzionali in modo da ottenere quante più serie temporali sono
possibili per questo tipo di valutazioni, esaminando più dettagliatamente gli effetti in ipotesi connessi
a mutamenti di natura amministrativa e ad altri eventi imprevisti e discontinui, e cercando di capire a
quale/i di essi è possibile attribuire realisticamente lo status di X. Tuttavia, i risultati non potranno
essere considerati definitivi prima che l’indagine sia ripetuta più volte e nell’ambito di contesti
differenti.
8. IL DISEGNO CON CAMPIONI TEMPORALI EQUIVALENTI
Il disegno sperimentale di forma più comune prevede l’utilizzo di un campione equivalente di
soggetti che funge da base di comparazione degli effetti della variabile sperimentale. Per converso,
una forma ricorrente di esperimento con un solo gruppo prevede l’utilizzo di due campioni equivalenti
di occasioni, in uno soltanto dei quali è presente la variabile sperimentale. Tale disegno può essere
rappresentato graficamente nel modo seguente (sebbene l’alternanza debba essere considerata casuale
piuttosto che regolare):
X1O X0O X1O X0O
Il Disegno 8, quindi, prevede che la variabile sperimentale venga introdotta a più riprese,
configurandosi così come una variante del Disegno 7, in cui la variabile di trattamento, come si è
visto, interviene in un unico, definito momento. Ovviamente, la sua utilità è maggiore nel caso in cui
sia noto in anticipo che l’effetto della variabile sperimentale avrà un carattere transitorio o reversibile.
Sebbene la logica su cui si fonda questo esperimento possa essere considerata un’estensione di quella
che sta alla base dell’esperimento delle serie temporali, l’analisi statistica dei risultati viene condotta
secondo modalità più vicine a quelle dell’esperimento con due gruppi, valutando la significatività della
differenza fra le medie di due serie di misurazioni. Di norma, le misurazioni sono puntualmente
congiunte alle somministrazioni della variabile sperimentale, risultando spesso concomitanti, come
negli studi sull’ apprendimento, la produttività, i condizionamenti, le reazioni fisiologiche, e così via.
Probabilmente, il primo, e più tipico, utilizzo di questo disegno sperimentale – ad esempio, nelle
ricerche di Allport (1920) e Sorokin (1930) sul rendimento degli studenti in varie condizioni –
prevedeva la comparazione fra due variabili sperimentali, ossia X1 versus X2, piuttosto che fra una
variabile sperimentale ed una di controllo. La procedura consistente nell’alternare con regolarità le
differenti condizioni sperimentali e nell’effettuare il test dopo un consistente intervallo temporale non
è, nella maggior parte dei casi, auspicabile; in particolare, nei casi in cui si possa ingenerare
confusione con i cicli giornalieri, settimanali e mensili, ovvero nelle circostanze in cui, attraverso la
sua prevedibile periodicità, un condizionamento indesiderato dell’intervallo temporale possa
accentuare la differenza fra un trattamento e l’altro. Così, Sorokin si assicurò che ciascun trattamento
sperimentale fosse effettuato con la stessa frequenza di pomeriggio e di mattina.
7
Nella maggior parte dei casi, ciascuna delle condizioni sperimentali viene introdotta in un
numero relativamente limitato di occasioni, tuttavia lo sviluppo impresso da Brunswik (1956) alla
teoria del campionamento richiama l’attenzione sulla necessità di disporre di campioni casuali ampi,
rappresentativi ed equivalenti, relativi ai singoli momenti in cui si procede al trattamento sperimentale.
Kerr (1945) è forse lo studioso che più si è avvicinato a questo modello con i suoi esperimenti sugli
effetti della musica sulla produttività industriale. Ciascuno dei suoi numerosi esperimenti prevedeva
un solo gruppo sperimentale, analizzato in particolari giorni, scelti lungo l’arco di mesi in modo da
ottenere campioni randomizzati ed equivalenti. In uno di questi studi, Kerr ha potuto così mettere a
confronto i dati raccolti in 56 giorni nei quali il lavoro in fabbrica era accompagnato dalla musica, con
quelli rilevati in 51 giorni nei quali tale attività veniva svolta in assenza di stimoli musicali. In un altro
esperimento, egli ha invece avuto modo di studiare gli effetti sulla produttività di 3 generi musicali
differenti, confrontando i risultati rilevati su campioni equivalenti di 14 giorni.
Nella particolare applicazione di Kerr, ad esempio, il Disegno 8 sembra, nel complesso, dotato
di validità interna. Il fattore storia – che costituisce il principale punto debole dell’esperimento basato
sulle serie temporali – viene controllato introducendo la variabile X in più occasioni differenti,
rendendo in tal modo estremamente improbabile qualsiasi spiegazione rivale fondata sul
contemporaneo intervento di avvenimenti esterni. Gli altri fattori di invalidità vengono controllati
seguendo la stessa logica descritta per il Disegno 7. Per quanto attiene alla validità esterna, la
generalizzazione ha, ovviamente, senso soltanto in riferimento a popolazioni sottoposte a test con una
certa frequenza. Uno dei punti deboli caratteristici di questo disegno sperimentale è costituito dalla
reattività all’esperimento, dovuta alla consapevolezza da parte dei soggetti interessati di essere
sottoposti ad un test. Somministrando a gruppi diversi, differenti variabili sperimentali, è possibile (in
particolare se si utilizza il Disegno 6) rendere i soggetti del tutto ignari dell’esperimento o dei
trattamenti che si stanno confrontando. Non è così, invece, nel caso in cui vi sia un solo gruppo
ripetutamente esposto ad una particolare condizione sperimentale piuttosto che ad un’altra: ad
esempio, nel caso di Sorokin, ad un sistema alternativo di calcolo del salario; nel caso di Allport, ad
una condizione di lavoro piuttosto che ad un’altra; nel caso degli studi di Wyatt, Fraser e Stock (1926),
ad un particolare impianto di aerazione; nel caso di Kerr, ad un genere musicale piuttosto che ad un
altro (sebbene Kerr abbia preso accurate precauzioni per far sì che gli stimoli musicali programmati,
rappresentati da 3 diversi generi, costituissero parte integrante dell’ambiente di lavoro). Per quanto
riguarda l’interazione fra il fattore selezione e la X, la generalizzazione degli effetti dimostrati di X è,
di solito, limitata al particolare tipo di popolazione coinvolta nell’esperimento.
Questo disegno sperimentale reca con sé il medesimo rischio per la validità esterna che
caratterizza gli altri disegni discussi nel presente volume, nei quali livelli multipli di X vengono
presentati allo stesso gruppo di soggetti; l’effetto conseguente è stato definito “interferenza della X
multipla”. L’effetto di X1, nella situazione più semplice in cui essa viene messa a confronto con X0,
può essere generalizzato esclusivamente alle condizioni in cui X1 viene presentata più volte, a
determinati intervalli di tempo. Non esiste alcuna valida ragione per estendere la generalizzazione a
possibili altre situazioni, in cui X1 è costantemente presente, ovvero in cui essa è introdotta una ed una
sola volta. Inoltre, la condizione X0 – o assenza di X – non costituisce semplicemente un aspetto tipico
dei periodi in cui X è mancante, ma è rappresentativa soltanto a condizione che i casi in cui la variabile
X è assente si alternino ai casi in cui essa è presente. Se l’effetto di X1 si prolunga fino a toccare anche
i periodi di assenza della variabile sperimentale, come in genere è probabile che accada, è possibile
che, rispetto, ad esempio, al Disegno 6, il disegno basato sulle serie temporali sottovaluti l’effetto di
X1. D’altra parte, la dinamica stessa dell’esperimento, caratterizzata da frequenti variazioni, potrebbe
aumentare il valore di stimolo di X, portandolo ben al di sopra di quanto sarebbe se la variabile
sperimentale fosse presente in modo costante ed omogeneo. Nello studio di Kerr, l’effetto che la
musica hawaiana esercita sulla produttività potrebbe variare sostanzialmente a seconda che essa
costituisca il sottofondo costante delle attività lavorative ovvero l’accompagnamento musicale di un
solo giorno in alternativa ad altri generi musicali ascoltati negli altri giorni.
Si noti, tuttavia, che molti aspetti dell’insegnamento su cui gli studiosi sono interessati a
condurre un esperimento possono avere effetti che si limitano, per tutte le finalità pratiche, al solo
periodo in cui essi sono effettivamente implementati, magari proprio sotto forma di variabile X . Per
tali finalità, questo disegno potrebbe rivelarsi prezioso. Supponiamo che a un insegnante interessi
conoscere se sia più proficuo ai fini dell’apprendimento lo studio individuale e condotto in silenzio
8
della lezione oppure la ripetizione in gruppo e a voce alta. Variando queste due modalità di studio
nell’arco di una serie di lezioni, è possibile dare origine ad un esperimento interpretabile. In questo
stesso modo si può studiare l’effetto che la presenza in classe di un genitore-osservatore esercita sulle
libere discussioni fra gli studenti. Una consapevole applicazione di questo disegno può porre la
valutazione sperimentale delle alternative sotto il completo dominio dell’insegnante; il quale può
testare metodi e procedure di insegnamento che, se promettenti, potrebbero essere sottoposte ad
esperimenti più ampi e meglio coordinati.
Questo approccio sperimentale può essere adottato campionando situazioni che riguardano un
singolo individuo. Benché i test di significatività non siano di norma applicati in questi casi, questo
disegno è abbastanza comune nel campo della ricerca fisiologica, in cui un animale viene
ripetutamente sottoposto a stimolazione avendo cura di evitare una periodizzazione della
somministrazione. Quest’ultimo requisito risponde all’esigenza di randomizzazione che la logica del
disegno richiede. È, inoltre, possibile utilizzare il disegno a quadrato latino piuttosto che la
randomizzazione semplice (ad esempio, Cox, 1951; Maxwell, 1958).
10. IL DISEGNO CON GRUPPO DI CONTROLLO NON EQUIVALENTE
Uno dei disegni sperimentali più diffusi nell’ambito delle ricerche sull’istruzione prevede un
gruppo sperimentale ed un gruppo di controllo, entrambi sottoposti a pre-test e post-test, ma non
equivalenti dal punto di vista del campionamento pre-sperimentale. Tali gruppi, piuttosto,
corrispondono a collettivi naturali preesistenti, quali, ad esempio, gli alunni di una stessa classe. Essi
sono sì scelti in modo da risultare il più possibile omogenei fra loro, tuttavia il grado di fiducia circa
l’equivalenza non è tale da evitare il ricorso al pre-test. L’assegnazione di X ad uno dei due gruppi
viene effettuata, per definizione, in modo casuale e sotto il controllo del ricercatore.
O
O
X
O
O
Discutendo del presente disegno sperimentale, è bene essere da subito chiari su due questioni:
in primo luogo, non bisogna confonderlo con il Disegno 4; quest’ultimo, infatti, pur essendo
ugualmente basato su pre-test, post-test e gruppo di controllo, prevede che le unità di una stessa
popolazione siano assegnate al gruppo sperimentale o al gruppo di controllo secondo un procedimento
casuale. Secondariamente, malgrado ciò, si deve ammettere che il Disegno 10 può essere utilizzato in
molti dei casi in cui non è possibile fare ricorso ai Disegni 4, 5 e 6. In particolare, bisogna riconoscere
che, pur in assenza di piene garanzie di equivalenza, l’introduzione di un gruppo di controllo in questo
disegno sperimentale riduce notevolmente l’ambiguità dell’interpretazione rispetto al Disegno 2,
caratterizzato dalla presenza di un solo gruppo, sottoposto a pre-test e post-test. Se i criteri di
reclutamento dei due gruppi sono molto simili e se tale somiglianza trova riscontro nei punteggi
ottenuti dai due gruppi al pre-test, allora i controlli previsti dalla logica dell’esperimento risultano
maggiormente efficaci. Acquisiti tali desiderata ai fini della validità interna, possiamo affermare che
un disegno di questo tipo consente il controllo degli effetti principali dovuti ai fattori storia,
maturazione, testing e strumentazione. Ciò in quanto le differenze fra il pre-test ed il post-test
rilevabili per il gruppo sperimentale, se maggiori di quelle osservate per il gruppo di controllo,
sarebbero riconducibili all’intervento della variabile sperimentale e non all’azione di detti fattori, i
quali entrerebbero in gioco nel caso in cui tali differenze fossero riscontrate, nella stessa misura, in
entrambi i gruppi.
Un tentativo per spiegare una variazione incrementale, nel solo gruppo sperimentale, del
punteggio dal pre-test al post-test esclusivamente in termini di fattori esterni quali la storia, la
maturazione o il testing, deve ipotizzare un’interazione fra queste variabili e le specifiche differenze di
selezione che distinguono il gruppo sperimentale dal gruppo di controllo. Sebbene queste interazioni
siano, in genere, improbabili, vi sono alcune situazioni nelle quali potrebbero essere invocate. Le
interazioni più comuni riguardano forse il fattore maturazione. Se, ad esempio, il gruppo sperimentale
è costituito da persone sottoposte a psicoterapia ed il gruppo di controllo da individui di tutt’altro
genere, facilmente contattabili e disponibili al test, e se entrambi i gruppi sono sottoposti a pre-test e
post-test, un miglioramento registrato esclusivamente nel gruppo sperimentale potrebbe certamente
essere interpretato come uno spontaneo processo di guarigione specifico di un gruppo così estremo,
9
cioè a dire come un effetto che si sarebbe rilevato probabilmente anche in assenza del trattamento
sperimentale. Questo effetto di interazione fra il fattore selezione e il fattore maturazione (…)
potrebbe essere scambiato per un effetto di X, e costituisce quindi una minaccia alla validità interna
dell’esperimento.
Un esempio concreto, tratto dalla ricerca nel settore dell’istruzione, può contribuire a chiarire
questo punto. Lo studio condotto da Sanford ed Hemphill (1952) sugli effetti di un corso di psicologia
ad Annapolis rappresenta un’eccellente applicazione del Disegno 10. In questo studio, la seconda
classe di Annapolis è identificata con il gruppo sperimentale, mentre la terza classe è scelta a
rappresentare il gruppo di controllo. Gli incrementi più consistenti rilevati nel gruppo sperimentale
potrebbero essere interamente spiegati come parte di un processo generale di trasformazione che
interessa in modo particolare le prime due classi, ma solo tangenzialmente le terze e le quarte. Tali
incrementi rappresentano quindi un effetto dell’interazione fra i fattori di selezione che differenziano il
gruppo sperimentale da quello di controllo ed i processi di modificazione naturale (maturazione)
caratteristici di questi gruppi, piuttosto che un effetto del programma sperimentale. Il particolare
gruppo di controllo utilizzato da Sanford ed Hemphill rende possibile verificare questa interpretazione
rivale. L’ipotesi concernente l’interazione selezione-maturazione porterebbe a pensare che lo scarto fra
i punteggi ottenuti nel pre-test dalla terza (gruppo di controllo) e dalla seconda classe (gruppo
sperimentale) abbia pressoché la stessa ampiezza dello scarto fra i punteggi ottenuti dal gruppo
sperimentale nel pre-test e nel post-test. Ai fini dell’interpretazione di questo esperimento, è una
fortuna che ciò non si sia verificato. Nella maggior parte dei casi, le differenze di punteggio rilevate
nel pre-test fra una classe e l’altra non andavano nella stessa direzione né avevano la stessa
consistenza degli incrementi di punteggio registrati fra pre-test e post-test per il gruppo sperimentale.
Tuttavia, l’incremento osservato dei punteggi relativi alla dimensione della “sicurezza di sé in
differenti situazioni sociali” può essere spiegato come un prodotto dell’interazione selezionematurazione. Il gruppo sperimentale faceva registrare, nel passaggio dalla prima alla seconda
rilevazione, un incremento di punteggio medio da 43,26 a 51,42, mentre la terza classe otteneva un
punteggio medio iniziale pari a 55,82 e conseguiva nella seconda tornata un punteggio di 56,78.
In talune occasioni, l’ipotesi dell’interazione selezione-maturazione è sostenibile persino nel
caso in cui i due gruppi ottengano nel pre-test gli stessi risultati. Il più comune di questi casi si verifica
quando un gruppo mostra un livello di maturazione o una capacità di mutamento autonomo superiore
rispetto all’altro gruppo..
Il fattore regressione costituisce l’altro grande problema del Disegno 10 con riferimento alla
validità interna. Malgrado tale minaccia possa essere evitata, raramente si riesce a farlo. In generale, se
entrambi i gruppi vengono selezionati sulla base dei punteggi estremi ottenuti in O, o sulla base di
misurazioni correlate con tali punteggi, allora una differenza fra i due gruppi in relazione all’entità
dello scarto fra i punteggi del pre-test e quelli del post-test potrebbe rappresentare proprio un prodotto
della regressione piuttosto che l’effetto di X. L’incidenza di questa eventualità è aumentata a causa
della persistenza di una fuorviante tradizione, specifica della sperimentazione in ambito didatticopedagogico, che considera il matching come una procedura corretta e sufficiente per stabilire
l’equivalenza pre-sperimentale dei gruppi. Questo errore si accompagna all’incapacità di distinguere i
Disegni 4 e 10 ed il ruolo sensibilmente diverso che il matching a partire dai risultati del pre-test
riveste in ciascuno di questi diversi contesti sperimentali. Nel Disegno 4, il matching può essere
considerato un’utile appendice alla randomizzazione ma non un suo sostituto: sulla base dei punteggi
ottenuti nel pre-test, ovvero sulla base di risultati di rilevazioni assimilabili, l’intera popolazione
disponibile per gli scopi sperimentali può essere suddivisa in coppie di soggetti formate seguendo
un’accurata procedura di matching; i membri di queste coppie possono quindi essere assegnati a caso
al gruppo sperimentale o al gruppo di controllo. Unificando le due procedure, matching e
randomizzazione, si ottiene, di norma, un disegno sperimentale caratterizzato da una precisione
superiore rispetto a quella che si avrebbe seguendo la sola randomizzazione.
Non bisogna commettere l’errore di confondere il modello procedurale appena descritto – che
riguarda, è bene ribadirlo, essenzialmente il Disegno 4 – con la procedura di matching tipica del
Disegno 10, la quale viene applicata nel tentativo di compensare la distanza fra il gruppo sperimentale
ed il gruppo di controllo quando risulta impossibile assegnare i soggetti ai trattamenti attraverso un
rigoroso procedimento casuale. Se, nel Disegno 10, le medie dei gruppi differiscono in modo
cospicuo, allora il matching non solo non produce il voluto effetto di riequilibrio tra i gruppi, ma
10
determina, sicuramente, anche indesiderati effetti di regressione. Sarà allora facile prevedere che i due
gruppi otterranno nel post-test punteggi differenti a prescindere da qualunque effetto di X (…).
Interpretando le concrete applicazioni del Disegno 10 basate sulla procedura del matching, si
può rilevare che la direzione dell’errore è chiaramente prevedibile. Si consideri, ad esempio, un
esperimento di psicoterapia che utilizzi come O l’indice di insoddisfazione nei confronti di se stessi.
Supponiamo che il gruppo sperimentale sia composto da soggetti sottoposti a terapia psichica e che il
gruppo di controllo sia invece volutamente rappresentato, per contrasto, da individui “sani”,
presumendo così di ottenere un effetto di riequilibrio. Il gruppo di controllo presenterà allora, per
deliberata scelta del ricercatore, punteggi estremamente bassi rispetto alla popolazione normale, i quali
regrediranno nel post-test proprio in direzione della media della popolazione normale; in tal modo, si
riduce la probabilità che si possa manifestare un effetto significativo della terapia sperimentale,
piuttosto che prodursi un’impressione spuria di efficacia della stessa.
(…) È importante distinguere due diverse versioni del Disegno 10, attribuendo loro uno status
differente come approssimazioni all’esperimento vero e proprio. Da una parte, si ha la situazione in
cui il ricercatore può disporre di due gruppi naturali – ad esempio, due classi scolastiche – e può
decidere liberamente a quale dei due sarà somministrata la variabile sperimentale X, o, perlomeno, non
sussistono motivi per sospettare che tale scelta sia in qualche modo legata ad X. In questo caso,
sebbene sia possibile che dall’osservazione O risultino medie iniziali differenti per i due gruppi, la
ricerca può approssimarsi all’esperimento vero e proprio. Dall’altra parte, sono rinvenibili esempi di
applicazioni del Disegno 10 in cui, con tutta evidenza, i soggetti si autoselezionano, scegliendo
autonomamente il gruppo di appartenenza. E non esiste alcun gruppo di controllo da porre a confronto
con un gruppo sperimentale che cerca deliberatamente l’esposizione ad X. In quest’ultimo caso,
l’assunto secondo cui i due gruppi mostreranno una regressione uniforme diventa meno sostenibile,
mentre aumentano le probabilità che si verifichi una interazione fra il fattore selezione e il fattore
maturazione (e le altre interazioni legate alla procedura di selezione dei soggetti). Il Disegno 10 basato
sull’autoselezione del gruppo è quindi molto più debole, ma fornisce informazioni che, in molti casi,
consentono di escludere qualsiasi effetto di X. Il gruppo di controllo, pur essendo caratterizzato da
modalità di selezione dei soggetti e da un valore della media sensibilmente differenti rispetto al gruppo
sperimentale, corrobora questa interpretazione.
L’effetto dovuto al fattore testing come causa di invalidità esterna è analogo a quello già
descritto per il Disegno 4 (cfr. sopra). In quanto all’interazione fra il fattore selezione ed X occorre
ricordare ricorda che l’effetto di X potrebbe valere esclusivamente per i soggetti selezionati secondo le
procedure indicate nel nostro esempio. Poiché, con tutta probabilità, le condizioni poste dal Disegno
10 limitano la nostra libertà di campionamento in misura minore rispetto al Disegno 4, tale specificità
sarà, di norma, inferiore rispetto a quanto non sarebbe in un esperimento di laboratorio. La minaccia
alla validità esterna rappresentata da condizioni sperimentali reattive è presente, ma probabilmente in
misura minore che nella maggior parte degli esperimenti veri e propri, come, ad esempio, nel Disegno
4.
Nel caso in cui il ricercatore possa scegliere fra due alternative – utilizzare due classi
preesistenti (come prevede il Disegno 10) o estrarre da esse campioni casuali di studenti da assegnare
ai differenti trattamenti (come prevedono i Disegni 4, 5 e 6) – quasi certamente la seconda determinerà
condizioni sperimentali assai reattive, ingenerando negli studenti maggiore consapevolezza del fatto
che si stanno sottoponendo a un esperimento, facendoli sentire delle “cavie” e così via.
Gli studi di Thorndike sul trasferimento dell’addestramento (ad esempio, E.L. Thorndike e
Woodworth, 1901; Brolyer, Thorndike e Woodyard, 1927) costituiscono esempi di applicazione del
Disegno 10 ad X non controllate dal ricercatore. I risultati di tali ricerche mostrano come sia stato
evitato, almeno parzialmente, l’errore dovuto agli effetti di regressione causati dalla procedura di
matching sopra descritta; essi dovrebbero, tuttavia, essere analizzati alla luce delle moderne tecniche
di analisi (…).
11. I DISEGNI CONTROBILANCIATI
Sotto questa intestazione sono classificati tutti quei disegni in cui si raggiunge il controllo
sperimentale o si aumenta la precisione dell’esperimento facendo in modo che tutti i trattamenti siano
associati a tutti i soggetti (o a tutte le occasioni). Tali disegni sono stati definiti “esperimenti di
rotazione” (McCall, 1923), “disegni controbilanciati” (ad esempio, Underwood, 1949), “disegni
11
incrociati” (ad esempio, Cochran e Cox, 1957; Cox, 1958) e “disegni a scambio” (Kempthorne, 1952).
In questi casi, per ottenere l’effetto di bilanciamento viene generalmente adottata la disposizione a
quadrato latino. Questa stessa disposizione caratterizza altresì il nostro Disegno 11, raffigurato qui
come un disegno quasi-sperimentale che prevede l’applicazione in modo del tutto casuale di 4
trattamenti a 4 gruppi naturali o anche a 4 individui (ad esempio, Maxwell, 1958):
Gruppo
Gruppo
Gruppo
Gruppo
A
B
C
D
Tempo 1
X1O
X2O
X3O
X4O
Tempo 2
X2O
X4O
X1O
X3O
Tempo 3
X3O
X1O
X4O
X2O
Tempo 4
X4O
X3O
X2O
X1O
Nella rappresentazione grafica figura esclusivamente il post-test poiché il presente disegno è
da preferirsi nei casi in cui non sia giudicata opportuna la somministrazione del pre-test e non sia
attuabile un Disegno del tipo 10. Il disegno presenta tre basi di classificazione (gruppi, occasioni ed X
o trattamenti sperimentali). Ogni classificazione è “ortogonale” alle altre due in quanto ogni valore di
ciascuna classificazione è associato con la stessa frequenza (una volta per ciascun quadrato latino) a
ogni valore di ciascuna delle altre due. Per cominciare, si può osservare che ciascun trattamento
(ciascuna X) figura una volta, e solo una volta, in ogni colonna e in ogni riga. Lo stesso quadrato latino
può essere sottoposto a rotazione in modo tale che le X diventino teste di riga o di colonna, ad
esempio:
Gruppo
Gruppo
Gruppo
Gruppo
A
B
C
D
X1
t 1O
t 3O
t 2O
t 4O
X2
t2O
t1O
t4O
t3O
X3
t3O
t4O
t1O
t2O
X4
t4O
t2O
t3O
t1O
Le somme dei punteggi per le differenti X sono quindi confrontabili, essendo tali punteggi stati
rilevati in ognuna delle occasioni e per ognuno dei gruppi considerati. Le differenze risultanti dal
confronto non possono essere interpretate semplicemente come conseguenza delle differenze iniziali
fra un gruppo e l’altro o come effetti dell’acquisizione di una pratica, della storia, e così via.
Analogamente, è possibile procedere al confronto fra i totali di riga, relativi alle differenze fra i
gruppi, mentre, spostando l’attenzione sul primo dei due grafici sopra riportati, si possono comparare i
totali di colonna, relativi alle differenze fra le occasioni. Nei termini dell’analisi della varianza, tale
approccio sembra quindi fornire dati sui tre effetti principali di un disegno sperimentale, con lo stesso
numero di celle che è, di norma, necessario per due. Ragionando nei termini dell’analisi della varianza
appare evidente il costo di questa maggiore efficacia: quello che sembra essere un effetto principale
significativo, dovuto ad uno qualunque dei tre criteri di classificazione potrebbe essere invece il
prodotto di un’interazione significativa, di forma complessa, fra gli altri due (Lindquist, 1953, pp. 25864). L’apparente differenza fra gli effetti delle X potrebbe essere letta come uno specifico, complesso,
effetto di interazione fra la peculiarità dei gruppi e la particolarità delle occasioni, sicché
l’ammissibilità di un’inferenza circa l’efficacia dei trattamenti sperimentali dipenderà dalla plausibilità
di questa ipotesi rivale. Il problema merita una discussione più approfondita.
Osserviamo, in primo luogo, che una simile ipotesi è più verosimile nel caso della variante
quasi-sperimentale del quadrato latino, di cui ci stiamo occupando qui, piuttosto che nel caso di
un’applicazione dello stesso disegno secondo i canoni dell’esperimento vero e proprio, solitamente
descritta nei testi che affrontano questo argomento. Con riferimento a quello che può essere definito
come fattore gruppo, vengono confuse due possibili cause di effetti sistematici. Innanzitutto, occorre
considerare l’azione del fattore selezione sistematica, che interviene nei processi di costituzione
naturale dei gruppi; si può presumere che tale fattore induca un effetto principale e che, nello stesso
tempo, interagisca con i fattori rappresentati dalla storia, dalla maturazione, dall’acquisizione di una
pratica, e così via. Se intendessimo, tenendo conto di ciò, predisporre un esperimento perfettamente
controllato, l’assegnazione di ciascun soggetto a questo o quel gruppo dovrebbe avvenire in modo del
12
tutto indipendente e casuale. Così facendo, si eliminerebbe questa fonte sia di effetti principali sia di
effetti di interazione, quanto meno con riferimento agli errori di campionamento. In realtà, è
l’impossibilità di un’assegnazione casuale di questo tipo che detta il ricorso alla variante quasisperimentale del quadrato latino, una particolarità della quale consiste nell’introduzione del
meccanismo di controbilanciamento allo scopo di ottenere, in qualche misura, proprio un effetto di
equivalenza fra i gruppi. (Per converso, negli esperimenti pienamente controllati, il quadrato latino
viene utilizzato per ragioni di economia o per affrontare specifiche questioni di campionamento
relativo a porzioni di territorio). Una seconda possibile fonte di effetti erroneamente attribuiti a quello
che si è appena denominato fattore gruppo, è legata invece alle sequenze specifiche dei trattamenti
sperimentali. Se in tutte le repliche di un esperimento propriamente detto fosse pedissequamente
riprodotto lo stesso quadrato latino di sequenza dei trattamenti, non sarebbe possibile escludere anche
questa fonte di effetti principali e di effetti di interazione. Tuttavia, nell’esperimento vero e proprio, ad
alcuni insiemi di soggetti sono assegnati di volta in volta quadrati latini differenti, specifici,
eliminando l’effetto sistematico dovuto ad una data, invariabile sequenza di trattamenti sperimentali.
Così facendo si evita, inoltre, la possibilità che una specifica interazione sistematica produca quello
che appare come un effetto principale di X.
La molteplicità delle occasioni, caratteristica costitutiva del disegno a quadrato latino, può dar
luogo a un effetto principale ingenerato dalla ripetizione dei test, dalla maturazione, dall’acquisizione
di una pratica e dagli effetti residui cumulativi di riporto o dai trasferimenti [si tratta di cambiamenti
specifici che si verificano quando le condizioni precedenti continuano a influenzare la prestazione
nelle prove successive]; senza contare gli effetti del fattore storia, anch’esso collegabile alla pluralità
dei momenti sperimentali. Naturalmente, il disegno di ricerca basato sul quadrato latino è progettato
per evitare che tali effetti principali si confondano con gli effetti principali di X. Tuttavia, il sospetto di
interazioni significative è forse maggiormente giustificato nel caso in cui gli effetti principali siano il
sintomo di una notevole eterogeneità piuttosto che nel caso in cui essi siano del tutto assenti. (…)
Molti usi del quadrato latino nell’ambito di esperimenti veri e propri – come, ad esempio, nel settore
degli studi agrari – non implicano misurazioni ripetute e non producono, di norma, alcun
corrispondente effetto sistematico di colonna.
Queste considerazioni attestano la grande importanza che riveste la ripetizione del disegno
quasi-sperimentale con differenti, specifici, quadrati latini. Se le iterazioni sono sufficientemente
numerose, il disegno quasi-sperimentale si converte in un esperimento vero e proprio. Inoltre, in
questo modo il numero dei gruppi coinvolti potrebbe rendere possibile l’assegnazione casuale ai
trattamenti, che costituisce, di norma, una forma di controllo più efficace. Eppure, in mancanza di
queste possibilità, anche un solo quadrato latino rappresenta un disegno quasi-sperimentale che,
intuitivamente, si può considerare soddisfacente, poiché consente di rilevare tutti gli effetti presenti in
tutti i gruppi di comparazione. Nella consapevolezza di poter giungere ad interpretazioni errate, si
tratta di un disegno che vale la pena di adottare nel caso in cui non sia possibile un controllo migliore.
Dopo aver evidenziato le insufficienze di questo disegno, è bene ora analizzare e sottolineare i relativi
punti di forza.
Così come accade per tutti i quasi-esperimenti, il Disegno 11 acquista maggiore forza grazie
alla concordanza delle ripetizioni interne dell’esperimento. (…) Supponiamo che il quadro risultante
sia caratterizzato da una gratificante coerenza, che lo stesso trattamento sia maggiormente efficace per
tutti e quattro i gruppi, e così via. A questo punto bisogna chiedersi: è probabile che tutto ciò non sia
un effetto del trattamento ma, piuttosto, il risultato di un’interazione fra gruppi ed occasioni? Possiamo
notare che la maggior parte delle interazioni possibili fra gruppi ed occasioni ridurrebbe o
offuscherebbe l’effetto manifesto di X. Un’interazione in grado di emulare un effetto principale di X
sarebbe improbabile, tanto più nei quadrati latini di maggiori dimensioni.
Il ricercatore alle prese con l’analisi di un numero estremamente limitato di gruppi naturali,
quali ad esempio delle classi scolastiche, non suscettibili di essere suddivisi, mediante procedimento
casuale, in sottogruppi equivalenti cui somministrare il trattamento, è particolarmente attratto dal
Disegno 11.
(…) Mentre in altri disegni la particolare reattività di uno soltanto dei gruppi ad un evento
esterno (fattore storia) o alla pratica (fattore maturazione) potrebbe simulare un effetto di X, nel
disegno controbilanciato effetti coincidenti di questo tipo dovrebbero verificarsi, di volta in volta, in
ciascuno dei gruppi in differenti occasioni. Naturalmente, ciò implica che un effetto principale di X
13
non venga considerato rilevante se l’analisi delle celle mostra che la sua significatività statistica è il
risultato soprattutto di una differenza molto marcata registrata relativamente a uno soltanto dei gruppi
analizzati. Per un’analisi più dettagliata di questo problema si vedano Wilk e Kempthorne (1957),
Lubin (1961) e Stanley (1955).
16. L’ANALISI REGRESSIONE-DISCONTINUITÀ
Il contesto scolastico è tra gli ambiti di maggiore utilizzazione di tale disegno quasisperimentale. Inoltre, la discussione che segue metterà chiaramente in luce il vantaggio di analizzare,
in ciascun contesto specifico, tutte le possibili implicazioni di un’ipotesi causale, ricercando sempre
nuove circostanze in cui testarla. In uno degli ambiti di applicazione (Thistlethwaite e Campbell,
1960) era previsto il conferimento di un premio agli studenti più qualificati, scelti in base ad un
punteggio composito basato sul possesso di una serie ben precisa di requisiti. Tale premio consisteva
in una borsa di studio, nell’ammissione ad una università particolarmente prestigiosa, nella possibilità
di studiare in Europa per un anno, e così via. In una fase successiva al conferimento del premio, il
disegno prevedeva la rilevazione (mediante differenti osservazioni O) del rendimento scolastico e di
altri specifici atteggiamenti di tutti gli studenti coinvolti, premiati e non. I ricercatori hanno tentato di
rispondere alla seguente domanda: il conseguimento del premio ha determinato delle differenze tra gli
studenti? Si tratta di un complesso problema di inferenza; infatti, le qualità necessarie per ottenere il
premio (con le sole eccezioni del bisogno e della residenza, se rilevanti) sono le stesse che consentono
di ottenere punteggi elevati nelle successive rilevazioni. Di fatto, possiamo da subito affermare che,
anche se non avessero ottenuto alcun riconoscimento speciale, gli studenti premiati avrebbero
conseguito, nelle rilevazioni effettuate in un secondo momento, punteggi più elevati rispetto ai non
premiati.
Nella Figura 4 è illustrata la relazione attesa fra la bravura esibita precedentemente e il
rendimento mostrato successivamente al premio, cui si aggiungono i risultati conseguiti grazie alle
opportunità formative o motivazionali che ne sono derivate. Non perdendo di vista il problema
sollevato, consideriamo, in primo luogo, la differenza tra un disegno sperimentale vero e proprio, il
Disegno 6, e il nostro disegno quasi-sperimentale. Il Disegno 6 può essere descritto come un processo
decisionale finalizzato a introdurre una distinzione o come un esperimento che rientra in un
programma, in cui, limitatamente a una serie ristretta di punteggi coincidenti o immediatamente al di
sotto di un certo valore discriminante, l’assegnazione casuale porterebbe alla creazione di due gruppi
abbastanza sovrapponibili: un gruppo sperimentale formato dagli studenti vincenti e un gruppo di
controllo formato dagli studenti non vincenti. Questi due gruppi si comporteranno presumibilmente
come indicato dai due cerchietti posti sulla linea di demarcazione della Figura 4. Limitatamente a
questi casi si potrebbe optare per un esperimento vero e proprio. Questo tipo di esperimenti è attuabile
e deve essere quindi preferito.
Rispetto all’esperimento vero e proprio appena delineato, il Disegno 16, a carattere quasisperimentale, si pone l’obiettivo di analizzare la linea di regressione, alla ricerca di una discontinuità
che secondo l’ipotesi causale dovrebbe collocarsi in corrispondenza del valore discriminante. Se il
risultato fosse simile a quello riportato e se i cerchietti della Figura 4 rappresentassero estrapolazioni
dalle due metà della linea di regressione piuttosto che valori-limite tenendo conto dei quali procedere
casualmente alla costituzione di gruppi in vista di un esperimento vero e proprio, si otterrebbero prove
molto significative di un effetto di X, significative quasi quanto quelle fornite dall’esperimento vero e
proprio.
Si noti che l’ipotesi in discussione riguarda chiaramente una differenza di intercetta piuttosto
che di inclinazione e che il salto della linea di regressione deve collocarsi esattamente in
corrispondenza del punto X, in quanto nessun “differimento” o “estensione” è compatibile con tale
ipotesi. Di conseguenza, è possibile utilizzare in questo contesto test parametrici e non parametrici non
basati su assunti di linearità. Si noti, d’altra parte, che gli assunti di linearità sono, di norma, più
plausibili per dati che, come quelli analizzati, sono stati ricavati attraverso la regressione piuttosto che
per le serie temporali. Probabilmente, il test più efficace potrebbe essere rappresentato dall’analisi
della covarianza, in cui il punteggio in base al quale si ottiene il premio è la covariata dei risultati
conseguiti in seguito, mentre i gruppi sarebbero costituiti, rispettivamente, da coloro che hanno
ricevuto il premio (gruppo sperimentale) e da coloro che non l’hanno ricevuto (gruppo di controllo).
14
Quante probabilità ci sono che un disegno di questo tipo venga utilizzato? Di certo esso va
applicato in ambiti caratterizzati dal ripetersi di una data situazione ed in cui gli argomenti a favore
dell’ipotesi sperimentale abbondano. Vale la pena di controllare uno per uno tali argomenti? Uno dei
sacrifici che tale disegno richiede consiste nel fatto che tutte le componenti da cui scaturirà la
decisione finale devono essere rappresentate in un indice composito; inoltre è necessario individuare
precisamente il valore discriminante. Nondimeno, siamo convinti che tutte le caratteristiche
individuali che concorreranno a determinare la decisione in merito all’assegnazione del
riconoscimento (l’aspetto del soggetto in una foto, la reputazione della classe considerata
indipendentemente dalla reputazione della relativa scuola, il prestigio della famiglia in ambito
scolastico, e così via) potranno essere ricomprese in questo indice composito, attraverso delle stime, se
non in maniera più diretta. Del pari, dovremmo a questo punto aver maturato la convinzione (Meehl,
1954) che una formula multipla che consenta di soppesare i vari elementi mettendoli fra loro in
relazione (anche utilizzando come criterio le decisioni di una precedente commissione) è di norma
preferibile a valutazioni effettuate caso per caso da un’apposita commissione. Non avremmo quindi
nulla da perdere, bensì molto da guadagnare, rendendo in forma quantitativa le decisioni relative al
premio, di qualunque natura esse siano. Così facendo – e avendo cura di archiviare tutta la
documentazione relativa ai premiati e agli esclusi – si potrebbe studiare il follow-up degli effetti a
distanza di anni.
Ci sia consentito, a questo punto, ricordare un fatto realmente accaduto. Una generosa
fondazione interessata al miglioramento dell’istruzione superiore donò ad una università della Ivy
League (le otto università più prestigiose del Nord-Est degli Stati Uniti: Brown, Columbia, Cornell,
Dartmouth College, Harvard, Princeton, University of Pennsylvania, Yale) mezzo milione di dollari
per uno studio sull’impatto dell’università sugli studenti. A distanza di dieci anni, non è stato ancora
pubblicato un solo rapporto di ricerca riguardante, sia pure alla lontana, questo problema. I beneficiari
della donazione – e i donatori stessi – avevano preso sul serio la proposta? Risultava possibile fornire
una risposta valida alla questione posta? Il Disegno 16 sembra fornire un’approssimazione possibile.
Ma, naturalmente, nessuno studioso mostrerebbe un interesse reale verso gli effetti di una variabile
sperimentale di natura così generale e indeterminata.
Soffermiamoci ora sulla Tabella 3. La simultaneità della costituzione dei gruppi da sottoporre
a osservazione garantisce un certo controllo del fattore storia e del fattore maturazione. L’effetto di
testing come effetto principale viene controllato nella misura in cui entrambi i gruppi (sperimentale e
di controllo) vengono sottoposti al test. Gli errori legati al fattore strumentazione potrebbero
rappresentare un problema nel caso in cui l’osservazione di follow-up fosse condotta dalla stessa
15
istituzione responsabile dell’assegnazione del premio: infatti, la gratitudine per essere stati premiati o
il risentimento per non esserlo stati potrebbero influire sugli atteggiamenti degli studenti e determinare
una diversa accentuazione nel descrivere il proprio successo personale nella vita, e così via. Questo
problema si presenterebbe anche se si applicasse un disegno sperimentale vero e proprio. Per
eliminarlo, è consigliabile affidare la conduzione del follow-up ad una diversa istituzione rispetto a
quella che ha assegnato il premio. Sulla base delle argomentazioni sviluppate in precedenza, riteniamo
che il controllo del fattore regressione e del fattore selezione sia limitato ai contributi spuri che essi
possono recare all’inferenza, anche in presenza di errori di campionamento e di una regressione attiva.
Tale controllo è possibile evitando di porre i due fattori sullo stesso piano e procedendo ad una analisi
dettagliata di entrambi. Il fattore mortalità potrebbe intervenire allorquando l’istituzione che
attribuisce il premio sia la stessa che effettua le rilevazioni di follow-up; in tal caso, infatti, i vincitori
del premio, gli ex studenti, e così via, potrebbero mostrare maggiore spirito di collaborazione rispetto
agli esclusi. Occorre sottolineare che il normale desiderio del ricercatore di raggiungere l’intero
campione selezionato, ottenendo così una rappresentazione esaustiva, può rivelarsi in questo caso
fuorviante. Infatti, immaginiamo di incarica re della conduzione del follow-up un’istituzione che non
sia la stessa che ha assegnato il premio, ottenendosi una diminuzione – ad esempio, dal 90% al 50% –
dei soggetti disposti a collaborare; ebbene, è probabile che il ricercatore rifiuti questa eventualità, dal
momento che il suo obiettivo è quello di rappresentare la totalità dei premiati. Così facendo egli
trascurerà il fatto che la vera finalità della ricerca consiste nella raccolta di dati interpretabili; inoltre,
dimenticherà che nessun dato è interpretabile considerato in sé e per sé; ancora, mancherà di rendersi
conto che un gruppo di controllo è indispensabile per poter utilizzare i dati riguardanti i premiati, cioè
a dire il gruppo sperimentale. Sia per questa ragione sia, come abbiamo visto, per le implicazioni del
fattore strumentazione, è preferibile, dal punto di vista scientifico, che le fasi di test e di re-test siano
gestite da due istituzioni differenti; in questo modo, si potrà con tutta probabilità ottenere una
percentuale di risposte al follow-up pari al 50% per entrambi i gruppi, piuttosto che ricavare il 90% di
risposte dal gruppo dei premiati e il 50% dal gruppo degli esclusi. Ancora una volta, il problema della
mortalità si presenterebbe negli stessi termini anche nell’esperimento vero e proprio. In entrambi i
casi, l’interazione fra i fattori della selezione e della maturazione come possibile fonte di invalidità
interna è sotto controllo. Infatti, nel caso del nostro disegno quasi-sperimentale tale interazione non
potrebbe legittimamente spiegare una evidente discontinuità della linea di regressione in
corrispondenza di X. La minaccia alla validità esterna rappresentata dall’interazione fra il fattore
testing e la variabile sperimentale è controllata nella misura in cui le rilevazioni dei punteggi in base ai
quali sono assegnati i premi rientrano tra le normali attività delle strutture formative, ovvero delle
istituzioni cui si desidera estendere i risultati dell’esperimento.
L’interazione fra il fattore selezione ed X costituisce un problema rilevante con riferimento
alla validità esterna, tanto nell’esperimento vero e proprio quanto nell’analisi regressionediscontinuità. Questo perché, in entrambi i casi, l’effetto della variabile sperimentale è suscettibile di
conferma soltanto per una gamma molto ristretta di punteggi, ossia soltanto per quelli che si collocano
in corrispondenza del valore discriminante. Per quanto concerne il disegno quasi-sperimentale, le
possibilità di inferenza sembrerebbero maggiori; tuttavia, gli effetti negativi derivanti dall’assunto di
linearità sono minimi se l’estrapolazione avviene in un solo punto, come nella Figura 4. Per effettuare
generalizzazioni più ampie bisognerebbe procedere all’estrapolazione di valori inferiori a X per
l’intera gamma dei valori X, tenendo presente che per ogni estrapolazione di grado superiore il numero
delle ipotesi rivali plausibili si accresce. Inoltre, i valori estrapolati dei differenti tipi di curve
corrispondenti ai valori inferiori ad X hanno una maggiore dispersione, e così via.
16