Estratto da D.T. Campbell, J.C, Stanley, Disegni sperimentali e quasi
Transcript
Estratto da D.T. Campbell, J.C, Stanley, Disegni sperimentali e quasi
Estratto da D.T. Campbell, J.C, Stanley, Disegni sperimentali e quasi-sperimentali per la ricerca I DISEGNI QUASI-SPERIMENTALI In numerosi contesti sociali naturali è possibile effettuare la raccolta dei dati ricorrendo a procedure che si approssimano ad un disegno sperimentale (potendo decidere, ad esempio, quando compiere l’osservazione e quali soggetti osservare), anche qualora non sia possibile controllare appieno, come richiederebbe un esperimento vero e proprio, la sequenza degli stimoli sperimentali (quando effettuare il trattamento e quali soggetti esporre ad esso, tenendo altresì conto della randomizzazione delle esposizioni). Queste situazioni possono essere definite, nell’insieme, “disegni quasi-sperimentali”. Uno degli scopi del presente capitolo consiste nel promuovere l’uso dei disegni quasi-sperimentali e nell’incrementare la capacità di riconoscere i contesti in cui si danno le condizioni per un loro impiego. Ma, proprio perché tali disegni non permettono un controllo sperimentale completo, è necessario che il ricercatore conosca quali sono le specifiche variabili di cui il particolare disegno di ricerca utilizzato non garantisce il controllo. Il capitolo precedente avrà probabilmente accresciuto le preoccupazioni dello studioso medio o del potenziale ricercatore alle prese con la progettazione di un esperimento. Ciò è senz’altro positivo se spinge a mettere a punto e realizzare esperimenti migliori e se conduce ad una maggiore cautela nel trarre inferenze dai risultati ottenuti. Tuttavia, tali preoccupazioni potrebbero determinare un indesiderato effetto collaterale se il ricercatore maturasse la convinzione che il controllo sperimentale è irraggiungibile, essendo così indotto ad abbandonare qualsiasi tentativo in tal senso a favore di procedure di indagine ancor più informali. Inoltre – e con probabilità persino maggiori – questo impressionante elenco di fattori di invalidità potrebbe ridurre la volontà di avvalersi dei disegni quasisperimentali, nei quali appare subito evidente la mancanza di un controllo sperimentale completo. Se così fosse si sarebbe ottenuto il risultato opposto a quello che il presente lavoro si propone di raggiungere. Qualsiasi esperimento è imperfetto dal punto di vista dell’interpretazione definitiva dei risultati raggiunti e del tentativo di collocarlo nell’ambito di una scienza in evoluzione. L’esplicitazione dei criteri di validità dovrebbe contribuire ad accrescere la consapevolezza del ricercatore in merito alle imperfezioni residue del disegno adottato, di modo che, con riguardo alle questioni rilevanti, egli possa prendere atto dell’esistenza di differenti possibili interpretazioni dei dati raccolti. Naturalmente, è auspicabile che il ricercatore si sforzi di predisporre il miglior esperimento possibile in rapporto alla situazione, e valuti attentamente quali sono i contesti artificiali e naturali in cui risultano soddisfatte al meglio le condizioni di controllo. Inoltre, il ricercatore dovrebbe condurre l’esperimento e procedere all’interpretazione avendo piena cognizione dei punti in merito ai quali i risultati ottenuti sono ambigui. Tale consapevolezza, pure importante per gli esperimenti in cui si esercita un controllo “pieno”, risulta essenziale per quanto riguarda i disegni quasi-sperimentali. Adempiendo a questa finalità generale, analizzeremo, nella sezione che segue, i punti di forza e di debolezza di alcuni disegni quasi-sperimentali, ciascuno dei quali riteniamo sia meritevole di adozione qualora non sia possibile ricorrere a disegni migliori. Alcune osservazioni preliminari sulla teoria della sperimentazione (…) La scienza, così come altri processi conoscitivi, implica la formulazione di teorie, ipotesi, modelli, etc., suscettibili di essere accettati o rifiutati sulla base di qualche criterio esterno. La sperimentazione appartiene a questa seconda fase, alla fase di vaglio, rifiuto e rielaborazione. Potremmo immaginare un’ecologia della scienza di cui ci occupiamo, nella quale il numero delle possibili ipotesi positive superi notevolmente il numero delle ipotesi che si dimostreranno alla lunga compatibili con le nostre osservazioni. Il compito di raccogliere dati che consentano di controllare una teoria in gran parte coincide, quindi, con il rifiuto delle ipotesi inadeguate. Per portare a termine tale compito, qualsiasi struttura organizzata di dati osservativi in grado di determinare esiti invalidanti per la teoria sarà utile, inclusi i disegni quasi-sperimentali, caratterizzati da un’efficacia inferiore rispetto agli esperimenti propriamente detti. Ma, ci si potrebbe chiedere, disegni imperfetti di questo tipo non daranno origine a conferme spurie di teorie inadeguate? Non indirizzeranno nella direzione errata le ricerche che seguiranno? Non 1 riempiranno le riviste con dozzine di studi, apparentemente necessari per sradicare un solo falso positivo pubblicato con grande rilievo? Certo, si tratta di un grave rischio, che, tuttavia, bisogna correre. Un rischio della stessa natura, sebbene di grado diverso, è presente negli esperimenti “veri e propri” che abbiamo definito come Disegni 4, 5 e 6. Essenzialmente, i risultati sperimentali non “confermano” né “provano” mai una teoria – piuttosto, la teoria accettata è stata sottoposta a controllo ed è sfuggita alla sconferma. In virtù del fatto che viene spesso utilizzato per indicare la validità deduttiva, il termine “prova” ha acquisito per la nostra generazione una connotazione impropria, tanto con riferimento agli usi più consolidati quanto con riferimento alle sue applicazioni a procedure induttive quali la sperimentazione. I risultati di un esperimento “indagano” non “provano” una teoria. Un’ipotesi adeguata è quella che è ripetutamente sopravvissuta a tale indagine – tuttavia, essa potrebbe essere sconfermata in qualsiasi momento da una nuova indagine. È, oggi, universalmente condivisa l’idea secondo cui l’”ipotesi nulla”, spesso formulata per convenienza nella forma di una proposizione alla base di un esperimento, non può mai essere “accettata” in virtù dei dati ottenuti; essa può soltanto essere “rifiutata” o “non rifiutata”. Lo stesso dicasi delle ipotesi intese in senso più generale – tecnicamente, esse non sono mai “confermate”: quando, per convenienza, impieghiamo questo termine intendiamo, piuttosto, che l’ipotesi è stata sottoposta a sconferma e non è stata sconfermata. Questo punto di vista è compatibile con tutte le filosofie della scienza di stampo humeano, che enfatizzano l’impossibilità di provare per via deduttiva leggi ottenute per via induttiva. Recentemente, Hanson (1958) e Popper (1959) sono stati particolarmente espliciti su questo punto. Molti dati raccolti nell’ambito della ricerca sull’insegnamento hanno un valore minimo o nullo e molte ipotesi sono eccessivamente flessibili, al punto di non poter essere sconfermate sulla base delle indagini che vengono condotte. Aumentare la credibilità di queste pseudo-ricerche non fa parte dei nostri desideri. Riteniamo, tuttavia, che i disegni di ricerca che si analizzeranno nelle pagine seguenti abbiano una capacità di indagine sufficiente per essere utilizzati nel caso in cui non siano possibili indagini più efficaci. Se, da una parte, la nozione secondo cui gli esperimenti non “confermano” mai una teoria è corretta, dall’altra, essa è talmente contraria ai nostri atteggiamenti e alle nostre esperienze di scienziati da risultare quasi intollerabile. Questa enfasi appare particolarmente inadeguata se si pensa alle raffinate e sorprendenti conferme rintracciabili nell’ambito della fisica e della chimica, dove è possibile che, in numerosi punti di misurazione, i dati sperimentali si dispongano perfettamente lungo la curva complessa prevista dalla teoria. E questa prospettiva diventa fenomenologicamente inaccettabile per molti di noi quando viene estesa ai risultati induttivi ricavati attraverso la vista. Ad esempio, è difficile accettare che i tavoli e le sedie che “vediamo” davanti a noi non sono “confermati” o “provati” dall’evidenza visiva, ma sono “mere” ipotesi sugli oggetti esterni non ancora sconfermate dalle molteplici investigazioni del sistema visivo. Tale riluttanza contiene un briciolo di verità. Le numerose ipotesi rivali plausibili, capaci di dar conto dei dati raccolti conferiscono a una teoria gradi diversi di “conferma”: minore è il numero delle ipotesi rivali residue, maggiore è il grado di “conferma” della teoria. Presumibilmente, anche per le scienze più avanzate, in qualsiasi stadio del processo di accumulazione delle prove esistono numerose teorie possibili che sono compatibili con i dati, in particolare se vengono ammesse tutte le teorie che presuppongono evenienze complesse. Eppure, è probabile che siano poche o nulle le ipotesi teoriche rivali disponibili a livello pratico o seriamente proponibili, in grado di competere con teorie “saldamente fondate” e con teorie sottoposte a controlli approfonditi mediante esperimenti complessi. Questa scarsità rappresenta la controparte epistemologica della conferma positiva di una teoria, che la sperimentazione sofisticata sembra offrire. Un’analoga scarsità di ipotesi rivali si ha nella conoscenza fenomenologicamente positiva che la vista sembra offrire, in contrasto, ad esempio, con la relativa ambiguità della esplorazione tattile dei non vedenti. In questa prospettiva, l’elencazione dei fattori di invalidità che i disegni sperimentali controllano può essere considerata come una esplicitazione di ipotesi, spesso plausibili, rivali rispetto a quella secondo cui la variabile sperimentale ha avuto un effetto. Nel caso in cui un disegno sperimentale “controllasse” uno di tali fattori di invalidità, sarebbe annullata semplicemente l’ipotesi rivale associata al fattore in questione, sebbene, attraverso possibili, complesse coincidenze, essa possa ancora essere tirata in ballo per spiegare il risultato sperimentale. Le “ipotesi rivali plausibili” che hanno richiesto il consueto ricorso a speciali gruppi di controllo hanno lo status di leggi empiriche accettate: gli effetti determinati dalla pratica hanno determinato l’aggiunta di un gruppo di controllo al 2 Disegno 2, così come, in campo medico, la suggestionabilità e lo shock operatorio hanno imposto che si selezionassero, rispettivamente, il gruppo di controllo placebo e il gruppo di controllo sottoposto ad una operazione chirurgica simulata. Le ipotesi rivali sono plausibili fin tanto che siamo disposti ad attribuire loro lo status di leggi empiriche. Interpretando i risultati di un quasi-esperimento in cui manchi qualche tipo di controllo, si dovrà considerare accuratamente l’ipotesi che vi siano fattori non controllati in grado di spiegarli. Minore è la plausibilità di questa ipotesi, maggiore risulterà la “validità” dell’esperimento. Come è stato sottolineato analizzando il disegno di Solomon a quattro gruppi (Disegno 5), maggiore è il numero e maggiore è l’indipendenza delle modalità attraverso le quali l’effetto sperimentale viene controllato, minore sarà il numero e minore sarà la plausibilità di singole ipotesi rivali invalidanti. Il nostro è un appello alla parsimonia. La “validità” dell’esperimento diventa una questione riguardante la credibilità relativa delle teorie rivali: l’ipotesi teorica secondo cui X ha prodotto un effetto versus le ipotesi teoriche della causazione che presuppongono l’azione di fattori incontrollati diversi da X. Se un’unica ipotesi teorica, secondo cui X ha prodotto un effetto, può essere introdotta per dar conto di più insiemi di differenze osservate, mentre, in alternativa, bisognerebbe presumere molti altri effetti separati determinati da variabili incontrollate, un effetto per ciascuna differenza osservata, allora sembra ragionevole far propria la prima opzione. Gli scienziati fanno spesso appello a questa modalità di inferenza quando riassumono una letteratura caratterizzata dalla scarsa presenza di esperimenti perfettamente controllati. Così, Watson (1959, p. 296) ha rilevato che gli effetti negativi prodotti dalla deprivazione materna sono sostenti da una quantità di evidenze di diversa natura, la cui specificità varia da uno studio all’altro. Del pari, Glickman (1961), pur rilevando la presenza di ipotesi rivali plausibili praticamente in tutte le indagini riguardanti uno specifico settore di studi, ha fatto notare che il processo di consolidamento di una data ipotesi sperimentale risulta sorprendente proprio perché l’ipotesi rivale plausibile varia da un’indagine all’altra. (…) Nelle pagine che seguono ci occuperemo in primo luogo degli esperimenti basati su un solo gruppo. A partire, perlomeno, dal 1920, il disegno sperimentale dominante all’interno della psicologia e della pedagogia prevede un gruppo di controllo, come, ad esempio, il Disegno 4, il 6 o, forse ancora più spesso, il Disegno 10, che sarà analizzato più oltre. Nelle scienze sociali e nella riflessione riguardante le indagini sul campo, i disegni che prevedono un gruppo di controllo dominano a tal punto la scena da essere considerati dai più sinonimo di “sperimentazione”. Di conseguenza, è possibile che molti ricercatori rinuncino al tentativo di una sperimentazione in quei contesti in cui non sono disponibili gruppi di controllo, finendo così con l’ottenere risultati di ricerca ancor più approssimativi. Esistono, di fatto, molti disegni quasi-sperimentali che risultano applicabili a singoli gruppi e proficuamente utilizzabili, secondo una logica e un’ interpretazione sperimentali, in molti contesti in cui non è possibile attuare un disegno che preveda il gruppo di controllo. Spesso, la collaborazione e l’accesso sperimentale sono possibili all’interno di unità di tipo amministrativo: un insegnante ha a disposizione la sua classe, il preside di una scuola superiore potrebbe voler effettuare periodicamente indagini sul morale degli insegnanti e degli studenti, e così via. In questi casi, il trattamento differenziale dei segmenti interni all’unità (necessario per un esperimento con gruppo di controllo) potrebbe essere impraticabile per ragioni di carattere strutturale-amministrativo, ovvero, sebbene attuabile, potrebbe essere giudicato poco desiderabile proprio dal punto di vista dei risultati dell’indagine, a causa degli effetti reattivi che determinerebbe. In contesti così caratterizzati, si possono quindi prendere in considerazione disegni sperimentali basati su un solo gruppo. 7. L’ESPERIMENTO BASATO SULLE SERIE TEMPORALI L’essenza del presente disegno consiste nell’introduzione di una variazione sperimentale all’interno di un processo periodico di misurazione riguardante un dato gruppo o individuo, gli effetti della quale sono indicati proprio da una discontinuità dei risultati delle misurazioni effettuate nella serie temporale considerata. Questo disegno può essere rappresentato graficamente nella seguente forma: O1 O2 O3 O4 X O5 O6 O7 O8 Il disegno basato sulle serie temporali ha caratterizzato la maggior parte degli esperimenti classici condotti nel XIX secolo nell’ambito delle scienze fisiche e della biologia. Ad esempio, 3 consideriamo l’immersione in un bagno di acido nitrico di una barra di ferro il cui peso è rimasto invariato per molti mesi; e immaginiamo che dopo l’immersione si registri una variazione decrementale del peso della barra. Nel caso specifico, l’istituzione di un nesso tra l’immersione in acido nitrico e la susseguente perdita di peso della barra seguirebbe una logica sperimentale di questo tipo. Certamente, sarebbe possibile costituire dei “gruppi di controllo” rappresentati da barre di ferro riposte sugli scaffali, il cui peso rimane invariato; tuttavia, la misurazione e la registrazione del peso di queste barre non sarebbero, di norma, ritenute necessarie né rilevanti. Si comprende, dunque, perché questo disegno venga spesso giudicato ammissibile nelle scienze di maggior successo, mentre raramente esso viene annoverato tra i disegni sperimentali validi per le scienze sociali (si vedano, tuttavia, Maxwell, 1958; Underwood, 1957b, p. 133). Tale differenza di status si basa su fondati motivi, una considerazione attenta dei quali consentirà di capire meglio a quali condizioni tale disegno può essere efficacemente impiegato dagli scienziati sociali qualora un controllo sperimentale più completo sia impossibile. Questo disegno caratterizza gli esperimenti classici condotti dal British Industrial Fatigue Research Board sui fattori che influenzano la produzione industriale (ad esempio, Farmer, Brooks e Chambers, 1923). 4 La Figura 3 mostra alcuni possibili modelli derivanti dall’introduzione in una serie temporale (O1 - O8) di una variazione sperimentale, rappresentata dalla linea verticale X. Ai fini della nostra discussione, supponiamo che un ricercatore sia tentato di inferire che X abbia avuto un effetto analizzando le serie temporali rappresentate in A e B e, probabilmente, C, D ed E, ma che non sia incline ad inferire tale effetto studiando le serie temporali rappresentate in F, G ed H, pur avendo egli osservato che lo scarto fra i valori registrati in O4 ed in O5 nei casi F, G ed H presenta la stessa ampiezza e la stessa stabilità statistica rilevata nei casi precedenti, ad eccezione del caso D. (...) possiamo assumere che il problema della validità interna rinvia in ultima analisi alla presenza di plausibili ipotesi rivali in grado di fornire una spiegazione credibile – e alternativa a quella offerta dall’ipotesi sperimentale – della variazione osservata nelle serie temporali. I punti di forza di questo disegno appaiono evidenti in contrapposizione al Disegno 2, con il quale presenta un’affinità superficiale rappresentata dalla mancanza di un gruppo di controllo e dall’utilizzazione di misurazioni prima-e-dopo. Analizzando i problemi relativi alla validità interna, si rileva che il principale punto debole del Disegno 7 risiede nell’assenza di garanzie in merito al controllo del fattore storia. In altri termini, è possibile formulare un’ipotesi rivale secondo cui non X, ma un evento più o meno contemporaneo ad X abbia determinato la variazione rilevata. La fiducia attribuita alle potenzialità interpretative di questo disegno sperimentale nelle singole, concrete applicazioni di ricerca riposa sulla possibilità di eliminare stimoli estranei di tale natura. Si consideri un esperimento, basato su misurazioni ripetute, sull’effetto di un documentario sull’ottimismo degli studenti in merito all’eventualità di una guerra. In questo caso, l’incapacità di controllare chiaramente il fattore storia sembrerebbe rappresentare un problema estremamente serio, considerato che gli studenti sono quotidianamente esposti a molte fonti di stimoli, potenzialmente rilevanti, che si aggiungono a quelli somministrati in classe, sotto il diretto controllo del ricercatore. Naturalmente, persino in questo caso, se l’esperimento dovesse essere accompagnato dalla registrazione accurata degli stimoli non sperimentali aggiuntivi e potenzialmente rilevanti, sarebbe possibile quell’interpretazione plausibile che fa sì che valga la pena di effettuare la sperimentazione. Come evidenziato in precedenza, il fattore storia rappresenta la controparte di quello che nelle ricerche di laboratorio condotte nell’ambito della fisica e della biologia viene definito isolamento sperimentale. La plausibilità della storia come fattore di spiegazione di variazioni quali quelle rilevate nelle serie temporali A e B della Figura 3 dipende in larga misura dal grado di isolamento sperimentale che il ricercatore può assicurare. Gli studi sul riflesso condizionato realizzati da Pavlov sui cani – essenzialmente, esperimenti con “un solo gruppo” o con “un solo animale” – avrebbero fornito un sostegno di gran lunga meno credibile alle sue teorie se fossero stati condotti all’angolo di una strada molto trafficata piuttosto che in un laboratorio isolato acusticamente. Ciò che costituisce l’isolamento sperimentale varia in ragione del problema studiato e del tipo di strumento di misurazione utilizzato. Costruire l’isolamento sperimentale in uno studio sulle particelle subatomiche che si avvale delle camere a nebbia o dei contatori di scintillazione richiede più precauzioni di quante non siano necessarie per l’ipotetico esperimento sulle barre di ferro immerse in acido nitrico, citato in precedenza. In molte delle situazioni che consentirebbero l’utilizzo del Disegno 7, il ricercatore potrebbe plausibilmente richiamarsi a una nozione di isolamento sperimentale inteso come consapevolezza, da parte sua, dei possibili eventi rivali capaci di determinare la variazione rilevata, e potrebbe plausibilmente argomentare la scarsa probabilità di spiegare l’effetto osservato nei termini di quegli eventi. Gli effetti del clima e della stagione rientrano fra le altre variabili estranee che potremmo per comodità ricondurre al fattore storia. Gli esperimenti di questo tipo, infatti, sono suscettibili di estendersi per periodi di tempo talmente lunghi da comprendere variazioni stagionali, e, come negli studi sulla produttività dei lavoratori, le fluttuazioni stagionali della luce, del clima, e così via possono essere confuse con l’introduzione di una variazione sperimentale. Potrebbero, forse, essere ugualmente ricondotte al fattore storia, sebbene siano in un certo senso pertinenti al fattore maturazione, le variazioni periodiche nelle serie temporali corrispondenti a determinate consuetudini istituzionali del gruppo, quali, ad esempio, i cicli settimanali di lavoro, i cicli legati alla retribuzione stipendiale, i periodi degli esami, le vacanze e le festività studentesche. Le serie di osservazioni dovrebbero essere messe a punto in modo tale da mantenere costanti i cicli noti o, in alternativa, dovrebbero essere prolungate fino a contenere svariati cicli completi di questo tipo. 5 Proseguendo l’analisi dei fattori da controllare, sembra possibile escludere l’azione del fattore maturazione, dato che, se il risultato ottenuto è del tipo rappresentato nei diagrammi A o B della figura 3, non è possibile, di norma, formulare sulla base di detto fattore ipotesi rivali plausibili capaci di spiegare la variazione verificatasi nel passaggio da O4 ad O5, ma non rilevata nelle osservazioni effettuate nei periodi precedenti. (Tuttavia, è possibile che la maturazione non si manifesti in forma semplice e regolare. Si noti come, in mancanza di ulteriori informazioni, l’improvvisa apparizione del ciclo mestruale nelle ragazze che frequentano il primo anno della scuola media inferiore potrebbe sembrare, sulla base del solo dato fisiologico, un effetto del passaggio da un livello di istruzione all’altro). Analogamente, risulterebbe in generale scarsamente plausibile un’ipotesi rivale che tentasse di spiegare lo scarto rilevato fra O4 ed O5 nei termini di un effetto del fattore testing. Evidentemente, potendo disporre, come nel Disegno 2, esclusivamente delle osservazioni O4 ed O5, verrebbe meno la possibilità di escludere dalla spiegazione tanto l’effetto della maturazione quanto l’effetto del testretest. In ciò risiede il grande vantaggio che il Disegno 7 presenta rispetto al Disegno 2. Analogamente, molte delle ipotesi che attribuiscono la variazione osservata ad una variazione dello strumento utilizzato non sarebbero in grado di spiegare per quale ragione l’errore strumentale si verifica nello specifico caso considerato, ma non nei precedenti. In quanto al fattore strumentazione, qui si richiama l’attenzione sulle situazioni in cui la conseguenza di un’alterazione dello strumento di misura potrebbe essere erroneamente interpretata come effetto di X. (…) Il Disegno 7 può spesso essere impiegato per misurare gli effetti di una significativa variazione delle politiche governative. Tenendo conto di quanto si è detto, quando si introduce un cambiamento di questo tipo è preferibile lasciare immutato lo strumento utilizzato per rilevarne gli effetti. In molti casi, per preservare l’interpretabilità di una serie temporale, è preferibile continuare ad impiegare uno strumento già in uso piuttosto che adottare uno nuovo. Gli effetti dovuti al fattore regressione sono, di norma, una funzione accelerata inversamente proporzionale al tempo trascorso; di conseguenza, essi non tornano utili per spiegare plausibilmente perché il valore rilevato in O5 risulta maggiore rispetto a quello rilevato in O2, O3 ed O4. In quanto al fattore selezione, nel caso in cui tutte le osservazioni O siano effettuate sugli stessi soggetti, esso può essere escluso in qualità di causa di un effetto principale, sia con riferimento a questo tipo di disegno sia con riferimento al Disegno 2. Se i dati relativi ad un gruppo sono fondamentalmente costituiti da informazioni riguardanti i singoli componenti, allora è possibile escludere altresì il fattore mortalità, come già avveniva per il Disegno 2. Tuttavia, se le osservazioni sono costituite da prodotti di natura collettiva, allora è necessario monitorare l’assenteismo, gli abbandoni e i subentri all’interno del gruppo in modo da assicurarsi che la concomitanza di questi cambiamenti non fornisca un’ipotesi rivale plausibile. Per quanto riguarda la validità esterna, è evidente che l’effetto sperimentale potrebbe ben essere circoscritto alle popolazioni ripetutamente sottoposte al test. Nell’ambito della ricerca sull’insegnamento, è molto difficile che si presenti un problema di questa natura, se non nei casi in cui siano previsti cicli di osservazioni artificiali che esulano dal normale contesto scolastico. Di più: questo disegno è particolarmente adatto a quei contesti istituzionali in cui la raccolta sistematica di dati inerenti all’attività svolta si configura come un adempimento essenziale. Gli esami di profitto effettuati annualmente nelle scuole pubbliche, l’annotazione delle assenze per malattia, e simili, rappresentano, di norma, attività non reattive, in quanto rientrano in modo del tutto naturale tra le funzioni proprie dell’universo al quale si desidera estendere la generalizzazione. L’interazione fra X e il fattore selezione rinvia alla possibilità che gli effetti della variabile sperimentale siano limitati allo specifico campione su cui è stato condotto l’esperimento e che la reazione osservata non sia tipica dell’universo oggetto di indagine, rispetto al quale il gruppo esposto al trattamento, proprio perché aggregatosi in modo naturale, non è che un campione distorto. Ad esempio, i vincoli posti da questo disegno sperimentale possono indurre il ricercatore a prendere in considerazione soltanto gli studenti che si sono sottoposti ai test con continuità e che costituiscono, ovviamente, un sottoinsieme a sé stante. Inoltre, qualora siano state effettuate numerose osservazioni, come il Disegno 7 del resto prevede, è possibile che proprio la ripetizione del test abbia causato un effetto di assenteismo e di conseguente riduzione/selezione del gruppo originario di studenti. Affinché le serie temporali possano essere correttamente interpretate come esperimenti, è necessario che il ricercatore sia in grado di specificare l’ampiezza attesa dell’intervallo di tempo compreso fra l’introduzione della variabile sperimentale e la manifestazione di un suo effetto. Con una 6 simile precisazione, il modello indicato dalla serie temporale D della Figura 3 potrebbe essere giudicato non meno conclusivo del modello della serie temporale A. (…) A mano a mano che aumenta l’intervallo temporale fra la variabile sperimentale X e l’effetto osservato, aumenta anche la probabilità che l’effetto osservato sia dovuto a circostanze storiche estranee. Appare, inoltre, indispensabile specificare la X prima di esaminare il risultato delle serie temporali. L’esame post hoc di una serie temporale allo scopo di inferire quale X abbia preceduto la variazione più vistosa non è ammissibile, perché consente una capitalizzazione opportunistica della casualità che rende difficile, se non impossibile, qualsiasi tentativo di stimare la significatività dell’effetto. La prevalenza di questo disegno nell’ambito delle scienze di maggiore successo dovrebbe indurci a considerarlo con notevole rispetto. Tuttavia, va ricordato che le questioni dell’”isolamento sperimentale” e delle “condizioni costanti” rendono i risultati delle applicazioni del Disegno 7 di più facile interpretazione per queste scienze che per le nostre. Bisogna, inoltre, tenere presente che, così come applicato negli ambiti di nostra competenza, un solo esperimento non è mai decisivo. Sebbene sia possibile che non si faccia mai ricorso al gruppo di controllo, è bene che l’indagine basata sul Disegno 7 sia replicata in situazioni differenti da differenti ricercatori prima che possa essere stabilito un dato risultato. Anche noi dovremmo utilizzarlo in questo modo; soprattutto, sapendo che ricorreremo ad esso quando non è possibile applicare un disegno che consenta un controllo migliore. Organizzeremo i nostri archivi di dati istituzionali in modo da ottenere quante più serie temporali sono possibili per questo tipo di valutazioni, esaminando più dettagliatamente gli effetti in ipotesi connessi a mutamenti di natura amministrativa e ad altri eventi imprevisti e discontinui, e cercando di capire a quale/i di essi è possibile attribuire realisticamente lo status di X. Tuttavia, i risultati non potranno essere considerati definitivi prima che l’indagine sia ripetuta più volte e nell’ambito di contesti differenti. 8. IL DISEGNO CON CAMPIONI TEMPORALI EQUIVALENTI Il disegno sperimentale di forma più comune prevede l’utilizzo di un campione equivalente di soggetti che funge da base di comparazione degli effetti della variabile sperimentale. Per converso, una forma ricorrente di esperimento con un solo gruppo prevede l’utilizzo di due campioni equivalenti di occasioni, in uno soltanto dei quali è presente la variabile sperimentale. Tale disegno può essere rappresentato graficamente nel modo seguente (sebbene l’alternanza debba essere considerata casuale piuttosto che regolare): X1O X0O X1O X0O Il Disegno 8, quindi, prevede che la variabile sperimentale venga introdotta a più riprese, configurandosi così come una variante del Disegno 7, in cui la variabile di trattamento, come si è visto, interviene in un unico, definito momento. Ovviamente, la sua utilità è maggiore nel caso in cui sia noto in anticipo che l’effetto della variabile sperimentale avrà un carattere transitorio o reversibile. Sebbene la logica su cui si fonda questo esperimento possa essere considerata un’estensione di quella che sta alla base dell’esperimento delle serie temporali, l’analisi statistica dei risultati viene condotta secondo modalità più vicine a quelle dell’esperimento con due gruppi, valutando la significatività della differenza fra le medie di due serie di misurazioni. Di norma, le misurazioni sono puntualmente congiunte alle somministrazioni della variabile sperimentale, risultando spesso concomitanti, come negli studi sull’ apprendimento, la produttività, i condizionamenti, le reazioni fisiologiche, e così via. Probabilmente, il primo, e più tipico, utilizzo di questo disegno sperimentale – ad esempio, nelle ricerche di Allport (1920) e Sorokin (1930) sul rendimento degli studenti in varie condizioni – prevedeva la comparazione fra due variabili sperimentali, ossia X1 versus X2, piuttosto che fra una variabile sperimentale ed una di controllo. La procedura consistente nell’alternare con regolarità le differenti condizioni sperimentali e nell’effettuare il test dopo un consistente intervallo temporale non è, nella maggior parte dei casi, auspicabile; in particolare, nei casi in cui si possa ingenerare confusione con i cicli giornalieri, settimanali e mensili, ovvero nelle circostanze in cui, attraverso la sua prevedibile periodicità, un condizionamento indesiderato dell’intervallo temporale possa accentuare la differenza fra un trattamento e l’altro. Così, Sorokin si assicurò che ciascun trattamento sperimentale fosse effettuato con la stessa frequenza di pomeriggio e di mattina. 7 Nella maggior parte dei casi, ciascuna delle condizioni sperimentali viene introdotta in un numero relativamente limitato di occasioni, tuttavia lo sviluppo impresso da Brunswik (1956) alla teoria del campionamento richiama l’attenzione sulla necessità di disporre di campioni casuali ampi, rappresentativi ed equivalenti, relativi ai singoli momenti in cui si procede al trattamento sperimentale. Kerr (1945) è forse lo studioso che più si è avvicinato a questo modello con i suoi esperimenti sugli effetti della musica sulla produttività industriale. Ciascuno dei suoi numerosi esperimenti prevedeva un solo gruppo sperimentale, analizzato in particolari giorni, scelti lungo l’arco di mesi in modo da ottenere campioni randomizzati ed equivalenti. In uno di questi studi, Kerr ha potuto così mettere a confronto i dati raccolti in 56 giorni nei quali il lavoro in fabbrica era accompagnato dalla musica, con quelli rilevati in 51 giorni nei quali tale attività veniva svolta in assenza di stimoli musicali. In un altro esperimento, egli ha invece avuto modo di studiare gli effetti sulla produttività di 3 generi musicali differenti, confrontando i risultati rilevati su campioni equivalenti di 14 giorni. Nella particolare applicazione di Kerr, ad esempio, il Disegno 8 sembra, nel complesso, dotato di validità interna. Il fattore storia – che costituisce il principale punto debole dell’esperimento basato sulle serie temporali – viene controllato introducendo la variabile X in più occasioni differenti, rendendo in tal modo estremamente improbabile qualsiasi spiegazione rivale fondata sul contemporaneo intervento di avvenimenti esterni. Gli altri fattori di invalidità vengono controllati seguendo la stessa logica descritta per il Disegno 7. Per quanto attiene alla validità esterna, la generalizzazione ha, ovviamente, senso soltanto in riferimento a popolazioni sottoposte a test con una certa frequenza. Uno dei punti deboli caratteristici di questo disegno sperimentale è costituito dalla reattività all’esperimento, dovuta alla consapevolezza da parte dei soggetti interessati di essere sottoposti ad un test. Somministrando a gruppi diversi, differenti variabili sperimentali, è possibile (in particolare se si utilizza il Disegno 6) rendere i soggetti del tutto ignari dell’esperimento o dei trattamenti che si stanno confrontando. Non è così, invece, nel caso in cui vi sia un solo gruppo ripetutamente esposto ad una particolare condizione sperimentale piuttosto che ad un’altra: ad esempio, nel caso di Sorokin, ad un sistema alternativo di calcolo del salario; nel caso di Allport, ad una condizione di lavoro piuttosto che ad un’altra; nel caso degli studi di Wyatt, Fraser e Stock (1926), ad un particolare impianto di aerazione; nel caso di Kerr, ad un genere musicale piuttosto che ad un altro (sebbene Kerr abbia preso accurate precauzioni per far sì che gli stimoli musicali programmati, rappresentati da 3 diversi generi, costituissero parte integrante dell’ambiente di lavoro). Per quanto riguarda l’interazione fra il fattore selezione e la X, la generalizzazione degli effetti dimostrati di X è, di solito, limitata al particolare tipo di popolazione coinvolta nell’esperimento. Questo disegno sperimentale reca con sé il medesimo rischio per la validità esterna che caratterizza gli altri disegni discussi nel presente volume, nei quali livelli multipli di X vengono presentati allo stesso gruppo di soggetti; l’effetto conseguente è stato definito “interferenza della X multipla”. L’effetto di X1, nella situazione più semplice in cui essa viene messa a confronto con X0, può essere generalizzato esclusivamente alle condizioni in cui X1 viene presentata più volte, a determinati intervalli di tempo. Non esiste alcuna valida ragione per estendere la generalizzazione a possibili altre situazioni, in cui X1 è costantemente presente, ovvero in cui essa è introdotta una ed una sola volta. Inoltre, la condizione X0 – o assenza di X – non costituisce semplicemente un aspetto tipico dei periodi in cui X è mancante, ma è rappresentativa soltanto a condizione che i casi in cui la variabile X è assente si alternino ai casi in cui essa è presente. Se l’effetto di X1 si prolunga fino a toccare anche i periodi di assenza della variabile sperimentale, come in genere è probabile che accada, è possibile che, rispetto, ad esempio, al Disegno 6, il disegno basato sulle serie temporali sottovaluti l’effetto di X1. D’altra parte, la dinamica stessa dell’esperimento, caratterizzata da frequenti variazioni, potrebbe aumentare il valore di stimolo di X, portandolo ben al di sopra di quanto sarebbe se la variabile sperimentale fosse presente in modo costante ed omogeneo. Nello studio di Kerr, l’effetto che la musica hawaiana esercita sulla produttività potrebbe variare sostanzialmente a seconda che essa costituisca il sottofondo costante delle attività lavorative ovvero l’accompagnamento musicale di un solo giorno in alternativa ad altri generi musicali ascoltati negli altri giorni. Si noti, tuttavia, che molti aspetti dell’insegnamento su cui gli studiosi sono interessati a condurre un esperimento possono avere effetti che si limitano, per tutte le finalità pratiche, al solo periodo in cui essi sono effettivamente implementati, magari proprio sotto forma di variabile X . Per tali finalità, questo disegno potrebbe rivelarsi prezioso. Supponiamo che a un insegnante interessi conoscere se sia più proficuo ai fini dell’apprendimento lo studio individuale e condotto in silenzio 8 della lezione oppure la ripetizione in gruppo e a voce alta. Variando queste due modalità di studio nell’arco di una serie di lezioni, è possibile dare origine ad un esperimento interpretabile. In questo stesso modo si può studiare l’effetto che la presenza in classe di un genitore-osservatore esercita sulle libere discussioni fra gli studenti. Una consapevole applicazione di questo disegno può porre la valutazione sperimentale delle alternative sotto il completo dominio dell’insegnante; il quale può testare metodi e procedure di insegnamento che, se promettenti, potrebbero essere sottoposte ad esperimenti più ampi e meglio coordinati. Questo approccio sperimentale può essere adottato campionando situazioni che riguardano un singolo individuo. Benché i test di significatività non siano di norma applicati in questi casi, questo disegno è abbastanza comune nel campo della ricerca fisiologica, in cui un animale viene ripetutamente sottoposto a stimolazione avendo cura di evitare una periodizzazione della somministrazione. Quest’ultimo requisito risponde all’esigenza di randomizzazione che la logica del disegno richiede. È, inoltre, possibile utilizzare il disegno a quadrato latino piuttosto che la randomizzazione semplice (ad esempio, Cox, 1951; Maxwell, 1958). 10. IL DISEGNO CON GRUPPO DI CONTROLLO NON EQUIVALENTE Uno dei disegni sperimentali più diffusi nell’ambito delle ricerche sull’istruzione prevede un gruppo sperimentale ed un gruppo di controllo, entrambi sottoposti a pre-test e post-test, ma non equivalenti dal punto di vista del campionamento pre-sperimentale. Tali gruppi, piuttosto, corrispondono a collettivi naturali preesistenti, quali, ad esempio, gli alunni di una stessa classe. Essi sono sì scelti in modo da risultare il più possibile omogenei fra loro, tuttavia il grado di fiducia circa l’equivalenza non è tale da evitare il ricorso al pre-test. L’assegnazione di X ad uno dei due gruppi viene effettuata, per definizione, in modo casuale e sotto il controllo del ricercatore. O O X O O Discutendo del presente disegno sperimentale, è bene essere da subito chiari su due questioni: in primo luogo, non bisogna confonderlo con il Disegno 4; quest’ultimo, infatti, pur essendo ugualmente basato su pre-test, post-test e gruppo di controllo, prevede che le unità di una stessa popolazione siano assegnate al gruppo sperimentale o al gruppo di controllo secondo un procedimento casuale. Secondariamente, malgrado ciò, si deve ammettere che il Disegno 10 può essere utilizzato in molti dei casi in cui non è possibile fare ricorso ai Disegni 4, 5 e 6. In particolare, bisogna riconoscere che, pur in assenza di piene garanzie di equivalenza, l’introduzione di un gruppo di controllo in questo disegno sperimentale riduce notevolmente l’ambiguità dell’interpretazione rispetto al Disegno 2, caratterizzato dalla presenza di un solo gruppo, sottoposto a pre-test e post-test. Se i criteri di reclutamento dei due gruppi sono molto simili e se tale somiglianza trova riscontro nei punteggi ottenuti dai due gruppi al pre-test, allora i controlli previsti dalla logica dell’esperimento risultano maggiormente efficaci. Acquisiti tali desiderata ai fini della validità interna, possiamo affermare che un disegno di questo tipo consente il controllo degli effetti principali dovuti ai fattori storia, maturazione, testing e strumentazione. Ciò in quanto le differenze fra il pre-test ed il post-test rilevabili per il gruppo sperimentale, se maggiori di quelle osservate per il gruppo di controllo, sarebbero riconducibili all’intervento della variabile sperimentale e non all’azione di detti fattori, i quali entrerebbero in gioco nel caso in cui tali differenze fossero riscontrate, nella stessa misura, in entrambi i gruppi. Un tentativo per spiegare una variazione incrementale, nel solo gruppo sperimentale, del punteggio dal pre-test al post-test esclusivamente in termini di fattori esterni quali la storia, la maturazione o il testing, deve ipotizzare un’interazione fra queste variabili e le specifiche differenze di selezione che distinguono il gruppo sperimentale dal gruppo di controllo. Sebbene queste interazioni siano, in genere, improbabili, vi sono alcune situazioni nelle quali potrebbero essere invocate. Le interazioni più comuni riguardano forse il fattore maturazione. Se, ad esempio, il gruppo sperimentale è costituito da persone sottoposte a psicoterapia ed il gruppo di controllo da individui di tutt’altro genere, facilmente contattabili e disponibili al test, e se entrambi i gruppi sono sottoposti a pre-test e post-test, un miglioramento registrato esclusivamente nel gruppo sperimentale potrebbe certamente essere interpretato come uno spontaneo processo di guarigione specifico di un gruppo così estremo, 9 cioè a dire come un effetto che si sarebbe rilevato probabilmente anche in assenza del trattamento sperimentale. Questo effetto di interazione fra il fattore selezione e il fattore maturazione (…) potrebbe essere scambiato per un effetto di X, e costituisce quindi una minaccia alla validità interna dell’esperimento. Un esempio concreto, tratto dalla ricerca nel settore dell’istruzione, può contribuire a chiarire questo punto. Lo studio condotto da Sanford ed Hemphill (1952) sugli effetti di un corso di psicologia ad Annapolis rappresenta un’eccellente applicazione del Disegno 10. In questo studio, la seconda classe di Annapolis è identificata con il gruppo sperimentale, mentre la terza classe è scelta a rappresentare il gruppo di controllo. Gli incrementi più consistenti rilevati nel gruppo sperimentale potrebbero essere interamente spiegati come parte di un processo generale di trasformazione che interessa in modo particolare le prime due classi, ma solo tangenzialmente le terze e le quarte. Tali incrementi rappresentano quindi un effetto dell’interazione fra i fattori di selezione che differenziano il gruppo sperimentale da quello di controllo ed i processi di modificazione naturale (maturazione) caratteristici di questi gruppi, piuttosto che un effetto del programma sperimentale. Il particolare gruppo di controllo utilizzato da Sanford ed Hemphill rende possibile verificare questa interpretazione rivale. L’ipotesi concernente l’interazione selezione-maturazione porterebbe a pensare che lo scarto fra i punteggi ottenuti nel pre-test dalla terza (gruppo di controllo) e dalla seconda classe (gruppo sperimentale) abbia pressoché la stessa ampiezza dello scarto fra i punteggi ottenuti dal gruppo sperimentale nel pre-test e nel post-test. Ai fini dell’interpretazione di questo esperimento, è una fortuna che ciò non si sia verificato. Nella maggior parte dei casi, le differenze di punteggio rilevate nel pre-test fra una classe e l’altra non andavano nella stessa direzione né avevano la stessa consistenza degli incrementi di punteggio registrati fra pre-test e post-test per il gruppo sperimentale. Tuttavia, l’incremento osservato dei punteggi relativi alla dimensione della “sicurezza di sé in differenti situazioni sociali” può essere spiegato come un prodotto dell’interazione selezionematurazione. Il gruppo sperimentale faceva registrare, nel passaggio dalla prima alla seconda rilevazione, un incremento di punteggio medio da 43,26 a 51,42, mentre la terza classe otteneva un punteggio medio iniziale pari a 55,82 e conseguiva nella seconda tornata un punteggio di 56,78. In talune occasioni, l’ipotesi dell’interazione selezione-maturazione è sostenibile persino nel caso in cui i due gruppi ottengano nel pre-test gli stessi risultati. Il più comune di questi casi si verifica quando un gruppo mostra un livello di maturazione o una capacità di mutamento autonomo superiore rispetto all’altro gruppo.. Il fattore regressione costituisce l’altro grande problema del Disegno 10 con riferimento alla validità interna. Malgrado tale minaccia possa essere evitata, raramente si riesce a farlo. In generale, se entrambi i gruppi vengono selezionati sulla base dei punteggi estremi ottenuti in O, o sulla base di misurazioni correlate con tali punteggi, allora una differenza fra i due gruppi in relazione all’entità dello scarto fra i punteggi del pre-test e quelli del post-test potrebbe rappresentare proprio un prodotto della regressione piuttosto che l’effetto di X. L’incidenza di questa eventualità è aumentata a causa della persistenza di una fuorviante tradizione, specifica della sperimentazione in ambito didatticopedagogico, che considera il matching come una procedura corretta e sufficiente per stabilire l’equivalenza pre-sperimentale dei gruppi. Questo errore si accompagna all’incapacità di distinguere i Disegni 4 e 10 ed il ruolo sensibilmente diverso che il matching a partire dai risultati del pre-test riveste in ciascuno di questi diversi contesti sperimentali. Nel Disegno 4, il matching può essere considerato un’utile appendice alla randomizzazione ma non un suo sostituto: sulla base dei punteggi ottenuti nel pre-test, ovvero sulla base di risultati di rilevazioni assimilabili, l’intera popolazione disponibile per gli scopi sperimentali può essere suddivisa in coppie di soggetti formate seguendo un’accurata procedura di matching; i membri di queste coppie possono quindi essere assegnati a caso al gruppo sperimentale o al gruppo di controllo. Unificando le due procedure, matching e randomizzazione, si ottiene, di norma, un disegno sperimentale caratterizzato da una precisione superiore rispetto a quella che si avrebbe seguendo la sola randomizzazione. Non bisogna commettere l’errore di confondere il modello procedurale appena descritto – che riguarda, è bene ribadirlo, essenzialmente il Disegno 4 – con la procedura di matching tipica del Disegno 10, la quale viene applicata nel tentativo di compensare la distanza fra il gruppo sperimentale ed il gruppo di controllo quando risulta impossibile assegnare i soggetti ai trattamenti attraverso un rigoroso procedimento casuale. Se, nel Disegno 10, le medie dei gruppi differiscono in modo cospicuo, allora il matching non solo non produce il voluto effetto di riequilibrio tra i gruppi, ma 10 determina, sicuramente, anche indesiderati effetti di regressione. Sarà allora facile prevedere che i due gruppi otterranno nel post-test punteggi differenti a prescindere da qualunque effetto di X (…). Interpretando le concrete applicazioni del Disegno 10 basate sulla procedura del matching, si può rilevare che la direzione dell’errore è chiaramente prevedibile. Si consideri, ad esempio, un esperimento di psicoterapia che utilizzi come O l’indice di insoddisfazione nei confronti di se stessi. Supponiamo che il gruppo sperimentale sia composto da soggetti sottoposti a terapia psichica e che il gruppo di controllo sia invece volutamente rappresentato, per contrasto, da individui “sani”, presumendo così di ottenere un effetto di riequilibrio. Il gruppo di controllo presenterà allora, per deliberata scelta del ricercatore, punteggi estremamente bassi rispetto alla popolazione normale, i quali regrediranno nel post-test proprio in direzione della media della popolazione normale; in tal modo, si riduce la probabilità che si possa manifestare un effetto significativo della terapia sperimentale, piuttosto che prodursi un’impressione spuria di efficacia della stessa. (…) È importante distinguere due diverse versioni del Disegno 10, attribuendo loro uno status differente come approssimazioni all’esperimento vero e proprio. Da una parte, si ha la situazione in cui il ricercatore può disporre di due gruppi naturali – ad esempio, due classi scolastiche – e può decidere liberamente a quale dei due sarà somministrata la variabile sperimentale X, o, perlomeno, non sussistono motivi per sospettare che tale scelta sia in qualche modo legata ad X. In questo caso, sebbene sia possibile che dall’osservazione O risultino medie iniziali differenti per i due gruppi, la ricerca può approssimarsi all’esperimento vero e proprio. Dall’altra parte, sono rinvenibili esempi di applicazioni del Disegno 10 in cui, con tutta evidenza, i soggetti si autoselezionano, scegliendo autonomamente il gruppo di appartenenza. E non esiste alcun gruppo di controllo da porre a confronto con un gruppo sperimentale che cerca deliberatamente l’esposizione ad X. In quest’ultimo caso, l’assunto secondo cui i due gruppi mostreranno una regressione uniforme diventa meno sostenibile, mentre aumentano le probabilità che si verifichi una interazione fra il fattore selezione e il fattore maturazione (e le altre interazioni legate alla procedura di selezione dei soggetti). Il Disegno 10 basato sull’autoselezione del gruppo è quindi molto più debole, ma fornisce informazioni che, in molti casi, consentono di escludere qualsiasi effetto di X. Il gruppo di controllo, pur essendo caratterizzato da modalità di selezione dei soggetti e da un valore della media sensibilmente differenti rispetto al gruppo sperimentale, corrobora questa interpretazione. L’effetto dovuto al fattore testing come causa di invalidità esterna è analogo a quello già descritto per il Disegno 4 (cfr. sopra). In quanto all’interazione fra il fattore selezione ed X occorre ricordare ricorda che l’effetto di X potrebbe valere esclusivamente per i soggetti selezionati secondo le procedure indicate nel nostro esempio. Poiché, con tutta probabilità, le condizioni poste dal Disegno 10 limitano la nostra libertà di campionamento in misura minore rispetto al Disegno 4, tale specificità sarà, di norma, inferiore rispetto a quanto non sarebbe in un esperimento di laboratorio. La minaccia alla validità esterna rappresentata da condizioni sperimentali reattive è presente, ma probabilmente in misura minore che nella maggior parte degli esperimenti veri e propri, come, ad esempio, nel Disegno 4. Nel caso in cui il ricercatore possa scegliere fra due alternative – utilizzare due classi preesistenti (come prevede il Disegno 10) o estrarre da esse campioni casuali di studenti da assegnare ai differenti trattamenti (come prevedono i Disegni 4, 5 e 6) – quasi certamente la seconda determinerà condizioni sperimentali assai reattive, ingenerando negli studenti maggiore consapevolezza del fatto che si stanno sottoponendo a un esperimento, facendoli sentire delle “cavie” e così via. Gli studi di Thorndike sul trasferimento dell’addestramento (ad esempio, E.L. Thorndike e Woodworth, 1901; Brolyer, Thorndike e Woodyard, 1927) costituiscono esempi di applicazione del Disegno 10 ad X non controllate dal ricercatore. I risultati di tali ricerche mostrano come sia stato evitato, almeno parzialmente, l’errore dovuto agli effetti di regressione causati dalla procedura di matching sopra descritta; essi dovrebbero, tuttavia, essere analizzati alla luce delle moderne tecniche di analisi (…). 11. I DISEGNI CONTROBILANCIATI Sotto questa intestazione sono classificati tutti quei disegni in cui si raggiunge il controllo sperimentale o si aumenta la precisione dell’esperimento facendo in modo che tutti i trattamenti siano associati a tutti i soggetti (o a tutte le occasioni). Tali disegni sono stati definiti “esperimenti di rotazione” (McCall, 1923), “disegni controbilanciati” (ad esempio, Underwood, 1949), “disegni 11 incrociati” (ad esempio, Cochran e Cox, 1957; Cox, 1958) e “disegni a scambio” (Kempthorne, 1952). In questi casi, per ottenere l’effetto di bilanciamento viene generalmente adottata la disposizione a quadrato latino. Questa stessa disposizione caratterizza altresì il nostro Disegno 11, raffigurato qui come un disegno quasi-sperimentale che prevede l’applicazione in modo del tutto casuale di 4 trattamenti a 4 gruppi naturali o anche a 4 individui (ad esempio, Maxwell, 1958): Gruppo Gruppo Gruppo Gruppo A B C D Tempo 1 X1O X2O X3O X4O Tempo 2 X2O X4O X1O X3O Tempo 3 X3O X1O X4O X2O Tempo 4 X4O X3O X2O X1O Nella rappresentazione grafica figura esclusivamente il post-test poiché il presente disegno è da preferirsi nei casi in cui non sia giudicata opportuna la somministrazione del pre-test e non sia attuabile un Disegno del tipo 10. Il disegno presenta tre basi di classificazione (gruppi, occasioni ed X o trattamenti sperimentali). Ogni classificazione è “ortogonale” alle altre due in quanto ogni valore di ciascuna classificazione è associato con la stessa frequenza (una volta per ciascun quadrato latino) a ogni valore di ciascuna delle altre due. Per cominciare, si può osservare che ciascun trattamento (ciascuna X) figura una volta, e solo una volta, in ogni colonna e in ogni riga. Lo stesso quadrato latino può essere sottoposto a rotazione in modo tale che le X diventino teste di riga o di colonna, ad esempio: Gruppo Gruppo Gruppo Gruppo A B C D X1 t 1O t 3O t 2O t 4O X2 t2O t1O t4O t3O X3 t3O t4O t1O t2O X4 t4O t2O t3O t1O Le somme dei punteggi per le differenti X sono quindi confrontabili, essendo tali punteggi stati rilevati in ognuna delle occasioni e per ognuno dei gruppi considerati. Le differenze risultanti dal confronto non possono essere interpretate semplicemente come conseguenza delle differenze iniziali fra un gruppo e l’altro o come effetti dell’acquisizione di una pratica, della storia, e così via. Analogamente, è possibile procedere al confronto fra i totali di riga, relativi alle differenze fra i gruppi, mentre, spostando l’attenzione sul primo dei due grafici sopra riportati, si possono comparare i totali di colonna, relativi alle differenze fra le occasioni. Nei termini dell’analisi della varianza, tale approccio sembra quindi fornire dati sui tre effetti principali di un disegno sperimentale, con lo stesso numero di celle che è, di norma, necessario per due. Ragionando nei termini dell’analisi della varianza appare evidente il costo di questa maggiore efficacia: quello che sembra essere un effetto principale significativo, dovuto ad uno qualunque dei tre criteri di classificazione potrebbe essere invece il prodotto di un’interazione significativa, di forma complessa, fra gli altri due (Lindquist, 1953, pp. 25864). L’apparente differenza fra gli effetti delle X potrebbe essere letta come uno specifico, complesso, effetto di interazione fra la peculiarità dei gruppi e la particolarità delle occasioni, sicché l’ammissibilità di un’inferenza circa l’efficacia dei trattamenti sperimentali dipenderà dalla plausibilità di questa ipotesi rivale. Il problema merita una discussione più approfondita. Osserviamo, in primo luogo, che una simile ipotesi è più verosimile nel caso della variante quasi-sperimentale del quadrato latino, di cui ci stiamo occupando qui, piuttosto che nel caso di un’applicazione dello stesso disegno secondo i canoni dell’esperimento vero e proprio, solitamente descritta nei testi che affrontano questo argomento. Con riferimento a quello che può essere definito come fattore gruppo, vengono confuse due possibili cause di effetti sistematici. Innanzitutto, occorre considerare l’azione del fattore selezione sistematica, che interviene nei processi di costituzione naturale dei gruppi; si può presumere che tale fattore induca un effetto principale e che, nello stesso tempo, interagisca con i fattori rappresentati dalla storia, dalla maturazione, dall’acquisizione di una pratica, e così via. Se intendessimo, tenendo conto di ciò, predisporre un esperimento perfettamente controllato, l’assegnazione di ciascun soggetto a questo o quel gruppo dovrebbe avvenire in modo del 12 tutto indipendente e casuale. Così facendo, si eliminerebbe questa fonte sia di effetti principali sia di effetti di interazione, quanto meno con riferimento agli errori di campionamento. In realtà, è l’impossibilità di un’assegnazione casuale di questo tipo che detta il ricorso alla variante quasisperimentale del quadrato latino, una particolarità della quale consiste nell’introduzione del meccanismo di controbilanciamento allo scopo di ottenere, in qualche misura, proprio un effetto di equivalenza fra i gruppi. (Per converso, negli esperimenti pienamente controllati, il quadrato latino viene utilizzato per ragioni di economia o per affrontare specifiche questioni di campionamento relativo a porzioni di territorio). Una seconda possibile fonte di effetti erroneamente attribuiti a quello che si è appena denominato fattore gruppo, è legata invece alle sequenze specifiche dei trattamenti sperimentali. Se in tutte le repliche di un esperimento propriamente detto fosse pedissequamente riprodotto lo stesso quadrato latino di sequenza dei trattamenti, non sarebbe possibile escludere anche questa fonte di effetti principali e di effetti di interazione. Tuttavia, nell’esperimento vero e proprio, ad alcuni insiemi di soggetti sono assegnati di volta in volta quadrati latini differenti, specifici, eliminando l’effetto sistematico dovuto ad una data, invariabile sequenza di trattamenti sperimentali. Così facendo si evita, inoltre, la possibilità che una specifica interazione sistematica produca quello che appare come un effetto principale di X. La molteplicità delle occasioni, caratteristica costitutiva del disegno a quadrato latino, può dar luogo a un effetto principale ingenerato dalla ripetizione dei test, dalla maturazione, dall’acquisizione di una pratica e dagli effetti residui cumulativi di riporto o dai trasferimenti [si tratta di cambiamenti specifici che si verificano quando le condizioni precedenti continuano a influenzare la prestazione nelle prove successive]; senza contare gli effetti del fattore storia, anch’esso collegabile alla pluralità dei momenti sperimentali. Naturalmente, il disegno di ricerca basato sul quadrato latino è progettato per evitare che tali effetti principali si confondano con gli effetti principali di X. Tuttavia, il sospetto di interazioni significative è forse maggiormente giustificato nel caso in cui gli effetti principali siano il sintomo di una notevole eterogeneità piuttosto che nel caso in cui essi siano del tutto assenti. (…) Molti usi del quadrato latino nell’ambito di esperimenti veri e propri – come, ad esempio, nel settore degli studi agrari – non implicano misurazioni ripetute e non producono, di norma, alcun corrispondente effetto sistematico di colonna. Queste considerazioni attestano la grande importanza che riveste la ripetizione del disegno quasi-sperimentale con differenti, specifici, quadrati latini. Se le iterazioni sono sufficientemente numerose, il disegno quasi-sperimentale si converte in un esperimento vero e proprio. Inoltre, in questo modo il numero dei gruppi coinvolti potrebbe rendere possibile l’assegnazione casuale ai trattamenti, che costituisce, di norma, una forma di controllo più efficace. Eppure, in mancanza di queste possibilità, anche un solo quadrato latino rappresenta un disegno quasi-sperimentale che, intuitivamente, si può considerare soddisfacente, poiché consente di rilevare tutti gli effetti presenti in tutti i gruppi di comparazione. Nella consapevolezza di poter giungere ad interpretazioni errate, si tratta di un disegno che vale la pena di adottare nel caso in cui non sia possibile un controllo migliore. Dopo aver evidenziato le insufficienze di questo disegno, è bene ora analizzare e sottolineare i relativi punti di forza. Così come accade per tutti i quasi-esperimenti, il Disegno 11 acquista maggiore forza grazie alla concordanza delle ripetizioni interne dell’esperimento. (…) Supponiamo che il quadro risultante sia caratterizzato da una gratificante coerenza, che lo stesso trattamento sia maggiormente efficace per tutti e quattro i gruppi, e così via. A questo punto bisogna chiedersi: è probabile che tutto ciò non sia un effetto del trattamento ma, piuttosto, il risultato di un’interazione fra gruppi ed occasioni? Possiamo notare che la maggior parte delle interazioni possibili fra gruppi ed occasioni ridurrebbe o offuscherebbe l’effetto manifesto di X. Un’interazione in grado di emulare un effetto principale di X sarebbe improbabile, tanto più nei quadrati latini di maggiori dimensioni. Il ricercatore alle prese con l’analisi di un numero estremamente limitato di gruppi naturali, quali ad esempio delle classi scolastiche, non suscettibili di essere suddivisi, mediante procedimento casuale, in sottogruppi equivalenti cui somministrare il trattamento, è particolarmente attratto dal Disegno 11. (…) Mentre in altri disegni la particolare reattività di uno soltanto dei gruppi ad un evento esterno (fattore storia) o alla pratica (fattore maturazione) potrebbe simulare un effetto di X, nel disegno controbilanciato effetti coincidenti di questo tipo dovrebbero verificarsi, di volta in volta, in ciascuno dei gruppi in differenti occasioni. Naturalmente, ciò implica che un effetto principale di X 13 non venga considerato rilevante se l’analisi delle celle mostra che la sua significatività statistica è il risultato soprattutto di una differenza molto marcata registrata relativamente a uno soltanto dei gruppi analizzati. Per un’analisi più dettagliata di questo problema si vedano Wilk e Kempthorne (1957), Lubin (1961) e Stanley (1955). 16. L’ANALISI REGRESSIONE-DISCONTINUITÀ Il contesto scolastico è tra gli ambiti di maggiore utilizzazione di tale disegno quasisperimentale. Inoltre, la discussione che segue metterà chiaramente in luce il vantaggio di analizzare, in ciascun contesto specifico, tutte le possibili implicazioni di un’ipotesi causale, ricercando sempre nuove circostanze in cui testarla. In uno degli ambiti di applicazione (Thistlethwaite e Campbell, 1960) era previsto il conferimento di un premio agli studenti più qualificati, scelti in base ad un punteggio composito basato sul possesso di una serie ben precisa di requisiti. Tale premio consisteva in una borsa di studio, nell’ammissione ad una università particolarmente prestigiosa, nella possibilità di studiare in Europa per un anno, e così via. In una fase successiva al conferimento del premio, il disegno prevedeva la rilevazione (mediante differenti osservazioni O) del rendimento scolastico e di altri specifici atteggiamenti di tutti gli studenti coinvolti, premiati e non. I ricercatori hanno tentato di rispondere alla seguente domanda: il conseguimento del premio ha determinato delle differenze tra gli studenti? Si tratta di un complesso problema di inferenza; infatti, le qualità necessarie per ottenere il premio (con le sole eccezioni del bisogno e della residenza, se rilevanti) sono le stesse che consentono di ottenere punteggi elevati nelle successive rilevazioni. Di fatto, possiamo da subito affermare che, anche se non avessero ottenuto alcun riconoscimento speciale, gli studenti premiati avrebbero conseguito, nelle rilevazioni effettuate in un secondo momento, punteggi più elevati rispetto ai non premiati. Nella Figura 4 è illustrata la relazione attesa fra la bravura esibita precedentemente e il rendimento mostrato successivamente al premio, cui si aggiungono i risultati conseguiti grazie alle opportunità formative o motivazionali che ne sono derivate. Non perdendo di vista il problema sollevato, consideriamo, in primo luogo, la differenza tra un disegno sperimentale vero e proprio, il Disegno 6, e il nostro disegno quasi-sperimentale. Il Disegno 6 può essere descritto come un processo decisionale finalizzato a introdurre una distinzione o come un esperimento che rientra in un programma, in cui, limitatamente a una serie ristretta di punteggi coincidenti o immediatamente al di sotto di un certo valore discriminante, l’assegnazione casuale porterebbe alla creazione di due gruppi abbastanza sovrapponibili: un gruppo sperimentale formato dagli studenti vincenti e un gruppo di controllo formato dagli studenti non vincenti. Questi due gruppi si comporteranno presumibilmente come indicato dai due cerchietti posti sulla linea di demarcazione della Figura 4. Limitatamente a questi casi si potrebbe optare per un esperimento vero e proprio. Questo tipo di esperimenti è attuabile e deve essere quindi preferito. Rispetto all’esperimento vero e proprio appena delineato, il Disegno 16, a carattere quasisperimentale, si pone l’obiettivo di analizzare la linea di regressione, alla ricerca di una discontinuità che secondo l’ipotesi causale dovrebbe collocarsi in corrispondenza del valore discriminante. Se il risultato fosse simile a quello riportato e se i cerchietti della Figura 4 rappresentassero estrapolazioni dalle due metà della linea di regressione piuttosto che valori-limite tenendo conto dei quali procedere casualmente alla costituzione di gruppi in vista di un esperimento vero e proprio, si otterrebbero prove molto significative di un effetto di X, significative quasi quanto quelle fornite dall’esperimento vero e proprio. Si noti che l’ipotesi in discussione riguarda chiaramente una differenza di intercetta piuttosto che di inclinazione e che il salto della linea di regressione deve collocarsi esattamente in corrispondenza del punto X, in quanto nessun “differimento” o “estensione” è compatibile con tale ipotesi. Di conseguenza, è possibile utilizzare in questo contesto test parametrici e non parametrici non basati su assunti di linearità. Si noti, d’altra parte, che gli assunti di linearità sono, di norma, più plausibili per dati che, come quelli analizzati, sono stati ricavati attraverso la regressione piuttosto che per le serie temporali. Probabilmente, il test più efficace potrebbe essere rappresentato dall’analisi della covarianza, in cui il punteggio in base al quale si ottiene il premio è la covariata dei risultati conseguiti in seguito, mentre i gruppi sarebbero costituiti, rispettivamente, da coloro che hanno ricevuto il premio (gruppo sperimentale) e da coloro che non l’hanno ricevuto (gruppo di controllo). 14 Quante probabilità ci sono che un disegno di questo tipo venga utilizzato? Di certo esso va applicato in ambiti caratterizzati dal ripetersi di una data situazione ed in cui gli argomenti a favore dell’ipotesi sperimentale abbondano. Vale la pena di controllare uno per uno tali argomenti? Uno dei sacrifici che tale disegno richiede consiste nel fatto che tutte le componenti da cui scaturirà la decisione finale devono essere rappresentate in un indice composito; inoltre è necessario individuare precisamente il valore discriminante. Nondimeno, siamo convinti che tutte le caratteristiche individuali che concorreranno a determinare la decisione in merito all’assegnazione del riconoscimento (l’aspetto del soggetto in una foto, la reputazione della classe considerata indipendentemente dalla reputazione della relativa scuola, il prestigio della famiglia in ambito scolastico, e così via) potranno essere ricomprese in questo indice composito, attraverso delle stime, se non in maniera più diretta. Del pari, dovremmo a questo punto aver maturato la convinzione (Meehl, 1954) che una formula multipla che consenta di soppesare i vari elementi mettendoli fra loro in relazione (anche utilizzando come criterio le decisioni di una precedente commissione) è di norma preferibile a valutazioni effettuate caso per caso da un’apposita commissione. Non avremmo quindi nulla da perdere, bensì molto da guadagnare, rendendo in forma quantitativa le decisioni relative al premio, di qualunque natura esse siano. Così facendo – e avendo cura di archiviare tutta la documentazione relativa ai premiati e agli esclusi – si potrebbe studiare il follow-up degli effetti a distanza di anni. Ci sia consentito, a questo punto, ricordare un fatto realmente accaduto. Una generosa fondazione interessata al miglioramento dell’istruzione superiore donò ad una università della Ivy League (le otto università più prestigiose del Nord-Est degli Stati Uniti: Brown, Columbia, Cornell, Dartmouth College, Harvard, Princeton, University of Pennsylvania, Yale) mezzo milione di dollari per uno studio sull’impatto dell’università sugli studenti. A distanza di dieci anni, non è stato ancora pubblicato un solo rapporto di ricerca riguardante, sia pure alla lontana, questo problema. I beneficiari della donazione – e i donatori stessi – avevano preso sul serio la proposta? Risultava possibile fornire una risposta valida alla questione posta? Il Disegno 16 sembra fornire un’approssimazione possibile. Ma, naturalmente, nessuno studioso mostrerebbe un interesse reale verso gli effetti di una variabile sperimentale di natura così generale e indeterminata. Soffermiamoci ora sulla Tabella 3. La simultaneità della costituzione dei gruppi da sottoporre a osservazione garantisce un certo controllo del fattore storia e del fattore maturazione. L’effetto di testing come effetto principale viene controllato nella misura in cui entrambi i gruppi (sperimentale e di controllo) vengono sottoposti al test. Gli errori legati al fattore strumentazione potrebbero rappresentare un problema nel caso in cui l’osservazione di follow-up fosse condotta dalla stessa 15 istituzione responsabile dell’assegnazione del premio: infatti, la gratitudine per essere stati premiati o il risentimento per non esserlo stati potrebbero influire sugli atteggiamenti degli studenti e determinare una diversa accentuazione nel descrivere il proprio successo personale nella vita, e così via. Questo problema si presenterebbe anche se si applicasse un disegno sperimentale vero e proprio. Per eliminarlo, è consigliabile affidare la conduzione del follow-up ad una diversa istituzione rispetto a quella che ha assegnato il premio. Sulla base delle argomentazioni sviluppate in precedenza, riteniamo che il controllo del fattore regressione e del fattore selezione sia limitato ai contributi spuri che essi possono recare all’inferenza, anche in presenza di errori di campionamento e di una regressione attiva. Tale controllo è possibile evitando di porre i due fattori sullo stesso piano e procedendo ad una analisi dettagliata di entrambi. Il fattore mortalità potrebbe intervenire allorquando l’istituzione che attribuisce il premio sia la stessa che effettua le rilevazioni di follow-up; in tal caso, infatti, i vincitori del premio, gli ex studenti, e così via, potrebbero mostrare maggiore spirito di collaborazione rispetto agli esclusi. Occorre sottolineare che il normale desiderio del ricercatore di raggiungere l’intero campione selezionato, ottenendo così una rappresentazione esaustiva, può rivelarsi in questo caso fuorviante. Infatti, immaginiamo di incarica re della conduzione del follow-up un’istituzione che non sia la stessa che ha assegnato il premio, ottenendosi una diminuzione – ad esempio, dal 90% al 50% – dei soggetti disposti a collaborare; ebbene, è probabile che il ricercatore rifiuti questa eventualità, dal momento che il suo obiettivo è quello di rappresentare la totalità dei premiati. Così facendo egli trascurerà il fatto che la vera finalità della ricerca consiste nella raccolta di dati interpretabili; inoltre, dimenticherà che nessun dato è interpretabile considerato in sé e per sé; ancora, mancherà di rendersi conto che un gruppo di controllo è indispensabile per poter utilizzare i dati riguardanti i premiati, cioè a dire il gruppo sperimentale. Sia per questa ragione sia, come abbiamo visto, per le implicazioni del fattore strumentazione, è preferibile, dal punto di vista scientifico, che le fasi di test e di re-test siano gestite da due istituzioni differenti; in questo modo, si potrà con tutta probabilità ottenere una percentuale di risposte al follow-up pari al 50% per entrambi i gruppi, piuttosto che ricavare il 90% di risposte dal gruppo dei premiati e il 50% dal gruppo degli esclusi. Ancora una volta, il problema della mortalità si presenterebbe negli stessi termini anche nell’esperimento vero e proprio. In entrambi i casi, l’interazione fra i fattori della selezione e della maturazione come possibile fonte di invalidità interna è sotto controllo. Infatti, nel caso del nostro disegno quasi-sperimentale tale interazione non potrebbe legittimamente spiegare una evidente discontinuità della linea di regressione in corrispondenza di X. La minaccia alla validità esterna rappresentata dall’interazione fra il fattore testing e la variabile sperimentale è controllata nella misura in cui le rilevazioni dei punteggi in base ai quali sono assegnati i premi rientrano tra le normali attività delle strutture formative, ovvero delle istituzioni cui si desidera estendere i risultati dell’esperimento. L’interazione fra il fattore selezione ed X costituisce un problema rilevante con riferimento alla validità esterna, tanto nell’esperimento vero e proprio quanto nell’analisi regressionediscontinuità. Questo perché, in entrambi i casi, l’effetto della variabile sperimentale è suscettibile di conferma soltanto per una gamma molto ristretta di punteggi, ossia soltanto per quelli che si collocano in corrispondenza del valore discriminante. Per quanto concerne il disegno quasi-sperimentale, le possibilità di inferenza sembrerebbero maggiori; tuttavia, gli effetti negativi derivanti dall’assunto di linearità sono minimi se l’estrapolazione avviene in un solo punto, come nella Figura 4. Per effettuare generalizzazioni più ampie bisognerebbe procedere all’estrapolazione di valori inferiori a X per l’intera gamma dei valori X, tenendo presente che per ogni estrapolazione di grado superiore il numero delle ipotesi rivali plausibili si accresce. Inoltre, i valori estrapolati dei differenti tipi di curve corrispondenti ai valori inferiori ad X hanno una maggiore dispersione, e così via. 16