Validità e controllo
Transcript
Validità e controllo
2. Validità e controllo nella ricerca 2. 1. Validità Sebbene il concetto venga precisato in modo più dettagliato e specifico nel seguito, possiamo in generale dire che la validità di una ricerca attiene alla qualità, sotto i diversi aspetti specificati oltre, dei risultati raggiunti, in termini di rigore metodologico, significatività, attendibilità e generalizzabilità degli enunciati proposti, solidità di impianto. Occorre altresì precisare che il concetto di validità di una ricerca trattato in queste pagine è ben distinto da quello di validità di una definizione operativa o di un strumento di misura trattato in § 1.2.2.. 2. 1. 1. Validità interna Una ricerca si pone in linea generale degli obiettivi che si possono esprimere in termini di incremento di conoscenza sugli specifici fatti indagati. Talvolta tale incremento di conoscenza consiste nell’enunciazione esplicita di un nuovo nesso relazionale di associazione (variazione concomitante) fra più variabili, o magari di un nuovo nesso causale fra una variabile indipendente VI e una variabile dipendente VD (vedi § 1.2.3.). Affinché si abbia validità interna occorre che il nesso relazionale enunciato nelle conclusioni della ricerca sia effettivo, cioè sussista realmente e non sia dovuto in modo erroneo a circostanze inquinanti non controllate dallo sperimentatore o non sia comunque reso più incerto, se non addirittura sbagliato, da fattori di disturbo. Facciamo un esempio. In un esperimento si vuole effettuare un confronto fra due particolari espedienti didattici; due classi parallele (diciamo A e B), di cui è accertata l’equivalenza sotto i vari aspetti di interesse per quella sperimentazione, sono sottoposte ai due corrispondenti trattamenti; al termine, entrambe le classi sono sottoposte ad un medesimo test; dai risultati raccolti emerge che la classe A ha dato risultati superiori alla B. Conclusioni: l’espediente A dà migliori risultati del B. Ora, immaginiamo che il giorno prima della verifica un ragazzo della classe B abbia compiuto gli anni e abbia dato una festa, invitando i suoi compagni. Dunque i ragazzi della classe B il giorno prima della verifica non si sono esercitati e, magari, si sono anche coricati un po’ più tardi del solito. A questo punto è giustificato il dubbio seguente: i migliori risultati di A sono davvero da imputare al corrispondente espediente didattico? O piuttosto sono imputabili alle diverse condizioni (non controllate dallo sperimentatore) in cui si sono presentati alla verifica i ragazzi della classe B? Nell’esempio la circostanza non controllata potrebbe invalidare le conclusioni formulate dal ricercatore. La circostanza fortuita del compleanno minaccia la validità interna della ricerca, nel senso che l’affermazione contenuta nelle conclusioni del ricercatore non è esente da un fattore di disturbo. Un elenco delle principali minacce alla validità interna più comunemente citate dai metodologi, con i corrispondenti possibili rimedi, è fornito in § 2.3.. 2. 1. 2. Validità esterna Nel corso di una ricerca, sulla base dell’osservazione empirica condotta su un campione, si formula conclusivamente un enunciato il quale conferma o smentisce l’ipotesi formulata nella fase iniziale della ricerca. In forza della rappresentatività del campione utilizzato, tale enunciato si estende poi all’intero universo da cui il campione è stato tratto. Si ha validità esterna quando la generalizzazione dal campione osservato alla popolazione universo è legittima. Ovviamente la legittimità dell’estensione dei risultati è garantita nella misura in cui il sottinsieme osservato è effettivamente rappresentativo dell’universo da cui è stato tratto, e questa è la prima ovvia condizione necessaria per avere validità esterna. Tuttavia, come vedremo nel seguito, esistono diversi altri fattori che possono determinare un maggiore o minore grado di generalizzabilità dei risultati, e ben precisi vincoli prudenziali da rispettare. Ancora una volta esemplifichiamo. Si supponga di coinvolgere alcuni docenti in una sperimentazione; alcuni somministreranno alle classi un trattamento didattico ordinario, altri un trattamento sperimentale. In genere è difficile poter assegnare in modo casuale i docenti ai diversi trattamenti, in quanto fra di essi vi è sempre una certa quota tendenzialmente diffidente nei confronti del nuovo, così come ne esiste un’altra tendenzialmente incline ad accettare la novità (con spirito più o meno critico). Comunque sia, di fatto spesso si verifica che siano i docenti stessi a scegliere per quale trattamento optare, e noi ci mettiamo in questa ipotesi per completare l’esempio. Ora supponiamo che, cifre alla mano, il trattamento sperimentale abbia fatto conseguire risultati migliori, e supponiamo di avere buoni motivi per dire che questa conclusione è esente da fattori interni di disturbo; supponiamo cioè che vi sia buona validità interna. Supponiamo inoltre che la campionatura delle classi sia stata condotta con rigore e che le classi utilizzate siano effettivamente rappresentative di una certa popolazione scolastica (si noti che ciascuna delle supposizioni fin qui fatte è piuttosto impegnativa; tuttavia prendiamo tutto per accertato). Ora si pone il problema di vedere se l’affermazione «Il metodo X è migliore del metodo Y» è generalizzabile alla popolazione da cui è stato tratto il campione. Se, come abbiamo ipotizzato, il campione è effettivamente rappresentativo della popolazione, sembrerebbe di poter concludere di sì. Ma facciamo semplici e realistiche ipotesi aggiuntive (molto meno impegnative delle precedenti): i docenti autoassegnati al trattamento sperimentale abbiano una particolare sensibilità pedagogica, per cui non sia detto che lo stesso metodo darà lo stesso brillante risultato quando applicato da altri docenti; oppure: i docenti del gruppo sperimentale siano maggiormente coinvolti da un punto di vista emotivo, mantenendo un alto livello di entusiasmo e di motivazione a far bene, livello che magari loro stessi non sarebbero in grado di mantenere l’anno successivo; oppure ancora: i docenti coinvolti siano coordinati (ma per quello che interessa il nostro discorso siano osservati) da un esperto dell’IRRSAE; il fatto di essere sotto osservazione può indurre, anche inconsapevolmente, ad assumere comportamenti ed atteggiamenti differenti da quelli che si assumerebbero in condizioni normali (cioè in assenza di un osservatore). Ciascuno dei casi riportati sopra costituisce un esempio di sottile minaccia alla validità esterna, in quanto rende dubbia la generalizzabilità delle conclusioni della ricerca a situazioni diverse, pur in presenza, si badi bene, di un campione rappresentativo. Presentiamo ora una classificazione che può essere utile a chiarificare ulteriormente il concetto. La validità esterna può dividersi in tre tipi: la validità di popolazione, la validità temporale e la validità ecologica. Validità di popolazione. Si ha quando il campione è rappresentativo della popolazione universo. Si ricorderà (§ 1.4.2.) che anche ammettendo di effettuare un campionamento il più possibile scrupoloso, sussiste sempre il problema della non coincidenza fra la popolazione universo e la popolazione accessibile, e dunque di norma, anche nell’ipotesi che il campionamento sia effettuato con tutti i crismi, la generalizzazione può essere estesa legittimamente solo alla popolazione accessibile, mentre il salto inferenziale dalla popolazione accessibile alla popolazione universo non è legittimo o quanto meno è problematico. Validità temporale. Quando si effettua una generalizzazione occorre saper precisare entro quali limiti temporali essa è legittima. Dicendo questo si allude a due diverse circostanze. La prima (e di più immediata comprensione) è che le conclusioni raggiunte da una ricerca su una certa popolazione, diciamo di quindicenni di oggi, non sarà in generale automaticamente valida per i quindicenni del prossimo secolo; anzi, probabilmente una generalizzazione ai quindicenni del prossimo decennio e già un azzardo; le condizioni ambientali e umane in cui versiamo variano con progressione esponenziale. La seconda circostanza ha effetti meno spettacolari ma ugualmente rilevanti; restiamo alla ricerca in ambito scolastico condotta sul profitto di soggetti quindicenni; qualunque insegnante sa perfettamente che il profitto di ragazzi in questa età ha rilevantissime variazioni stagionali (ad esempio nel periodo primaverile si ha un forte calo delle capacità attentive e nell’applicazione) e che quindi di norma la generalizzazione dovrà tenere presenti queste fluttuazioni. In generale possiamo dire di avere una buona validità temporale quando a) le generalizzazioni sono sufficientemente indipendenti dal fattore temporale oppure b) quando una eventuale dipendenza dai fattori temporali è precisata e circoscritta in modo esplicito. Validità ecologica. Per chiarire infine cosa si intenda per validità ecologica ci si può riferire con profitto alle situazioni illustrate sopra per esemplificare possibili minacce alla validità esterna. La conduzione degli esperimenti determina spesso condizioni ecologiche (ambientali) un po’ artificiali, che possono causare nei soggetti uno snaturamento dei loro comportamenti, che così non corrispondono più a quelli sviluppati in condizioni ambientali naturali (nel caso degli esempi riportati sopra sono da considerarsi naturali le condizioni ambientali della didattica ordinaria e quotidiana). Ebbene: si ha validità ecologica tanto maggiore quanto più le caratteristiche ambientali in cui si svolge la ricerca sono a) controllate dal ricercatore e b) simili alle condizioni ambientali naturali della popolazione. Nel seguente § 2.4. è riportato un elenco delle minacce di validità esterna più comunemente citate in letteratura ed i corrispondenti possibili rimedi. 2. 1. 3. Validità statistica Le tematiche coinvolte in questo tipo di validità sono ampiamente trattate nella Parte statistica del testo. Qui ci limiteremo a qualche cenno essenziale. E’ esperienza comune che la realtà empirica sia dominata dalla variabilità; ogni suo aspetto è cioè caratterizzato da una ampia gamma di possibili modalità di manifestazione, da soggetto a soggetto. Da un punto di vista scientifico si riconoscono nella variabilità del reale due componenti distinte: la prima è la variabilità casuale, non riferibile precisamente a nessun fattore specifico, o (cosa del tutto equivalente) è sì riferibile a un complesso di fattori, ma così inestricabilmente legati fra loro da nessi non noti o imprevedibili dalla nostra mente che l’effetto risultante è di fatto ancora quello di variabilità casuale. Vi è poi una seconda componente di variabilità che invece è spiegabile, con le nostre facoltà conoscitive, riferendosi a determinati fattori e opportuni nessi (causali), la cui esistenza riusciamo a dimostrare attraverso la metodologia sperimentale. Ebbene, si ha validità statistica quando la variabilità casuale dei soggetti è tenuta sotto controllo attraverso opportune tecniche (illustrate dettagliatamente nella Parte statistica del testo), fondate sul calcolo della probabilità. In pratica si ha validità statistica quando si è in grado di indicare percentualmente quale parte della variabilità osservata nei soggetti sia imputabile a fattori ben precisi ed individuati dallo sperimentatore, e quale parte sia invece da imputare alla somma di un numero imprecisabile di fattori indistinti interagenti, il cui esito è di fatto casuale. 2. 1. 4. Validità di costrutto Nel precedente § 1.2.2. abbiamo visto che se il costrutto su cui si sta ricercando è ad un elevato livello di astrazione la definizione operativa delle variabili può essere molto problematica, in quanto il divario esistente fra il livello astratto e quello operativo tende ad essere piuttosto divaricato. Si è già detto che il rischio maggiore a cui ci si espone è quello di individuare insiemi inadeguati di indicatori e quindi di giungere ad una definizione operativa delle variabili di scarsa o nulla validità e attendibilità (nel senso precisato ancora una volta in § 1.2.2.). Per quanto riguarda la validità di costrutto, essa è legata direttamente alla validità della definizione operativa delle variabili. In altre parole, si ha validità di costrutto quando i vari elementi del processo sperimentale riflettono accuratamente il costrutto su cui si intende indagare e non altre variabili. Da quanto detto appare chiaro che si pone il problema di questo tipo di validità soprattutto quando si ha a che fare con costrutti piuttosto impegnativi e quindi a livelli di ricerca avanzati. Visto il carattere introduttivo di questo manuale è quindi fuori luogo un ulteriore approfondimento del pur importante concetto (per approfondimenti su questa tematica vedi A. Pedon, 1995). 2. 2. Controllo In linea generale possiamo affermare che il controllo è costituito dall’insieme di tutte le tecniche utili a garantire validità alla ricerca, eliminandone o almeno riducendone il più possibile tutte le minacce. Essenzialmente le tecniche di controllo sono catalogabili in due categorie generali: l’esperimento di controllo e il controllo sperimentale. 2.2.1. L’esperimento di controllo Partiamo da un esempio: si desidera verificare l’efficacia di una nuova strategia didattica su un determinato apprendimento cognitivo. Supponiamo di effettuare la verifica empirica sottoponendo un gruppo al nuovo trattamento didattico e valutando poi l’esito dell’esperimento sulla base dei risultati conseguiti dal gruppo. Purtroppo così facendo non si ha alcun termine di paragone per valutare l’efficacia del nuovo trattamento. Non di meno, ricorrere ad un confronto con precedenti esperienze condotte sulla base del trattamento ordinario sarebbe poco corretto per una quantità di diversi motivi; eccone esemplificati alcuni: potremmo avere un ricordo delle esperienze passate distorto o non obiettivo; eventuali registrazioni documentarie oggettive potrebbero essere lacunose; risulta difficile o addirittura impossibile comparare le condizioni ambientali e storiche in cui si è svolta la nuova sperimentazione rispetto alle precedenti; i soggetti coinvolti nella nuova e nelle passate esperienze didattiche (alunni e docenti) potrebbero avere qualità molto differenti; l’impegno nella conduzione dei due percorsi didattici (tradizionale e sperimentale) potrebbe essere stato differente… Insomma, vi sono mille buoni motivi per escludere la possibilità di un confronto oggettivo fra esperienze differite nel tempo e di cui non sia controllata attentamente l’omogeneità in tutti gli aspetti. Occorre dunque che la comparazione venga effettuata su due esperienze per cui tutte le circostanze che possono influenzare il risultato finale siano sostanzialmente uguali e controllate. Il metodo migliore per ottenere questo risultato è quello di condurre ex novo e contemporaneamente due esperienze didattiche; una con il metodo tradizionale, l’altra col metodo sperimentale. Nella conduzione delle due esperienze sarà compito dello sperimentatore di vigilare affinché le condizioni che fanno da cornice alle due esperienze siano in tutto e per tutto equivalenti. Ma non basta: come è possibile confrontare risultati prodotti da gruppi di soggetti differenti? Chi assicura che, in caso di migliori esiti del trattamento didattico sperimentale, ciò non sia dovuto ai particolari soggetti del gruppo sperimentale (magari più intelligenti, più diligenti, più preparati, più motivati, con condizioni familiari più favorevoli…)? E’ dunque necessario premunirsi garantendo in qualche modo a priori che anche i due gruppi di soggetti coinvolti nell’esperimento siano equivalenti, almeno sotto quegli aspetti che si ritengono rilevanti ai fini dell’esperienza di apprendimento che sta per essere intrapresa. Abbiamo già visto in § 1.4.6. alcune tecniche idonee allo scopo. La situazione descritta nell’esempio può ora essere ripresa in termini più formalizzati. Quando si pone sotto osservazione un nesso causale fra due variabili V1 (trattamento)e V2 (risultato) e si desidera essere certi che il nesso sia effettivo ed esente da fattori di disturbo o confusione (ciò equivale a garantire validità interna alla ricerca), si ricorre all’esperimento di controllo, cioè ad una sperimentazione condotta contemporaneamente con due gruppi equivalenti di soggetti, uno sottoposto al trattamento sperimentale, l’altro, detto di controllo, sottoposto al trattamento ordinario. La valutazione conclusiva potrà allora essere fatta confrontando direttamente i risultati finali. In certe circostanze può essere utile fare in modo che il gruppo di controllo coincida col gruppo sperimentale, sia cioè costituito dagli stessi soggetti, i quali vengono esposti in successione temporale a tutti e due i trattamenti. L’idea è che in questo caso si ha massima garanzia della perfetta equivalenza fra i due gruppi. In pratica ogni soggetto funge da controllo di se stesso. La certezza dell’equivalenza dei gruppi si paga tuttavia con un nuovo elemento di incertezza: nessuno potrà escludere (a meno di sperimentazioni più sofisticate) che l’apprendimento finale non sia almeno in parte imputabile alla ripetuta esposizione a più trattamenti didattici (vedi il successivo § 2.3.7.). La problematica è qui solo adombrata e verrà sviluppata successivamente in § 4.3.. 2.2.2. Il controllo sperimentale Col termine di controllo sperimentale si indica il complesso di tutte quelle tecniche poste in atto dallo sperimentatore nel corso dell’esperimento, al fine di tenere sotto stretta osservazione le variabili, i loro reciproci nessi e gli effetti di disturbo che possono inquinare il quadro dei risultati finali e quindi minacciare la validità complessiva della ricerca. A questo aspetto è dedicata la restante parte di questo capitolo in cui vengono presentate diverse tecniche di controllo in relazione alle corrispondenti minacce di validità. In questo paragrafo ci limiteremo ad un veloce accenno ad un aspetto specifico del controllo sperimentale che per motivi di ordine espositivo non trova adeguata collocazione nei paragrafi successivi. Alludiamo qui alle problematiche connesse alla misurazione delle risposte dei soggetti sperimentali (in parte già affrontate in § 1.2.2.); per avere un buon controllo sperimentale è indispensabile che tali misurazioni siano: a) oggettive, cioè indipendenti dal soggetto che valuta; b) valide, cioè che misurino effettivamente quello che intendono misurare e non altro; c) attendibili, cioè ripetibili e fedeli; d) sensibili, cioè capaci di raccogliere la maggior quantità possibile di informazione. 2. 3. Principali minacce di validità interna e possibili rimedi 2. 3. 1. Storia Si tratta di eventi storici esterni all’ambiente sperimentale che possono avere rilevanti influenze sul comportamento dei soggetti nell’ambito della sperimentazione. Ad esempio: una forzata e prolungata sospensione dell’attività didattica a causa di eventi atmosferici; un evento di forte disturbo in concomitanza ad una importante prova di verifica, come un evento luttuoso; un improvviso cambio nelle abitudini di lavoro scolastico dovuto alla modifica di un regolamento, o all’apertura di nuove infrastrutture, come una biblioteca o un laboratorio… Se uno (o più) di questi eventi dovesse accadere nella fase centrale della sperimentazione (vale a dire fra la rilevazione della situazione iniziale e quella dei risultati finali, cioè nel corso della somministrazione del trattamento) potrebbe influenzarne positivamente o negativamente i risultati (a seconda che si tratti di un evento favorevole o sfavorevole), in modo tale che potrebbe indurre il ricercatore a trarre conclusioni sbagliate o comunque non del tutto affidabili. Per meglio dire: un esito positivo (o negativo) della sperimentazione potrebbe erroneamente essere imputato al solo trattamento, mentre in realtà l’evento storico potrebbe aver influito sul risultato finale, magari anche pesantemente. In questo senso si tratta chiaramente di una minaccia di validità interna. Un esempio relativo all’effetto storia è quello descritto in § 2.1.1.. Occorre adesso fare attenzione ad una circostanza importante: quando si parla di effetto della storia (o della storia attuale), non ci si riferisce alle storie individuali dei singoli soggetti sperimentali, perché queste influiscono solo sui risultati conseguiti singolarmente dai soggetti stessi. Ora, siccome si suppone che gli eventi individuali si distribuiscano casualmente, ed i corrispondenti effetti possono essere sia positivi che negativi, possiamo affermare che gli eventi sui singoli soggetti tendono a compensarsi reciprocamente, e quindi l’effetto medio complessivo sulla sperimentazione è tendenzialmente nullo. L’unica conseguenza di questi eventi (per altro ineliminabili, per ovvie ragioni) è un aumento della variabilità casuale (vedi il precedente § 2.1.3.), ma ciò non minaccia la validità interna. Invece è una forte minaccia per la validità interna un evento (negativo o positivo) a cui siano esposti tutti i soggetti (o la maggior parte di essi) perché in tal caso non avremmo effetti casuali di natura opposta che tenderebbero a compensarsi reciprocamente, ma uno stesso effetto (positivo o negativo) che tenderebbe a migliorare o peggiorare la situazione di tutti (o della maggior parte). Gli eventi storici possono influenzare notevolmente l’esito di una ricerca, e nelle valutazioni finali occorre tenerle in debito conto. Tuttavia, nei limiti del possibile, è sempre meglio cercare di prevedere tali eventualità perché le loro conseguenze sull’andamento dell’esperimento non sempre sono valutabili con esattezza. A questo scopo vediamo qualche tecnica di controllo per la prevenzione di questo effetto indesiderato. Ovviamente il fattore decisivo è il tempo; più dura la fase che coinvolge i soggetti sperimentali e più si è esposti al rischio di qualche evento storico rilevante. Il primo ovvio rimedio alla minaccia dovuta alla storia è dunque quello di tenere, ove possibile, tempi sperimentali brevi. Questo nella ricerca pedagogica non sempre è possibile, in quanto spesso accade che i tempi della sperimentazione si misurino in unità di anni scolastici, specialmente per quelle sperimentazioni che lavorano sul curricolo. In tal caso si può tentare di parcellizzare il piano e gli obiettivi della ricerca, in modo da individuare e realizzare una successione di tappe concettualmente e temporalmente ben delimitate e concluse; in particolare, i momenti sperimentali più forti (come la somministrazione della parte saliente di un trattamento, o quella della verifica oggettiva, o dell’applicazione di un determinato sussidio…) è meglio che si articolino in sessione unica; quando questo non sia possibile occorre cercare di abbreviare i tempi di intervallo (per ridurre ancora una volta la possibilità di eventi storici rilevanti per il complesso dei soggetti sotto osservazione). 2. 3. 2. Maturazione Se i tempi di un esperimento sono lunghi (ad esempio un anno scolastico o una sua frazione significativa) occorre tenere presente che i soggetti sperimentali sono sottoposti ad un naturale processo di maturazione (organica e psichica) indipendente dalla sperimentazione stessa; gli effetti di tale processo sull’esperimento possono essere molto differenti a seconda del periodo evolutivo dei soggetti. Se ad esempio si studia un certo apprendimento cognitivo, il naturale processo di maturazione psichica comporta per lo più effetti positivi (una acquisita maggiore capacità di concentrazione, nei primi anni di scuola elementare) ma talvolta gli effetti possono essere anche negativi (si pensi al il subentrare di tematiche esistenziali di forte disturbo nella fase adolescenziale). Dunque lavorando su soggetti in età evolutiva non si può mai essere certi che l’esito della sperimentazione non sia almeno parzialmente influenzato dalla maturazione piuttosto che dal particolare trattamento didattico cui sono sottoposti i soggetti. Anche nel caso dell’effetto maturazione il fattore tempo è decisivo. E’ possibile quindi mettere in atto gli stessi accorgimenti suggeriti per rimediare alle minacce dovute alla storia, salvo che mentre gli effetti dovuti alla storia sono imprevedibili, gli effetti della maturazione sono in genere progressivi e costantemente in atto. Questa caratteristica permette un tipo di controllo che consiste in un monitoraggio costante della variabile sottoposta a processo di maturazione. Supponiamo ad esempio che si vogliano tenere controllati gli effetti dovuti al progressivo incremento della capacità di concentrazione; in tal caso basta somministrare periodicamente dei reattivi appositi e tenere costantemente registrati, per ogni soggetto, i punteggi conseguiti nelle prove di concentrazione. Apposite tecniche statistiche (ANCOVA, vedi § 8. 5. 1.– 4. della Parte statistica) permettono poi di valutare correttamente le prove oggettive sperimentali tenendo conto dei risultati dei test di controllo sulla concentrazione. E’ inoltre possibile evidenziare gli effetti di maturazione e scorporarli dagli effetti del trattamento utilizzando un gruppo di controllo che sia esposto agli stessi processi di maturazione, ma a cui non verrà somministrato il trattamento. 2. 3. 3. Regressione statistica Per comprendere l’effetto della regressione statistica occorre anticipare almeno in modo descrittivo informale alcuni concetti relativi alla distribuzione normale presentati con maggiore estensione nel Cap. 2 della Parte statistica. Partiamo da un esempio: per mezzo di una prova strutturata piuttosto ampia ed articolata abbiamo fatto una indagine relativa alle capacità matematiche di soggetti appartenenti ad una data popolazione scolastica, diciamo gli alunni delle prime classi di un grosso istituto; la popolazione è stata osservata in modo esaustivo, cioè si sono misurati tutti i soggetti. Dopo aver calcolato il punteggio medio, poniamo che sia 50, si elabora un istogramma per evidenziare quanti siano i soggetti per ciascuna delle diverse fasce di punteggio che abbiamo stabilito. Non occorre una preparazione statistica particolare per capire che il grosso dei soggetti si collocherà nella fascia di punteggio medio, diciamo nella fascia fra 45 e 55; se poi ci allontaniamo dal punteggio medio e guardiamo quanti sono i soggetti con punteggio poco sotto e poco sopra la media (35-45 e 55-65), noteremo che i due nuovi gruppi di soggetti numericamente sono all’incirca uguali fra loro, e comunque in numero inferiore rispetto a quelli della fascia media; considerando poi fasce di punteggio ancora più lontane dalla media (diciamo 25-35 e 65-75) ancora una volta avremo due gruppi di consistenza numerica simile fra loro ma inferiore a quella delle fasce considerate prima. Continuando di questo passo potremo constatare che i gruppi con punteggi estremi, cioè sia quelli eccellenti (95-100) che quelli scarsissimi (0-5) saranno costituiti da pochissimi soggetti. Questo si esprime dicendo che i punteggi estremi (cioè quelli più lontani dal punteggio medio) sono poco frequenti o poco probabili. Analogamente, se facessimo una statistica delle altezze avremmo pochissimi giganti e pochissimi nanetti; ed ancora se indagassimo sui pesi corporei osserveremmo pochissimi obesi e pochissimi cachettici. Questi esempi servono a chiarire la proprietà per cui più ci si allontana dai valori medi e più si riducono le corrispondenti probabilità o le frequenze; questa è una caratteristica generale comune alla gran parte delle distribuzioni di misure di qualsiasi tipo. Riassumendo: più ci allontaniamo dal valore medio e più calano le probabilità di trovare soggetti con quella misura. Ritorniamo ora alla indagine sulle capacità matematiche degli alunni delle prime classi di un istituto. Ogni insegnante sa che un questionario non può essere uno strumento di misura perfettamente stabile, nel senso che somministrato una seconda volta potrebbe non dare esattamente gli stessi risultati per ogni soggetto. Supponiamo dunque di somministrare il questionario una seconda volta agli stessi soggetti, dopo un lasso di tempo sufficiente a far dimenticare a ciascuno le risposte date nel corso della prima somministrazione. E’ ragionevole aspettarsi che i punteggi nuovi non coincidano perfettamente con quelli conseguiti nella prima somministrazione. Concentriamo la nostra attenzione sui soggetti con punteggi estremi. Un soggetto nella prima prova aveva preso 98; nella seconda prova cosa ci aspettiamo che prenda? lo stesso punteggio, uno superiore o uno inferiore? Partendo da 98, migliorare il punteggio significherebbe andare da un punteggio già di per sé poco probabile ad uno ancora meno probabile (perché ancora più lontano dalla media); peggiorare il punteggio significherebbe passare ad un punteggio un po’ meno improbabile (in quanto ci avvicineremmo alla media). Dunque, relativamente al soggetto che nella prima somministrazione aveva raggiunto il punteggio 98, il calcolo della probabilità suggerisce che in presenza di sole fluttuazioni casuali se cambiamento ci deve essere, è più probabile che sia un (lieve) peggioramento. Passiamo ora ai punteggi scadenti estremi: cosa è più probabile che ottenga nella seconda prova un soggetto che nella prima prova aveva conseguito il punteggio 4? Per ragioni simmetriche a quelle del caso precedente, se vi è fluttuazione casuale è più probabile che si passi a punteggi leggermente superiori (diciamo 5, 6, 7…) che, essendo meno lontani dal punteggio medio, sono più probabili. Attenzione: fra la prima e la seconda prova non si è ipotizzato nessun trattamento, e le fluttuazioni nei punteggi sono da attribuirsi esclusivamente a fattori casuali. In sintesi possiamo concludere dicendo che quando uno strumento di misurazione (un questionario o un reattivo) non è perfettamente stabile (praticamente sempre) nel corso di una somministrazione ripetuta le misure sono soggette a fluttuazioni casuali che fanno sì che i punteggi tendano probabilisticamente ad avvicinarsi al punteggio medio. Questa circostanza è nota col termine di regressione statistica verso la media, o semplicemente regressione statistica. Per il suo effetto, nel corso di misurazioni successive i punteggi più scadenti pur rimanendo tali tenderanno ad essere leggermente migliori e analogamente i punteggi eccellenti, pur mantenendosi su quei livelli, tenderanno a essere un po’ meno alti (per approfondimenti sullo sfuggente concetto di regressione statistica vedi P. Scilligo, 1975). Si tratta ora di comprendere perché la regressione statistica costituisca una minaccia di validità interna ed in quali circostanze. Spesso nella sperimentazione didattica vi è un confronto fra le misure ottenute prima e dopo un determinato trattamento. Nella ripetizione delle misure fra prima e dopo si verifica la regressione statistica. Per i soggetti che occupano le posizioni centrali della distribuzione la regressione statistica non è un grosso problema. Diversa è la situazione per i soggetti con punteggi estremi; supponiamo ad esempio che nella misurazione effettuata dopo il trattamento si noti un miglioramento dei punteggi dei soggetti peggiori; prima di concludere che il trattamento migliora la situazione dei peggiori (sarebbe un risultato davvero importante!) occorre accertarsi che ciò non sia una pura illusione dovuta all’effetto della regressione verso la media. Analogamente, considerazioni affrettate ed incaute potrebbero magari portare a concludere che il trattamento è sì utile nei casi peggiori, ma è parimenti dannoso per i migliori; ma ancora potremmo essere in presenza di una pura regressione verso la media e non di un peggioramento dei migliori dovuto al trattamento. La minaccia di validità interna dovuta alla regressione statistica non è in genere preoccupante quando si sperimenta su soggetti nella media o non lontani da essa. Assume invece dimensioni più rilevanti quando si sperimenta su popolazioni estreme. Per tenere sotto controllo l’effetto della regressione statistica occorre estrarre dalle code estreme della popolazione anche un campione di controllo che non venga sottoposto a trattamento; è così possibile vedere nelle differenze fra prima ed ultima prova quale sia la parte di variazione imputabile alla regressione statistica e quale al trattamento. Ovviamente il problema non sussiste se si sperimenta solo su soggetti estremi (solo sui bravissimi o solo su quelli molto scarsi) perché in tale caso i punteggi (eccellenti o scarsi che siano) sono nella media del gruppo osservato; ciò naturalmente a patto che tutti i reattivi siano tarati sulle prestazioni medie del gruppo osservato (anche in questo caso avremmo comunque marginali problemi di regressione, ma solo fra i più bravi dei bravi e fra i più scarsi degli scarsi). 2. 3. 4. Selezione Si intende qui fare riferimento alle problematiche connesse con la selezione dei soggetti per la sperimentazione nel corso del campionamento. I principali elementi di disturbo in fase di selezione sono due. Il primo: se i soggetti sono scelti per adesione volontaria (nella sperimentazione scolastica è quasi la regola quando i soggetti sono gli insegnanti) il quadro dei risultati finali può essere fortemente inquinato, principalmente a causa di una probabile forte motivazione all’innovazione didattica dei soggetti che hanno concesso la loro disponibilità. Il secondo: se in una sperimentazione con due gruppi ( vedi § 4.2.1. e § 5.2.) quello sperimentale non è perfettamente equivalente al gruppo di controllo sotto tutti gli aspetti rilevanti per la ricerca, non è detto che i risultati finali della sperimentazione siano attribuibili al trattamento sperimentato. La minaccia è neutralizzata nella misura in cui vengono posti in atto correttamente i criteri di campionamento e di assegnazione (con molte cautele per quanto riguarda le tecniche di bilanciamento, che vanno utilizzate solo in caso di comprovata validità ed attendibilità dei reattivi utilizzati) descritte in § 1.4.6.. 2. 3. 5. Mortalità E’ il fenomeno per cui nel corso della sperimentazione si verifica una perdita progressiva dei soggetti sperimentali dovuta ad abbandono. Il problema non è tanto una questione di numeri che si assottigliano (per quanto talvolta la perdita di soggetti possa assumere consistenza numerica preoccupante); piuttosto si tratta del fatto che la perdita può essere selettiva e non casuale. Ciò significa che spesso i soggetti persi non sono soggetti qualsiasi, ma tutti appartenenti a date categorie, che in qualche modo potrebbero essere connesse al trattamento sperimentato. Questo è un grave handicap per la ricerca, in quanto non vengono rilevati gli effetti del trattamento su una intera tipologia di soggetti. Una incauta conclusione da parte del ricercatore potrebbe ad esempio affermare l’efficacia di un trattamento, perché tutti i soggetti che hanno portato a termine l’esperimento hanno dato risposte positive. Ma se coloro che hanno abbandonato fossero rimasti nella partita, i risultati complessivi sarebbero magari stati complessivamente inferiori. E ancora, chi assicura che gli abbandoni non siano riferibili al trattamento stesso (cosa che spesso succede quando i soggetti sperimentali sono adulti che hanno facoltà di abbandonare l’esperimento)? Anche questa volta la minaccia di validità è strettamente connessa al fattore tempo (nel senso che più dura la sperimentazione e più crescono le probabilità di abbandono) e quindi anche in questo caso è possibile rimediare con tempi stretti nella sperimentazione. Occorre tuttavia segnalare la possibilità di ottenere statisticamente stime dei valori mancanti, a causa di abbandono della sperimentazione da parte di un soggetto, attraverso tecniche di regressione (vedi il Cap. 8 della Parte statistica); in tal caso occorre tuttavia che i dati raccolti con i rimanenti soggetti mostrino una ottima correlazione fra le variabili (vedi ancora il Cap. 8 della Parte statistica) e che l’abbandono non sia precoce. 2. 3. 6. Interazione fra gli effetti precedenti Oltre agli effetti di disturbo elencati sopra e presi singolarmente, occorre precisare che spesso due o più di essi possono sovrapporsi con esiti non semplicemente sommativi, dando luogo alla cosiddetta interazione. Un esempio di interazione fra selezione e maturazione: se i soggetti sperimentali sono selezionati da due differenti fasce di età, facilmente i processi di maturazione saranno in fasi differenti, per cui solo i soggetti di una certa età potrebbero evidenziare l’effetto della maturazione. Un esempio di interazione fra selezione e mortalità: i soggetti sperimentali potrebbero essere reclutati per adesione volontaria ma non in numero sufficiente; per raggiungere la numerosità del campione stabilita supponiamo sia necessario incentivare (economicamente o in altra forma) gli ultimi soggetti; in tal caso potremmo avere mortalità differenziata fra volontari ed incentivati. Un esempio di interazione fra storia e maturazione: alcuni dei soggetti potrebbero avere in atto un processo di maturazione che li espone più di altri (già maturati o ancora da maturare) ad essere sensibili ad un evento storico. 2. 3. 7. Effetti dell’ordine e della sequenza Si possono avere quando in un esperimento ogni soggetto deve essere sottoposto a più trattamenti in successione. L’effetto dell’ordine è quello per cui il risultato finale dell’esperimento è condizionato dal particolare ordine in cui il soggetto è sottoposto ai trattamenti; cioè: ad ordinamenti differenti dei trattamenti possono corrispondere risultati finali differenti. L’effetto della sequenza invece non si manifesta sul soggetto al termine di tutti i trattamenti come risultato globale; è piuttosto un effetto che si può manifestare al termine dei singoli trattamenti, in dipendenza dei trattamenti immediatamente precedenti. Un esempio classico è quello del cosiddetto effetto contrasto: se il soggetto è stato precedentemente esposto a percezioni piuttosto intense (ad esempio uditive, con forti rumori) e poi è bruscamente esposto a percezioni di intensità inferiore (ad esempio a rumori di media intensità) per contrasto le nuove percezioni saranno soggettivamente giudicate molto inferiori alla loro reale intensità (i rumori saranno giudicati non medi bensì leggeri). E’ possibile rimediare parzialmente alle minacce di validità derivanti dall’effetto della sequenza lasciando opportuni intervalli temporali fra una prova e la successiva (intervalli che tuttavia non devono essere così ampi da esporre ai rischi legati al fattore tempo precedentemente esaminati). Per quanto invece riguarda l’effetto dell’ordine esistono appositi disegni sperimentali detti a blocchi descritti in § 4.3.2.. 2. 4. Principali minacce di validità esterna e possibili rimedi 2.4.1. Minacce alla validità di popolazione Si è già detto in § 2.1.2. che il primo vincolo di validità esterna è dato dalla rappresentatività del campione. Da quanto detto segue direttamente che la prima e migliore garanzia di validità esterna è l’ossequio scrupoloso delle regole di campionamento, ricordando in particolare che la generalizzazione è di norma possibile solo con la popolazione da cui è stato estratto il campione: se ad esempio il campione è stato estratto a livello provinciale, o regionale, o nazionale, di norma la generalizzazione può essere effettuata a livello rispettivamente provinciale, o regionale, o nazionale. La regola non è rigida, ma è un buon punto di riferimento; essa risulta tanto più vincolante quanto più le variabili di interesse hanno una distribuzione geografica differenziata. Se ad esempio si sta ricercando sulle aspettative di lavoro presso i giovani in età scolare, un campione prelevato su base regionale (qualunque sia la regione) non permette assolutamente estensioni a livelli territoriali superiori, in quanto sappiamo che le opportunità di lavoro sono estremamente differenziate sul territorio nazionale. Si ricordi inoltre che in ogni generalizzazione occorre tenere sempre ben presente il divario tra popolazione accessibile e popolazione universo. 2.4.2 Minacce alla validità temporale Per quanto riguarda quegli elementi di invalidità temporale legati all’evoluzione del contesto sociale in cui la ricerca è stata condotta vi è un semplice ed ovvio rimedio, che consiste nel ripetere la sperimentazione (o se possibile quelle sole parti che si suppongono influenzate dal nuovo contesto sociale che si è venuto a determinare) in modo da verificare direttamente la validità attuale delle conclusioni allora raggiunte (da qui si capisce una volta di più l’importanza di relazionare dettagliatamente la ricerca in ogni suo aspetto in fase di comunicazione dei risultati come detto in § 1.6.). Ancora a proposito di validità temporale § 2.1.2. abbiamo esemplificato una situazione in cui si ipotizza un forte disturbo legato al ciclo stagionale: i risultati della ricerca sperimentale condotta nel periodo primaverile si possono estendere ad un periodo stagionale differente? Anche relativamente alle minacce di validità temporale legate alla ciclicità di alcuni aspetti essenziali nella ricerca, le tecniche di controllo sono simili ed intuitive: nel caso dell’esempio il più semplice rimedio alla minaccia di validità temporale è quello di ripetere almeno nelle fasi salienti la sperimentazione nei differenti periodi dell’anno. 2. 4. 3. Minacce alla validità ecologica Esempi concreti sono già stati fatti in § 2.1.2. illustrando il concetto generale di validità esterna. Possiamo riferirli a quelli che in letteratura sono catalogati come: - effetto novità (in cui almeno una parte dell’effetto positivo del trattamento è legata al fatto che i soggetti rispondono positivamente perché percepiscono una stimolante novità); - effetto Hawthorne (un soggetto che sa di essere osservato dallo sperimentatore può anche inconsapevolmente modificare i propri comportamenti naturali); - effetto John Henry (i soggetti dei gruppi sperimentali tendono ad offrire più o meno inconsciamente prestazioni migliori rispetto ai soggetti del gruppo di controllo, per il solo fatto di essere consapevoli di stare nel gruppo sperimentale). Vi sono poi numerosi altri effetti riferiti nel complesso come effetti dovuti ai soggetti, studiati in particolare dalla ricerca psicologica, legati alla presenza di uno sperimentatore ed alle sue caratteristiche psicologiche, professionali e personologiche; tali effetti tendono comunque ad indurre modificazioni nelle risposte agli stimoli da parte dei soggetti sperimentali (legate per lo più al maggiore o minore grado di affinità che il soggetto osservato percepisce rispetto allo sperimentatore che lo osserva, affinità che può riguardare aspetti che vanno dal sesso alla provenienza geografica, dallo stile personale più o meno coinvolgente al modo di abbigliarsi…). Vi sono poi gli effetti di distorsione della percezione da parte dello sperimentatore legati alle sue aspettative; sono gli stessi noti effetti a cui è soggetto ogni docente nel momento della valutazione: effetto alone, effetto Pigmalione, effetto contrasto, effetto proiezione. Fra le tecniche di controllo degli effetti dovuti ai soggetti vale la pena di richiamare le due tecniche denominate del singolo cieco e del doppio cieco. La prima consiste nel tenere all’oscuro i soggetti sperimentali dello scopo dell’esperimento e delle sue modalità di svolgimento, quando si teme che l’eventuale conoscenza possa causare in essi reazioni non previste o non prevedibili, che potrebbero vanificare in parte o del tutto il piano sperimentale. La seconda comporta che anche coloro i quali operano in collaborazione con lo sperimentatore, e sono a contatto coi soggetti, siano all’oscuro di uno o più dettagli essenziali (noti solo allo sperimentatore, che però non ha contatti diretti coi soggetti); ciò permette di evitare che eventuali comportamenti inconsci di chi sta a contatto con i soggetti possano influenzarne le risposte allo stimolo sperimentale. Ancora, fra le tecniche che servono a limitare l’effetto dello sperimentatore sui soggetti occorre citare almeno l’automazione. Si tratta di ricorrere a tecnologie computerizzate atte ad impartire ai soggetti le istruzioni via monitor, in modo imparziale ed asettico, in modo da garantire che le istruzioni e le loro modalità di comunicazione siano assolutamente uguali per tutti i soggetti. Nello specifico della ricerca in campo pedagogico è possibile, attraverso strumenti multimediali appositamente predisposti dallo sperimentatore, impartire vere e proprie lezioni computerizzate, in modo da garantire l’assoluta indipendenza dalla variabile docente (diversi docenti impartiscono diverse lezioni) o dalla variabile lezione (lo stesso docente in momenti differenti può impartire sullo stesso argomento diverse lezioni). La tecnica dell’automazione attraverso strumenti multimediali può garantire inoltre un controllo perfetto su tutte le variabili che concorrono a definire la tipologia di una lezione, permettendo di sperimentarne efficacemente ciascuno dei diversi fattori mantenendo fissi (e perfettamente sotto controllo) tutti gli altri: allo scopo basterà di volta in volta modificare nella lezione multimediale informatizzata quell’aspetto (e solo quello) di cui si desidera cercare le modalità didatticamente più efficaci. 2.4.4. Altre minacce alla validità esterna Riportiamo infine in questo paragrafo altre due tipiche minacce di validità esterna non direttamente riferibili alle tre tipologie precedenti. Sensibilizzazione al pre–test e/o al post–test. Come vedremo nel Cap. 4, i piani sperimentali comportano spesso un pre– test per accertare la situazione iniziale, un trattamento (di cui si desidera testare l’efficacia) ed un post–test che rileva i risultati finali; questi ultimi sono confrontati con quelli iniziali, e se il riscontro è positivo il trattamento viene dichiarato efficace. Chi sulla base dei risultati della ricerca si converte al nuovo trattamento non ha più bisogno di controllarne l’efficacia e quindi non sottopone (di norma) i propri soggetti al pre–test ma direttamente al trattamento. Ora, talvolta accade che presso i soggetti la somministrazione del pre–test ed il suo esito interagiscano positivamente col trattamento e ne determinino almeno in parte il successo. In tal senso si dice che talvolta l’esposizione ad un pre–test può minacciare la validità esterna. Quando così fosse, il trattamento dovrebbe essere esportato globalmente (pre–test compreso) per mantenere la propria validità. Esiste un disegno sperimentale, denominato disegno di Solomon e descritto in § 4.2.3. che permette di verificare efficacemente quando si verifica l’effetto del pre–test. Analogo effetto può presentarsi nei confronti del post–test: ciò accade quando l’effetto del trattamento, o un suo particolare aspetto, rimane ad uno stato latente, ed è solo attraverso il post–test che perviene ad un livello effettivo ed esplicito di coscienza. Definizione ambigua delle variabili. Talvolta succede che nella definizione operativa di una variabile riferita ad un costrutto concettuale molto astratto il ricercatore sia impreciso o ambiguo; una buona definizione operativa richiede una adeguata e attenta considerazione di una pluralità di fattori che devono essere esplicitamente dichiarati in modo non equivoco. Questa condizione è irrinunciabile per due motivi: il primo è che altrimenti l’esperimento è di fatto irripetibile e quindi non sottoposto al vaglio di un controllo da parte della comunità scientifica; il secondo motivo sta nel fatto che se le variabili sono esposte ad un margine di ambiguità nella loro interpretazione, ciascuno potrà leggere nelle conclusioni della ricerca una cosa diversa, con ovvie conseguenze negative sotto il profilo della validità esterna. 2. 5. Principali minacce di validità statistica e possibili rimedi Ci limiteremo a brevi accenni, visto che l’argomento è pienamente sviluppato nella Parte statistica del testo. La validità statistica definita in § 2.1.3. è sostanzialmente legata alla correttezza dei metodi statistici impiegati. In particolare vi sono due possibili minacce di validità. La prima e più intuitiva riguarda l’eventuale violazione delle assunzioni che stanno alla base di un determinato test statistico. In pratica, come si vedrà nella Parte statistica, ogni procedura di calcolo parte da determinati presupposti impliciti; nel caso in cui la realtà empirica a cui si applica la procedura non si adatti a tali presupposti (siano cioè violate le assunzioni del test) i risultati dell’elaborazione statistica (e quindi i risultati della ricerca) sono inaffidabili. Più precisamente è poco affidabile il calcolo che quantifica percentualmente le quote di variabilità, casuale e non, insite nei dati. Ne segue l’obbligo di controllare, ogni volta che si usa un test, che le assunzioni su cui si basa siano rispettate. Una seconda e più sottile minaccia alla validità statistica è legata ai concetti di errore statistico del primo e del secondo tipo, di potenza di un test e di livello di significatività (Cap. 4 della Parte statistica). Qui ci accontenteremo di esprimere la minaccia alla validità statistica in modo intuitivo ed attraverso un linguaggio piuttosto informale, rimandando alla lettura dei paragrafi indicati per una formulazione più formalizzata. In sostanza si tratta di trovare il giusto equilibrio fra il rischio di far dire ai dati meno di quanto possano (arrivando cioè a conclusioni eccessivamente prudenti), e viceversa il rischio di far dire ai dati più di quanto possano (formulando conclusioni decisamente avventate). La chiave di questo equilibrio è quella di scegliere test di adeguata potenza, dove per potenza possiamo (per il momento, ed in modo del tutto informale ed intuitivo) intendere questo: un test statistico è tanto più potente quanti meno soggetti è necessario osservare per giungere a conclusioni con un assegnato livello di affidabilità (per una nozione formalizzata di potenza di un test vedi § 4.3.2. della Parte statistica).