la scala di likert per la valutazione della didattica

Transcript

la scala di likert per la valutazione della didattica
LA SCALA DI LIKERT PER LA VALUTAZIONE
DELLA DIDATTICA∗
Michele Lalla
1. Introduzione
Negli ultimi anni la domanda di valutazione, diretta a accertare il conseguimento di obiettivi concreti o funzioni e procedure amministrative e tecnologiche, ha
subíto uno sviluppo crescente in campo economico, sociale, e formativo (inter alia :
Morelli 1981, Beato, 1989; Stame, 1990; Colombo, 1991; Vergani, 1991). La valutazione concerne la formulazione e l’espressione di un giudizio di valore sulle conseguenze di un’azione o sulla determinazione dei risultati relativi a un’attività diretta a conseguire un obiettivo specifico, caratterizzato dall’avere un valore; essa
riguarda, quindi, la modalità di relazione tra un oggetto in esame e un valore (scopo) assunto come positivo e desiderabile (Boileau, 1987). La valutazione si può
applicare a diversi livelli, da quello operativo a quello astratto, e a diverse aree, da
quella sociale e economica a quella tecnologica. Le richieste di efficienza e di efficacia nelle attività dei servizi e della pubblica amministrazione, con l’emergere di
una maggiore attenzione per i bisogni degli utenti, stanno modificando le procedure
di organizzazione dei servizi e gli obiettivi prefissati tendono a essere rivolte in
prevalenza agli utenti. Tali esigenze hanno rappresentato una spinta innovatrice che
ha investito anche l’Università; infatti, le recenti disposizioni legislative, che hanno
costituito l’Osservatorio (ora Comitato) nazionale per la valutazione del sistema
universitario, sono coerenti con le tendenze in atto 1 .
∗
Lavoro eseguito nell’àmbito del progetto “Prototipi decisionali derivanti da database
fuzzy”, finanziato nel 1998 con le quote riservate per la ricerca orientata nell’ateneo
dell’Università di Modena. Si ringrazia la dottoressa Elisa Dondi per l’elaborazione dei
questionari incompleti e/o errati, che ha consentito di ottenere la tabella 3.
1
L’Osservatorio per la valutazione del sistema universitario è stato istituito presso il Ministero dell’Università e della Ricerca Scientifica e Tecnologica (MURST) con DM del
22.02.1996. I suoi compiti sono stati definiti inizialmente dall’art. 5 della Legge 537 del
24.12.1993 (S.O. n. 121 alla G.U. n. 303 del 28.12.1993) e successivamente dagli artt. 9,
15, e 19 del D.P.R. del 30.12.1995 (G.U. n. 50 del 29.02.1996) relativo al Piano di sviluppo
1
La valutazione delle attività universitarie richiede, in funzione dei fini, un approccio analitico - ma anche globale e integrato - che esamini i molteplici aspetti
inerenti alla struttura edilizia e organizzativa, al personale, ai servizi, alla didattica.
Questi possono essere determinati in base a criteri fondati sugli equilibri dei fattori
amministrativi derivanti da princípi fissati a priori o dalla scienza dell’organizzazione aziendale, in tal caso si ha l’efficacia gestionale o interna; oppure possono
essere orientati ai bisogni degli utenti (i destinatari) che possono anche essere in
conflitto con i precedenti, in tal caso si ha l’efficacia sociale o esterna (Resmini,
1993; Agnoli, Fasanella, 1996). I risultati delle attività svolte all’interno delle università riguardano essenzialmente la didattica e la ricerca, che possono essere valutati a diversi livelli della struttura: il dipartimento, il corso di laurea, la facoltà,
l’ateneo. Per la valutazione della didattica si ricorre a indicatori pertinenti agli obiettivi dell’istituzione che riguardano il “prodotto” finale del processo educativo,
ossia il conseguimento del titolo di studio (Johnes, Taylor, 1990; Compagnino, Gori, 1992). Informazioni rilevanti si ottengono anche analizzando i percorsi di studio
per individuare le caratteristiche degli abbandoni, i tassi di conseguimento dei tit oli, i tassi di permanenza che si riferiscono alla quantità di tempo impiegato per
giungere alla meta, i tassi di rendimento che riguardano il voto finale ottenuto (Johnes, 1990, 1992; Bernardi, Cordaro, 1995; Agnoli, Fasanella, 1996).
La valutazione della didattica è condotta, ancora oggi, sulla base di dati raccolti
con un questionario contenente domande atte a accertare sia il grado di soddisfazione degli studenti, sia l’efficienza e l’efficacia dell’insegnamento in termini di
qualità e di impegno dei docenti. Le domande possono prevedere risposte simili alla scala di Likert, ma la scelta dei sintagmi per le categorie di risposta non è cosí
scontata. L’obiettivo del presente lavoro, che riporta una indagine condotta nel
1999 nella Facoltà di Economia dell’Università degli Studi di Modena (e Reggio
Emilia), esplora sia gli effetti dei sintagmi utilizzati, sia le intensità percepite dagli
studenti rispetto a alcuni fattori che le possono influenzare (genere, materia, docente, il tipo e il voto di diploma).
La valutazione attuale della didattica tende a (o può) uniformarsi perché un
gruppo di ricerca promosso dall’Osservatorio, in base al lavoro di un precedente
gruppo di ricerca (Osservatorio, 1998), ha proposto un questionario tipo al quale ci
si può riferire con il termine «questionario del MURST », adottabile da tutti gli atenei, e ha suggerito una strategia di elaborazione dei dati (Chiandotto, Gola, 1999).
Entrambi i gruppi di lavoro hanno preferito e suggerito l’uso di una scala di Likert
(1932) a quattro modalità di risposta: •decisamente no, ‚più no che sí, ƒpiù sí
delle università 1994-96. Le informazioni sull’attività dell’Osservatorio (ora Comitato) nazionale per la valutazione del sistema universitario si possono reperire sul sito Internet del
MURST (ora MIUR) http://www.cnvsu.it, tra cui il rapporto di ricerca proprio sulla valutazione delle attività didattiche (Osservatorio, 1998).
2
che no, „decisamente sí; cui ci si riferirà nel séguito con il termine “scala del
MURST ”. Di per sé, la scelta non è criticabile; infatti, il dibattito è ancora aperto
nella letteratura e da là non si evince quale sia la strategia migliore. In fase di elaborazione dei dati si suggeriscono, tuttavia, procedure che non sono affatto coerenti
con la scala adottata (Schuman, Presser, 1996). Per sintetizzare gli esiti
dell’indagine, la media e la varianza sono gli indici più comuni e immediati per la
comprensione; infatti, Chiandotto e Gola (1999) suggeriscono procedure di elaborazione che utilizzano questi indici statistici (e anche altri) che assumono variabili
di natura quantitativa. In particolare, suggeriscono di attribuire un valore numerico
uguale a due alla prima modalità, cinque alla seconda, sette alla terza, e dieci alla
quarta; tale scelta consente di esprimere i giudizi secondo il sistema di valutazione
utilizzato nella scuola italiana (esclusa l’università), che prevede punteggi che vanno da zero a dieci; nel séguito, ci si riferirà a tale sistema con il termine «scala decimale». L’equivalenza assunta tra la scala del MURST e la scala decimale, sebbene
sembri ragionevole, è quanto mai arbitraria; richiede, per lo meno, un accertamento
empirico tra la popolazione di riferimento per verificare se la sua opinione coincide
con il criterio proposto. La scala di riferimento assunta, poi, non è proprio quella
decimale perché il punto centrale dei punteggi sembra il sei sicché il campo di variazione va da due a dieci, e non da zero a dieci; ma sei corrisponde alla sufficienza
che è un giudizio positivo, non neutrale!
Il sistema di valutazione scolastico ha sempre adottato, accanto alla scala decimale, anche un sistema di denominazione verbale de i punteggi o voti: con alcune
varianti o estensioni, diverse da scuola a scuola; e con ambiguità sul significato dei
termini rispetto al loro valore numerico; per esempio, i termini “discreto” e “mediocre” possono presentare differenti interpretazioni della loro posizione in un ordinamento (graduatoria). Con qualche costrizione/contrazione della terminologia
usata in pratica, il sistema di votazione attuale espresso in termini linguistici si può
ricondurre a una scala tipo Likert a cinque modalità: •molto insufficiente (MI),
‚insufficiente (I), ƒsufficiente (S), „buono (B), …molto buono (MB); cui ci si
riferirà nel séguito con il termine «scala di voto ».2 . Naturalmente, l’adozione della
modalità centrale non risolve completamente la questione del livello di misura richiesto dai più comuni indici statistici, perché la scala è sempre qualitativa ordinata
e il calcolo della media rimane problematico per la singola domanda, ma almeno
presenta una struttura che garantisce formalmente la linearità e costituisce una mi2
Il sistema di valutazione nelle scuole medie è stato pressoché simile alla scala di voto per
alcuni anni in cui si usavano voti espressi con le lettere A, B, C, D, E, in senso decrescente.
Oggi, la terminologia è un po’ diversa: insufficiente, sufficiente, buono, distinto, ottimo. Si
usa quindi una sola modalità negativa, per non offendere (sic!) il discente. Nelle scuole superiori, invece, si è sempre usata la votazione espressa in decimi; ma i voti superiori a otto
sono, in genere, piú rari rispetto ai voti inferiori a quattro.
3
gliore approssimazione alla cardinalità; infine, nonostante la difficoltà teorica, la
scala a cinque modalità che include la modalità centrale è largamente utilizzata in
pratica come fosse una scala a intervalli perché i risultati sono spesso riportati con
l’indice media. La scala di voto, poi, elimina di per sé il problema della modalità
neutrale o centrale perché la contiene solo implicitamente; infatti, la terza modalità
esprime una posizione favorevole e non una neutrale, che è ritenuta il rifugio di chi
non vuole esprimersi, degli indolenti, e dei superficiali. La scala di voto non è,
quindi, una vera scala di Likert perché la modalità centrale esprime una scelta positiva e non è, perciò, un’autentica modalità centrale. Si potrebbe far precedere “sufficiente” dall’avverbio “appena”, che sottolinea la stentatezza del “sufficiente” o da
qualche sinonimo: a stento, a fatica, con pena, solo un poco, soltanto, non più di;
ma non si elimina comunque il problema formale.
Scale alternative ve ne sono tante, sempre con pregi e difetti, che devono essere
valutati di volta in volta per accertare la loro applicazione su larga scala. Nei termometri (di sentimenti) si possono ottenere, per esempio, valutazioni più vicine alla natura dei numeri reali sia aumentando il numero delle modalità di scelta, sia lasciando indicare al rispondente il punto o collocazione del suo giudizio sul segmento ancorato e misurando poi in centimetri la distanza del punto indicato
dall’origine. La precisione che si ottiene, che è molto elevata in termini numerici,
non può garantire la correttezza della reale posizione del rispondente perché la sua
risposta è data con l’esattezza dell’approssimazione visiva che risulta molto più
bassa degli strumenti che misurano la distanza; inoltre, diverse esperienze empir iche mostrano che la presenza di numerose scelte o di una scala più fine non migliora la differenziazione delle risposte degli intervistati che forniscono spesso valori
riconducibili o riducibili a un numero inferiore, previa analisi adeguata. Hofacker
(1984) mostra che da ventuno categorie nominali ci si può ricondurre a otto. Marradi (1992, 1998) sostiene che un’accettabile approssimazione alla cardinalità è ottenuta con scale autoancoranti, che riducono l’autonomia semantica delle moda lità
intermedie; ma sottolinea che i soggetti intervistati, pur avendo una scala da 0 a
100, tendevano a usare cifre tonde, di solito multipli di 10 e, talvolta, multipli di 5.
Questa tendenza si è notata in alcune indagini locali (Lalla, Facchinetti, 2000); ma
il fenomeno di contrazione, nell’applicazione pratica, del numero delle possibilità
offerte dalla scala disponibile è noto (Gattullo, 1968). Una struttura più fine della
scala non garantisce, quindi, una migliore precisione e potrebbe aumentare solo la
variabilità dei giudizi e il disorientamento di chi deve esprimerlo con tale strumento. Le caratteristiche e i problemi presentati dalla scala di Likert sono descritti nel
paragrafo 2.
Per tradurre in valori della scala decimale le opzioni sintagmatiche della scala di
voto si è condotta l’indagine, qui presentata, nell’àmbito della Facoltà di Economia
dell’Università degli Studi di Modena (e Reggio Emilia) che dall’anno accademico
4
1989/90 rileva le valutazioni e le opinioni degli studenti sui corsi frequentati, con
un questionario ufficiale. Si sono selezionate dal questionario ufficiale otto domande chiave e si sono disposte in un questionario breve che chiedeva ai rispondenti di specificare per ciascuna modalità di risposta, relativa a ogni domanda, il
suo valore con un voto in base a una scala da zero a dieci. Il questionario breve è
stato somministrato ai frequentanti di due corsi del primo anno nel maggio 1999.
L’analisi delle domande utilizzate nel questionario breve e gli aspetti critici della
rilevazione sono esposti nel paragrafo 3. Le valutazioni numeriche delle modalità
di risposta - esaminate per corso, per genere, e per tipo di diploma posseduto - sono
illustrate nel paragrafo 4. Nel paragrafo 5 seguono le conclusioni.
2. Caratteristiche della scala Likert
La scala di Likert è impiegata per misurare in prevalenza atteggiamenti e opinioni mediante l’uso di affermazioni, comune anche a altre scale: Thurstone, Guttman, differenziale semantico e termometro. La tecnica fu ideata nel 1932 dallo
psicologo americano Rensis Likert con lo scopo di elaborare uno strumento semplice per misurare atteggiamenti e opinioni (Likert, 1932).
La scala di Likert richiede la formulazione di una serie di L proposizioni o asserti o affermazioni (items) supposte semanticamente collegate agli atteggiamenti
oggetto di indagine che devono essere sottoposti a un gruppo di individui e devono
essere monotòni, vale a dire formulati in modo unidirezionale rispetto all’oggetto
da misurare affinché all’aumentare dell’atteggiamento favorevole del soggetto verso l’oggetto, aumenti il punteggio conseguito in quella proposizione. Pertanto, si
devono ideare asserti con un contenuto favorevole al concetto da misurare e asserti
con un contenuto contrario, di varia intensità e in modo che i due insiemi abbiano
la stessa cardinalità. A ogni individuo viene chiesto di esprimere il suo grado di accordo per ogni proposizione, che prevede cinque possibilità alternative tra loro:
completamente d’accordo, d’accordo, incerto, in disaccordo, in completo disaccordo (strongly agree, agree, uncertain, disagree, strongly disagree). Per ogni proposizione, le risposte presentano nell’ordine le etichette 5, 4, 3, 2, 1 (oppure 4, 3, 2, 1,
0) con la funzione specifica di mettere in ordine le alternative di risposta. I punteggi attribuiti a ogni soggetto per ogni proposizione coincidono con le etichette per le
affermazioni a favore e sono invertite (1, 2, 3, 4, 5 oppure 0, 1, 2, 3, 4) per le affermazioni contro. Il punteggio finale di ciascun soggetto è dato dalla somma di
tutti i punteggi parziali corrispondenti a ogni scelta effettuata tra le L proposizioni
che costituiscono la scala; in altri termini, “il punteggio individuale sull’intera scala, [può anche essere] costituito dalla [...] somma dei codici numerici attribuiti alle
risposte scelte da un individuo ai vari items della scala” (Cacciola, Marradi, 1988,
5
pp. 72-73) perché i codici delle categorie di risposta sono espressi, in genere, con
numeri naturali.
La procedura presenta celerità di registrazione, di codifica, e di calcolo. Gli assunti sottostanti riguardano: (1) l’unidimensionalità degli atteggiamenti o opinioni
oggetto di misura per cui le diverse proposizioni utilizzate nella scala devono riferirsi allo stesso concetto o proprietà; (2) collocabilità dell’atteggiamento su un
continuum per cui dalle risposte fornite dai singoli soggetti si ottiene un corrispondente valore (numerico) che esprime l’orientamento dell’atteggiamento per ognuno
di loro e la posizione in graduatoria è determinata dagli stessi; (3) equidistanza tra
le categorie di risposta, per esempio, la distanza tra “completamente d’accordo” e
“d’accordo” dovrebbe essere uguale a quella che c’è fra “disaccordo” e “completamente in disaccordo”, così come rispetto alla categoria “incerto” e, infatti, i punteggi attribuiti ne sono una conseguenza. Tuttavia, la procedura di costruzione non
garantisce né che la scala misuri una sola proprietà, né che le posizioni percepite
siano le stesse per ciascuna categoria e per tutti gli intervistati (Phillips, 1971; Perrone, 1977; Bailey, 1994).
Il numero di cinque categorie di risposta previste dalla scala è arbitrario, anche
se pare sia abbastanza efficace perché risulta semplice e riduce la variabilità dello
zero e dell’unità di misura individuali; tuttavia, il numero ottimale di categorie è
una funzione delle condizioni di misura e dipende dal contenuto specifico (Mattell,
Jacoby, 1971; Cox, 1980; Wildt, Mazis, 1978). Nella versione originaria la scala
presentava sette possibili modalità di scelta: strongly agree, mildly agree, agree,
uncertain , disagree, mildly disagree, strongly disagree; in seguito le due categorie
introdotte da mildly furono abbandonate (Cacciola, Marradi, 1988, p. 67).
Una variante molto discussa consiste nell’eliminare la categoria 3 (“incerto”)
per costringere il rispondente a schierarsi, nell’assunto che i “veri” incerti si distribuiscano in parti uguali tra le categorie dei favorevoli e dei contrari. La mancanza
dello “zero” nella scala solleva, tuttavia, perplessità nell’analisi dei dati perché non
c’è più l’equidistanza tra le categorie. In alternativa, si esclude la categoria dal
campione, ma i risultati possono essere falsati o distorti (Guy, Norvell, 1977; Ryan,
1980; Garland, 1991). La percentuale di soggetti che scelgono la categoria intermedia tende ovviamente a diminuire all’aumentare del numero di categorie disponibili (Mattell, Jacoby, 1972).
2.1. Vantaggi e svantaggi della scala di Likert
La frequente applicazione della scala di Likert in diversi campi deriva anzitutto
dalla semplicità dello strumento, dalla facilità dello stile di registrare le risposte,
dalla chiarezza delle categorie di risposta e della scelta che offre. Pertanto,
6
l’intervistatore avrà minori difficoltà a porre le domande e a registrare le risposte. Il
soggetto intervistato ha un minimo di possibilità nell’articolare il suo punto di vista
perché può esprimere la propria opinione scegliendo tra cinque alternative e risulta,
quindi, più flessibile delle scale che prevedono solo una risposta dicotomica (sí/no
oppure accordo/disaccordo). Inoltre, si può raccogliere una maggiore quantità di
informazioni in minor tempo perché si possono utilizzare le stesse alternative di
risposta per più affermazioni. L’ordine delle categorie di risposta è predefinito e
stabile perché hanno scarsa autonomia semantica (in altre parole, devono fare riferimento al testo della domanda e alle altre categorie per essere interpretate); perta nto, è improbabile che gli intervistati scelgano di ordinarle in modo diverso da come
sono e ne consegue che si ordinano più facilmente anche le risposte date dai soggetti (Cacciola, Marradi, 1988).
Le difficoltà dello strumento sono diverse e si enumerano di séguito secondo un
ordine casuale e non gerarchico (Marradi, 1981; Delvecchio, 1995).
La prima riguarda l’uso di “domande chiuse” che obbligano l’intervistato a scegliere le risposte soltanto entro le limitate alternative previste sicché l’essere indotto a scegliere una modalità che non esprime il proprio reale atteggiamento può generare frustrazione e irritazione con conseguente aumento della probabilità di non
risposta; oppure, per reazione, si può scegliere senza riflettere o anche in modo
pressoché casuale perché estranei al tema trattato e si agisce soltanto per non mostrare la propria ignoranza o disinformazione sull’argomento. La scelta obbligata
potrebbe comportare anche una deriva nella graduatoria finale di un soggetto sottoposto a una batteria di domande perché quando le coppie (di domande favorevoli
e contrarie al concetto in esame) non hanno la stessa accettabilità sociale, allora si
potrebbe produrre uno spostamento più consistente verso l’approvazione o la disapprovazione violando l’assunto della distribuzione equa tra i favorevoli e i contrari: una caratteristica che varia facilmente da individuo a individuo, nello spazio,
e nel tempo (Orvik, 1972).
La seconda si riferisce agli assunti di continuità e equidistanza tra le categorie
di risposta perché arbitrarie e non c’è alcuna garanzia che siano considerate uguali
e equidistanti da tutti gli intervistati; numerosi studi hanno mostrato: sia la percezione delle etichette con un’ampiezza molto variabile e senza plausibili regolarità
(Amisano, Rinaldi, 1988); sia l’effetto “estremità” (end effect) che concerne la tendenza di certi soggetti a essere attratti o respinti dalle scelte estreme (Galtung,
1967).
La terza concerne l’assunto di linearità che comporta la collocazione di soggetti
favorevoli alla proposizione su un lato della scala e dei contrari sul lato opposto; la
violazione dell’assunto genera la curvilinearità , che emerge quando soggetti con
atteggiamenti diversi e opposti dànno la stessa risposta; cosí, può accadere che i
veri contrari a una certa proposizione siano associati con altri che si dichiarano
7
contrari perché sarebbero ancora più favorevoli al concetto espresso dalla propos izione data di quanto consentano le modalità di scelta. Nella stessa classe si hanno,
quindi, soggetti che sono in accordo e soggetti che sono in disaccordo perché due
soggetti, con opinioni opposte sul tema, effettuano la stessa scelta ottenendo lo
stesso punteggio che evidentemente non corrisponde al loro stato reale (Guidicini,
1995, p. 98). Il suggerimento di Coombs per evitarla è “scegliere un’affermazione
così estrema da rendere improbabile che ci siano individui tanto estremi da respingerla perché non è sufficientemente estrema” (Coombs, 1953, p. 530); ma si introducono ancora distorsioni perché le posizioni intermedie sono sacrificate a favore
di quelle estreme (Marradi, 1984, p. 63).
La quarta riguarda la possibilità di risposte seriali (response set) quando le proposizioni di una scala di Likert sono presentate agli intervistati non singolarmente,
ma una di séguito all’altra (batteria). Lo stesso schema di risposta facilita la scelta e
accelera i tempi di compilazione, ma potrebbe indurre l’intervistato a selezionare
meccanicamente sempre la stessa modalità, indipendentemente dal contenuto della
domanda: acquiescenza (acquiescent response set). Le risposte ottenute possono
essere, perciò, inficiate da distorsioni e affette da scarsa attendibilità sicché
l’analisi dei dati può condurre a risultati fuorvianti; ma distinguere le risposte date
in modo ripetitivo da quelle che effettivamente rispecchiano l’opinione o
l’atteggiamento del soggetto non è semplice. Altre denominazioni sottolineano,
talvolta, aspetti diversi: per le alternative dicotomiche (sí/no), si dice anche yeasaying o nay-saying (Gasperoni, Giovani, 1995); la scelta della prima modalità che
si presenta è detta effetto “somaro” (donkey vote effect) che sostituisce yea-saying
(Ray, 1990; Chan, 1991) o anche effetto “primato” (primacy effect). Nella valutazione della didattica ciò può avere un’importanza rilevante (Albanese, Prucha,
Barnet, Gjerde, 1997). L’intervistatore può rimediare interrompendo la serialità
delle risposte (Marradi, 1984, pp. 62-66): (a) sottolineando opportunamente
l’indipendenza reciproca delle varie proposizioni della batteria; (b) richiamando
“l’attenzione dell’intervistato sull’incongruenza delle risposte”; (c) interrompendo
la batteria con l’inserimento domande di forma diversa prese o (c1)dallo stesso
questionario, o (c2)“da una lista di domande appositamente concepite per risvegliare l’interesse dell’intervistato”. Tali azioni sono, però, in contrasto con le regole di
conduzione dell’intervista. Infatti, il punto (a) può influenzare la risposta; il punto
(b) potrebbe suscitare reazioni di frustrazione o irritazione (Goode, Hatt, 1952); i
punti (c1) e (c2) violano la necessità di mantenere lo stesso ordine nella somministrazione delle domande per confrontare le risposte dei diversi soggetti; (c2) comporta, inoltre, il prolungamento della durata dell’intervista con domande di relativa
importanza. Gli intervistatori che appartengono al gruppo di ricerca sono in grado,
secondo Pitrone (1986, p. 111), di intervenire con più efficacia perché hanno ragioni e conoscenze “necessarie per improvvisare ulteriori domande che suscitino
8
maggiore interesse nell’intervistato e facciano emergere con più chiarezza la sua
opinione”; ma ciò pregiudica comunque il confronto dei dati nel contesto della giustificazione.
La quinta difficoltà della scala Likert è la reazione all’oggetto che si ha quando
l’intervistato non reagisce al significato delle affermazioni, “ma ai personaggi, alle
azioni, alle situazioni menzionate dalle affermazioni stesse” (Cacciola, Marradi,
1988, p. 86). Non riesce a separare, quindi, il significato dell’intera frase (affermazione) dagli elementi che la costituiscono (contenuti nell’affermazione) e genera,
pertanto, una distorsione nella risposta. Allora, se l’intervistato è favorevole
all’oggetto contenuto nella proposizione, si dichiarerà sempre d’accordo anche
quando essa esprime un’opinione contraria alla sua (dovrebbe dichiararsi, invece,
in disaccordo). Viceversa, se sarà contrario all’oggetto, si dichiarerà sempre in disaccordo anche quando essa esprime un’opinione favorevole alla sua (dovrebbe dichiararsi, invece, d’accordo). Per ridurne gli effetti, Cacciola e Marradi (1988, p.
100) suggeriscono di ricorrere esclusivamente a “affermazioni positive nei confronti del loro oggetto: in tal modo, sia che l’intervistato valuti l’affermazione [significato], sia che egli reagisca all’oggetto [in essa contenuto], la sua risposta sarà
la stessa”. Per le affermazioni negative non c’è modo, invece, di appurare se la disapprovazione derivi dal significato o dall’oggetto (Sapignoli, 1995). Altre distorsioni derivano per lo più da incomprensioni linguistiche. La reazione all’oggetto
“può emergere solo se l’intervistato premette o fa seguire dei commenti alla risposta incasellata nelle categorie previste da Likert; questo spiega perché [tale fenomeno] non è stato notato in occasione dei sondaggi di massa, che non incoraggiano
e comunque non registrano in alcun modo i commenti a latere degli items Likert”
(Cacciola, Marradi, 1988, p. 86).
Nei questionari compilati direttamente dagli intervistati ha rilevanza anche la
posizione in cui vengono poste le modalità di scelta e la direzione dell’intensità. Si
tratta di effetti che sono assimilabili alla risposta seriale e potrebbero denominarsi
effetti posizionali e direzionali (primacy effect). Nelle indagini volte a analizzare
questi effetti, comunque presenti (Chan, 1991), l’entità e il segno della distorsione
sono risultati variabili. Nella valutazione della didattica si è visto che gli esiti complessivi sono più elevati (più positivi) quando le categorie con valore più elevato
sono poste a sinistra, com’è nella scansione tradizionale della scala di Likert, rispetto a quelli che si ottengono quando le categorie con valore più elevato sono poste a destra. Il numero di categorie può interagire con esso: all’aumentare del numero di categorie diventa più evidente, ma si potrebbe argomentare anche il contrario (Albanese, Prucha, Barnet, Gjerde, 1997). All’aumentare dell’importanza della
valutazione attuata dagli studenti, diventa necessario comprendere come funziona il
meccanismo di attribuzione del voto.
9
3. Questionario di valutazione delle modalità: caratteristiche e risultati
Nel secondo semestre dell’anno accademico 1998/99 si è condotta un’indagine
tra i frequentanti del corso del primo anno, per appurare il voto in decimi corrispondente alle (cinque) modalità utilizzabili in domande rilevanti per valutare
l’attività didattica. Si è costruito, perciò, un questionario (breve) contenente otto
domande selezionate dal questionario ufficiale, quattro relative alla didattica e
quattro relative alla materia: chiarezza dell’esposizione (C.E.), tempi dedicati
all’argomento (T .D.A.), puntualità e continuità della presenza a lezione (P.P.L.), disponibilità del docente durante la lezione (D.D.L.), interesse personale per la materia (I.P.M.), difficoltà della materia (D.M.), soddisfazione per il corso (S.C.), quanto
hai appreso in questo corso (Q.A.C.). Il questionario chiedeva al rispondente di attribuire, a ognuna delle cinque modalità per ciascuna delle otto domande, un valore
numerico riferito a una scala da zero a dieci. Per ogni domanda, quindi, il rispondente doveva specificare cinque valori; per esempio, nella domanda relativa alla
chiarezza avrebbe potuto specificare: molto insufficiente=2,5; insufficiente=4,5;
sufficiente=6; buono=7,5; molto buono=9. Nel questionario ufficiale, le domande
relative alla didattica presentavano sempre la scala di voto. Il cambiamento della
scala di voto per i tempi dedicati all’argomento e per la puntualità e continuità della
presenza a lezione consentiva di sondare le influenze di diverse espressioni verbali
sui valori numerici attribuit i alle modalità dai rispondenti. La presenza di più di una
domanda che aveva la scala di voto consentiva di verificare se il tipo di domanda
influenzava l’attribuzione del valore numerico; infatti, la chiarezza dell’esposizione
e la disponibilità del docente durante la lezione avevano la scala di voto, ma erano
posti su pagine diverse per cui non risultava súbito evidente l’uguaglianza dei termini verbali delle modalità. Le domande relative alla materia e al corso riportavano, invece, le modalità proprie del questionario ufficiale (si veda la tabella 1).
La scelta dei termini verbali per le domande, che ammettevano la scala di voto,
ha consentito di vagliare alcune ambiguità linguistiche che potevano distorcere le
valutazioni. Cosí nella domanda relativa ai tempi dedicati all’argomento, i termini
utilizzati erano: (1) molto poco, (2) poco, (3) abbastanza, (4) più che abbastanza,
(5) molto. Anche se l’ultima modalità non ha presentato più errori della corrispondente modalità della scala di voto (v. infra), si può comunque supporre che vi sia
ambiguità perché il termine “abbastanza” ha come sinonimi: sufficientemente, bastantemente, quanto basta, bastevolmente, discretamente, quanto occorre, alla necessità, né poco e né troppo, soddisfacentemente, a sobrietà, a sazietà, a iosa, assai,
ampiamente, abbondantemente. Gli ultimi sinonimi potevano ingannare il rispondente nella valutazione numerica delle modalità perché se per lui “abbastanza” indicava già il massimo, allora durante l’attribuzione del punteggio in sequenza, le
quarta e la quinta modalità successive al termine “abbastanza” della terza perdeva-
10
no di significato. Al termine “molto” dell’ultima modalità si poteva far seguire
l’espressione “più che abbastanza” (in tabella 1) per sottolineare che si voleva in dicare una quantità superiore a quella della modalità precedente, se questo a prima
vista non fosse stato ovvio. Analogamente, per la puntualità e continuità della presenza a lezione del docente si sono utilizzati i termini: (1) molto scarsa, (2) scarsa,
(3) discreta, (4) buona, (5) elevata. Quest’ultima è stata scelta volutamente ambigua invece dell’ovvia espressione “molto buona” (in tabella 1). I termini “scarsa” e
“discreta” potrebbero essere fraintesi, come “buona” e “elevata”.
I termini verbali delle domande inerenti alla materia o al corso creavano maggiori ambiguità e enfatizzavano la possibilità di violazione dell’equidistanza delle
categorie. L’interesse personale della materia (in tabella 1) aveva la modalità centrale definita con l’aggettivo “medio” che poteva indurre confusione in chi non aveva chiaro il concetto di media o non riusciva a collocarla correttamente sull’asse
delle intensità. Anche i termini “alto” per la quarta e “molto alto” per la quinta modalità potevano generare errori di attribuzione perché in fase di compilazione si incontrava prima “alto”. Se per il rispondente questo termine fosse stato equivalente
al massimo, allora gli avrebbe attribuito il valore più alto della scala e per l’ultima
modalità si sarebbe trovato in condizione di scegliere un valore uguale o inferiore
(v. infra). Per la difficoltà della materia (in tabella 1) si usava ancora il termine
“abbastanza” (v. supra) e la modalità centrale era sempre definita con l’aggettivo
“media”. Nella scala si alternavano, poi, gli aggettivi “facile” e “difficile” che potevano fuorviare più facilmente il compilatore distratto o frettoloso. La soddisfazione per il corso (in tabella 1) presentava la modalità centrale sempre contrassegnata da “mediamente”; poi, usava l’avverbio “piuttosto” che ha per sinonimi alquanto, abbastanza, parecchio, un poco, di quantità discreta, più di un poco, un certo numero, una certa quantità, una parte. In ogni caso, era l’opposto di molto, tutto;
ma non si poteva pretendere che, in fase di compilazione, ciò fosse immediatamente chiaro a chiunque; l’errore non si poteva, quindi, eliminare del tutto.
L’apprendimento nel corso (in tabella 1) presentava due tipi di difficoltà: una, perché la modalità centrale, indicata con “quanto mi aspettavo”, avrebbe potuto indurre a attribuire súbito il massimo in quanto corrispondeva alla soddisfazione delle
attese; l’altra derivava dalla differenza tra la quarta e la quinta, indicate rispettivamente con “più di quanto mi aspettavo” e “molto”. In entrambi i casi, chi compilava incontrava prima la modalità che avrebbe potuto rappresentare per lui già il
massimo, allora rischiava di attribuire il massimo valore a esso e di scegliere un valore inferiore per le seguenti. L’aggiunta del sintagma “più di quanto mi aspettavo” in funzione comparativa (in tabella 1) non avrebbe comunque eliminata la difficoltà in oggetto. Altre informazioni rilevate con il questionario
riguardavano: la compilazione dello stesso in un altro corso o contesto, il genere, il
tipo di diploma posseduto, e il voto di maturità.
11
Tabella 1 - Domande utilizzate nel questionario breve con le relative modalità
Domande
Modalità
• MI ‚ I ƒ S „ B … MB *
• Molto poco
‚ Poco
ƒ Abbastanza
„ Più che abbastanza
… Molto (più che abbastanza)
• Molto scarsa
‚ Scarsa
ƒ Discreta
„ Buona
… Elevata (o molto buona)
• MI ‚ I ƒ S „ B … MB *
• Nullo
‚ Scarso
ƒ Medio
„ Alto
… Molto alto
• Facile
‚ Abbastanza facile
ƒ Difficoltà media
„ Abbastanza difficile
… (Molto) Difficile
• Per niente soddisfatto
‚ Poco soddisfatto
ƒ Mediamente soddisfatto
„ Piuttosto soddisfatto
… Molto soddisfatto
• Niente
‚ Poco
ƒ Quanto mi aspettavo
„ Più di quanto mi aspettavo
… Molto (più di quanto mi aspettavo)
Chiarezza dell’esposizione (C .E.)
Tempi dedicati agli argomenti (T .D.A.)
Puntualità e continuità della presenza
a lezione (P .P .L.)
Disponibilità del docente a lezione (D.D.L.)
Interesse personale per la materia (I.P .M.)
Difficoltà della materia (D.M.)
Soddisfazione per il corso ( S.C.)
Quanto hai appreso in questo corso (Q.A.C.)
* Modalità della scala di voto.
Tabella 2 – Numero di rispondenti e percentuali per “validità” del questionario
Corso
Economia politica A
Economia politica B
Storia economica A
Storia economica B
Totale
Q. validi
26
42
25
23
116
%
63,4
97,7
59,5
57,5
69,9
Q. eliminati
15
1
17
17
50
%
36,6
2,3
40,5
42,5
30,1
Totale %
41
43
42
40
166
100
100
100
100
100
12
Il questionario breve così preparato è stato sottoposto agli studenti iscritti al
primo anno che hanno seguito i due corsi di Economia Politica (A, B) e i due di
Storia Economica (A, B) assieme al questionario ufficiale. La somministrazione del
questionario breve poneva le difficoltà che si incontrano sempre nell’accertamento
della valutazione della didattica e inerenti: all’attendibilità, alla validità, e alla precisione dei risultati; alle forme e ai tempi di presentazione; al campione di rispondenti; agli effetti sui giudizi sia della complessità della materia e sia degli interessi
che essa suscita; all’affollamento; alle conseguenze dei risultati, sia amministrative
e sia di immagine. La discussione delle difficoltà menzionate esorbita, però, dagli
obiettivi fissati (Lalla, Facchinetti, 2000).
3.1. Statistiche elementari dell’indagine condotta
Il numero di persone che hanno risposto sono state 166 (tabella 2) e il 30% dei
questionari compilati presentava uno o più errori gravi; se le risposte con errori fossero state incluse nelle elaborazioni, ossia dichiarate equivalenti alle non risposte, in
fase di elaborazione tutto il questionario sarebbe stato ugualmente escluso perché
l’analisi da eseguire trattava simultaneamente tutte le variabili. Ogni questionario eliminato presentava molteplici errori, alcuni dei quali si potevano anche correggere,
come le “inversioni” di scala; per esempio, nella domanda relativa alla chiarezza poteva essere stato specificato: molto insufficiente=9,5; insufficiente=7,5; sufficie nte=6,5; buono=4,5; molto buono=2. Qualunque intervento sulle risposte è sempre
molto discutibile; tuttavia, per mantenere la coerenza con la direzione della scala adottata e con le risposte della maggioranza, si poteva ragionevolmente supporre che
la votazione espressa era equivalente a: molto insufficiente=2; insufficiente=4,5; sufficiente=6,5; buono=7,5; molto buono=9,5. Alcuni questionari che presentavano soltanto le inversioni sono stati corretti e inclusi tra quelli validi. Tra i questionari eliminati figuravano anche alcune domande con le inversioni, ma l’eliminazione derivava
dalla presenza (contestuale) di altri errori più gravi.
I questionari sono stati eliminati per motivi diversi: 30 (il 60%) presentavano
valutazioni fortemente incoerenti delle modalità delle risposte alle domande; 10 (il
20%) riportavano la valutazione di una singola modalità per domanda; 4 esibivano
solo la selezione di una modalità per domanda; 3 avevano un solo voto positivo e
gli altri nulli per ogni domanda; e 3 erano incompleti. Le diverse tipologie di errori,
presenti tra i questionari eliminati per incoerenze, sono riportate nella tabella 3, dove per ogni tipologia è esposto anche il numero di imprecisioni che si riferiscono
alla presenza di altri tipi di errori. Il primo tipo ha riguardato l’attribuzione di voti
più alti a modalità che avrebbero dovuto essere “logicamente” inferiori. Per esempio, sempre nella domanda relativa alla chiarezza, un’imprecisione in presenza di
13
un errore di inversione poteva contemplare la specificazione seguente: molto insufficiente=9,5; insufficiente=7,5; sufficiente=6,5; buono=2; molto buono=4,5. Cosí,
il termine “buono” era, sí, inferiore al termine “molto buono”, ma non era coerente
con la direzione espressa dai numeri rispetto a quella espressa dai termini verbali.
Un’imprecisione in assenza di errore era una successione che presentava una irregolarità nell’andamento crescente dei valori attribuiti alle modalità; per esempio,
{4,5; 3; 6,5; 8,7; 9}. Altri due tipi di imprecisioni sono stati: voti troppo bassi o simili ai numeri delle etichette (come {0; 1; 1,5; 3; 4}); e voti uguali a modalità diverse (come {1,5; 4; 6,5; 6,5; 8}). La distribuzione degli errori ha mostrato una
moda nel caso in cui era stato assegnato un voto più alto alla quarta modalità rispetto a quella della quinta. Il valore più frequente si è avuto nella domanda relativa ai tempi dedicati all’argomento che, come si è detto, presentava una deliberata
ambiguità; tuttavia, si è avuto una frequenza circa uguale anche per la chiarezza
dell’esposizione che presentava termini verbali senza ambiguità. Questo risultato
poteva essere anche il sintomo della stanchezza da parte dei rispondenti che ogni
semestre devono compilare i questionari di valutazione, uno per ogni corso frequentato, e a volte durante l’anno compilano questionari per altre ricerche. Gli studenti dello stesso anno accademico avevano, poi, già eseguito una valutazione analoga nel primo semestre (Lalla, Facchinetti, 2000) con un numero di errori trascurabile e di partecipanti un po’ più elevato; molti di loro potevano essere tra i presenti in aula. Con numeri cosí piccoli non si riusciva a verificare se i termini di una
scala di una domanda ingannavano di più rispetto a quelli di un’altra, in modo sistematico. L’altra causa di errore più interessante, e con una frequenza circa uguale
al tipo precedente, ha riguardato la distribuzione triangolare dei voti con vertice al
centro, detta “picchi centrali regolari”; per esempio, sempre nella domanda relativa
alla chiarezza, poteva riguardare la specificazione seguente: molto insufficie nte=2,5;
insufficiente=5,5; sufficiente=8,5; buono=5,5; molto buono=2,5. L’esempio presenta
un caso di perfetta simmetria; cosí, con imprecisione si intende un’attribuzione quale:
molto insufficiente=2; insufficiente=5; sufficiente=9; buono=4,5; molto buono=3.
Con “picchi centrali irregolari” (tabella 3) ci si riferisce al caso in cui il vertice non
sta nella modalità centrale. Con “scarti elevati tra voti di modalità” (tabella 3) si indicano i casi in cui tutti i voti delle modalità sono bassi, tranne uno; per esempio, per la
scala di voto, si riferisce a una specificazione quale: molto insufficiente=0; insufficiente=1,5; sufficiente=2; buono=9,5; molto buono=2,5.
Tra le domande inerenti alla valutazione della didattica ci si aspettava un maggior numero di errori per i tempi dedicati all’argomento e per la puntualità e continuità della presenza a lezione perché si era modificata con termini ambigui la scala
di voto. Non si sono avute conferme perché le due scale di voto per la chiarezza
dell’esposizione e per la disponibilità del docente durante la lezione presentavano
errori confrontabili con le altre due domande; inoltre, gli 8 casi di “scarti elevati tra
14
voti di modalità” per la puntualità e continuità della presenza a lezione (tabella 3)
erano paragonabili a que lli della chiarezza dell’esposizione, ma 6 di essi derivavano da casi in cui tutte le modalità riportavano voto nullo, tranne una: un esempio di
risposta incongruente che poteva derivare da stanchezza, provocazione, superficialità, rifiuto, irrisione, incomprensione.
Tabella 3 – Numero di errori e imprecisioni aggiuntive per tipologia di errore e
per domande contenute nel questionario breve
Tipologie di errori
C.E. T.D.A. P.P.L. D.D.L. I .P.M. D.M. S .C. Q.A.C. Tot.
Inversioni
2
Scarti elevati tra voti di modalità
5
Voti uguali a più categorie
1
3
(2)
Picchi centrali regolari
Picchi centrali irregolari
Voto 4a categoria più alta di 5a
Voto più alto in 1a o 2a categoria
o nella 2a maggiore della 1a
Andamento non lineare
Voti simili ai valori di etichetta
Totale
8
(5)
3
6
(4)
4
(3)
8
2
(1)
3
3
(3)
4
1
3
11
2
6
(3)
3
(1)
9
(8)
2
(1)
2
(1)
1
(1)
2
(1)
4
(2)
11
(8)
2
24
27
4
(2)
1
2
(1)
1
(1)
25
6
(2)
2
2
1
25
1
(1)
29
4
(4)
3
11
(6)
2
(1)
3
(2)
1
(1)
2
1
%
11
2
(1)
7
1
26
12
3
28
13
5
(3)
2
7
(5)
46
22
9
4
6
(3)
3
(1)
2
7
(4)
4
(3)
47
23
16
8
9
4
5
2
1
26
22
28
23
208 100
I questionari validi per l’analisi erano 116 e presentavano ancora alcune imprecisioni; ma l’ unico intervento operato sui dati originari è stato invertire le risposte
invertite al fine di ottenere la direzione desiderata nei voti, anche se questa correzione non è proprio del tutto scontata. Si sono eseguiti controlli sulla coerenza delle
successioni numeriche e si è visto che circa il 4% presentava il valore della quarta
modalità superiore a quello della quinta. In particolare, ciò avveniva per tutte le
quattro domande relative alla logistica e all’organizzazione del corso, che sembrava confermare quanto emerso dall’analisi dei termini sopra riportata. Tuttavia, ciò
avveniva anche per la chiarezza dell’esposizione che utilizzava la scala di voto,
mentre si passava all’1,7% di imprecisioni per le altre tre domande, che sembrava
suggerire che vi fosse anche un’influenza del tipo di concetto misurato sul valore
dell’espressione verbale e, soprattutto, anche l’influenza del docente e della materia
15
oggetto di rilevazione. Infine, non mancavano valutazioni particolari che rischiavano di rendere più incerti i risultati dell’analisi; per esempio, le modalità di una domanda valutate con {0; 0; 1; 5; 9}.
4. La valutazione numerica delle modalità di risposta
Ogni soggetto rispondente esprime otto valutazioni per ogni modalità e le ripete
per cinque volte: tante quante sono le modalità della scala di Likert; le medie e le
deviazioni standard relative sono riportate in tabella 4. La valutazione espressa dal
soggetto i-esimo (i=1,…,n j ), potrebbe dipendere dal corso j (j=1,…,J=4), dal live llo della scala di Likert k (k=1,…,K=5), e dal tipo di variabile indicata con l’indice l
(l=1,…,L=8). Lo stesso soggetto esegue, quindi, L×K valutazioni che potrebbero
variare per effetto del corso (tipo di materia) e per effetto del docente: il primo può
considerarsi anche un effetto fisso, mentre il secondo costituisce un effetto casuale
che nel caso specifico non è oggetto di stima perché si sono considerati solo due
docenti; pertanto, è incluso come se fosse fisso combinato in un’unica variabile
corso-docente, indicata per brevità solo con corso. Un modello globale per i dati
rilevati, scritto in termini di matrici (Crowder, Hand, 1990; Hand, Crowder, 1996),
espresse in simboli (o in forma non estesa), è
Y = X(B⊗Γ) + ε = X∆ + ε
dove Y è una matrice n×(KL) che contiene le valutazioni ottenute per le diverse
domande (L) e per i vari livelli della scala di Likert (K), X è una matrice n×(JKL)
che descrive la struttura di appartenenza ai diversi corsi, B è una matrice (JK)×L
che esprime l’effetto sulle valutazione dei corsi ai vari livelli k, Γ è una matrice
L×K che stabilisce la struttura delle relazioni tra le L valutazioni al variare di k, ε è
una matrice n×(KL) che indica gli errori e i cui elementi sono indipendenti e identicamente distribuiti secondo una normale N(0,Σ); infine, il simbolo ⊗ indica il pr odotto di Kronecker sicché B⊗Γ è una matrice (JKL)×KL. La struttura (le dimensioni) di B e Γ possono essere anche diverse per rappresentare altre relazioni tra gli
effetti. Nella seconda formulazione ∆ è una matrice (JKL)×KL.
Per analizzare i dati riportati in tabella 4 si considera che la ripetizione delle L
misure avviene per i K livelli di scelta della risposta sicché si può introdurre il fattore modalità della scala di Likert, detto solo livello per brevità, come variabile
strumentale che esprime la variazione della misura al variare dell’intensità del concetto all’interno dei soggetti (within subjects). Si trascura, qui, l’eventualità che alcune domande sottendano un unico concetto (latente). I valori medi sono stati riportati anche in figura 1 per illustrare con più efficacia come si comportano le valutazioni ai diversi livelli di intensità e si può notare che le modalità estreme presen-
16
tano una “regressione” verso la sufficienza, cioè il sei, con una entità più marcata
per la massima valutazione positiva.
La maggior parte delle tecniche di analisi dei dati in tabella 4 richiedono
l’assunto di omogeneità della matrice di varianza-covarianza, spesso verificato con
il test statistico M di Box (Bernstein, 1988, 331-335); ma, come si vede da tabella
4, le varianze decrescono al crescere dell’intensità del livello da valutare e non sono omogenee. Le differenze delle varianze tra i vari corsi si hanno: per le domande
relative alla logistica, eccetto quella sulla soddisfazione, nella quinta modalità; per
la chiarezza dell’esposizione nella terza e quarta; per i tempi dedicati agli argomenti nella seconda; per la puntualità e continuità a lezione nella seconda e quarta. La
differenza è stata rilevata essenzialmente tra i due corsi di Economia politica. Tuttavia, il risultato non è sorprendente perché il campo di variazione dei voti dovrebbe essere da zero a dieci, ma l’uso comune si limita a un campo che va da due (o
quattro) a otto: com’è noto vi è molta più incertezza verso il basso che verso l’alto 3 .
Ciò nonostante, le valutazioni ottenute mostrano una tendenziale equidistanza rispetto a quella centrale. Una precedente indagine (Lalla, Facchinetti, 2000) rilevava che l’eterogeneità si manifestava essenzialmente tra la natura delle materie; qui,
invece, è meno decifrabile perché le difficoltà tra le due materie non dovrebbero
presentare forti differenze, mentre il docente può avere una maggiore influenza.
L’eterogeneità può comportare un possibile aumento dell’errore di primo tipo e
quindi i risultati che seguono hanno un valore solo descrittivo o indicativo4 .
3
Lo zero appartiene naturalmente alla scala e potrebbe corrispondere all’assenza di risposta
(alla c.d. “scena muta”), ma comporta un aumento del campo di variazione delle votazioni
insufficienti. Anche con i punteggi che vanno da 1 a 10 il campo di variazione delle votazioni insufficienti potrebbe rimanere piú elevato perché il punto medio della scala è 5,5;
tutto dipende, quindi, dalla procedura di arrotondamento applicata. Le valutazioni riportate
in tabella 4 mostrano solo una lieve contrazione per le due modalità piú elevate.
4
L’eterogeneità della varianza tra i gruppi può indurre a commettere errori di decisione nella verifica di ipotesi, specie quando le dimensioni dei gruppi non sono uguali (esperimento
non bilanciato) e la loro numerosità è piccola (Box, 1954a,b). Nell’analisi della varianza
(ANOVA) a due criteri di classificazione, senza interazione significativa, l’effetto
dell’eterogeneità ha una incisività minore, a meno che la deviazione non sia molto elevata.
Anche per un numero sufficientemente elevato di gruppi, il test F è relativamente robusto
quando la varianza nelle celle è due o tre volte piú grande di quella della popolazione (Jaccard, Becker, 1997, p. 501). L’errore di primo tipo comincia a diventare inaccettabile quando la varianza della popolazione in una cella è piú grande di quattro volte di quella della
popolazione relativa alle altre celle. Una diminuzione della robustezza del test F si ha anche
per distribuzioni che deviano dalla normalità (Harwell, Rubinstein, Hayes, 1992; Milligan,
Wong, Thompson, 1987).
17
Tabella 4 − Medie e deviazioni standard dei punteggi attribuiti alle diversi modalità della scala di Likert per tipo di corso e per tipo di domanda
Likert Corso
2 (*)
EP A
N=26
EP B
N=42
SE A
N=25
SE B
N=23
4
EP A
(*)
idem
EP B
SE A
SE B
6
(*)
EP A
idem
EP B
SE A
SE B
8
(*)
EP A
idem
EP B
SE A
SE B
10
EP A
(*)
idem
EP B
SE A
SE B
C.E.
2,54
(1,39)
2,92
(1,14)
2,68
(1,31)
2,29
(1,16)
4,13
(1,21)
4,57
(0,60)
4,34
(0,80)
4,08
(1,14)
6,08
(0,52)
6,00
(0,19)
6,02
(0,27)
6,04
(0,72)
7,60
(0,65)
7,73
(0,39)
7,88
(0,39)
7,82
(0,47)
8,98
(1,02)
9,08
(0,65)
9,32
(0,80)
9,11
(0,76)
T.D.A.
2,29
(1,51)
2,87
(1,27)
3,18
(1,17)
2,64
(1,16)
3,86
(1,70)
4,46
(0,79)
4,76
(0,89)
4,22
(1,29)
6,08
(0,72)
6,18
(0,82)
6,42
(0,79)
6,21
(0,66)
7,41
(0,66)
7,30
(0,65)
7,54
(0,72)
7,28
(0,77)
9,00
(1,04)
8,81
(0,71)
8,86
(0,99)
8,71
(0,84)
P.P.L.
2,60
(1,37)
2,78
(1,08)
2,86
(1,50)
2,48
(1,19)
4,21
(1,45)
4,47
(0,72)
4,36
(1,19)
4,17
(1,12)
6,06
(1,69)
6,27
(0,92)
6,54
(0,75)
6,31
(0,79)
7,71
(1,23)
7,74
(0,47)
7,90
(0,52)
7,68
(0,85)
9,15
(1,25)
9,20
(0,71)
9,30
(0,79)
9,28
(1,07)
D.D.L.
2,52
(1,46)
2,64
(1,18)
2,62
(1,30)
2,52
(1,38)
4,19
(1,39)
4,29
(0,88)
4,38
(1,00)
4,24
(1,08)
6,05
(0,59)
5,89
(0,82)
6,10
(0,54)
5,92
(0,67)
7,90
(0,47)
7,61
(0,68)
7,84
(0,57)
7,67
(0,68)
9,25
(0,80)
8,89
(0,67)
9,16
(0,75)
9,01
(1,02)
I.P.M.
0,81
(1,27)
0,95
(1,46)
0,84
(1,28)
0,48
(1,00)
3,74
(1,32)
4,08
(1,21)
4,04
(1,00)
3,56
(1,26)
6,08
(0,84)
6,14
(0,96)
6,28
(0,65)
6,00
(0,71)
7,71
(0,83)
7,86
(0,65)
8,12
(0,44)
7,91
(0,60)
9,03
(1,43)
9,42
(0,63)
9,50
(0,61)
9,47
(0,72)
D.M.
3,04
(1,39)
3,67
(1,71)
3,96
(1,65)
3,45
(1,84)
4,60
(1,00)
5,09
(1,16)
5,22
(1,21)
4,79
(1,26)
6,22
(1,03)
6,40
(0,63)
6,52
(0,59)
6,30
(0,95)
7,54
(1,11)
7,64
(0,63)
7,74
(0,63)
7,86
(0,68)
8,63
(1,73)
8,99
(1,01)
8,84
(0,85)
9,22
(0,69)
S.C.
1,94
(1,44)
2,20
(1,71)
1,78
(1,62)
1,40
(1,50)
4,11
(1,11)
4,27
(1,08)
3,80
(1,31)
3,91
(1,27)
5,96
(0,94)
6,04
(0,63)
6,08
(1,06)
6,02
(0,75)
7,65
(0,85)
7,44
(0,72)
7,64
(0,55)
7,41
(0,91)
9,01
(0,93)
8,95
(0,84)
9,16
(0,99)
8,87
(1,13)
Q.A.C.
1,27
(1,37)
0,90
(1,28)
1,56
(1,81)
0,93
(1,63)
3,77
(1,42)
3,68
(1,00)
4,18
(1,33)
3,53
(1,51)
5,91
(1,11)
5,92
(0,67)
6,18
(0,79)
6,11
(1,10)
7,38
(1,08)
7,44
(0,66)
7,80
(0,64)
7,69
(1,04)
8,66
(1,63)
9,02
(0,83)
8,88
(0,83)
9,06
(1,13)
18
Le differenze tra le medie relative ai quattro corsi (effetto gruppo) non risultano
statisticamente significative (F24;305;oss=0,901; p<0,601). 5 Vi è una tendenza a differenziarsi tra i due gruppi, ma la scarsa numerosità dei rispondenti ha indebolito la
relazione che sembra emergere anche dall’esame della tabella 4. Uno studio precedente mostrava, sí, differenze significative, ma i corsi erano “Matematica generale”
ritenuta in genere più difficile e “Economia aziendale” considerata più facile. Il fattore livello (effetto tempo nell’analisi delle misure ripetute) presenta, ovviamente,
medie che sono statisticamente diverse e non mostra interazioni significative con il
corso. Le valutazioni (medie) dei soggetti per livello (within-subjects) sono statisticamente diverse (F96;2981;oss =1,295; p<0,030); ma ciò potrebbe dipendere sia dal
concetto misurato, sia dai termini delle modalità. L’ipotesi di sfericità della matrice
di varianza-covarianza non è coerente con i dati sicché nell’analisi univariata si è
applicata la correzione di Huynh-Feldt (1976).
Nell’analisi multivariata delle misure ripetute si verificano, in genere, tre ipotesi: (a) il parallelismo dei profili, che accerta se le medie delle valutazioni nei relativi corsi hanno lo stesso andamento rispetto ai caratteri rilevati
H 0 (a ) :
 β 1k γ 1k − β 1k γ 2 k 
 β Jkγ 1k − β Jk γ 2 k 




 L L L L
 = L=  L L L L





 β 1k γ L −1,k − β 1k γ Lk 
 β Jkγ L−1,k − β Jk γ Lk 
∀k ∈ {1,K , K };
(b) l’uguaglianza dei profili, dato per assunto il parallelismo, che accerta l’ipotesi
di uguaglianza delle variazioni delle valutazioni da una domanda all’altra nei corsi
H 0 (b ) :
L
K
l =1
l =1
∑ β1k γ lk = L = ∑ β Jk γ lk
∀k ∈ {1,K , K };
(c) l’uguaglianza delle medie di gruppo, dato per assunto il parallelismo, che accerta l’ipotesi di uguaglianza delle medie (sui gruppi) delle diverse risposte
H 0 (c ) :
J
J
j =1
l =1
∑ β jk γ 1k = L = ∑ β jk γ Lk
∀k ∈ {1,K , K }.
Il test sul parallelismo (a) per il tipo di corso mostra che, con il criterio Λ di
Wilks, l’ipotesi è coerente con i dati (F105;234;oss=0,872; p<0,787). Assunto il parallelismo, anche l’ipotesi nulla di uguaglianza dei profili (b), ossia di uguaglianza
Il valore osservato della statistica F è quello corrispondente al criterio Λ di Wilks che risulta generalmente conveniente; può essere interpretato come il prodotto di coefficienti di
non determinazione successivi e ha la proprietà di essere connesso al criterio del rapporto di
verosimiglianza per distribuzioni multivariate normali (Bernstein, 1988, p. 329).
5
19
delle variazioni delle va lutazioni da una domanda all’altra è coerente con i dati
(F3;112;oss =1,373; p<0,255). Assunto il parallelismo, l’ipotesi di uguaglianza delle
medie di gruppo per le varie domande (c) non è coerente con i dati (F35;78;oss =9,035;
p<0,001) e l’analisi dei contrasti (o univariata) mostra che varia con i livelli: nel
primo e secondo livello, le domande che non presentano variazioni significative tra
loro (in media) sono prevalentemente quelle relative alla logistica; negli altri livelli
quasi tutte presentano variazioni significative.
I sistemi di ipotesi precedenti possono essere verificati separatamente anche per
ogni livello k e sulla base dei risultati presentati non sarebbe neanche necessario
aggiustare i test per proteggersi dall’errore di prima specie a causa delle ripetute
verifiche di ipotesi eseguite. La correzione si può attuare, per esempio, con il metodo di Bonferroni (Morrison, 1976, p. 33). I risultati ottenuti (anche corretti per la
ripetizione) si possono considerare simili ai precedenti con differenze che diventano sempre più marcate all’aumentare dell’intensità del livello k: sotto la modalità
sufficiente si ottengono le stesse conclusioni, ma non c’è differenza tra i corsi; la
modalità sufficiente presenta differenze appena significative tra i corsi e
sull’assenza di parallelismo, che diventano più marcate per i livelli superiori. Le
differenze delle medie tra le materie risultano confermate, mentre non sono signif icative le differenze delle medie tra i corsi all’interno della stessa materia.
Per verificare se i punteggi attribuiti dagli studenti alle modalità della scala di
Likert corrispondono ai punteggi attribuiti con la scala di voto (pari da due a dieci)
si è applicato lo schema di analisi precedente alle variabili ottenute dalle differenze
tra le due attribuzioni. La struttura delle diversità tra le medie dei punteggi sopra
descritta rimane pressoché inalterata: le medie delle differenze non variano in modo significativo da un corso all’altro (effetto gruppo), ma variano le differenze tra
le valutazioni attribuite dagli studenti alle varie modalità e i valori delle etichette
moltiplicati per due, da un livello all’altro della scala di Likert (F32;81;oss =15,579;
p<0,001). In particolare, come si può vedere in tabella 4, gli scarti sono tendenzialmente positivi nelle modalità inferiori alla sufficienza e negativi in quelle superiori, specialmente nella modalità estrema valutata con dieci. Le differenze signif icative si hanno per le domande relative alla logistica rispetto alle modalità inferiori
alla sufficienza nella scala di voto; quasi tutte le domande presentano differenze
significative per le tre modalità positive della scala di voto. La media degli scarti
per le otto domande (intercetta) è statisticamente diversa da zero, mentre avrebbe
dovuto essere uguale a zero se ci fosse stata coerenza tra i valori delle modalità della scala di voto e i corrispondenti valori attribuiti dagli studenti (F8;105;oss =16,101;
p<0,001).
Il voto conseguito all’esame di maturità avrebbe rivelato una distribuzione circa
normale se si fosse escluso il massimo voto, 60, che corrispondeva alla moda; infatti, l’ha dichiarato il 20% con conseguente aumento della media (50,9) e sposta-
20
mento verso l’alto della mediana (51,5). Non si è utilizzato, quindi, come variabile
concomitante perché non è sembrato un dato affidabile. La percentuale di maschi
iscritti, frequentanti, e rispondenti al questionario ufficiale sono stati dell’ordine del
50%; ma al questionario breve hanno risposto solo il 34,5%. I risultati ottenuti potrebbero essere distorti, se le valutazioni medie delle donne differissero da quelle
dei maschi. La variabilità dei punteggi non presenta differenze rilevanti tra maschi
e femmine, ma le medie attribuite dalle femmine sono più elevate di quelle attribuite dai maschi (F8;107;oss =2,435; p<0,018). L’ipotesi di parallelismo non è coerente
con i dati (F35;80;oss =1,666; p<0,031) e le differenze emergono dalle domande inerenti alla soddisfazione e all’apprendimento. Ciò potrebbe indicare che il genere è
sensibile al tipo di domanda cui deve rispondere. Non è necessario eseguire le verifiche delle ipotesi (b) e (c) perché non c’è parallelismo negli andamenti medi.
Figura 1− Medie dei punteggi attribuiti alle diverse modalità della scala di Likert
per tipo di corso e per tipo di domanda (dati riportati in tabella 4).
10
2(*) E.P. A
Livelli della scala di Likert
9
2(*) E.P. B
2(*) S.E. A
8
2(*) S.E. B
4 E.P. A
7
4 E.P. B
4 S.E. A
6
4 S.E. B
6 E.P. A
5
6 E.P. B
6 S.E. A
4
6 S.E. B
3
8 E.P. A
2
8 S.E. A
8 E.P. B
8 S.E. B
10 E.P. A
1
10 E.P. B
0
10 S.E. A
C.E. T.D.A. P.P.L. D.D.L. I.P.M. D.M.
S.C.
Q.A.C.
10 S.E. B
Domande
I rispondenti suddivisi secondo il tipo di diploma posseduto sono cosí distribuiti: il 44,8% nell’area scientifica (liceo scientifico e istituti tecnici); il 36,2%
nell’area amministrativa (istituto tecnico commerciale e assimilati); il 19%
21
nell’area umanistica (liceo classico e linguistico, istituto artistico e magistrale). Tali
valori sono simili a quelli che si ottengono nelle risposte al questionario ufficiale in
cui si ha un valore un po’ più basso nell’area umanistica e un po’ più alto nell’area
amministrativa. La variabilità dei punteggi non presenta qui differenze rilevanti tra
le aree, cosí pure le medie dei punteggi per area non presentano differenze signif icative (F16;212;oss =1,358; p<0,165). L’ipotesi di parallelismo è coerente con i dati
(F70;158;oss =1,176; p<0,204). Assunto il parallelismo, anche l’ipotesi nulla di uguaglianza dei profili (b), ossia di uguaglianza delle variazioni delle valutazioni da una
domanda all’altra è coerente con i dati (F2;113;oss =1,799; p<0,170). Assunto il parallelismo, l’ipotesi di uguaglianza delle medie di gruppo per le varie domande (c)
non è coerente con i dati (F35;79;oss =8,461; p<0,001) e l’analisi dei contrasti mostra
che varia ancora con i livelli, come nel caso precedente (v. supra).6
5. Considerazioni conclusive
Le valutazioni attribuite dagli studenti alle cinque modalità della scala di Likert
corrispondono approssimativamente ai punteggi assegnati d’ufficio con la scala di
voto (pari che vanno da due a dieci). In particolare, i punteggi attribuiti alle modalità inferiori o uguali alla sufficienza corrispondono abbastanza bene al sistema adottato con una tendenza a essere poco più alti, mentre mostrano una visibile contrazione per le modalità superiori alla sufficienza provocando un abbassamento della
valutazione complessiva dei corsi. Le differenze nei termini utilizzati nella specif icazione delle modalità di Likert sembrano, poi, meno influenti sulla loro valutazione di quanto sia il contenuto della domanda.
Le analisi eseguite sembrano indicare che anche un sistema grezzo e approssimativo è in grado di fornire una valutazione sensata che deve essere tenuta in debito conto da parte degli operatori: sia professori, sia amministratori. Inoltre, si deve
rilevare che la procedura basata sul punteggio della scala di voto, sebbene sembri
grossolana in apparenza e non sia esente da critiche, ha il vantaggio: di essere semplice e trasparente perché la modalità di calcolo è nota súbito; e di somigliare a
un’attribuzione di voti quasi tradizionale che i membri della popolazione di riferimento sperimentano dall’inizio dell’iter scolastico. Per una istituzione pubblica, la
semplicità e la trasparenza sono requisiti desiderabili per non fomentare sospetti di
manipolazione dei dati.
Gli argomenti trattati richiedono ulteriori approfondimenti perché le valutazioni
sembrano dipendere in qualche modo dal genere, ma non dal tipo di scuola di pr ovenienza. Il numero di rispondenti non è stato, però, elevato per cui gli esiti non
6
I calcoli sono stati eseguiti con SPSS (Norusis, 1997; SPSS, 1977a,b,c).
22
sono “robusti”. Il voto di diploma dovrebbe essere, poi, un indicatore di diverse
qualità del rispondente e potrebbe influenzare la valutazione; ma le risposte non
sono risultate affidabili perché il voto concerne un aspetto riservato che sembra indurre il soggetto a rispondere erroneamente o a non rispondere affatto. Inoltre, per
accertare come agiscono sul giudizio sia il docente e sia la materia, si potrebbe
controllare la risposta dello stesso studente in corsi diversi; ciò richiede un modello
statistico più articolato di quello sopra utilizzato, ma soprattutto un numero maggiore di rispondenti perché qui sono troppo pochi per il modello complessivo.
La valutazione attuata oggi negli atenei è ancora in via di definizio ne e, in molti
casi, gli effetti dei risultati sull’organizzazione e sull’attività dei docenti sono rari,
sicché il processo di valutazione rischia di diventare un rito inutile se non accresce
la sensibilità e la responsabilità degli organi dirigenti e degli studenti verso uno
strumento che potrebbe contribuire a migliorare la qualità della didattica. Non
mancano, poi, dubbi e incertezze sulla validità, attendibilità, e precisione dei risultati (Osservatorio, 1988; Lalla, Facchinetti, 2000). Per concludere, si rileva che il
vincolo di risorse può vanificare qualunque sforzo per migliorare la qualità
dell’azione formativa con l’accertamento frequente dei problemi esistenti. Per esempio, può accadere che gli esiti debbano essere ignorati perché le carenze di fondi e di personale costringano la Facoltà a mantenere l’organizzazione adottata. A
cosa sono serviti il lavoro di accertamento e le strategie di soluzioni approntate per
migliorare l’efficienza e l’efficacia della didattica? A niente. Sapere cosa occorre
per migliorare la didattica è importante. Sapere di non poterlo realizzare per mancanza di risorse è altrettanto importante, ma non si possono coltivare illusioni di
miglioramento senza la disponibilità finanziaria, oltre al prerequisito essenziale
della disponibilità del personale.
La didattica si può migliorare se gli interventi si operano in itinere perché solo
cosí l’azione può risultare efficace per chi in quel momento sta frequentando il corso e cui l’insegnamento si rivolge. Le indicazioni che emergono dal questionario si
possono applicare, invece, solo nei corsi successivi. Una strategia pragmatica, orientata alla soluzione dei problemi degli studenti in aula, dovrebbe seguire altri
percorsi che siano più aderenti alle esigenze del momento. A tal fine, si potrebbe:
potenziare e qualificare la Commissione didattica già esistente in quasi tutte le facoltà; consolidare il rapporto con i rappresentanti degli studenti; instaurare la consuetudine di incanalare le difficoltà dei corsi, tramite i rappresentati, verso la
Commissione didattica; favorire la prassi della discussione e soluzione dei problemi direttamente con il docente e designare un loro portavoce per evitare il timore di
possibili ritorsioni. Naturalmente, una simile strategia può toccare aspetti controversi di autonomia delle scelte e degli indirizzi didattici, delicati limiti di libertà di
insegnamento, e suscettibilità o reattività individuali dei docenti. Tuttavia, solo cosí
è possibile offrire un servizio efficiente e soddisfacente. La proposta non vuole di-
23
sconoscere i meriti e la necessità della valutazione, ma vuole corroborare l’azione
pratica volta a conseguire obiettivi specifici e immediati, anche se la mancanza di
risorse umane e finanziare può vanificare qualunque sforzo di buona volontà.
Riferimenti bibliografici
Agnoli M.S. e A. Fasanella 1996. La scommessa sociologica. Prove tecniche di valutazione, Sociologia e ricerca sociale, 51, pp. 115-152.
Albanese M., Prucha C., Barnet J.H. e Gjerde C.L. 1977. The Effect of Right or Left Placement of the positive Response on Likert-type Scales Used by Medical Students for Rating
Instruction, Academic Medicine, 72, pp. 627-630.
Amicano E. e Rinaldi G. 1988. Confronto tra forme diverse di ‘chiusura’ degli items Likert,
in Marradi A. (a cura d i), Costruire il dato. Sulle tecniche di raccolta delle informazioni nelle scienze sociali, pp. 44-62, Franco Angeli, Milano.
Bailey K.D. 1994. Methods of Social Research, 4th ed., The Free Press, New York. Tr. it.,
1995. Metodi della ricerca sociale, 3a ed., il Mulino, Bologna.
Beato F. 1989. La metodologia della valutazione di impatto sociale: ricognizione critica
sulla letteratura e problemi di ricerca sociologica, Sociologia e ricerca sociale, 29, pp.5186.
Bernardi L. e Cordaro L. 1995. La laurea e il costo. Un approccio all’analisi della spesa
pubblica per laureato nelle facoltà padovane, Polis, IX (3), pp. 449-470.
Bernstein I.H. (Garbin C.P. e Teng G.K.) 1988. Applied Multivariate Analysis, Springer
Verlag, New York and Berlin.
Boileau A.M. 1987. Ricerca valutativa, in De Marchi F., Ellena A. e Cattarinussi B., Nuovo
dizionario di sociologia, pp. 1766-1782, Edizioni Paoline, Cinisello Balsamo (Milano).
Box G.E.P. 1954a. Some theorems on quadratic forms applied in the study of analysis of
variance problems, I. Effect of inequality of variance in the one-way classification, The
Annals of Mathematical Statistics, 25, pp. 290-302.
Box G.E.P. 1954b. Some theorems on quadratic forms applied in the study of analysis of
variance problems, II. Effect of inequality of variance and correlation of errors in the twoway classification, The Annals of Mathematical Statistics, 25, pp. 484-498.
Cacciola S. e Marradi A. 1988. Contributo al dibattito sulle scale Likert basato sull’analisi
di interviste registrate, in Marradi A. (a cura di), Costruire il dato. Sulle tecniche di raccolta
delle informazioni nelle scienze sociali, pp. 63-102, Franco Angeli, Milano.
Chan J.C. 1991. Response-order Effects in Likert-type Scales, Educational Psychology
Measurements, 51, pp. 531-540.
Chiandotto B. e Gola M.M. 1999. Questionario di base da utilizzare per l’attuazione di un
programma per la valutazione della didattica da parte degli studenti, Rapporto finale del
24
gruppo di Ricerca, Comitato nazionale per la valutazione del sistema universitario, Pubblicazioni e Documenti, RdR 1/00, http://www.cnvsu.it.
Colombo M. 1991. La valutazione nella ricerca sociologica: dalla metodologia alla pratica, Studi di sociologia, 29, pp. 281-296.
Compagnino A. e Gori E. 1992. Il controllo di gestione degli enti per il diritto allo studio
universitario. Efficienza ed efficacia, Milano, Franco Angeli.
Coombs C.H. 1953. Theory and Method of Social Measurement, in Festiger L. e Katz D.
(eds.), Research Methods in the Behavioral Sciences, pp. 471-535, New York, Dryden.
Cox E.P. 1980. The Optimal Number of Response Alternatives for a Scale: A Review, Journal of Marketing Research, 17, pp. 407-422.
Crowder M.J. e Hand D.J. 1990. Analysis of Repeated Measures, Chapman & Hall, London.
Del Vecchio F. 1995. Scale di misura e indicatori sociali, Cacucci, Bari.
Galtung J. 1967. Theory and Methods of Social Research, Allen & Unwin, London.
Garland R. 1991. The Mid-point on a Rating Scale: Is it Desirable?, Marketing Bulletin, 2,
pp. 66-70.
Gasperoni G. e Giovani F. 1995. Come e perché non funzionano le scale Likert con items a
polarità semantica invertita, in Marradi A. e Gasperoni G. (a cura di), Costruire il dato 2.
Vizi e virtú di alcune tecniche di raccolta delle informazioni, 2a edizione, pp. 60-94, Franco
Angeli, Milano.
Gattullo M. 1968. Didattica e docimologia. Misurazione e valutazione nella scuola, Armando Editore, Roma.
Goode W. e Hatt P.K. 1952. Methods in Social Research, McGraw-Hill, New York. Tr. it.,
1971, Metodologia della ricerca sociale, il Mulino, Bologna.
Guidicini P. 1995. Questionari Interviste Storie di vita. Come costruire gli strumenti, raccogliere le informazioni ed elaborare i dati, Franco Angeli, Milano.
Guy R.F. e Norvell M. 1977. The Neutral Point on a Likert Scale, The Journal of Psychology, 95, pp. 199-204.
Hand D.J. e Crowder M.J. 1996. Practical Longitudinal Data Analysis, Chapman & Hall,
London.
Harwell M.R., Rubinstein E.N. e Hayes W. 1992. Summarizing Monte Carlo results in
methodological research: The one and two factor fixed effects ANOVA cases, Journal of
Educational Statistics, 17, pp. 315-339.
Hofacker C.F. 1984. Categorical Judgment Scaling with Ordinal Assumptions, Multivariate
Behavioral Research, 19, 1, pp. 91-106.
Huynh H. e Feldt L.S. 1976. Estimation of the Box correction for degrees of freedom for
sample data in randomised block and split-splot designs, Journal of Educational Statistics,
1, pp. 69-82.
25
Jaccard J. e Becker M.A. 1997. Statistics for the Behavioral Sciences, 3.rd ed., Brooks/Co le
Thomson, New York.
Johnes G. 1990. The Determinants of Student Wastage in Higher Education, Studies in
Higher Education, 15, pp. 87-99.
Johnes G. 1992. Performance indicators in higher education: A survey of recent work , Oxford Review of Economic Policy, 8 (2), pp. 19-34.
Johnes J. e Taylor J. 1990. Performance indicators in higher education, The Society for
Research into Higher Education & Open University Press, Buckingham.
Lalla M. e Facchinetti G. 2000. Inferential fuzzy system for rating instruction, Economics
& Complexity, 2(3), pp. 31-56.
Likert R. 1932. A Technique for the Measurement of Attitudes, Archives of Psychology,
monografia n. 140, pp. 5-55.
Marradi A. 1981. Misurazione e scale: qualche riflessione e una proposta, Quaderni di Sociologia, XXIX (4), anno 1980-81, pp. 595-639.
Marradi A. 1984. Concetti e metodo per la ricerca sociale, 3a edizione (8a ristampa 1997),
La Giuntina, Firenze.
Marradi A. 1992. L’analisi monovariata, Franco Angeli, Milano.
Marradi A. 1998. Termometri con vincolo di ordinabilità: il «gioco della torre» consente di
aggirare la tendenza alla desiderabilità sociale?, Sociologia e ricerca sociale, 57, pp. 4959.
Matell M.S. e Jacoby J. 1971. Is There an Optimal Number of Alternatives for Likert Scale
Items? Study 1: Reliability and Validity, Educational and Psychological Measurement, 31,
pp. 657-674.
Matell M.S. e Jacoby J. 1972. Is There an Optimal Number of Alternatives for Likert Scale
Items? Effects of Testing Time and Scale Properties, Journal of Applied Psychology, 56 (6),
pp. 506-509.
Milligan G.W., Wong D.S. e Thompson P.A. 1987. Robustness properties of nonorthogonal analysis of variance, Psychological Bulletin, 101, pp. 464-470.
Morelli U. 1981. La valutazione degli interventi formativi, Economia, istruzione e forma zione professionale, 15, pp. 35-41.
Morrison D.F. 1976. Multivariate Statistical Methods, McGraw-Hill, London.
Norusis M.J. 1997. SPSS Profe ssional Statistics 7.5, SPSS, Chicago.
Orvik J.M. 1972. Social Desirability for Individual, his Group, and Society, Multivariate
Behavioral Research, 7, pp. 3-32.
Osservatorio per la valutazione del sistema universitario 1998. Valutazione della didattica
da parte degli studenti. Rapporto finale del gruppo di ricerca, RdR 1/98, Ministero
dell’Università e della Ricerca Scientifica e Tecnologica, Roma (reperibile sul sito Internet
26
del Comitato nazionale per la valutazione del sistema universitario, Pubblicazioni e Documenti, http://www.cnvsu.it).
Perrone L. 1977. Metodi quantitativi della ricerca sociale, Feltrinelli, Milano.
Pitrone M.C. 1986. Il Sondaggio, Franco Angeli, Milano.
Phillips B.S. 1971. Social Research: Strategy and Tactics, II ed., Macmillan, New York.
Tr. it. (1972), Metodologia della ricerca sociale, il Mulino, Bologna.
Ray J.J. 1990. Acquiescence and Problems with Forced-choice Scales, Journal of Social
Psychology, 130 (3), pp. 397-399.
Resmini L. 1993. L’efficienza e l’efficacia nel settore pubblico: alcuni metodi di analisi,
Economia e diritto del terziario, 1, pp. 93-125.
Ryan M. 1980. The Likert Scale’s Midpoint in Communications Research, Journalism
Quarterly, 57 (2), pp. 305-313.
Sapignoli M. 1995. L’intervistato reagisce all’intera frase o solo a singole parole?, in Marradi A. e Gasperoni G. (a cura di), Costruire il dato 2. Vizi e virtù di alcune tecniche di raccolta delle informazioni, 2a edizione, pp. 100-125, Franco Angeli, Milano.
Schuman H. e Presser S. 1996. Questions and Answers in Attitude Surveys: Experiments on
Question Form, Wording, and Context; Sage Publications, Thousand Oaks, CA.
SPSS 1997a. SPSS® Base 7.5 for Windows® User’s Guide, SPSS, Chicago.
SPSS 1997b. SPSS® Base 7.5 for Windows® Application’s Guide, SPSS, Chicago.
SPSS 1997c. SPSS Advanced StatisticsTM 7.5, SPSS, Chicago.
Stame N. 1990. Valutazione «ex post» e conseguenze inattese, Sociologia e ricerca sociale,
31, pp. 3-35.
Vergani A. 1991. Valutazione della formazione professionale, Professionalità, XI (2), pp.
47-52.
Wildt A.R. e Mazis M.B. 1978. Determinants of Scale Response: Label versus Position,
Journal of Marketing Research, 15, pp. 261-267.
_______________
Prof. Michele LALLA , Professore straordinario di Statistica sociale
Università degli Studi di Modena e Reggio Emilia
27