Valutazione della ricerca: il caso della Unit`a di Ricerca IUAV

Transcript

Valutazione della ricerca: il caso della Unit`a di Ricerca IUAV
Valutazione della ricerca:
il caso della Unità di Ricerca IUAV–Interazione
Davide Rocchesso
IUAV University of Venice
c [email protected] 2009 <Davide Rocchesso>
Copyright Creative Commons Attribuzione-Non commerciale 2.5 Italia license
26 febbraio 2009
1
Introduzione
Il 6 novembre 2008 venivano emanate le Linee Guida del Governo per l’Università1 . In
quel documento viene riproposto il tema, sul quale si sono esercitati gli ultimi governi,
della valutazione della ricerca. Si afferma che una fetta di entità via via crescente dei
fondi attribuiti ad atenei e dipartimenti sarà calcolata sulla base delle prestazioni degli
stessi, valutate sulla base dell’analisi dei loro prodotti di ricerca. Il programma ambizioso di una agenzia di valutazione (ANVUR) che sottoponesse a valutazione periodica
i singoli ricercatori2 sembra essere per il momento accantonato perché estremamente
costoso e complicato [9]. Viceversa, è confermato il ruolo del CIVR per la valutazione
degli atenei, con promessa di chiudere il “secondo esercizio di valutazione triennale
della ricerca” entro il 2009. Il Consiglio Universitario Nazionale, in data 11 febbraio 2009, ha formalmente espresso l’auspicio di una rapida attivazione della procedura
per l’esercizio di valutazione CIVR 2004/2008. Ciò significa che, verosimilmente, gli
atenei saranno chiamati a comunicare entro l’estate del 2009 i prodotti rispetto ai quali
intendono essere valutati.
Alcune altre università a noi vicine 3 hanno avviato da tempo dei processi di autovalutazione finalizzati alla valutazione CIVR e, più in generale, alla distribuzione interna delle risorse. Commissioni dipartimentali o disciplinari hanno prodotto criteri per
la selezione dei prodotti e hanno già operato tale selezione.
Il precedente esercizio di valutazione triennale fu relativo al triennio 2001-2003,
e la selezione dei prodotti avvenne entro il 30 settembre 2004. Per quanto di mia conoscenza, l’Università IUAV non avviò, in tale occasione, un processo di diffusione
e condivisione di criteri di selezione. Ciascun dipartimento propose una rosa di prodotti che poi una commissione di ateneo (rettore, pro-rettore alla ricerca, e presidi di
1 http://www.miur.it/Miur/UserFiles/Universita%20Linee%20Guida%20definitive.pdf
2 Con questo termine intendo indicare i ricercatori universitari, i professori associati e i professori ordinari.
3 Università di Verona http://www.univr.it/main?ent=catdoc&id=1794&idDest=4&sServ=42&serv=39&ssServ=165;
Universitá di Padova - http://www.unipd.it/nucleo/doc/valutazione.htm
1
facoltà) andò a selezionare ulteriormente. Per la selezione CIVR 2009, l’ateneo IUAV
non ha ancora fornito istruzioni su come procedere. Ciò si giustifica, io credo, con la
complessità del processo di riorganizzazione della ricerca di ateneo che sarà portato a
regime nella primavera del 2009. In questo quadro, le unità di ricerca sembrano essere
i luoghi privilegiati per la definizione di criteri per la selezione di prodotti. In più, la
misurabilità della produzione scientifica delle unità di ricerca dovrebbe consentire una
assegnazione dei fondi di ateneo che sia premiante per le unità più produttive. L’ateneo si sta anche dotando di una infrastruttura informatica che dovrebbe facilitare la
raccolta, la catalogazione, e la valutazione dei prodotti di ricerca [1].
Questo documento contiene alcune riflessioni e proposte, già condivise con i partecipanti all’Unità di Interazione ed estese all’attenzione dell’intera Area Tematica di
Rappresentazione, Comunicazione e Interazione.
2
Valutare o non valutare?
Non è assolutamente scontato che la ripartizione di risorse sulla base di misure di produttività scientifica sia la politica più conveniente ed auspicabile. Alcuni studiosi affermano che, per esempio, il mantenimento di una quota parte di finanziamenti “a pioggia”
serve ad evitare il disseccamento di rami di ricerca eterodossa, visionaria, o potenzialmente foriera di risultati sul lungo periodo [4]. In effetti, alcune tra le università più
prestigiose del mondo hanno prodotto per molti anni ricerca di altissima qualità senza adottare una vera politica di valutazione dei prodotti della ricerca. Per esempio, il
rettore della Università di Harvard James Bryan Conant scriveva nel 1945 [4, citazione
riportata]: “C’è solo un metodo sicuro per assecondare lo sviluppo della scienza pura reclutare persone di genio, dotarle di fondi generosi, e lasciare che si autogestiscano”.
In altri termini, adottando un rigoroso e selettivo controllo sulla qualità delle persone
in ingresso, la valutazione di qualità dei prodotti perde di importanza. In realtà, per
valutare la qualità di una persona al momento del reclutamento, la valutazione della
qualità di ciò che essa ha prodotto gioca necessariamente un ruolo centrale. Il problema della valutazione dei prodotti della ricerca viene cosı̀ solo spostato. Tuttavia, mi
pare che la ricetta di Bryan Conant sia poco utile per l’università italiana di questi anni,
visto che essa difetta dei due ingredienti principali, in quanto in Italia (i) non si selezionano – solo – persone di genio e (ii) la dotazione individuale di fondi per la ricerca
è normalmente irrisoria.
Accettando quindi il fatto che non tutti i ricercatori della università italiana fanno
ricerca, e che ancor meno sono quelli che fanno ottima ricerca, è opinione diffusa che
occorra indirizzare i fondi verso progetti di ricerca di eccellenza. Anche laddove sia
possibile valutare la qualità di un progetto in maniera del tutto cieca rispetto a chi lo
propone, cosı̀ superando la necessità di valutare le persone e le strutture, ci si trova ad
un certo punto a dover valutare i risultati della realizzazione del progetto. Quindi, il
problema della valutazione dei prodotti della ricerca si ripresenta, questa volta spostato
in avanti nel tempo.
2
3
Valutazione come misura
Esiste oggi una pletora di misure di produttività scientifica, ciascuna con i propri sostenitori e i propri detrattori. Io vedo due grandi famiglie di misure: (i) quelle bibliometriche e (ii) quelle basate sul giudizio di esperti. Un esempio di misura della prima
famiglia è l’Impact Factor (IF)4 . Un esempio di misura della seconda famiglia è lo
European Reference Index for the Humanities (ERIH)5 .
3.1
Misure bibliometriche
La scelta di una misura bibliometrica deve essere guidata in primo luogo dall’oggetto
della misura stessa. Il metro che si usa per misurare il prestigio di una rivista non può
essere, a rigore, usato per misurare l’impatto di un articolo scientifico né la qualità della
ricerca di un individuo. Ciònonostante, si registra un uso assai spregiudicato di misure
quali l’IF nella valutazione di individui e istituzioni, quale è ad esempio quella effettuata dal CIVR. Ciò ha condotto a degenerazioni evidenti nelle modalità di produzione
della produzione scientifica [3]. Il primo motivo per cui l’IF è cosı̀ usato è la semplicità
del processo di misura. Se voglio dimostrare che Tizio è più forte di Caio, nel caso in
cui Tizio pubblichi sulla rivista X e Caio sulla rivista Y, è sufficiente consultare il Journal of Citation Reports e verificare se IF (X) > IF (Y ). Naturalmente i controesempi
si sprecano, dalla rivista prestigiosa che pubblica un articolo deliberatamente nonsense6 , al ricercatore che apre un nuovo settore di ricerca pubblicando in una oscura ed
occasionale rivista7 .
Per la valutazione della produzione scientifica di un individuo, si sta diffondendo l’uso del numero di Hirsch, o h-index8 . Questo numero, in una delle sue varianti,
è piuttosto semplice da calcolare, e ha il vantaggio che tale calcolo può essere effettuato manualmente utilizzando delle basi di dati accessibili gratuitamente da tutti, in
particolare Google Scholar. I suoi difetti sono noti, e sono legati al meccanismo di
conteggio delle citazioni. Ad esempio, si sa che tende a privilegiare le carriere lunghe.
A differenza dell’IF, tuttavia, l’h-index è tanto più alto quanto più i lavori del ricercatore vengono citati, a prescindere dalla qualità media delle riviste in cui vengono
inizialmente collocati. L’h-index fornisce una misura mista di qualità e di produttività.
E’ evidente che il numero di citazioni di un lavoro tende a crescere nel tempo e
che le prime citazioni arrivano un certo tempo dopo la pubblicazione, per cui è difficile
pensare al conteggio delle citazioni come una misura adeguata per valutare l’impatto
scientifico di una ricerca o la produttività di una struttura alla fine di in un periodo
limitato di tempo. Tuttavia, oggi i risultati della ricerca godono di una diffusione assai
rapida, e non è raro che un risultato di pregio provochi un numero elevato di citazioni
già nei primi mesi successivi, o addirittura precedenti, alla sua pubblicazione. Infatti,
4 http://en.wikipedia.org/wiki/Impact
factor
5 http://www.esf.org/research-areas/humanities/research-infrastructures-including-erih.html
6 Si
fa riferimento al famoso caso Alan Sokal: http://www.physics.nyu.edu/faculty/sokal/
“Designing Calm Technology”, PowerGrid Journal, v 1.01,
July 1996.
8 http://www.pubblicoergosum.org/
7 Come nel caso di M. Weiser and J.S. Brown.
3
la maggior parte delle pubblicazioni “solide” sono precedute da memorie a conferenza,
rapporti interni, o pre-print.
Le misure bibliometriche, in generale, tendono a ignorare le differenze tra discipline. Ad esempio, nell’ambito dell’informatica è ben noto che chi si occupa di logica
computazionale pubblica su riviste che hanno un IF assai più basso di quelle in cui pubblica chi si occupa di bio-informatica. Oppure, se il dottor Sempronio è sia un bravo
informatico sia un bravo filosofo, sarà difficile disaccoppiare il suo valore nelle rispettive discipline dalla cieca analisi del h-index, cosı̀ come sarà difficile confrontarlo con
un informatico non-filosofo o con un filosofo non-informatico. La ricerca multidisciplinare, che si manifesta attraverso pubblicazioni appartenenti ad aree diverse, emerge
invece naturalmente nel calcolo dell’indice.
Anche la natura delle pubblicazioni viene in larga parte ignorata dalle misure bibliometriche. Nella ricerca informatica, ad esempio, dovrebbero essere trattati in maniera diversa gli articoli che compaiono su magazine (e.g., ACM Interactions) oppure
su transactions/journals (e.g., ACM Transactions on Computer-Human Interaction). I
primi servono a diffondere i risultati della ricerca presso un pubblico di cultura disciplinare media, i secondi servono a documentare, validare, e rendere riproducibile la
ricerca scientifica. E’ possibile e ragionevole, quindi, che ci siano magazine con IF
più alto delle transactions, ma deve essere al tempo stesso chiaro che i prodotti sono
molto diversi. Allo stesso modo, non ci si deve stupire se un articolo di rassegna su
un certo argomento è molto più citato degli articoli che documentano gli avanzamenti
della ricerca in quello stesso argomento. Ancora, si tratta di prodotti di natura diversa.
3.2
Misure basate sul giudizio di esperti
Le organizzazioni disciplinari si trovano sempre più spesso chiamate a fornire misure
di qualità. Visti i limiti delle misure bibliometriche, alcune di queste organizzazioni riuniscono comitati di esperti ai quali chiedono di produrre classifiche di valore.
Il GRIN, la associazione che rappresenta gli oltre 800 accademici italiani del settore
disciplinare INF-01 (Informatica) ha elaborato una lista di 562 riviste rilevanti per la
disciplina, suddivise in quattro categorie di valore9 . Essendo centrata sulla rilevanza disciplinare, una classificaione come questa è meno soggetta alle distorsioni di cui
soffre l’IF. In pratica, una prestigiosa rivista di logica computazionale sarà collocata
in classe A, mentre una mediocre rivista di bioinformatica sarà collocata in classe C,
anche se l’IF di quest’ultima è superiore. Essendo stilata da un comitato di esperti, la
lista risente necessariamente degli interessi e delle opinioni di chi la ha compilata. Non
è difficile contestare qualche collocazione o trovare qualche omissione. E’ interessante
notare che, secondo i proponenti, la classificazione è uno strumento “per la valutazione
di strutture e non del singolo ricercatore”. Visto che le strutture sono fatte di ricercatori, questo caveat può essere maliziosamente interpretato come un tentativo di tutelare il
libero arbitrio delle commissioni di concorso. E’ vero che nella valutazione di un singolo ricercatore bisognerebbe entrare nel merito dei suoi lavori per valutarne la qualità,
ma perché questo stesso principio non può valere per le strutture? Solo per una mera
questione di quantità? Che questa puntualizzazione sia pretestuosa è dimostrato dal
9 http://www.di.unipi.it/grin/Riviste2005.htm
4
fatto che la classificazione GRIN viene usata in pratica anche per valutare le persone,
al fianco di misure bibliometriche. Di fatto, se si vuole dare oggettività ad una valutazione non si può che ricorrere a misure di un qualche tipo, che superino l’opinabilità
del giudizio che una persona formula sul lavoro di un’altra persona.
Ragionando con colleghi dell’area umanistica mi sono sentito spesso dire che non
esistono classificazioni di qualità delle pubblicazioni nelle loro discipline, dove le riviste sfuggono agli indicatori bibliometrici. Se questo è vero per l’IF, che trascura o
penalizza fortemente molte aree disciplinari, mi pare più difficile sostenerlo per una
misura come lo h-index. Ad esempio, se cerco “Giorgio Agamben” su Scholar Google vedo che i suoi (molti) libri sono assai citati e il suo h-index è assai elevato. In
più, guardando oltre i nostri confini si scopre che ci sono iniziative importanti per la
produzione di classificazioni di valore per i prodotti della ricerca umanistica. Uno strumento importante mi pare il già citato European Reference Index for the Humanities
della European Science Foundation. In questo caso, il caveat è addirittura raddoppiato.
Oltre a raccomandare la non utilizzazione per la valutazione degli individui, in questo
caso si dice addirittura che le tre categorie A, B, e C non sono di qualità ma indicano
piuttosto “scope and audience”. In realtà, andando a leggere bene le linee guida per la
compilazione di queste liste si vede che la qualità è la misura principale, se in classe
A ci possono stare non più del 25% dei titoli e devono essere “high-ranking international publications”. E’ anche interessante che si sottolinei la presenza di attributi quali
“open to unsolicited contributions” e “highly discriminating and selective”, a ribadire
che questi concetti non sono scontati in area umanistica.
Tra le liste di ERIH c’è quella su Art, Architectural and Design History, dove compaiono titoli di interesse per la Unità di Ricerca Interazione che sfuggono alle liste
disciplinari dell’informatica. Ad esempio, ci sono Design Issues e Design Studies (IF
1.1017) in classe A, e nella stessa classe troviamo la rivista italiana di carattere storico
Annali di Architettura. Le riviste italiane di architettura Domus, Ottagono e Casabella
sono in classe B. La rivista di arte e tecnologia Leonardo, di MIT Press, è di classe C.
Anche se il titolo di questa lista pone l’enfasi su History, molte tra le riviste presenti
non si possono definire riviste di storia. A me pare, ma sono curioso di sentire altre
opinioni, che questa classificazione abbia una utilità generale e debba essere presa in
seria considerazione. Una lista di riviste rilevanti per una scienza del design si trova
presso http://www.designandscience.org/. Tra le sedici riviste indicate,
cinque sono anche incluse nella lista di ERIH. A fronte di questi lavori di classificazione piuttosto avanzati, ogni tentativo locale di definire la qualità dei prodotti di ricerca
di una disciplina rischia di apparire velleitario. Piuttosto, si potrebbe pensare di avanzare istanze per rendere queste liste più complete e attendibili. A tale proposito, si nota
che l’area di Ingegneria Civile e Architettura si ı̀mpegnata a far approvare al Consiglio
Universitario Nazionale una lista delle “riviste ad alto contenuto scientifico” entro il 31
marzo 200910 .
Un discorso speciale andrebbe fatto per chi in Italia si occupa di disegno industriale, e viene spesso collocato sotto l’ombrello disciplinare dell’architettura. Tra le tre
riviste italiane di architettura di classe B, solo Ottagono è dedicata specificamente al
disegno industriale. Per Domus, Ottagono e Casabella i costi di gestione sembrano
10 http://www.cun.it/Documenti/DocumentiLavoro/2009/Area8.pdf
5
condizionare le scelte editoriali e rendere assai influente la raccolta pubblicitaria delle
aziende di settore (architettura, edilizia, arredo) rispetto alla selezione dei contributi.
Nella maggior parte dei casi il tipo di titoli pubblicati riguarda aspetti storici o divulgativi del disegno industriale, e solo raramente vengono accettati articoli di carattere
metodologico o frutto di ricerche. Invece, non sono incluse nelle liste le riviste italiane
che sono espressione della comunità scientifica propria del settore disegno industriale,
come DIID Disegno Industriale – Industrial Design o Progetto grafico, rivista dellAIAP, associazione italiana progettazione per la comunicazione visiva. Queste riviste
offrono un concreto contributo allo sviluppo della disciplina, ma hanno una circolazione limitata e non sono disponibili in alcun modo in forma elettronica. La presenza sul
web è ormai una caratteristica irrinunciabile per una rivista che voglia presentarsi come
voce autorevole e dotata di visibilità internazionale.
Un’altra comunità di interesse per l’Unità di Ricerca Interazione è quella rappresentata in Italia dalla Associazione Italiana di Studi Semiotici. Questa associazione
ha costituito un gruppo di lavoro con il compito di formulare una classificazione delle
riviste. I risultati saranno presentati alla fine del 2009.
3.3
Uso delle misure
Prendiamo a riferimento la comunità scientifica degli informatici, ben rappresentata
in Italia da GRIN. Una associazione europea è Informatics Europe. Il GRIN ha recentemente risposto alle richieste del Ministero dell’Istruzione, dell’Università e della
Ricerca di formulare proposte atte ad individuare alcuni indicatori di qualità relativi
all’attività scientifica e di ricerca, in relazione ai diversi livelli concorsuali. La risposta
consiste in un documento di due pagine11 nel quale si raccomanda l’utilizzazione di più
indicatori di qualità, e l’adozione di indicatori bibliometrici per la determinazione di
soglie minime per l’accesso alle tre fasce della docenza. Per le soglie minime si raccomanda lo h-index calcolato escludendo le autocitazioni. In generale, il GRIN adotta le
linee guida delineate da Informatics Europe [8], che seguono a distanza di quasi dieci
anni il lavoro della americana Computing Research Association. Queste linee guida
tengono conto di alcune specificità disciplinari:
• Ci sono persone che pubblicano preferibilmente in atti di convegni, e diversi
convegni (e.g., SIGGRAPH, CHI) hanno tassi di accettazione inferiori al 20%,
cioè sono più selettivi della maggior parte delle riviste;
• Alcuni lavori di grande importanza appaiono in forma di libro (e.g., Knuth’s The
Art of Computer Programming). L’impatto di questi lavori si può facilmente
misurare con strumenti quali Scholar Google;
• Alcuni artefatti (prodotti, software) possono avere un valore di ricerca assai alto,
anche se non accompagnato da rilevanti pubblicazioni. Il valore è desumibile
dalla svolta di innovazione innescata dall’artefatto, dalla sua diffusione, e dalla
sua adozione in altre realizzazioni.
11 http://www.di.unipi.it/grin/verbass/indicatori-minimi-qualita-proposta-GRIN-approvata-per-CUN-v13.pdf
6
E’ interessante notare come queste specificità non siano poi strettamente tali. Almeno le ultime due, per esempio, possono caratterizzare anche il settore del design in
generale. I criteri dominanti, in ogni caso, sono il riconoscimento attraverso citazione
o utilizzazione, e la selettività dei contesti nei quali i lavori appaiono. Se entrambi
questi criteri non sono soddisfatti per un dato prodotto di ricerca, il suo valore è inevitabilmente basso. Ciò non esclude, naturalmente, che il valore attribuito ad un prodotto
possa rimanere basso per un lungo tempo per poi subire una impennata improvvisa. La
storia dell’arte, come quella della scienza, è piena di personaggi che sono considerati a lungo degli imbratta-tele, ma non per questo possiamo dare valore a tutte le tele
imbrattate che vengono prodotte nel nostro tempo.
Nello stesso documento di Informatics Europe ci sono anche due importanti raccomandazioni sull’uso degli indicatori bibliometrici, che trovano ragionevole applicazione sia agli individui sia alle strutture:
• Le misure numeriche quali il numero di citazioni non devono mai essere usate
come unico strumento di valutazione. Esse devono essere filtrate dall’interpretazione umana, in modo da evitare errori, e complementate da peer review e dalla
valutazione di prodotti diversi dalle pubblicazioni;
• Il conteggio delle pubblicazioni non fornisce un indicatore adeguato del valore
della ricerca. Esso misura la produttività, non la qualità né l’impatto;
• Gli indicatori numerici non possono servire a fare confronti tra discipline diverse.
4
Sul peer review
Leggiamo nelle linee guida di ERIH: “In alcune tradizioni disciplinary il peer-review
non è una procedura familiare. E’ scopo di ERIH quello di incoraggiare le più importanti riviste ad adottare un sistema di peer-review coerente.” Quindi esiste una parte
consistente del mondo accademico di area umanistica, di cui ERIH è espressione, la
quale ritiene necessario adottare pratiche da tempo consolidate in ambiente scientifico.
In informatica, ad esempio, quando si invia un lavoro per la pubblicazione presso una
rivista o un convegno di rango elevato esso viene inviato ad alcuni (mediamente tre)
revisori anonimi che lo analizzano, esprimono un giudizio ed una raccomandazione per
la pubblicazione (o la bocciatura) ed eventualmente una serie di richieste di emendamento. Una simile forma di review è anche effettuata dagli uffici brevetti di Stati Uniti
e Unione Europea, per la tutela delle opere dell’ingegno. Sia per le pubblicazioni sia
per i brevetti si può dire che questi sono sostanzialmente privi di un valore riconoscibile
fino al momento in cui tale processo di review non si è completato, spesso in un tempo
superiore all’anno dalla data di invio.
Il peer review, però, non è sempre stato pratica diffusa e accettata, nemmeno nelle
comunità, quale è ad esempio quella dei fisici, che oggi lo danno per scontato. Ad
esempio, è noto che Albert Einstein produsse tutti i suoi lavori fino al 1933 in lingua
tedesca, senza che questi fossero sottosposti ad alcun processo di peer review. Piuttosto, i meccanismi di pubblicazione in fisica nell’Europa degli anni trena del novecento
erano abbastanza simili a quelli che si possono oggi riscontrare in alcune aree della
7
ricerca umanistica, dove il curatore di una rivista gode di molta libertà e autonomia
nella scelta dei contributi. E’ anche noto che Einstein ebbe un impatto assai sgradevole
con la prassi del peer review che si andava imponendo negli Stati Uniti, tanto è vero
che nel 1936 egli ebbe un duro scontro con il curatore del Physical Review a seguito
di una bocciatura (ben fondata) di un suo lavoro [7]. In questa luce, si possono ben capire le resistenze che ancora oggi permangono in certi ambiti di ricerca all’adozione di
procedure di peer review. In più, nelle comunità dove il peer review si dà per scontato,
stanno emergendo problemi di sostenibilità del sistema, e opportunità di meccanismi
alternativi, basati sull’impiego su larga scala del web. La crescita continua del numero di convegni, riviste, e altri luoghi di pubblicazione rende difficile il reperimento di
revisori capaci ed affidabili. Quelli che hanno queste caratteristiche tendono ad essere
sovraccaricati di lavoro. I lavori pubblicati sono sempre più spesso dotati di appendici
multimediali e hanno caratteristiche di trasformabilità dinamica che sfuggono alla rigidità del processo di peer review. Di conseguenza, la diffusione dei risultati della ricerca
sempre più si avvale di strumenti basati sulle comunità web, come i sistemi di reputazione o di raccomandazione, o le certificazioni di materiali già pubblicati. In generale,
si va verso forme di certificazione di qualità post-pubblicazione [6] e di costruzione
automatica di reputazione, sia per gli autori, sia per i revisori [2].
Un fenomeno diverso, ma collegato, è la diffusione di riviste open access, che ha
assunto dimensioni ragguardevoli con l’affermarsi in campo medico-biologico delle riviste della Public Library of Science12 . Il modello economico che sta alla base di queste
riviste è ribaltato rispetto a quello tradizionale, nel quale la sopravvivenza delle riviste
è garantita dai costosi abbonamenti, che spesso solo le biblioteche più ricche possono
permettersi. Viceversa, nel modello open access tutti gli articoli sono accessibili a tutti
i lettori con un accesso alla rete, con evidente beneficio per la diffusione della scienza.
Poiché, però, la produzione di una rivista di qualità ha dei costi rilevanti, le risorse che
non provengono dagli abbonamenti non possono che essere prelevate dagli autori dei
lavori pubblicati. In effetti, sono gli autori i principali beneficiari di una pubblicazione
su una rivista prestigiosa, e come portatori primari di interesse è ragionevole che siano essi stessi a contribuire ai costi del processo di pubblicazione. Motivate da questa
necessità, da tempo le principali agenzie che finanziano la ricerca (Unione Europea,
National Science Foundation, ecc.) chiedono di includere la voce dissemination tra le
principali voci di spesa di ogni progetto di ricerca.
Nel campo dell’informatica, e in particolare dell’informatica che interessa all’Unità
di Ricerca Interazione, godono di particolare prestigio le pubblicazioni dell’Institute of
Electrical and Electronics Engineers (IEEE) e della Association for Computing Machinery (ACM). Per la pubblicazione sulle riviste di ACM e IEEE il pagamento di un page
charge (di circa cento dollari a pagina stampata) non è obbligatorio, ma è considerato
una buona pratica che le istituzioni di ricerca dovrebbero incoraggiare, attraverso i capitoli di spesa in dissemination. Queste associazioni professionali, infatti, non hanno
scopo di lucro e riescono a diffondere le proprie pubblicazioni con abbonamenti non
troppo onerosi, in special modo attraverso le loro digital libraries. Si può considerare questa una via intermedia tra quella tradizionalmente proposta dalle case editrici
commerciali e quella open access che si va via via diffondendo.
12 http://www.plos.org/
8
Il processo di assicurazione della qualità e quello di finanziamento delle spese di
pubblicazione, sebbene sostanzialmente ortogonali, possono interferire tra di loro se si
adottano certi modelli di diffusione della ricerca scientifica. In particolare, è noto a tutti
che esistono molte case editrici che, a fronte di un pagamento delle spese di pubblicazione, offrono dei servizi di stampa e diffusione prescindendo da qualsiasi controllo
di qualità. L’idea è che ci si possa comprare la pubblicazione. Poiché a molti ricercatori è capitato di usare questo modello, che peraltro ha la sua utilità, può maturare
in qualcuno il convincimento etico che le pubblicazioni di qualità non possano essere
pagate dagli autori. La pratica di pubblicazione in molti settori della scienza e della
tecnica dimostra, al contrario, che molte eccellenti riviste richiedono un pagamento
all’autore, garantendo per contro una accessibilità molto ampia ai materiali pubblicati.
La assicurazione di qualità. quindi, prescinde dal modello economico adottato da una
rivista.
5
Comunità diverse, prodotti diversi
E’ evidente che, anche all’interno di una piccola Unità di Ricerca, possono coesistere
persone appartenenti a comunità scientifiche diverse, con diverse pratiche di pubblicazione di prodotti di ricerca. E’ necessario quindi fornire criteri diversi che consentano
di dare dignità ai diversi prodotti, pur tenendo fermi i requisiti di qualità, sanciti in
primo luogo da impatto del prodotto e selettività della sede (convegno, rivista, casa
editrice, ecc.) che lo ospita.
Per avere una prima grezza indicazione, si può vedere cosa richiede lo European
Research Council13 a color che aspirano ad un Advanced Grant. Prima di esaminare la
qualità del progetto, si valuta la qualità del proponente, con i seguenti requisiti minimi
ottenuti negli ultimi dieci anni di lavoro:
• 10 pubblicazioni nelle principali riviste scientifiche internazionali peer-reviewed,
oppure
• 3 importanti monografie di ricerca, almeno una delle quali tradotta in una seconda lingua. Possono inoltre concorrere alla valutazione
• 5 brevetti concessi,
• 10 presentazioni a invito in convegni o scuole avanzate di riconosciuto prestigio,
• riconoscimenti internazionali quali premi scientifici o nomine in accademie di
alto prestigio,
• altro...
La prima importante discriminazione si ha tra scienza e ingegneria, dove i prodotti
più importanti sono gli articoli su rivista, e le scienze umane e sociali, dove i prodotti
più importanti sono i libri. Le altre cose sono accessorie, ma possono contribuire a
migliorare il risultato della valutazione. Per i libri, è difficile stabilire un indicatore di
13 http://erc.europa.eu/pdf/ERC
Guide for Applicants.pdf
9
qualità. Sicuramente, se il libro viene tradotto in maniera indipendente significa che ha
avuto un impatto internazionale. Poi, si potrebbe vedere il prestigio delle case editrici
e delle collane, sempre rispetto alla selettività. Sicuramente, pubblicare per Morgan
Kaufmann o per Wiley significa aver superato una valutazione molto attenta da parte
dell’editore, nella quale viene esercitata una forma di peer review. Alla fine, però, mi
pare che il numero di citazioni che un certo libro ottiene sia l’indicatore più attendibile
del suo impatto, a prescindere dalla collocazione editoriale. Le 2917 citazioni che
Scholar Google restituisce per la serie di libri di Donald Knuth dicono da sole che si
tratta di una pietra miliare dell’informatica, e il fatto che sia pubblicata da AddisonWesley è, tutto sommato, irrilevante.
Per l’Unità di Ricerca Interazione può avere un particolare interesse la valutazione
degli artefatti, già inclusa nelle linee guida di Informatics Europe. In questa categoria
possono rientrare i prototipi e addirittura i concept se questi, ancora una volta, producono un impatto misurabile sull’avanzamento della disciplina. Un caso esemplare è
quello della marble answering machine di Durrel Bishop. Proposta come concept dal
Bishop studente al Royal College of Art, è considerata come uno dei primi esempi di
tangible computing, e fu consacrata dall’articolo presentato al convegno CHI 1997 da
Ishii e Ullmer (1672 citazioni in Scholar Google) [5]. Il valore di questo oggetto, o
idea di oggetto, è evidente.
6
Criteri per l’Unità Interazione
Questo documento ha come principale scopo quello di avviare una discussione sul
tema della valutazione della ricerca all’interno dell’Area di Rappresentazione, Comunicazione e Interazione. Le posizioni espresse in questo documento dovrebbero essere
soggette a revisione critica continua, sia perché il dibattito su questo tema non dovrebbe mai cessare, sia perché le pratiche di pubblicazione e valutazione adottate dalle
comunità scientifiche vanno modificandosi nel tempo.
La sezione più instabile di un documento per sua natura instabile è quella che lo
conclude, con l’indicazione di alcuni criteri che l’Unità di Ricerca Interazione intende darsi per l’autovalutazione dei propri prodotti della ricerca, ovvero per proporre a
valutatori esterni alcuni riferimenti e misure. L’estrazione di alcuni criteri potrebbe
risultare come prodotto implicito dei temi affrontati nelle sezioni precedenti, ma preferisco inserire esplicitamente una sezione conclusiva sui criteri per ragioni di chiarezza.
Non si può aspirare ad avere valutazioni equilibrate del nostro lavoro se non siamo noi
stessi in grado di esprimere in maniera chiara il modo in cui intendiamo essere valutati.
Comincio ad abbozzare questi criteri, partendo dall’area informatica, nella speranza che il dibattito con i colleghi dell’intera Area Tematica arricchisca in futuro questa
sezione.
• Per gli articoli che trovano pubblicazione su rivista si deve tenere conto delle
classificazioni prodotte da gruppi di esperti e adottate da associazioni scientifiche
o istituzioni internazionali. In particolare, per l’informatica si adotta la classificazione delle riviste del GRIN. Un riferimento utile per il design è lo European
Reference Index for the Humanities. Pur se queste classificazioni riguardano le
10
riviste e non i singoli articoli, è utile confrontare due articoli attraverso la classe
delle riviste che li ospitano, integrando il confronto con strumenti bibliometrici quali il numero di citazioni. L’IF si può usare solo se le riviste oggetto del
confronto sono dello stesso genere e ambito.
• Qualsiasi sia il prodotto di ricerca considerato, il suo impatto presso la comunità scientifica ne fornisce una misura di valore. Per gli articoli e per i libri,
tale impatto si misura attraverso le citazioni che ricevono, misurate ad esempio
con Google Scholar. Per altri tipi di prodotto si devono definire analoghe misure di impatto. Ad esempio, per un modulo software una misura di impatto è
rappresentata dal suo grado di adozione in altri prodotti proposti da sviluppatori
indipendenti.
• E’ importante produrre, per quanto possibile, evidenze della selettività degli ambiti nei quali una ricerca viene diffusa. In particolare, l’importanza di una comunicazione a convegno risulta evidenziata da una misura del tasso di selettività del
convegno stesso.
• Nei prodotti attribuibili a più autori bisogna tenere conto delle istituzioni di afferenza degli stessi, in maniera da pesare in misura proporzionalmente maggiore
quei prodotti che sono principalmente frutto della ricerca dell’Area Tematica.
• Devono essere evidenziati quei prodotti che sono destinatari di premi (ad esempio per il miglior articolo a convegno) o vincitori di concorsi (e.g., design contest). Detti prodotti hanno già superato una importante fase di valutazione indipendente.
Nel proporre un prodotto all’attenzione di un comitato di valutazione, il proponente
dovrà descriverne il valore in relazione ai criteri sopra elencati.
Appendice: Novità
La fine del 2008 è stata accompagnata da alcune importanti novità riguardanti la valutazione della ricerca. Intendo semplicemente segnalarle in questa appendice, in quanto
ho potuto tenerne solo parzialmente conto nella stesura del documento.
• Si è concluso nel Regno Unito il Research Assessment Exercise 2008, i cui risultati sono accessibili presso http://www.rae.ac.uk/. Si tratta della valutazione
generale della ricerca presso le istituzioni del sistema di educazione superiore britannico. I criteri usati per l’informatica14 e per design e arti15 possono
costituire utili riferimenti.
• Il Consiglio Universitario Nazionale ha pubblicato presso
http://www.cun.it/DocumentiLavoro/ una prima bozza degli indicatori di attività
14 http://www.rae.ac.uk/pubs/2006/01/docs/f23.pdf
15 http://www.rae.ac.uk/pubs/2006/01/docs/o63.pdf
11
scientifica e di ricerca. Sostanzialmente, ciascuna area ha autonomamente proposto dei requisiti minimi per l’accesso alle fasce della docenza. Una lettura
comparativa del lavoro delle aree, agevolata dal sito
http://www.pubblicoergosum.org/?cat=22, fa emergere un panorama assai variegato, con aree che si rifiutano di considerare l’impatto dei prodotti (es., area
di Ingegneria Industriale e dell’Informazione) e aree che sull’impatto basano i
propri criteri di valutazione (es., area di Matematica e Informatica). I criteri formulati in certe aree (es., Ingegneria Civile e Architettura) sembrano affetti da
vizi logici e da una certa confusione nel mettere insieme prodotti di diversa natura. Come esempio di vizio logico si cita il fatto che al posto di un minimo, che
dovrebbe essere un numero, viene proposto un intervallo (es. 6–10 prodotti per
diventare ordinario), quasi a veicolare l’idea che di questi criteri non si può fare
un uso troppo rigoroso.
Ringraziamenti
Ringrazio Davide Fornari ed Alvise Mattozzi per le utili informazioni relative rispettivamente alle discipline del disegno industriale e della semiotica.
Riferimenti bibliografici
[1] N. Bertazzoni, M. Galotti, F. Luglio, and
talogo e valutazione ricerca - valorizzare
tenze di ateneo.
Notizie dal CINECA,
http://www.cineca.it/pubblicazioni/notiziario/u gov
G. Ponti.
U-GOV cai risultati e le compen. 60, CINECA, 2007.
ricerca.pdf.
[2] J. Crowcroft, S. Keshav, and N. McKeown. Viewpoint – scaling the academic
publication process to internet scale. Commun. ACM, 52(1):27–30, 2009.
[3] A. Figà Talamanca. L’impact factor nella valutazione della ricerca e nello sviluppo
dell’editoria scientifica. In IV Seminario - Sistema Informativo Nazionale per la
Matematica, Lecce, 2000.
http://siba2.unile.it/sinm/4sinm/interventi/fig-talam.htm.
[4] B. S. Frey and M. Osterloh. Evaluations: Hidden costs, questionable benefits, and
superior alternatives. IEW working paper no. 302, University of Zürich, 2006.
http://www.iew.uzh.ch/wp/iewwp302.pdf.
[5] H. Ishii and B. Ullmer. Tangible bits: towards seamless interfaces between people,
bits and atoms. In CHI ’97: Proceedings of the SIGCHI conference on Human
factors in computing systems, pages 234–241, New York, NY, USA, 1997. ACM.
[6] C. M. Kelty, C. S. Burrus, and R. G. Baraniuk. Peer review anew: Three principles
and a case study in postpublication quality assurance. Proceedings of the IEEE,
96(6):1000–1011, 2008. http://cnx.org/news/news/peer-review-anew-ProcIEEEjune08.pdf.
12
[7] D. Kennefick. Einstein versus the physical review. Physics Today, 58(9):43–48,
2005.
[8] B. Meyer,
C. Choppy,
J. Staunstrup,
and J. van Leeuwen.
Research evaluation for computer science.
Communications of the ACM, 2008.
To appear:
http://www.informaticseurope.org/ECSS08/papers/Research evaluation CACM.pdf.
[9] R. Perotti. L’Università Truccata. Einaudi, 2008.
13