Valutazione della ricerca: il caso della Unit`a di Ricerca IUAV
Transcript
Valutazione della ricerca: il caso della Unit`a di Ricerca IUAV
Valutazione della ricerca: il caso della Unità di Ricerca IUAV–Interazione Davide Rocchesso IUAV University of Venice c [email protected] 2009 <Davide Rocchesso> Copyright Creative Commons Attribuzione-Non commerciale 2.5 Italia license 26 febbraio 2009 1 Introduzione Il 6 novembre 2008 venivano emanate le Linee Guida del Governo per l’Università1 . In quel documento viene riproposto il tema, sul quale si sono esercitati gli ultimi governi, della valutazione della ricerca. Si afferma che una fetta di entità via via crescente dei fondi attribuiti ad atenei e dipartimenti sarà calcolata sulla base delle prestazioni degli stessi, valutate sulla base dell’analisi dei loro prodotti di ricerca. Il programma ambizioso di una agenzia di valutazione (ANVUR) che sottoponesse a valutazione periodica i singoli ricercatori2 sembra essere per il momento accantonato perché estremamente costoso e complicato [9]. Viceversa, è confermato il ruolo del CIVR per la valutazione degli atenei, con promessa di chiudere il “secondo esercizio di valutazione triennale della ricerca” entro il 2009. Il Consiglio Universitario Nazionale, in data 11 febbraio 2009, ha formalmente espresso l’auspicio di una rapida attivazione della procedura per l’esercizio di valutazione CIVR 2004/2008. Ciò significa che, verosimilmente, gli atenei saranno chiamati a comunicare entro l’estate del 2009 i prodotti rispetto ai quali intendono essere valutati. Alcune altre università a noi vicine 3 hanno avviato da tempo dei processi di autovalutazione finalizzati alla valutazione CIVR e, più in generale, alla distribuzione interna delle risorse. Commissioni dipartimentali o disciplinari hanno prodotto criteri per la selezione dei prodotti e hanno già operato tale selezione. Il precedente esercizio di valutazione triennale fu relativo al triennio 2001-2003, e la selezione dei prodotti avvenne entro il 30 settembre 2004. Per quanto di mia conoscenza, l’Università IUAV non avviò, in tale occasione, un processo di diffusione e condivisione di criteri di selezione. Ciascun dipartimento propose una rosa di prodotti che poi una commissione di ateneo (rettore, pro-rettore alla ricerca, e presidi di 1 http://www.miur.it/Miur/UserFiles/Universita%20Linee%20Guida%20definitive.pdf 2 Con questo termine intendo indicare i ricercatori universitari, i professori associati e i professori ordinari. 3 Università di Verona http://www.univr.it/main?ent=catdoc&id=1794&idDest=4&sServ=42&serv=39&ssServ=165; Universitá di Padova - http://www.unipd.it/nucleo/doc/valutazione.htm 1 facoltà) andò a selezionare ulteriormente. Per la selezione CIVR 2009, l’ateneo IUAV non ha ancora fornito istruzioni su come procedere. Ciò si giustifica, io credo, con la complessità del processo di riorganizzazione della ricerca di ateneo che sarà portato a regime nella primavera del 2009. In questo quadro, le unità di ricerca sembrano essere i luoghi privilegiati per la definizione di criteri per la selezione di prodotti. In più, la misurabilità della produzione scientifica delle unità di ricerca dovrebbe consentire una assegnazione dei fondi di ateneo che sia premiante per le unità più produttive. L’ateneo si sta anche dotando di una infrastruttura informatica che dovrebbe facilitare la raccolta, la catalogazione, e la valutazione dei prodotti di ricerca [1]. Questo documento contiene alcune riflessioni e proposte, già condivise con i partecipanti all’Unità di Interazione ed estese all’attenzione dell’intera Area Tematica di Rappresentazione, Comunicazione e Interazione. 2 Valutare o non valutare? Non è assolutamente scontato che la ripartizione di risorse sulla base di misure di produttività scientifica sia la politica più conveniente ed auspicabile. Alcuni studiosi affermano che, per esempio, il mantenimento di una quota parte di finanziamenti “a pioggia” serve ad evitare il disseccamento di rami di ricerca eterodossa, visionaria, o potenzialmente foriera di risultati sul lungo periodo [4]. In effetti, alcune tra le università più prestigiose del mondo hanno prodotto per molti anni ricerca di altissima qualità senza adottare una vera politica di valutazione dei prodotti della ricerca. Per esempio, il rettore della Università di Harvard James Bryan Conant scriveva nel 1945 [4, citazione riportata]: “C’è solo un metodo sicuro per assecondare lo sviluppo della scienza pura reclutare persone di genio, dotarle di fondi generosi, e lasciare che si autogestiscano”. In altri termini, adottando un rigoroso e selettivo controllo sulla qualità delle persone in ingresso, la valutazione di qualità dei prodotti perde di importanza. In realtà, per valutare la qualità di una persona al momento del reclutamento, la valutazione della qualità di ciò che essa ha prodotto gioca necessariamente un ruolo centrale. Il problema della valutazione dei prodotti della ricerca viene cosı̀ solo spostato. Tuttavia, mi pare che la ricetta di Bryan Conant sia poco utile per l’università italiana di questi anni, visto che essa difetta dei due ingredienti principali, in quanto in Italia (i) non si selezionano – solo – persone di genio e (ii) la dotazione individuale di fondi per la ricerca è normalmente irrisoria. Accettando quindi il fatto che non tutti i ricercatori della università italiana fanno ricerca, e che ancor meno sono quelli che fanno ottima ricerca, è opinione diffusa che occorra indirizzare i fondi verso progetti di ricerca di eccellenza. Anche laddove sia possibile valutare la qualità di un progetto in maniera del tutto cieca rispetto a chi lo propone, cosı̀ superando la necessità di valutare le persone e le strutture, ci si trova ad un certo punto a dover valutare i risultati della realizzazione del progetto. Quindi, il problema della valutazione dei prodotti della ricerca si ripresenta, questa volta spostato in avanti nel tempo. 2 3 Valutazione come misura Esiste oggi una pletora di misure di produttività scientifica, ciascuna con i propri sostenitori e i propri detrattori. Io vedo due grandi famiglie di misure: (i) quelle bibliometriche e (ii) quelle basate sul giudizio di esperti. Un esempio di misura della prima famiglia è l’Impact Factor (IF)4 . Un esempio di misura della seconda famiglia è lo European Reference Index for the Humanities (ERIH)5 . 3.1 Misure bibliometriche La scelta di una misura bibliometrica deve essere guidata in primo luogo dall’oggetto della misura stessa. Il metro che si usa per misurare il prestigio di una rivista non può essere, a rigore, usato per misurare l’impatto di un articolo scientifico né la qualità della ricerca di un individuo. Ciònonostante, si registra un uso assai spregiudicato di misure quali l’IF nella valutazione di individui e istituzioni, quale è ad esempio quella effettuata dal CIVR. Ciò ha condotto a degenerazioni evidenti nelle modalità di produzione della produzione scientifica [3]. Il primo motivo per cui l’IF è cosı̀ usato è la semplicità del processo di misura. Se voglio dimostrare che Tizio è più forte di Caio, nel caso in cui Tizio pubblichi sulla rivista X e Caio sulla rivista Y, è sufficiente consultare il Journal of Citation Reports e verificare se IF (X) > IF (Y ). Naturalmente i controesempi si sprecano, dalla rivista prestigiosa che pubblica un articolo deliberatamente nonsense6 , al ricercatore che apre un nuovo settore di ricerca pubblicando in una oscura ed occasionale rivista7 . Per la valutazione della produzione scientifica di un individuo, si sta diffondendo l’uso del numero di Hirsch, o h-index8 . Questo numero, in una delle sue varianti, è piuttosto semplice da calcolare, e ha il vantaggio che tale calcolo può essere effettuato manualmente utilizzando delle basi di dati accessibili gratuitamente da tutti, in particolare Google Scholar. I suoi difetti sono noti, e sono legati al meccanismo di conteggio delle citazioni. Ad esempio, si sa che tende a privilegiare le carriere lunghe. A differenza dell’IF, tuttavia, l’h-index è tanto più alto quanto più i lavori del ricercatore vengono citati, a prescindere dalla qualità media delle riviste in cui vengono inizialmente collocati. L’h-index fornisce una misura mista di qualità e di produttività. E’ evidente che il numero di citazioni di un lavoro tende a crescere nel tempo e che le prime citazioni arrivano un certo tempo dopo la pubblicazione, per cui è difficile pensare al conteggio delle citazioni come una misura adeguata per valutare l’impatto scientifico di una ricerca o la produttività di una struttura alla fine di in un periodo limitato di tempo. Tuttavia, oggi i risultati della ricerca godono di una diffusione assai rapida, e non è raro che un risultato di pregio provochi un numero elevato di citazioni già nei primi mesi successivi, o addirittura precedenti, alla sua pubblicazione. Infatti, 4 http://en.wikipedia.org/wiki/Impact factor 5 http://www.esf.org/research-areas/humanities/research-infrastructures-including-erih.html 6 Si fa riferimento al famoso caso Alan Sokal: http://www.physics.nyu.edu/faculty/sokal/ “Designing Calm Technology”, PowerGrid Journal, v 1.01, July 1996. 8 http://www.pubblicoergosum.org/ 7 Come nel caso di M. Weiser and J.S. Brown. 3 la maggior parte delle pubblicazioni “solide” sono precedute da memorie a conferenza, rapporti interni, o pre-print. Le misure bibliometriche, in generale, tendono a ignorare le differenze tra discipline. Ad esempio, nell’ambito dell’informatica è ben noto che chi si occupa di logica computazionale pubblica su riviste che hanno un IF assai più basso di quelle in cui pubblica chi si occupa di bio-informatica. Oppure, se il dottor Sempronio è sia un bravo informatico sia un bravo filosofo, sarà difficile disaccoppiare il suo valore nelle rispettive discipline dalla cieca analisi del h-index, cosı̀ come sarà difficile confrontarlo con un informatico non-filosofo o con un filosofo non-informatico. La ricerca multidisciplinare, che si manifesta attraverso pubblicazioni appartenenti ad aree diverse, emerge invece naturalmente nel calcolo dell’indice. Anche la natura delle pubblicazioni viene in larga parte ignorata dalle misure bibliometriche. Nella ricerca informatica, ad esempio, dovrebbero essere trattati in maniera diversa gli articoli che compaiono su magazine (e.g., ACM Interactions) oppure su transactions/journals (e.g., ACM Transactions on Computer-Human Interaction). I primi servono a diffondere i risultati della ricerca presso un pubblico di cultura disciplinare media, i secondi servono a documentare, validare, e rendere riproducibile la ricerca scientifica. E’ possibile e ragionevole, quindi, che ci siano magazine con IF più alto delle transactions, ma deve essere al tempo stesso chiaro che i prodotti sono molto diversi. Allo stesso modo, non ci si deve stupire se un articolo di rassegna su un certo argomento è molto più citato degli articoli che documentano gli avanzamenti della ricerca in quello stesso argomento. Ancora, si tratta di prodotti di natura diversa. 3.2 Misure basate sul giudizio di esperti Le organizzazioni disciplinari si trovano sempre più spesso chiamate a fornire misure di qualità. Visti i limiti delle misure bibliometriche, alcune di queste organizzazioni riuniscono comitati di esperti ai quali chiedono di produrre classifiche di valore. Il GRIN, la associazione che rappresenta gli oltre 800 accademici italiani del settore disciplinare INF-01 (Informatica) ha elaborato una lista di 562 riviste rilevanti per la disciplina, suddivise in quattro categorie di valore9 . Essendo centrata sulla rilevanza disciplinare, una classificaione come questa è meno soggetta alle distorsioni di cui soffre l’IF. In pratica, una prestigiosa rivista di logica computazionale sarà collocata in classe A, mentre una mediocre rivista di bioinformatica sarà collocata in classe C, anche se l’IF di quest’ultima è superiore. Essendo stilata da un comitato di esperti, la lista risente necessariamente degli interessi e delle opinioni di chi la ha compilata. Non è difficile contestare qualche collocazione o trovare qualche omissione. E’ interessante notare che, secondo i proponenti, la classificazione è uno strumento “per la valutazione di strutture e non del singolo ricercatore”. Visto che le strutture sono fatte di ricercatori, questo caveat può essere maliziosamente interpretato come un tentativo di tutelare il libero arbitrio delle commissioni di concorso. E’ vero che nella valutazione di un singolo ricercatore bisognerebbe entrare nel merito dei suoi lavori per valutarne la qualità, ma perché questo stesso principio non può valere per le strutture? Solo per una mera questione di quantità? Che questa puntualizzazione sia pretestuosa è dimostrato dal 9 http://www.di.unipi.it/grin/Riviste2005.htm 4 fatto che la classificazione GRIN viene usata in pratica anche per valutare le persone, al fianco di misure bibliometriche. Di fatto, se si vuole dare oggettività ad una valutazione non si può che ricorrere a misure di un qualche tipo, che superino l’opinabilità del giudizio che una persona formula sul lavoro di un’altra persona. Ragionando con colleghi dell’area umanistica mi sono sentito spesso dire che non esistono classificazioni di qualità delle pubblicazioni nelle loro discipline, dove le riviste sfuggono agli indicatori bibliometrici. Se questo è vero per l’IF, che trascura o penalizza fortemente molte aree disciplinari, mi pare più difficile sostenerlo per una misura come lo h-index. Ad esempio, se cerco “Giorgio Agamben” su Scholar Google vedo che i suoi (molti) libri sono assai citati e il suo h-index è assai elevato. In più, guardando oltre i nostri confini si scopre che ci sono iniziative importanti per la produzione di classificazioni di valore per i prodotti della ricerca umanistica. Uno strumento importante mi pare il già citato European Reference Index for the Humanities della European Science Foundation. In questo caso, il caveat è addirittura raddoppiato. Oltre a raccomandare la non utilizzazione per la valutazione degli individui, in questo caso si dice addirittura che le tre categorie A, B, e C non sono di qualità ma indicano piuttosto “scope and audience”. In realtà, andando a leggere bene le linee guida per la compilazione di queste liste si vede che la qualità è la misura principale, se in classe A ci possono stare non più del 25% dei titoli e devono essere “high-ranking international publications”. E’ anche interessante che si sottolinei la presenza di attributi quali “open to unsolicited contributions” e “highly discriminating and selective”, a ribadire che questi concetti non sono scontati in area umanistica. Tra le liste di ERIH c’è quella su Art, Architectural and Design History, dove compaiono titoli di interesse per la Unità di Ricerca Interazione che sfuggono alle liste disciplinari dell’informatica. Ad esempio, ci sono Design Issues e Design Studies (IF 1.1017) in classe A, e nella stessa classe troviamo la rivista italiana di carattere storico Annali di Architettura. Le riviste italiane di architettura Domus, Ottagono e Casabella sono in classe B. La rivista di arte e tecnologia Leonardo, di MIT Press, è di classe C. Anche se il titolo di questa lista pone l’enfasi su History, molte tra le riviste presenti non si possono definire riviste di storia. A me pare, ma sono curioso di sentire altre opinioni, che questa classificazione abbia una utilità generale e debba essere presa in seria considerazione. Una lista di riviste rilevanti per una scienza del design si trova presso http://www.designandscience.org/. Tra le sedici riviste indicate, cinque sono anche incluse nella lista di ERIH. A fronte di questi lavori di classificazione piuttosto avanzati, ogni tentativo locale di definire la qualità dei prodotti di ricerca di una disciplina rischia di apparire velleitario. Piuttosto, si potrebbe pensare di avanzare istanze per rendere queste liste più complete e attendibili. A tale proposito, si nota che l’area di Ingegneria Civile e Architettura si ı̀mpegnata a far approvare al Consiglio Universitario Nazionale una lista delle “riviste ad alto contenuto scientifico” entro il 31 marzo 200910 . Un discorso speciale andrebbe fatto per chi in Italia si occupa di disegno industriale, e viene spesso collocato sotto l’ombrello disciplinare dell’architettura. Tra le tre riviste italiane di architettura di classe B, solo Ottagono è dedicata specificamente al disegno industriale. Per Domus, Ottagono e Casabella i costi di gestione sembrano 10 http://www.cun.it/Documenti/DocumentiLavoro/2009/Area8.pdf 5 condizionare le scelte editoriali e rendere assai influente la raccolta pubblicitaria delle aziende di settore (architettura, edilizia, arredo) rispetto alla selezione dei contributi. Nella maggior parte dei casi il tipo di titoli pubblicati riguarda aspetti storici o divulgativi del disegno industriale, e solo raramente vengono accettati articoli di carattere metodologico o frutto di ricerche. Invece, non sono incluse nelle liste le riviste italiane che sono espressione della comunità scientifica propria del settore disegno industriale, come DIID Disegno Industriale – Industrial Design o Progetto grafico, rivista dellAIAP, associazione italiana progettazione per la comunicazione visiva. Queste riviste offrono un concreto contributo allo sviluppo della disciplina, ma hanno una circolazione limitata e non sono disponibili in alcun modo in forma elettronica. La presenza sul web è ormai una caratteristica irrinunciabile per una rivista che voglia presentarsi come voce autorevole e dotata di visibilità internazionale. Un’altra comunità di interesse per l’Unità di Ricerca Interazione è quella rappresentata in Italia dalla Associazione Italiana di Studi Semiotici. Questa associazione ha costituito un gruppo di lavoro con il compito di formulare una classificazione delle riviste. I risultati saranno presentati alla fine del 2009. 3.3 Uso delle misure Prendiamo a riferimento la comunità scientifica degli informatici, ben rappresentata in Italia da GRIN. Una associazione europea è Informatics Europe. Il GRIN ha recentemente risposto alle richieste del Ministero dell’Istruzione, dell’Università e della Ricerca di formulare proposte atte ad individuare alcuni indicatori di qualità relativi all’attività scientifica e di ricerca, in relazione ai diversi livelli concorsuali. La risposta consiste in un documento di due pagine11 nel quale si raccomanda l’utilizzazione di più indicatori di qualità, e l’adozione di indicatori bibliometrici per la determinazione di soglie minime per l’accesso alle tre fasce della docenza. Per le soglie minime si raccomanda lo h-index calcolato escludendo le autocitazioni. In generale, il GRIN adotta le linee guida delineate da Informatics Europe [8], che seguono a distanza di quasi dieci anni il lavoro della americana Computing Research Association. Queste linee guida tengono conto di alcune specificità disciplinari: • Ci sono persone che pubblicano preferibilmente in atti di convegni, e diversi convegni (e.g., SIGGRAPH, CHI) hanno tassi di accettazione inferiori al 20%, cioè sono più selettivi della maggior parte delle riviste; • Alcuni lavori di grande importanza appaiono in forma di libro (e.g., Knuth’s The Art of Computer Programming). L’impatto di questi lavori si può facilmente misurare con strumenti quali Scholar Google; • Alcuni artefatti (prodotti, software) possono avere un valore di ricerca assai alto, anche se non accompagnato da rilevanti pubblicazioni. Il valore è desumibile dalla svolta di innovazione innescata dall’artefatto, dalla sua diffusione, e dalla sua adozione in altre realizzazioni. 11 http://www.di.unipi.it/grin/verbass/indicatori-minimi-qualita-proposta-GRIN-approvata-per-CUN-v13.pdf 6 E’ interessante notare come queste specificità non siano poi strettamente tali. Almeno le ultime due, per esempio, possono caratterizzare anche il settore del design in generale. I criteri dominanti, in ogni caso, sono il riconoscimento attraverso citazione o utilizzazione, e la selettività dei contesti nei quali i lavori appaiono. Se entrambi questi criteri non sono soddisfatti per un dato prodotto di ricerca, il suo valore è inevitabilmente basso. Ciò non esclude, naturalmente, che il valore attribuito ad un prodotto possa rimanere basso per un lungo tempo per poi subire una impennata improvvisa. La storia dell’arte, come quella della scienza, è piena di personaggi che sono considerati a lungo degli imbratta-tele, ma non per questo possiamo dare valore a tutte le tele imbrattate che vengono prodotte nel nostro tempo. Nello stesso documento di Informatics Europe ci sono anche due importanti raccomandazioni sull’uso degli indicatori bibliometrici, che trovano ragionevole applicazione sia agli individui sia alle strutture: • Le misure numeriche quali il numero di citazioni non devono mai essere usate come unico strumento di valutazione. Esse devono essere filtrate dall’interpretazione umana, in modo da evitare errori, e complementate da peer review e dalla valutazione di prodotti diversi dalle pubblicazioni; • Il conteggio delle pubblicazioni non fornisce un indicatore adeguato del valore della ricerca. Esso misura la produttività, non la qualità né l’impatto; • Gli indicatori numerici non possono servire a fare confronti tra discipline diverse. 4 Sul peer review Leggiamo nelle linee guida di ERIH: “In alcune tradizioni disciplinary il peer-review non è una procedura familiare. E’ scopo di ERIH quello di incoraggiare le più importanti riviste ad adottare un sistema di peer-review coerente.” Quindi esiste una parte consistente del mondo accademico di area umanistica, di cui ERIH è espressione, la quale ritiene necessario adottare pratiche da tempo consolidate in ambiente scientifico. In informatica, ad esempio, quando si invia un lavoro per la pubblicazione presso una rivista o un convegno di rango elevato esso viene inviato ad alcuni (mediamente tre) revisori anonimi che lo analizzano, esprimono un giudizio ed una raccomandazione per la pubblicazione (o la bocciatura) ed eventualmente una serie di richieste di emendamento. Una simile forma di review è anche effettuata dagli uffici brevetti di Stati Uniti e Unione Europea, per la tutela delle opere dell’ingegno. Sia per le pubblicazioni sia per i brevetti si può dire che questi sono sostanzialmente privi di un valore riconoscibile fino al momento in cui tale processo di review non si è completato, spesso in un tempo superiore all’anno dalla data di invio. Il peer review, però, non è sempre stato pratica diffusa e accettata, nemmeno nelle comunità, quale è ad esempio quella dei fisici, che oggi lo danno per scontato. Ad esempio, è noto che Albert Einstein produsse tutti i suoi lavori fino al 1933 in lingua tedesca, senza che questi fossero sottosposti ad alcun processo di peer review. Piuttosto, i meccanismi di pubblicazione in fisica nell’Europa degli anni trena del novecento erano abbastanza simili a quelli che si possono oggi riscontrare in alcune aree della 7 ricerca umanistica, dove il curatore di una rivista gode di molta libertà e autonomia nella scelta dei contributi. E’ anche noto che Einstein ebbe un impatto assai sgradevole con la prassi del peer review che si andava imponendo negli Stati Uniti, tanto è vero che nel 1936 egli ebbe un duro scontro con il curatore del Physical Review a seguito di una bocciatura (ben fondata) di un suo lavoro [7]. In questa luce, si possono ben capire le resistenze che ancora oggi permangono in certi ambiti di ricerca all’adozione di procedure di peer review. In più, nelle comunità dove il peer review si dà per scontato, stanno emergendo problemi di sostenibilità del sistema, e opportunità di meccanismi alternativi, basati sull’impiego su larga scala del web. La crescita continua del numero di convegni, riviste, e altri luoghi di pubblicazione rende difficile il reperimento di revisori capaci ed affidabili. Quelli che hanno queste caratteristiche tendono ad essere sovraccaricati di lavoro. I lavori pubblicati sono sempre più spesso dotati di appendici multimediali e hanno caratteristiche di trasformabilità dinamica che sfuggono alla rigidità del processo di peer review. Di conseguenza, la diffusione dei risultati della ricerca sempre più si avvale di strumenti basati sulle comunità web, come i sistemi di reputazione o di raccomandazione, o le certificazioni di materiali già pubblicati. In generale, si va verso forme di certificazione di qualità post-pubblicazione [6] e di costruzione automatica di reputazione, sia per gli autori, sia per i revisori [2]. Un fenomeno diverso, ma collegato, è la diffusione di riviste open access, che ha assunto dimensioni ragguardevoli con l’affermarsi in campo medico-biologico delle riviste della Public Library of Science12 . Il modello economico che sta alla base di queste riviste è ribaltato rispetto a quello tradizionale, nel quale la sopravvivenza delle riviste è garantita dai costosi abbonamenti, che spesso solo le biblioteche più ricche possono permettersi. Viceversa, nel modello open access tutti gli articoli sono accessibili a tutti i lettori con un accesso alla rete, con evidente beneficio per la diffusione della scienza. Poiché, però, la produzione di una rivista di qualità ha dei costi rilevanti, le risorse che non provengono dagli abbonamenti non possono che essere prelevate dagli autori dei lavori pubblicati. In effetti, sono gli autori i principali beneficiari di una pubblicazione su una rivista prestigiosa, e come portatori primari di interesse è ragionevole che siano essi stessi a contribuire ai costi del processo di pubblicazione. Motivate da questa necessità, da tempo le principali agenzie che finanziano la ricerca (Unione Europea, National Science Foundation, ecc.) chiedono di includere la voce dissemination tra le principali voci di spesa di ogni progetto di ricerca. Nel campo dell’informatica, e in particolare dell’informatica che interessa all’Unità di Ricerca Interazione, godono di particolare prestigio le pubblicazioni dell’Institute of Electrical and Electronics Engineers (IEEE) e della Association for Computing Machinery (ACM). Per la pubblicazione sulle riviste di ACM e IEEE il pagamento di un page charge (di circa cento dollari a pagina stampata) non è obbligatorio, ma è considerato una buona pratica che le istituzioni di ricerca dovrebbero incoraggiare, attraverso i capitoli di spesa in dissemination. Queste associazioni professionali, infatti, non hanno scopo di lucro e riescono a diffondere le proprie pubblicazioni con abbonamenti non troppo onerosi, in special modo attraverso le loro digital libraries. Si può considerare questa una via intermedia tra quella tradizionalmente proposta dalle case editrici commerciali e quella open access che si va via via diffondendo. 12 http://www.plos.org/ 8 Il processo di assicurazione della qualità e quello di finanziamento delle spese di pubblicazione, sebbene sostanzialmente ortogonali, possono interferire tra di loro se si adottano certi modelli di diffusione della ricerca scientifica. In particolare, è noto a tutti che esistono molte case editrici che, a fronte di un pagamento delle spese di pubblicazione, offrono dei servizi di stampa e diffusione prescindendo da qualsiasi controllo di qualità. L’idea è che ci si possa comprare la pubblicazione. Poiché a molti ricercatori è capitato di usare questo modello, che peraltro ha la sua utilità, può maturare in qualcuno il convincimento etico che le pubblicazioni di qualità non possano essere pagate dagli autori. La pratica di pubblicazione in molti settori della scienza e della tecnica dimostra, al contrario, che molte eccellenti riviste richiedono un pagamento all’autore, garantendo per contro una accessibilità molto ampia ai materiali pubblicati. La assicurazione di qualità. quindi, prescinde dal modello economico adottato da una rivista. 5 Comunità diverse, prodotti diversi E’ evidente che, anche all’interno di una piccola Unità di Ricerca, possono coesistere persone appartenenti a comunità scientifiche diverse, con diverse pratiche di pubblicazione di prodotti di ricerca. E’ necessario quindi fornire criteri diversi che consentano di dare dignità ai diversi prodotti, pur tenendo fermi i requisiti di qualità, sanciti in primo luogo da impatto del prodotto e selettività della sede (convegno, rivista, casa editrice, ecc.) che lo ospita. Per avere una prima grezza indicazione, si può vedere cosa richiede lo European Research Council13 a color che aspirano ad un Advanced Grant. Prima di esaminare la qualità del progetto, si valuta la qualità del proponente, con i seguenti requisiti minimi ottenuti negli ultimi dieci anni di lavoro: • 10 pubblicazioni nelle principali riviste scientifiche internazionali peer-reviewed, oppure • 3 importanti monografie di ricerca, almeno una delle quali tradotta in una seconda lingua. Possono inoltre concorrere alla valutazione • 5 brevetti concessi, • 10 presentazioni a invito in convegni o scuole avanzate di riconosciuto prestigio, • riconoscimenti internazionali quali premi scientifici o nomine in accademie di alto prestigio, • altro... La prima importante discriminazione si ha tra scienza e ingegneria, dove i prodotti più importanti sono gli articoli su rivista, e le scienze umane e sociali, dove i prodotti più importanti sono i libri. Le altre cose sono accessorie, ma possono contribuire a migliorare il risultato della valutazione. Per i libri, è difficile stabilire un indicatore di 13 http://erc.europa.eu/pdf/ERC Guide for Applicants.pdf 9 qualità. Sicuramente, se il libro viene tradotto in maniera indipendente significa che ha avuto un impatto internazionale. Poi, si potrebbe vedere il prestigio delle case editrici e delle collane, sempre rispetto alla selettività. Sicuramente, pubblicare per Morgan Kaufmann o per Wiley significa aver superato una valutazione molto attenta da parte dell’editore, nella quale viene esercitata una forma di peer review. Alla fine, però, mi pare che il numero di citazioni che un certo libro ottiene sia l’indicatore più attendibile del suo impatto, a prescindere dalla collocazione editoriale. Le 2917 citazioni che Scholar Google restituisce per la serie di libri di Donald Knuth dicono da sole che si tratta di una pietra miliare dell’informatica, e il fatto che sia pubblicata da AddisonWesley è, tutto sommato, irrilevante. Per l’Unità di Ricerca Interazione può avere un particolare interesse la valutazione degli artefatti, già inclusa nelle linee guida di Informatics Europe. In questa categoria possono rientrare i prototipi e addirittura i concept se questi, ancora una volta, producono un impatto misurabile sull’avanzamento della disciplina. Un caso esemplare è quello della marble answering machine di Durrel Bishop. Proposta come concept dal Bishop studente al Royal College of Art, è considerata come uno dei primi esempi di tangible computing, e fu consacrata dall’articolo presentato al convegno CHI 1997 da Ishii e Ullmer (1672 citazioni in Scholar Google) [5]. Il valore di questo oggetto, o idea di oggetto, è evidente. 6 Criteri per l’Unità Interazione Questo documento ha come principale scopo quello di avviare una discussione sul tema della valutazione della ricerca all’interno dell’Area di Rappresentazione, Comunicazione e Interazione. Le posizioni espresse in questo documento dovrebbero essere soggette a revisione critica continua, sia perché il dibattito su questo tema non dovrebbe mai cessare, sia perché le pratiche di pubblicazione e valutazione adottate dalle comunità scientifiche vanno modificandosi nel tempo. La sezione più instabile di un documento per sua natura instabile è quella che lo conclude, con l’indicazione di alcuni criteri che l’Unità di Ricerca Interazione intende darsi per l’autovalutazione dei propri prodotti della ricerca, ovvero per proporre a valutatori esterni alcuni riferimenti e misure. L’estrazione di alcuni criteri potrebbe risultare come prodotto implicito dei temi affrontati nelle sezioni precedenti, ma preferisco inserire esplicitamente una sezione conclusiva sui criteri per ragioni di chiarezza. Non si può aspirare ad avere valutazioni equilibrate del nostro lavoro se non siamo noi stessi in grado di esprimere in maniera chiara il modo in cui intendiamo essere valutati. Comincio ad abbozzare questi criteri, partendo dall’area informatica, nella speranza che il dibattito con i colleghi dell’intera Area Tematica arricchisca in futuro questa sezione. • Per gli articoli che trovano pubblicazione su rivista si deve tenere conto delle classificazioni prodotte da gruppi di esperti e adottate da associazioni scientifiche o istituzioni internazionali. In particolare, per l’informatica si adotta la classificazione delle riviste del GRIN. Un riferimento utile per il design è lo European Reference Index for the Humanities. Pur se queste classificazioni riguardano le 10 riviste e non i singoli articoli, è utile confrontare due articoli attraverso la classe delle riviste che li ospitano, integrando il confronto con strumenti bibliometrici quali il numero di citazioni. L’IF si può usare solo se le riviste oggetto del confronto sono dello stesso genere e ambito. • Qualsiasi sia il prodotto di ricerca considerato, il suo impatto presso la comunità scientifica ne fornisce una misura di valore. Per gli articoli e per i libri, tale impatto si misura attraverso le citazioni che ricevono, misurate ad esempio con Google Scholar. Per altri tipi di prodotto si devono definire analoghe misure di impatto. Ad esempio, per un modulo software una misura di impatto è rappresentata dal suo grado di adozione in altri prodotti proposti da sviluppatori indipendenti. • E’ importante produrre, per quanto possibile, evidenze della selettività degli ambiti nei quali una ricerca viene diffusa. In particolare, l’importanza di una comunicazione a convegno risulta evidenziata da una misura del tasso di selettività del convegno stesso. • Nei prodotti attribuibili a più autori bisogna tenere conto delle istituzioni di afferenza degli stessi, in maniera da pesare in misura proporzionalmente maggiore quei prodotti che sono principalmente frutto della ricerca dell’Area Tematica. • Devono essere evidenziati quei prodotti che sono destinatari di premi (ad esempio per il miglior articolo a convegno) o vincitori di concorsi (e.g., design contest). Detti prodotti hanno già superato una importante fase di valutazione indipendente. Nel proporre un prodotto all’attenzione di un comitato di valutazione, il proponente dovrà descriverne il valore in relazione ai criteri sopra elencati. Appendice: Novità La fine del 2008 è stata accompagnata da alcune importanti novità riguardanti la valutazione della ricerca. Intendo semplicemente segnalarle in questa appendice, in quanto ho potuto tenerne solo parzialmente conto nella stesura del documento. • Si è concluso nel Regno Unito il Research Assessment Exercise 2008, i cui risultati sono accessibili presso http://www.rae.ac.uk/. Si tratta della valutazione generale della ricerca presso le istituzioni del sistema di educazione superiore britannico. I criteri usati per l’informatica14 e per design e arti15 possono costituire utili riferimenti. • Il Consiglio Universitario Nazionale ha pubblicato presso http://www.cun.it/DocumentiLavoro/ una prima bozza degli indicatori di attività 14 http://www.rae.ac.uk/pubs/2006/01/docs/f23.pdf 15 http://www.rae.ac.uk/pubs/2006/01/docs/o63.pdf 11 scientifica e di ricerca. Sostanzialmente, ciascuna area ha autonomamente proposto dei requisiti minimi per l’accesso alle fasce della docenza. Una lettura comparativa del lavoro delle aree, agevolata dal sito http://www.pubblicoergosum.org/?cat=22, fa emergere un panorama assai variegato, con aree che si rifiutano di considerare l’impatto dei prodotti (es., area di Ingegneria Industriale e dell’Informazione) e aree che sull’impatto basano i propri criteri di valutazione (es., area di Matematica e Informatica). I criteri formulati in certe aree (es., Ingegneria Civile e Architettura) sembrano affetti da vizi logici e da una certa confusione nel mettere insieme prodotti di diversa natura. Come esempio di vizio logico si cita il fatto che al posto di un minimo, che dovrebbe essere un numero, viene proposto un intervallo (es. 6–10 prodotti per diventare ordinario), quasi a veicolare l’idea che di questi criteri non si può fare un uso troppo rigoroso. Ringraziamenti Ringrazio Davide Fornari ed Alvise Mattozzi per le utili informazioni relative rispettivamente alle discipline del disegno industriale e della semiotica. Riferimenti bibliografici [1] N. Bertazzoni, M. Galotti, F. Luglio, and talogo e valutazione ricerca - valorizzare tenze di ateneo. Notizie dal CINECA, http://www.cineca.it/pubblicazioni/notiziario/u gov G. Ponti. U-GOV cai risultati e le compen. 60, CINECA, 2007. ricerca.pdf. [2] J. Crowcroft, S. Keshav, and N. McKeown. Viewpoint – scaling the academic publication process to internet scale. Commun. ACM, 52(1):27–30, 2009. [3] A. Figà Talamanca. L’impact factor nella valutazione della ricerca e nello sviluppo dell’editoria scientifica. In IV Seminario - Sistema Informativo Nazionale per la Matematica, Lecce, 2000. http://siba2.unile.it/sinm/4sinm/interventi/fig-talam.htm. [4] B. S. Frey and M. Osterloh. Evaluations: Hidden costs, questionable benefits, and superior alternatives. IEW working paper no. 302, University of Zürich, 2006. http://www.iew.uzh.ch/wp/iewwp302.pdf. [5] H. Ishii and B. Ullmer. Tangible bits: towards seamless interfaces between people, bits and atoms. In CHI ’97: Proceedings of the SIGCHI conference on Human factors in computing systems, pages 234–241, New York, NY, USA, 1997. ACM. [6] C. M. Kelty, C. S. Burrus, and R. G. Baraniuk. Peer review anew: Three principles and a case study in postpublication quality assurance. Proceedings of the IEEE, 96(6):1000–1011, 2008. http://cnx.org/news/news/peer-review-anew-ProcIEEEjune08.pdf. 12 [7] D. Kennefick. Einstein versus the physical review. Physics Today, 58(9):43–48, 2005. [8] B. Meyer, C. Choppy, J. Staunstrup, and J. van Leeuwen. Research evaluation for computer science. Communications of the ACM, 2008. To appear: http://www.informaticseurope.org/ECSS08/papers/Research evaluation CACM.pdf. [9] R. Perotti. L’Università Truccata. Einaudi, 2008. 13