Uso della statistica nei contributi scientifici pubblicati su
Transcript
Uso della statistica nei contributi scientifici pubblicati su
CONTRIBUTI SCIENTIFICI SCIENTIFIC PAPERS Uso della statistica nei contributi scientifici pubblicati su Biochimica Clinica: problemi e proposte* Matteo Vidali, Giorgio Bellomo Laboratorio di Ricerche Chimico-Cliniche, Azienda Ospedaliero-Universitaria “Maggiore della Carità”, Dipartimento di Scienze Mediche, Università degli Studi del Piemonte Orientale “Amedeo Avogadro”, Novara ABSTRACT Use of statistics in articles published in Biochimica Clinica: problems and proposals. Misuse of statistics in scientific publications is a major issue since it could deeply and negatively influence medical research and clinical practice. In this work we have evaluated the appropriateness of statistical methods of articles published in Biochimica Clinica from January 2007 to December 2009. More than one third of the evaluated articles contained inappropriate statistical approaches. Moreover, the lack of a complete and detailed description of applied statistics made difficult the assessment of the appropriateness of some studies. We have included several references to stimulate better understanding of statistics and graph drawing and suggested possible solutions to increase the quality of published works. INTRODUZIONE La statistica è un linguaggio che, riducendo un ampio numero di dati a pochi parametri, consente di riassumere le caratteristiche essenziali di un fenomeno. Come ricercatori utilizziamo la statistica per disegnare uno studio, analizzare i dati, verificare ipotesi, validare metodi analitici, confrontarci con altri colleghi e valutare la letteratura scientifica pubblicata. Come ogni linguaggio naturale, anche la statistica ha i suoi simboli e le sue regole, la cui conoscenza e applicazione sono essenziali per una corretta comprensione e descrizione del fenomeno in studio. Tuttavia, in differenti campi di ricerca clinica e sperimentale si assiste spesso a violazioni, volute o ignorate, delle assunzioni alla base dei test statistici, ad un loro uso improprio, ad un impiego scorretto di grafici e tabelle (1-16). Inoltre, alcuni Autori, pur contravvenendo alle stesse norme della rivista scientifica selezionata, non specificano nemmeno i metodi statistici utilizzati, limitandosi a riportare unicamente il livello di significatività. A questo analfabetismo statistico contribuiscono tre atteggiamenti: da una parte quello di chi si rifiuta di imparare la materia perchè ne teme la complessità e la natura matematica, dall’altro quello di chi la snobba e la considera puro strumento per manipolare a piacimento i dati. Vi è poi chi con una minima differenza, ma statisticamente significativa, costruisce lavori fantasticando su nuove ipotesi patogenetiche, dimenticando tuttavia la differenza sostanziale tra clinicamente e statisticamente significativo (17-20). Il problema dell’inappropriatezza dei metodi statistici ha una profonda influenza, non solo sul singolo articolo, ma anche sull’intero corpus della letteratura scientifica e quindi, in ultima analisi, sulle nostre stesse conoscenze scientifiche. Questo aspetto è ben evidente nella problematica del “publication bias” e del “file drawer problem”, cioè nella tendenza a pubblicare con più facilità lavori che presentano risultati favorevoli (ovviamente statististicamente significativi), ad esempio al farmaco o all'intervento oggetto di studio, a scapito di quelli che non evidenziano una superiorità rispetto al confronto (21-26). Il “file drawer problem” consiste in particolare nel fatto che molti studi in una certa area, sebbene portati a termine, non vengono pubblicati, perché con risultati non statisticamente significativi, rimanendo quindi chiusi nel cassetto del ricercatore. L’errata metodologia statistica può contribuire ad entrambe queste situazioni: il ricercatore può infatti pubblicare un lavoro con associazioni statisticamente significative ottenute applicando erroneamente i metodi statistici, e quindi non necessariamente supportate dai dati, oppure lo stesso può decidere di non pubblicare uno studio con associazioni non statisticamente significative frutto di un povero disegno sperimentale (potenza dello studio non sufficiente) o dell’utilizzo di tecniche statistiche non adeguate. Pur ritenendo valido il principio di ricorrere a uno statistico/epidemiologo esperto in situazioni sperimentali complesse, è opportuno che ciascun professionista conosca e utilizzi le metodologie statistiche di base, al fine di leggere e interpretare correttamente il proprio e l’altrui lavoro. In questo studio abbiamo analizzato l’appropriatezza dei metodi statistici utilizzati negli articoli pubblicati su Biochimica Clinica (BC) nel periodo 20072009. Recentemente, numerose riviste scientifiche internazionali hanno iniziato un processo di revisione delle proprie norme di pubblicazione ormai datate, con la pro- *Questo lavoro è stato in parte presentato al 41° Congresso Nazionale SIBioC, 27-30 ottobre 2009, Napoli, sotto forma di poster (Biochim Clin 2009;33:503). 600 biochimica clinica, 2010, vol. 34, n. 6 CONTRIBUTI SCIENTIFICI SCIENTIFIC PAPERS duzione di istruzioni dettagliate per gli Autori e per i Revisori, con particolare attenzione alle metodologie statistiche utilizzate (5, 7, 27-36). Questo lavoro, apparentemente provocatorio, vuole essere invece di stimolo nell’evidenziare le debolezze eventualmente presenti nel processo di pubblicazione dei lavori su BC e nel cercare di porvi parzialmente rimedio, suggerendo anche alcune proposte e soluzioni. MATERIALI E METODI Lavori analizzati e criteri di valutazione Sono stati analizzati tutti i 53 Contributi Scientifici (questa denominazione è quella attualmente utilizzata dalla rivista) pubblicati su BC nel periodo gennaio 2007 dicembre 2009. I lavori considerati presentano un’ampia eterogeneità relativamente alle tematiche trattate, dalla validazione di nuove metodiche, al confronto di differenti metodi analitici, dalla presentazione dei risultati di programmi di VEQ, all’utilizzo di esami diagnostici già consolidati o di nuova introduzione in differenti contesti clinici. Le norme della rivista richiedono di descrivere in maniera esaustiva i metodi statistici utilizzati. Tutti i 53 contributi scientifici sono stati quindi valutati secondo i seguenti criteri: presenza della descrizione delle tecniche statistiche e/o del “software” statistico utilizzati in uno specifico paragrafo o in altre parti dell’articolo, appropriatezza dei test statistici impiegati, di eventuali grafici e/o tabelle (Tabella 1). Per ogni contributo scientifico è stata considerata la completezza della descrizione dei metodi statistici utilizzati, requisito fondamentale per una valutazione completa dell’appropriatezza dell’uso degli stessi. In mancanza di una completa descrizione, il giudizio della correttezza delle tecniche statistiche si è limitato ai metodi descritti. Analisi statistica successivamente importato in SPSS “statistical software” v. 15.0 (SPSS Inc.) per la successiva analisi statistica e grafica. Data la natura descrittiva di questo lavoro, sono presentati unicamente frequenze assolute e relative. I grafici sono stati realizzati utilizzando il linguaggio statistico R ver. 2.10.0 ed il “database” IgM (37) RISULTATI 9 dei 53 (17%) articoli considerati non erano valutabili per l’assenza di dati statistici o per la scarsa presenza di dati numerici (unicamente frequenze assolute e/o relative). Dei restanti 44 lavori (18 nel 2007, 9 nel 2008, 17 nel 2009), 21 (48%) (di cui 9 parzialmente) contenevano un paragrafo nella sezione Metodi con l’indicazione dei test statistici adottati, della verifica delle assunzioni e di eventuali indici descrittivi. Tre dei 9 articoli con un’indicazione parziale riportavano altre informazioni, sebbene non complete, all’interno della sezione Risultati. Dei rimanenti 23, 2 e 7 riportavano, rispettivamente, informazioni complete o parziali in altre parti del testo (Risultati, Discussione, Grafici e/o Tabelle), mentre in 14 (32%) non era presente alcuna indicazione. In soli 4 (9%) articoli vi era l’indicazione del “software” statistico utilizzato; sulla base dei risultati, dei grafici e delle tabelle presentati, in 16 (36%) e in 6 (14%) lavori era ipotizzabile, rispettivamente, l’uso di pacchetti statistici professionali (il cui nome non era però riportato) o del “software” Microsoft Excel; nei restanti 18 (41%) non era possibile identificare, né ipotizzare il “software” utilizzato. Relativamente ai metodi statistici dichiarati, in 25 (57%) articoli i metodi statistici applicati erano formalmente corretti; 10 di questi non erano tuttavia valutabili nella loro interezza a causa di una descrizione non completa delle tecniche statistiche utilizzate. 18 (41%) contributi utilizzavano metodi inadatti e/o presentavano violazioni delle assunzioni di test utilizzati. Un lavoro non era valutabile per la mancanza completa di informazioni. Dei I dati raccolti sono stati organizzati in un “database”, Tabella 1 Descrizione dei criteri utilizzati per la valutazione dei Contributi Scientifici esaminati Criterio Valutazione Descrizione delle tecniche statistiche utilizzate in uno specifico paragrafo della sezione Metodi Presente Non presente Incompleta Descrizione delle tecniche statistiche utilizzate in altre parti dell’articolo Presente Non presente Incompleta Descrizione del “software” statistico utilizzato Presente – “software” professionale Presente – “software” non professionale Non presente – ipotizzabile Non presente – non ipotizzabile Appropriatezza dei metodi statistici Appropriati Non appropriati Non verificabile Appropriatezza di grafici e tabelle Appropriati Non appropriati Completezza della descrizione dei metodi utilizzati Completa Non completa biochimica clinica, 2010, vol. 34, n. 6 601 SCIENTIFIC PAPERS CONTRIBUTI SCIENTIFICI 18 lavori contenenti errori, 8 non riportavano una descrizione esaustiva dei metodi impiegati. Nel complesso, grafici e tabelle erano corretti ed informativi, con poche eccezioni di lavori contenenti tipologie di grafici sconsigliate o scorrette. DISCUSSIONE Più di un terzo degli articoli esaminati presentavano tecniche statistiche utilizzate in modo inappropriato. Ad eccezione di errori relativi a metodi statistici utilizzati specificatamente nell’ambito della Medicina di Laboratorio, in particolare nell’uso della correlazione e della regressione per il confronto e la validazione di nuove metodiche analitiche, la maggior parte delle inesattezze rilevate non differiscono da quelle riportate e largamente diffuse in molte riviste di ambito clinico o di ricerca (38). Per ragioni di spazio, non è stato possibile esaminare nel dettaglio tutte le situazioni evidenziate; il lettore potrà fare riferimento alla sezione bibliografica per gli errori più frequentemente documentati (1-16) e per il corretto utilizzo dei metodi statistici e la presentazione appropriata dei dati (39-56). In questa sede, ci limiteremo ad esaminare alcuni errori riscontrati, particolarmente significativi sia per frequenza che per la marcata influenza che possono avere avuto nell’ambito dei risultati presentati, proponendo anche alcuni suggerimenti. In questa discussione è doveroso ricordare che la eventuale dimostrazione di un utilizzo improprio dei metodi statistici non implica necessariamente che l’analisi dei dati condotta con tecniche corrette avrebbe sempre portato a conclusioni differenti negli stessi lavori. Tabulazione e verifica dei dati È questo un momento importante di un lavoro scientifico, che segue immediatamente al disegno sperimentale e alla raccolta dei dati. Dall’analisi dei lavori di BC non è ovviamente possibile capire se questa fase è stata condotta in modo appropriato; tuttavia, riteniamo utile riportare qui alcuni suggerimenti specificamente inerenti questi aspetti. I dati vanno inseriti in un “database” in cui ogni riga rappresenta un singolo caso, mentre ogni colonna una singola variabile (età, sesso, dosaggio, ecc.); se una variabile è misurata più di una volta, questa sarà inserita in colonne differenti (dosaggio1, dosaggio2; dosaggio pre, dosaggio post, ecc.). I dati inseriti devono essere successivamente controllati: un errore comune è quello di rappresentare un dato mancante con uno zero (o con un valore che può essere assunto da quella variabile), che tuttavia in fase di analisi sarà invece analizzato come un valore di zero, contribuendo così al calcolo di indici descrittivi o misure statistiche. Una verifica dei dati inseriti può essere effettuata tramite un’analisi descrittiva veloce (molti “software” implementano questa possibilità), che in genere comprende media, DS, valori mancanti, valore minimo e massimo per ogni variabile: questa procedura permette immediatamente di evidenziare valori anomali, spesso risultati da un’errata digitazione. 602 biochimica clinica, 2010, vol. 34, n. 6 Statistica descrittiva Una corretta presentazione dei dati è importante quanto la raccolta e l’analisi degli stessi. Nel descrivere i dati di una ricerca lo sperimentatore deve utilizzare adeguati indici statistici di tendenza centrale e di dispersione. La media e la DS vanno utilizzate solo in presenza di una distribuzione approssimativamente normale; in caso contrario, sono da preferire indici più robusti, quali mediana e intervallo interquartile (differenza terzo-primo quartile), a maggior ragione se successivamente si utilizzano test non parametrici per l’analisi dei dati. Talvolta, l’Autore per descrivere i propri dati utilizza l’errore standard (ES) invece della DS (47, 57). Sebbene questi termini vengano impiegati da molti in maniera indistinta, la loro interpretazione è differente; infatti l’ES non dovrebbe essere utilizzato per descrivere i propri dati, ma al contrario rappresenta un metodo di inferenza statistica utile per stimare le caratteristiche di una popolazione dall'osservazione di un campione. Mentre è comprensibile la difficoltà nell’utilizzare correttamente questi strumenti, bisogna ricordare che talvolta alcuni Autori utilizzano l’ES perché esso è numericamente minore della DS, essendo calcolato dividendo la DS per la radice quadrata della numerosità campionaria, ingannando quindi il lettore non attento con un’apparente ridotta variabilità del campione. Questo aspetto si ritrova spesso (ed è anche il caso di alcuni contributi analizzati) in combinazione con una delle tipologie di grafico più largamente diffuse nell’ambito di pubblicazioni scientifiche, in particolare nella ricerca di base, e tuttavia utilizzate in maniera impropria: il grafico a barre (Figura 1). Come evidenziato da Campbell (58), il grafico a barre dovrebbe essere utilizzato unicamente per rappresentare la distribuzione di variabile discrete o categoriche e non indici di tendenza centrale e di variabilità, come la media e la DS. Il lettore, nell’osservare tale grafico ribattezzato “dynamite plunger plot” per la forma che ricorda, è erroneamente portato a considerare la variabilità del campione come intervallo compreso tra la media (margine superiore della barra) e il baffo. In realtà, se il campione presenta una distribuzione gaussiana, questo intervallo, cioè media±1 DS, comprende solo circa il 68% dei valori del campione. La difficoltà aumenta se l’Autore ha utilizzato l’ES al posto della DS (Figura 1). Altre soluzioni vanno preferite al grafico a barra per rappresentare la distribuzione di variabili quantitative, tra le quali l’istogramma, il grafico a punti o, preferibilmente, il “box plot” (Figura 1). È significativo che nella maggior parte dei “software” statistici professionali non sia possibile realizzare grafici a barre per rappresentare media e DS, se non modificando artificiosamente il normale comando o algoritmo. Test statistici e significatività Poiché la distribuzione dei dati condiziona la scelta del test statistico, questa andrebbe sempre attentamente valutata e riportata nel testo. A tal fine il ricercatore può utilizzare test statistici (test di Wilk-Shapiro, test di Kolmogorov-Smirnov, test di Anderson-Darling) o stru- CONTRIBUTI SCIENTIFICI SCIENTIFIC PAPERS menti grafici come l’istogramma con il più sofisticato “Kernel density plot” o il “normal probability plot”. In presenza di distribuzioni palesemente asimmetriche o comunque non normali devono essere scelti i test non parametrici. In alternativa, si può rivalutare la normalità della distribuzione dopo trasformazione matematica della variabile in esame (logaritmo, radice quadrata, reciproco). Come per alcuni lavori di BC, anche nella letteratura internazionale è frequente osservare dati con distribuzione chiaramente asimmetrica analizzati con test parametrici senza l’indicazione della verifica delle assunzioni. Conoscendo le proprietà della distribuzione gaussiana non è difficile valutare l’asimmetria di una distribuzione utilizzando semplicemente la media e la DS presentate dall’Autore. Ad esempio, il campione descritto nella Figura 1 presenta una media e una DS rispettivamente pari a 0,80 g/L e 0,47 g/L. Sapendo che per una distribuzione gaussiana circa il 68%, il 95% e il 99% delle osservazioni sono comprese, rispettivamente, tra ±1, ±2 o ±3 DS intorno alla media, poiché già sottraendo da 0,80 due DS (0,47x2=0,94 g/L), si ottiene un valore di concentra- zione negativo, è abbastanza ovvio che la distribuzione delle osservazioni è asimmetrica e differente da quella gaussiana. È interessante ancora una volta notare come da un’osservazione non attenta del grafico a barre, questo problema potrebbe non essere colto (Figura 1). Inoltre, se è vero che i test statistici parametrici (in particolare, il test t di Student), poiché statisticamente robusti, possono essere applicati anche in presenza di una modesta asimmetria, occorre ricordare che i test generalmente utilizzati per valutare l’omoschedasticità (importante assunzione dei test statistici parametrici) sono invece sensibili alla condizione di normalità (59). I valori di P dovrebbero essere riportati esattamente e non semplicemente riferiti a valori convenzionali più o meno accettati, come “P = NS”, “P <0,05” o “P >0,05”. Inoltre, in presenza di confronti multipli (più di due gruppi), il valore di P dovrebbe essere corretto (correzione di Bonferroni o altre secondo il disegno sperimentale) per controllare l’errore di tipo I. Infine, è bene raccomandare, almeno per l’“endpoint” principale di uno studio, l’utilizzo degli intervalli di confidenza, in quanto il solo valore di probabilità (P) non dice nulla dell’entità dell’effetto. Nel confronto tra due gruppi (ad es., due trattamenti), l’intervallo di confidenza della differenza tra i due gruppi, piuttosto che il valore di P, permette al lettore di valutare se quella differenza è, oltre che statisticamente, anche clinicamente significativa. Correlazione e regressione Figura 1 Distribuzione della concentrazione sierica di IgM di 298 bambini rappresentata come grafico a barre (sinistra e centro) e “box plot” (destra). I due grafici a barre sono stati ottenuti utilizzando la media e, rispettivamente, la DS e l’ES. Dalla sommità delle due barre, pari alla media della concentrazione (0,80 g/L) si estendono due segmenti di lunghezza pari rispettivamente alla DS (0,47 g/L) e all’ES (0,03 g/L). Il “box plot” è invece costituito dalla scatola, che si estende dal 25° al 75° percentile, cioè l’intervallo interquartile (IQR), che comprende quindi il 50% delle concentrazioni dei soggetti esaminati, da una linea spessa (la mediana), da due baffi, che si estendono per una lunghezza massima pari a 1,5 volte l’IQR, e da punti isolati che indicano le osservazioni estreme. Come è evidente, il grafico a barre non permette una chiara rappresentazione della distribuzione fortemente asimmetrica della concentrazione di IgM di questo campione. Per la descrizione di questo campione, a media e DS devono quindi essere preferiti indici descrittivi più robusti, come mediana e IQR. Prima di calcolare qualsiasi coefficiente di correlazione (r) i dati dovrebbero essere visualizzati in un grafico a dispersione (“scatter plot”), potendo così verificare l’eventuale presenza di situazioni in cui l’uso della correlazione non è giustificato (insieme di dati non lineare, presenza di “outliers”, “cluster” di punti separati gli uni dagli altri). È bene inoltre ricordare che, se in un grafico a dispersione vengono mostrati dati con la sola indicazione di un r, è scorretto includere anche la retta di regressione, in quanto le due analisi significano cose differenti. Mentre infatti la correlazione può evidenziare un’associazione tra variabili, la regressione testa la dipendenza di una variabile da un’altra risultante in un’equazione matematica, permettendoci inoltre di fare predizioni. A questo riguardo, mentre nell’analisi di regressione è cruciale la scelta delle variabili dipendente (asse y) e indipendente (asse x), r non cambia scambiando le variabili. Quando si valuta un’associazione tra variabili è importante comprendere che associazione non significa necessariamente causalità e che bisogna quindi guardarsi dalle correlazioni spurie e indirette: potrebbe infatti esistere una terza variabile che lega le due in esame. Inoltre, come nel caso di altre tecniche statistiche, è necessario non fermarsi al solo valore di P, ma valutare la forza dell’associazione trovata. Una volta ottenuto r, possiamo calcolare anche il coefficiente di determinazione (r2), che esprime la variabilità della variabile dipendente spiegata dalla variabile indipendente. Ad esempio, per un r pari a 0,30, pur estremamente significativo (P <0,001), solo il 9% (0,32=0,09) della variabilità può esse- biochimica clinica, 2010, vol. 34, n. 6 603 SCIENTIFIC PAPERS CONTRIBUTI SCIENTIFICI re spiegato dall’associazione tra le due variabili studiate. Inoltre, necessita ricordare che, come per altri test statistici, campioni molto numerosi possono trasformare associazioni non clinicamente importanti in associazioni statisticamente significative. Negli articoli di BC analizzati, due sono gli ambiti in cui correlazione e regressione sono state usate in maniera impropria: gli articoli di validazione di nuove metodiche e quelli in cui si comparano due metodi analitici. Nei primi sono spesso descritte regressioni lineari in cui l’unico dato riportato, o apparentemente l’unico che interessa, è r2. In particolare, occorre sottolineare che la verifica delle assunzioni deve essere sempre eseguita e documentata, che per tale verifica non è sufficiente un replicato solo per livello di concentrazione (non si può infatti controllare l’omoschedasticità con un singolo replicato) e che se si utilizzano come replicati letture ripetute di un singolo campione (e non veri replicati cioè preparative diverse) si viola l’assunzione di indipendenza che è alla base della maggior parte di test statistici. Il lettore esperto che debba valutare un articolo in cui non sia documentata la verifica di queste assunzioni si chiederà se lo sperimentatore fosse autorizzato ad applicare la regressione lineare, piuttosto che altri modelli di regressione e, sapendo che in genere oltre 3-4 ordini di grandezza vi è un aumento statisticamente significativo della variabilità lungo gli intervalli di concentrazione, sospetterà che l’elevato r2 ottenuto non dipenda da un ottimo “fitting” del modello scelto, ma piuttosto dall’estensione dell’intervallo di concentrazione e dall’influenza del calibratore più alto, il che in genere determina una pessima predizione delle concentrazioni più basse. Per quanto riguarda i lavori di comparazione tra metodi analitici differenti, nonostante le molte pubblicazioni sull’argomento, vi è da sempre molta confusione sull’utilizzo di regressione e correlazione. A questo proposito, occorre notare che r misura la forza della relazione tra due variabili e non il loro accordo. Infatti, si ha pieno accordo fra due metodi solo se, dopo aver creato un diagramma a dispersione con in ascissa i valori ottenuti con un metodo e in ordinata quelli ottenuti con il secondo metodo, tutti i punti sono disposti lungo la linea di identità (bisettrice del primo quadrante) con coefficiente angolare uguale a 1 e intercetta uguale a 0. Avremmo comunque una perfetta correlazione anche se tutti i punti sono disposti lungo una qualsiasi retta che non sia y = x. Inoltre, la correlazione dipende dall’intervallo dei valori utilizzati: maggiore è l’intervallo di misura, maggiore è la correlazione (60). Sarebbe, infine, strano se due metodi progettati per misurare lo stesso analita non dimostrassero una correlazione alta. Un altro approccio spesso utilizzato erroneamente è la regressione lineare, in quanto questa tecnica ignora il fatto che entrambe le variabili, dipendente e indipendente, contengono un errore di misura (61, 62). Inoltre, la regressione lineare assume che l’errore casuale del metodo in ordinata è costante per tutto l’intervallo di valori esaminato (eteroscedasticità), condizione frequentemente violata in ambito clinico e/o laboratoristico. In effetti, i risultati della regressione lineare potrebbero 604 biochimica clinica, 2010, vol. 34, n. 6 essere accettati a condizione che l’errore casuale del metodo comparativo sia piccolo se confrontato con l’intervallo dei valori esaminati e quando i dati del metodo in ordinata (metodo test) non sono “significativamente” eteroscedastici (63). Quando ciò non avviene, altri modelli di regressione sono preferibili, ad es. la regressione di Deming (60, 63), in cui vengono minimizzati gli scarti sia della variabile dipendente che di quella indipendente, o la regressione non-parametrica di Passing e Bablock, che non richiede speciali assunzioni riguardo la distribuzione dei campioni e l’errore di misura (64). “Software” statistici Un ulteriore elemento che è importante specificare quando si scrive un articolo è il “software” statistico utilizzato per le analisi. Sebbene il numero delle monografie di argomento statistico basate su Microsoft Excel sia in costante aumento e nonostante questo “software” sia diffuso ampiamente anche in molti corsi universitari di statistica, bisogna segnalare che recentemente alcune pubblicazioni scientifiche hanno evidenziato come esso contenga algoritmi statistici non accurati (65). Preme sottolineare, tuttavia, che anche l’utilizzo di pacchetti statistici professionali non è garanzia di appropriatezza dei metodi statistici in quanto tali “software” eseguono comandi impartiti dall’operatore senza controllare o allertare in caso di scelta inappropriata del test. Ciò che maggiormente colpisce negli articoli esaminati in questo lavoro non sono gli errori più o meno gravi riscontrati quanto piuttosto l’assenza in molti contributi delle metodologie usate. La descrizione delle tecniche statistiche deve permettere al lettore in possesso dei dati originali di ripetere esattamente gli stessi calcoli pervenendo ai medesimi risultati. Come possono un revisore o un lettore giudicare l’attendibilità dei risultati se non è possibile valutare l’appropriatezza delle tecniche utilizzate per ottenerli? Nei lavori esaminati, gli esempi a questo proposito sono numerosi; ad esempio, confronti tra due o più gruppi senza specificare il test (parametrico o nonparametrico) ed eventualmente la correzione (Bonferroni o altre meno conservative) utilizzati oppure uso della regressione lineare senza la valutazione della distribuzione dei residui e senza aver verificato come cambia la variabilità lungo l’intervallo di concentrazione (omo o eteroschedasticità). Alcuni dei lavori presentati utilizzano soltanto una statistica descrittiva, mostrando unicamente indici quali media e DS, senza però motivarne la preferenza rispetto a misure più robuste, come mediana e intervallo interquartile. Ulteriori suggerimenti In conclusione a questo lavoro, vogliamo proporre alcune possibili soluzioni ai problemi evidenziati. In primo luogo, è imperativo che ognuno sia consapevole delle lacune della propria formazione statistica e che vi ponga rimedio. Sono oggi disponibili molti testi di statistica, anche gratuiti, stampati o consultabili “on-line”, completi di istruzioni e “tutorial” per i principali “software” statistici professionali. Altre fonti disponibili e interessanti CONTRIBUTI SCIENTIFICI SCIENTIFIC PAPERS sono rappresentate dalle serie di articoli di argomento statistico pubblicate su numerose riviste scientifiche (3956). Rimane ovviamente valido e consigliabile ricorrere ad uno statistico esperto qualora vi siano dubbi o il disegno dello studio e l’analisi dei dati siano particolarmente complesse. Questo studio dimostra anche che probabilmente una richiesta generica come quella presente attualmente nelle Istruzioni per gli Autori di BC non è sufficiente e che sarebbe necessario fornire all’Autore specifiche informazioni seguendo l’esempio di altre riviste scientifiche. Mentre alcune di esse hanno adottato già da anni istruzioni sufficientemente dettagliate, come quelle raccomandate dal Comitato Internazionale degli Editori delle Riviste Mediche (36), altre hanno sviluppato delle “checklist” come aiuto per Autori e Revisori per la descrizione e/o per la verifica dei risultati presentati (28, 29, 31, 32, 34). Ovviamente, il giudizio di accettabilità di un lavoro dovrebbe in questo caso essere subordinato anche all’aderenza dell’Autore alle “checklist” e/o istruzioni medesime. Infine, sarebbe molto importante creare all’interno della SIBioC, un gruppo di lavoro dedicato alla statistica nella Medicina di Laboratorio allo scopo di preparare “checklist” e/o istruzioni specifiche e documenti sul corretto utilizzo di particolari tecniche statistiche, di condividere esperienze, di progettare momenti formativi, anche per quanto riguarda l’utilizzo di “software” statistici, rivolti in particolare ai ricercatori più giovani, rappresentando in ultima analisi un riferimento per chi desidera raccogliere, elaborare e comprendere meglio i propri dati sperimentali. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. BIBLIOGRAFIA 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. Baccaglini L, Shuster JJ, Cheng J, et al. Design and statistical analysis of oral medicine studies: common pitfalls. Oral Dis 2010;16:233-41. Dar R, Serlin RC, Omer H. Misuse of statistical test in three decades of psychotherapy research. J Consult Clin Psychol 1994;62:75-82. Gardenier JS, Resnik DB. The misuse of statistics: concepts, tools, and a research agenda. Account Res 2002;9:65-74. Bryant TN. The presentation of statistics. Pediatr Allergy Immunol 1998;9:108-15. Chinn S. Statistics for the European Respiratory Journal. Eur Respir J 2001;18:393-401. Good PI, Hardin JW, ed. Common errors in statistics (and how to avoid them). New Jersey: Wiley-Interscience, 2006. Gore SM, Jones G, Thompson SG. The Lancet's statistical review process: areas for improvement by authors. Lancet 1992;340:100-2. Gore SM, Jones IG, Rytter EC. Misuse of statistical methods: critical assessment of articles in BMJ from January to March 1976. Br Med J 1977;1:85-7. Hoffmann O. Application of statistics and frequency of statistical errors in articles in Acta Neurochirurgica. Acta Neurochir 1984;71:307-15. Huff D, ed. How to lie with statistics. New York: W.W. Norton & Company, 1954. Kanter MH, Taylor JR. Accuracy of statistical methods in Transfusion: a review of articles from July/August 1992 through June 1993. Transfusion 1994;34:697-701. Kuzon WM Jr, Urbanchek MG, McCabe S. The seven 26. 27. 28. 29. 30. 31. 32. 33. 34 35. 36. deadly sins of statistical analysis. Ann Plast Surg 1996;37:265-72. MacArthur RD, Jackson GG. An evaluation of the use of statistical methodology in the Journal of Infectious Diseases. J Infect Dis 1984;149:349-54. Nyirongo VB, Mukaka MM, Kalilani-Phiri LV. Statistical pitfalls in medical research. Malawi Med J 2008;20:15-8. Puhan MA, ter Riet G, Eichler K, et al. More medical journals should inform their contributors about three key principles of graph construction. J Clin Epidemiol 2006;59:1017-22. Welch GE 2nd, Gabbe SG. Review of statistics usage in the American Journal of Obstetrics and Gynecology. Am J Obstet Gynecol 1996;175:1138-41. Akobeng AK. Confidence intervals and p-values in clinical decision making. Acta Paediatr 2008;97:1004-7. Bhardwaj SS, Camacho F, Derrow A, et al. Statistical significance and clinical relevance: the importance of power in clinical trials in dermatology. Arch Dermatol 2004;140:1520-3. Koretz RL. Is statistical significance always significant? Nutr Clin Pract 2005;20:303-7. Lopez-Jimenez F. Clinical interpretation of statistical significance. Rev Invest Clin 1996;48:231-8. Dubben HH, Beck-Bornholdt HP. Systematic review of publication bias in studies on publication bias. Br Med J 2005;331:433-4. Chalmers I. Underreporting research is scientific misconduct. JAMA 1990;263:1405-8. Easterbrook PJ, Berlin JA, Gopalan R, et al. Publication bias in clinical research. Lancet 1991;337:867-72. Harris IA, Mourad M, Kadir A, et al. Publication bias in abstracts presented to the annual meeting of the American Academy of Orthopaedic Surgeons. J Orthop Surg 2007;15:62-6. Hopewell S, Loudon K, Clarke MJ, et al. Publication bias in clinical trials due to statistical significance or direction of trial results. Cochrane Database Syst Rev 2009;1:MR000006. Reysen S. Publication of nonsignificant results: a survey of psychologists' opinions. Psychol Rep 2006;98:169-75. Goldin J, Zhu W, Sayre JW. A review of the statistical analysis used in papers published in Clinical Radiology and British Journal of Radiology. Clin Radiol 1996;51:4750. Brief statistical guide to Nature's requirements to assist authors. http://www.nature.com/nature/authors/gta/Statistical_checklist.doc British Medical Journal Statistician's checklist. http://resources.bmj.com/bmj/authors/checklists-forms/statisticians-checklist Altman DG, Simera I, Hoey J, et al. EQUATOR: reporting guidelines for health research. Lancet 2008;371:1149-50. Curran-Everett D, Benos DJ. Guidelines for reporting statistics in journals published by the American Physiological Society. Am J Physiol Endocrinol Metab 2004;287:E18991. Penny K. Editorial: Statistical guidelines for JCN. J Clin Nurs 2009;18:1521-2. Simera I, Altman DG, Moher D, et al. Guidelines for reporting health research: the EQUATOR network's survey of guideline authors. PLoS Med 2008;5:e139. Thomas E, Dore CJ. Statistical guidelines for contributors to Rheumatology. Rheumatology 2009;48:461. Clinical Chemistry and Laboratory Medicine - Guidelines for Authors. http://www.degruyter.com/files/down/instructions/cclmguide.pdf Uniform requirements for manuscripts submitted to biome- biochimica clinica, 2010, vol. 34, n. 6 605 SCIENTIFIC PAPERS CONTRIBUTI SCIENTIFICI 37. 38. 39. 40. 41. 42. 43. 44. 45. 46. 47. 48. 49. 50. 51. 52. 53. 54. 606 dical journals. International Committee of Medical Journal Editors. Ann Intern Med 1997;126:36-47. Altman DG. Practical statistics for medical research. London: Chapman & Hall, 1991. Altman DG. The scandal of poor medical research. Br Med J 1994;308:283-4. Altman DG, Bland JM. Quartiles, quintiles, centiles, and other quantiles. Br Med J 1994;309:996. Altman DG, Bland JM. Diagnostic tests. 3: Receiver operating characteristic plots. Br Med J 1994;309:188. Altman DG, Bland JM. Diagnostic tests. 1: Sensitivity and specificity. Br Med J 1994;308:1552. Altman DG, Bland JM. Statistics notes: the normal distribution. Br Med J 1995;310:298. Altman DG, Bland JM. Detecting skewness from summary information. Br Med J 1996;313:1200. Altman DG, Bland JM. Comparing several groups using analysis of variance. Br Med J 1996;312:1472-3. Altman DG, Bland JM. Presentation of numerical data. Br Med J 1996;312:572. Altman DG, Bland JM. Statistics notes: variables and parameters. Br Med J 1999;318:1667. Altman DG, Bland JM. Standard deviations and standard errors. Br Med J 2005;331:903. Bland JM, Altman DG. One and two sided tests of significance. Br Med J 1994;309:248. Bland JM, Altman DG. Regression towards the mean. Br Med J 1994;308:1499. Bland JM, Altman DG. Correlation, regression, and repeated data. Br Med J 1994;308:896. Bland JM, Altman DG. Transformations, means, and confidence intervals. Br Med J 1996;312:1079. Bland JM, Altman DG. Statistics notes. The odds ratio. Br Med J 2000;320:1468. Bland JM, Altman DG. Applying the right statistics: analyses of measurement studies. Ultrasound Obstet Gynecol 2003;22:85-93. Overholser BR, Sowinski KM. Biostatistics primer: part I. Nutr Clin Pract 2007;22:629-35. biochimica clinica, 2010, vol. 34, n. 6 55. 56. 57. 58. 59. 60. 61. 62. 63. 64. 65. Overholser BR, Sowinski KM. Biostatistics primer: part 2. Nutr Clin Pract 2008;23:76-84. Wallgren A, Wallgren B, Persson R, eds. Graphing statistics & data: creating better charts. Thousand Oaks: Sage Publications, 1996. Nagele P. Misuse of standard error of the mean (SEM) when reporting variability of a sample. A critical evaluation of four anaesthesia journals. Br J Anaesth 2003;90:514-6. Campbell MJ. How to present numerical results. In: Reece D, ed. How to do it. London: BMJ Publishing Group, 1995. Cardillo G. Omocisteina, stress ossidativo e alterata sintesi di monossido d’azoto nelle patologie coronariche: considerazioni sulla validità dei risultati. Biochim Clin 2009;33:273-4. Szmytkowski J, Kapala A, Dabrowiecki S. A comparison of stastical methods for the evaluation of diagnostic tests shown on the example of two methods of blood recirculation measurements in dialysis access. Polski Przeglad Chirurgiczny 2009;81:186-92. Altman DG, Bland JM. Measurement in medicine: the analysis of method comparison studies. The Statistician 1983;32:307-17. Cornbleet PJ, Gochman N. Incorrect least-squares regression coefficients in method-comparison analysis. Clin Chem 1979;25:432-8. Martin RF. General Deming regression for estimating systematic bias and its confidence interval in methodcomparison studies. Clin Chem 2000;46:100-4. Passing H, Bablok. A new biometrical procedure for testing the equality of measurements from two different analytical methods. Application of linear regression procedures for method comparison studies in clinical chemistry, Part I. J Clin Chem Clin Biochem 1983;21:709-20. McCullough BD, Heiser DA. On the accuracy of statistical procedures in Microsoft Excel 2007. Computational Statistics & Data Analysis 2008;52:4570-8.