Uso della statistica nei contributi scientifici pubblicati su

Transcript

CONTRIBUTI SCIENTIFICI
SCIENTIFIC PAPERS
Uso della statistica nei contributi scientifici pubblicati su Biochimica Clinica:
problemi e proposte*
Matteo Vidali, Giorgio Bellomo
Laboratorio di Ricerche Chimico-Cliniche, Azienda Ospedaliero-Universitaria “Maggiore della Carità”, Dipartimento di Scienze
Mediche, Università degli Studi del Piemonte Orientale “Amedeo Avogadro”, Novara
ABSTRACT
Use of statistics in articles published in Biochimica Clinica: problems and proposals. Misuse of statistics in
scientific publications is a major issue since it could deeply and negatively influence medical research and clinical
practice. In this work we have evaluated the appropriateness of statistical methods of articles published in Biochimica
Clinica from January 2007 to December 2009. More than one third of the evaluated articles contained inappropriate
statistical approaches. Moreover, the lack of a complete and detailed description of applied statistics made difficult
the assessment of the appropriateness of some studies. We have included several references to stimulate better
understanding of statistics and graph drawing and suggested possible solutions to increase the quality of published
works.
INTRODUZIONE
La statistica è un linguaggio che, riducendo un ampio
numero di dati a pochi parametri, consente di riassumere le caratteristiche essenziali di un fenomeno. Come
ricercatori utilizziamo la statistica per disegnare uno studio, analizzare i dati, verificare ipotesi, validare metodi
analitici, confrontarci con altri colleghi e valutare la letteratura scientifica pubblicata. Come ogni linguaggio naturale, anche la statistica ha i suoi simboli e le sue regole,
la cui conoscenza e applicazione sono essenziali per
una corretta comprensione e descrizione del fenomeno
in studio. Tuttavia, in differenti campi di ricerca clinica e
sperimentale si assiste spesso a violazioni, volute o ignorate, delle assunzioni alla base dei test statistici, ad un
loro uso improprio, ad un impiego scorretto di grafici e
tabelle (1-16). Inoltre, alcuni Autori, pur contravvenendo
alle stesse norme della rivista scientifica selezionata, non
specificano nemmeno i metodi statistici utilizzati, limitandosi a riportare unicamente il livello di significatività. A
questo analfabetismo statistico contribuiscono tre atteggiamenti: da una parte quello di chi si rifiuta di imparare
la materia perchè ne teme la complessità e la natura
matematica, dall’altro quello di chi la snobba e la considera puro strumento per manipolare a piacimento i dati.
Vi è poi chi con una minima differenza, ma statisticamente significativa, costruisce lavori fantasticando su nuove
ipotesi patogenetiche, dimenticando tuttavia la differenza
sostanziale tra clinicamente e statisticamente significativo (17-20).
Il problema dell’inappropriatezza dei metodi statistici
ha una profonda influenza, non solo sul singolo articolo,
ma anche sull’intero corpus della letteratura scientifica e
quindi, in ultima analisi, sulle nostre stesse conoscenze
scientifiche. Questo aspetto è ben evidente nella problematica del “publication bias” e del “file drawer problem”,
cioè nella tendenza a pubblicare con più facilità lavori
che presentano risultati favorevoli (ovviamente statististicamente significativi), ad esempio al farmaco o all'intervento oggetto di studio, a scapito di quelli che non evidenziano una superiorità rispetto al confronto (21-26). Il
“file drawer problem” consiste in particolare nel fatto che
molti studi in una certa area, sebbene portati a termine,
non vengono pubblicati, perché con risultati non statisticamente significativi, rimanendo quindi chiusi nel cassetto del ricercatore. L’errata metodologia statistica può
contribuire ad entrambe queste situazioni: il ricercatore
può infatti pubblicare un lavoro con associazioni statisticamente significative ottenute applicando erroneamente
i metodi statistici, e quindi non necessariamente supportate dai dati, oppure lo stesso può decidere di non pubblicare uno studio con associazioni non statisticamente
significative frutto di un povero disegno sperimentale
(potenza dello studio non sufficiente) o dell’utilizzo di tecniche statistiche non adeguate.
Pur ritenendo valido il principio di ricorrere a uno statistico/epidemiologo esperto in situazioni sperimentali
complesse, è opportuno che ciascun professionista
conosca e utilizzi le metodologie statistiche di base, al
fine di leggere e interpretare correttamente il proprio e
l’altrui lavoro. In questo studio abbiamo analizzato l’appropriatezza dei metodi statistici utilizzati negli articoli
pubblicati su Biochimica Clinica (BC) nel periodo 20072009. Recentemente, numerose riviste scientifiche internazionali hanno iniziato un processo di revisione delle
proprie norme di pubblicazione ormai datate, con la pro-
*Questo lavoro è stato in parte presentato al 41° Congresso Nazionale SIBioC, 27-30 ottobre 2009, Napoli, sotto forma di poster
(Biochim Clin 2009;33:503).
600
biochimica clinica, 2010, vol. 34, n. 6
SCIENTIFIC PAPERS
duzione di istruzioni dettagliate per gli Autori e per i
Revisori, con particolare attenzione alle metodologie statistiche utilizzate (5, 7, 27-36). Questo lavoro, apparentemente provocatorio, vuole essere invece di stimolo
nell’evidenziare le debolezze eventualmente presenti nel
processo di pubblicazione dei lavori su BC e nel cercare
di porvi parzialmente rimedio, suggerendo anche alcune
proposte e soluzioni.
MATERIALI E METODI
Lavori analizzati e criteri di valutazione
Sono stati analizzati tutti i 53 Contributi Scientifici
(questa denominazione è quella attualmente utilizzata
dalla rivista) pubblicati su BC nel periodo gennaio 2007 dicembre 2009. I lavori considerati presentano un’ampia
eterogeneità relativamente alle tematiche trattate, dalla
validazione di nuove metodiche, al confronto di differenti
metodi analitici, dalla presentazione dei risultati di programmi di VEQ, all’utilizzo di esami diagnostici già consolidati o di nuova introduzione in differenti contesti clinici.
Le norme della rivista richiedono di descrivere in
maniera esaustiva i metodi statistici utilizzati. Tutti i 53
contributi scientifici sono stati quindi valutati secondo i
seguenti criteri: presenza della descrizione delle tecniche statistiche e/o del “software” statistico utilizzati in
uno specifico paragrafo o in altre parti dell’articolo,
appropriatezza dei test statistici impiegati, di eventuali
grafici e/o tabelle (Tabella 1). Per ogni contributo scientifico è stata considerata la completezza della descrizione
dei metodi statistici utilizzati, requisito fondamentale per
una valutazione completa dell’appropriatezza dell’uso
degli stessi. In mancanza di una completa descrizione, il
giudizio della correttezza delle tecniche statistiche si è
limitato ai metodi descritti.
Analisi statistica
successivamente importato in SPSS “statistical software” v. 15.0 (SPSS Inc.) per la successiva analisi statistica e grafica. Data la natura descrittiva di questo lavoro,
sono presentati unicamente frequenze assolute e relative. I grafici sono stati realizzati utilizzando il linguaggio
statistico R ver. 2.10.0 ed il “database” IgM (37)
RISULTATI
9 dei 53 (17%) articoli considerati non erano valutabili per l’assenza di dati statistici o per la scarsa presenza di dati numerici (unicamente frequenze assolute e/o
relative). Dei restanti 44 lavori (18 nel 2007, 9 nel 2008,
17 nel 2009), 21 (48%) (di cui 9 parzialmente) contenevano un paragrafo nella sezione Metodi con l’indicazione
dei test statistici adottati, della verifica delle assunzioni e
di eventuali indici descrittivi. Tre dei 9 articoli con un’indicazione parziale riportavano altre informazioni, sebbene non complete, all’interno della sezione Risultati. Dei
rimanenti 23, 2 e 7 riportavano, rispettivamente, informazioni complete o parziali in altre parti del testo (Risultati,
Discussione, Grafici e/o Tabelle), mentre in 14 (32%)
non era presente alcuna indicazione. In soli 4 (9%) articoli vi era l’indicazione del “software” statistico utilizzato;
sulla base dei risultati, dei grafici e delle tabelle presentati, in 16 (36%) e in 6 (14%) lavori era ipotizzabile,
rispettivamente, l’uso di pacchetti statistici professionali
(il cui nome non era però riportato) o del “software”
Microsoft Excel; nei restanti 18 (41%) non era possibile
identificare, né ipotizzare il “software” utilizzato.
Relativamente ai metodi statistici dichiarati, in 25
(57%) articoli i metodi statistici applicati erano formalmente corretti; 10 di questi non erano tuttavia valutabili
nella loro interezza a causa di una descrizione non completa delle tecniche statistiche utilizzate. 18 (41%) contributi utilizzavano metodi inadatti e/o presentavano violazioni delle assunzioni di test utilizzati. Un lavoro non era
valutabile per la mancanza completa di informazioni. Dei
I dati raccolti sono stati organizzati in un “database”,
Tabella 1
Descrizione dei criteri utilizzati per la valutazione dei Contributi Scientifici esaminati
Criterio
Valutazione
Descrizione delle tecniche statistiche utilizzate in uno specifico paragrafo
della sezione Metodi
Presente
Non presente
Incompleta
Descrizione delle tecniche statistiche utilizzate in altre parti dell’articolo
Presente
Non presente
Incompleta
Descrizione del “software” statistico utilizzato
Presente – “software” professionale
Presente – “software” non professionale
Non presente – ipotizzabile
Non presente – non ipotizzabile
Appropriatezza dei metodi statistici
Appropriati
Non appropriati
Non verificabile
Appropriatezza di grafici e tabelle
Appropriati
Non appropriati
Completezza della descrizione dei metodi utilizzati
Completa
Non completa
601
SCIENTIFIC PAPERS
18 lavori contenenti errori, 8 non riportavano una descrizione esaustiva dei metodi impiegati.
Nel complesso, grafici e tabelle erano corretti ed
informativi, con poche eccezioni di lavori contenenti tipologie di grafici sconsigliate o scorrette.
DISCUSSIONE
Più di un terzo degli articoli esaminati presentavano
tecniche statistiche utilizzate in modo inappropriato. Ad
eccezione di errori relativi a metodi statistici utilizzati
specificatamente nell’ambito della Medicina di
Laboratorio, in particolare nell’uso della correlazione e
della regressione per il confronto e la validazione di
nuove metodiche analitiche, la maggior parte delle inesattezze rilevate non differiscono da quelle riportate e
largamente diffuse in molte riviste di ambito clinico o di
ricerca (38). Per ragioni di spazio, non è stato possibile
esaminare nel dettaglio tutte le situazioni evidenziate; il
lettore potrà fare riferimento alla sezione bibliografica
per gli errori più frequentemente documentati (1-16) e
per il corretto utilizzo dei metodi statistici e la presentazione appropriata dei dati (39-56). In questa sede, ci limiteremo ad esaminare alcuni errori riscontrati, particolarmente significativi sia per frequenza che per la marcata
influenza che possono avere avuto nell’ambito dei risultati presentati, proponendo anche alcuni suggerimenti. In
questa discussione è doveroso ricordare che la eventuale dimostrazione di un utilizzo improprio dei metodi statistici non implica necessariamente che l’analisi dei dati
condotta con tecniche corrette avrebbe sempre portato a
conclusioni differenti negli stessi lavori.
Tabulazione e verifica dei dati
È questo un momento importante di un lavoro scientifico, che segue immediatamente al disegno sperimentale e alla raccolta dei dati. Dall’analisi dei lavori di BC
non è ovviamente possibile capire se questa fase è stata
condotta in modo appropriato; tuttavia, riteniamo utile
riportare qui alcuni suggerimenti specificamente inerenti
questi aspetti. I dati vanno inseriti in un “database” in cui
ogni riga rappresenta un singolo caso, mentre ogni
colonna una singola variabile (età, sesso, dosaggio,
ecc.); se una variabile è misurata più di una volta, questa sarà inserita in colonne differenti (dosaggio1, dosaggio2; dosaggio pre, dosaggio post, ecc.). I dati inseriti
devono essere successivamente controllati: un errore
comune è quello di rappresentare un dato mancante con
uno zero (o con un valore che può essere assunto da
quella variabile), che tuttavia in fase di analisi sarà invece analizzato come un valore di zero, contribuendo così
al calcolo di indici descrittivi o misure statistiche. Una
verifica dei dati inseriti può essere effettuata tramite
un’analisi descrittiva veloce (molti “software” implementano questa possibilità), che in genere comprende
media, DS, valori mancanti, valore minimo e massimo
per ogni variabile: questa procedura permette immediatamente di evidenziare valori anomali, spesso risultati da
un’errata digitazione.
602
Statistica descrittiva
Una corretta presentazione dei dati è importante
quanto la raccolta e l’analisi degli stessi. Nel descrivere i
dati di una ricerca lo sperimentatore deve utilizzare adeguati indici statistici di tendenza centrale e di dispersione. La media e la DS vanno utilizzate solo in presenza di
una distribuzione approssimativamente normale; in caso
contrario, sono da preferire indici più robusti, quali
mediana e intervallo interquartile (differenza terzo-primo
quartile), a maggior ragione se successivamente si utilizzano test non parametrici per l’analisi dei dati. Talvolta,
l’Autore per descrivere i propri dati utilizza l’errore standard (ES) invece della DS (47, 57). Sebbene questi termini vengano impiegati da molti in maniera indistinta, la
loro interpretazione è differente; infatti l’ES non dovrebbe essere utilizzato per descrivere i propri dati, ma al
contrario rappresenta un metodo di inferenza statistica
utile per stimare le caratteristiche di una popolazione
dall'osservazione di un campione. Mentre è comprensibile la difficoltà nell’utilizzare correttamente questi strumenti, bisogna ricordare che talvolta alcuni Autori utilizzano l’ES perché esso è numericamente minore della
DS, essendo calcolato dividendo la DS per la radice quadrata della numerosità campionaria, ingannando quindi il
lettore non attento con un’apparente ridotta variabilità del
campione. Questo aspetto si ritrova spesso (ed è anche
il caso di alcuni contributi analizzati) in combinazione
con una delle tipologie di grafico più largamente diffuse
nell’ambito di pubblicazioni scientifiche, in particolare
nella ricerca di base, e tuttavia utilizzate in maniera
impropria: il grafico a barre (Figura 1). Come evidenziato da Campbell (58), il grafico a barre dovrebbe essere
utilizzato unicamente per rappresentare la distribuzione
di variabile discrete o categoriche e non indici di tendenza centrale e di variabilità, come la media e la DS. Il lettore, nell’osservare tale grafico ribattezzato “dynamite
plunger plot” per la forma che ricorda, è erroneamente
portato a considerare la variabilità del campione come
intervallo compreso tra la media (margine superiore
della barra) e il baffo. In realtà, se il campione presenta
una distribuzione gaussiana, questo intervallo, cioè
media±1 DS, comprende solo circa il 68% dei valori del
campione. La difficoltà aumenta se l’Autore ha utilizzato
l’ES al posto della DS (Figura 1). Altre soluzioni vanno
preferite al grafico a barra per rappresentare la distribuzione di variabili quantitative, tra le quali l’istogramma, il
grafico a punti o, preferibilmente, il “box plot” (Figura 1).
È significativo che nella maggior parte dei “software” statistici professionali non sia possibile realizzare grafici a
barre per rappresentare media e DS, se non modificando artificiosamente il normale comando o algoritmo.
Test statistici e significatività
Poiché la distribuzione dei dati condiziona la scelta
del test statistico, questa andrebbe sempre attentamente valutata e riportata nel testo. A tal fine il ricercatore
può utilizzare test statistici (test di Wilk-Shapiro, test di
Kolmogorov-Smirnov, test di Anderson-Darling) o stru-
SCIENTIFIC PAPERS
menti grafici come l’istogramma con il più sofisticato
“Kernel density plot” o il “normal probability plot”. In presenza di distribuzioni palesemente asimmetriche o
comunque non normali devono essere scelti i test non
parametrici. In alternativa, si può rivalutare la normalità
della distribuzione dopo trasformazione matematica
della variabile in esame (logaritmo, radice quadrata, reciproco).
Come per alcuni lavori di BC, anche nella letteratura
internazionale è frequente osservare dati con distribuzione chiaramente asimmetrica analizzati con test parametrici senza l’indicazione della verifica delle assunzioni.
Conoscendo le proprietà della distribuzione gaussiana
non è difficile valutare l’asimmetria di una distribuzione
utilizzando semplicemente la media e la DS presentate
dall’Autore. Ad esempio, il campione descritto nella
Figura 1 presenta una media e una DS rispettivamente
pari a 0,80 g/L e 0,47 g/L. Sapendo che per una distribuzione gaussiana circa il 68%, il 95% e il 99% delle osservazioni sono comprese, rispettivamente, tra ±1, ±2 o ±3
DS intorno alla media, poiché già sottraendo da 0,80 due
DS (0,47x2=0,94 g/L), si ottiene un valore di concentra-
zione negativo, è abbastanza ovvio che la distribuzione
delle osservazioni è asimmetrica e differente da quella
gaussiana. È interessante ancora una volta notare come
da un’osservazione non attenta del grafico a barre, questo problema potrebbe non essere colto (Figura 1).
Inoltre, se è vero che i test statistici parametrici (in particolare, il test t di Student), poiché statisticamente robusti, possono essere applicati anche in presenza di una
modesta asimmetria, occorre ricordare che i test generalmente utilizzati per valutare l’omoschedasticità
(importante assunzione dei test statistici parametrici)
sono invece sensibili alla condizione di normalità (59).
I valori di P dovrebbero essere riportati esattamente
e non semplicemente riferiti a valori convenzionali più o
meno accettati, come “P = NS”, “P <0,05” o “P >0,05”.
Inoltre, in presenza di confronti multipli (più di due gruppi), il valore di P dovrebbe essere corretto (correzione di
Bonferroni o altre secondo il disegno sperimentale) per
controllare l’errore di tipo I. Infine, è bene raccomandare, almeno per l’“endpoint” principale di uno studio, l’utilizzo degli intervalli di confidenza, in quanto il solo valore di probabilità (P) non dice nulla dell’entità dell’effetto.
Nel confronto tra due gruppi (ad es., due trattamenti),
l’intervallo di confidenza della differenza tra i due gruppi,
piuttosto che il valore di P, permette al lettore di valutare
se quella differenza è, oltre che statisticamente, anche
clinicamente significativa.
Correlazione e regressione
Figura 1
Distribuzione della concentrazione sierica di IgM di 298 bambini rappresentata come grafico a barre (sinistra e centro) e “box
plot” (destra). I due grafici a barre sono stati ottenuti utilizzando la media e, rispettivamente, la DS e l’ES. Dalla sommità
delle due barre, pari alla media della concentrazione (0,80 g/L)
si estendono due segmenti di lunghezza pari rispettivamente
alla DS (0,47 g/L) e all’ES (0,03 g/L). Il “box plot” è invece
costituito dalla scatola, che si estende dal 25° al 75° percentile, cioè l’intervallo interquartile (IQR), che comprende quindi il
50% delle concentrazioni dei soggetti esaminati, da una linea
spessa (la mediana), da due baffi, che si estendono per una
lunghezza massima pari a 1,5 volte l’IQR, e da punti isolati che
indicano le osservazioni estreme. Come è evidente, il grafico a
barre non permette una chiara rappresentazione della distribuzione fortemente asimmetrica della concentrazione di IgM di
questo campione. Per la descrizione di questo campione, a
media e DS devono quindi essere preferiti indici descrittivi più
robusti, come mediana e IQR.
Prima di calcolare qualsiasi coefficiente di correlazione (r) i dati dovrebbero essere visualizzati in un grafico a
dispersione (“scatter plot”), potendo così verificare l’eventuale presenza di situazioni in cui l’uso della correlazione non è giustificato (insieme di dati non lineare, presenza di “outliers”, “cluster” di punti separati gli uni dagli
altri). È bene inoltre ricordare che, se in un grafico a
dispersione vengono mostrati dati con la sola indicazione
di un r, è scorretto includere anche la retta di regressione, in quanto le due analisi significano cose differenti.
Mentre infatti la correlazione può evidenziare un’associazione tra variabili, la regressione testa la dipendenza di
una variabile da un’altra risultante in un’equazione matematica, permettendoci inoltre di fare predizioni. A questo
riguardo, mentre nell’analisi di regressione è cruciale la
scelta delle variabili dipendente (asse y) e indipendente
(asse x), r non cambia scambiando le variabili.
Quando si valuta un’associazione tra variabili è
importante comprendere che associazione non significa
necessariamente causalità e che bisogna quindi guardarsi dalle correlazioni spurie e indirette: potrebbe infatti
esistere una terza variabile che lega le due in esame.
Inoltre, come nel caso di altre tecniche statistiche, è
necessario non fermarsi al solo valore di P, ma valutare
la forza dell’associazione trovata. Una volta ottenuto r,
possiamo calcolare anche il coefficiente di determinazione (r2), che esprime la variabilità della variabile dipendente spiegata dalla variabile indipendente. Ad esempio,
per un r pari a 0,30, pur estremamente significativo (P
<0,001), solo il 9% (0,32=0,09) della variabilità può esse-
603
SCIENTIFIC PAPERS
re spiegato dall’associazione tra le due variabili studiate.
Inoltre, necessita ricordare che, come per altri test statistici, campioni molto numerosi possono trasformare
associazioni non clinicamente importanti in associazioni
statisticamente significative.
Negli articoli di BC analizzati, due sono gli ambiti in
cui correlazione e regressione sono state usate in
maniera impropria: gli articoli di validazione di nuove
metodiche e quelli in cui si comparano due metodi analitici. Nei primi sono spesso descritte regressioni lineari in
cui l’unico dato riportato, o apparentemente l’unico che
interessa, è r2. In particolare, occorre sottolineare che la
verifica delle assunzioni deve essere sempre eseguita e
documentata, che per tale verifica non è sufficiente un
replicato solo per livello di concentrazione (non si può
infatti controllare l’omoschedasticità con un singolo replicato) e che se si utilizzano come replicati letture ripetute
di un singolo campione (e non veri replicati cioè preparative diverse) si viola l’assunzione di indipendenza che è
alla base della maggior parte di test statistici. Il lettore
esperto che debba valutare un articolo in cui non sia
documentata la verifica di queste assunzioni si chiederà
se lo sperimentatore fosse autorizzato ad applicare la
regressione lineare, piuttosto che altri modelli di regressione e, sapendo che in genere oltre 3-4 ordini di grandezza vi è un aumento statisticamente significativo della
variabilità lungo gli intervalli di concentrazione, sospetterà che l’elevato r2 ottenuto non dipenda da un ottimo “fitting” del modello scelto, ma piuttosto dall’estensione dell’intervallo di concentrazione e dall’influenza del calibratore più alto, il che in genere determina una pessima predizione delle concentrazioni più basse.
Per quanto riguarda i lavori di comparazione tra
metodi analitici differenti, nonostante le molte pubblicazioni sull’argomento, vi è da sempre molta confusione
sull’utilizzo di regressione e correlazione. A questo proposito, occorre notare che r misura la forza della relazione tra due variabili e non il loro accordo. Infatti, si ha
pieno accordo fra due metodi solo se, dopo aver creato
un diagramma a dispersione con in ascissa i valori ottenuti con un metodo e in ordinata quelli ottenuti con il
secondo metodo, tutti i punti sono disposti lungo la linea
di identità (bisettrice del primo quadrante) con coefficiente angolare uguale a 1 e intercetta uguale a 0. Avremmo
comunque una perfetta correlazione anche se tutti i punti
sono disposti lungo una qualsiasi retta che non sia y = x.
Inoltre, la correlazione dipende dall’intervallo dei valori
utilizzati: maggiore è l’intervallo di misura, maggiore è la
correlazione (60). Sarebbe, infine, strano se due metodi
progettati per misurare lo stesso analita non dimostrassero una correlazione alta.
Un altro approccio spesso utilizzato erroneamente è
la regressione lineare, in quanto questa tecnica ignora il
fatto che entrambe le variabili, dipendente e indipendente, contengono un errore di misura (61, 62). Inoltre, la
regressione lineare assume che l’errore casuale del
metodo in ordinata è costante per tutto l’intervallo di
valori esaminato (eteroscedasticità), condizione frequentemente violata in ambito clinico e/o laboratoristico. In
effetti, i risultati della regressione lineare potrebbero
604
essere accettati a condizione che l’errore casuale del
metodo comparativo sia piccolo se confrontato con l’intervallo dei valori esaminati e quando i dati del metodo in
ordinata (metodo test) non sono “significativamente” eteroscedastici (63). Quando ciò non avviene, altri modelli
di regressione sono preferibili, ad es. la regressione di
Deming (60, 63), in cui vengono minimizzati gli scarti sia
della variabile dipendente che di quella indipendente, o
la regressione non-parametrica di Passing e Bablock,
che non richiede speciali assunzioni riguardo la distribuzione dei campioni e l’errore di misura (64).
“Software” statistici
Un ulteriore elemento che è importante specificare
quando si scrive un articolo è il “software” statistico utilizzato per le analisi. Sebbene il numero delle monografie
di argomento statistico basate su Microsoft Excel sia in
costante aumento e nonostante questo “software” sia diffuso ampiamente anche in molti corsi universitari di statistica, bisogna segnalare che recentemente alcune pubblicazioni scientifiche hanno evidenziato come esso contenga algoritmi statistici non accurati (65). Preme sottolineare, tuttavia, che anche l’utilizzo di pacchetti statistici
professionali non è garanzia di appropriatezza dei metodi statistici in quanto tali “software” eseguono comandi
impartiti dall’operatore senza controllare o allertare in
caso di scelta inappropriata del test.
Ciò che maggiormente colpisce negli articoli esaminati in questo lavoro non sono gli errori più o meno gravi
riscontrati quanto piuttosto l’assenza in molti contributi
delle metodologie usate. La descrizione delle tecniche
statistiche deve permettere al lettore in possesso dei dati
originali di ripetere esattamente gli stessi calcoli pervenendo ai medesimi risultati. Come possono un revisore o
un lettore giudicare l’attendibilità dei risultati se non è
possibile valutare l’appropriatezza delle tecniche utilizzate per ottenerli? Nei lavori esaminati, gli esempi a questo
proposito sono numerosi; ad esempio, confronti tra due
o più gruppi senza specificare il test (parametrico o nonparametrico) ed eventualmente la correzione (Bonferroni
o altre meno conservative) utilizzati oppure uso della
regressione lineare senza la valutazione della distribuzione dei residui e senza aver verificato come cambia la
variabilità lungo l’intervallo di concentrazione (omo o eteroschedasticità). Alcuni dei lavori presentati utilizzano
soltanto una statistica descrittiva, mostrando unicamente indici quali media e DS, senza però motivarne la preferenza rispetto a misure più robuste, come mediana e
intervallo interquartile.
Ulteriori suggerimenti
In conclusione a questo lavoro, vogliamo proporre
alcune possibili soluzioni ai problemi evidenziati. In
primo luogo, è imperativo che ognuno sia consapevole
delle lacune della propria formazione statistica e che vi
ponga rimedio. Sono oggi disponibili molti testi di statistica, anche gratuiti, stampati o consultabili “on-line”, completi di istruzioni e “tutorial” per i principali “software” statistici professionali. Altre fonti disponibili e interessanti
SCIENTIFIC PAPERS
sono rappresentate dalle serie di articoli di argomento
statistico pubblicate su numerose riviste scientifiche (3956). Rimane ovviamente valido e consigliabile ricorrere
ad uno statistico esperto qualora vi siano dubbi o il disegno dello studio e l’analisi dei dati siano particolarmente
complesse.
Questo studio dimostra anche che probabilmente
una richiesta generica come quella presente attualmente nelle Istruzioni per gli Autori di BC non è sufficiente e
che sarebbe necessario fornire all’Autore specifiche
informazioni seguendo l’esempio di altre riviste scientifiche. Mentre alcune di esse hanno adottato già da anni
istruzioni sufficientemente dettagliate, come quelle raccomandate dal Comitato Internazionale degli Editori
delle Riviste Mediche (36), altre hanno sviluppato delle
“checklist” come aiuto per Autori e Revisori per la descrizione e/o per la verifica dei risultati presentati (28, 29, 31,
32, 34). Ovviamente, il giudizio di accettabilità di un lavoro dovrebbe in questo caso essere subordinato anche
all’aderenza dell’Autore alle “checklist” e/o istruzioni
medesime.
Infine, sarebbe molto importante creare all’interno della
SIBioC, un gruppo di lavoro dedicato alla statistica nella
Medicina di Laboratorio allo scopo di preparare “checklist”
e/o istruzioni specifiche e documenti sul corretto utilizzo di
particolari tecniche statistiche, di condividere esperienze,
di progettare momenti formativi, anche per quanto riguarda
l’utilizzo di “software” statistici, rivolti in particolare ai ricercatori più giovani, rappresentando in ultima analisi un riferimento per chi desidera raccogliere, elaborare e comprendere meglio i propri dati sperimentali.
13.
14.
15.
16.
17.
18.
19.
20.
21.
22.
23.
24.
25.
BIBLIOGRAFIA
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
Baccaglini L, Shuster JJ, Cheng J, et al. Design and statistical analysis of oral medicine studies: common pitfalls.
Oral Dis 2010;16:233-41.
Dar R, Serlin RC, Omer H. Misuse of statistical test in
three decades of psychotherapy research. J Consult Clin
Psychol 1994;62:75-82.
Gardenier JS, Resnik DB. The misuse of statistics: concepts, tools, and a research agenda. Account Res
2002;9:65-74.
Bryant TN. The presentation of statistics. Pediatr Allergy
Immunol 1998;9:108-15.
Chinn S. Statistics for the European Respiratory Journal.
Eur Respir J 2001;18:393-401.
Good PI, Hardin JW, ed. Common errors in statistics (and
how to avoid them). New Jersey: Wiley-Interscience, 2006.
Gore SM, Jones G, Thompson SG. The Lancet's statistical
review process: areas for improvement by authors. Lancet
1992;340:100-2.
Gore SM, Jones IG, Rytter EC. Misuse of statistical
methods: critical assessment of articles in BMJ from
January to March 1976. Br Med J 1977;1:85-7.
Hoffmann O. Application of statistics and frequency of statistical errors in articles in Acta Neurochirurgica. Acta
Neurochir 1984;71:307-15.
Huff D, ed. How to lie with statistics. New York: W.W.
Norton & Company, 1954.
Kanter MH, Taylor JR. Accuracy of statistical methods in
Transfusion: a review of articles from July/August 1992
through June 1993. Transfusion 1994;34:697-701.
Kuzon WM Jr, Urbanchek MG, McCabe S. The seven
26.
27.
28.
29.
30.
31.
32.
33.
34
35.
36.
deadly sins of statistical analysis. Ann Plast Surg
1996;37:265-72.
MacArthur RD, Jackson GG. An evaluation of the use of
statistical methodology in the Journal of Infectious
Diseases. J Infect Dis 1984;149:349-54.
Nyirongo VB, Mukaka MM, Kalilani-Phiri LV. Statistical pitfalls in medical research. Malawi Med J 2008;20:15-8.
Puhan MA, ter Riet G, Eichler K, et al. More medical journals should inform their contributors about three key principles of graph construction. J Clin Epidemiol
2006;59:1017-22.
Welch GE 2nd, Gabbe SG. Review of statistics usage in
the American Journal of Obstetrics and Gynecology. Am J
Obstet Gynecol 1996;175:1138-41.
Akobeng AK. Confidence intervals and p-values in clinical
decision making. Acta Paediatr 2008;97:1004-7.
Bhardwaj SS, Camacho F, Derrow A, et al. Statistical
significance and clinical relevance: the importance of
power in clinical trials in dermatology. Arch Dermatol
2004;140:1520-3.
Koretz RL. Is statistical significance always significant?
Nutr Clin Pract 2005;20:303-7.
Lopez-Jimenez F. Clinical interpretation of statistical significance. Rev Invest Clin 1996;48:231-8.
Dubben HH, Beck-Bornholdt HP. Systematic review of
publication bias in studies on publication bias. Br Med J
2005;331:433-4.
Chalmers I. Underreporting research is scientific misconduct. JAMA 1990;263:1405-8.
Easterbrook PJ, Berlin JA, Gopalan R, et al. Publication
bias in clinical research. Lancet 1991;337:867-72.
Harris IA, Mourad M, Kadir A, et al. Publication bias in
abstracts presented to the annual meeting of the American
Academy of Orthopaedic Surgeons. J Orthop Surg
2007;15:62-6.
Hopewell S, Loudon K, Clarke MJ, et al. Publication bias
in clinical trials due to statistical significance or direction of
trial
results.
Cochrane
Database
Syst
Rev
2009;1:MR000006.
Reysen S. Publication of nonsignificant results: a survey
of psychologists' opinions. Psychol Rep 2006;98:169-75.
Goldin J, Zhu W, Sayre JW. A review of the statistical
analysis used in papers published in Clinical Radiology
and British Journal of Radiology. Clin Radiol 1996;51:4750.
Brief statistical guide to Nature's requirements to assist
authors. http://www.nature.com/nature/authors/gta/Statistical_checklist.doc
British Medical Journal Statistician's checklist. http://resources.bmj.com/bmj/authors/checklists-forms/statisticians-checklist
Altman DG, Simera I, Hoey J, et al. EQUATOR: reporting
guidelines for health research. Lancet 2008;371:1149-50.
Curran-Everett D, Benos DJ. Guidelines for reporting statistics in journals published by the American Physiological
Society. Am J Physiol Endocrinol Metab 2004;287:E18991.
Penny K. Editorial: Statistical guidelines for JCN. J Clin
Nurs 2009;18:1521-2.
Simera I, Altman DG, Moher D, et al. Guidelines for reporting health research: the EQUATOR network's survey of
guideline authors. PLoS Med 2008;5:e139.
Thomas E, Dore CJ. Statistical guidelines for contributors
to Rheumatology. Rheumatology 2009;48:461.
Clinical Chemistry and Laboratory Medicine - Guidelines
for Authors. http://www.degruyter.com/files/down/instructions/cclmguide.pdf
Uniform requirements for manuscripts submitted to biome-
605
SCIENTIFIC PAPERS
37.
38.
39.
40.
41.
42.
43.
44.
45.
46.
47.
48.
49.
50.
51.
52.
53.
54.
606
dical journals. International Committee of Medical Journal
Editors. Ann Intern Med 1997;126:36-47.
Altman DG. Practical statistics for medical research.
London: Chapman & Hall, 1991.
Altman DG. The scandal of poor medical research. Br Med
J 1994;308:283-4.
Altman DG, Bland JM. Quartiles, quintiles, centiles, and
other quantiles. Br Med J 1994;309:996.
Altman DG, Bland JM. Diagnostic tests. 3: Receiver operating characteristic plots. Br Med J 1994;309:188.
Altman DG, Bland JM. Diagnostic tests. 1: Sensitivity and
specificity. Br Med J 1994;308:1552.
Altman DG, Bland JM. Statistics notes: the normal distribution. Br Med J 1995;310:298.
Altman DG, Bland JM. Detecting skewness from summary
information. Br Med J 1996;313:1200.
Altman DG, Bland JM. Comparing several groups using
analysis of variance. Br Med J 1996;312:1472-3.
Altman DG, Bland JM. Presentation of numerical data. Br
Med J 1996;312:572.
Altman DG, Bland JM. Statistics notes: variables and parameters. Br Med J 1999;318:1667.
Altman DG, Bland JM. Standard deviations and standard
errors. Br Med J 2005;331:903.
Bland JM, Altman DG. One and two sided tests of significance. Br Med J 1994;309:248.
Bland JM, Altman DG. Regression towards the mean. Br
Med J 1994;308:1499.
Bland JM, Altman DG. Correlation, regression, and repeated data. Br Med J 1994;308:896.
Bland JM, Altman DG. Transformations, means, and confidence intervals. Br Med J 1996;312:1079.
Bland JM, Altman DG. Statistics notes. The odds ratio. Br
Med J 2000;320:1468.
Bland JM, Altman DG. Applying the right statistics: analyses of measurement studies. Ultrasound Obstet Gynecol
2003;22:85-93.
Overholser BR, Sowinski KM. Biostatistics primer: part I.
55.
56.
57.
58.
59.
60.
61.
62.
63.
64.
65.
Overholser BR, Sowinski KM. Biostatistics primer: part 2.
Wallgren A, Wallgren B, Persson R, eds. Graphing statistics & data: creating better charts. Thousand Oaks: Sage
Publications, 1996.
Nagele P. Misuse of standard error of the mean (SEM)
when reporting variability of a sample. A critical evaluation
of four anaesthesia journals. Br J Anaesth 2003;90:514-6.
Campbell MJ. How to present numerical results. In: Reece
D, ed. How to do it. London: BMJ Publishing Group, 1995.
Cardillo G. Omocisteina, stress ossidativo e alterata sintesi di monossido d’azoto nelle patologie coronariche: considerazioni sulla validità dei risultati. Biochim Clin
2009;33:273-4.
Szmytkowski J, Kapala A, Dabrowiecki S. A comparison of
stastical methods for the evaluation of diagnostic tests
shown on the example of two methods of blood recirculation measurements in dialysis access. Polski Przeglad
Chirurgiczny 2009;81:186-92.
Altman DG, Bland JM. Measurement in medicine: the
analysis of method comparison studies. The Statistician
1983;32:307-17.
Cornbleet PJ, Gochman N. Incorrect least-squares
regression coefficients in method-comparison analysis.
Clin Chem 1979;25:432-8.
Martin RF. General Deming regression for estimating
systematic bias and its confidence interval in methodcomparison studies. Clin Chem 2000;46:100-4.
Passing H, Bablok. A new biometrical procedure for
testing the equality of measurements from two different
analytical methods. Application of linear regression procedures for method comparison studies in clinical chemistry,
Part I. J Clin Chem Clin Biochem 1983;21:709-20.
McCullough BD, Heiser DA. On the accuracy of statistical
procedures in Microsoft Excel 2007. Computational
Statistics & Data Analysis 2008;52:4570-8.

Uso della statistica nei contributi scientifici pubblicati su

Transcript

Documenti analoghi

Nasce in Cattolica il Laboratorio di Statistica Applicata alle decisioni

Breve sintesi della tavola rotonda su “Una questione di sistema” del

2120 Matematici, attuari e statistici

SCHEDA DOCENTE PROGRAMMA - A.A. 2016

Curriculum (Italiano) - MEMOTEF Sapienza University of Rome

NASHVILLE

file unico agro - UNIPA

Mania Altman - Kinder vom Bullenhuser Damm

Statistica Matematica - Dipartimento di Matematica