RICERCA MEDICA: PERCHE' TANTI FALSI POSITIVI? II
Anni fa l'esperto di statistica John Ioannidis pubblicò uno studio intitolato "Perché la maggior parte delle ricerche pubblicate sono false." Esagerava come mostrò il commento critico di Steven Goodman, un altro esperto di statistica, ma non poi tanto e infatti è più che un'impressione generale quella di apprendere dai media notizie di scoperte confortanti per la nostra salute di cui dopo un po' non si sente parlare – segno evidente che erano illusioni. Perché?
Un atto ricorrente del nostro vivere quotidiano è prendere in considerazione ipotesi e valutarne la probabilità che siano corrette prima di prendere una decisione. Facciamo un esempio di una banalità quasi offensiva:
Ipotesi: Pioverà?
Decisione: Prendere (o no) l'ombrello.
Senza troppo approfondire il dilemma anche per non cadere nel ridicolo, si può dire che, oltre a conoscenze a priori (previsioni del tempo, mese tradizionalmente piovoso o no ecc.) sono essenziali fattori derivanti dall'osservazione diretta: presenza di nuvole, loro quantità e aspetto, tipo di vento che spira (lo scirocco porta pioggia) ecc. Conoscenza e osservazione si combinano per guidarci a una decisione plausibile, avente quindi maggiori probabilità di essere corretta. Ci sono anche fattori esterni che influenzano la decisione, ad esempio prenderemo l'ombrello anche se giudichiamo improbabile che piova se dobbiamo trasportare materiali che non vogliamo esporre all'acqua.
Quante volte intraprendiamo più o meno compiutamente questo tipo di processo mentale? Innumerevoli naturalmente. E in che percentuale arriviamo alla giusta conclusione? Chissà, speriamo il più delle volte, molto dipende dalla diligenza con cui facciamo il ragionamento. Spesso però procediamo senza pensarci tanto e il mondo va come va anche perché chi ha il potere di prendere decisioni importanti non solo per sé ma anche per altri va avanti alla carlona. Analogamente allo screening medico trattato nel post precedente, avremo veri positivi oppure veri negativi (nell'esempio: pioverà o non pioverà con rispettive decisioni di "munirsi" – come si dice nelle istruzioni degli uffici pubblici – dell'ombrello).
Anche chi si occupa di ricerca, per esempio in medicina, intraprende, sperabilmente a più alto livello, questa umile trafila e ci si può chiedere, tornando quindi al tema del post, quante sono le valutazioni che si rivelano poi false.
Innumerevoli sono le ipotesi che vengono esaminate ogni anno nella ricerca clinica a giudicare dalla grande quantità di riviste mediche. Secondo il British Medical Journal, nel 2010 esistevano 25400 riviste di medicina e scienze annesse mentre nel 2009 sono stati pubblicati circa 1.5 milioni di articoli. Quante saranno le ipotesi dimostrate a torto corrette cioè i falsi positivi? E' possibile farne una stima approssimata? La risposta è no, però si può procedere per via ipotetica supponendo che su 1000 ipotesi cliniche testate 500 risultino positive. Di queste quante saranno le false positive?
Innumerevoli sono le ipotesi che vengono esaminate ogni anno nella ricerca clinica a giudicare dalla grande quantità di riviste mediche. Secondo il British Medical Journal, nel 2010 esistevano 25400 riviste di medicina e scienze annesse mentre nel 2009 sono stati pubblicati circa 1.5 milioni di articoli. Quante saranno le ipotesi dimostrate a torto corrette cioè i falsi positivi? E' possibile farne una stima approssimata? La risposta è no, però si può procedere per via ipotetica supponendo che su 1000 ipotesi cliniche testate 500 risultino positive. Di queste quante saranno le false positive?
Se ci atteniamo alla prassi corrente di considerare significativo un p-value ≤0.05 e di dare a questo p-value valore di prova o, per lo meno, di supporto alla ipotesi, abbiamo 500 x 0.05 = 25 falsi positivi. Davvero non molte ma non è il caso di tranquillizzarsi. E questo per un sacco di ragioni molto diverse tra loro, alcune ben note altre meno. Vediamone le più importanti escludendo i falsi intenzionali e gli errori marchiani, quelli cioè che non si debbono davvero fare come gli studi clinici senza randomizzazione, o senza controlli appropriati per escludere l'effetto placebo. Anzi, veramente, studi clinici di questo tipo non hanno neppure la dignità di essere falsi positivi e non vanno presi in considerazione. Il guaio è che il discrimine tra studi chiaramente inaffidabile e quelli di affidabilità dubbia o appena incerta è molto sfumato. Inoltre, poiché chi fa ricerca è comprensibilmente interessato a ottenere risultati positivi, può commettere inconsciamente errori atti a conseguire questo scopo e produrre falsi positivi. Quanto inconsciamente? Quante volte sentirà, subito reprimendola, quella famosa vocina della coscienza che lo riprende mostrandogli che sta commettendo una frode? Impossibile saperlo e nel dubbio andiamo avanti rilevando lo sbaglio e classificandolo come involontario.
Consideriamo per primi gli errori di metodo che sono i principali.
Come ho detto, ogni ricercatore è naturalmente soggetto alla tentazione di far apparire positivi i risultati delle sue ricerche. Se cede a questo desiderio può comportarsi tendenziosamente in diversi modi, spesso senza volerlo, ad esempio dicendo parole di incoraggiamento ai soggetti che ricevono il farmaco in prova (e inducendo in questi il solito effetto placebo - per questo è così importante la tecnica del "double-blind") e avendo meno attenzioni per il gruppo di controllo. Sembra strano ma spesso bastano piccolezze del genere per distorcere il risultato di uno studio.
Un errore commesso di frequente da chi fa ricerca sulle medicine complementari è quello di intraprendere uno studio destinato di per sé a dare risultati positivi come aggiungere a una cura A (ad esempio antidolorifici convenzionali nel mal di schiena) un’altra B (agopuntura) e poi confrontare l’associazione delle due con la prima sola: A+ B vs B.
Un sottile (ma non poi tanto) errore di metodo, frequente nelle ricerche neurocognitive, è quello di esaminare due metodi A e B, trovare che A raggiunge la significatività statistica, B no e concludere che A è superiore a B senza (come dovrebbe farsi) confrontare direttamente A e B. Errore grave che secondo una rassegna di 157 articoli pubblicati su 5 riviste di ottima qualità è stato commesso nella metà dei casi. Stiamo bene.
Ci sono errori di valutazione più o meno ingenui elencati in un libro dello statistico americano B Bausell intitolato "Snake Oil Science", Oxford University Press 2008. Uno deriva dal decorso naturale della malattia: le malattie, per fortuna dei pazienti ed anche dei medici, tendono a guarire da sé e il ricercatore attribuisce il miglioramento alla terapia che esamina. Sono errori che si evitano usando un gruppo di controllo e non meriterebbero di essere menzionati se non fossero così diffusi. Peter Fisher, medico personale della regina d'Inghilterra e convinto omeopata, pensa che un valore di prova dell'omeopatia sia fortemente suggerito dal fatto che "l'80% dei pazienti che si rivolgono a noi registra un miglioramento dei disturbi i e il 90% è soddisfatto delle cure proposte." Che valore si può dare a queste ragioni? Nessuno naturalmente.
Assai più sottile è l'azione falsante esercitata dal cosiddetto effetto Hawthorn per cui i pazienti che sono sottoposti a un trattamento sperimentale, sentendosi osservati, si "comportano meglio" cioè fumano meno, bevono meno, fanno moto ecc. e il miglioramento che deriva viene erroneamente attribuito alla cura in prova. Anche qui un appropriato gruppo di controllo ci potrà disingannare.
Al “bias di pubblicazione” ("bias" = errore sistematico) è dovuta invece la sovrabbondanza di risultati positivi che si incontrano nella letteratura medica. Infatti, le riviste mediche tendono a pubblicare solo risultati positivi giudicandoli più interessanti per i lettori. Questo bias è condiviso dai ricercatori che archiviano un risultato negativo pensando (spesso a torto) che abbia poco valore oppure nel timore di vederlo respinto dal giornale. Tendenza che suggerisce l'esistenza di una propensione a "sollecitare" i dati ottenuti in senso positivo.
Un curioso bias è quello “culturale”. In che consiste? Nel fatto che la percentuale dei lavori clinici con risultati positivi è maggiore in alcuni paesi che in altri. La Cina è una di queste felici nazioni, e se vi capita di imbattervi in uno studio sull’agopuntura condotto in una università del Celeste Impero state pur certi che la pratica risulterà efficace e consigliabile in ogni condizione, dal gomito del tennista alle vene varicose.
C’è anche un bias puramente di tipo statistico in cui l’autore scompone i risultati ottenuti andando a caccia di dati favorevoli alla sua tesi e pubblicando solo quelli. Questa fonte di errori si chiama "data mining" ed è frequente anche se è impossibile sapere quanto. E' una fallacia illustrata bene dal fisico Feynman. Nel suo libro "Il Senso delle Cose", Adelphi 1998, l'autore racconta di un amico psicologo che analizzando i dati di un esperimento su topolini aveva notato una stranezza nel comportamento degli animali "altamente significativa" e pensava di pubblicarla. Feymnan gli consigliò di non farlo e di ripetere l'esperimento che dette un risultato qualunque. Quindi l'aurea massima di Feynman è che "non ha senso calcolare la probabilità di un evento dopo che è avvenuto". A questo proposito vedi la buffa la striscia che mostra come, con questo metodo, sia possibile ottenere una correlazione statistica tra le gelatine di frutta verdi e l'acne giovanile.
Dunque una "ménagerie de vices", per usare un termine di Baudelaire nella bella poesia "Au Lecteur", che contribuiscono alla proliferazione dei falsi negativi, in cui però "il y en a un plus méchant" costituito dal corrente metodo di inferenza statistica che si esprime col solito p-value a cui tutti siamo così affezionati. Il quale p-value se è ad esempio = 0.05, cioè secondo l'accezione comune "significativo", non vuol dire che ci sono 5 probabilità su 100 che il risultato ottenuto è frutto del caso e, per converso, 95 probabilità su 100 che l'ipotesi in esame è vera. Il p-value esprime solo la probabilità di ottenere in futuro lo stesso risultato. Il valore di prova lo estrapoliamo noi.
Errore fondamentale perché le ipotesi cliniche che vengono testate variano moltissimo a seconda della loro verosimiglianza. Un paradossale articolo pubblicato nel 2006 sulla rivista Clinical Epidemiology mostrava scherzosamente correlazioni statisticamente significative tra il segno zodiacale dei pazienti ricoverati in ospedali canadesi e le cause della loro ospedalizzazione: ad esempio, i nati sotto la costellazione del Leone avevano maggiori probabilità di essere ricoverati per emorragie gastroenteriche mentre "i Sagittari" erano significativamente più soggetti degli altri alle fratture dell'avambraccio. Don Ferrante, il quale credeva che la peste venisse dalle stelle, ci avrebbe creduto ma visto che è impossibile tracciare un alcunché legame causale nonché logico tra segno zodiacale e malattie si tratta naturalmente di falsi positivi. Come falsi positivi sono i risultati sull'esistenza della precognizione asserita (qui seriamente) dallo psicologo Daryl Bem in base a risultati statistici.
Che esistano in natura fenomeni come l'influenza delle costellazioni e la precognizione sono ipotesi situate all'estremo della plausibilità confinante con lo zero. Facciamo ora una ipotesi situata all'estremo opposto.
I beta bloccanti sono una famiglia di farmaci aventi diversi effetti tra cui quello di abbassare la pressione sanguigna e quella oculare. Hanno una struttura chimica in comune con un anello aromatico e una catena ecc. ecc. Bene, supponiamo che il chimico di una casa farmaceutica ottenga per sintesi una molecola analoga a quella dei beta bloccanti già noti e ne voglia sperimentare l'effetto sulla pressione dell'occhio. Ora, tutti i beta bloccanti conosciuti, chi più chi meno, abbassano la pressione intraoculare con un meccanismo ben accertato (diminuiscono la produzione di liquido entro il bulbo oculare). Testiamo la nuova molecola e vediamo che essa, come collirio, abbassa la pressione con una differenza (in oculistica si raffronta l'occhio trattato con l'altro non trattato) significativa (p-value = 0.01). E' chiaro che nel caso di una ipotesi plausibile come questa possiamo estrapolare per il p-value un indubbio valore di prova. Il problema qui sarà solo se l'entità dell'effetto e quella dei possibile effetti collaterali ne giustifichino l'impiego nei malati di glaucoma. Lo stesso si potrà dire testando altri farmaci, ad es. un nuovo corticosteroide, appartenenti a un gruppo di rimedi aventi azioni ben note.
Tra questi due tipi di esperimento si colloca uno spettro di ipotesi cliniche più o meno plausibili con un significato di p-value che varia di conseguenza ad esse. E' intuitivo che il peso del p-value a conforto delle ipotesi esaminate vari direttamente con la plausibilità di ciascuna di esse.
Nella ricerca clinica si dà un gran valore alla replica indipendente dei risultati. Un risultato isolato aumenta di molto della sua credibilità se lo stesso esperimento, meglio se ripetuto da un altro ricercatore in altra sede, dà più o meno lo stesso esito. Non varia però il significato intrinseco del p-value: se l'ipotesi esaminata è improbabile essa rimarrà tale. In questo caso invece verrà rafforzata un'altra ipotesi più credibile di quella poco credibile proposta. Una influenza dell'oroscopo sulla salute e la precognizione hanno i caratteri del miracoloso e per i miracoli vale la regola di Hume (uno dei pochi filosofi da cui ho imparato qualcosa in tre anni di liceo) secondo cui "si può credere ai miracoli solo nel caso che se mentisse chi li riferisce fosse un fatto ancor più miracoloso del miracolo stesso". Regola che non si può trasportare alla lettera ai nostri giorni. Daryl Bem, ad esempio, che pensava di aver provato l'esistenza della precognizione, era uno stimato ricercatore nel campo della psicologia e certamente non mentiva. Però si sbagliava cadendo in uno o più degli errori del tipo appena descritto. Quindi riguardo alla ricerca medica la regola di Hume può essere può adattare come segue:
"Si può credere a ipotesi cliniche con una bassa probabilità di essere vere solo se la probabilità che chi le propone abbia commesso un errore sia ancora minore di quella dell'ipotesi stessa."
Nessun commento:
Posta un commento