Nei tempi semipreistorici in cui studiavo medicina ricordo un docente che parlava di un farmaco nato per far ricrescere i capelli finito come depilatore. Di rimedi annunciati come efficaci o anche miracolosi (l'ultimo, il costoso Tamiflu contro l'influenza aviaria) e dimenticati perchè mostratisi inutili o peggio è piena la storia della medicina. Le cause? Le vorrei dividere in due gruppi:
1. Errore (bias) di comunicazione/pubblicazione
2. Errore di fondo
Ove "bias" sta per errore sistematico, volontario o no. Chi fa ricerca, tende a pubblicare i risultati positivi e lascia quelli negativi nel cassetto ("file-drawer effect"). Così fanno anche le riviste mediche e, comprensibilmente, la grande stampa i cui lettori leggono con piacere che è stato scoperta la cura della malattia X o del disturbo Y.
Naturalmente questo errore di comunicazione non potrebbe aver luogo senza l'errore di fondo che avviene quando il ricercatore esamina i risultati ottenuti e conclude, a torto, che il rimedio X funziona contro la malattia Y. Ora, buona parte di queste illusioni sono dovute all'uso non ben meditato della statistica corrente che esprime la significatività col cosiddetto p-value e che va sotto la qualifica di "frequentistica".
"C'è la significatività?" Se sì (ad esempio al p≤0.05 che è considerato il limite critico) si lascia capire che l'ipotesi in questione è provata - indifferentemente se essa è credibile o no. Le cose non stanno in questo modo semplicemente perchè il p-value, che è la moneta con cui la significatività viene quantificata, non può per natura provare niente. Esso infatti è una misura che riguarda l'avvenire, non il passato, ed esprime solo la probabilità di ottenere in futuro lo stesso risultato (o uno ancor più evidente) ripetendo lo stesso esperimento senza che ci sia alcuna differenza tra i parametri esaminati (in genere quelli espressi dal gruppo trattato e dal gruppo non trattato o di controllo).
Sicchè, riguardo all'esempio di cui sopra, se non ci fosse alcuna differenza fra i due gruppi e ripetessimo lo stesso esperimento indefinitamente la probabilità di ottenere lo stesso risultato (o uno ancora più netto) sarebbe molto bassa cioè 0.05 (corretto) il che vuol dire che la differenza appena osservata è reale (sbagliato). Perchè sbagliato? Perchè facendo ciò conferiamo al p-value un valore confermativo che per definizione non ha. Oltre a questo errore di metodo esiste una fonte costante di errori facile a capire facendo presente il parallelo esistente tra ricerca clinica e test medici quali gli esami di screening.
Negli screening il dato che interessa è la presenza/mancanza di una malattia in un gruppo di soggetti mentre nella ricerca clinica è la presenza/mancanza di una differenza significativa in un raffronto - in genere tra il gruppo trattato e quello di controllo.
In medicina lo screening sembra, a prima vista, invariabilmente una bellissima cosa. Appare ottimo esaminare una grande quantità di persone per vedere se esse hanno, allo stato latente, una malattia che possa così essere curata all'inizio. Invece lo screening può essere inutile e anche dannoso. Perchè? Perchè i metodi di diagnosi hanno margini di errore che spesso sono superiori alla frequenza (prevalenza) delle malattia per cui si fa lo screening.
Mi spiego. Quando esaminiamo 10,000 persone per vedere se hanno, allo stato ancora latente, una malattia la cui prevalenza è dell'1% non diagnosticheremo mai la malattia in tutte le 100 persone che ne sono affette poichè la sensibilità (capacità di reagire in presenza della malattia) del metodo che usiamo non è mai del 100%. Se la sensibilità è, mettiamo, dell'80% avremo 80 veri positivi e non riconosceremo la malattia in 20 pazienti che saranno falsi negativi. Queste 20 persone saranno a torto sicure di essere sane e potranno non allarmarsi ai primi segni della malattia quando essa si paleserà ritardando così le cure. A queste 20 persone lo screening avrà fatto un cattivo servizio.
Assai più dannoso può rivelarsi l'altro versante del problema: quello dei risultati falsi positivi. Se il metodo usato ha una specificità (capacità di non reagire in assenza della malattia) del 95%, i risultati veri negativi saranno 99000 x 0.95 = 9405, e i falsi positivi 9900 x 0.05 = 495. Facile capire l'apprensione ingiustificata delle 495 persone cui, a torto, viene detto che sono malate, il disturbo e la spesa di successivi esami e, talvolta, terapie ingiustificate. Allora, quando conviene fare uno screening? La questione è complessa e buon sunto dei pro e contro si trova a http://www.health.ny.gov/diseases/chronic/discreen.htm.
Alcune regole sono intuitive. Eccone due. Innanzi tutto, la malattia in questione deve essere curabile se presa ancora in fase latente. Meglio ancora se prevenibile con appropriate misure igieniche. Non serve a nulla da un punto di vista medico sapere che un dì ci ammaleremo di corea di Huntington, una grave malattia genetica refrattaria ad ogni prevenzione e a ogni cura. E, naturalmente, la frequenza della malattia da scoprire prima che essa dia dei sintomi deve essere alta nella popolazione da esaminare. Questo per evitare l'inconveniente che i falsi positivi siano assai più numerosi dei veri positivi.
Fine della prima sezione. Nella seconda proverò a spiegare perchè, come negli screening è importante la prevalenza della malattia in esame, nella ricerca clinica è importante che l'ipotesi clinica da testare sia ragionevole e quindi abbia buone probabilità di essere vera se si vogliono evitare risultati falsamente positivi.