Medicina e illusioni: giugno 2014

THE FAULTY STATISTICS OF COMPLEMENTARY ALTERNATIVE MEDICINE (CAM) by M Pandolfi, G Carreras. European Journal of Internal Medicine, June 2014

ABSTRACT The authors illustrate the difficulties involved in obtaining a valid statistical significance in clinical studies especially when the prior probability of the hypothesis under scrutiny is low. Since the prior probability of a research hypothesis is directly related to its scientific plausibility, the commonly used frequentist statistics, which does not take into account this probability, is particularly unsuitable for studies exploring matters in various degree disconnected from science such as complementary alternative medicine (CAM) interventions. Any statistical significance obtained in this field should be considered with great caution and may be better applied to more plausible hypotheses (like placebo effect) than that examined – which usually is the specific efficacy of the intervention.

Since achieving meaningful statistical significance is an essential step in the validation of medical interventions, CAM practices, producing only outcomes inherently resistant to statistical validation, appear not to belong to modern evidence-based medicine.

La tesi di questo articolo, per ora apparso online, è che le medicine non convenzionali o CAM non possono essere considerate "evidence-based" come asserito da chi le sostiene perchè i loro trial clinici si sono finora serviti di una statistica inferenziale non adatta a valutarli. Questa statistica (detta frequentistica che si esprime in termini di p-value e che non prende in considerazione la probabilità a priori dell'ipotesi in esame) può funzionare negli ordinari studi clinici che testano ipotesi plausibili ma non può essere impiegata nel caso delle CAM le cui ipotesi cliniche (in genere l'effetto specifico dell'intervento) hanno una bassa probabilità a priori di essere corrette dato le insufficienti basi scientifiche di questi interventi. Così, i risultati positivi talvolta ottenuti in questi studi vanno attribuiti a ipotesi di ricerca più probabili quali l'effetto placebo.

Nei tempi semipreistorici in cui studiavo medicina ricordo un docente che parlava di un farmaco nato per far ricrescere i capelli finito come depilatore. Di rimedi annunciati come efficaci o anche miracolosi (l'ultimo, il costoso Tamiflu contro l'influenza aviaria) e dimenticati perchè mostratisi inutili o peggio è piena la storia della medicina. Le cause? Le vorrei dividere in due gruppi:

1. Errore (bias) di comunicazione/pubblicazione

2. Errore di fondo

Ove "bias" sta per errore sistematico, volontario o no. Chi fa ricerca, tende a pubblicare i risultati positivi e lascia quelli negativi nel cassetto ("file-drawer effect"). Così fanno anche le riviste mediche e, comprensibilmente, la grande stampa i cui lettori leggono con piacere che è stato scoperta la cura della malattia X o del disturbo Y.

Naturalmente questo errore di comunicazione non potrebbe aver luogo senza l'errore di fondo che avviene quando il ricercatore esamina i risultati ottenuti e conclude, a torto, che il rimedio X funziona contro la malattia Y. Ora, buona parte di queste illusioni sono dovute all'uso non ben meditato della statistica corrente che esprime la significatività col cosiddetto p-value e che va sotto la qualifica di "frequentistica".

"C'è la significatività?" Se sì (ad esempio al p≤0.05 che è considerato il limite critico) si lascia capire che l'ipotesi in questione è provata - indifferentemente se essa è credibile o no. Le cose non stanno in questo modo semplicemente perchè il p-value, che è la moneta con cui la significatività viene quantificata, non può per natura provare niente. Esso infatti è una misura che riguarda l'avvenire, non il passato, ed esprime solo la probabilità di ottenere in futuro lo stesso risultato (o uno ancor più evidente) ripetendo lo stesso esperimento senza che ci sia alcuna differenza tra i parametri esaminati (in genere quelli espressi dal gruppo trattato e dal gruppo non trattato o di controllo).

Sicchè, riguardo all'esempio di cui sopra, se non ci fosse alcuna differenza fra i due gruppi e ripetessimo lo stesso esperimento indefinitamente la probabilità di ottenere lo stesso risultato (o uno ancora più netto) sarebbe molto bassa cioè 0.05 (corretto) il che vuol dire che la differenza appena osservata è reale (sbagliato). Perchè sbagliato? Perchè facendo ciò conferiamo al p-value un valore confermativo che per definizione non ha. Oltre a questo errore di metodo esiste una fonte costante di errori facile a capire facendo presente il parallelo esistente tra ricerca clinica e test medici quali gli esami di screening.

Negli screening il dato che interessa è la presenza/mancanza di una malattia in un gruppo di soggetti mentre nella ricerca clinica è la presenza/mancanza di una differenza significativa in un raffronto - in genere tra il gruppo trattato e quello di controllo.

In medicina lo screening sembra, a prima vista, invariabilmente una bellissima cosa. Appare ottimo esaminare una grande quantità di persone per vedere se esse hanno, allo stato latente, una malattia che possa così essere curata all'inizio. Invece lo screening può essere inutile e anche dannoso. Perchè? Perchè i metodi di diagnosi hanno margini di errore che spesso sono superiori alla frequenza (prevalenza) delle malattia per cui si fa lo screening.

Mi spiego. Quando esaminiamo 10,000 persone per vedere se hanno, allo stato ancora latente, una malattia la cui prevalenza è dell'1% non diagnosticheremo mai la malattia in tutte le 100 persone che ne sono affette poichè la sensibilità (capacità di reagire in presenza della malattia) del metodo che usiamo non è mai del 100%. Se la sensibilità è, mettiamo, dell'80% avremo 80 veri positivi e non riconosceremo la malattia in 20 pazienti che saranno falsi negativi. Queste 20 persone saranno a torto sicure di essere sane e potranno non allarmarsi ai primi segni della malattia quando essa si paleserà ritardando così le cure. A queste 20 persone lo screening avrà fatto un cattivo servizio.

Assai più dannoso può rivelarsi l'altro versante del problema: quello dei risultati falsi positivi. Se il metodo usato ha una specificità (capacità di non reagire in assenza della malattia) del 95%, i risultati veri negativi saranno 99000 x 0.95 = 9405, e i falsi positivi 9900 x 0.05 = 495. Facile capire l'apprensione ingiustificata delle 495 persone cui, a torto, viene detto che sono malate, il disturbo e la spesa di successivi esami e, talvolta, terapie ingiustificate. Allora, quando conviene fare uno screening? La questione è complessa e buon sunto dei pro e contro si trova a http://www.health.ny.gov/diseases/chronic/discreen.htm.

Alcune regole sono intuitive. Eccone due. Innanzi tutto, la malattia in questione deve essere curabile se presa ancora in fase latente. Meglio ancora se prevenibile con appropriate misure igieniche. Non serve a nulla da un punto di vista medico sapere che un dì ci ammaleremo di corea di Huntington, una grave malattia genetica refrattaria ad ogni prevenzione e a ogni cura. E, naturalmente, la frequenza della malattia da scoprire prima che essa dia dei sintomi deve essere alta nella popolazione da esaminare. Questo per evitare l'inconveniente che i falsi positivi siano assai più numerosi dei veri positivi.

Fine della prima sezione. Nella seconda proverò a spiegare perchè, come negli screening è importante la prevalenza della malattia in esame, nella ricerca clinica è importante che l'ipotesi clinica da testare sia ragionevole e quindi abbia buone probabilità di essere vera se si vogliono evitare risultati falsamente positivi.

Medicina e illusioni

lunedì 23 giugno 2014

THE FAULTY STATISTICS OF COMPLEMENTARY ALTERNATIVE MEDICINE (CAM)

martedì 3 giugno 2014

RICERCA MEDICA: PERCHE' TANTI FALSI POSITIVI? I

Informazioni personali