Vai al contenuto
Home » Il metodo scientifico perso per strada

Il metodo scientifico perso per strada

L’informatica entra sempre di più nella ricerca scientifica e sta assumendo un ruolo centrale, in molti settori sta di fatto trasformando la ricerca scientifica. Le simulazioni numeriche sono alla base delle previsioni sui cambiamenti climatici ma l’uso massivo di sistemi computazionali avviene anche anche nella ricerca clinica, biologica, fisica, astrofisica, scienza dei materiali e numerosissimi altri campi.

Tutto questo è basato principalmente due cose: algoritmi (il software) e i dati che vengono forniti in pasto a questi algoritmi. Questo processo di elaborazione di dati viene spesso ripetuto in più fasi: i risultati intermedi vengono sottoposti ad ulteriori elaborazioni da parte di altri algoritmi che producono altri dati e così via.

Dov’è il problema? Il problema è il seguente.

Nel 2009 solo il 16% degli studi scientifici che comportano elaborazioni numeriche ha reso pubblici dati e algoritmi usati per produrre i risultati. Vengono pubblicati i risultati finali ma non i dati e gli algoritmi che sono stati usati per produrli. Questo significa che nessun’altro sarà  in grado di riprodurre e verificare quei risultati. In definitiva non è possibile applicare il metodo scientifico che è basato sul concetto fondamentale di riproducibilità  dei risultati, il metodo scientifico ce lo siamo perso per strada.

Questo è un problema di immaturità  del mondo scientifico nei confronti di questi nuovi strumenti (ma a volte anche di semplice malafede) che sta facendo grossi danni. Gli studi vengono sottoposti alla peer review mediante pubblicazione ma chi legge lo studio finisce per giudicare sulla base della credibilità  di chi scrive, non potendo riprodurre e verificare il processo e i risultati.

Prendiamo un caso che mi sta particolarmente a cuore e che è quello della ricerca sul clima. Abbiamo un gruppo di ricercatori (principalmente il Climate Research Unit della University of East Anglia) che ci fornisce grafici e previsioni. Quando gli chiediamo su quali dati e con quali algoritmi sono stati calcolati ci dicono che quei dati e quegli algoritmi non possono darceli, dobbiamo fidarci. Hanno resistito strenuamente ai numerosi ricorsi al freedom of information act: niente dati e niente algoritmi. Poi si scopre, grazie ad una fuga di informazioni, che neanche un povero cristo all’interno di quell’università , avendo accesso a tutti i dati e agli algoritmi, è riuscito in anni di tentativi (dal 2006 al 2009) a riprodurre quei risultati.

Un altro esempio. Nel 2006 vengono pubblicati i risultati di uno studio molto interessante: dimostra che è possibile prevedere la risposta dei pazienti a vari farmaci contro il cancro analizzando il dna dei pazienti stessi. Le prospettive che si aprono sono eccezionali: analizzi il dna del paziente e sai quale farmaco sarà  per lui più efficace, una rivoluzione. Naturalmente dati e algoritmi non vengono pubblicati esaustivamente e nessuno può quindi replicare i risultati. Sulla base di questi promettenti risultati, nel 2007 e 2008 vengono avviati tre diversi studi clinici cioè si incomicia a curare con questo sistema persone che hanno veramente il cancro.

Nel 2009 parte uno studio di bioinformatica forense che cerca di replicare i risultati ottenuti da alcuni studi clinici, tra cui quello del 2006. Non si riesce a replicare i risultati di quello studio e approfondendo viene fuori che ci sono stati fatti errori macroscopici: in alcuni fogli elettronici i dati erano disallineati di una colonna, alcune colonne erano state scambiate per errore (i dati di una colonna erano finiti in un’altra quindi interpretati in modo diverso), i dati sul patrimonio genetico non erano completi: mancavano quelli di alcuni pazienti e quelli di altri pazienti risultavano duplicati (quindi a più pazienti era stato assegnato lo stesso dna).  Insomma, un casino.
Nel frattempo però c’erano persone malate di cancro che avevano affidato la loro vita a quei risultati.

Come abbiamo visto oggi sono molto pochi gli studi che pubblicano dati ed algoritmi. Perché?

Una possibile risposta è nella scarsa familiarità  con questi nuovi strumenti. La buona pratica informatica di versionare il proprio software e tenere traccia di quale versione di un algoritmo è stata utilizzata per una determinata elaborazione non è patrimonio culturale diffuso nel mondo scientifico, difficilmente un ricercatore che utilizza l’informatica solo come strumento è in grado di fornire una “toolchain” in grado di replicare l’intero processo di elaborazione che si è svolto nel corso di anni in tanti passaggi diversi.

Spesso dati ed algoritmi non vengono pubblicati perché una ricerca partita in una università Â finisce per portare alla nascita di un’azienda che sfrutta quelle conoscenze per proporre nuovi prodotti o servizi, la pubblicazione degli algoritmi comporta l’impossibilità  di brevettarli successivamente.

Inoltre la preparazione di dati e algoritmi per la pubblicazione comporta la loro verifica e “ripulitura”, la produzione di documentazione, l’esposizione a richieste di chiarimenti e approfondimenti che possono essere viste come perdite di tempo.

Infine, la pubblicazione di queste informazioni può avvantaggiare gruppi concorrenti (spesso i ricercatori competono tra loro per l’attribuzione di fondi) e potenzialmente vanifica la possibilità  di pubblicare ulteriori studi. In definitiva spesso non pubblicare codice e dati consente di mantenere una leadership in un determinato settore di ricerca.

Anche in presenza di totale buona fede (che, inutile illudersi, a volte manca) finisce che il metodo scientifico nella gran parte dei casi viene abbandonato.

Il metodo scientifico però non è un optional, non se ne può fare a meno. I risultati devono essere replicabili e questo significa che dati e algoritmi devono essere essere disponibili.

“La motivazione principale del metodo scientifico è l’ubiquità  dell’errore – la consapevolezza che errori e illusioni possono insinuarsi assolutamente ovunque e che lo sforzo degli scienziati è speso principalmente nel riconoscere ed estirpare l’errore” David Donoho et al. (2009)

Non può bastare la pubblicazione dei soli risultati e la cieca fiducia in chi li pubblica.

Tutto questo è spiegato chiaramente e approfonditamente da un intervento di Victoria Stodden intitolato The digitalization of science and the degradation of the scientific method. E’ possibile ascoltare la versione audio (in inglese) e visionare le slide della presentazione.

Per fortuna c’è chi sta lavorando per diffondere la consapevolezza che il rispetto del metodo scientifico comporta la pubblicazione di dati e algoritmi per consentire ad altri di replicare e verificare i risultati. Successivamente all’intervento di Victoria Stodden si è tenuta su questo argomento una tavola rotonda alla Yale Law School che ha prodotto un interessante documento.

3 commenti su “Il metodo scientifico perso per strada”

  1. Pingback: Io Volo Libero » Blog Archive » Il metodo scientifico perso per strada : Volo

  2. Bell’articolo Rudi complimenti.
    Putroppo il metodo scientifico è, in generale, oggetto di attacchi provenienti da molti fronti.
    E forse è proprio l’Italia il paese occidentale dove esiste la più scarsa sensibilità  sull’argomento.
    Sopraffazione, pressapochismo, populismo, campanilismo, mafia sono tutti istituti che non possono sopportare chi cerca di utilizzare “il metodo scientifico”.
    Salutoni

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *