Big Data: una vera rivoluzione scientifica? (A. Vulpiani)

Da anni ci sentiamo ripetere che siamo nell’era dei Big Data e che quest’abbondanza di informazioni non potrà che essere una risorsa importante in diversi ambiti, ad esempio per la sicurezza, per le assicurazioni o per aumentare l’efficienza delle aziende.

Sicuramente avere a disposizione una grande mole di informazioni può essere utile: più dati sull’influenza vengono raccolti ed integrati tra loro, maggiore sarà la possibilità di mettere in atto una prevenzione efficace. Ovviamente i Big Data fanno nascere una serie di problemi etici e legali: chi è il proprietario dei miei dati sanitari? Quale uso possono farne le compagnie di assicurazioni, i datori di lavoro, i tribunali?

E naturalmente i Big Data hanno un impatto anche da un punto di vista culturale, in particolare per la ricerca scientifica.
Senza grande sorpresa anche la politica ha scoperto i Big Data, ed il loro ruolo potenziale nell’ambito scientifico e tecnologico. Ad esempio il governo italiano, sulla scia di Expo, intende lanciare il progetto Human Technopole (HT) incentrato in gran parte proprio sul trattamento di grandi moli di dati: è prevista una spesa pari a una frazione consistente di quanto concesso alla ricerca italiana. Questi aspetti sono stati discussi recentemente con grande accuratezza e precisione dalla senatrice Elena Cattaneo (http://www.rivistamicron.it/temi/elena-cattaneo-ripensare-human-technopole-liit-risponde/).

Secondo alcuni, con la disponibilità di grandi moli di informazioni, saremmo di fronte ad una nuova rivoluzione scientifica: la possibilità di fare scienza attraverso l’analisi di dati avrebbe così creato un quarto paradigma (T. Hey et al., The Fourth Paradigm: Data Intensive Scientific Discovery, Microsoft Research 2009). Alle tre metodologie già esistenti: il metodo sperimentale, quello teorico matematico e quello computazionale (simulazioni numeriche), si aggiungerebbe ora un nuovo approccio, consistente nel navigare in un mare sconfinato di dati alla ricerca di regolarità non direttamente osservabili e non teoricamente prevedibili.

Il guru informatico Chris Anderson è arrivato a sostenere, in un articolo dal titolo esplicitamente provocatorio, The End of Theory: The Data Deluge Makes the Scientific Method Obsolete (http://www.wired.com/2008/06/pb-theory/), che ormai «la grande quantità di dati a disposizione rende il metodo scientifico obsoleto… i petabyte ci consentono di dire “la correlazione è sufficiente”, possiamo smettere di cercare modelli»: non è più necessario studiare teorie generali, prendiamo i dati da Internet, trattiamoli al computer con opportuni algoritmi statistici (magari usando software scaricato dalla rete) ed avremo tutto quello che ci serve. Uno degli slogan ricorrenti dei profeti dei Big Data è: basta la correlazione. Inutile insistere sul fatto che l’esistenza di una correlazione tra due quantità non dica molto. Esiste a riguardo un’estesa letteratura, a scopo ludico-didattico, ecco alcuni esempi decisamente divertenti: la correlazione tra il numero di pirati e la temperatura media sulla terra, la correlazione tra il consumo di cioccolata pro capite ed il numero di premi Nobel in un dato paese, la correlazione tra il numero di affogati per caduta da un barca da pesca e il numero di matrimoni nel Kentucky (si veda ad esempio C. S. Calude and G. Longo, The Deluge of Spurious Correlations in Big Data, Foundations of Science 22, 595 (2017)).

A prima vista sembrerebbe che ora, con la possibilità di accesso a un’enorme mole di dati, si possa realizzare il progetto induttivistico di Francis Bacon, secondo cui la scienza potrebbe basarsi solo sull’analisi dei dati per costruire le teorie: un approccio la cui ingenuità è già stata messa in ridicolo a suo tempo da Bertrand Russell con la storiella del tacchino induttivista.

L’idea secondo la quale è sempre meglio avere più dettagli (o dati), a parte casi banali, è ingenua e fuorviante: la scienza non avanza per accumulo di dati, bensì per la capacità di eliminare gli aspetti secondari (il famoso difalcare gli impedimenti di Galileo). Ovviamente fare questo non è semplice: più volte in fisica è stata sottolineata la difficoltà di individuare le “giuste variabili del sistema”.

In quasi ogni problema ci sono molti aspetti che sono irrilevanti e la prima cosa (forse la più difficile e importante) da fare è identificare la parte significativa del fenomeno, solo così si ha qualche speranza di capire, diceva Gödel: «per pensare in modo corretto in primo luogo si deve capire cosa buttar via. Per andare avanti devi sapere cosa lasciar fuori, questa è l’essenza del pensare in modo efficace».

Il fatto che una descrizione molto dettagliata sia di scarsa rilevanza, e a volte addirittura negativa, è discusso anche in ambito letterario. Borges nel breve racconto Funes, o della memoria scrive di un personaggio che, in seguito ad un incidente, ricordava tutto di tutto, sin nei minimi dettagli della più comune delle situazioni. Questo, ben lungi dall’essere un fatto positivo, comportava la quasi incapacità di un pensiero astratto. Funes era infastidito che un cane visto di profilo alle 3:14 fosse lo stesso visto di fronte alle 3:15, «gli era difficile di comprendere come il simbolo generale “cane” potesse designare un così vasto assortimento di individui diversi per dimensioni e per forma …. era quasi incapace di idee generali platoniche».

Poco convincente è dunque la retorica sulla presunta nuova rivoluzione, di cui finora, nonostante le molti dichiarazioni enfatiche, non c’è traccia, almeno nella ricerca di base.
L’idea di un utilizzo di Big Data per fondare una scienza senza basi teoriche sembra in linea, in maniera allarmante, con l’attuale visione pragmatica ormai imperante nei nostri atenei, in cui si privilegiano perlopiù aspetti con finalità immediatamente pratiche, a scapito di una solida formazione di base. In un recente libro dal titolo piuttosto esplicito (This Idea Must Die: scientific theories that are blocking progress, edito da J. Brockman), l’esperto di computer science Andrew Lih auspica senza mezzi termini l’abbandono della matematica classica (per intenderci l’analisi nata da Newton e Leibniz che si studia al primo anno di università) a vantaggio di una matematica discreta (ad esempio grafi e combinatoria) che sarebbe molto più utile nelle applicazioni informatiche.

Quando si vanno ad analizzare lo cose un po’ piu` in profondità diventa chiaro che un approccio puramente induttivo basato sui Big Data non può che fallire se si cerca di fare previsioni evitando modelli matematici. Il motivo è in un ben noto risultato, intuito da Boltzmann e formalizzato da Kac: il tempo medio di ricorrenza cresce esponenzialmente con le dimensioni del sistema (per una discussione a livello semididattico si può vedere F. Cecconi, M. Cencini, M. Falcioni and A. Vulpiani, Predicting the future from the past: An old problem from a modern perspective, American Journal of Physics 80, 1001 (2012)). In sostanza non possiamo sperare di fare scienza, almeno quella interessante, in automatico: dobbiamo rassegnarci a studiare e farci venire qualche buona idea.

Angelo Vulpiani (Dipartimento di Fisica, Università Sapienza, Roma)

 

Sviluppi ulteriori di alcuni aspetti sopra introdotti, e ulteriore bibliografia, si possono trovare nei due articoli seguenti:

Qualche osservazione sui limiti dell’uso dei Big Data (A. Vulpiani)

Vogliamo veramente buttare le equazioni? (H. Hosni, A. Vulpiani)

 

Rispondi

Inserisci i tuoi dati qui sotto o clicca su un'icona per effettuare l'accesso:

Logo WordPress.com

Stai commentando usando il tuo account WordPress.com. Chiudi sessione /  Modifica )

Google photo

Stai commentando usando il tuo account Google. Chiudi sessione /  Modifica )

Foto Twitter

Stai commentando usando il tuo account Twitter. Chiudi sessione /  Modifica )

Foto di Facebook

Stai commentando usando il tuo account Facebook. Chiudi sessione /  Modifica )

Connessione a %s...