Una bella discussione sull’epistemologia dei Big Data è stata riassunta dall’Economist.
Si fa riferimento, per esempio, alla hubris dei superentusiasti che – come Wired – hanno parlato di “fine della teoria”. La loro idea è che se possiamo disporre di masse enormi di dati sull’universo di riferimento invece che di campioni potremo limitarci a osservare la realtà invece di ipotizzare e teorizare. È un errore concettuale. L’osservazione di molti dati invece che l’inferenza da pochi dati cambia il modo con il quale si arriva all’ipotesi e alla teoria, non cambia la sostanza ipotetica di ciò che impariamo dai dati.
Inoltre, la fiducia nel fatto che si possano avere tutti i dati sull’universo può condurre ad abbassare il livello di critica della qualità dei dati. I campioni sono scelti in modo da ridurre al minimo le distorsioni; i grandi volumi di dati possono invece contenere distorsioni forti. Prendiamo per esempio i dati che si registrano da tutti gli utenti Vodafone per conoscere gli spostamenti degli italiani. È possibile che siano talmente tanti da non differire molto dall’universo. Ma non si può non tener conto che non corrispondono all’universo e che ci potrebbe essere una relazione tra il comportamento degli utenti Vodafone e il fatto che hanno scelto Vodafone – piuttosto che Tim, 3 o Wind – come provider di telefonia mobile. Abbassare il livello di critica sui dati può condurre a conclusioni sbagliate che i campioni evitano proprio per come sono costruiti.
Infine, le correlazioni tra i fenomeni che si osservano con i Big Data non sono necessariamente giuste. A scuola di statistica insegnano che una delle correlazioni più provate della storia è la correlazione tra il numero di medici e il numero di malati. Considerare quella correlazione come la prova che i medici fanno ammalare la gente sarebbe un errore. Ci sono correlazioni con altre realtà che spiegano meglio l’osservazione: per esempio, il fatto che dove ci sono i medici i malati vengono registrati e dunque i loro dati entrano nelle rilevazioni, mentre dove non ci sono medici i malati non si sa neppure che esistano.
In generale, siamo preparati a cercare e trovare nei Big Data quello che la nostra cultura, la nostra epistemologia, la nostra curiosità, il nostro apparato teorico ci indirizzano a cercare e trovare.
A parte questo, però, i Big Data consentono di sviluppare una nuova matematica che fa emergere schemi e pattern che in altri modi non potrebbero venire fuori. Si tratta di una ricchezza straordinaria per la conoscenza. Ne possono emergere nuovi mestieri, nuove imprese, nuove scoperte. Ma il senso critico, l’approccio scientifico, il rispetto per la qualità dei dati, resteranno una condizione indispensabile per ottenere conoscenza dotata di senso.
Vedi anche:
Il libro di Mayer-Schönberger Viktor e Cukier Kenneth
Giovannini. Scegliere il futuro. Basandosi sui fatti
Big data all’europea. Partita aperta. Perché no?
Big Data… Strategia europea cercasi
SMALL, MEDIUM, BIG DATA: per un’archiettura consapevole, decentrata, interoperabile
Che cosa pensereste se vi dicessero che in Italia i Big Data non esistono?
E se invece i Big Data esistessero? Una risposta al post di ieri
[…] persone che li useranno. Inoltre nessuno è consapevole dei dati mancanti. Nel suo ultimo post Luca De Biase scrive appunto che non dobbiamo partire dai Big Data a disposizione per iniziare un […]