L’epistemologia dei Big Data è diventata tema di discussione importante. Succede spesso. Il percorso è classico: 1. un avanzamento tecnologico internettesco appare dirompente, 2. qualche blog e uno o due giornali inventano un titolo fulminante (tipo “la fine della teoria” di wired), 3. tutti si mettono a investire su quell’avanzamento o dicono di farlo, 4. esce un libro che sistematizza e rilancia, 5. cominciano i dubbi di fronte a qualche episodio problematico, 6. gli scettici con sufficienza allarmata sostengono che l'”avevano sempre detto”, 7. arrivano gli studi seri e fattuali, 8. finalmente ci si mette a lavorare sul serio, 9. intanto arriva un altro avanzamento tecnologico che appare dirompente…
Di epistemologia dei Big Data si è parlato anche in questo blog. Non torniamo sugli stessi argomenti. Ma vale la pena di aggiungere due link.
Grazie a .mau abbiamo una bella ricostruzione delle difficoltà di Google Flu Trends e delle possibili motivazioni. La più rilevante è l’effetto feedback. Il sistema osservava le ricerche delle persone su Google che potevano essere correlate all’influenza e prediceva l’avanzamento dell’epidemia. Nei primi anni ha funzionato poi ha smesso. L’effetto feedback sarebbe il fatto che le persone avendo saputo che le loro ricerche erano monitorate hanno cambiato comportamento.
Il fatto che un sistema consenta di osservare il comportamento di un vasto insieme di agenti e di inferire correlazioni è fantastico. Da qui a pensare davvero che quelle correlazioni siano predittive è un passaggio tutto da studiare. E lì di teoria, sperimentazione, teoria, sperimentazione ce ne vuole tanta. Nei Big Data, virtualmente, i dati riguardano tutti gli agenti e non solo un campione il che apre possibilità inedite alla raccolta di informazioni. Ma la conoscenza non è la raccolta di informazioni.
Intanto, Gary Marcus, psicologo, e Ernest Davis, informatico, hanno scritto un pezzo sul NYTimes di grande rilevanza con nove problemi che vanno affrontati nell’utilizzo dei Big Data.
1. Big Data trovano correlazioni: ma non è facile definire quali correlazioni hanno un senso
2. Big Data aiutano la ricerca scientifica, ma non possono sostituirla
3. Gli strumenti di analisi del Big Data si possono facilmente imbrogliare
4. L’osservazione modifica la realtà osservata
5. La maggior parte dei Big Data arriva dal web, ma il mondo è più grande
6. Alcune correlazioni emergenti sono del tutto casuali
7. I Big Data si possono usare per conferire un’aura di scientificità ricerche basate su domande fondamentalmente imprecise
8. I Big Data vanno meglio con questioni molto comuni, peggio con fenomeni di nicchia
9. L’eccesso di eccitazione intorno ai Big Data distorce l’aspettativa intorno a quello che realmente ci si può fare.
Questi contributi cominciano a farci capire che siamo arrivati alla fase 7 del processo classico descritto in alto in questo post. Tra un po’ si comincerà a lavorare sul serio.
Il problema 1 fa il paio con il 6 ed è dovuto ad un approccio non propriamente scientifico alla correlazione (http://en.wikipedia.org/wiki/Correlation_does_not_imply_causation).
Forse dovrebbero leggere di più i loro colleghi di bloomberg (http://www.businessweek.com/magazine/correlation-or-causation-12012011-gfx.html) .
Altrimenti c’è il rischio che i Big Data producano un serio aumento dei pirati (http://web.archive.org/web/20070407182624/http://www.venganza.org/about/open-letter/) .