Lo studio degli scacchi per gli scienziati dell’informazione è sempre stato un laboratorio fondamentale, ricordano David Silver e gli altri autori di A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play (Science): i fondatori stessi della disciplina da Charles Babbage ad Alan Turing, da Claude Shannon a John von Neumann hanno tutti studiato soluzioni hardware, algoritmi, teorie, per analizzare e giocare agli scacchi. Ci si domandava se mai una macchina avrebbe potuto giocare a scacchi. Ora ci si domanda quale macchina ha lo stile migliore. Gli umani non giocano più per vincere ma per divertirsi tra loro, perché i campioni sono tutti computer. (vedi: Perché si fanno ancora i tornei di scacchi).
DeepBlue, il programma di Ibm, 21 anni fa, ha battuto Garri Kasparov il campione mondiale di scacchi, non senza qualche controversia. Oggi i campioni indiscussi sono computer.
Il migliore è AlphaZero, una tecnologia di DeepMind, società di Alphabet-Google, che ha battuto l’ex campione del mondo, il programma Stockfish. I campioni umani Matthew Sadler e Natasha Regan hanno osservato che AlphaZero ha vinto giocando in maniera molto “umana”, prendendosi dei rischi e scegliendo mosse spettacolari. AlphaZero adotta in effetti un approccio al deep learning diverso da quello degli altri programmi, perché invece di imparare dai dati registrati su un’enorme quantità di partite già giocate da umani e invece di essere alimentato da esperti che gli insegnano le migliori strategie, come appunto Stockfish, il programma pensato da DeepMind impara giocando contro se stesso: opera milioni di simulazioni, che gli consentono di cercare le mosse che secondo i suoi calcoli hanno le maggiori probabilità di successo. Per ottenere queste probabilità, usa la sua architettura neurale per sviluppare un percorso di prova ed errore chiamato “reinforcement learning” che lo porta ad apprendere il gioco senza che gli umani lo dotino di informazioni sulle strategie da tenere. La sola conoscenza specifica che AlphaZero ha prima di cominciare a imparare sono le regole del gioco.
Strategie di apprendimento analoghe possono essere usate per altre attività che siano evidentemente caratterizzate da regole del gioco molto chiare (DeepMind).
Ho pubblicato questa notizia anche su Nòva, giovedì 27 dicembre 2018
Commenta