Lo stile di gioco del nuovo campione di scacchi è umano

Lo studio degli scacchi per gli scienziati dell’informazione è sempre stato un laboratorio fondamentale, ricordano David Silver e gli altri autori di A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play (Science): i fondatori stessi della disciplina da Charles Babbage ad Alan Turing, da Claude Shannon a John von Neumann hanno tutti studiato soluzioni hardware, algoritmi, teorie, per analizzare e giocare agli scacchi. Ci si domandava se mai una macchina avrebbe potuto giocare a scacchi. Ora ci si domanda quale macchina ha lo stile migliore. Gli umani non giocano più per vincere ma per divertirsi tra loro, perché i campioni sono tutti computer. (vedi: Perché si fanno ancora i tornei di scacchi).

DeepBlue, il programma di Ibm, 21 anni fa, ha battuto Garri Kasparov il campione mondiale di scacchi, non senza qualche controversia. Oggi i campioni indiscussi sono computer.

Il migliore è AlphaZero, una tecnologia di DeepMind, società di Alphabet-Google, che ha battuto l’ex campione del mondo, il programma Stockfish. I campioni umani Matthew Sadler e Natasha Regan hanno osservato che AlphaZero ha vinto giocando in maniera molto “umana”, prendendosi dei rischi e scegliendo mosse spettacolari. AlphaZero adotta in effetti un approccio al deep learning diverso da quello degli altri programmi, perché invece di imparare dai dati registrati su un’enorme quantità di partite già giocate da umani e invece di essere alimentato da esperti che gli insegnano le migliori strategie, come appunto Stockfish, il programma pensato da DeepMind impara giocando contro se stesso: opera milioni di simulazioni, che gli consentono di cercare le mosse che secondo i suoi calcoli hanno le maggiori probabilità di successo. Per ottenere queste probabilità, usa la sua architettura neurale per sviluppare un percorso di prova ed errore chiamato “reinforcement learning” che lo porta ad apprendere il gioco senza che gli umani lo dotino di informazioni sulle strategie da tenere. La sola conoscenza specifica che AlphaZero ha prima di cominciare a imparare sono le regole del gioco.

Strategie di apprendimento analoghe possono essere usate per altre attività che siano evidentemente caratterizzate da regole del gioco molto chiare (DeepMind).

Ho pubblicato questa notizia anche su Nòva, giovedì 27 dicembre 2018

Lo stile di gioco del nuovo campione di scacchi è umano

Commenta

Cancel reply

Luca De Biase

Knowledge and happiness economy Media and information ecology

News brevi

Il problema dell’incompletezza del linguaggio dell’intelligenza artificiale

ClosedAI – update

La biodiversità per affrontare l’emergenza climatica

Dalla singolarità alla pluralità

Biodiversità come progetto

Oggi a Bruxelles: la prima delle cinque proposte per governare i rischi dell’intelligenza artificiale

Cinque modeste proposte per governare i rischi dell’intelligenza artificiale

Scritti sull’acqua

La modernizzazione del “modello italiano” alla Sissa

Promemoria: intelligenza artificiale, conoscenza, città, diritti

Video

Approfondimenti

Civiltà per “Padroni del mondo”

Il lavoro nel futuro. Upskilling e dintorni

Elon Musk, libertà di espressione, rispetto della diversità, regole sociali e labirinti morali. Con tre libri per discutere i preconcetti

Odio online a Moebius 2022

La privacy transatlantica e il nuovo ordine mondiale dei diritti

La prima decisione giusta di Elon Musk su Twitter

Internet dopo l’epoca delle privatizzazioni

Il giornalismo del clima: tra due complessità e mille difficoltà, con una visione

The risky weaponization of ESG and other media ecology problems

Se le compagnie telefoniche riusciranno a farsi pagare le reti da Google & Co.

Post più letti

Post più condivisi

Commenti

Blogroll