Intelligence artificielle : AlphaGo Zero, nouveau champion ultime du jeu de go

Alphago Zero, crédit : capture d'écran Youtube / DeepMind - 1280
Le programme AlphaGo Zero a été capable d'apprendre seul à jouer au go © capture d'écran Youtube / DeepMind
  • Copié
avec AFP , modifié à
Le programme AlphaGo Zero a été capable d'apprendre tout seul et en cinq jours seulement des concepts stratégiques qui lui ont permis de devenir un champion du jeu de go, particulièrement complexe.

AlphaGo, le super-ordinateur qui avait fait sensation l'an dernier en battant le champion du monde de go, un jeu extraordinairement complexe, est tombé sur plus fort que lui : il vient d'être écrasé par une nouvelle version de ce programme, capable d'apprendre par lui-même, "en s'affranchissant de la connaissance humaine".

Le plus fort joueur de go de l'histoire. AlphaGo Zero, ce nouveau programme "plus puissant", victorieux sur le score sans appel de 100 à 0, "est sans doute le plus fort joueur de go de l'histoire", estiment Demis Hassabis et David Silver, deux de ses concepteurs, selon une étude publiée mercredi dans la revue Nature.

Adopter les concepts stratégiques de l'homme. Au jeu de go, le nombre de combinaisons possibles est astronomique, plus grand que le nombre d'atomes dans l'univers. Les programmes informatiques, bien que très forts en calcul, ne peuvent donc pas passer en revue toutes les possibilités pour choisir la bonne, mais doivent imiter les concepts stratégiques de l'homme.

Pour battre en 2016 Lee Se-Dol, grand maître sud-coréen du jeu de go (par quatre parties à une), AlphaGo avait été nourri des milliers de parties jouées par des professionnels et des amateurs, lui permettant ainsi "d'apprendre", pendant plusieurs mois, à copier le raisonnement humain par l'apprentissage profond ("deep learning" en anglais).

Capable d'apprendre tout seul. AlphaGo Zero, également développé par le Britannique DeepMind, une filiale de Google spécialisée dans l'intelligence artificielle, est pour sa part capable "d'apprendre tout seul à jouer au go", précise l'étude. Pour s'entraîner, AlphaGo Zero joue contre lui-même, "en partant de 0" sans autre connaissance sur le go que les règles du jeu.

Contrairement à AlphaGo, il n'a donc pas eu besoin de se confronter à des humains pour devenir imbattable. "Après trois jours d'entraînement (soit presque cinq millions de parties) en autodidacte, il a battu la version de 2016 d'AlphaGo", expliquent Demis Hassabis et David Silver sur un blog. "Ce n'est pas le premier logiciel qui apprend par lui-même, la nouveauté c'est que AlphaGo Zero soit si bon", souligne le futurologue Anders Sandberg, de l'Université d'Oxford. 

Un auto-apprentissage pour dépasser les limites humaines. Avec AlphaGo Zero, une nouvelle étape est franchie, dans la mesure où le logiciel, pour apprendre, n'est "plus contraint par les limites de la connaissance humaine", selon les concepteurs de DeepMind. Dans certains domaines, les connaissances peuvent être difficiles à réunir voire inexistantes. Il est alors difficile de "nourrir" les logiciels d'exemples et de données pour leur permettre de s'entraîner. L'auto-apprentissage permet de sauter cette étape parfois difficile à mettre en place.

"ALphaGo ne se programme pas tout seul". Mais si elle peut se passer avec succès de l'expérience humaine pour se perfectionner, la machine dépend néanmoins toujours de l'intelligence des hommes : "Les brillantes idées qui ont permis d'améliorer le programme ont été générées par l'homme", précise Anders Sandberg. "AlphaGo ne se programme pas tout seul !".