Match AlphaGo - Lee Sedol — Wikipédia

Les deux adversaires : AlphaGo et Lee Sedol.
 
Les deux adversaires : AlphaGo et Lee Sedol.
Les deux adversaires : AlphaGo et Lee Sedol.

Le match AlphaGo - Lee Sedol (titre officiel : Google DeepMind Challenge Match) est un match de cinq parties de go (jouées sans handicap, avec un temps de réflexion usuel en compétition) entre Lee Sedol, joueur professionnel sud-coréen considéré comme le meilleur joueur du monde au milieu des années 2000, et AlphaGo, un programme de go développé par Google DeepMind, qui s'est tenu entre le 9 et le à Séoul. Le gagnant du match devait recevoir un million de dollars.

AlphaGo a gagné toutes les parties sauf la quatrième. Ce match voit la première victoire d'un programme face à un professionnel du plus haut niveau, et a été pour cette raison comparé avec le match d'échecs historique entre Deep Blue et Garry Kasparov en 1997.

Au cours de la rencontre, AlphaGo a fait preuve d'une créativité et d'une précision de lecture et d'évaluation qui ont surpris les meilleurs professionnels et les ont amenés à déclarer devoir repenser certaines de leurs idées sur le go. Lee Sedol a cependant réussi, au cours de la quatrième partie, à découvrir une faiblesse dans le jeu d'AlphaGo, remportant ainsi une victoire qu'il a déclarée être « sans prix ».

Le match a été suivi, surtout en Asie, par plusieurs centaines de millions de spectateurs, suscitant un regain d'intérêt pour le go. Il a provoqué également de nombreuses réactions des spécialistes d'intelligence artificielle qui ont salué une avancée significative des techniques d'apprentissage automatique.

À la suite de ce match, la Hanguk Kiwon (la fédération coréenne de go) a décerné à AlphaGo un titre honorifique de 9e dan (professionnel) – le plus haut grade existant – en reconnaissance du niveau d'excellence atteint par le programme.

Contexte de la rencontre[modifier | modifier le code]

Un défi pour l'intelligence artificielle[modifier | modifier le code]

Le go est un jeu de stratégie combinatoire abstrait (de la même famille que les échecs ou les dames) opposant deux adversaires qui tentent de contrôler la plus grande part d'une surface quadrillée, le goban, en y déposant à tour de rôle des pierres noires et blanches[1].

Malgré ses règles simples, c'est un jeu de plateau complexe exigeant, outre des calculs précis, de l'intuition ainsi que de la pensée créative et stratégique[2]. Il a longtemps été considéré comme un défi difficile pour le domaine de l'intelligence artificielle[2],[N 1], demandant en particulier de pouvoir imiter plus d'aspects de la réflexion humaine que pour les échecs[3]. Dès 1965, le mathématicien Irving John Good écrivait[4] : « Le go par ordinateur ? – Pour programmer un ordinateur jouant de manière raisonnable (et non simplement en respectant les règles), il est nécessaire de formaliser les principes d'une bonne stratégie, ou de développer un système capable d'apprentissage. Ces principes sont plus qualitatifs et mystérieux qu'aux échecs, et dépendent plus de jugements intuitifs. Je pense donc qu'il sera encore plus difficile de programmer un ordinateur pour qu'il joue convenablement au go qu'aux échecs[C 1]. »

Avant 2006, les progrès avaient été très lents[N 2], les meilleurs programmes n'ayant guère plus que le niveau d'un amateur occasionnel, environ 8e kyu[7]. Un premier progrès essentiel fut alors apporté par une méthode de simulation probabiliste, connue sous le nom de méthode de Monte-Carlo[N 3] ; des améliorations régulières avaient amené en 2015 les meilleurs programmes au niveau de forts amateurs, environ 5e dan[6],[9]. Cependant, avant AlphaGo, certains chercheurs affirmaient que les ordinateurs ne battraient jamais un professionnel de haut niveau[10], et Elon Musk, un des premiers investisseurs de DeepMind, rappelait qu'en 2015, les experts du domaine estimaient qu'un succès contre un professionnel demanderait encore au moins une décennie[11].

Le match AlphaGo contre Lee Sedol est comparable au match d'échecs de 1997 entre Deep Blue et Garry Kasparov[7] : il marque le tournant symbolique où les ordinateurs deviennent meilleurs que les humains dans une activité donnée[12],[13]. Cependant, AlphaGo est qualitativement différent de DeepBlue[14], en ce qu'il utilise des réseaux neuronaux, qui créent et font évoluer leurs règles de comportement, par opposition à un programme utilisant des heuristiques figées codées par des humains ; il en résulte d'ailleurs que les programmeurs d'AlphaGo ne sont en général pas capables d'expliquer précisément pourquoi leur programme a choisi tel ou tel coup[7],[15].

Le match contre Fan Hui[modifier | modifier le code]

Photographie de Fan Hui en 2006.
Fan Hui en 2006.
Représentation de la cinquième partie de Fan Hui contre AlphaGo.
Fan Hui (avec les Noirs) contre AlphaGo : partie 5 (diagramme interactif de cette partie, commenté par An Young-gil).

En , AlphaGo gagna par 5 à 0 un match contre le franco-chinois Fan Hui, 2e dan professionnel et champion d'Europe ; il s'agissait de la première victoire d'une intelligence artificielle contre un joueur professionnel, sans handicap et sur un goban 19×19[16],[17]. Le match et l'existence même d'AlphaGo furent tenus secrets jusqu'à la publication dans Nature, le , d'un article technique sur AlphaGo, détaillant les méthodes utilisées, et donnant les kifu des parties jouées[9].

La publication de l'article de Nature et l'annonce du match contre Lee Sedol furent abondamment commentées dans les médias[18], de nombreux observateurs saluant en particulier l'importante avancée pour l'intelligence artificielle constituée par l'utilisation de réseaux neuronaux convolutifs pour l'apprentissage profond[19],[20].

Des doutes persistaient cependant quant à la possibilité pour ces méthodes d'atteindre le niveau des meilleurs joueurs humains, certains commentateurs soulignant l'étendue de l'écart entre Fan Hui (2e dan) et Lee Sedol (9e dan)[21],[N 4], et estimant qu'en dépit de la performance que constituait cette victoire, les chances d'AlphaGo face à ce dernier étaient infimes. Ainsi Jonathan Schaeffer, spécialiste canadien d'intelligence artificielle ayant en particulier programmé Chinook (programme ayant résolu le jeu de dames américaines), compara AlphaGo à un « enfant prodige » manquant d'expérience, et affirma que « le vrai accomplissement aura lieu quand le programme jouera contre un joueur du plus haut niveau[C 2] » ; il était alors certain que Lee Sedol gagnerait le match[17].

Entre les deux matchs[modifier | modifier le code]

Les joueurs professionnels analysèrent les parties jouées contre Fan Hui[23] et découvrirent des faiblesses dans le jeu d'AlphaGo, en particulier un manque de « sens global » (la prise en compte du plateau entier) et de conscience du « potentiel » (l'aji, c'est-à-dire les faiblesses latentes d'une position)[24] qui les amenèrent à penser que Lee Sedol battrait aisément le programme[17] ; lui-même, ayant étudié ces parties, déclara qu'il pourrait perdre l'année suivante, mais qu'il était certain de gagner 5-0 ou 4-1 cette fois-ci[25] ; cependant, avant le match, il était en fait difficile de déterminer les progrès que le programme avait pu accomplir durant ces cinq mois[21],[26]. Précisant les informations figurant dans l'article de Nature à ce sujet, l'équipe de Google DeepMind, dans une interview donnée à la presse coréenne, expliqua que la base de données initiale du programme ne contenait que des parties de forts amateurs (et donc qu'il ignorait tout du jeu de Lee Sedol), mais que, jouant contre lui-même, il avait accumulé durant ces quelques mois l'équivalent de « mille ans d'expérience humaine »[27] ; après avoir pris connaissance de ces informations, Lee Sedol se montra nettement moins confiant qu'auparavant, déclarant à la veille du match : « ayant appris aujourd'hui comment ces algorithmes sélectionnent les choix possibles, j'ai l'impression qu'AlphaGo peut imiter l'intuition humaine jusqu'à un certain point[C 3]. »[28].

Les joueurs[modifier | modifier le code]

AlphaGo[modifier | modifier le code]

Logo d'AlphaGo.
Logo d'AlphaGo.

AlphaGo est un programme développé par Google DeepMind. Son algorithme utilise une combinaison de techniques générales déjà anciennes comme l'algorithme minimax, de méthodes spécifiques à la programmation du go (une variante de la méthode de Monte-Carlo[8]) et d'une utilisation innovante de réseaux neuronaux[N 5], permettant en particulier l'apprentissage automatique à la fois à partir de bases de données et en laissant le programme jouer contre lui-même. AlphaGo fut initialement entraîné à partir d'un ensemble de 160 000 parties jouées sur le serveur KGS par des joueurs classés sur ce serveur entre 6e et 9e dan amateur[29],[9]. Ayant atteint une certaine compétence (lui permettant en particulier de prévoir les coups de joueurs professionnels dans près de 60 % des cas), il fut ensuite opposé à des copies du même programme, utilisant l'apprentissage par renforcement pour améliorer son jeu[30].

Le programme ne contient au départ aucune connaissance spécifique sur le go (en dehors des règles et d'un module de calcul des shichō)[9], et il ne dispose en particulier pas d'une « bibliothèque » de coups (contrairement aux programmes d'échecs) ; comme l'expliquait l'un de ses créateurs : « Bien que nous ayons programmé cette machine, nous n'avons aucune idée des coups qu'elle va jouer. Ces coups sont un phénomène émergent de son apprentissage. Nous avons seulement créé la base de données et les algorithmes d'apprentissage. Mais les coups que trouve le programme nous échappent, et sont d'ailleurs bien meilleurs que ceux que nous pourrions trouver en tant que joueurs de go[C 4]. »[15].

La version d'AlphaGo pour ce match utilisait à peu près la même puissance de calcul que pour le match contre Fan Hui[31],[N 6], laquelle était de 1 202 processeurs et 176 processeurs graphiques[9].

Lee Sedol[modifier | modifier le code]

Lee Sedol est un joueur de go professionnel coréen classé 9e dan[34]. Né en 1983, il commença sa carrière en 1995, devenant 1er dan professionnel à l'âge de 12 ans, et remportant le titre de meilleur joueur de Corée du Sud en 2000. Entre 2003 et 2015, il a gagné 18 titres internationaux, ce qui faisait de lui le meilleur joueur du monde au milieu des années 2000[N 7],[36] ; au moment du match, il était encore classé parmi les cinq premiers[37]. Il est un « héros national » de la Corée du Sud, connu pour son style de jeu non conventionnel et créatif, et pour sa force en milieu et fin de partie[38],[N 8]. Quelques semaines avant le match, il remporta pour la quatrième fois le Myungin, le plus important des titres coréens[40].

Les parties[modifier | modifier le code]

Conditions de la rencontre[modifier | modifier le code]

Les cinq parties du match eurent lieu les 9, 10, 12, 13 et , à l'hôtel Four Seasons de Séoul. Chaque partie commençait à 13 heures, heure de Séoul, soit 04:00 UTC[41].

Les parties utilisaient les règles chinoises avec un komi de 7 points et demi[N 9], chaque joueur ayant un temps de réflexion principal de 2 heures, suivi de 3 périodes de byo yomi de 60 secondes[N 10],[N 11],[45] ; les joueurs jouaient en salle fermée, en présence de trois observateurs officiels, dont Fan Hui[N 12], mais aucun problème n'a amené ceux-ci à intervenir durant le match.

Les parties étaient retransmises en temps réel sur YouTube, et commentées en direct en anglais[N 13] par Michael Redmond (le seul 9e dan professionnel non asiatique) et Chris Garlock (éditeur de l'e-journal de l'AGA)[47],[48],[49]. Aja Huang, un 6e dan amateur membre de l'équipe de DeepMind, plaçait les pierres sur le goban au nom d'AlphaGo[N 14], lequel fonctionnait à l'aide de la Google Cloud Platform, le serveur étant situé aux États-Unis[51].

Avant le match, l'équipe de DeepMind avait convenu d'utiliser une version figée d'AlphaGo, qui n'apprenait par conséquent rien et ne variait pas sa stratégie d'une partie sur l'autre[27],[N 15].

Le vainqueur du match devait remporter 1 million $US. AlphaGo ayant gagné, Google DeepMind a annoncé que le prix serait versé à des associations caritatives, dont l'Unicef, ainsi qu'à des organisations de go[52],[N 16]. Lee Sedol reçut 170 000 $ (150 000 $ pour avoir joué les cinq parties, et 20 000 $ pour chaque partie gagnée)[45],[52].

Le match[modifier | modifier le code]

Résumé[modifier | modifier le code]

AlphaGo a gagné toutes les parties sauf la quatrième[55],[56].

Le match
Partie no Date Noirs[n 1] Blancs Résultat[n 2] Coups Temps utilisé[n 3]
1 Lee Sedol AlphaGo Lee Sedol abandonne 186 Lee Sedol : 1h 32 - AlphaGo : 1 h 55
2 AlphaGo Lee Sedol Lee Sedol abandonne 211 Lee Sedol : 2 h - AlphaGo : 2 h
3 Lee Sedol AlphaGo Lee Sedol abandonne 176 Lee Sedol : 2 h - AlphaGo : 1 h 51
4 AlphaGo Lee Sedol AlphaGo abandonne 180 Lee Sedol : 2 h - AlphaGo : 1 h 59
5 Lee Sedol[n 4] AlphaGo Lee Sedol abandonne 280 Lee Sedol : 2 h - AlphaGo : 2 h
Résultat :
AlphaGo 4 – 1 Lee Sedol
Notes
  1. Après tirage au sort (nigiri) au début de la première partie, les couleurs devaient alterner, puis un nouveau tirage au sort était prévu pour la dernière partie[57].
  2. Toutes les parties ont été gagnées par abandon[N 17].
  3. Les temps sont ceux figurant sur les vidéos officielles ; 2 h signifie que le joueur a utilisé tout son temps principal et est entré en byo yomi.
  4. Lee Sedol avait demandé à avoir les Noirs dans la dernière partie, déclarant : « ... puisque j'ai gagné avec les Blancs, j'espère vraiment avoir la chance de pouvoir gagner avec les Noirs dans la cinquième partie, parce qu'une victoire avec les Noirs a beaucoup plus de valeur. »[C 5],[59]

Commentaire général[modifier | modifier le code]

Dès la première partie, Cho Hanseung (professionnel coréen 9e dan) et Michael Redmond observèrent que le jeu d'AlphaGo s'était beaucoup amélioré depuis son match d' contre Fan Hui[60],[61]. Il devint rapidement clair qu'il était au moins de la force des meilleurs joueurs humains, Nie Weiping (célèbre 9e dan chinois) estimant par exemple qu'il était « 6e ou 7e dan professionnel dans le fuseki, et 13e à 15e dan ensuite »[39], et Lee Sedol déclarant après avoir perdu les deux premières parties : « Hier, j'ai été surpris, mais aujourd'hui, je le suis plus encore - j'en reste sans voix[C 6] »[62]. Après la troisième partie, l'espoir que Lee Sedol gagne ne serait-ce qu'une partie sembla abandonner certains commentateurs[63], Ke Jie, le meilleur joueur chinois actuel, commençant lui-même[N 18] à douter d'avoir une chance contre AlphaGo[65]. Finalement, les deux dernières parties laissèrent apercevoir quelques failles dans le jeu du programme[66], que Demis Hassabis, fondateur et vice-président de DeepMind, déclara devoir être analysées de manière détaillée ; il semble en particulier ne pas « connaître » certains tesujis classiques[N 19], et commettre ainsi parfois des erreurs tactiques ; dans la quatrième partie, après un coup brillant et inattendu de Lee Sedol, son jeu se dégrada complètement, et il fut contraint à l'abandon. Néanmoins, même si Lee Sedol a affirmé après le match avoir été vaincu psychologiquement, mais pas forcément techniquement[67], le programme a fait preuve d'une créativité qui a surpris les meilleurs joueurs (par exemple en jouant le coup 37 de la deuxième partie[15]) et, à plusieurs reprises, a joué des coups allant contre la théorie établie, mais qui se sont révélés efficaces, amenant de nombreux professionnels à s'enthousiasmer pour sa technique[N 20],[N 21], et, à commencer par Lee Sedol, à déclarer qu'ils allaient devoir modifier certaines de leurs idées sur le jeu[67]. Par ailleurs, certaines des caractéristiques du jeu d'AlphaGo ont dérouté les commentateurs : comme il ne se soucie que de probabilités de victoire, et non d'écart territorial[15], il lui arrive, lorsqu'il se sait en avance, de jouer des coups visiblement faibles, mais ne mettant pas sa victoire en péril, ce qui a pu amener à le sous-estimer dans les deux premières parties[N 22].

Quatre moments critiques[modifier | modifier le code]

Au cours du match, certains coups exceptionnels marquèrent les observateurs ; Lee Sedol les commenta dans une série d'articles pour le Dong-a Ilbo[71] :

Première partie :
le coup qui fit s'affaisser la mâchoire de Lee Sedol[N 23].
L'invasion en 102, « qu'aucun humain n'aurait jouée »[72].
Deuxième partie :
le coup le plus créatif de tout le match[73].
Le coup 37, un coup à l'épaule « interdit » par la théorie.
Troisième partie :
une contre-attaque spectaculaire[63].