Матч AlphaGo — Ли Седоль — Википедия

Соперники: AlphaGo и Ли Седоль

Матч AlphaGo — Ли Седоль (или Google DeepMind Challenge Match) — матч по игре го, проходивший c 9 по 15 марта 2016 года между компьютерной программой AlphaGo, разработанной британской компанией Google DeepMind, и корейским профессионалом 9 дана Ли Седолем. Всего было сыграно 5 партий. Игра велась по китайским правилам, величина коми составляла 7,5 очков. Контроль времени классический — каждому игроку на партию даётся по два часа и 3 бёёми по 60 секунд. Для работы AlphaGo использовались 1920 процессоров и 280 графических процессоров, работающих в распределённой сети[1]. Игры транслировались в прямом эфире на YouTube[2]. Матч завершился победой AlphaGo со счётом 4:1[3][4]. Событие сравнивают с историческим шахматным матчем между программой Deep Blue и Гарри Каспаровым 1997 года, в некоторой степени предопределившим судьбу шахмат[5][6][7].

Победителю матча предназначалась награда в 1 миллион долларов; поскольку победителем стала AlphaGo, представители Google DeepMind заявили, что призовые деньги будут отданы на благотворительные цели, в том числе фонду ЮНИСЕФ и го-организациям[8]. Ли Седоль получил 170 тысяч долларов (150 тысяч за участие и дополнительные 20 тысяч за победу в одной из партий)[9].

После победы в матче Корейская ассоциация падук присвоила AlphaGo наивысший ранг го — «почётный 9 дан» за «искренние усилия» программы в овладении мастерством игры[10].

Перед матчем[править | править код]

Развитие компьютерных программ, играющих в го[править | править код]

Го — сложная настольная игра, требующая помимо логики применение интуиции, творческого и стратегического мышления[11][12]. В течение длительного времени обучить компьютерные программы играть в го на уровне сильного любителя было крайне сложно[13]. По сравнению с шахматами, в го перед искусственным интеллектом ставится больше задач, решение которых требует имитацию мыслительного процесса человека[14]. Ещё в 1965 году математик Ирвинг Джон Гуд писал:

Го на компьютере? — Для того, чтобы запрограммировать компьютер на осмысленную партию в го, а не просто партию по правилам, необходимо оформить принципы хорошей стратегии или создать обучающуюся программу. Принципы игры в го качественнее и загадочнее, чем в шахматах, и больше зависят от оценочного суждения. Поэтому я полагаю, что создать компьютерную программу, разумно играющую в го даже намного сложнее, чем шахматную программу[15].

До 2015 года[16] лучшие программы, играющие в го, могли достичь лишь уровня любительского дана[17]. Компьютер достиг бо́льших успехов на доске размером 9×9, где некоторые программы смогли выиграть у профессиональных игроков. До появления AlphaGo некоторые разработчики заявляли, что компьютеры никогда не смогут победить лучших игроков среди людей[18]. Илон Маск, один из первых инвесторов компании Deepmind, в 2016 году заявил, что по мнению экспертов, искусственный интеллект находится в 10 годах от победы над лучшим из профессиональных игроков[19].

Матч AlphaGo против Ли Седоля можно сравнить с шахматным матчем между программой Deep Blue и Гарри Каспаровым 1997 года, где победа программы, созданной IBM, над действовавшим чемпионом стала символической точкой отсчёта новой эпохи, когда компьютеры превзошли людей в шахматах[20].

AlphaGo имеет значительные отличия от программ-предшественников. Она задействует нейронные сети, где эвристические оценки не основываются на конкретных значениях переменных, закодированных людьми, а в значительной степени, извлекаются самой программой, путём десятков миллионов просмотров сыгранных партий и собственных партий с самой собой[16][21][22]. Даже сама команда разработчиков AlphaGo не в состоянии указать, каким образом AlphaGo оценивает позицию в партии и выбирает свой следующий ход[23]. Метод Монте-Карло также стал одним из основных способов повышения эффективности программы в выборе ходов. При создании программы использовались данные из теории распознавания образов и машинного обучения[16].

Матч против Фань Хуэя[править | править код]

Фань Хуэй — AlphaGo — Партия #5 (90 в 15, 127 в 37, 151 в 141, 154 в 148, 157 в 141, 160 в 148, 163 в 141)
Фань Хуэй

В начале 2016 года были опубликованы материалы о том, что в октябре 2015 года AlphaGo победила трёхкратного чемпиона Европы по го Фань Хуэя (2 профессиональный дан) со счётом 5-0; таким образом, искусственный интеллект впервые одержал победу над профессиональным игроком на доске размером 19x19 без форы[24][25]. Часть экспертов указывала на сильный разрыв в уровне игры между Фань Хуэем и Ли Седолем, обладателем наивысшего ранга — 9 профессионального дана и множества завоёванных титулов[26]. Прежде компьютерные программы Zen и Crazy Stone[en] смогли одержать победу над профессиональными игроками, имея фору в четыре или пять камней[27][28]. Канадский исследователь теории игр и искусственного интеллекта Джонатан Шеффер после победы AlphaGo над Фань Хуэем сравнил программу с «ребёнком-вундеркиндом», которому недостаёт опыта, и заявил, что настоящие достижения начнутся тогда, когда программа сыграет с настоящим топ-игроком; победу в матче он предрекал всё же Ли Седолю[25] Ли Хаджин[en], профессиональный игрок и генеральный секретарь Международной федерации го, заявила, что у AlphaGo и Ли Седоля равные шансы на победу в грядущем матче[25].

После своего поражения, Фань Хуэй заявил, что благодаря этому матчу он стал играть лучше и стал видеть те вещи в игре, которые не замечал ранее; к марту 2016 года мировой рейтинг Фань Хуэя поднялся примерно на 300 позиций[29]

Подготовка[править | править код]

Эксперты по го нашли несколько ошибок, сделанных AlphaGo в партиях против Фань Хуэя, в частности, в оценке позиции на всей доске в противовес отдельным тактическим моментам; однако, к началу матча против Ли Седоля, не было известно, насколько с тех пор усилилась программа[26][30]. AlphaGo не была настроена специально под стиль игры Ли Седоля, что и так было бы сложно сделать, поскольку «тренировка» AlphaGo включала в себя просмотр десятков миллионов партий; несколько сотен или тысяч матчей Ли Седоля не были достаточным количеством для того, чтобы изменить стиль игры программы. Вместо этого AlphaGo просматривала партии сильных игроков-любителей, сыгранные на интернет-серверах, после чего играла сама против себя; в базе данных тренировки AlphaGo не было партий Ли Седоля[31][32].

В интервью перед матчем Ли Седоль предсказывал, что он легко выиграет со счётом 4-1 или даже 5-0, затем 2-3 года Google будут дорабатывать AlphaGo, после чего захотят взять у него реванш. В этом случае играть с обновлённой версией AlphaGo будет действительно интересно, считал Ли[33][34].

Игроки[править | править код]

Ли Седоль в 2016 году

Ли Седоль[править | править код]

Ли Седоль, профессиональный игрок, обладатель 9 профессионального дана по го[35], считается одним из сильнейших игроков в истории го[36]. Его карьера началась в 1996 году, когда он получил ранг 1 профессионального дана в возрасте 12 лет, с тех пор он завоевал множество титулов го[37]. Стиль Ли Седоля отличается нестандартными креативными ходами[38]. Предрекавший свою безоговорочную победу[38] Ли Седоль за несколько недель до матча стал обладателем одного из основных корейских титулов го — Мёнин[39].

AlphaGo[править | править код]

AlphaGo — компьютерная программа, созданная компанией Google DeepMind. Алгоритм AlphaGo использует комбинацию последних достижений для поиска оптимальной стратегии в дереве игры с новейшими методами машинного обучения в сочетании с интенсивным изучением партий людей, так и тренировкой при игре с самой собой[16]. Изначально AlphaGo тренировали подражанию человеческой игре через изучение множества партий, сыгранных как профессионалами так и сильными любителями, в том числе базы данных сервера КГС[en] из около 30 миллионов ходов из 160 тысяч партий игроков от 6 до 9 дана[16][40]. После достижения определённого уровня в стратегии и тактике, программа перешла на игру против самой себя и обучение с подкреплением[41]. Система не использует базу данных ходов. Как пояснил один из создателей программы,[23],

Хоть мы и программировали эту машину, мы не знаем, какой ход она сделает. Её ходы представляют собой феномен эмерджентности, что стало результатом тренировки. Мы всего лишь создаём ряды данных и алгоритмы обучения. Но ходы, к которым она прибегает, не в наших руках, и намного лучше, чем мы, как игроки, могли бы выбрать.

Версия программы, использовавшаяся в матче против Ли Седоля, использовала сходные компьютерные мощности, что и в партиях против Фань Хуэя, — 1920 CPU и 280 GPU[1]. В мае 2016 года представители компании Google объявили, что AlphaGo использовала при обучении TPU, процессор, разработанный Google, специально для машинного обучения[42][43].

Условия проведения матча[править | править код]

Пять партий матча состоялись 9, 10, 12, 13 и 15 марта 2016 года в Сеуле[44].

Партии игрались по китайским правилам, коми составляло 7,5 очков; временной контроль — по 2 часа основного времени каждому игроку 3 периода бёёми по 60 секунд[9]. Партии проходили в закрытом зале в присутствии трёх официальных наблюдателей, среди которых был Фань Хуэй. За время проведения игр не было зарегистрировано каких-либо происшествий, приведших к вмешательству наблюдателей.

Прямая трансляция партий матча шла на YouTube, параллельно с ней велись трансляции с комментариями игры на английском языке от Майкла Редмонда[45] (единственный неазиатский игрок, имеющий 9 профессиональный дан[46]) и на корейском языке от Ю Чханхёка, Сон Тхэгона и других корейских профессионалов[47][48][49]. Айа Хуань (игрок, обладатель 6 любительского дана и сотрудник команды разработчиков DeepMind) ставил камни на гобан за AlphaGo[6]. Работа программы велась с помощью Google Cloud Platform, сервер располагался в США[50].

Разработчики решили перед каждой партией использовать «фиксированную» версию программы, таким образом она не использовала для самообучения партии, сыгранные в этом матче и не подстраивалась под стиль игры Ли Седоля, каждый раз заново определяя свою стратегию[51].

Победитель матча получал в качестве награды 1 миллион долларов. Представители Google DeepMind заявили, что в случае победы AlphaGo они планируют передать эти деньги в благотворительные фонды (включая ЮНИСЕФ) и организации, занимающиеся развитием го[8]. Ли Седоль получил 150 тысяч долларов за участие в матче и по 20 тысяч долларов за победы в отдельных партиях[8][9].

Ход матча[править | править код]

Резюме[править | править код]

AlphaGo — Ли Седоль
Игра # Чёрные Белые Результат Дата Ходов Затраченное время[прим. 1]
1 Ли Седоль AlphaGo 0-1 (сдался) 9 Марта 2016 186 Ли Седоль: 1ч. 32мин. — AlphaGo: 1ч. 55мин.
2 AlphaGo Ли Седоль 1-0 (сдался) 10 Марта 2016 211 Ли Седоль: 2ч. — AlphaGo: 2ч.
3 Ли Седоль AlphaGo 0-1 (сдался) 12 Марта 2016 176 Ли Седоль: 2ч. — AlphaGo: 1ч. 51мин.
4 AlphaGo Ли Седоль 0-1 (сдался) 13 Марта 2016 180 Ли Седоль: 2ч. — AlphaGo: 1ч. 59мин.
5[прим. 2][52][53] Ли Седоль AlphaGo 0-1 (сдался) 15 Марта 2016 280 Ли Седоль: 2ч. — AlphaGo: 2ч.
Общий счет: AlphaGo — Ли Седоль: 4-1

Общие комментарии[править | править код]

Комментируя первую партию матча, и Чо Хансын (9 профессиональный дан) и Майкл Редмонд отметили, что AlphaGo значительно усилилась по сравнению с октябрьским матчем против Фань Хуэя[54]. Уже на стадии фусэки стало ясно, что программа играет на уровне лучших игроков среди людей; Не Вэйпин (9 профессиональный дан, Китай) предположил, что AlphaGo играет в силу 6 или 7 профессионального дана в фусэки и 13—15 дана в тюбане[55]. Сам Ли Седоль после проигрыша во второй партии заявил: «Вчера я был удивлён, но сегодня у меня нет слов»[56]. После третьего поражения Ли Седоля AlphaGo досрочно победила в матче и комментаторы сошлись на том, что остаётся надежда на одну победу человека[57]. Кэ Цзе, возглавлявший на тот момент рейтинг игроков и также бросивший вызов AlphaGo, заявил, что он начал сомневаться в своей победе над программой[58]. В партиях со стороны программы были замечены ошибки; Демис Хассабис заявил, что они будут тщательно проанализированы, и что видимо AlphaGo «не знает некоторые классические тэсудзи и совершает тактические ошибки», что стало видно после проигранной ей партии, когда программа после ключевого победного хода Ли Седоля стала делать нелогичные ходы вместо того, чтобы сдаться[59]. После матча Ли Седоль заявил, что был побеждён психологически, но вовсе не технически[60]. Программа показала способность к креативным решениям, что удивило многих игроков (например, ход № 37 во второй партии); некоторые ходы противоречили классической теории го, но в матче доказали свою эффективность, некоторые профессионалы стали использовать эти находки в своих партиях[23]. Чо Хе Ён (9 профессиональный дан) заявила, что она хотела бы учиться игре у AlphaGo, поскольку та «знает всё»[61]. Сам Ли Седоль после матча решил изменить некоторые аспекты своей игры[60]. Комментаторы во время матча сошлись на том, что AlphaGo совершала ошибки, и были уверены, что в конечном итоге ей не хватит территории для победы[23], но в итоге ходы, изначально казавшиеся слабыми, привели к выигрышу[57].

Ключевые моменты партий[править | править код]

Во время партий наблюдатели отметили четыре исключительных хода, повлиявших на исход в партиях; Ли Седоль прокомментировал их в серии статей в издании Dong-a Ilbo[en][62]:

Первая партия:
Ход, поразивший Ли Седоля.
19
18
17
16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
Вторжение, ход 102[63].
Вторая партия:
Неожиданный креативный ход программы[64].
19
18
17
16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
Ход 37, «удар в плечо», отвергающийся классической теорией игры.
Третья партия :
Впечатляющая контратака[57].
19
18
17
16
15
14
13
12
11
10