Матч AlphaGo — Ли Седоль — Википедия

Матч AlphaGo — Ли Седоль (или Google DeepMind Challenge Match) — матч по игре го, проходивший c 9 по 15 марта 2016 года между компьютерной программой AlphaGo, разработанной британской компанией Google DeepMind, и корейским профессионалом 9 дана Ли Седолем. Всего было сыграно 5 партий. Игра велась по китайским правилам, величина коми составляла 7,5 очков. Контроль времени классический — каждому игроку на партию даётся по два часа и 3 бёёми по 60 секунд. Для работы AlphaGo использовались 1920 процессоров и 280 графических процессоров, работающих в распределённой сети^[1]. Игры транслировались в прямом эфире на YouTube^[2]. Матч завершился победой AlphaGo со счётом 4:1^[3]^[4]. Событие сравнивают с историческим шахматным матчем между программой Deep Blue и Гарри Каспаровым 1997 года, в некоторой степени предопределившим судьбу шахмат^[5]^[6]^[7].

Победителю матча предназначалась награда в 1 миллион долларов; поскольку победителем стала AlphaGo, представители Google DeepMind заявили, что призовые деньги будут отданы на благотворительные цели, в том числе фонду ЮНИСЕФ и го-организациям^[8]. Ли Седоль получил 170 тысяч долларов (150 тысяч за участие и дополнительные 20 тысяч за победу в одной из партий)^[9].

После победы в матче Корейская ассоциация падук присвоила AlphaGo наивысший ранг го — «почётный 9 дан» за «искренние усилия» программы в овладении мастерством игры^[10].

Перед матчем[править | править код]

Развитие компьютерных программ, играющих в го[править | править код]

Го — сложная настольная игра, требующая помимо логики применение интуиции, творческого и стратегического мышления^[11]^[12]. В течение длительного времени обучить компьютерные программы играть в го на уровне сильного любителя было крайне сложно^[13]. По сравнению с шахматами, в го перед искусственным интеллектом ставится больше задач, решение которых требует имитацию мыслительного процесса человека^[14]. Ещё в 1965 году математик Ирвинг Джон Гуд писал:

Го на компьютере? — Для того, чтобы запрограммировать компьютер на осмысленную партию в го, а не просто партию по правилам, необходимо оформить принципы хорошей стратегии или создать обучающуюся программу. Принципы игры в го качественнее и загадочнее, чем в шахматах, и больше зависят от оценочного суждения. Поэтому я полагаю, что создать компьютерную программу, разумно играющую в го даже намного сложнее, чем шахматную программу^[15].

До 2015 года^[16] лучшие программы, играющие в го, могли достичь лишь уровня любительского дана^[17]. Компьютер достиг бо́льших успехов на доске размером 9×9, где некоторые программы смогли выиграть у профессиональных игроков. До появления AlphaGo некоторые разработчики заявляли, что компьютеры никогда не смогут победить лучших игроков среди людей^[18]. Илон Маск, один из первых инвесторов компании Deepmind, в 2016 году заявил, что по мнению экспертов, искусственный интеллект находится в 10 годах от победы над лучшим из профессиональных игроков^[19].

Матч AlphaGo против Ли Седоля можно сравнить с шахматным матчем между программой Deep Blue и Гарри Каспаровым 1997 года, где победа программы, созданной IBM, над действовавшим чемпионом стала символической точкой отсчёта новой эпохи, когда компьютеры превзошли людей в шахматах^[20].

AlphaGo имеет значительные отличия от программ-предшественников. Она задействует нейронные сети, где эвристические оценки не основываются на конкретных значениях переменных, закодированных людьми, а в значительной степени, извлекаются самой программой, путём десятков миллионов просмотров сыгранных партий и собственных партий с самой собой^[16]^[21]^[22]. Даже сама команда разработчиков AlphaGo не в состоянии указать, каким образом AlphaGo оценивает позицию в партии и выбирает свой следующий ход^[23]. Метод Монте-Карло также стал одним из основных способов повышения эффективности программы в выборе ходов. При создании программы использовались данные из теории распознавания образов и машинного обучения^[16].

Матч против Фань Хуэя[править | править код]

Фань Хуэй — AlphaGo — Партия #5 (90 в 15, 127 в 37, 151 в 141, 154 в 148, 157 в 141, 160 в 148, 163 в 141)

В начале 2016 года были опубликованы материалы о том, что в октябре 2015 года AlphaGo победила трёхкратного чемпиона Европы по го Фань Хуэя (2 профессиональный дан) со счётом 5-0; таким образом, искусственный интеллект впервые одержал победу над профессиональным игроком на доске размером 19x19 без форы^[24]^[25]. Часть экспертов указывала на сильный разрыв в уровне игры между Фань Хуэем и Ли Седолем, обладателем наивысшего ранга — 9 профессионального дана и множества завоёванных титулов^[26]. Прежде компьютерные программы Zen и Crazy Stone^[en] смогли одержать победу над профессиональными игроками, имея фору в четыре или пять камней^[27]^[28]. Канадский исследователь теории игр и искусственного интеллекта Джонатан Шеффер после победы AlphaGo над Фань Хуэем сравнил программу с «ребёнком-вундеркиндом», которому недостаёт опыта, и заявил, что настоящие достижения начнутся тогда, когда программа сыграет с настоящим топ-игроком; победу в матче он предрекал всё же Ли Седолю^[25] Ли Хаджин^[en], профессиональный игрок и генеральный секретарь Международной федерации го, заявила, что у AlphaGo и Ли Седоля равные шансы на победу в грядущем матче^[25].

После своего поражения, Фань Хуэй заявил, что благодаря этому матчу он стал играть лучше и стал видеть те вещи в игре, которые не замечал ранее; к марту 2016 года мировой рейтинг Фань Хуэя поднялся примерно на 300 позиций^[29]

Подготовка[править | править код]

Эксперты по го нашли несколько ошибок, сделанных AlphaGo в партиях против Фань Хуэя, в частности, в оценке позиции на всей доске в противовес отдельным тактическим моментам; однако, к началу матча против Ли Седоля, не было известно, насколько с тех пор усилилась программа^[26]^[30]. AlphaGo не была настроена специально под стиль игры Ли Седоля, что и так было бы сложно сделать, поскольку «тренировка» AlphaGo включала в себя просмотр десятков миллионов партий; несколько сотен или тысяч матчей Ли Седоля не были достаточным количеством для того, чтобы изменить стиль игры программы. Вместо этого AlphaGo просматривала партии сильных игроков-любителей, сыгранные на интернет-серверах, после чего играла сама против себя; в базе данных тренировки AlphaGo не было партий Ли Седоля^[31]^[32].

В интервью перед матчем Ли Седоль предсказывал, что он легко выиграет со счётом 4-1 или даже 5-0, затем 2-3 года Google будут дорабатывать AlphaGo, после чего захотят взять у него реванш. В этом случае играть с обновлённой версией AlphaGo будет действительно интересно, считал Ли^[33]^[34].

Игроки[править | править код]

Ли Седоль[править | править код]

Ли Седоль, профессиональный игрок, обладатель 9 профессионального дана по го^[35], считается одним из сильнейших игроков в истории го^[36]. Его карьера началась в 1996 году, когда он получил ранг 1 профессионального дана в возрасте 12 лет, с тех пор он завоевал множество титулов го^[37]. Стиль Ли Седоля отличается нестандартными креативными ходами^[38]. Предрекавший свою безоговорочную победу^[38] Ли Седоль за несколько недель до матча стал обладателем одного из основных корейских титулов го — Мёнин^[39].

AlphaGo[править | править код]

AlphaGo — компьютерная программа, созданная компанией Google DeepMind. Алгоритм AlphaGo использует комбинацию последних достижений для поиска оптимальной стратегии в дереве игры с новейшими методами машинного обучения в сочетании с интенсивным изучением партий людей, так и тренировкой при игре с самой собой^[16]. Изначально AlphaGo тренировали подражанию человеческой игре через изучение множества партий, сыгранных как профессионалами так и сильными любителями, в том числе базы данных сервера КГС^[en] из около 30 миллионов ходов из 160 тысяч партий игроков от 6 до 9 дана^[16]^[40]. После достижения определённого уровня в стратегии и тактике, программа перешла на игру против самой себя и обучение с подкреплением^[41]. Система не использует базу данных ходов. Как пояснил один из создателей программы,^[23],

Хоть мы и программировали эту машину, мы не знаем, какой ход она сделает. Её ходы представляют собой феномен эмерджентности, что стало результатом тренировки. Мы всего лишь создаём ряды данных и алгоритмы обучения. Но ходы, к которым она прибегает, не в наших руках, и намного лучше, чем мы, как игроки, могли бы выбрать.

Версия программы, использовавшаяся в матче против Ли Седоля, использовала сходные компьютерные мощности, что и в партиях против Фань Хуэя, — 1920 CPU и 280 GPU^[1]. В мае 2016 года представители компании Google объявили, что AlphaGo использовала при обучении TPU, процессор, разработанный Google, специально для машинного обучения^[42]^[43].

Условия проведения матча[править | править код]

Пять партий матча состоялись 9, 10, 12, 13 и 15 марта 2016 года в Сеуле^[44].

Партии игрались по китайским правилам, коми составляло 7,5 очков; временной контроль — по 2 часа основного времени каждому игроку 3 периода бёёми по 60 секунд^[9]. Партии проходили в закрытом зале в присутствии трёх официальных наблюдателей, среди которых был Фань Хуэй. За время проведения игр не было зарегистрировано каких-либо происшествий, приведших к вмешательству наблюдателей.

Прямая трансляция партий матча шла на YouTube, параллельно с ней велись трансляции с комментариями игры на английском языке от Майкла Редмонда^[45] (единственный неазиатский игрок, имеющий 9 профессиональный дан^[46]) и на корейском языке от Ю Чханхёка, Сон Тхэгона и других корейских профессионалов^[47]^[48]^[49]. Айа Хуань (игрок, обладатель 6 любительского дана и сотрудник команды разработчиков DeepMind) ставил камни на гобан за AlphaGo^[6]. Работа программы велась с помощью Google Cloud Platform, сервер располагался в США^[50].

Разработчики решили перед каждой партией использовать «фиксированную» версию программы, таким образом она не использовала для самообучения партии, сыгранные в этом матче и не подстраивалась под стиль игры Ли Седоля, каждый раз заново определяя свою стратегию^[51].

Победитель матча получал в качестве награды 1 миллион долларов. Представители Google DeepMind заявили, что в случае победы AlphaGo они планируют передать эти деньги в благотворительные фонды (включая ЮНИСЕФ) и организации, занимающиеся развитием го^[8]. Ли Седоль получил 150 тысяч долларов за участие в матче и по 20 тысяч долларов за победы в отдельных партиях^[8]^[9].

Ход матча[править | править код]

Резюме[править | править код]

AlphaGo — Ли Седоль
Игра #	Чёрные	Белые	Результат	Дата	Ходов	Затраченное время^{[прим. 1]}
1	Ли Седоль	AlphaGo	0-1 (сдался)	9 Марта 2016	186	Ли Седоль: 1ч. 32мин. — AlphaGo: 1ч. 55мин.
2	AlphaGo	Ли Седоль	1-0 (сдался)	10 Марта 2016	211	Ли Седоль: 2ч. — AlphaGo: 2ч.
3	Ли Седоль	AlphaGo	0-1 (сдался)	12 Марта 2016	176	Ли Седоль: 2ч. — AlphaGo: 1ч. 51мин.
4	AlphaGo	Ли Седоль	0-1 (сдался)	13 Марта 2016	180	Ли Седоль: 2ч. — AlphaGo: 1ч. 59мин.
5^{[прим. 2]}^[52]^[53]	Ли Седоль	AlphaGo	0-1 (сдался)	15 Марта 2016	280	Ли Седоль: 2ч. — AlphaGo: 2ч.
Общий счет: AlphaGo — Ли Седоль: 4-1

Общие комментарии[править | править код]

Комментируя первую партию матча, и Чо Хансын (9 профессиональный дан) и Майкл Редмонд отметили, что AlphaGo значительно усилилась по сравнению с октябрьским матчем против Фань Хуэя^[54]. Уже на стадии фусэки стало ясно, что программа играет на уровне лучших игроков среди людей; Не Вэйпин (9 профессиональный дан, Китай) предположил, что AlphaGo играет в силу 6 или 7 профессионального дана в фусэки и 13—15 дана в тюбане^[55]. Сам Ли Седоль после проигрыша во второй партии заявил: «Вчера я был удивлён, но сегодня у меня нет слов»^[56]. После третьего поражения Ли Седоля AlphaGo досрочно победила в матче и комментаторы сошлись на том, что остаётся надежда на одну победу человека^[57]. Кэ Цзе, возглавлявший на тот момент рейтинг игроков и также бросивший вызов AlphaGo, заявил, что он начал сомневаться в своей победе над программой^[58]. В партиях со стороны программы были замечены ошибки; Демис Хассабис заявил, что они будут тщательно проанализированы, и что видимо AlphaGo «не знает некоторые классические тэсудзи и совершает тактические ошибки», что стало видно после проигранной ей партии, когда программа после ключевого победного хода Ли Седоля стала делать нелогичные ходы вместо того, чтобы сдаться^[59]. После матча Ли Седоль заявил, что был побеждён психологически, но вовсе не технически^[60]. Программа показала способность к креативным решениям, что удивило многих игроков (например, ход № 37 во второй партии); некоторые ходы противоречили классической теории го, но в матче доказали свою эффективность, некоторые профессионалы стали использовать эти находки в своих партиях^[23]. Чо Хе Ён (9 профессиональный дан) заявила, что она хотела бы учиться игре у AlphaGo, поскольку та «знает всё»^[61]. Сам Ли Седоль после матча решил изменить некоторые аспекты своей игры^[60]. Комментаторы во время матча сошлись на том, что AlphaGo совершала ошибки, и были уверены, что в конечном итоге ей не хватит территории для победы^[23], но в итоге ходы, изначально казавшиеся слабыми, привели к выигрышу^[57].

Ключевые моменты партий[править | править код]

Во время партий наблюдатели отметили четыре исключительных хода, повлиявших на исход в партиях; Ли Седоль прокомментировал их в серии статей в издании Dong-a Ilbo^[en]^[62]:

Первая партия:
Ход, поразивший Ли Седоля.