Реальность на кону: Как игры объясняют человеческую природу - Келли Клэнси
В результате появилась AlphaGo – программа, сочетающая поиск по дереву методом Монте-Карло со структурой глубокой нейронной сети. Она научилась оценивать позицию на доске, сыграв сотни тысяч партий сама с собой. На ранних этапах обучения AlphaGo, казалось, делала странные ходы. Сильвер пытался наставить ее на путь истинный, но она упорствовала в своем странном поведении. «Мы думали, она неверно оценивает двадцать или тридцать позиций», – вспоминает Сильвер[427]. Они наняли живущего в Европе мастера го Фань Хуэя, чтобы тот помог им разобраться в происходящем. Потратив на анализ ходов AlphaGo много часов, Хуэй поставил свой диагноз: программа не ошибалась – ошибались они в своей оценке. Ходы, которые они, следуя традиционной мудрости, считали ошибочными, оказались лучше, чем они думали. AlphaGo «нашла решения, которые заставили его пересмотреть, что есть ошибка, – вспоминает Сильвер. – Я понял, что мы можем опровергнуть то, что люди считали общепризнанным знанием»[428].
В 2016 г. DeepMind организовала широко разрекламированный матч из пяти партий с чемпионом мира по го Ли Седолем, одним из сильнейших игроков последних десятилетий. Как и игра Каспарова[429] против Deep Blue, игра Ли против AlphaGo была не лучшей в его карьере. Люди-игроки часто полагаются на информацию, не относящуюся непосредственно к игре. Например, соперники в поисках подсказок следят за языком тела друг друга. Ли не мог ничего прочитать по лицу оператора-человека, который бесстрастно выполнял ходы AlphaGo. Программа выиграла матч, попутно изменив наши представления о том, как нужно играть в го. На тридцать седьмом ходу второй партии AlphaGo бросила вызов многовековой человеческой мудрости, поставив камень на пятую линию. Эксперты твердо верили, что четвертая линия – это важная граница, «линия влияния», за которой лучше всего ставить камни для закрепления за собой территорий. Один из комментаторов признавался, что сначала счел этот ход компьютерной ошибкой. Но этот ход оказался решающим для победы AlphaGo, превратив давнюю истину в простое суеверие. Это было решение инопланетного разума – стратегия, открытая в безумном вихре партий, которые AlphaGo играла сама с собой, не признавая никаких условностей. Это был «не человеческий ход»[430]. После партии Ли сказал:
Я думал, что AlphaGo основывается на вероятностных расчетах и что это просто машина, но, увидев этот ход, я изменил свое мнение. Несомненно, AlphaGo способна творить. Этот ход был действительно оригинальным и красивым… Этот ход заставил меня по-новому взглянуть на го[431].
Три года спустя Ли ушел из профессионального го, назвав ИИ «сущностью, которую невозможно победить»[432]. Многие игроки с тех пор признавали, что AlphaGo улучшила их игру. «AlphaGo – она как настоящее зеркало, – говорит Фань. – Когда играешь с AlphaGo, чувствуешь себя очень странно. Как будто ты все время голый. Когда видишь это впервые, не хочется смотреть, потому что думаешь: "Ой, это я? Настоящий я?"»[433]
Однако программы для игры в го не являются полностью непобедимыми. Другая компьютерная программа помогла людям вернуть себе преимущество в игре. В 2023 г. Келлин Пелрин, американский любитель с высоким рейтингом, одолел один из лучших игровых движков с открытым исходным кодом, KataGo, в четырнадцати партиях из пятнадцати. Свою антикомпьютерную стратегию он разработал с помощью другой игровой программы, которая выявила слепые зоны KataGo. Пелрин одурачил KataGo, прибегнув к тактике, которая была бы очевидной для игроков-людей. KataGo, однако, не видит ничего, кроме более масштабных мотивов в группах камней. Для самообучающихся программ характерно то, что они полагаются на узкий набор стратегий. Это одна из причин, почему такие программы опасны: хотя обычно они и превосходят людей, они также могут сталкиваться с катастрофическим и неожиданным провалом.
Компания DeepMind объявила, что ее программа овладела го на десять лет раньше, чем ожидалось, хотя эта оценка и была основана на необъективно отобранных данных. То, что технологии редко появляются в предсказанные сроки, меньше говорит о самих технологиях, чем о том, как плохо люди умеют делать прогнозы. Планы на будущее в области ИИ знамениты своей нелепостью: в 1956 г. группа ведущих исследователей ИИ заявила, что сможет решить некоторые из сложнейших проблем в этой области за два месяца согласованных усилий. По этой оценке, го покорилась компьютерам с опозданием на шестьдесят лет. Это, однако, не умаляет достижения: когда серьезные технологические проблемы решены, они часто кажутся тривиальными. Исследователь Джон Маккарти шутил, что, «как только что-то начинает работать, никто больше не называет это ИИ»[434]. Но самое впечатляющее в обучающихся системах – их способность выходить за пределы человеческого понимания посредством смоделированного опыта – является одновременно и самым тревожным.
Первое время команда DeepMind обучала AlphaGo на партиях экспертов-людей, прежде чем позволить ей начать учиться в ходе самоигры, как это впервые сделал Сэмюэл. Ожидалось, что программа извлечет пользу из изучения человеческих подходов. Этого не произошло. Следующая версия программы, AlphaGo Zero, училась уже исключительно в игре с собой. Ее результаты далеко превзошли показатели предшественницы. А третья итерация, AlphaZero, снабженная еще более общей архитектурой, была способна освоить в ходе самоигры го, шахматы или сёги. Натренировавшись играть в шахматы, AlphaZero победила действующего чемпиона мира[435] по компьютерным шахматам, программу Stockfish, которая была настолько хороша, что никто не знал, достигла ли она верхнего предела мастерства, или дальнейшие улучшения еще возможны. Stockfish была основана на тех же принципах минимакса, что и Deep Blue. Превосходство AlphaGo показало, что вручную созданные на основе экспертных знаний функции оценки не могут сравниться с обучением на опыте. Сегодня шахматные программы играют намного лучше людей. Двадцать пять лет назад Каспаров[436] обвинил операторов Deep Blue в жульничестве, утверждая, что они подменили ход машины ходом мастера-человека. Теперь же для игроков-людей стало обычным делом жульничать в онлайн-матчах с помощью компьютерных программ. Сайт Chess.com ежедневно блокирует около 800 аккаунтов по подозрению в мошенничестве с использованием машин.
Очарованные собственными способностями люди десятилетиями пытались построить системы, которые рассуждали бы так же, как




