Реальность на кону: Как игры объясняют человеческую природу - Келли Клэнси

Name: Реальность на кону: Как игры объясняют человеческую природу
Author: Келли Клэнси

Читать книгу Реальность на кону: Как игры объясняют человеческую природу - Келли Клэнси, Жанр: Биология / Зарубежная образовательная литература. Читайте книги онлайн, полностью, бесплатно, без регистрации на ТОП-сайте Vse-Knigi.com

Выставляйте рейтинг книги

Жанр: Биология / Зарубежная образовательная литература

Название: Реальность на кону: Как игры объясняют человеческую природу

Автор: Келли Клэнси

Дата добавления: 24 февраль 2026

Количество просмотров: 10

Возрастные ограничения: Обратите внимание! Книга может включать контент, предназначенный только для лиц старше 18 лет.

Читать книгу

ВПЕРЕД

Перейти на страницу:

в Китае более трех тысяч лет назад, но по сей день остается самой популярной настольной игрой в мире. За один ход игрок может поставить один из своих камней на любое свободное пересечение линий на доске размером 19 × 19. Побеждает тот игрок, чьи камни к концу партии окружают бо́льшую территорию. Энтузиаст этой игры Эдвард Ласкер, как сообщается, восторженно говорил: «Если вычурные правила шахмат могли быть созданы только людьми, то правила го настолько элегантны, органичны и строги, что, если во Вселенной существуют другие разумные формы жизни, они почти наверняка играют в го». Хотя го часто сравнивают с военной кампанией, мастера этой игры Дэвид Ормерод и Ан Енгиль пишут, что ее также можно воспринимать как «разговор, спор или переговоры; как приготовление пищи или строительство; как течение жизни; как управление бизнесом или экономикой; как сложный танец или взаимодействие первозданных сил природы»[423].

Для исследователей ИИ го оказалась последним рубежом в области игр: к тому времени программы уже победили мастеров-людей в большинстве других популярных настольных игр. За простотой правил го скрывается невероятная сложность. На доске для го возможно около 10170 различных позиций. Чтобы просчитать партию в го на три хода вперед, нужно перебрать 15 млн вариантов. Средняя шахматная партия заканчивается за пятьдесят ходов. Средняя партия в го длится более двухсот. Го безнадежно непознаваема; ни один разум – человеческий или компьютерный – никогда не сможет до конца постичь ее глубины. Методы полного перебора, которые работают в шашках и шахматах, в го бесполезны. Исследователям нужно было найти эффективный способ навигации по характерному для этой игры гигантскому дереву событий, анализируя лишь самые многообещающие ходы.

Но для начала им нужно было придумать, как в го вообще измерять перспективность того или иного хода. Это еще сложнее, чем в шахматах, – напомним, что для Deep Blue потребовалась функция оценки с более чем восемью тысячами параметров. В го не всегда очевидно, кто выигрывает, и даже мастер может ошибаться насчет силы своей позиции. Игрок в шашки может оценить положение, просто сравнив число своих шашек и дамок с аналогичным показателем у соперника. Оценка позиции в го – дело куда более тонкое. Когда игроков просят объяснить логику того или иного хода, они часто пожимают плечами и отвечают: «Интуиция!» Озарение Улама, навеянное раскладыванием пасьянсов, в итоге позволило заменить замысловатые функции оценки анализом смоделированных исходов.

В 1992 г. мысленный эксперимент Улама вдохновил аспиранта-физика Бернда Брюгманна на вопрос «А как бы в го играла природа?»[424]. Его решение, программа Monte Carlo Go, случайным образом выбирала некое подмножество из всех возможных следующих ходов, а затем развивала их в череде случайно выбранных ответных маневров до тех пор, пока одна из сторон не выигрывала или не проигрывала. Для определения исхода этой программе не нужна была функция оценки; она просто просчитывала разные варианты развития событий до самого конца, а затем выбирала ход с наибольшими шансами на победу.

Десять лет спустя несколько групп независимо друг от друга усовершенствовали метод Брюгманна. Вместо случайной выборки исходов эти программы стали отбирать только самые перспективные розыгрыши, оценивая их на основе накопленного опыта. Представьте себе игрока в казино перед несколькими игровыми автоматами, у каждого из которых своя сумма и своя вероятность выигрыша. Игрок не может заглянуть внутрь автоматов, чтобы понять, как они запрограммированы; он может лишь оценить их относительную прибыльность в процессе игры. Каждый раз ему нужно решать, за какой рычаг потянуть, находя компромисс между использованием уже имеющихся знаний и получением новых. С одной стороны, ему хочется играть с теми автоматами, которые, как он уже выяснил, сулят большую выгоду. С другой – ему также интересно исследовать все варианты, чтобы определить, нет ли автоматов с лучшей отдачей.

Так появился поиск по дереву методом Монте-Карло – целое семейство подходов, которые помогают игроку на собственном опыте накапливать знания и принимать решения, максимизирующие его выигрыш. С тех пор схожие алгоритмы нашли применение и в реальной жизни: от прогнозирования товарных остатков до программного обеспечения для беспилотных автомобилей. Программы, использующие этот метод, вскоре начали занимать все первые места на турнирах по го среди компьютеров. В 2012 г. программа Zen, основанная на поиске по дереву методом Монте-Карло и разработанная Едзи Одзимой, выиграла партию у профессионального игрока в го высшего ранга Масаки Такэмии, хотя и с форой. Это был первый случай, когда программа для игры в го победила мастера-человека. Масаки признавался: «Я и не подозревал, что компьютерное го шагнуло так далеко»[425]. Через несколько лет компьютеры станут играть лучше людей.

В статье 2001 г. один из пионеров обучения с подкреплением Ричард Саттон писал, что истинный интеллект требует того, что он называет верификацией: «Ключ к успешному ИИ – это его способность самостоятельно определять, правильно ли он работает или нет»[426]. И далее:

Сегодняшние системы ИИ в подавляющем большинстве случаев не способны верифицировать собственные знания. Создаются большие онтологии и базы знаний, которые полностью зависят от человеческого труда и поддержки. «У птиц есть крылья», – говорят они, но, конечно, у них нет никакой возможности это проверить.

Обучение с подкреплением и методы поиска по дереву Монте-Карло стали важным шагом в этом направлении. Благодаря своей сложной, созданной вручную функции оценки Deep Blue мог самостоятельно выбрать многообещающий ход. Но он не мог взглянуть на ситуацию шире и прикинуть, действительно ли это был наилучший из всех возможных ходов. Как не мог он и повысить качество своих суждений. Компьютерные программы, которым покорились шашки и шахматы, ориентировались в пространстве возможных решений и их ожидаемых исходов по карте, тщательно отрисованной их создателями-людьми. Саттон и Сэмюэл начали строить обучающиеся системы, которые умели строить собственную карту на основе решений, принимаемых ими в процессе игры, всякий раз отмечая на ней свои новые открытия. Обучающиеся системы оттачивают свою способность выносить суждения на основе опыта, а игры как раз и являются генераторами фиктивного опыта.

Аспирант Саттона Дэвид Сильвер сосредоточился на компьютерной го, проведя параллели между поиском по дереву методом Монте-Карло и обучением с подкреплением. По своей сути оба метода представляют собой обучение программ на основании проб и ошибок. Сильвер ушел из не особенно успешной игровой компании Elixir, которую он основал со своим другом детства и бывшим шахматным вундеркиндом Демисом Хассабисом, чтобы получить ученую степень. Тем временем Хассабис с коллегами основали специализирующийся на ИИ стартап DeepMind, к которому позже присоединится и Сильвер. Хассабис отверг академическую карьеру ради технологического сектора, рассудив, что получить