Реальность на кону: Как игры объясняют человеческую природу - Келли Клэнси
В начале 1990-х гг. в области обучения с подкреплением был достигнут заметный прогресс: инженер Джеральд Тесауро создал программу для игры в нарды, успешно обучавшуюся с помощью метода временны́х разностей. Хотя нарды и не обладают таким культурным престижем, как шахматы, компьютерным программам было чрезвычайно трудно их освоить. К 1990 г. шахматные и шашечные программы уже приближались к уровню лучших игроков-людей, но их успех обеспечивался в основном «методом грубой силы» – опиравшимся на огромные вычислительные мощности перебором всех возможных вариантов на десятки ходов вперед. Однако не все игры в равной степени поддаются такому подходу. В шашках коэффициент ветвления – среднее число возможных ходов при каждой позиции – равен трем. Просчет наперед лавинообразно превращается в гигантское вычисление, поскольку каждый из этих трех ходов порождает еще три возможности – и так далее. В шахматах коэффициент ветвления имеет более проблематичное значение 35. Популярные уже как минимум пять тысячелетий нарды сочетают удачу и стратегию. Два игрока размещают на противоположных концах доски по 15 фишек, которые должны поменяться местами, двигаясь в соответствии с выпадающими на костях числами. Здесь коэффициент ветвления достигает примерно 400, так что прогнозирование даже на несколько ходов вперед быстро становится непосильной задачей[61].
Тесауро назвал свою программу TD-Gammon – в честь метода временны́х разностей (temporal difference)[62]. Вслед за Сэмюэлом с его шашечной программой он ставил TD-Gammon играть против собственных копий, что позволяло ей накапливать огромный опыт в ходе самоигры. Как и в случае с MENACE, первые партии TD-Gammon были ужасны, а победы одерживались лишь случайно. Программа еще ничему не научилась, так что ее прогнозы были чистой воды догадками. После нескольких десятков партий ее ходы начали напоминать простейшие стратегии при стандартном подходе к игре. После 300 000 партий она играла на уровне лучших уже существующих программ. Это особенно впечатляло, поскольку TD-Gammon не получила в явной форме никаких экспертных представлений о нардах. Другие ведущие программы были обучены копировать стратегии мастеров-людей и запрограммированы с помощью сложных уравнений, выражающих правила игры и встречающиеся в ней закономерности. TD-Gammon же выстраивала свою систему представлений исключительно на собственном опыте. После миллионов партий программа играла наравне с лучшими игроками-людьми. Анализируя ее стиль, специалисты обнаруживали неортодоксальные стратегии, бросавшие вызов любым традиционным подходам. Тесауро отмечал, что ее необычная манера игры «в некоторых случаях привела к серьезному пересмотру позиционного мышления ведущих игроков»[63]. Например, TD-Gammon использовала дебютную стратегию, превосходившую так называемый «захват пунктов», которое тогда считалось почти обязательным. Впоследствии забивание практически исчезло с турниров. Мечта Тьюринга осуществилась: самостоятельно освоившая нарды программа открыла новые глубины древней игры ее мастерам.
Вдохновленная достижениями психологии, TD-Gammon научилась играть лучше большинства людей. Но училась ли она так, как учатся люди? Теоретики нейронауки Питер Дайан, Рид Монтегю и Терри Сейновски обнаружили неожиданную аналогию: странные закономерности срабатывания дофаминовых нейронов, зафиксированные в лаборатории Шульца, в точности напоминали сигнал ошибки предсказания в системах типа TD-Gammon. Сейновски связался с Шульцем, и их ставшие теперь классическими совместные работы позволяют предположить, что дофамин сообщает в мозге об ошибке предсказания награды[64].
Эта элегантная концепция объясняла изначально сбивавшие с толку результаты Шульца[65]. Хотя дофамин выполняет в мозге множество функций, новые работы предполагали, что он действует как компонент обучающего алгоритма. Подобно методу временны́х разностей, дофаминовая система выражает то, в какой степени организм ожидает получения награды. Активность дофаминовых нейронов показывает, получило ли животное бо́льшую или меньшую награду, чем оно прогнозировало. Для нейронауки столь четкое соответствие теории и экспериментальных данных – огромная редкость. Мозг создает некую внутреннюю модель мира и регистрирует отклонения реальности от ее предсказаний. Как выразился нейробиолог Роберт Сапольски, дофамин «обслуживает скорее ожидание награды, чем саму награду»[66][67].
Дофамин играет в интеллекте ключевую роль. Он отвечает за поведение, направленное на поиск вознаграждения, у большинства подвижных животных, причем его концентрация в мозге выше у более разумных видов, таких как приматы и люди[68]. Однако тут следует сделать определенные оговорки. Приведенное мною описание – не только грубое упрощение наших знаний о дофаминовых нейронах, но и лишь малая часть того, что нам еще предстоит о них узнать. Не все дофаминовые нейроны сигнализируют об одном и том же. Некоторые отслеживают размер и ценность ожидаемого вознаграждения, но другие, судя по всему, срабатывают в зависимости от движений животного, его мотивации, тяжести наказания, ощущения неопределенности или сенсорных предсказаний. К тому же высвобождение дофамина влияет на нейроны-мишени очень многими способами. Говорить о дофамине как об однородном сигнале неправильно – хотя я и впредь буду допускать эту ошибку ради простоты изложения. Алгоритм обучения с подкреплением может быть очень разным, и мы не знаем точно, какая его версия (если вообще какая-либо) реализована в реальном мозге. И конечно же, эта история не сводится к дофамину. Дофаминовая система лишь один из компонентов гигантской и запутанной обучающейся сети, включающей разнообразные группы нейронов, химические вещества и рецепторы по всему организму. Петли обратной связи, напоминающие змею, кусающую себя за хвост, затрудняют интерпретацию любого нейронного сигнала. Однако несмотря на все это, обучение с подкреплением послужило очень полезной моделью для изучения одной из потенциальных функций дофамина в мозге.
В этой интерпретации процесс планирования можно рассматривать как запуск мозгом обучения с подкреплением на основе воображаемого опыта, полученного в рамках его




