Реальность на кону: Как игры объясняют человеческую природу - Келли Клэнси

Name: Реальность на кону: Как игры объясняют человеческую природу
Author: Келли Клэнси

Читать книгу Реальность на кону: Как игры объясняют человеческую природу - Келли Клэнси, Жанр: Биология / Зарубежная образовательная литература. Читайте книги онлайн, полностью, бесплатно, без регистрации на ТОП-сайте Vse-Knigi.com

Выставляйте рейтинг книги

Жанр: Биология / Зарубежная образовательная литература

Название: Реальность на кону: Как игры объясняют человеческую природу

Автор: Келли Клэнси

Дата добавления: 24 февраль 2026

Количество просмотров: 35

Возрастные ограничения: Обратите внимание! Книга может включать контент, предназначенный только для лиц старше 18 лет.

Читать книгу

ВПЕРЕД

Перейти на страницу:

Торндайка. Дофамин – это не мера удовольствия. Он больше напоминает «молекулу мотивации», побуждающую организм действовать для достижения желаемого.

Новые данные Шульца усложнили эту картину. Его группа подтвердила, что дофаминовые нейроны активируются при получении награды – но только если животное ее не ожидало. Ученые обучили обезьян тому, чтобы после светового сигнала нажимать на рычаг для получения награды в виде сока. Необученные животные поначалу действовали хаотично. Они беспорядочно нажимали на рычаг, и иногда это поведение подкреплялось соком, так как случайно приходилось на нужный момент. У этих необученных обезьян при получении награды активировались дофаминовые нейроны. Но как только животные усваивали связь между световым сигналом и наградой, эти нейроны переставали реагировать на сок. Вместо этого они активировались в ответ на предшествующий световой сигнал. Еще показательнее было то, что, если свет зажигался, но награда не поступала, активность нейронов снижалась. Они сигнализировали об ожиданиях. Эти нейроны отслеживали не движение и не награду как таковые – они отслеживали представления. Они даже реагировали, когда ожидаемое событие не происходило, будто выражая удивление.

Психологи уже знали, что удивление играет ключевую роль в обучении. Животные не всегда учатся с помощью простого повторения и вознаграждения. Удивление указывает на то, что ученику еще есть чему учиться, то есть способность удивления привлекать внимание способствует обучению[53]. Даже младенцы дольше смотрят на неожиданные стимулы, например на видео с мячом, катящимся в гору. Удивление возникает, когда реальность расходится с ожиданиями, и мозг использует это как сигнал к обучению. Именно поэтому в программах для изучения иностранных языков часто встречаются юмористические фразы с неожиданными ассоциациями – «Почему банан мокрый?» или «Мои лошади коллекционируют зубы». Когда преподаватели используют элемент неожиданности, ученики лучше запоминают материал.

Данные Шульца перекликались с результатами классических психологических исследований, например экспериментов Павлова на собаках, у которых слюноотделение начиналось уже при звуке колокольчика, сигнализирующего о скором появлении еды. Десятилетия спустя психолог Б. Ф. Скиннер пошел по этому пути дальше, назвав поведенческую обратную связь «подкреплением». Отрицательные подкрепления (например, поток воздуха в морду) подавляли определенное поведение, а положительные (например, еда) его закрепляли. Скиннер считал, что эта простая дихотомия – привлекательность желаемого и избегание нежелательного – составляет основу любого разумного поведения. Таким образом он надеялся свести сложность поведения животных к некому подобию физики, где все определяется притяжением к награде и отталкиванием от наказания. Скиннер полагал, что с помощью подкреплений животных можно, по сути, запрограммировать на любое поведение. Он также считал, что это в равной степени верно и для людей. Он писал: «Главный вопрос состоит не в том, могут ли машины мыслить, а в том, могут ли мыслить люди. Тайна, окружающая мыслящую машину, уже окружает и мыслящего человека»[54].

Многие исследователи середины XX в. верили, что эти открытия проложат путь к логично устроенной утопии «психоцивилизованного» общества[55]. Страх и агрессия будут укрощены, а удовольствие усилено. Поведением людей можно будет рационально управлять. «Ошибочно полагать, будто вся проблема состоит в том, как освободить человека, – утверждал Скиннер. – Проблема в том, как усовершенствовать способы контроля над ним»[56]. Вдохновленный этой идеей, психиатр Роберт Хит попробовал менять поведение пациентов методами крайне неэтичными даже по меркам своего времени. В 1972 г. Хит заявил, что «переделал» гея в гетеросексуала, стимулируя дофаминовые нейроны пациента во время его полового акта с проституткой[57]. Идеи Скиннера десятилетиями доминировали в психологии. Людей рассматривали как пассивные объекты, движимые наградой и наказанием и лучше всего управляемые с помощью мягкого подталкивания. Позже его философия сильно повлияла на экономическую науку, где специалисты называют такие способы подкрепления «стимулами».

_ _ _ _

В 1970-е гг. студенты могли получить практический опыт работы с компьютерами лишь в нескольких американских университетах, и Стэнфорд, где учился Ричард Саттон, был одним из них. Отдельной специализации по ИИ еще не существовало, поэтому он изучал психологию, параллельно осваивая программирование. Саттона поражало, как мало внимания исследователи ИИ уделяли психологии. Очевидно же, что ИИ должен создаваться по образцу реального мозга: «Неужели никто не изучал то, как это делают животные и люди, ведь это совершенно логичный подход?» В то время игровые ИИ-системы не имели ничего общего с человеческим интеллектом[58]. Они строились на негибких, избыточно заточенных под свои задачи уравнениях – уязвимых, как панды, способные питаться одним лишь бамбуком.

На третьем курсе Саттон обнаружил малоизвестный и сугубо теоретический отчет сотрудника исследовательского центра ВВС США Гарри Клопфа «Функции мозга и адаптивные системы: гетеростатическая теория» (Brain Function and Adaptive Systems: A Heterostatic Theory)[59]. Если гомеостат (например, домашний термостат) поддерживает текущее состояние системы, то гетеростат предназначен для максимизации определенного ее показателя. Клопф считал, что о нейронах (а также организмах, их группах и даже целых обществах) следует думать как о желающих чего-то, как будто они имеют цели и действуют так, чтобы максимизировать будущее вознаграждение. Хотя не все идеи Клопфа выдержали проверку временем, его основной тезис заключался в том, что обучение по своей природе гедонистично.

В его отчете проводилось очень многое проясняющее различие: интеллект нельзя смоделировать с помощью пассивной программы, которая просто выдает ответы «да» или «нет», классифицируя изображения кошек или автомобилей. Интеллект активно действует в своем мире и целеустремленно меняет его, следуя вдоль вектора, направленного от наказания к награде. Интеллект желает. Саттон решил пойти в аспирантуру в лабораторию исследователя ИИ Эндрю Барто, который разделял его стремление создавать системы, обучающиеся подобно живым существам. Вдохновленные идеями Клопфа, они потратили несколько лет на формализацию принципов работы написанной Сэмюэлом самообучающейся шашечной программы, создав элегантную концепцию, известную сегодня как обучение с подкреплением. Ее суть проста: действия, ведущие к награде, закрепляются, а бесполезные отбрасываются. Вторя экспериментам психологов прошлого, Саттон и Барто стали первопроходцами в разработке систем, которые методом проб и ошибок учатся проявлять поведение, максимизирующее вознаграждение. Настольные игры идеально подходили для этого, поскольку по определению имели четкую цель – победу.

Основная сложность при создании обучающихся систем с подкреплением известна как проблема распределения заслуг. В жизни вознаграждения случаются редко. Можно создать программу для игры в шашки, которая «желает» добиться победы. Но результат партии становится известен только в конце, после длинной цепочки ходов. Как программа может определить, все ли приведшие к победе ходы одинаково хороши, или был некий решающий ход, который заслуживает особого признания? Непонятно, как связать такую отложенную обратную связь с действиями, совершенными много шагов назад. Победы и поражения просто-напросто слишком редки, чтобы служить надежными сигналами при обучении.

Чтобы решить эту проблему, Саттон