Реальность на кону: Как игры объясняют человеческую природу - Келли Клэнси
Могущество и опасность обучающихся систем – в их универсальности. Поначалу Сильвер отмахивался от опасений, что военные аналитики присматриваются к алгоритмам DeepMind. Он ответил одному репортеру, что «говорить, будто это имеет какое-то военное применение, – все равно что говорить, будто ИИ для шахмат может привести к разработкам в области вооружений»[438]. Несколько месяцев спустя ВВС США объявили, что приспособили MuZero, универсальный игровой алгоритм DeepMind, для использования в автономных дронах. В отличие от системы Belle Кена Томпсона, которая умела выдавать только шахматные ходы и была опасна лишь постольку, поскольку ее можно было скинуть кому-нибудь на голову, универсальные обучающиеся алгоритмы учатся – в этом весь их смысл. Компании, занимающиеся ИИ, с нарочитым простодушием составляют беззубые кодексы этических принципов, где клянутся никогда не разрабатывать военные технологии, и совершенно не обращают внимания на то, что они не могут контролировать, чему учатся их обучающиеся системы.
Конечно, обучающиеся системы способны на творческие решения, как в случае с тридцать седьмым ходом AlphaGo. Но они также печально известны тем, что упускают из вида суть. Подобно джиннам-буквалистам из сказок Шахерезады, компьютерные агенты близоруко выполняют свои обязанности, не замечая вреда или двусмысленности поставленных перед ними задач. Исследователи из OpenAI использовали обучение с подкреплением, чтобы натренировать свою систему играть в Coast Runners, видеоигру про гонки на катерах. Они поставили перед программой задачу максимизации числа набранных очков и оставили ее на несколько недель набираться игрового опыта. Они предполагали, что агент научится вести катер к финишу. Вместо этого он научился накручивать свой счет, вертясь на одном месте, чтобы снова и снова поражать непрерывно возникающие цели. Число очков оказалось плохим аналогом того поведения, которого хотели добиться от программы исследователи, – победы в гонке. Подобно крысам с вживленными электродами, которые отказываются от всех удовольствий, кроме стимуляции своих центров вознаграждения, обучающиеся агенты уязвимы для той же логики зависимости. Не случайно системы, все в большей мере определяющие очертания наших цифровых реальностей, вызывают такое сильное привыкание. Их работа сводится к максимизации непосредственно измеряемых величин – числа кликов, лайков, комментариев, без учета более значимых долгосрочных последствий, таких как психическое здоровье пользователей, их гражданская активность или радикализация под влиянием идеологий ненависти. Подобно героям Шахерезады, нам следует быть осторожными в своих желаниях.
Сосредоточившись на разработке ИИ посредством игр, инженеры, по сути, геймифицировали сами исследования в этой области. Одолев большинство популярных настольных игр, исследователи ИИ обращались ко все более сложным задачам. Используя методы теории игр, чтобы побудить агентов к сотрудничеству ради достижения долгосрочных целей, компания OpenAI обучила целый штат программ выступать в роли партнеров по командной видеоигре Dota. Майкл Боулинг и его коллеги по Университету Альберты разработали агента для игры в профессиональный покер, способного блефовать не хуже лучших в мире игроков-людей. Однако, чтобы стать по-настоящему полезным, машинное обучение должно было выйти за пределы игровых пространств и начать решать проблемы реального мира. Пока же исследователи добились большего успеха, геймифицируя реальный мир.
Специалистка по ИИ Фэй-Фэй Ли способствовала прогрессу в области систем компьютерного зрения, внеся в нее игровой элемент. В 2006 г. она начала работу над ImageNet, обширной базой размеченных людьми изображений. Эта база обеспечила возможность проведения ежегодного первенства по классификации изображений, которое позволяло группам со всего мира оценивать показатели своих программ по стандартной методике. Успехи более недавнего времени связаны с программами генеративного ИИ, которые способны порождать фотореалистичные портреты несуществующих людей или тексты, обладающие порой поразительным правдоподобием. Эти программы задействуют архитектуру, превращающую создание изображений и текстов в игру двух соперников с нулевой суммой. Сеть разделяется на два соревнующихся компонента: один, подобно художнику-фальсификатору, производит изображения, а другой, подобно детективу, старается выявить подделки, сравнивая их с известными работами, созданными людьми. К концу обучения изображения компонента-фальсификатора иногда неотличимы от работ, созданных человеком. Акт творчества переосмысляется тут как предмет соперничества двух игроков.
Аналогичным образом созданная в компании OpenAI языковая модель GPT, которая основана на так называемой архитектуре трансформера, учится предсказывать слова в рамках схемы обучения, напоминающей телевикторину Jeopardy! («Своя игра»). Модель получает обучающие данные: фрагменты текста, собранные со всего интернета (зачастую, стоит отметить, без ведома или согласия их авторов). Затем GPT учится угадывать слова, которые с наибольшей вероятностью соответствуют пробелам в тексте. В процессе она усваивает сложные статистические связи внутри языков и даже между ними. Эта простая игра в угадывание слов приводит к созданию моделей, способных выполнять на удивление сложные задачи. В отличие от игровых программ, обучающихся исключительно в ходе самоигры, эти программы заточены под то, чтобы имитировать человеческие реакции. Они могут казаться очень человечными, поскольку их обучали с помощью игр, вознаграждающих за подражание людям. После этого их ответы дополнительно оттачиваются людьми-оценщиками. Компании нанимают специальных сотрудников – часто из развивающихся стран и за низкую плату, – задача которых состоит в том, чтобы отсеивать неприемлемый контент из обучающих данных и результатов работы модели. Многие из этих сотрудников получают психологические травмы и ПТСР из-за того потока оскорбительных текстов и изображений, с которым им приходится работать в ежедневном режиме.
Для самообучающихся игровых программ арбитром истины выступает сама игра. Ход либо допустим, либо нет, он ведет либо к победе, либо к поражению. Но подобно тому, как математика не имеет связи с реальностью, большие языковые модели не имеют опоры




