Иной разум. Как «думает» искусственный интеллект? - Андрей Владимирович Курпатов

Name: Иной разум. Как «думает» искусственный интеллект?
Author: Андрей Владимирович Курпатов

Читать книгу Иной разум. Как «думает» искусственный интеллект? - Андрей Владимирович Курпатов, Жанр: Психология / Публицистика. Читайте книги онлайн, полностью, бесплатно, без регистрации на ТОП-сайте Vse-Knigi.com

Выставляйте рейтинг книги

Жанр: Психология / Публицистика

Название: Иной разум. Как «думает» искусственный интеллект?

Автор: Андрей Владимирович Курпатов

Дата добавления: 2 январь 2026

Количество просмотров: 50

Возрастные ограничения: Обратите внимание! Книга может включать контент, предназначенный только для лиц старше 18 лет.

Читать книгу

ВПЕРЕД

Перейти на страницу:

обучения вся нейронная сеть превращается в сложнейший навигационный инструмент — это не просто карта, а своего рода «семантический компас».

Теперь, чтобы понять отношения между разными токенами, ей не нужно снова перечитывать всю библиотеку. Ей достаточно произвести простые геометрические операции в этом пространстве: измерить расстояние и вычислить направление.

Большая лингвистическая модель — это, по сути, гигантская логарифмическая линейка, позволяющая рассчитать «семантическую арифметику». Весь хаос нашего языка представлен в современных ИИ упорядоченной геометрией, по которой можно не только путешествовать, но и в которой каждая точка этой системы, рассмотри мы её в отдельности, является квинтэссенцией всех текстов, на которых обучалась модель.

Увидеть контекст

Нельзя дважды войти в одну и ту же реку.

Гераклит

Итак, языковая модель превратила язык в гигантскую, многомерную карту, где каждое слово или токен имеет своё уникальное местоположение. Но прежде чем двигаться дальше, давайте на мгновение остановимся и осознаем масштаб, саму природу этого «пространства смыслов».

Ни один программист не сидит и не расставляет векторы слов вручную. Эта карта рождается сама, в процессе обучения модели на колоссальных, поистине астрономических объёмах текста[85][86].

Модели ChatGPT, Gemini, Claude или Grok «прочитали» практически всю доступную часть интернета — миллионы книг, миллионы миллионов текстов, — объём, для прочтения которого, как говорят, человеку потребовалось бы 2 500 лет в режиме 24/7.

Продираясь через этот океан данных, модель впитывала в себя статистическую тень всей нашей цивилизации. Она научилась не просто словам, а видеть их место в семантическом пространстве. Она «увидела», что слова «кофе» и «чашка» часто появляются вместе, что за «причиной» часто следует «следствие», что стиль научного текста отличается от художественного.

Вся эта сложнейшая паутина человеческих знаний, логики и культуры отпечаталась в её геометрии. И казалось бы, имея такую детальную карту, трудно не предсказать следующее слово. Но здесь мы сталкиваемся с фундаментальной проблемой, которую эта статичная карта решить не может. Это, как вы, наверное, уже догадались, проблема контекста.

Трансформер

Смысл слова — величина непостоянная, он рождается из его окружения. Например, в предложении «Спортсмен натянул тетиву лука» слово «лук» — это оружие, а во фразе «Шеф-повар добавил в суп лук» — это же слово означает уже овощ.

На нашей карте оба этих «лука» представлены одним и тем же вектором, который содержит некий усреднённый, «сырой» смысл. Но для точного предсказания следующего слова машине нужно понять, о каком именно «луке» идёт речь в данном конкретном предложении.

Иными словами, ей нужен механизм, который позволит статичным векторам «посмотреть» друг на друга и динамически уточнить свой смысл на основе словесного окружения.

Вектор «лука» должен «увидеть» рядом слово «тетива» и «сдвинуться» в ту область лингвистического пространства, где находятся «стрелы» и «оружие». В другом предложении тот же вектор должен «увидеть» слова «суп» и «повар» и «сместиться» к «овощам» и «кухне».

Как же справиться с этой «неряшливостью» нашего языка? Именно эту задачу и решает архитектура, которая лежит в сердце всех современных языковых моделей. Именно её называют «трансформер» — та самая буква «Т» в GPT, — и это не просто следующий слой нейросети, а принципиально новый способ обработки информации[87].

Вместо того чтобы обрабатывать слова по очереди, трансформер позволяет модели видеть весь текст сразу. Представьте, что это не конвейер с набором последовательных операций, а круглый стол переговоров. За этим столом сидят все слова (точнее, их векторы) из нашего текста. Их задача — быстро обменяться информацией, чтобы каждый участник понял свою точную роль в общем контексте.

Механизм внимания

Этот процесс коллективного обсуждения и называется «механизмом внимания»[88]. Во время такого «обсуждения» каждый вектор-участник одновременно выполняет три разные роли.

• Запрос — каждый вектор формирует «вопрос» ко всем остальным. Этот вопрос — тоже вектор, который кодирует, какая именно информация ему нужна для уточнения своего смысла. Например, вектор глагола «идёт» в предложении «Человек идёт по дороге» может сформировать запрос, который, по сути, означает: «Кто или что совершает это действие?»

• Ключ — это своего рода визитная карточка, которую каждый вектор «выкладывает на стол». Ключ — тоже вектор, кратко описывающий, какую информацию он может предоставить. Например, вектор слова «человек» предъявит ключ, означающий: «Я — одушевлённое существительное, способное совершать действие», — а вектор слова «дорога»: «Я — место действия».

• Значение — это третье представление вектора: его полная, богатая смысловая информация, которой он готов поделиться с теми, кто «заинтересуется».

Три ключа производят мгновенное сопоставление. Так, например, «запрос» от «идёт» сравнивается со всеми «ключами» за столом, и очевидно, что «человек» окажется ближе к нему, чем «дорога». Степень этого математического совпадения (вычисляемая через операцию скалярного произведения) и становится «весом внимания» — числовым показателем того, насколько сильно один вектор должен «прислушаться» к другому.

В результате вектор «идёт» получает разрешение взять большую порцию «значения» от вектора «человек» и добавляет эту информацию к себе. В результате это уже не абстрактный вектор действия, а вектор, в котором уже «записана» информация о том, что это действие совершается человеком.

И, что трудно представить, этот процесс происходит не последовательно, а параллельно. Каждое слово одновременно формирует свой запрос, и этот запрос одновременно сравнивается со всеми ключами. Это не вежливый диалог, а скорее гул голосов на бирже, где все мгновенно выкрикивают своё предложение, а сделка совершается просто по высшей ставке.

Вот мы с вами и посмотрели на то, как происходит своеобразный «внутренний диалог» элементов системы. Именно ему мы обязаны пониманием контекста — здесь смыслы, возникшие через векторное представление изначальных токенов, обретают контекстуальное понимание. И система приходит к этому результату не за один шаг, а через этот сложный и динамичный процесс взаимного уточнения.

Масштабировать сложность

Количество переходит в качество.

Фридрих Энгельс

Механизм внимания позволяет векторам слов обменяться информацией и уточнить свой смысл в зависимости от контекста. Но это ещё даже не начало финишной прямой. «Круглый стол переговоров» — лишь первый этап обработки. Чтобы понять, что происходит дальше, давайте представим нашу систему как гигантскую фабрику по производству смысла.

Процесс на этой фабрике состоит из чередующихся циклов: коллективная работа в общих цехах и индивидуальная обработка в специализированных лабораториях. Механизм внимания — это работа в общем цехе. А что происходит дальше? Что представляет собой индивидуальное осмысление?

После того как каждый вектор впитал в себя контекст и обновился, он отправляется на следующий этап — индивидуальную, углублённую обработку. В этой фазе векторы больше не