Токен за токеном - SeNS Boston

Name: Токен за токеном
Author: SeNS Boston

Читать книгу Токен за токеном - SeNS Boston, Жанр: Прочая околокомпьтерная литература / История / Зарубежная образовательная литература. Читайте книги онлайн, полностью, бесплатно, без регистрации на ТОП-сайте Vse-Knigi.com

Выставляйте рейтинг книги

Жанр: Прочая околокомпьтерная литература / История / Зарубежная образовательная литература

Название: Токен за токеном

Автор: SeNS Boston

Дата добавления: 13 май 2026

Количество просмотров: 0

Возрастные ограничения: Обратите внимание! Книга может включать контент, предназначенный только для лиц старше 18 лет.

Читать книгу

ВПЕРЕД

Перейти на страницу:

человек со скованными манерами; вечером они с Шенноном пили чай в кафетерии. Шеннон не имел права обсуждать свою работу с этим человеком, и человек не имел права обсуждать свою работу с Шенноном. Они разговаривали о машинах вообще, об абстрактной идее вычисления, о том, может ли машина однажды думать. Человека звали Алан Тьюринг. Они виделись несколько раз, попили чая, поспорили о шахматах, и Тьюринг вернулся в Англию, к своей работе в Bletchley Park, где британцы взламывали немецкие военные шифры. Они больше никогда не встретятся, но через пятнадцать лет имена обоих окажутся на обложках одних и тех же учебников.

К концу войны Шеннон написал внутренний секретный отчёт под названием «Математическая теория криптографии». В нём он впервые сформулировал то, что станет потом мощнейшей идеей: информация — это не содержание сообщения, это мера его неопределённости. Сколько разных сообщений могло бы быть передано — настолько много в этом канале информации. Сообщение, которое было заранее предсказуемо, не содержит никакой информации. Сообщение, которое могло бы быть любым из миллиона вариантов — содержит много.

Этот отчёт был засекречен. Только в 1949 году его опубликовали в открытом доступе. Но из него вырастала открытая статья 1948 года, которая всё перевернула.

Что такое информация

Чтобы оценить размер шеннонова открытия, надо представить, как этот вопрос выглядел до него.

«Информация» до 1948 года не была научным термином. Это было слово из лексикона газетчиков, библиотекарей и философов. Никто не знал, как её измерять. Можно было сравнить две книги и сказать, что в одной из них «больше информации», но что это значит количественно — пожать плечами и попросить уточнить. Можно было передать сообщение по телеграфу и сказать, что в нём столько-то знаков. Но знаков чего? Битов чего? Если переслать одну и ту же фразу по-английски и по-китайски, в одной из них окажется заметно меньше слов — значит ли это, что в ней меньше информации? Очевидно, нет. Но как тогда мерить?

Шеннон в статье 1948 года ответил на этот вопрос с точностью, ранее в инженерных науках невиданной. Он сказал: информация — это разрешение неопределённости. Чем менее вероятным было получаемое сообщение, тем больше информации оно несёт. Если сообщение «солнце завтра взойдёт» — оно почти ничего не содержит, потому что вероятность близка к единице. Если сообщение «случилось солнечное затмение прямо сейчас» — оно несёт много информации, потому что вероятность была маленькой. И эту вот величину информации можно посчитать. Она связана с вероятностью простой формулой: чем меньше вероятность, тем больше логарифм её обратной, и эта логарифмическая величина и есть количество информации.

Шеннон назвал эту величину энтропия. Слово ему посоветовал использовать математик Джон фон Нейман. По одной из версий — апокрифической, но настолько хорошей, что её все цитируют, — фон Нейман сказал Шеннону примерно так: «Назови это энтропией. Во-первых, в физике уже есть энтропия, и звучит впечатляюще. Во-вторых, никто толком не знает, что такое энтропия, так что в любом споре у тебя будет преимущество». Достоверность этой беседы оспаривается; но энтропией шенноново понятие в итоге назвали именно так, и теперь все привыкли.

Минимальная единица информации, по Шеннону, — это выбор между двумя одинаково вероятными вариантами. Один такой выбор Шеннон, по предложению своего коллеги Джона Тьюки, назвал бит (от binary digit). Статья 1948 года была первой публикацией, где это слово было напечатано в современном научном смысле. Сегодня его знает любой подросток. Тогда его не знал никто.

И из этой идеи вытекало всё остальное. Если информация измеряется в битах, значит, любое сообщение — текст, картинка, звук, телефонный разговор — можно перевести в биты, в ноли и единицы, и передавать по любому каналу. Это была первая, главная и совершенно революционная мысль Шеннона. Все нынешние компакт-диски, JPEG-картинки, MP3-файлы, mp4-видео, WhatsApp-сообщения и приходящие на ваш смартфон уведомления — следствия этой мысли. Цифровая эпоха началась в июле 1948 года, в первом номере Bell System Technical Journal с шенноновой статьёй внутри.

Когда машина учится говорить

Но в той же статье, ближе к её середине, есть глава, на которую долгое время мало кто обращал внимание, — а зря. Шеннон, рассуждая о том, как именно устроены источники информации в реальной жизни, обратился к самому интересному из всех источников: к человеческому языку.

Английский язык, рассуждал Шеннон, — это не случайная последовательность букв. Если бы кто-нибудь брал из шляпы наугад буквы и составлял из них строчки, получалось бы что-то вроде:

XFOML RXKHRJFFJUJ ZLPWCFWKCYJ FFJEYVKCQSGHYD QPAAMKBZAACIBZL

«Нулевое приближение» английского, по Шеннону, 1948

Очевидно, что на английский это не похоже. Английский ведь устроен так: одни буквы встречаются чаще, другие — реже. После одной буквы вероятнее идёт определённая другая. Слова имеют типичные начала и концы. Чтобы понять, насколько язык структурирован, Шеннон провёл серию замечательных мысленных и практических экспериментов.

Он взял книгу — обычный английский роман с полки. И стал «генерировать» псевдо-английский текст по нарастающему уровню сложности.

В первом приближении он просто брал буквы из книги по частотности — то есть «E» появлялась чаще, «Z» реже, согласно реальным частотам английского. Получилась бессмыслица, но уже не равномерная: больше похожая на текст по плотности букв.

Во втором приближении он использовал пары букв. Если он только что выписал букву «T», то следующую брал не из всего алфавита, а с распределением, типичным для буквы, идущей после «T» в реальном английском. Получалось вот что: появились последовательности типа «ON IE» и «AND IS», уже частично похожие на английский.

В третьем приближении он использовал тройки букв. И так далее. На каком-то шаге Шеннону надоели подсчёты вручную, и он сделал гениальный по простоте трюк: открыл книгу наугад, нашёл в ней последнюю комбинацию букв, такую же, как у него уже есть на выходе, и продолжил со следующих за этой комбинацией букв. Эту процедуру он повторил несколько раз. Получилось:

THE HEAD AND IN FRONTAL ATTACK ON AN ENGLISH WRITER THAT THE CHARACTER OF THIS POINT IS THEREFORE ANOTHER METHOD…

Шенноново «третье приближение» по словам, 1948

Это не имеет смысла. Но если прочитать вслух, по интонации очень похоже на английский. Слова почти все настоящие. Грамматика — местами правильная. А смысла — нет.

Шеннон сделал из этого простой и очень важный вывод. Чем длиннее цепочка предшествующих букв (или слов), которые мы учитываем при выборе следующей, тем более «английским» получается результат. И в пределе — если бы у нас