Токен за токеном - SeNS Boston

Name: Токен за токеном
Author: SeNS Boston

Читать книгу Токен за токеном - SeNS Boston, Жанр: Прочая околокомпьтерная литература / История / Зарубежная образовательная литература. Читайте книги онлайн, полностью, бесплатно, без регистрации на ТОП-сайте Vse-Knigi.com

Выставляйте рейтинг книги

Жанр: Прочая околокомпьтерная литература / История / Зарубежная образовательная литература

Название: Токен за токеном

Автор: SeNS Boston

Дата добавления: 13 май 2026

Количество просмотров: 26

Возрастные ограничения: Обратите внимание! Книга может включать контент, предназначенный только для лиц старше 18 лет.

Читать книгу

ВПЕРЕД

Перейти на страницу:

увидев ChatGPT, многие из них пересмотрят свои взгляды.

Что было дальше с Капланом

В январе 2020 года вышла статья. В мае 2020 года вышла модель GPT-3, обучение которой было спланировано по этим самым законам масштабирования и которая в общих чертах подтвердила их предсказания. К концу 2020 года Каплан принял решение, к которому он шёл несколько месяцев. Он покидает OpenAI и переходит в Anthropic, новую лабораторию, которую создают братья и сестра Амодей вместе с большой группой бывших коллег по OpenAI. В Anthropic Каплан становится Chief Science Officer, главным научным сотрудником.

Это будет одно из самых громких перетеканий специалистов в истории индустрии. Из десяти авторов статьи о законах масштабирования девять окажутся через пару лет в Anthropic. Из основной команды OpenAI, отвечавшей в 2019–2020 годах за научное направление, уйдут больше половины.

Причины были разные. Кто-то ушёл из-за разногласий с Альтманом по вопросам безопасности. Кто-то — потому что Дарио Амодей предлагал, по их мнению, более правильное видение. Кто-то — потому что в новой лаборатории обещали больше акций и больше свободы. Истинная смесь мотиваций, как обычно в таких историях, не сводилась к одной причине.

Но факт остаётся: лаборатория, придумавшая закон Каплана, потеряла большую часть команды, его придумавшей. И когда эта команда обустроилась на новом месте, она начала применять тот же закон у себя. Anthropic, формально младший конкурент OpenAI, очень быстро стал производить языковые модели сопоставимого качества. К 2023 году Anthropic'овский Claude войдёт в число пяти-семи моделей, определяющих передний край отрасли. К 2026-му его будут использовать миллионы людей и почти все технологические компании.

А Каплан сохранит свою профессуру в Хопкинсе и продолжит публиковать статьи на стыке физики и машинного обучения. Журналисты будут изредка приходить к нему с вопросами; он будет отвечать кратко и точно. Он не будет говорить о масштабировании как о пиар-инструменте; он будет говорить о нём как о научной находке. Можно сказать, что Каплан — один из немногих, для кого вся эта индустрия с самого начала была физикой, а не бизнесом. И отчасти поэтому он, наверное, единственный из главных героев нашей книги, у кого после всего, что произошло, нет ни одной публичной ссоры с бывшими коллегами.

Сцена готова

Январь 2020 года. Препринт Каплана. Февраль — внутреннее обсуждение в OpenAI. Март — Алек Радфорд начинает работу над GPT-3 на основе тех самых уравнений. Какой размер сделать? По формулам выходит сто семьдесят пять миллиардов параметров — в сто раз больше, чем у GPT-2.

Сколько это будет стоить? По другим формулам — около пяти миллионов долларов компьютерного времени.

Какое качество ожидается? Тут уже сложнее, потому что кросс-энтропия — это абстрактный показатель, и непонятно, как он переведётся в реальные способности модели. Но если экстраполировать кривые Каплана за пределы тех точек, в которых они уже измерены — а это и есть самая интересная и самая страшная часть истории, — модель такого размера должна писать тексты, в которых её угадывание следующего слова почти неотличимо от человеческого.

Команда OpenAI знала, что они ничего такого ещё не видели. Знали, что эксперимент может пойти неожиданным образом. Знали, что миллион долларов вычислений на сторонних серверах Microsoft Azure, в принципе, можно потратить даже если оно не сработает. Кроме того, сами законы масштабирования давали довольно высокую уверенность.

В апреле 2020 года в одном из дата-центров Microsoft, в облачном регионе Восток США 2, началось обучение модели в сто семьдесят пять миллиардов параметров. Оно длилось чуть больше месяца. К началу мая модель была готова.

В мае 2020 года, когда GPT-3 была готова, никто из тех, кто видел её результаты, ещё не знал, во что эта модель превратится через два с половиной года. Не знал, что продукт на её основе наберёт миллион пользователей за пять дней и сто миллионов за два месяца. Не знал, что станет самым быстро распространившимся приложением в истории. Знай они это, занервничали бы. Но, не зная, спокойно опубликовали статью.

Глава 10

Гигант, который заговорил

Здесь мы показываем, что масштабирование языковых моделей значительно улучшает их способность к решению задач без обучения.

Из аннотации статьи Brown et al., 2020

28 мая 2020 года, в 17 часов 29 минут по нью-йоркскому времени, на сервере препринтов arXiv появилась статья на семьдесят пять страниц. В авторстве значился тридцать один человек: Том Браун как ведущий, потом двадцать девять имён в случайном порядке, потом Дарио Амодей как последний. Заголовок был обманчиво простым: Language Models are Few-Shot Learners. «Языковые модели учатся по нескольким примерам».

Внутри статьи описывалась модель под названием GPT-3. Её главные характеристики были такими. Сто семьдесят пять миллиардов параметров. Девяносто шесть слоёв трансформера. Контекстное окно в две тысячи сорок восемь токенов. Обучена на массиве примерно из пятисот миллиардов слов, собранных из почищенного слепка Common Crawl, английской Википедии, нескольких сборников книг и веб-страниц. Стоимость обучения, по разным оценкам, от пяти до двенадцати миллионов долларов только на вычисления. Время обучения — несколько недель на тысячах видеокарт в облачной инфраструктуре Microsoft Azure.

Цифры впечатляли. Но впечатляли не они. Впечатляло то, что модель показывала результаты, не предусмотренные ни одной из теоретических работ по обучению нейронных сетей.

То, чего никто не ожидал

До GPT-3 в обработке естественного языка существовала очень устоявшаяся практика. Если у вас есть задача (скажем, классификация эмоциональной окраски твитов или ответы на вопросы по медицинским документам), вы берёте предобученную модель типа BERT или GPT-1, собираете несколько тысяч размеченных примеров вашей задачи, и дообучаете модель на этих примерах. Это называлось fine-tuning, и без этого шага никакая большая модель не была пригодна для практического применения.

GPT-3 предложил иную парадигму. Вместо того, чтобы менять веса модели под каждую конкретную задачу, нужно просто описать задачу в текстовом виде и подать на вход модели как обычный текст. Скажем, вы хотите классифицировать твит. Вы пишете в начале промпта: «Определи эмоциональную окраску твита: положительная, отрицательная или нейтральная». Дальше даёте два или три примера: твит и правильная метка. После этого даёте свой реальный твит и оставляете строку для ответа пустой. Модель видит этот текст, видит примеры, и сама догадывается, что нужно сделать. И в ответ выдаёт правильную метку.

Это поведение Том Браун и его команда назвали in-context learning, «обучение прямо в контексте». В отличие от классического обучения, никаких изменений в весах модели не происходит; задача формулируется и