Токен за токеном - SeNS Boston
В статье вводилось три режима использования. Zero-shot, когда модель получает только описание задачи без каких-либо примеров. One-shot, когда даётся один пример. Few-shot, когда даётся от двух до сотни примеров. Каждый следующий режим, как правило, работал лучше предыдущего. И на многих задачах few-shot GPT-3 уже подходил по качеству к специально дообученным под задачу BERT-овским моделям.
Это было поразительно. До GPT-3 общая мудрость отрасли гласила: одна модель не может одинаково хорошо решать много задач без специальной адаптации к каждой. После GPT-3 эта мудрость рассыпалась. Одна модель могла переводить с английского на французский, отвечать на вопросы из истории, складывать двузначные числа, придумывать стихи, писать SQL-запросы, исправлять опечатки в коде. Без переобучения. По одному и тому же набору весов.
Что особенно поразило: некоторые из этих способностей не показывались моделями меньшего размера. GPT-3 умел складывать двузначные числа с точностью больше восьмидесяти процентов; GPT-2 со своими полутора миллиардами параметров на той же задаче проваливался полностью. Это явление стало называться эмерджентностью: некоторые способности появлялись как бы из ниоткуда, когда модель достигала определённого размера, и не присутствовали в моделях меньшего размера ни в каком виде.
В научном сообществе эмерджентность вызывала противоречивые чувства. С одной стороны, было ясно, что это конкретное наблюдаемое явление. С другой стороны, никто не мог его объяснить. Самый честный комментарий на этот счёт дал тогдашний главный научный сотрудник OpenAI Илья Суцкевер. Он сказал в одном из публичных выступлений, что они и сами не понимают, почему это происходит; что у них есть только эмпирические данные, и эти данные говорят, что при определённых размерах в моделях появляется качественно новое поведение. Глубже этого никто пока не разобрался.
Закрытая бета и денежный поток
OpenAI приняла относительно той же модели решение, существенно отличающееся от того, как они себя вели с GPT-2.
Веса GPT-3 не были опубликованы в открытом доступе. Никаких staged release. Никаких возможностей скачать модель. Вместо этого OpenAI запустила платный API: пользователи могли отправлять запросы в виде HTTP-запросов на серверы OpenAI и получать ответы. За использование платили потокенно — по фиксированному тарифу за каждую тысячу токенов. Это была первая коммерческая монетизация большой языковой модели в истории.
Доступ к API в первое время был ограничен: чтобы получить ключ, нужно было встать в очередь и ждать, пока тебя одобрят. На начальных этапах одобрение получили несколько сотен исследователей, разработчиков и небольших стартапов. К концу 2020 года список выросло до нескольких тысяч. К середине 2021 года API был открыт для всех желающих.
Реакция оказалась взрывной. Получив доступ к API, разработчики в первые же месяцы начали строить вокруг GPT-3 продукты, о которых раньше никто не думал: приложения для копирайтинга, помощи в учёбе, деловой переписки, креативного письма, перевода, психотерапевтических разговоров. Среди заметных стартапов был Jasper, ставший популярным генератором маркетинговых текстов. Год спустя, в июне 2021 года, GitHub под крылом Microsoft запустил собственный продукт Copilot — помощника, который писал код прямо в редакторе программиста на основе модели Codex, специально натренированной для программирования. Несколько крупных корпораций потихоньку начали интегрировать GPT-3 в свои внутренние процессы.
Через год после запуска API приносил OpenAI несколько десятков миллионов долларов ежегодного дохода. Через два — больше ста миллионов. Это были не очень большие деньги по корпоративным меркам, но это было первое реальное подтверждение, что большие языковые модели могут быть не только исследовательским проектом, но и бизнесом. Это убедило Microsoft увеличить свои вложения. Это привлекло внимание венчурных инвесторов. Это положило начало индустриальной экосистеме «генеративного ИИ».
Что было неочевидно
Внутри OpenAI первые месяцы после запуска GPT-3 сопровождались странной смесью эмоций.
С одной стороны, было ощущение крупной победы. Закон Каплана подтвердился. Большая модель действительно показала качественно новые способности. Эмерджентность стала наблюдаемым явлением. Стратегия масштабирования оправдала себя.
С другой стороны, было ощущение неуютства. GPT-3 был мощнее, чем кто-либо ожидал. Многие способности модели появились без специального плана, как побочный продукт обучения; никто заранее не предполагал, что у неё будут такие умения. Это означало, что модели большего размера могут проявить ещё более неожиданные способности — и среди них, возможно, такие, которые их разработчики не смогут вовремя обнаружить или контролировать.
Внутри OpenAI было несколько человек, для которых это второе ощущение было сильнее первого. Главным из них был Дарио Амодей.
В 2020 году Дарио был вице-президентом по исследованиям и непосредственно руководил программой GPT-3. Это его подпись стояла последней в списке авторов статьи. В коридорах OpenAI он, по свидетельству коллег, всё чаще говорил о том, что темп развития обгоняет темп изучения безопасности. Что модели становятся мощнее быстрее, чем удаётся понять, как с ними обращаться. Что в этих условиях нужно либо замедлиться, либо — если нельзя замедлиться, потому что конкуренты ждать не будут, — переориентировать значительную часть ресурсов на исследования безопасности.
Сэм Альтман с этим в принципе соглашался, но не настолько, чтобы это решительно меняло общую стратегию OpenAI. С его точки зрения, безопасность была одним из приоритетов, но не главным; главным было оставаться в лидерах разработки. Если замедлиться, говорил Альтман, лидерство достанется другим лабораториям, у которых, возможно, забота о безопасности будет ещё меньше.
Это разногласие копилось в течение 2020 года. К концу года оно стало достаточно глубоким, чтобы Дарио, его сестра Даниэла (отвечавшая в OpenAI за операционные вопросы) и небольшая группа коллег начали обсуждать, не пора ли организовать что-то своё.
Что увидели обычные люди
За пределами узких кругов разработчиков и инвесторов GPT-3 в 2020 году оставался малоизвестен. Имя модели прозвучало в нескольких технологических изданиях. Газета The Guardian опубликовала статью, написанную якобы самим GPT-3 (как сообщала редакционная заметка к публикации, текст был собран человеком-редактором из нескольких сгенерированных вариантов). Несколько блогеров и журналистов получили доступ к бете и опубликовали восхищённые отзывы.
Но настоящего общественного резонанса не было. Среднестатистический читатель газет в 2020 году не подозревал, что существуют программы, способные написать связный школьный реферат, придумать оригинальное стихотворение или вести с пользователем долгий и осмысленный диалог. Эти возможности были скрыты за платным API и доступны только тем, кто целенаправленно искал.
Если бы кто-нибудь в 2020 году спросил у мира на улице, что такое искусственный интеллект, средний прохожий, скорее всего, вспомнил бы Терминатора. Что такие модели, как GPT-3, существуют уже сейчас и доступны через интернет за пятнадцать долларов в месяц, среднему человеку в голову не приходило.
Это изменится через два с половиной года.
А пока в Сан-Франциско проходили внутренние




