vse-knigi.com » Книги » Разная литература » Зарубежная образовательная литература » Как учится машина. Революция в области нейронных сетей и глубокого обучения - Ян Лекун

Как учится машина. Революция в области нейронных сетей и глубокого обучения - Ян Лекун

Читать книгу Как учится машина. Революция в области нейронных сетей и глубокого обучения - Ян Лекун, Жанр: Зарубежная образовательная литература / Науки: разное. Читайте книги онлайн, полностью, бесплатно, без регистрации на ТОП-сайте Vse-Knigi.com
Как учится машина. Революция в области нейронных сетей и глубокого обучения - Ян Лекун

Выставляйте рейтинг книги

Название: Как учится машина. Революция в области нейронных сетей и глубокого обучения
Автор: Ян Лекун
Дата добавления: 14 апрель 2025
Количество просмотров: 46
Возрастные ограничения: Обратите внимание! Книга может включать контент, предназначенный только для лиц старше 18 лет.
Читать книгу
1 ... 38 39 40 41 42 ... 82 ВПЕРЕД
Перейти на страницу:
с одним из ограничений перцептрона, которое состоит в том, что, если различные варианты написания C и D слишком сильно различаются по форме, положению или размеру, он не сможет их распознать, потому что точки, соответствующие начертанию C и D, больше не отделяются гиперплоскостью (см. главу 3 «Пределы перцептрона»). Однако если мы добавим дополнительный слой, мы сможем решить эту проблему. Нейроны первичного слоя будут обнаруживать паттерны, характерные для C и D.

Такие детекторы создаются автоматически, потому что в сети используется обратное распространение. Оно автоматически обнаруживает отличительные признаки или шаблоны. Например, непрерывная линия с двумя открытыми концами существует только для C. Наличие линий, образующих близкий к прямому угол при схождении, указывает на D, но не C, и т. д.

Первый слой ведет себя как экстрактор признаков, а второй – как классификатор, но все уровни сети обучаются одновременно: обучение становится единым.

В простейших многослойных сетях все нейроны одного слоя связаны со всеми нейронами следующего слоя. Это неудобно при большом объеме входных данных. Возьмем изображение размером 100 × 100 пикселей (что для изображения совсем немного): в нем будет 10 000 пикселей. Подключим его к первичному слою с 10 000 нейронов. Количество соединений между входом и первичным слоем составит 100 млн. Астрономическое число для одного слоя!

Нам нужно найти способ построить архитектуру сети так, чтобы она могла принимать большие объемы входные данные (например, изображение размером 1000 × 1000 пикселей), не увеличиваясь при этом в размерах. Адаптация архитектуры нейронной сети к решаемой задаче – ежедневная задача инженера, работающего с искусственным интеллектом.

Итак, глубокое обучение состоит из:

1. Построения архитектуры многослойной сети путем расстановки и соединения модулей.

2. Обучения данной архитектуры методом градиентного спуска после вычисления этого градиента обратным распространением.

Прилагательное «глубокий» здесь просто выражает тот факт, что архитектура имеет несколько слоев. Ничего более.

Как же спроектировать архитектуру сети, чтобы она подходила для распознавания изображений? Мы рассмотрим это в следующей главе.

Глава 6

Сверточные сети, столпы ИИ

В Bell Labs, вдохновленный тем, что было известно о системе зрения у млекопитающих, я разработал совершенно новую многослойную архитектуру сети. Мой руководитель лаборатории Ларри Джекел назвал ее LeNet (в подражание моей фамилии LeCun[59]). Так появились первые сверточные сети. Конец 1980-х и начало 1990-х были периодом процветания многослойных нейронных сетей: число конференций и научных публикаций увеличивалось, появлялись новые рабочие места в университетах, государство инвестировало в проекты…

Но в середине десятилетия наступил еще один период застоя. Помимо больших вычислительных ресурсов, сети требовали огромного количества обучающих данных. К тому же они были сложны в эксплуатации.

Ситуация кардинально изменилась только в 2012 г. В международном соревновании сверточные сети, особые типы многослойных сетей, продемонстрировали всю свою эффективность. Они стали фаворитами в исследованиях и костяком многих приложений ИИ. С тех пор их значимость неуклонно растет.

«Бомба» 2012 года

Запомните словосочетание «ImageNet». Так называют исследовательскую базу данных компьютерного зрения для распознавания объектов на изображениях. Она была разработана учеными из Стэнфорда, Принстона и некоторых других американских институтов. Наиболее часто используемая база данных семейства ImageNet, ImageNet-1k, содержала более 1,3 млн изображений, которые все были помечены вручную, чтобы дать указание на категорию основного объекта, который они отображают. Всего было использовано 1000 категорий. С 2010 г. проект ImageNet стал проводить ежегодные соревнования по распознанию визуальных образов под длинным названием «ImageNet Large Scale Visual Recognition Challenge» (ILSVRC), который в результате все называют просто… ImageNet. По сути – это своеобразный «кибертурнир», на котором исследователи сравнивают свои методы распознавания изображений.

Правила таковы: для каждого изображения системы должны предложить пять категорий из 1000. Если правильный ответ входит в пятерку предложенных, считается, что система ответила правильно. Это действительно можно назвать достижением, поскольку среди 1000 категорий насчитывается, например, 200 пород собак, некоторые из которых очень похожи по внешнему виду.

В 2011 г. даже лучшие системы давали (как и в прежние годы) 25 % ошибок распознавания. Однако в следующем году команда Джеффри Хинтона и его студентов из Университета Торонто значительно побила этот рекорд, снизив число ошибок до 16 %. В чем секрет? Сработали сразу два фактора: использование большой сверточной сети, вдохновленной моими разработками, и программирование ее для работы на графических процессорах, очень эффективных при работе сверточных сетей.

Началось стремительное движение вперед. В следующем году все кандидаты на конкурс ImageNet стали пользоваться новым методом. Это была революция. Благодаря более мощным графическим процессорам и программному обеспечению с открытым исходным кодом, которое облегчило работу исследователей, сверточные сети буквально перевернули компьютерное зрение. Они быстро сделали возможными новые приложения: сортировка и поиск информации, автономные автомобили, анализ медицинских изображений, индексация и поиск изображений, распознавание лиц и речи, и т. д.

На самом деле путь к успеху был очень долгим. Вспомните, что к 1982 г., когда я еще работал в ESIEE, большинство исследователей уже давно отказались от сквозного обучения многослойных нейронных сетей. То есть такие сети существовали, но обучался лишь их последний слой, а остальные операции писались вручную инженерами.

С самого начала моей работы, в 1993 г., мои эксперименты были сосредоточены на локально связанных сетях, архитектура которых была вдохновлена открытиями Хьюбела и Визеля[60] в области зрительной коры головного мозга. Обратное распространение, когнитрон Фукусимы, теории двух нейробиологов – все это я держал в голове, когда отправился на стажировку в Торонто в лабораторию Джеффри Хинтона.

Зрительная кора: простые клетки

Давайте на минутку остановимся на способе обработки информации в визуальной системе, как это объясняли Хьюбел и Визель. Они обнаружили, что распознавание объектов происходит поэтапно, от сетчатки до нижневисочной коры: оно следует по «вентральному пути». Например, при взгляде на стул визуальный сигнал проходит через последовательные фильтры в первичной зрительной коре (область V1), потом в следующих областях V2, в V4 и, наконец, включают в нижневисочной коре набор нейронов, представляющих понятие «стул».

Во время обычных визуальных задач один сигнал распространяется менее чем за 100 миллисекунд. Скорость сигнала такова, что невозможно использовать множество циклов, имеющихся в соединениях.

В области V1 пучки больших пирамидных нейронов (по 50–100 в пучке) связаны с небольшими областями поля зрения, которые называются рецептивными полями. Воспринимающее (рецептивное) поле нейрона – это область поля зрения, из которой он получает свои входы. На одно и то же рецепторное поле «смотрят» от 50 до 100 нейронов. Допустим, их 60. Каждый из этих нейронов реагирует на простой паттерн (элемент изображения). Нейрон № 1 реагирует на вертикальные контуры, № 2 реагирует на линию, которая составляет угол в 6° по вертикали, № 3 – на линию

1 ... 38 39 40 41 42 ... 82 ВПЕРЕД
Перейти на страницу:
Комментарии (0)