Новое понимание нормализации партии

Пакетная нормализация (BN) была введена [1] еще в 2015 году. С тех пор она используется в самых глубоких моделях обучения для улучшения обучения и устойчивости к выбору скорости обучения, а также инициализации параметров.

BN был разработан для уменьшения внутреннего смещения ковариации (ICS) на входе каждого слоя путем нормализации первых двух моментов - среднего значения и дисперсии. В то же время не влияет на способность сети производить желаемое распределение активации с помощью пары обучаемых параметров (гамма и бета).

Недавняя работа [2] проливает некоторый новый свет на BN и выигрыш в производительности, полученный с помощью метода нормализации. Основываясь на экспериментах, он сообщает:

  • ICS не является хорошим показателем эффективности обучения
  • Прирост производительности, полученный с использованием BN, не связан с сокращением ICS
  • BN скорее оказывает сглаживающее влияние на ландшафт оптимизации, что повышает устойчивость моделей к гиперпараметрам, таким как скорость обучения.

Эксперимент 1

На рисунке 1 ниже (взято из [2]) показаны три комплекта обучения сети VGG. Первая сеть обучается без BN, вторая - с BN; наконец, третья сеть вводится с нестабильностью распределения после каждого используемого BN путем добавления изменяющегося во времени, ненулевого среднего и неединичного дисперсионного шума. Шум по существу вызывает высокий ICS, возможно, выше, чем стандартная настройка.

Рисунок 1 [2], результаты эксперимента 1

Результаты показывают, что даже при увеличении ICS за счет добавления шума, прирост производительности все еще получается (розовая линия). Это указывает на то, что снижение ICS не является фактором, вызывающим улучшение производительности.

Эксперимент 2

Для каждого уровня нейронной сети ICS фиксирует изменение самой проблемы оптимизации, вызванное изменением входных данных для каждого уровня, когда параметры предыдущих уровней обновляются с использованием градиентного спуска. В ответ на этот «сдвиг», каждый слой должен корректировать свои параметры, часто вызывая исчезновение или взрыв градиентов [1].

Эта идея изменения ландшафта оптимизации также будет отражена в изменениях градиентов параметров слоя. Более высокое изменение в градиенте будет отражать большее изменение в ландшафте оптимизации. [2] фиксирует это, измеряя разницу между градиентами каждого слоя до (G) и после обновления всех предыдущих слоев (G ’). Меньшее значение разницы l2 будет указывать на меньшую ICS, поскольку ландшафт остается схожим.

Рисунок 2 [2], результаты эксперимента 2

[2] дополнительно исследует связь между ICS и BN путем построения разности l2 (и угла косинуса) двух градиентов, как показано на рисунке 2. Из рисунка выше видно, что использование BN не указывает на снижение ICS.

Так что же тогда делает Пакетная нормализация?

Оптимизация ландшафта Deep Neural Network может состоять из многочисленных плоских областей и резких перегибов, которые делают проблему невыпуклой. Такие области приводят к исчезающему градиенту (плоские области) или градиентному взрыву (острые склоны). Это повышает чувствительность к скорости обучения и инициализации параметров, делая оптимизацию нестабильной.

[2] относится к более высокой липшицевости градиентов с использованием BN, что фактически означает более высокую плавность ландшафта оптимизации. Это можно наблюдать на рисунке 3, где на графике вычисляется градиент потерь на этапе обучения и измеряется, как потери изменяются в этом направлении градиента.

Рисунок 3 [2]

На рисунке 3 BN дает более плавный профиль. Это делает градиент более предсказуемым, то есть на каждом шаге более вероятно, что градиент останется одинаковым для ближайших будущих шагов. Такая предсказуемость позволяет делать большие шаги в направлении градиента без потери устойчивости.

Наконец, [2] также приходит к выводу, что эффект сглаживания BN может быть причиной лучшего обобщения сетей. Это потому, что BN подталкивает оптимизацию к плоским минимумам.

Рекомендации:
[1] Иоффе С., Сегеды С. Нормализация партии: Ускорение глубокого сетевого обучения за счет уменьшения внутреннего ковариатного сдвига. Препринт arXiv arXiv: 1502.03167. 2015 фев 11.
[2] Сантуркар С., Ципрас Д., Ильяс А., Мадри А. Как нормализация партии помогает оптимизировать? (Нет, речь не идет о внутреннем смещении ковариат). Препринт arXiv arXiv: 1805.11604. 29 мая 2018 года