Хабрахабр

[Перевод] Выравнивание лица за одну миллисекунду с помощью ансамбля деревьев регрессии

Перевод статьи подготовлен для студентов курса «Математика для Data Science»

Мы покажем, как ансамбль деревьев регрессии можно использовать для прогнозирования положения ориентиров лица непосредственно по рассеянному подмножеству интенсивностей пикселей, достигая супер-производительности в режиме реального времени с предсказаниями высокого качества. В этой статье рассматривается задача выравнивания лица для одного изображения. Мы покажем, как использование соответствующих распределений, учитывающих структуру данных изображения, помогает в эффективном выборе признаков. Мы представляем общую структуру, основанную на градиентном бустинге, для изучения ансамбля деревьев регрессии, который оптимизирует сумму квадратичных потерь и, естественно, обрабатывает отсутствующие или частично помеченные данные. Кроме того, мы анализируем влияние количества обучающих данных на точность прогнозов и исследуем эффект увеличения данных с использованием синтезированных данных. Также исследуются различные стратегии регуляризации и их важность для борьбы с переобучением.

Увеличение скорости по сравнению с предыдущими методами является следствием идентификации основных компонентов предыдущих алгоритмов выравнивания лиц и последующего их включения в оптимизированной форме в каскад регрессионных моделей с высокой пропускной способностью, настроенных с помощью градиентного бустинга. В этой статье мы представляем новый алгоритм, который выполняет выравнивание лица за миллисекунды и достигает точности, превосходящей или сопоставимой с современными методами на стандартных наборах данных.

В нашем случае каждая регрессионная модель в каскаде эффективно прогнозирует форму лица на основе изначального прогноза и интенсивности разреженного набора пикселей, проиндексированных относительно этого изначального прогноза. Мы демонстрируем, как это уже делали до нас [8, 2], что выравнивание лица может быть осуществлено с помощью каскада регрессионных моделей. В частности, мы включили в наши настроенные регрессионные модели два ключевых элемента, которые присутствуют в нескольких приведенных далее успешных алгоритмах, и сейчас мы детализируем эти элементы. Наша работа основывается на большом количестве исследований, проведенных за последнее десятилетие, которые привели к значительному прогрессу в задаче выравнивании лица [9, 4, 13, 7, 15, 1, 16, 18, 3, 6, 19].

Отобранные результаты на наборе данных HELEN. Рисунок 1. Для обнаружения 194 ключевых точек (ориентиров) на лице на одном изображении за миллисекунду используется ансамбль рандомизированных деревьев регрессии.

Выделенные признаки в векторном представлении изображения лица могут сильно разниться как из-за деформации формы, так и из-за таких мешающих факторов, как изменение условий освещения. Первый вращается вокруг индексации интенсивности пикселей относительно текущего прогноза формы лица. Дилемма заключается в том, что нам нужны достоверные признаки для точного прогнозирования формы, а с другой стороны, нам нужна точный прогноз формы для извлечения достоверных признаков. Это затрудняет точный прогноз формы с использованием этих функций. Вместо того чтобы регрессировать параметры формы на основе признаков, извлеченных в глобальной системе координат изображения, изображение преобразуется в нормализованную систему координат на основе текущего прогноза формы, а затем извлекаются признаки для прогнозирования обновляющего вектора для параметров формы. В предыдущей работе [4, 9, 5, 8], а также в этой работе для решения этой проблемы используется итерационный подход (каскад). Этот процесс обычно повторяется несколько раз до сходимости.

Во время тестирования алгоритм выравнивания должен прогнозировать форму лица — вектор высокой размерности, который наилучшим образом согласуется с данными изображения и нашей моделью формы. Второй рассматривает, как бороться со сложностью проблемы объяснения/предсказания. Успешные алгоритмы [4, 9] решают эту проблему, предполагая, что прогнозируемая форма должна лежать в линейном подпространстве, которое можно обнаружить, например, путем нахождения основных компонентов обучающих форм. Задача невыпуклая со многими локальными оптимумами. Это предположение значительно уменьшает число потенциальных форм, рассматриваемых во время объяснения, и может помочь избежать локальных оптимумов.

Важно, что наши регрессионные модели обладают этими двумя элементами.
С этими двумя факторами связано наше эффективное обучение регрессионной модели. В недавней работе [8, 11, 2] используется тот факт, что определенный класс регрессоров гарантированно создает предсказания, которые лежат в линейном подпространстве, определяемом обучающими формами, и нет необходимости в дополнительных ограничениях. В частности, мы обучаем каждый регрессор с помощью градиентного бустинга [10] с помощью квадратичной функции потерь, той же самой функции потерь, которую мы хотим минимизировать во время теста. Мы оптимизируем соответствующую функцию потерь и выполняем выбор признаков на основе данных. Априорное распределение позволяет алгоритму бустинга эффективно исследовать большое количество релевантных признаков. Набор разреженных пикселей, используемый в качестве входных данных регрессора, выбирается с помощью комбинации алгоритма градиентного бустинга и априорной вероятности расстояний между парами входных пикселей. Результатом является каскад регрессоров, которые могут локализовать лицевые ориентиры при инициализации с анфаса.

Основным вкладом этой статьи являются:

  1. Новый метод выравнивания, основанный на ансамбле деревьев регрессии (деревьев решений), который выполняет выбор инвариантных признаков формы, минимизируя при этом ту же функцию потерь во время обучения, которую мы хотим минимизировать во время тестирования.
  2. Мы представляем естественное расширение нашего метода, который обрабатывает отсутствующие или неопределенные метки.
  3. Представлены количественные и качественные результаты, которые подтверждают, что наш метод дает высококачественные прогнозы, будучи гораздо более эффективным, чем лучший предыдущий метод (рисунок 1).
  4. Анализируется влияние количества обучающих данных, использования частично помеченных данных и обобщенных данных на качество прогнозов.

Как и в предыдущих работах [8, 2], в предлагаемом нами методе используется каскад регрессоров. В этой статье представлен алгоритм для точной оценки положения лицевых ориентиров (ключевых точек) с точки зрения вычислительной эффективности. В оставшейся части этого раздела мы опишем детали формы отдельных компонентов каскада и как мы проводим обучение.

2.1. Каскад регрессоров

Пусть , y-координаты i-го ориентира лица на изображении I. Для начала введем некоторые обозначения. Часто в этой статье мы называем вектор S формой. Тогда вектор обозначает координаты всех p лицевых ориентиров в I. Каждый регрессор (·, ·) в каскаде предсказывает вектор обновления из изображения и , который добавляется к текущей оценке формы , чтобы улучшить оценку: Мы используем для обозначения нашей текущей оценки S.

) (1)

Это вводит некоторый род геометрической инвариантности в процесс, и по мере прохождения каскада можно быть более уверенным в том, что индексируется точное семантическое расположение на лице. Ключевой момент каскада состоит в том, что регрессор делает свои прогнозы на основе признаков, таких как значения интенсивности пикселей, вычисленных по I и проиндексированных относительно текущей оценки формы . Позже мы опишем, как выполняется эта индексация.

Поэтому нам не нужно вводить дополнительные ограничения на предсказания, что значительно упрощает наш метод. Обратите внимание, что диапазон выходных данных, расширенный ансамблем, гарантированно лежит в линейном подпространстве обучающих данных, если начальная оценка принадлежит этому пространству. Начальная форма может быть просто выбрана в качестве средней формы обучающих данных, центрированных и масштабированных в соответствии с выходными данными ограничительной рамки общего детектора лица.

Теперь мы дадим подробные детали этого процесса. Для обучения каждого мы используем алгоритм градиентного бустинга деревьев с суммой квадратичных потерь, как описано в [10].

2.2. Обучение каждого регрессора в каскаде

Чтобы узнать первую регрессионную функцию в каскаде, мы создаем из наших обучающих данных триплеты изображения лица, начальный прогноз формы и целевой шаг обновления, то есть ), где Предположим, у нас есть тренировочные данные , где каждый является изображением лица, а его вектором формы.

(2)

(3) и

(4)

для i = 1,..., N.

Каждый начальный прогноз формы для изображения выбирается равномерно из без замены. Мы устанавливаем общее количество этих триплетов равным N = nR, где R — количество инициализаций, используемых на изображение Ii.

Алгоритм 1), используя градиентный бустинг деревьев с суммой квадратичных потерь. На этих данных мы обучаем функцию регрессии (см. Затем набор обучающих триплетов обновляется для предоставления данных обучения %20) для следующего регрессора в каскаде путем установки (с t = 0).

%20) (5)

(6)

Этот процесс повторяется пока не обучен каскад из T регрессоров , которые в сочетании дают достаточный уровень точности.

Следует помнить, что используется квадратичная функция потерь, и невязки, вычисленные в самом внутреннем цикле, соответствуют градиенту этой функции потерь, оцененному в каждой обучающей выборке. Как указано, каждый регрессор обучается с использованием алгоритма градиентного бустинга деревьев. Установка ν <1 помогает бороться с перенастройкой и обычно приводит к регрессорам, которые обобщаются намного лучше, чем те, которые обучены с ν = 1 [10]. В формулировку алгоритма включен параметр скорости обучения 0 <ν ≤ 1, также известный как коэффициент регуляризации.

Алгоритм 1 обучения в каскаде

Имеем данные тренировки и скорость обучения (коэффициент регуляризации) 0 <ν <1

  1. Инициализируем
  2. для k = 1,..., K:
    а) положим для i = 1,... ,

    b) Подгоняем дерево регрессии к целевым со слабой функцией регрессии .
    c) Обновляем
  3. Вывод

2.3. Древовидный регрессор

Теперь мы рассмотрим наиболее важные детали реализации для обучения каждого дерева регрессии. Ядром каждой регрессионной функции rt являются древовидные регрессоры, подходящие для остаточных целей во время алгоритма градиентного бустинга.

2.3.1 Инвариантные сплит-тесты формы

Пиксели, используемые в тесте, находятся в положениях u и v, когда они определены в системе координат средней формы. В каждом узле разделения в дереве регрессии мы принимаем решение, основываясь на пороговом значении разницы между интенсивностями двух пикселей. Для этого перед извлечением элементов изображение может быть деформировано в среднюю форму на основе текущей оценки формы. Для изображения лица с произвольной формой мы хотели бы проиндексировать точки, которые имеют ту же позицию относительно его формы, что и u и v, для средней формы. Кроме того, грубая аппроксимация деформации может быть сделана с использованием только глобального преобразования подобия в дополнение к локальным смещениям, как предложено в [2]. Поскольку мы используем только очень разреженное представление изображения, гораздо эффективнее деформировать расположение точек, чем все изображение.

Пусть — индекс ориентира на лице в средней форме, ближайшей к u, и определим его смещение от u как . Точные детали заключаются в следующем.

Тогда для формы Si, определенной в изображении , положение в , которое качественно аналогично u в изображении средней формы, определяется как
(7)

где и — масштаб и матрица вращения преобразования подобия, которое преобразует в , средняя форма.

Масштаб и вращение сводят к минимуму

(8)

определяется аналогично. сумму квадратов между точками ориентиров средней формы, и точечной деформацией.

Формально каждое разделение является решением, включающим 3 параметра θ = (τ, u, v), и применяется к каждому примеру обучения и тестирования как

(9)

На практике задания и локальные смещения определяются на этапе обучения. где и определяются с использованием шкалы и матрицы вращения, которые лучше всего деформируют в в соответствии с уравнением (7). Вычисление преобразования подобия, во время тестирования наиболее дорогостоящей части этого процесса, выполняется только один раз на каждом уровне каскада.

2.3.2 Выбор узловых разбиений

Чтобы обучить дерево регрессии, мы случайным образом генерируем набор подходящих разбиений, что есть θ, в каждом узле. Для каждого дерева регрессии мы аппроксимируем базовую функцию кусочно-линейной функцией, где константный вектор подходит для каждого конечного узла. Если Q — это набор индексов обучающих примеров в узле, то это соответствует минимизации Затем мы жадно выбираем θ* из этих кандидатов, что минимизирует сумму квадратичной ошибки.

(10)

где — индексы примеров, которые отправляются на левый узел из-за принятого решения θ, — это вектор всех невязок, вычисленных для изображения i в алгоритме градиентного бустинга, и

для (11)

Оптимальное разбиение может быть найдено очень эффективно, потому что если преобразовать уравнение (10) и опустить факторы, не зависящие от θ, то можно увидеть, что

Здесь нам нужно только вычислить при оценке различных θ’s, поскольку можно рассчитать из среднего значения целей в родительском узле µ и следующим образом:

2.3.3 Выбор признаков

Это довольно простой тест, но он гораздо более эффективен, чем пороговое значение с одной интенсивностью, из-за его относительной нечувствительности к изменениям глобального освещения. Решение в каждом узле основано на пороговом значении разности значений интенсивности в паре пикселей. Это затрудняет поиск хороших θ’s без поиска по очень большому их числу. К сожалению, недостатком использования разностей пикселей является то, что число потенциальных кандидатов на разделение (признак) является квадратичным по отношению к количеству пикселей в среднем изображении. Однако этот ограничивающий фактор может быть в некоторой степени ослаблен с учетом структуры данных изображения.

Введем экспоненциальное распределение

(12)

на расстояние между пикселями, используемыми в разбиении, чтобы побудить выбирать более близкие пары пикселей.

На рисунке 4 сравниваются признаки, выбранные с ним и без него, где размер пула объектов в обоих случаях установлен равным 20. Мы обнаружили, что использование этого простого распределения уменьшает ошибку прогнозирования для ряда наборов данных лиц.

Введите переменную [0, 1] для каждого тренировочного изображения i и каждого ориентира j. Задача уравнения (10) может быть легко расширена для обработки случая, когда некоторые ориентиры не помечены на некоторых обучающих изображениях (или у нас есть мера неопределенности для каждого ориентира). Тогда уравнение (10) можно представить следующим образом Установка в 0 указывает, что ориентир j не помечен в i-м изображении, а установка в 1 указывает, что помечен.

где — диагональная матрица с вектором на ее диагонали и

для (13)

Это можно сделать, просто инициализировав модель ансамбля средневзвешенным значением целей и подгоняя деревья регрессии к взвешенным остаткам в алгоритме 1 следующим образом Алгоритм градиентного бустинга также должен быть модифицирован с учетом этих весовых коэффициентов.

(14)

Первый основан на случайных папоротниках (randomized ferns) со случайным выбором признаков (EF), а другой является более продвинутой версией этого подхода с выбором признаков на основе корреляции (EF + CB), что является нашей новой реализацией [2]. Базисы: Чтобы точно оценить производительность предлагаемого нами метода, ансамбля деревьев регрессии (ensemble of regression trees — ERT), мы создали еще два базиса. Все параметры фиксированы для всех трех подходов.

Мы используем тот же метод регуляризации, как предложено в [2] для регуляризации папоротников. EF использует прямую реализацию случайных папоротников в качестве слабых регрессоров в ансамбле и является самым быстрым для обучения.

EF + CB использует метод выбора объектов, основанный на корреляции, который проецирует выходные значения, ’s, на случайное направление w и выбирает пары признаков (u, v) для которых имеет наивысшую выборочную корреляцию по тренировочным данным с прогнозируемыми целями .

Число сильных регрессоров rtв каскаде равно T = 10, и каждый состоит из K = 500 слабых регрессоров . Параметры
Если не указано иное, все эксперименты выполняются со следующими фиксированными настройками параметров. На каждом уровне каскада P = 400 пикселей выбирается из изображения. Глубина деревьев (или папоротников), используемых для представления , установлена равной F = 5. Наилучшее разделение достигается путем повторения этого процесса S = 20 раз и выбора того, который оптимизирует нашу цель. Чтобы обучить слабые регрессоры, мы случайным образом выбираем пару из этих P пикселей в соответствии с нашим распределением и выбираем случайный порог для создания потенциального разделения, как описано в уравнении (9). Чтобы создать данные обучения для изучения нашей модели, мы используем R = 20 различных инициализаций для каждого примера обучения.

Прогнозы наземных ориентиров на разных уровнях каскада, инициализированных со средней формой по центру на выходных данных базового детектора лиц Viola & Jones [17]. Рисунок 2. После первого уровня каскада ошибка уже значительно уменьшена.

Величина тренировочного времени линейно зависит от количества обучающих данных O (NDTKF S), где N — количество обучающих данных, а D — размерность целей. Производительность
Сложность алгоритма во время выполнения на одном изображении постоянна O (TKF). На практике с одним ЦП наш алгоритм занимает около часа для обучения на наборе данных HELEN [12], а во время выполнения он занимает всего одну миллисекунду на изображение.

Она состоит из 2330 изображений, каждое из которых снабжено 194 ориентирами. База данных
Большинство экспериментальных результатов, представленных в отчете, относятся к базе данных лиц HELEN [12], которая, по нашему мнению, является наиболее сложной общедоступной базой данных. По предложению авторов мы используем 2000 изображений для тренировочных данных, а остальные для тестирования.

К сожалению, мы смогли загрузить только 778 тренировочных изображений и 216 валидных тестовых изображений, что делает наши результаты не совсем сопоставимыми с результатами, ранее оглашавшимися на этом наборе данных. Мы также сообщаем об окончательных результатах в популярной базе данных LFPW [1], которая состоит из 1432 изображений.

В дополнение к нашим базовым показателям мы также сравнили наши результаты с двумя вариантами моделей активных форм (Active Shape Models) — STASM [14] и CompASM [12]. Сравнение
Таблица 1 является сводкой наших результатов по сравнению с предыдущими алгоритмами.

Сводка результатов различных алгоритмов в наборе данных HELEN. Таблица 1. Расстояния нормализуются путем деления на межглазное расстояние. Ошибка — это среднее нормализованное расстояние каждого ориентира до его истинного положения. Если число не отображается, то метод был инициализирован со средней формой. Число в скобках представляет количество раз, когда алгоритм регрессии был запущен со случайной инициализацией. В случае множественных прогнозов в качестве окончательного прогноза для ориентира была выбрана медиана прогнозов.

На рисунке 3 показана средняя ошибка на разных уровнях каскада, которая показывает, что ERT может уменьшить ошибку намного быстрее, чем другие базисы. Ансамбль деревьев регрессии, описанный в этой статье, значительно улучшает результаты по сравнению с ансамблем папоротников. Результаты показывают, что подобный коэффициент ошибок для EF + CB может быть достигнут с помощью нашего метода, потребовав на порядок меньше вычислений. Обратите внимание, что мы также предоставили результаты многократного запуска EF + CB и получения медианы окончательных прогнозов.

С нашим базисом EF + CB мы не могли повторить числа, сообщенные в [2]. Мы также предоставили результаты для широко используемого набора данных LFPW [1] (Таблица 2). (Это может быть связано с тем, что мы не смогли получить весь набор данных.) Тем не менее наш метод превосходит большинство ранее сообщенных результатов по этому набору данных, требуя лишь малую часть вычислительного времени, необходимого для любого другого метода.

Сравнение различных методов применительно к набору данных LFPW. Таблица 2. Для объяснения чисел смотрите заголовок таблицы 1.

Параметр λ определяет эффективное максимальное расстояние между двумя пикселями в наших признаках и был установлен равным 0,1 в наших экспериментах. Выбор признаков
Таблица 4 показывает эффект использования уравнения (12) в качестве распределения на расстояние между пикселями, используемыми в разбивке, вместо равномерного распределения для конечных результатов. Рисунок 4 представляет собой визуализацию выбранных пар признаков при использовании различных распределений. Выбор этого параметра путем перекрестной проверки при изучении каждого сильного регрессора в каскаде может потенциально привести к более значительному улучшению.

Влияние использования различных распределений для выбора функции на итоговую среднюю ошибку. Таблица 3. уравнение (12). Экспоненциальное распределение применяется к евклидову расстоянию между двумя пикселями, определяющими признак, см.

Чтобы получить меньшие ошибки теста, необходимо выполнить некоторую форму регуляризации. Регуляризация
При использовании алгоритма градиентного бустинга нужно быть осторожным, чтобы избежать переобучения. Она включает в себя установку скорости обучения ν в алгоритме повышения градиента менее 1 (здесь мы устанавливаем ν = 0. Самый простой подход — усадка. Регуляризация также может быть достигнута путем усреднения прогнозов нескольких деревьев регрессии. 1). Поэтому на каждой итерации алгоритма градиентного бустинга вместо подгонки одного дерева регрессии к остаткам мы подгоняем несколько деревьев (10 в наших экспериментах) и усредняем результаты. Таким образом, соответствует случайному лесу, а не одному дереву, и мы устанавливаем ν = 1. (Общее количество деревьев фиксируется во всех случаях.)

Сравнение различных методов для набора данных HELEN (a) и LFPW (b). Рисунок 3. Мы также предоставляем результаты взятия медианы результатов различных инициализаций (5 и 10), как предложено в [2]. EF — это ансамбль случайных папоротников, а EF + CB — ансамбль папоротников с корреляционным выбором признаков, инициализированным средней формой. Результаты показывают, что предложенный ансамбль деревьев регрессии (ERT), инициализированный только со средней формой, последовательно превосходит базис ансамбля папоротников, и он может достичь того же уровня ошибок с гораздо меньшим количеством вычислений.

Выбираются различные признаки, если используются разные распределения. Рисунок 4. Экспоненциальное распределение смещает выбор к парам пикселей, которые находятся ближе друг к другу.

Но регуляризация путем усадки или усреднения эффективно уменьшает дисперсию, обучая несколько перекрывающихся моделей. С точки зрения компромисса смещения и дисперсии алгоритм градиентного бустинга всегда уменьшает смещение, но увеличивает дисперсию.

Сравнение результатов в наборе данных HELEN при применении различных форм регуляризации. Таблица 4. Мы достигли аналогичные результаты при использовании усадки или усреднения при одинаковом общем количестве деревьев в ансамбле.

Тем не менее, регуляризация с помощью усреднения имеет преимущество в том, что она более масштабируема, так как она обеспечивает распараллеливание во время обучения, что особенно важно для решения крупномасштабных задач. Мы достигли аналогичных результатов, используя усредненную регуляризацию по сравнению с более стандартным методом усадки.

Индексирование объектов на основе текущего прогноза является грубым способом деформации изображения с небольшими затратами. Каскад
На каждом уровне каскада регрессоры второго уровня могут наблюдать только фиксированное и разреженное подмножество индексируемых признаков формы. Мы достигли значительного улучшения, используя этот итеративный механизм, который соответствует ранее сообщенным результатам [8, 2] (для справедливого сравнения здесь мы зафиксировали общее количество наблюдаемых признаков до 10 × 400 баллов.) Таблица 5 показывает окончательный коэффициент ошибок с использованием и без использования каскада.

Приведенные выше результаты показывают важность использования каскада регрессоров в отличие от одноуровневого ансамбля. Таблица 5.

Таблица 6 подытоживает окончательные результаты, а на рисунке 5 представлен график ошибок на каждом уровне каскада. Обучающие данные
Чтобы проверить эффективность нашего метода в отношении количества тренировочных изображений, мы обучили различные модели из разных подмножеств обучающих данных. Использование многих уровней регрессоров наиболее полезно, когда у нас есть большое количество обучающих примеров.

Мы повторили те же эксперименты с фиксированным общим числом расширенных примеров, но изменили комбинацию исходных форм, использованных для создания обучающего примера из одного помеченного примера лица, и некоторого количества аннотированных изображений, использованных для изучения каскада (Таблица 7).

Окончательный коэффициент ошибок на количество обучающих примеров. Таблица 6. При создании обучающих данных для изучения каскадных регрессоров каждое помеченное изображение лица генерировало 20 обучающих примеров, используя 20 различных помеченных лиц в качестве начального предположения о форме лица.

Средняя ошибка на каждом уровне каскада представлена в зависимости от количества использованных обучающих примеров. Рисунок 5. Использование многих уровней регрессоров наиболее полезно, когда количество обучающих примеров велико.

Здесь эффективное число обучающих примеров является фиксированным, но мы используем различные комбинации количества обучающих изображений и количества начальных форм, используемых для каждого маркированного изображения лица. Таблица 7.

Наши результаты показывают, что этот тип дополнения не полностью компенсирует отсутствие аннотированных тренировочных изображений. Увеличение тренировочных данных с использованием различных начальных форм расширяет набор данных с точки зрения формы. Хотя показатель улучшения, получаемая за счет увеличения количества тренировочных изображений, быстро снижается после первых нескольких сотен изображений.

200 учебных примеров аннотированы полностью, а остальные только частично. Частичные аннотации
Таблица 8 показывает результаты использования частично аннотированных данных.

Результаты использования частично помеченных данных. Таблица 8. Значения в скобках показывают процент наблюдаемых ориентиров. 200 примеров всегда полностью аннотированы.

Тем не менее, отображаемое улучшение может не быть насыщенным, потому что мы знаем, что базовый размер параметров формы намного ниже, чем размер ориентиров (194 × 2). Результаты показывают, что мы можем добиться существенного улучшения, используя частично помеченные данные. Обратите внимание, что процедура градиентного бустинга, описанная в этой статье, не использует корреляцию между ориентирами. Следовательно, существует потенциал для более значительного улучшения с частичными метками, если явно использовать корреляцию между положением ориентиров. Эта задача может быть решена в будущей работе.

Представленная структура быстрее уменьшает ошибку по сравнению с предыдущей работой, а также может обрабатывать частичные или неопределенные метки. Мы описали, как ансамбль деревьев регрессии можно использовать для регрессии местоположения лицевых ориентиров из рассеянного подмножества значений интенсивности, извлеченных из входного изображения. В то время как основные компоненты нашего алгоритма рассматривают различные целевые измерения как независимые переменные, естественным продолжением этой работы будет использование корреляции параметров формы для более эффективного обучения и лучшего использования частичных меток.

Окончательные результаты в базе данных HELEN. Рисунок 6.

Благодарности
Эта работа финансировалась Шведским фондом стратегических исследований в рамках проекта VINST.

N. [1] P. W. Belhumeur, D. J. Jacobs, D. Kumar. Kriegman, and N. In CVPR, pages 545–552, 2011. Localizing parts of faces using a consensus of exemplars. Cao, Y. 1, 5
[2] X. Wen, and J. Wei, F. Face alignment by explicit shape regression. Sun. 1, 2, 3, 4, 5, 6
[3] T. In CVPR, pages 2887–2894, 2012. Cootes, M. F. Lindner, and P. Ionita, C. Robust and accurate shape model fitting using random forest regression voting. Sauer. 1
[4] T. In ECCV, 2012. Cootes, C. F. Taylor, D. J. Cooper, and J. H. Active shape models-their training and application. Graham. 1, 2
[5] D. Computer Vision and Image Understanding, 61(1):38–59, 1995. F. Cristinacce and T. Boosted regression active shape models. Cootes. 1–79. In BMVC, pages 79. 1
[6] M. 10, 2007. Gall, G. Dantone, J. V. Fanelli, and L. Real-time facial feature detection using conditional regression forests. Gool. 1
[7] L. In CVPR, 2012. M. Ding and A. Precise detailed detection of faces and facial features. Mart´ınez. 1
[8] P. In CVPR, 2008. Welinder, and P. Dollar, P. Cascaded pose regres- ´ sion. Perona. 1, 2, 6
[9] G. In CVPR, pages 1078–1085, 2010. Edwards, T. J. Cootes, and C. F. Taylor. J. In ICCV, pages 137–142, 1999. Advances in active appearance models. Hastie, R. 1, 2
[10] T. H. Tibshirani, and J. The elements of statistical learning: data mining, inference, and prediction. Friedman. 2, 3
[11] V. New York: Springer-Verlag, 2001. Sullivan. Kazemi and J. In BMVC, pages 27. Face alignment with part-based modeling. 10, 2011. 1–27. Le, J. 2
[12] V. Lin, L. Brandt, Z. Bourdev, and T. D. Huang. S. In [13] L. Interactive facial feature localization. Xiao, F. Liang, R. Sun. Wen, and J. In ECCV, pages 72–85, 2008. Face alignment via component-based discriminative search. 5
[14] S. 1ECCV, pages 679– 692, 2012. Nicolls. Milborrow and F. In ECCV, pages 504–513, 2008. Locating facial features with an extended active shape model. Saragih, S. 5
[15] J. Cohn. Lucey, and J. Internation Journal of Computer Vision, 91:200–215, 2010. Deformable model fitting by regularized landmark mean-shifts. M. 1
[16] B. Zhang. Smith and L. In ECCV, pages 43–56, 2012. Joint face alignment with nonparametric shape models. A. 1
[17] P. J. Viola and M. Robust real-time face detection. Jones. 5
[18] X. In ICCV, page 747, 2001. Chai, and S. Zhao, X. Joint face alignment: Rescue bad alignments with good ones by regularized re-fitting. Shan. 1
[19] X. In ECCV, 2012. Ramanan. Zhu and D. In CVPR, pages 2879– 2886, 2012. Face detection, pose estimation, and landmark localization in the wild. 1

Теги
Показать больше

Похожие статьи

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Кнопка «Наверх»
Закрыть