К библиотеке

Первоначальный источник http://daily.sec.ru/
Публикация от 22-05-2002 20:29
http://daily.sec.ru/dailypblshow.cfm?rid=5&pid=4425
РАСПОЗНАВАНИЕ ЧЕЛОВЕКА ПО ИЗОБРАЖЕНИЮ ЛИЦА И НЕЙРОСЕТЕВЫЕ МЕТОДЫ

Д. Брилюк, В. Старовойтов

3. Методы распознавания человека по изображению лица. Достоинства и недостатки, сравнение.

При всём многообразии различных алгоритмов и методов распознавания изображений, типичный метод распознавания состоит из трёх компонент, рис. 14:
  1. преобразование исходного изображения в начальное представление (может включать в себя как предобработку, так и математические преобразования, например вычисление главных компонент);
  2. выделение ключевых характеристик (например берётся первые n главных компонент или коэффициентов дискретного косинусного преобразования);
  3. механизм классификации (моделирования): кластерная модель, метрика, нейронная сеть и т.п.
Кроме этого, построение метода распознавания опирается на априорную информацию о предметной области (в данном случае – характеристики лица человека), и корректируется экспериментальной информацией, появляющейся по ходу разработки метода.

3.1. Метод главных компонент

Метод главных компонент (Principal Component Analysis, PCA) [PCA, Головко1] применяется для сжатия информации без существенных потерь информативности. Он состоит в линейном ортогональном преобразовании входного вектора X размерности N в выходной вектор Y размерности M, N. При этом компоненты вектора Y являются некоррелированными и общая дисперсия после преобразования остаётся неизменной. Матрица X состоит из всех примеров изображений обучающего набора. Решив уравнение Gif 76x19, 964 байт, получаем матрицу собственных векторов Gif 17x15, 856 байт, где Gif 14x15, 850 байт – ковариационная матрица для X, а Gif 15x17, 856 байт – диагональная матрица собственных чисел. Выбрав из Gif 17x15, 856 байт подматрицу Gif 28x22, 896 байт, соответствующую M наибольшим собственным числам, получим, что преобразование Gif 62x24, 970 байт, где Gif 60x17, 922 байт – нормализованный вектор с нулевым математическим ожиданием, характеризует большую часть общей дисперсии и отражает наиболее существенные изменения X.

Выбор первых M главных компонент разбивает векторное пространство на главное (собственное) пространство Gif 69x26, 1001 байт, содержащее главные компоненты, и его ортогональное дополнение Gif 86x26, 1030 байт (рис. 15).


Применение для задачи распознавания человека по изображению лица имеет следующий вид. Входные вектора представляют собой отцентрированные и приведённые к единому масштабу изображения лиц. Собственные вектора, вычисленные для всего набора изображений лиц, называются собственными лицами (eigenfaces). Метод главных компонент в применении к изображениям лиц так же называют методом собственных лиц. Собственные лица имеют полезное свойство, заключающееся в том, что изображение, соответствующее каждому такому вектору имеет лицеподобную форму, рис. 16. С помощью вычисленных ранее матриц входное изображение разлагается на набор линейных коэффициентов, называемых главными компонентами. Сумма главных компонент, умноженных на соответствующие собственные вектора, является реконструкцией изображения, рис. 17.

Gif 368x92, 11034 байт

Рис. 16. Пример изображений собственных векторов (собственные лица)

Gif 253x165, 21728 байт

Рис. 17. а) выровненное изображение лица, б) реконструкция по 85-и главным компонентам, в) JPEG - реконструкция (530 байт)

Для каждого изображения лица вычисляются его главные компоненты. Обычно берётся от 5 до 200 главных компонент. Остальные компоненты кодируют мелкие различия между лицами и шум. Процесс распознавания заключается в сравнении главных компонент неизвестного изображения с компонентами всех остальных изображений. Для этого обычно применяют какую-либо метрику (простейший случай – Евклидово расстояние). При этом предполагается что изображения лиц, соответствующих одному человеку, сгруппированы в кластеры в собственном пространстве. Из базы данных (или тренировочного набора) выбираются изображения-кандидаты, имеющие наименьшее расстояние от входного (неизвестного) изображения.

Дальнейшее совершенствование заключалось в использовании метрики Махаланобиса и Гауссовского распределения для оценки близости изображений [PCA]. Для учёта различных ракурсов в этой же работе использовалось многомодальное распределение изображений в собственном пространстве. Дополнительное повышение надёжности достигалось за счёт дополнительного применения анализа главных компонент к отдельным участкам лица, таким как глаза, нос, рот.

Так же метод главных компонент применяется для обнаружения лица на изображении [PCA_Detect]. Для лиц значения компонент в собственном пространстве имеют большие значения, а в дополнении собственного пространства – близки к нулю. По этому факту можно обнаружить, является ли входное изображение лицом. Для этого проверяется величина ошибки реконструкции, чем больше ошибка, тем больше вероятности, что это не лицо.

Исследователями отмечен факт, что при наличии в наборе изображений лиц вариаций, таких как раса, пол, эмоции, освещение, будут появляться компоненты, величина которых в основном определяется этими факторами. Поэтому по значениям соответствующих главных компонент можно определить, например, расу или пол человека [PCA].

При изменении ракурса изображения, наступает момент, когда этот метод при распознавании начинает реагировать больше на ракурс изображения, чем на межклассовые отличия. Классы при этом больше не являются кластерами в собственном пространстве. Это решается добавлением в обучающую выборку изображений в различных ракурсах. При этом собственные вектора теряют лицеподобную форму. В работе [EigenSign], развивающей эту идею, показано, что при изменении угла поворота головы, главные компоненты вычерчивают кривые в собственном пространстве, которые однозначно идентифицируют лицо человека и по которым можно провести распознавание. Эти кривые были названы собственными сигнатурами (eigensignatures). Отмечалось, что в сочетании с методами генерации изображений в новых ракурсах по одному примеру изображения [Linear], этот метод имеет неплохие перспективы. По максимумам собственных сигнатур было так же отмечено, что наибольшую информативность имеет изображение лица в полупрофиль.

Аналогичные трудности имеют место при изменении условий освещения. Одна из попыток решения этой проблемы описана в следующем параграфе.
Вычисление набора собственных векторов отличается высокой трудоёмкостью. Один из способов – это свёртка изображений по строкам и столбцам, и дальнейшая работа с полученными результатами [2D-KLT, PRIP2002]. В такой форме представление изображения имеет на порядок меньший размер, вычисления и распознавание происходит быстрее, но восстановить исходное изображение уже невозможно.

Основное преимущество применения анализа главных компонент – это хранение и поиск изображений в больших базах данных, реконструкция изображений [PCA].

Основной недостаток – высокие требования к условиям съёмки изображений. Изображения должны быть получены в близких условиях освещённости, одинаковом ракурсе и должна быть проведена качественная предварительная обработка, приводящая изображения к стандартным условиям (масштаб, поворот, центрирование, выравнивание яркости, отсечение фона). Нежелательно наличие таких факторов, как очки, изменения в причёске, выражении лица и прочих внутриклассовых вариаций.

3.2. Линейный дискриминантный анализ

Метод собственных лиц требует для своего применения идеализированных условий, таких как единые параметры освещённости, нейтральное выражение лица, отсутствие помех вроде очков и бород. Эти условия в общем случае нельзя достичь путём предварительной обработки. При несоблюдении этих условий главные компоненты не будут отражать межклассовые вариации, и классы перестают представлять собой <кластеры в собственном пространстве. Например, при различных условиях освещённости, метод собственных лиц практически неприменим, поскольку первые главные компоненты преимущественно отражают изменения освещения, и сравнение выдаёт изображения, имеющие похожий уровень освещённости.

Линейный дискриминантный анализ (линейный дискриминант Фишера [Fisher, Face23], Linear Discriminant Analysis, LDA), который описывается ниже, выбирают проекцию пространства изображений на пространство признаков таким образом, чтобы минимизировать внутриклассовое и максимизировать межклассовое расстояние в пространстве признаков, рис 18. В этих методах предполагается что классы линейно разделимы.

 

Как можно увидеть из рисунка, в этом случае проецирование на собственное пространство смешивает классы, что делает распознавание невозможным, а линейный дискриминант выбирает проекцию на пространство признаков таким образом, чтобы разделить разные классы.

Матрица W для проецирования пространства изображения на пространство признаков выбирается из следующего условия:

Gif 162x56, 1411 байт

где SB – матрица межклассовой дисперсии, SW – матрица внутриклассовой дисперсии.

Может существовать до с-1 векторов составляющих базис пространства признаков, где с – общее число классов. С помощью этих векторов пространство изображений переводится в пространство признаков.

Поскольку работа непосредственно с матрицей Gif 67x25, 983 байт затруднительна из-за её размерности, в [Fisher] использовано предварительное уменьшение размерности с помощью метода главных компонент, и затем вычисления производятся в пространстве меньшей размерности:

Gif 216x58, 1655 байт

где Wpca – матрица для проецирования в пространство меньшей размерности (пространство главных компонент). В указанной работе такой метод был назван лицами Фишера (Fisherfaces). Так же как и собственные вектора, изображения базисных дискриминантных векторов имеют лицеподобную форму.

В работе [Fisher] тренировочный набор содержал лица при нескольких базовых условиях освещённости, на основе которых при помощи линейных комбинаций можно получить любые другие условия освещённости. Отмечена высокая точность распознавания (около 96%) для широкого диапазона условий освещённости, различных выражений лица и наличия или отсутствия очков. Была отмечена низкая распознающая способность метода собственных лиц при аналогичных условиях. Причём применение метода собственных лиц, в котором главные компоненты отвечающие за освещённость не учитывались, всё равно давало намного худший результат, чем дискриминант Фишера.

Однако остаются невыясненными вопросы, применим ли этот метод для поиска в больших базах данных, может ли метод работать, когда в тренировочной выборке для некоторых лиц имеется изображение только в одних условиях освещённости.

Так же в данной работе не производилось изменения ракурса, а эксперименты с изменением освещения проводились без изменения других факторов. Будет ли данный метод работоспособен при таких сочетаниях тоже неизвестно. Как и в методе собственных лиц, здесь тоже нужна качественная предварительная обработка, приводящая изображения к стандартным условиям.

Вышеописанный метод основывается на предположении о линейной разделимости классов в пространстве изображений. В общем случае такое предположение несправедливо.

Нейросетевые методы, предлагающие инструмент для построения сложных разделяющих поверхностей, будут описаны далее.

3.3. Синтез объектов линейных классов

Данный метод [Linear] позволяет синтезировать новые изображения объекта (и в частности, изображения лица) для разных ракурсов. Имеется тренировочный набор изображений лиц и только одно изображение нового объекта в определённом ракурсе. Тренировочный набор состоит из изображений объектов того же класса (класс лиц в данном случае), что и новый объект и включает в себя изображения различных лиц, при чём для каждого лица имеются его изображения в широком диапазоне ракурсов. Для нового объекта, имеющего изображение XA в ракурсе A, осуществляется линейное разложение на изображения объектов из тренировочного набора в том же ракурсе, с вычислением коэффициентов Gif 17x24, 866 байт: Gif 100x45, 1097 байт, где q – количество объектов в тренировочном наборе. Синтез изображения XB в новом ракурсе B для нового объекта осуществляется сложением изображений из тренировочного набора в ракурсе B с теми же коэффициентами: Gif 100x45, 1095 байт.

Таким образом метод позволяет синтезировать изображения нового объекта в различных ракурсах по изображению в одном ракурсе без привлечения сложных трёхмерных моделей.

В работе [Linear] такой метод применялся для синтеза изображений лиц в новых ракурсах. На первом шаге использовалось разложение и синтез изображения с использованием только информации о форме изображения, на втором шаге на изображение в новом ракурсе накладывались текстуры, причём точки соответствия текстур вычислялись с помощью оптического потока.

Данный метод является перспективным для синтеза изображений в новых ракурсах без привлечения сложных трёхмерных моделей, однако вопрос о качестве и количестве примеров в тренировочном наборе остаётся открытым [Linear].

3.4. Гибкие контурные модели лица

В данных методах распознавание производится на основе сравнения контуров лица. Контуры обычно извлекаются для линий головы, ушей, губ, носа, бровей и глаз. Контуры представлены ключевыми позициями, между которыми положение точек, принадлежащих контуру вычисляются интерполированием. Для локализации контуров в различных методах используется как априорная информация, так и информация полученная в результате анализа тренировочного набора.

В работе [Flex] (Flexible Models) ключевые точки размещались вручную на наборе тренировочных изображений. Затем извлекалась информация об интенсивности пикселей, лежащих на линии, перпендикулярной контуру для каждой точки контура. При поиске контуров нового лица использовался метод симуляции отжига с целевой функцией из двух составляющих. Первая из них максимизировалась при соответствии интенсивностей пикселей, извлечённых на перпендикулярной контуру линии аналогичным пикселям из тренировочной выборки. Вторая – при совпадении контура с формой контуров тренировочных примеров. Таким образом, извлекался не просто контур, а контур черт лица. Как должен выглядеть типичный контур черт лица, процедура поиска знала из тренировочных примеров. Для сравнения изображений использовались значения главных компонент, вычисленных на наборе векторов, представляющих собой координаты ключевых точек. В данной работе контурная модель использовалась вместе с полутоновой моделью, совместное их использование повышало точность распознавания.

Существуют так же другие работы, использующие аналогичные принципы извлечения контуров. Например, в работе [EyeGA] использовался генетический алгоритм для получения контуров глаз. Хромосомы представляли собой параметры контура, которые инициализировались таким образом, чтобы начальная область содержала изображение глаза. При этом в функцию оценки пригодности так же была заложена информация о том, как выглядит типичный глаз.

Главной задачей при распознавании по контурам является правильное выделение этих контуров. В общем виде эта задача по сложности сравнима непосредственно с распознаванием изображений. Кроме того, использование этого метода самого по себе для задачи распознавания недостаточно.

3.5. Сравнение эластичных графов

В этом методе (Elastic Bunch Graph Matching) [ElGraph] лицо представляется в виде графа, вершины которого расположены на ключевых точках лица, таких как контуры головы, губ, носы и их крайних точках, рис. 19. Каждая грань помечена расстояниями между её вершинами. В каждой такой точке вычисляются коэффициенты Габоровых функций для пяти различных частот и восьми ориентаций. Набор таких коэффициентов Gif 29x25, 910 байт <называется джетом (jet). Джеты характеризуют локальные области изображений и служат для двух целей. Во первых, для нахождения точек соответствия в заданной области на двух различных изображениях. Во вторых – для сравнения двух соответствующих областей различных изображений. Каждый коэффициент Gif 109x25, 1057 байт для точек из одной области различных изображений, характеризуется амплитудой Gif 18x25, 871 байт, которая медленно меняется с изменением положения точки и фазой Gif 17x25, 877 байт, которая вращается со скоростью, пропорциональной частоте волнового вектора базисного вейвлета. Поэтому в простейшем случае для поиска на новом изображении точки с аналогичными характеристиками в функции подобия фазу не учитывают: Gif 168x77, 1443 байт. Функция подобия с одним джетом в фиксированной позиции и другим с переменной позицией является достаточно гладкой, для того чтобы получить быструю и надёжную сходимость при поиске с применением простейших методов, таких как диффузия или градиентный спуск [ElGraph]. Более совершенные функции подобия привлекают информацию о фазе.

Jpg 450x573, 34993 байт

Рис. 19. Эластичный граф, покрывающий изображение лица

Для различных ракурсов соответствующие ключевые точки отмечены вручную на тренировочном наборе. Кроме того, чтобы для одного и того же лица представить различные вариации его изображения в одном и том же графе, для каждой точки используются несколько джетов, каждый из которых может соответствовать различным локальным характеристикам данной точки, например открытому и закрытому глазу.

Процесс распознавания неизвестного лица состоит в сравнении графа изображения лица Gif 22x21, 877 байтсо всеми остальными графами из набора Gif 15x17, 856 байт при помощи функции подобия:

Gif 366x53, 1867 байт

Левая сумма характеризует подобие джетов вычисленное с применением фазочувствительной функции, правая – топографическое соответствие, которое пропорционально квадрату разности расстояний между соответствующими вершинами сравниваемых изображений, N – количество вершин, E – количество граней, Gif 14x18, 851 байт – коэффициент относительной важности топографической информации.

В представленном выше виде метод способен достаточно надёжно распознавать при изменениях ракурса до 22°; при больших углах точность распознавания резко уменьшается, функция подобия оказывается больше чувствительной к ракурсу, чем к межклассовым различиям. Изменения условий освещённости в работе [ElGraph] не производились.

Дальнейшее развитие метода заключается в извлечении коэффициентов важности на основе анализа обучающей выборки [ElWeights]. Для каждого джета симплекс-методом вычисляется коэффициент важности, который затем используется в функции подобия. Коэффициенты важности вычисляются из условия максимизации функции подобия для одного и того же лица и минимизации – для различных лиц.

Однако даже с привлечением коэффициентов важности, вышеописанный метод учитывает только суммарную взвешенную меру геометрических искажений, никак не пытаясь построить модель или учесть характер этих изменений. Другими словами, это перспективный метод извлечения и поиска характеристик на изображении, но этому методу не хватает механизма классификации.

Другое улучшение метода заключалось в применении линейных преобразований джетов для компенсации изменения ракурса [ElWeights].

Существуют так же более ранние разновидности этого метода, которые не используют изначально определённые ключевые точки и структуры графа [ElGrid, Grudin]. Одни из них используют для сравнения решётки джетов, наложенные на изображение, рис. 20. В неизвестном изображении отыскиваются точки соответствия, и затем по найденным точкам строится искажённая решётка и измеряется мера её искажения для определения наиболее похожего изображения. В других методах, точки извлечения джетов изначально образуют решётку, а затем наименее пригодные для распознавания точки отсеиваются в процессе обучения.

Jpg 450x235, 15071 байт

Рис. 20. Эластичная решётка, наложенная на изображение, и её искажение

3.6. Методы, основанные на геометрических характеристиках лица

Один из самых первых методов – это анализ геометрических характеристик лица [Самаль]. Изначально применялся в криминалистике и был там детально разработан. Потом появились компьютерные реализации этого метода. Суть его заключается в выделении набора ключевых точек (или областей) лица и последующем выделении набора признаков. Каждый признак является либо расстоянием между ключевыми точками, либо отношением таких расстояний. В отличие от метода сравнения эластичных графов, здесь расстояния выбираются не как дуги графов. Наборы наиболее информативных признаков выделяются экспериментально [Сам2].

Ключевыми точками могут быть уголки глаз, губ, кончик носа, центр глаза и т.п. [Самаль], рис. 21. В качестве ключевых областей могут быть прямоугольные области, включающие в себя: глаза, нос, рот [Gutta].

Jpg 450x315, 48630 байт

Рис. 21. Идентификационные точки и расстояния: а) используемые при криминалистической фотоэкспертизе; б) наиболее часто применяемые при построении автоматизированных систем идентификации.

В процессе распознавания сравниваются признаки неизвестного лица, с признаками, хранящимися в базе.

Задача нахождения ключевых точек приближается к трудоёмкости непосредственно распознавания, и правильное нахождение ключевых точек на изображении во многом определяет успех распознавания [Самаль].

Поэтому изображение лица человека должно быть без помех, мешающих процессу поиска ключевых точек. К таким помехам относят очки, бороды, украшения, элементы причёски и макияжа. Освещение желательно равномерное и одинаковое для всех изображений.

Кроме того, изображение лица должно иметь фронтальный ракурс, возможно с небольшими отклонениями. Выражение лица должно быть нейтральным. Это связано с тем, что в большинстве методов нет модели учёта таких изменений.

Таким образом, данный метод предъявляет строгие требования к условиям съёмки, нуждается в надёжном механизме нахождения ключевых точек для общего случая. Кроме того, требуется применение более совершенных методов классификации или построения модели изменений.

В общем случае этот метод не самый оптимальный, однако для некоторых специфических задач перспективен. К таким задачам можно отнести документный контроль [Сам1, Сам3], когда требуется сравнить изображение лица, полученного в текущий момент с фотографией в документе. При этом других изображений этого человека не имеется, и следовательно механизмы классификации, основанные на анализе тренировочного набора, недоступны.

3.7. Сравнение эталонов

Сравнение эталонов (Template Matching) [Templ] заключается в выделении областей лица на изображении (рис. 22), и последующем сравнении этих областей для двух различных изображений. Каждая совпавшая область увеличивает меру сходства изображений. Это так же один из исторически первых методов распознавания человека по изображению лица. Для сравнения областей используются простейшие алгоритмы, вроде попиксельного сравнения.

Gif 169x228, 32793 байт

Рис. 22. Сравниваемые области-эталоны лица

Недостаток этого метода заключается в том, что он требует много ресурсов как для хранения участков, так и для их сравнения. В виду того, что используется простейший алгоритм сравнения, изображения должны быть сняты в строго установленных условиях: не допускается заметных изменений ракурса, освещения, эмоционального выражения и пр.

3.8. Оптический поток

Алгоритмы оптического потока используются в основном для анализа движения. Используя два или более последовательных кадра изображения, можно рассчитать двумерное векторное поле, называемое оптическим потоком (Optical Flow), которое отражает актуальное или наиболее вероятное смещение точек изображения от кадра к кадру [OFlow, Хорн].

В работе [OFlow] оптический поток рассчитывался для двух произвольных изображений лица, для получения меры соответствия изображений. Эти два изображения считались последовательными кадрами. Затем вычислялось векторное поле, наилучшим образом отображающее одно изображение в другое, в смысле минимизации расстояния между изображениями и с учётом геометрических ограничений, таких как относительное расположение точек изображения. Алгоритм находил наиболее соответствующие блоки. Поиск осуществлялся иерархически, начиная с больших блоков, и затем разбивая их на меньшие блоки. Таким образом, строилась пирамида соответствия изображений.

Используя векторное поле оптического потока, строились различные меры соответствия, с помощью которых в базе находилось изображение, ближайшее к неизвестному.

База данных представляла собой 76 изображений 36-и человек с различиями в ракурсе и выражении лица. Распознавание осуществлялось несколькими способами.

В первом способе блоки 8х8 неизвестного изображения заменялись на наиболее соответствующие блоки сравниваемого изображения (рис. 23, 24). Затем вычислялось Евклидово расстояние между неизвестным и полученным изображением. Было достигнуто 92% точности распознавания. Учитывая то, что в базе находилось только одно изображение нужного человека и по два на всех остальных, это хороший результат.

Jpg 450x179, 19167 байт

Рис. 23. Отображение неизвестного изображения на известное, один и тот же человек. Слева направо: неизвестное изображение, изображение из базы данных, неизвестное изображение, в котором блоки заменены блоками из известного изображения.

Jpg 450x191, 22930 байт

Рис. 24. Отображение неизвестного изображения на изображение из базы. Изображения разных людей.

Как оказалось, даже при отображении изображения одного человека на изображение другого, результирующее изображение оказывается визуально очень похожим на исходное (рис. 24). Поэтому в качестве другой меры соответствия использовалась дивергенция оптического потока (рис. 25). Точность оказалась хуже, вследствии больших искажений у блоков, не представляющих важности (таких как волосы например). Использование центральной части лица дало немного лучший результат.

К недостаткам этого метода в первую очередь относится его вычислительная трудоёмкость. На специализированном параллельном компьютере сравнение двух изображений занимало больше минуты. Метод неспособен извлекать компактный набор характеристик для хранения и поиска в базе.

Однако само направление представляет большой интерес, надо экспериментировать с более репрезентативными базами изображений лиц.

Метод анализирует только суммарное искажение между изображениями или только суммарное несоответствие блоков, не касаясь характера этих искажений. Метод, анализирующий как характер искажения изображений, так и соответствие отдельных блоков, может дать отличный результат. Это подтверждает работа [DCT-HMM1], применяющая псевдодвумерные скрытые Марковские модели.

3.9. Скрытые Марковские модели

Марковские модели являются мощным средством моделирования различных процессов и распознавания образов. По своей природе Марковские модели позволяют учитывать непосредственно пространственно-временные характеристики сигналов, и поэтому получили широкое применение в распознавании речи, а в последнее время – изображений (в частности изображений лиц).

Каждая модель Gif 86x21, 989 байт, рис. 26, представляет собой набор N состояний Gif 113x24, 1045 байт (на рисунке – вершины графа), между которыми возможны переходы (на рисунке - дуги) [Rabiner]. В каждый момент времени система находится в строго определённом состоянии. В наиболее распространённых Марковских моделях первого порядка полагается, что следующее состояние зависит только от текущего состояния.

При переходе в каждое состояние генерируется наблюдаемый символ, который соответствует физическому сигналу с выхода моделируемой системы. Набор символов для каждого состояния Gif 109x22, 1024 байт, количество символов M. Выход, генерируемый моделью, может быть так же непрерывным. Существуют так же модели, в которых набор символов для всех состояний одинаков. Символ в состоянии Gif 48x25, 932 байт в момент времени t генерируется с вероятностью Gif 152x25, 1135 байт. Набор всех таких вероятностей составляет матрицу Gif 77x25, 1004 байт.

Матрица Gif 60x25, 962 байт определяет вероятность перехода из одного состояния в другое состояние: Gif 252x25, 1257 байт. Считается, что A не зависит от времени. Если из каждого состояния можно достичь любого другого за один переход, то все Gif 43x25, 928 байт, и модель называется эргодической.

Так же модель имеет вероятность начальных состояний Gif 43x24, 907 байт, где Gif 100x24, 1022 байт.

Обычно в реальных процессах последовательность состояний является скрытой от наблюдения и остаётся неизвестной, а известен только выход системы, последовательность наблюдаемых символов Gif 93x22, 1006 байт<, где каждое наблюдение Gif 18x24, 871 байт – символ из V, и T – число наблюдений в последовательности. Поэтому такие модели называют скрытыми Марковскими моделями (СММ, по английски – Hidden Markov Models, HMM).

Модель Gif 86x21, 989 байт с настроенными параметрами может быть использована для генерирования последовательности наблюдений. Для этого случайно, в соответствии с начальными вероятностями Gif 14x14, 846 байт выбирается начальное состояние, затем на каждом шаге вероятность B используется для генерации наблюдаемого символа, а вероятность A – для выбора следующего состояния. Вероятность P< генерирования моделью Gif 14x18, 851 байт последовательности состояний O: Gif 157x45, 1256 байт, где Gif 85x22, 994 байт – последовательность состояний. Предполагается, что наблюдения статистически независимы.

В распознавании образов скрытые Марковские модели применяются следующим образом. Каждому классу i соответствует своя модель Gif 17x24, 866 байт. Распознаваемый образ (речевой сигнал, изображение и т.д.) представляется в виде последовательности наблюдений O. Затем для каждой модели Gif 17x24, 866 байт вычисляется вероятность того, что эта последовательность могла быть сгенерирована именно этой моделью. Модель Gif 18x25, 870 байт, получившая наибольшую вероятность, считается наиболее подходящей, и образ относят к классу j.

В связи с этим появляются несколько вопросов, называемых тремя основными задачами скрытых Марковских моделей [Rabiner].

  1. Имея последовательность наблюдений Gif 93x22, 1006 байт и настроенную модель Gif 86x21, 989 байт, как оценить вероятность Gif 57x21, 958 байт генерации этой моделью данной последовательности наблюдений? Эта задача называется задачей распознавания.
  2. Имея последовательность наблюдений Gif 93x22, 1006 байт и настроенную модель Gif 86x21, 989 байт, как подобрать последовательность состояний Gif 85x22, 994 байт, чтобы она была оптимальной (в соответствии с некоторым критерием, аналитически эта задача неразрешима)? Другими словами это задача объяснения. Она нужна для последующей коррекции параметров модели.
  3. Каким образом корректировать параметры модели Gif 14x18, 851 байт, для того чтобы максимизировать Gif 57x21, 958 байт? Т.е. как сделать так, чтобы модель больше соответствовала своему классу, одним из образов которого является данная последовательность наблюдений (или несколько различных последовательностей). Это задача обучения.

Первая задача имеет точное аналитическое решение, называемое процедурой прямого-обратного прохода. Последующие две задачи не имеют точного аналитического решения. Для решения второй задачи используется алгоритм Витерби, для третей – алгоритм Баума-Вельча. Оба этих метода являются разновидностями градиентного спуска и решаются оптимизационными методами.

Для того, чтобы сократить вычисления, в распознавании речи используются линейные модели [Rabiner], рис. 27. В таких моделях каждое состояние имеет только одно последующее, так же переход возможен обратно в то же состояние. Такие модели учитывают временные характеристики речевого сигнала: определённый порядок следования участков сигнала, их взаимное расположение, возможность локальных растяжений или сжатий. Это позволяет их применять и в распознавании изображений.

Jpg 450x115, 14638 байт

Рис. 27. Линейная Марковская модель

Одна из первых работ, применяющая СММ для распознавания изображений лиц – это диссертация Фердинанда Самарии [Samaria], которой предшествовали работы по распознаванию изображений других видов скрытыми Марковскими моделями. В этой работе распознавание осуществлялось как простейшими одномерными линейными СММ, так и псевдодвумерными. Введение второго измерения позволило повысить точность распознавания с 85% до 95% на базе ORL.

Суть двумерных Марковских моделей заключается в том, что в отличие от одномерных линейных СММ, они позволяют моделировать искажения изображения и взаимное расположение участков не отдельно по горизонтали или вертикали, а в обоих направлениях одновременно. Для уменьшения вычислительной сложности применяются псевдодвумерные СММ (Pseudo-2D Hidden Markov Models, P2D-HMM<). Такая модель состоит из нескольких линейных вертикальных моделей нижнего уровня, и одной линейной горизонтальной модели верхнего уровня, на вход которой поступают выходы моделей нижнего уровня, рис. 28. Каждое состояние модели верхнего уровня включает в себя последовательность состояний соответствующей модели нижнего уровня. Модели нижнего уровня не связаны между собой. Изначально в [Samaria] модели верхнего уровня были вертикальными. В последующих работах [DCT-HMM1] модели верхнего уровня были сделаны горизонтальными (как это и изображено на рисунке), в связи с тем, чтобы вертикальные модели нижнего уровня могли учесть факт того, что глаза могут находиться на разной высоте. Таким образом псевдодвумерная модель позволяет учесть локальные деформации и взаимное расположение участков изображений. Но в отличие от оптических потоков и других методов сопоставления деформациями, псевдодвумерная модель учитывает характер деформаций, а то какими именно могут быть возможные деформации, псевдодвумерные СММ усваивают в процессе обучения. Другими словами, участок, соответствующий глазу, никогда не будет сопоставлен например участку на месте рта, как это может быть в оптическом потоке.

Jpg 450x397, 40067 байт

Рис. 28. Псевдодвумерная скрытая Марковская модель

Наблюдениям, подаваемым на вход СММ, являлись квадратные участки изображений, рис. 29. Было обнаружено, что участки, извлекаемые с 75% перекрытием друг с другом, давали наилучшую точность распознавания.

Jpg 450x236, 19520 байт

Рис. 29. Извлечение участков-образцов наблюдения

Одним из полезных свойств СММ является способность сегментировать распознаваемое изображение. Результат работы алгоритма Витерби, разбившего изображение на последовательность состояний, показан на рис. 30, [DCT-HMM1].

Jpg 344x419, 24843 байт

Рис. 30. Сегментация изображения. Линии отмечают области, соответствующие одинаковым состояниям.

В работах [DCT-HMM1, DCT-HMM2], продолжающих идею Самарии использовались дальнейшие улучшения способов начального представления изображения и алгоритмов тренировки.

Для каждого квадратного участка изображения 16х16 вычислялось двумерное дискретное косинусное преобразование, и этот участок представлялся в виде набора первых 15-ти коэффициентов (Gif 58x18, 932 байт, п. 2.7.2.). Это позволило повысить точность распознавания на 2%. Кроме того, такое представление позволяет более точно, чем при масштабировании представлять изображение, используя меньший объём информации.

Для увеличения тренировочного набора использовались так же зеркально отражённые по вертикали изображения [DCT-HMM1]. Это позволило учесть более широкий диапазон ракурсов.

Для СММ важное значение имеет начальная инициализация модели. В [DCT-HMM1], в качестве начальной инициализации всех моделей использовались все изображения из тренировочного набора. Затем модель каждого класса донастраивалась на свои изображения. На базе ORL было достигнуто 100% точность распознавания. Авторы этой работы считают это основным фактором, давшим прирост производительности.

Полезное свойство распознавания по коэффициентам дискретного косинусного преобразования заключается в том, что оно позволяет работать непосредственно со сжатыми изображениями, такими как JPEG и MPEG, в которые на сегодняшний день являются распространёнными форматами хранения изображений и видео. В работе [DCT-HMM2] производились эксперименты по распознаванию сжатых JPEG <изображений. Было достигнуто 99.5% точности на той же базе. Падение точности связано с невозможностью извлекать перекрывающиеся блоки в процессе распознавания (но в процессе обучения перекрывающиеся блоки были использованы).

Как можно видеть, правильный выбор метода классификации (моделирования), начального представления изображения и учёт его особенностей в сочетании с применением априорных знаний о предметной области, дало успешный результат.

Недостаткам СММ является то, что СММ не обладает различающей способностью. Т.е. алгоритм обучения только максимизирует отклик каждой модели на свои классы, но не минимизирует отклик на другие классы, и не выделяются ключевые признаки, отличающие один класс от другого. Например в работе [hmm_conf] для определения того, содержится ли лицо в обучающей выборке, использовался алгоритм ранжирования вероятностей, заключавшийся в следующем. На обучающем наборе, каждая модель реагирует на изображения-примеры с некоторой вероятностью. Отсортированные таким образом модели образуют исходное ранжирование. Для неизвестного изображения модели так же ранжируются по вероятностям отклика на неизвестное изображение. Большая величина отклонения полученного ранжирования от исходного сигнализирует о том, что изображение принадлежит к неизвестному классу лица.

Таким образом, похожие классы могут оказаться слабо различимыми (как это и было в [DCT-HMM1] с единственной ошибкой) и при увеличении объёма базы или использования в более широких условиях СММ может оказаться ненадёжными. Многослойные нейронные сети лишены такого недостатка.

ЛИТЕРАТУРА

[Головко1] Головко В.А. Нейроинтеллект: Теория и применения. Книга 1. Организация и обучение нейронных сетей с прямыми и обратными связями - Брест:БПИ, 1999, - 260с.

[Самаль] Самаль Д.И., Старовойтов В.В. - Подходы и методы распознавания людей по фотопортретам. - Минск, ИТК НАНБ, 1998. - 54с.

[Сам1] Самаль Д.И., Старовойтов В.В. Методика автоматизированного распознавания людей по фотопортретам // Цифровая обработка изображений. - Минск:ИТК, 1999.-С.81-85.

[Сам2] Самаль Д.И., Старовойтов В.В. Выбор признаков для распознавания на основе статистических данных // Цифровая обработка изображений. - Минск:ИТК, 1999.-С.105-114.

[Сам3] Самаль Д.И. Построение систем идентификации личности на основе антропометрических точек лица // Цифровая обработка изображений. - Минск:ИТК, 1998.-С.72-79.

[Хорн] Хорн Б.К.П. Зрение роботов. - М:Мир, 1989. - 488 с.

[DCT-HMM1] Eickeler S., Muller S., Rigoll G. High performance face recognition using Pseudo 2-D Hidden Markov Models // Gerhard-Mercator-University Duisburg, Germany, 1998. - 6 p.

[DCT-HMM2] Eickeler S., Muller S., Rigoll G. Recognition of JPEG Compressed Face Images Based on Statistical Methods // Gerhard-Mercator-University Duisburg, Germany, 1999. - 17 p.

[EigenSign] D.B. Graham and N.M. Allinson "Face recognition using virtual parametric eigenspace signatures," Image Processing and its Applications, pp. 106-110, 1997. {эластичные графы - решётка}

[ElWeights] Krueger N. An Algorithm for the Learning of Weights in Discrimination Functions Using a Priori Constraints. IEEE Transactions on Pattern Analysis and Machine Intelligence 1997, Vol. 19, pp. 764-768.

[ElGrid] Wurtz R. P. Object Recognition Robust Under Translations, Deformations, and Changes in Background. IEEE Transactions on Pattern Analysis and Machine Intelligence 1997, Vol. 19, pp. 769-775.

[ElGraph] Wiskott L., Fellous J.-M., Krueger N and Malsburg C. Face Recognition by Elastic Bunch Graph Matching. IEEE Transactions on Pattern Analysis and Machine Intelligence 1997, Vol. 19, pp. 775-779.

[EyeGA] Esme B., Sankur B., Anarim E. Facial feature extraction using genetic algorithms // 8-th European Signal Processing Conference, Trieste, 1996. - P. 1511-1514.

[Face23] Hallinan P. L., Gordon G. G., Yuille A. L., Giblin P., Mumford D. Two- and Three-Dimensional Patterns of the Face. Natick:A. K. Peters Ltd. 1999. - 260 p.

[Fisher] Belhumeur P. N., Hespanha J. P. and Kriegman D. J. Eigenfaces vs Fisherfaces: Recognition Using Class Specific Linear Projection. IEEE Transactions on Pattern Analysis and Machine Intelligence 1997, Vol. 19, pp. 711-720.

[Flex] Lanitis A., Taylor C. J. and Cootes T. F. Automatic Interpretation and Coding of Face Images Using Flexible Models. IEEE Transactions on Pattern Analysis and Machine Intelligence 1997, Vol. 19, pp. 743-756.

[Grudin] Grudin M. A., Lisboa P. J., Harvey D. M. Compact multi-level representation of human faces for identification. Image Processing and its Applications, pp. 111-115, 1997.

[Gutta] Gutta S. and Wechsler H. Face recognition using hybrid classifiers // Pattern Recognition 1997. Vol. 30. P. 539-553.

[hmm_conf] Eickeler S., Jabs M., Rigoll G. Comparison of Confidence Measures for Face Recognition // Gerhard-Mercator-University Duisburg, Germany, 2000. - 6 p.

[Linear] Vetter T. and Poggio T. Linear Object Classes and Image Synthesis From a Single Example Image. IEEE Transactions on Pattern Analysis and Machine Intelligence 1997, Vol. 19, pp. 733-742.

[OFlow] Kruizinga P., Petkov N. Optical flow applied to person identification // Proceedings of the EUROSIM Conference on Massively Parallel Processing applications and Development, 1994. - P. 871-878.

[PCA] Moghaddam B. and Pentland A. Probabilistic Visual Learning for Object Representation. IEEE Transactions on Pattern Analysis and Machine Intelligence 1997, Vol. 19, pp. 696-710.

[PCA_Detect] Sung K. K., Poggio T. Learning Human Face Detection in Cluttered Scene // Lecture Notes in Computer Science - Computer Analysis of Images and Patterns, 1995. P. 432-439.

[PRIP2002] Kuchariew G., Forczmanski P. Hierarchical method of Reduction of Features Dimensionality for Image Recognition and Graphical Data Retrieval // Pattern Recognition and Image Processing, 2002. - Vol. 1. - P. 57-72.

[Rabiner] Rabiner L. R. A tutorial on Hidden Markov Models and selected applications in speech recognition // Proceedings of the IEEE, 1989. - Vol. 77(2). - P. 257-285.

[Samaria] Samaria F. Face Recognition Using Hidden Markov Models // PhD thesis, Engineering Department, Cambridge University, 1994.

[Templ] Brunelli R., Poggio T. Face recognition: features versus templates // IEEE Transactions on Pattern Analysis and Machine Intelligence, 1993. - Vol. 15. - No 10. - P. 235-241.

[2D-KLT] Tsapatsoulis N., Alexopoulos V., Kollias S. A vector based approximation of KLT and its application to face recognition // EUSIPC

Об авторах: Брилюк Дмитрий (bdv78@mail.ru, http://neuroface.narod.ru), Старовойтов Валерий Васильевич (ValeryS@newman.bas-net.by), Институт Технической Кибернетики Национальной Академии Наук Беларуси, Минск, 2001

Дата изменения: 15.11.2001

Ссылки по теме:
  • Брилюк Д., Старовойтов В. Нейросетевые методы распознавания изображений.

    Источник: Сайт NeuroFace