Ввод матрицы распознавания эмоций в SVM
Я собираюсь построить систему распознавания эмоций (на основе модели эмоций Пола Экмана = счастье, грусть, гнев, страх, удивление, отвращение, нейтральность), используя STASM и OpenCV SVM с видеоклипами в качестве источника.
Тем не менее, я понятия не имею о том, какие данные должны быть предоставлены для самой фазы обучения. Я знаю, что мы должны ввести Mat
типа в SVM, но мне интересно, что должно быть включено в матрицу.
Например, предположим, у нас есть ориентиры, которые мы получаем от STASM. Каждый ориентир имеет свою [x,y]
координат. Кроме того, у каждого выражения лица есть много ориентиров, скажем, мы покрываем 17 ориентиров. Это означает, что, зная эти 17 знаковых точек для одного выражения лица, мы перенесем эти данные в первую строку матричного типа данных и передадим их в SVM, а затем процесс будет аналогичным для других выражений (мы должны пометить их тоже, но давайте не будем сначала фокусироваться на этой части).
Мой вопрос:
- Достаточно ли подачи координат x и y ориентиров для системы?
Интуитивно я не думаю, что этого достаточно. Мы должны получить какое-то смещение от нейтрального выражения к "пиковому" выражению, описанному в этой статье здесь. Например, мы можем получить евклидово расстояние каждой точки ориентира из нейтрального состояния в счастливое состояние и подать смещения координат в матрицу вместо координат.
Но я чувствую, что в этой идее все еще чего-то не хватает.
- Если каждое выражение сравнивается с нейтральным состоянием, то как машина может узнать, находится ли чье-то лицо в нейтральном состоянии?
Я запутался, потому что не знаю, на чем должно основываться сравнение нейтральных выражений, так как другие выражения фактически используют нейтральное выражение для сравнения.