Интерпретация SVD для анализа темы анализа текста

Фон

Я учусь анализировать текст, создавая свой собственный набор инструментов для интеллектуального анализа текста - лучший способ научиться!

SVD

Разложение по единственному значению часто называют хорошим способом:

  • Визуализируйте объемные данные (матрицу текстовых документов) в 2d/3d
  • Извлекайте ключевые темы, уменьшая размеры

Я потратил около месяца на изучение СВД... Я должен признать, что большинство онлайн-уроков, статей, слайдов лекций в университетах... и даже правильных печатных учебников не так легко переварить.

Вот мое понимание до сих пор: SVD демистифицировано (блог)

Я думаю, что понял следующее:

  • Любая (действительная) матрица может быть однозначно разложена на 3 умноженные матрицы с использованием SVD, A = U⋅S⋅V^T
  • S - диагональная матрица сингулярных значений в порядке убывания
  • U и V^T - матрицы ортонормированных векторов

Я понимаю, что мы можем уменьшить размеры, отфильтровывая менее значимую информацию, обнуляя меньшие элементы S и восстанавливая исходные данные. Если бы я хотел уменьшить размеры до 2, я бы оставил только 2 самых левых верхних элемента диагонали S, чтобы сформировать новую матрицу S '

Моя проблема

Чтобы увидеть документы, спроецированные на уменьшенное пространство измерений, я видел, как люди используют S'⋅V^T. Зачем? Какова интерпретация S'⋅V^T?

Точно так же, чтобы увидеть темы, я видел, как люди используют U⋅S'. Зачем? Какая интерпретация этого?

Моя ограниченная школьная математика говорит мне, что я должен смотреть на них как на преобразования (вращение, масштаб) ... но это также не помогает прояснить это.

** Обновление ** Я добавил обновление к объяснению моего блога в SVD demystified (блог), которое отражает обоснование из одного из учебников, на которые я смотрел, чтобы объяснить, почему S'.V^T является представлением документа, и почему США 'это вид слова. Все еще не очень убежден...

0 ответов

Другие вопросы по тегам