СВД в БИС в книге Введение в поиск информации
В примере 18.4 из книги Введение в поиск информации. Матрица термина-документа разлагается с использованием SVD. У меня вопрос, почему в этом примере матрица 5*5? Разве это не должна быть матрица 5*6? Это неправильно?
Вот ссылка на главу 18 книги "Введение в поиск информации". Спасибо!
1 ответ
Книга правильная. Матрица термина документа (размерности DxT) разбивается на произведение трех матриц. Средняя матрица (обозначенная в книге как \Sigma) является ключевой матрицей, размерность которой равна TxT (в примере T=5).
Интуитивно вы можете думать об этой матрице как об обозначении отношений между терминами. В лучшем случае все векторы столбцов этой матрицы должны быть линейно независимыми, что означает, что это образует базисный вектор в пространстве терминов, и между терминами нет никакой зависимости. Однако на практике это не так. Вы обнаружите, что ранг этой матрицы обычно на несколько порядков меньше, чем T (скажем, T'), что означает, что в этой матрице есть линейно зависимые векторы столбцов TT'.
Затем можно принять аппроксимацию этой матрицы более низкого порядка, рассматривая только матрицу членов T'xT '. По сути, вы берете основные собственные значения матрицы и проецируете свои векторы на эти собственные векторы (считаются новым базисом), используя вращение и масштабирование. Это именно то, что делает спектральное разложение или PCA (или LSA).