Проблема для lsi

Question

Проблема для lsi

Я использую скрытый семантический анализ для сходства текста. У меня есть 2 вопроса.

Как выбрать значение K для уменьшения размера?
Я много читаю везде, где эта БИС работает для сходных по смыслу слов, например, автомобиль и автомобиль. Как это возможно??? Какой магический шаг мне здесь не хватает?

2

math latent-semantic-indexing

Источник

user238384 20 янв '10 в 22:34

2 ответа

Другие вопросы по тегам math latent-semantic-indexing

user328589 31 мар '11 в 22:29 2011-03-31 22:29 · Answer 1 · 2011-03-31 22:29

Типичный выбор для k равен 300. В идеале, вы устанавливаете k на основе метрики оценки, которая использует сокращенные векторы. Например, если вы кластеризуете документы, вы можете выбрать k, которое максимизирует оценку решения кластеризации. Если у вас нет эталона для сравнения, я бы установил k в зависимости от размера вашего набора данных. Если у вас есть только 100 документов, то вам не потребуется несколько сотен скрытых факторов для их представления. Аналогично, если у вас есть миллион документов, то 300 могут быть слишком маленькими. Однако, по моему опыту, полученные векторы довольно устойчивы к большим изменениям k, при условии, что k не слишком мало (т.е. k = 300 примерно так же, как и k = 1000).
Возможно, вы путаете LSI со скрытым семантическим анализом (LSA). Это очень родственные методы, с той разницей, что LSI оперирует документами, а LSA оперирует словами. Оба подхода используют один и тот же вход (термин x матрица документа). Есть несколько хороших реализаций LSA с открытым исходным кодом, если вы хотите попробовать их. На странице Википедии LSA есть полный список.

user25990 05 июл '10 в 04:13 2010-07-05 04:13 · Answer 2 · 2010-07-05 04:13

попробуйте несколько различных значений из [1..n] и посмотрите, что работает для любой задачи, которую вы пытаетесь выполнить
Создайте матрицу корреляции между словами и словами (т.е. ячейка (i,j) содержит количество документов, где (i,j) сосуществуют) и используйте в ней что-то вроде PCA