Трабл с findAssocs из пакета тм

Я пытаюсь найти слова, связанные с определенным словом в матрице терминов документа, используя пакет tm.

я использую findAssocs сделать это. Аргументы за findAssocs являются:

  • x: матрица терм-документа.
  • термин: персонаж, имеющий термин.
  • corlimit: число для нижнего предела корреляции.

Я постоянно получаю numeric(0) как мой результат

Пример:

findAssocs(test.dtm, "investment", 0.90)
>numeric(0)

Кто-нибудь знаком с findAssocs а знаете что я делаю не так? Или кто-нибудь знает более широко, что numeric(0) результат может означать?

Заранее большое спасибо за любую помощь.

4 ответа

Я получаю то же самое numeric(0)Я думаю, это потому, что в моем распоряжении только один документ. Corpus, Итак document term matrix только один столбец. Вы можете захотеть проверить TermDocumentMatrix() и посмотреть, есть ли у вас multi-column matrix, Тем не менее, как мне найти связь в одном документе?

Этот результат указывает на то, что в 0,90 документов с термином "инвестиции" нет слов. Попробуйте установить более низкий порог, например 0,05, и поднимитесь до порога, который дает меньше терминов.

Похоже, эта функция работает только при анализе нескольких текстовых документов. Единственное жизнеспособное решение, которое я нашел, - это создание дубликата текстового документа и последующий анализ. Однако неясно, изменит ли это каким-либо образом результаты. Любые дополнительные отзывы будут оценены.

Я думаю, что это также связано с вашим файлом данных. Текстовый файл должен работать, но если это .csv только с одним столбцом, вы получите (0)

Другие вопросы по тегам