Трабл с findAssocs из пакета тм
Я пытаюсь найти слова, связанные с определенным словом в матрице терминов документа, используя пакет tm.
я использую findAssocs
сделать это. Аргументы за findAssocs
являются:
- x: матрица терм-документа.
- термин: персонаж, имеющий термин.
- corlimit: число для нижнего предела корреляции.
Я постоянно получаю numeric(0)
как мой результат
Пример:
findAssocs(test.dtm, "investment", 0.90)
>numeric(0)
Кто-нибудь знаком с findAssocs
а знаете что я делаю не так? Или кто-нибудь знает более широко, что numeric(0)
результат может означать?
Заранее большое спасибо за любую помощь.
4 ответа
Я получаю то же самое numeric(0)
Я думаю, это потому, что в моем распоряжении только один документ. Corpus
, Итак document term matrix
только один столбец. Вы можете захотеть проверить TermDocumentMatrix()
и посмотреть, есть ли у вас multi-column matrix
, Тем не менее, как мне найти связь в одном документе?
Этот результат указывает на то, что в 0,90 документов с термином "инвестиции" нет слов. Попробуйте установить более низкий порог, например 0,05, и поднимитесь до порога, который дает меньше терминов.
Похоже, эта функция работает только при анализе нескольких текстовых документов. Единственное жизнеспособное решение, которое я нашел, - это создание дубликата текстового документа и последующий анализ. Однако неясно, изменит ли это каким-либо образом результаты. Любые дополнительные отзывы будут оценены.
Я думаю, что это также связано с вашим файлом данных. Текстовый файл должен работать, но если это .csv только с одним столбцом, вы получите (0)