Странный результат лемматизации в r, текстовый пакет

Question

Странный результат лемматизации в r, текстовый пакет

Я хотел бы получить лемму "нырнуть" из всех возможных форм слова с использованием пакетаекстема в R.

Но когда я использовал текстовый пакет в r, базовая форма становится очень странным результатом.

library(textstem)
words<-c("dived", "diving", "dive")

lemmatize_strings(words, dictionary = lexicon::hash_lemmas)

[1] "dive" "dive" "diva"

Здесь я не хочу, чтобы слово "нырять" стало результатом слова "нырять", вместо этого мне нужно перевести слово "нырять" в слово "нырять", чтобы его можно было считать тем же словом с другими формами "нырять", "дайвинг". Так и должно быть, ниже.

[1] "dive" "dive" "dive"

Я нашел эту ссылку ( stemDocment в пакете tm не работает над словом прошедшего времени), но в моем случае она может оказаться бесполезной, поскольку мне придется обработать более 80000 отзывов, и я с большой вероятностью столкнусь с той же проблемой с разными словами,

я использую lemmatize_stringsдля набора данных, который у меня есть, но он дает точно такой же результат (хотя это немного очевидно). Кто-нибудь может мне помочь, пожалуйста!

Заранее большое спасибо!

0

r lemmatization lexicon

Источник

user9805648 17 май '18 в 21:55

0 ответов

Другие вопросы по тегам r lemmatization lexicon