Странный результат лемматизации в r, текстовый пакет
Я хотел бы получить лемму "нырнуть" из всех возможных форм слова с использованием пакетаекстема в R.
Но когда я использовал текстовый пакет в r, базовая форма становится очень странным результатом.
library(textstem)
words<-c("dived", "diving", "dive")
lemmatize_strings(words, dictionary = lexicon::hash_lemmas)
[1] "dive" "dive" "diva"
Здесь я не хочу, чтобы слово "нырять" стало результатом слова "нырять", вместо этого мне нужно перевести слово "нырять" в слово "нырять", чтобы его можно было считать тем же словом с другими формами "нырять", "дайвинг". Так и должно быть, ниже.
[1] "dive" "dive" "dive"
Я нашел эту ссылку ( stemDocment в пакете tm не работает над словом прошедшего времени), но в моем случае она может оказаться бесполезной, поскольку мне придется обработать более 80000 отзывов, и я с большой вероятностью столкнусь с той же проблемой с разными словами,
я использую lemmatize_strings
для набора данных, который у меня есть, но он дает точно такой же результат (хотя это немного очевидно). Кто-нибудь может мне помочь, пожалуйста!
Заранее большое спасибо!