Как вернуть слово NLTK в правильное слово?

После того, как я использую NLTK PorterStemmer для обозначения слова, слово иногда становится неполным, например, "получить" становится "полученным" после основы, что не является правильным словом.

Итак, как я могу восстановить правильное слово NLTK PorterStemmer?

2 ответа

Простой ответ: "Вы не можете".

Если это не единственный экземпляр слова, а у вас есть исходный текст для сравнения, почти невозможно восстановить слово, так как у основы слова может быть много вариантов, из которых оно было сокращено.

Например, "полученный" в этом случае мог быть "получен" или "получен" или "получатель" или один из многих других вариантов.

Без точного контекста невозможно угадать, какой. Сожалею.

Цель определения состоит в том, чтобы свести словесную форму слова к базовой форме, например, "получить" до "получить", "обмануть" до "обмануть" или даже "отличать" до "отличить".

Основа не обязательно должна совпадать с морфологическим корнем слова, если связанные слова отображаются в одну и ту же базовую форму. Вот почему NLTK PorterStemmer обрезает концы слов, и иногда такие слова, как "полученный", пишутся неправильно, но это все еще ожидаемое поведение.

Другие вопросы по тегам