Lucene библиотека для очистки текста (множественное число, глаголы...)

Question

Lucene библиотека для очистки текста (множественное число, глаголы...)

Я хотел бы помочь с использованием Lucene в моем Java-приложении для упрощения текста.

Я уже сделал это сам, но у меня нет решения для глаголов и множественного числа.

Как я могу обработать?

1

java lucene purify

Источник

user8207668 06 авг '17 в 19:14

1 ответ

Другие вопросы по тегам java lucene purify

user1443084 06 авг '17 в 19:43 2017-08-06 19:43 · Answer 1 · 2017-08-06 19:43

Если я правильно понимаю ваш вопрос, вы хотите обнаружить существительные / глаголы из текста. AFAIK Lucene сама по себе не имеет возможности обнаружить это. Вместо этого вы можете посмотреть на библиотеку OpenNLP, которая является

основанный на машинном обучении инструментарий для обработки текста на естественном языке

Поэтому было бы использовать такие понятия, как модели обучения, а затем прогнозировать. Он имеет POSTagger API (часть речевого тегера) - вы можете посмотреть его использование здесь, в документации и некоторых подробных примерах здесь, здесь и здесь.

Еще один отличный фреймворк в Java - Stanford Core NLP. Вы можете взглянуть на Stanford Log-linear Line-Of-Speech Tagger здесь