Lucene библиотека для очистки текста (множественное число, глаголы...)
Я хотел бы помочь с использованием Lucene в моем Java-приложении для упрощения текста.
Я уже сделал это сам, но у меня нет решения для глаголов и множественного числа.
Как я могу обработать?
1 ответ
Если я правильно понимаю ваш вопрос, вы хотите обнаружить существительные / глаголы из текста. AFAIK Lucene сама по себе не имеет возможности обнаружить это. Вместо этого вы можете посмотреть на библиотеку OpenNLP, которая является
основанный на машинном обучении инструментарий для обработки текста на естественном языке
Поэтому было бы использовать такие понятия, как модели обучения, а затем прогнозировать. Он имеет POSTagger API (часть речевого тегера) - вы можете посмотреть его использование здесь, в документации и некоторых подробных примерах здесь, здесь и здесь.
Еще один отличный фреймворк в Java - Stanford Core NLP. Вы можете взглянуть на Stanford Log-linear Line-Of-Speech Tagger здесь