Предотвращение индексации определенных документов в клоцене

Я создаю поисковый индекс с помощью clucene и хочу убедиться, что документы, содержащие оскорбительные термины, никогда не будут добавлены в индекс. Использование StandardAnalyzer со стоп-списком недостаточно, так как оскорбительный документ все еще добавляется и будет возвращен для поиска без оскорблений.

Вместо этого я надеюсь создать документ, затем проверить, содержит ли он какие-либо оскорбительные слова, а затем добавить его, только если его нет.

Ура!

1 ответ

Решение

Вы не можете получить доступ к данным такого типа в документе

Что вы можете сделать, это запустить цепочку анализа вручную и проверить каждый токен в отдельности. Вы можете сделать это в тупом цикле или добавив в цепочку другой анализатор, который просто поднимает флаг, который вы проверяете позже.

Это вводит еще немного работы, но лучший способ достичь этого ИМО.

Другие вопросы по тегам