Предотвращение индексации определенных документов в клоцене
Я создаю поисковый индекс с помощью clucene и хочу убедиться, что документы, содержащие оскорбительные термины, никогда не будут добавлены в индекс. Использование StandardAnalyzer со стоп-списком недостаточно, так как оскорбительный документ все еще добавляется и будет возвращен для поиска без оскорблений.
Вместо этого я надеюсь создать документ, затем проверить, содержит ли он какие-либо оскорбительные слова, а затем добавить его, только если его нет.
Ура!
1 ответ
Вы не можете получить доступ к данным такого типа в документе
Что вы можете сделать, это запустить цепочку анализа вручную и проверить каждый токен в отдельности. Вы можете сделать это в тупом цикле или добавив в цепочку другой анализатор, который просто поднимает флаг, который вы проверяете позже.
Это вводит еще немного работы, но лучший способ достичь этого ИМО.