GSA - получить подмножество индекса

Мне нужно получить список всех документов в индексе / коллекции GSA (GSA 7), имеющих одну или несколько конкретных ссылок. Поэтому у меня есть список URL-адресов, и мне нужно найти любые документы, которые их содержат (в теле документа, а не в метаданных). С UCM поступает около 700 000 документов (они полнотекстовые). Количество документов, содержащих ссылки, слишком велико, чтобы их можно было найти с помощью обычного поиска. Есть какой-нибудь OOTB способ добраться до этого? Каков будет путь? Я думал о создании отдельной коллекции, но критерии фильтрации работают только по URL, а не по содержимому файлов.

Заранее спасибо, Z

1 ответ

Используя Entity Recognition, вы можете пометить каждый документ, содержащий интересующие вас шаблоны URL, определенным фрагментом метаданных. Затем вы можете использовать этот сгенерированный тег метаданных, чтобы отфильтровать результаты только по тем, которые вас интересуют. К сожалению, вы все еще зависите от запуска поиска, чтобы найти их, и вам нужно будет подождать, пока GSA пересмотрит все ваш контент после создания правила ER, прежде чем вы сможете искать эти документы.

В качестве альтернативы, если вы подаете их из соединителя, вы можете добавить фильтр документов, который проверяет содержимое каждого загружаемого файла, а затем регистрирует URL-адрес текущего документа где-то (например, file, db или webservice), если он содержит шаблон, который ты ищешь. Это все равно потребует повторного сканирования, но по крайней мере тогда вам не нужно запускать поиск, чтобы найти совпадения, вы можете просто просмотреть свой журнал.

Другие вопросы по тегам