GSA - получить подмножество индекса

Question

GSA - получить подмножество индекса

Мне нужно получить список всех документов в индексе / коллекции GSA (GSA 7), имеющих одну или несколько конкретных ссылок. Поэтому у меня есть список URL-адресов, и мне нужно найти любые документы, которые их содержат (в теле документа, а не в метаданных). С UCM поступает около 700 000 документов (они полнотекстовые). Количество документов, содержащих ссылки, слишком велико, чтобы их можно было найти с помощью обычного поиска. Есть какой-нибудь OOTB способ добраться до этого? Каков будет путь? Я думал о создании отдельной коллекции, но критерии фильтрации работают только по URL, а не по содержимому файлов.

Заранее спасибо, Z

1

indexing filter google-search-appliance

Источник

user1681189 14 сен '15 в 16:01

1 ответ

Другие вопросы по тегам indexing filter google-search-appliance

user251131 14 сен '15 в 21:44 2015-09-14 21:44 · Answer 1 · 2015-09-14 21:44

Используя Entity Recognition, вы можете пометить каждый документ, содержащий интересующие вас шаблоны URL, определенным фрагментом метаданных. Затем вы можете использовать этот сгенерированный тег метаданных, чтобы отфильтровать результаты только по тем, которые вас интересуют. К сожалению, вы все еще зависите от запуска поиска, чтобы найти их, и вам нужно будет подождать, пока GSA пересмотрит все ваш контент после создания правила ER, прежде чем вы сможете искать эти документы.

В качестве альтернативы, если вы подаете их из соединителя, вы можете добавить фильтр документов, который проверяет содержимое каждого загружаемого файла, а затем регистрирует URL-адрес текущего документа где-то (например, file, db или webservice), если он содержит шаблон, который ты ищешь. Это все равно потребует повторного сканирования, но по крайней мере тогда вам не нужно запускать поиск, чтобы найти совпадения, вы можете просто просмотреть свой журнал.