Оптимальный дизайн HTML-страницы для GSA?

Нам нужно проиндексировать сайт с помощью GSA. Поэтому мы планируем создать HTML-страницу, в которую мы добавим то, что нужно проиндексировать.

Нам в основном нужно индексировать документы, и все они сохраняются как "странные" цели. На сайте есть генератор ссылок, который предоставит актуальный бинарный файл.

Это работает в пути. Наш HTML-файл содержит несколько записей списка:

<li><a href='/download/getBinary/tcm:1146-200516?disposition=inline'>
CustomCode_on_page_V1.0.docx</a></li>

GSA индексирует часть контента для извлечения контента. И это хорошо, если мы можем искать docx и получать XML. В результате поиска выводятся теги T и S.

Но что мне не хватает, так это "CustomCode_on_page_V1.0.docx" в выводе. Также я не могу искать по фразе пользовательский код.

Чтобы оптимизировать и получить имя файла - каков оптимальный / лучший маршрут вперед?

У меня есть PDF и офисные документы, которые мне нужно проиндексировать и чтобы я мог выполнять поиск. Я их индексирую, но заголовок - это то, чем я хочу быть… поскольку фактическая "метка" написана в моем html-файле для ползания GSA.

Есть идеи?

1 ответ

Возможно, удалите "inline" и сделайте GSA index двоичным форматом файла (они делают это очень хорошо).

Другие вопросы по тегам