Проблемы с подпапками, которые неправильно сканируются

У меня проблема с парой папок на одном из моих сайтов. Существует одна папка с именем Publications_A и одна с именем Publications_B. В каждой из этих папок есть несколько подпапок (в основном, архивных папок прошлых лет), страница указателя и несколько документов, которые отображаются на странице указателя.

Проблема 1: GSA сканирует кучу документов в папке Pub A, которые выдают ошибку "not found". Это правда, потому что этих документов даже нет. Они на самом деле находятся в одной из подпапок. Даже после сброса индекса они все равно продолжают появляться здесь.

Проблема 2: документы, которые отображаются в главной папке, не отображаются в подпапках, где они на самом деле находятся! Я не понимаю В одной из подпапок (с именем 2014) GSA собирает только 5 документов, хотя там на самом деле их 10. Даже если я предоставлю GSA полный путь к этим недостающим документам, он не будет их индексировать. Все они являются документами PDF, и на них есть ссылки в файле index.asp в папке 2014 года. Я проверил, и ни в одном из них нет тегов без роботов.

Я играл с этим часами и не могу понять это ради своей жизни. У кого-нибудь есть идеи?

3 ответа

Я бы использовал диагностику в реальном времени, чтобы попытаться получить один из "отсутствующих" документов и посмотреть, получите ли вы ответ "200".

Страницы, которые отображаются, которые не должны быть связаны с "относительными" ссылками в другом контенте. Например, документ PDF может содержать не полностью определенную ссылку URL, что может привести к тому, что GSA будет сканировать ссылку, которая на самом деле не существует.

Убедитесь, что на ваших индексных страницах указан весь контент, который вы хотите просканировать.

Проблема 1: если его папки для обхода отсутствуют, то ваш путь следования установлен на более высоком уровне, который будет следовать за любыми подпапками.

Исправлено: изменение следования пути / добавление не следования пути. Кроме того, как заявлено Терри Чамберсом... Если ваши пути следуют и не следуют правильно, то содержимое вашей страницы будет иметь "ссылку" (каким-то образом) на нежелательный контент (подпапка отображается для A или B).

Если в папке A есть ссылка, которая переводит вас в папку B, то да, она будет сканироваться и индексировать ее. Удалить ссылку, чтобы избежать нежелательных эффектов.

Надеюсь это поможет.

"Проблема 2: документы, которые отображаются в главной папке, не отображаются в подпапках, где они на самом деле находятся! Я не понимаю. В одной из подпапок (с именем 2014) GSA только берет 5 документов, хотя их там на самом деле 10. Даже если я предоставлю GSA полный путь к этим пропущенным документам, он не будет индексировать их. Все они являются документами PDF, и есть ссылки на них внутри файла index.asp в папка 2014. Я проверил, и ни в одном из них нет тегов без роботов ".

В документах PDF могут возникнуть проблемы при сканировании / индексировании, если содержимое не "доступно для выбора" или, другими словами, изображение "Плоское"

Вы также можете попробовать встроить нижние колонтитулы / заголовки (внутренне или с помощью HTML) в документацию, файлы типов изображений и т. Д. Это должно позволить сканировать и индексировать эти документы.

Надеюсь это поможет.

Другие вопросы по тегам