Сканер Google находит файл robots.txt, но не может его загрузить

Может кто-нибудь сказать мне, что не так с этим robots.txt?

http://bizup.cloudapp.net/robots.txt

Вот ошибка, которую я получаю в Инструментах Google для веб-мастеров:

Sitemap errors and warnings
Line    Status  Details
Errors  -   
Network unreachable: robots.txt unreachable
We were unable to crawl your Sitemap because we found a robots.txt file at the root of
your site but were unable to download it. Please ensure that it is accessible or remove
it completely.

На самом деле ссылка выше - это отображение маршрута, по которому идет действие роботов. Это действие получает файл из хранилища и возвращает содержимое в виде текста / обычного. Google говорит, что они не могут загрузить файл. Это из-за этого?

4 ответа

Решение

Похоже, что он читает robots.txt ОК, но ваш robots.txt затем утверждает, что http://bizup.cloudapp.net/robots.txt также является URL-адресом вашей карты сайта XML, когда это действительно http://bizup.cloudapp.net/sitemap.xml. Ошибка, похоже, исходит от Google, пытающегося проанализировать robots.txt как карту сайта XML. Вам нужно изменить robots.txt на

User-agent: *
Allow: /
Sitemap: http://bizup.cloudapp.net/sitemap.xml

РЕДАКТИРОВАТЬ

На самом деле все идет немного глубже, и робот Googlebot не может вообще загружать страницы на вашем сайте. Вот исключение, возвращаемое, когда робот Googlebot запрашивает robots.txt или домашнюю страницу:

Аутентификация с использованием форм без файлов cookie не поддерживается для этого приложения.

Сведения об исключении: System.Web.HttpException: проверка подлинности с использованием форм Cookie не поддерживается для этого приложения.

[HttpException (0x80004005): Cookieless Forms Authentication is not supported for this application.]
AzureBright.MvcApplication.FormsAuthentication_OnAuthenticate(Object sender, FormsAuthenticationEventArgs args) in C:\Projectos\AzureBrightWebRole\Global.asax.cs:129
System.Web.Security.FormsAuthenticationModule.OnAuthenticate(FormsAuthenticationEventArgs e) +11336832
System.Web.Security.FormsAuthenticationModule.OnEnter(Object source, EventArgs eventArgs) +88
System.Web.SyncEventExecutionStep.System.Web.HttpApplication.IExecutionStep.Execute() +80
System.Web.HttpApplication.ExecuteStep(IExecutionStep step, Boolean& completedSynchronously) +266

Forms Authentication пытается использовать режим без файлов cookie, поскольку он распознает, что робот Google не поддерживает файлы cookie, но что-то в вашем методе FormsAuthentication_OnAuthenticate вызывает исключение, потому что он не хочет принимать проверку подлинности без файлов cookie.

Я думаю, что самый простой способ это изменить в файле web.config, который не позволяет Forms Authentication пытаться использовать режим без файлов cookie...

<authentication mode="Forms"> 
    <forms cookieless="UseCookies" ...>
    ...

Я исправил эту проблему простым способом: просто добавив файл robot.txt (в том же каталоге, что и мой файл index.html), чтобы разрешить любой доступ. Я пропустил это, намереваясь разрешить всем доступ таким образом, но, может быть, Инструменты Google для веб-мастеров тогда обнаружили другой robot.txt, контролируемый моим провайдером?

Таким образом, кажется, что для некоторых интернет-провайдеров, по крайней мере, у вас должен быть файл robot.txt, даже если вы не хотите исключать никаких ботов, просто чтобы предотвратить этот возможный сбой.

У меня нет проблем, чтобы получить ваш robots.txt

User-agent: *
Allow: /
Sitemap: http://bizup.cloudapp.net/robots.txt

Но разве он не выполняет рекурсивный вызов robots.txt?

Файл Sitemap должен быть XML-файлом, см. Википедию

Что-то не так с скриптом, который генерирует файл robots.txt. Когда GoogleBot обращается к файлу, он получает 500 Internal Server Error, Вот результаты проверки заголовка:

 ЗАПРОС: http://bizup.cloudapp.net/robots.txt
GET /robots.txt HTTP / 1.1
Подключение: Keep-Alive
Keep-Alive: 300
Accept: * / *
Хост: bizup.cloudapp.net
Accept-Language: en-us
Accept-Encoding: gzip, выкачать
Пользователь-агент: Mozilla / 5.0 (совместимо; Googlebot/2.1; +http://www.google.com/bot.html)

Ответ сервера: 500 Внутренняя ошибка сервера
Cache-Control: приватный
Content-Type: text/html; кодировка = UTF-8
Сервер: Microsoft-IIS/7.0
X-AspNet-версия: 4.0.30319
X-Powered-By: ASP.NET
Дата: четверг, 19 августа 2010 г. 16:52:09 GMT
Контент-длина: 4228
Конечная страница назначения

Вы можете проверить заголовки здесь http://www.seoconsultants.com/tools/headers/

Другие вопросы по тегам