Сканер Google находит файл robots.txt, но не может его загрузить
Может кто-нибудь сказать мне, что не так с этим robots.txt?
http://bizup.cloudapp.net/robots.txt
Вот ошибка, которую я получаю в Инструментах Google для веб-мастеров:
Sitemap errors and warnings
Line Status Details
Errors -
Network unreachable: robots.txt unreachable
We were unable to crawl your Sitemap because we found a robots.txt file at the root of
your site but were unable to download it. Please ensure that it is accessible or remove
it completely.
На самом деле ссылка выше - это отображение маршрута, по которому идет действие роботов. Это действие получает файл из хранилища и возвращает содержимое в виде текста / обычного. Google говорит, что они не могут загрузить файл. Это из-за этого?
4 ответа
Похоже, что он читает robots.txt ОК, но ваш robots.txt затем утверждает, что http://bizup.cloudapp.net/robots.txt также является URL-адресом вашей карты сайта XML, когда это действительно http://bizup.cloudapp.net/sitemap.xml. Ошибка, похоже, исходит от Google, пытающегося проанализировать robots.txt как карту сайта XML. Вам нужно изменить robots.txt на
User-agent: *
Allow: /
Sitemap: http://bizup.cloudapp.net/sitemap.xml
РЕДАКТИРОВАТЬ
На самом деле все идет немного глубже, и робот Googlebot не может вообще загружать страницы на вашем сайте. Вот исключение, возвращаемое, когда робот Googlebot запрашивает robots.txt или домашнюю страницу:
Аутентификация с использованием форм без файлов cookie не поддерживается для этого приложения.
Сведения об исключении: System.Web.HttpException: проверка подлинности с использованием форм Cookie не поддерживается для этого приложения.
[HttpException (0x80004005): Cookieless Forms Authentication is not supported for this application.]
AzureBright.MvcApplication.FormsAuthentication_OnAuthenticate(Object sender, FormsAuthenticationEventArgs args) in C:\Projectos\AzureBrightWebRole\Global.asax.cs:129
System.Web.Security.FormsAuthenticationModule.OnAuthenticate(FormsAuthenticationEventArgs e) +11336832
System.Web.Security.FormsAuthenticationModule.OnEnter(Object source, EventArgs eventArgs) +88
System.Web.SyncEventExecutionStep.System.Web.HttpApplication.IExecutionStep.Execute() +80
System.Web.HttpApplication.ExecuteStep(IExecutionStep step, Boolean& completedSynchronously) +266
Forms Authentication пытается использовать режим без файлов cookie, поскольку он распознает, что робот Google не поддерживает файлы cookie, но что-то в вашем методе FormsAuthentication_OnAuthenticate вызывает исключение, потому что он не хочет принимать проверку подлинности без файлов cookie.
Я думаю, что самый простой способ это изменить в файле web.config, который не позволяет Forms Authentication пытаться использовать режим без файлов cookie...
<authentication mode="Forms">
<forms cookieless="UseCookies" ...>
...
Я исправил эту проблему простым способом: просто добавив файл robot.txt (в том же каталоге, что и мой файл index.html), чтобы разрешить любой доступ. Я пропустил это, намереваясь разрешить всем доступ таким образом, но, может быть, Инструменты Google для веб-мастеров тогда обнаружили другой robot.txt, контролируемый моим провайдером?
Таким образом, кажется, что для некоторых интернет-провайдеров, по крайней мере, у вас должен быть файл robot.txt, даже если вы не хотите исключать никаких ботов, просто чтобы предотвратить этот возможный сбой.
У меня нет проблем, чтобы получить ваш robots.txt
User-agent: *
Allow: /
Sitemap: http://bizup.cloudapp.net/robots.txt
Но разве он не выполняет рекурсивный вызов robots.txt?
Файл Sitemap должен быть XML-файлом, см. Википедию
Что-то не так с скриптом, который генерирует файл robots.txt. Когда GoogleBot обращается к файлу, он получает 500 Internal Server Error
, Вот результаты проверки заголовка:
ЗАПРОС: http://bizup.cloudapp.net/robots.txt GET /robots.txt HTTP / 1.1 Подключение: Keep-Alive Keep-Alive: 300 Accept: * / * Хост: bizup.cloudapp.net Accept-Language: en-us Accept-Encoding: gzip, выкачать Пользователь-агент: Mozilla / 5.0 (совместимо; Googlebot/2.1; +http://www.google.com/bot.html) Ответ сервера: 500 Внутренняя ошибка сервера Cache-Control: приватный Content-Type: text/html; кодировка = UTF-8 Сервер: Microsoft-IIS/7.0 X-AspNet-версия: 4.0.30319 X-Powered-By: ASP.NET Дата: четверг, 19 августа 2010 г. 16:52:09 GMT Контент-длина: 4228 Конечная страница назначения
Вы можете проверить заголовки здесь http://www.seoconsultants.com/tools/headers/