Описание тега google-search
Google - самая популярная поисковая система в мире. Google Web Search API является устаревшим в пользу нового пользовательского поиска.
Поиск в Google может не возвращать ответы, которых можно было бы ожидать, по причинам, включая те, которые упомянуты в ответах и комментариях к Что вы НЕ можете найти в Google?:
Google даже не пытается
- Чтобы найти ключевые слова со специальными символами:
"Как правило, знаки препинания игнорируются, включая @#$%^&*()=+[]\ и другие специальные символы", - Фрэнк Дернонкур.
Поисковый запрос double unary
работает, но не --
. См. Также Google отображает мой веб-сайт как орфографическую ошибку.
Сайты со слишком большим количеством контента, малоценным или непрактичным для индексации
Может включать:
- Сайты, которые не имеют доступной для сканирования карты и требуют от Google предоставления условий поиска для доступа к результатам, доступным на сайте, могут быть не полностью проиндексированы. -Жозефина Бонапарт
- Блоги меньшего размера, которые не обновляются регулярно, часто удаляются из результатов поиска. Плюс ко всему, что они считают сплогом ("блог, который автор использует для продвижения связанных сайтов" - Википедия). -Дэвид
- "Большая часть контента Twitter не индексируется Google, даже если он общедоступен.
Раньше он был доступен для Google, но теперь это не так, поскольку срок их соглашения истек ". -Алекс - "Google не так хорошо индексирует Tumblr.
Сообщения в блогах на Tumblr легче найти с помощью поиска Tumblr ". -Дэвид - "Все на сайтах Google не индексируется (или почти не индексируется).
Если вы создаете сайт Google, получите свой собственный домен ". -Дэвид
Авторские права и другие защищенные материалы
Может включать:
- То, что думает правительство, плохо для вас. –Hellagot
Приведенный пример был из Германии, "не показывает тысячи сайтов… и список увеличивается на тысячи каждый год". - Что может нарушать права интеллектуальной собственности. –Einpoklum
DMCA (Закон об авторском праве в цифровую эпоху) был упомянут. - Изображения переписи.
"Поскольку контент представляет собой изображения, которые часто индексируются вручную, их обычно можно найти на платных сайтах, таких как ancestry.com". –Amh
Чтобы узнать, сканирование каких URL-адресов было заблокировано Google, посетите страницу "Заблокированные URL-адреса" в разделе "Сканирование" Инструментов для веб-мастеров.
Отказаться
- Контент, явно запрещенный файлом robots.txt домена, исключается из индекса Google. -amh
Технические сложности
- Веб-сайты, на которые не ссылаются другие веб-сайты, которые уже известны Google (возможно, когда домен находился под другим владельцем - Тим Пост). То есть, вероятно, существует множество веб-сайтов, на которые не ссылаются видимые страницы, эти веб-сайты никогда не будут обнаружены пауком Google, если они не отправлены в Google вручную через Инструменты для веб-мастеров. –Amh
- Веб-сайты, скрытые за веб-формами, которые вам необходимо заполнить. –Amh
- Deep Web "Большая часть информации Паутины похоронен далеко вниз на динамически создаваемых сайтах, и стандартные поисковые системы не находят его. Традиционные поисковые системы не могут "видеть" или извлекать контент в глубокой сети - эти страницы не существуют до тех пор, пока они не создаются динамически в результате определенного поиска. По состоянию на 2001 год глубокая паутина была на несколько порядков больше, чем поверхностная сеть ". -Википедия
- По данным Wayback Machine, может включать 408 миллиардов веб-страниц, сохраненных с течением времени. –Гайки