Поисковые боты, создающие проблему в вызове веб-сервиса через curl

Question

Поисковые боты, создающие проблему в вызове веб-сервиса через curl

Я реализовал код скручивания для извлечения актуальных ресурсов из веб-службы поставщика, когда любой пользователь открывает страницу сведений о продукте.

Но поисковые роботы обращаются к странице, и это приводит к 1000-кратному обращению к веб-сервису каждую секунду.

Как исправить эту проблему. Я искал в Google, но пока не нашел точного ответа.

0

curl bots web-crawler robots.txt search-engine-bots

Источник

user5037127 17 дек '15 в 06:46

1 ответ

Другие вопросы по тегам curl bots web-crawler robots.txt search-engine-bots

user5757238 13 янв '16 в 01:18 2016-01-13 01:18 · Answer 1 · 2016-01-13 01:18

По крайней мере, вы должны определить User-Agent и IP-адрес при вызове страницы. Если полученные аргументы совпадают с данными бота, просто не обращайтесь к веб-сервису и используйте постоянные статические данные (только для ботов).

Кроме того, вы можете использовать инструмент для проверки человека (капча и т. Д.): Если проверка не удалась, не вызывайте веб-службу.

Кроме того, вы можете использовать кэширование и вызывать веб-сервис только для обновления кэша (например, один раз в час): если данные обновляются менее часа назад, страница должна использовать кэшированные данные.