Использование API поисковых систем для замены моего сканирования (не для поисковых систем)?
На данный момент я сканирую большое количество предопределенных сайтов, ищу очень небольшое количество конкретных документов, представляющих интерес. Важно отметить, что я не сканирую эти сайты для создания своей собственной поисковой системы: она предназначена специально для получения документов.
Все основные поисковые системы имеют API, за который я не возражаю платить, но они, похоже, сосредоточены на использовании своего API для создания своей собственной поисковой системы.
Например: Yahoo BOSS TOS по http://info.yahoo.com/legal/us/yahoo/boss/tou/. B.1 (a) гласит: "Вам разрешается использовать Сервисы только с целью включения и отображения Результатов от Сервисов как части Поискового продукта, развернутого в Вашем Предложении". Так что я могу использовать его только для своей собственной поисковой системы.
У Google есть только система пользовательского поиска, что опять же не то, что мне нужно.
API Bing, кажется, ближе к тому, что мне нужно, но в этом случае TOS не требует удаления определенных фрагментов информации и т. Д. Но опять же, мне не нужно использовать его только для реализации моей собственной поисковой системы (из того, что я вижу),
Я читаю слишком много в этом или есть поисковая система, которая позволяет мне по существу использовать результаты своего сканирования определенных сайтов вместо моих собственных для моего продукта? Опять же, результаты поиска не являются моим продуктом: это то, что я делаю с данными в документах.
Спасибо за любые советы.
1 ответ
Вы не захотите использовать поисковую систему для этого.
Поисковые системы не будут индексировать весь контент на сайте. Например, если на сайте много похожих страниц, они будут выброшены. Сайты с большим количеством страниц не будут полностью проиндексированы.
Вы можете пропустить много страниц таким образом.
Держи это ползать!
PS Сканирование отдельных сайтов часто нарушает их TOS. Если вы заботитесь об этом, также придерживайтесь robots.txt.