Описание тега web-crawler

Поисковый робот (также известный как веб-паук) - это компьютерная программа, которая просматривает всемирную паутину методическим, автоматическим или упорядоченным образом. Другие термины для поисковых роботов - это муравьи, автоматические индексаторы, боты, веб-пауки, веб-роботы или - особенно в сообществе FOAF - веб-скаттеры.
1 ответ

Нет ответа от URL, использующего запросы Python для другого языка

Я хотел использовать сервис Google Translate для преобразования текста с одного языка на другой. Я знаю, что Google Translate теперь является платным сервисом, поэтому я не использовал REST API. Я попробовал следующий способ, чтобы выучить язык и бо…
14 дек '14 в 14:34
2 ответа

Где взять веб-график с соответствующим набором данных веб-страниц

Я пытаюсь реализовать PageRank алгоритм на множестве веб-страниц, для этого мне нужен образец dataset веб-страниц и соответствующего им веб-графика, этот веб-график представляет ссылки между страницами, содержащимися в наборе данных. Мне нужен веб-г…
1 ответ

Как изменить начальные, последующие и запрещенные URL-адреса для StormCrawler на лету

Я довольно новичок в StormCrawler, делаю свою первую реализацию веб-сканера, и я до сих пор очень доволен этим продуктом! Я использую StormCrawler v1.5.1 с Elastic 5.5.1 и настраиваю свою топологию на основе предоставленного "ESCrawlTopology.java". …
08 авг '17 в 09:12
2 ответа

Тайм-аут поискового робота

Я работаю над простым веб-сканером, чтобы получить URL, сканировать ссылки первого уровня на сайте и извлекать письма со всех страниц, используя RegEx... Я знаю, что это немного неаккуратно и это только начало, но я всегда получаю "Timed Out операци…
15 янв '12 в 19:37
1 ответ

Node.io, JSDOM или PhantomJs? или YQL- data.html.cssselect?

Мне нужно сканировать определенный веб-сайт, чтобы выкопать некоторую соответствующую информацию. Похоже, сначала мне нужно поискать на сайте, чтобы получить соответствующие URL, которые при сканировании дадут мне подробную информацию. Предположим, …
24 ноя '12 в 09:50
1 ответ

Как извлечь URL, на котором сейчас находится мой сканер?

Я делаю веб-сканер с использованием Scrapy Framework в Python. Основная идея заключается в том, что сканер извлекает некоторые данные со страницы, если данные соответствуют некоторым критериям, сканер должен извлечь URL-адрес, на котором он находитс…
27 ноя '16 в 00:31
3 ответа

Почему я не могу скачать MIDI-файл с запросами Python?

Я пытаюсь скачать серию миди-файлов классической музыки с питоном и библиотекой запросов. К сожалению, я не могу загрузить файлы midi. Единственное, что я скачиваю, это файлы HTML. Я искал SO и пробовал некоторые другие решения, такие как этот пост …
0 ответов

Websphinx - Crawling Java

Я загрузил исходные файлы http://www.cs.cmu.edu/~rcm/websphinx/ и импортировал проект в eclipse, чтобы создать свой сканер. Проблема заключается в поддержке библиотек, а именно:gd, graph и symatec; Я получаю ошибки импорта этих библиотек! как я могу…
20 май '13 в 10:37
1 ответ

Знаете ли вы бот LTX71? Что это делает? Это спам?

Есть бот / паук, который очень быстро сканирует мои сайты. Используемым агентом является 'ltx71 - ( http://ltx71.com/)', и у него есть сервал ips: 52.3.127.144 и 52.3.105.23 На сайте написано так: LTX71 Мы постоянно сканируем интернет в целях исслед…
24 июл '16 в 21:44
2 ответа

Как скрести все URL изображения и alt тег в нем с помощью scrapy

Моя цель - сканировать URL-адреса изображений и теги alt изображений с помощью scrapy . Я пробовал много комбинаций, но все еще не достиг этого. Вот что я пробовал def parse_item(self, response): sel = Selector(response) item = imageItem() item['cra…
02 май '14 в 13:26
1 ответ

pagination - xpath для сканера в питоне

На самом деле я работаю над сканером, использующим scrapy в python, и я почти закончил, у меня просто небольшая проблема. Сайт, использующий нумерацию страниц: <div class="pagination toolbarbloc"> <ul> <li class="active"><span&g…
11 сен '17 в 05:03
2 ответа

Почему регулярное выражение Python не соответствует (?=) Здесь?

Я пытаюсь получить информацию об авторе с сайта "pixiv". Код здесь с сайта: <meta property="og:title" content="ラララ | かるは [pixiv]"> Я хочу получить это "かるは", и я использую регулярное выражение: [\u0800-\u9fa5_a-zA-Z0-9_]+(?=\s\[pixiv\]) Тем не…
09 июл '15 в 03:01
4 ответа

Получить div вокруг искомого ключевого слова (file_get_contents('url')

Так что я создаю веб-сканер, и все работает, только 1 проблема. С file_get_contents($page_data["url"]); Я получаю содержание веб-страницы. Эта веб-страница сканируется, когда на ней присутствует одно из моих ключевых слов. $find = $keywords; $str = …
09 сен '10 в 11:52
2 ответа

Любая возможность сканировать открытые данные веб-браузера с помощью апертуры

Я знаю о сайте сканирования с помощью Aperture. если я открою http://demo.crawljax.com/ в веб-браузере mozila. Как можно сканировать открытый контент браузера с помощью Aperture. Шаги: 1. Откройте http://demo.crawljax.com/ на своем браузере Mozila. …
22 янв '15 в 09:30
1 ответ

Как решить разные URL вперед на той же странице в приложении веб-робота

У меня проблема с приложением веб-робота. URL: http://www.domain.com/path?id=1 URL b: http://www.domain.com/path?id=1&sessionid;=XXXXXX там два URL и перенаправить на одно и то же приложение page.robot скачать страницу дважды. в моем приложении-робо…
19 май '13 в 14:54
1 ответ

Google не индексирует URL AJAX

Я отправил в Google карту сайта для своего веб-приложения AJAX с помощью Инструментов для веб-мастеров. Отправленные URL-адреса имеют вид: http://www.mysite.com/#!myscreen;id=object-id http://www.mysite.com/#!myotherscreen;id=another-id Однако, несм…
0 ответов

python_" .txt" файлы не могут быть созданы

Файлы " .txt " не могут быть созданы. Код был создан, но файл не создан. Мне посоветовали использовать "маринованные". Но я не знаю, как использовать "рассол". Как я могу использовать этот код, чтобы сохранить его в виде файла Кроме того, я хотел бы…
22 апр '17 в 02:28
1 ответ

Scrapy: ползать угловые ссылки?

Я использую selenium-webdriver для рендеринга javascript для сканера scrapy, но не похоже, что ссылки angularjs 'ng-href' сканируются. Скрипт сканирует ссылки 'ng-href'? Если нет, как я могу заставить его сканировать ссылки 'ng-href'? from scrapy.se…
1 ответ

Есть ли законная причина, по которой Amazon пробует / админ

Из моих необработанных журналов сервера я нашел эти: 52.42.136.103 02 / авг /2016:17:58:12 GET / Администратор / 54.234.186.225 03/ авг /2016:16:48:55 GET / Администратор / 54.149.57.2 04/Aug/2016:18:40:55 GET / Администратор / 52.40.119.32 06/ Авг …
31 авг '16 в 05:12
0 ответов

Обнаружена ошибка при загрузке Apache Solr

Я пытаюсь использовать Sparkler: Crawler на Apache Spark. Я начну с требований по этой ссылке: https://github.com/uscdataScience/sparkler/wiki/sparkler-0.1#requirements Первым шагом была загрузка Apache Solr. Итак, когда я использую эту команду: cp …
22 июл '17 в 16:48