Описание тега web-crawler
Поисковый робот (также известный как веб-паук) - это компьютерная программа, которая просматривает всемирную паутину методическим, автоматическим или упорядоченным образом. Другие термины для поисковых роботов - это муравьи, автоматические индексаторы, боты, веб-пауки, веб-роботы или - особенно в сообществе FOAF - веб-скаттеры.
1
ответ
Нет ответа от URL, использующего запросы Python для другого языка
Я хотел использовать сервис Google Translate для преобразования текста с одного языка на другой. Я знаю, что Google Translate теперь является платным сервисом, поэтому я не использовал REST API. Я попробовал следующий способ, чтобы выучить язык и бо…
14 дек '14 в 14:34
2
ответа
Где взять веб-график с соответствующим набором данных веб-страниц
Я пытаюсь реализовать PageRank алгоритм на множестве веб-страниц, для этого мне нужен образец dataset веб-страниц и соответствующего им веб-графика, этот веб-график представляет ссылки между страницами, содержащимися в наборе данных. Мне нужен веб-г…
29 апр '14 в 23:04
1
ответ
Как изменить начальные, последующие и запрещенные URL-адреса для StormCrawler на лету
Я довольно новичок в StormCrawler, делаю свою первую реализацию веб-сканера, и я до сих пор очень доволен этим продуктом! Я использую StormCrawler v1.5.1 с Elastic 5.5.1 и настраиваю свою топологию на основе предоставленного "ESCrawlTopology.java". …
08 авг '17 в 09:12
2
ответа
Тайм-аут поискового робота
Я работаю над простым веб-сканером, чтобы получить URL, сканировать ссылки первого уровня на сайте и извлекать письма со всех страниц, используя RegEx... Я знаю, что это немного неаккуратно и это только начало, но я всегда получаю "Timed Out операци…
15 янв '12 в 19:37
1
ответ
Node.io, JSDOM или PhantomJs? или YQL- data.html.cssselect?
Мне нужно сканировать определенный веб-сайт, чтобы выкопать некоторую соответствующую информацию. Похоже, сначала мне нужно поискать на сайте, чтобы получить соответствующие URL, которые при сканировании дадут мне подробную информацию. Предположим, …
24 ноя '12 в 09:50
1
ответ
Как извлечь URL, на котором сейчас находится мой сканер?
Я делаю веб-сканер с использованием Scrapy Framework в Python. Основная идея заключается в том, что сканер извлекает некоторые данные со страницы, если данные соответствуют некоторым критериям, сканер должен извлечь URL-адрес, на котором он находитс…
27 ноя '16 в 00:31
3
ответа
Почему я не могу скачать MIDI-файл с запросами Python?
Я пытаюсь скачать серию миди-файлов классической музыки с питоном и библиотекой запросов. К сожалению, я не могу загрузить файлы midi. Единственное, что я скачиваю, это файлы HTML. Я искал SO и пробовал некоторые другие решения, такие как этот пост …
01 сен '18 в 03:58
0
ответов
Websphinx - Crawling Java
Я загрузил исходные файлы http://www.cs.cmu.edu/~rcm/websphinx/ и импортировал проект в eclipse, чтобы создать свой сканер. Проблема заключается в поддержке библиотек, а именно:gd, graph и symatec; Я получаю ошибки импорта этих библиотек! как я могу…
20 май '13 в 10:37
1
ответ
Знаете ли вы бот LTX71? Что это делает? Это спам?
Есть бот / паук, который очень быстро сканирует мои сайты. Используемым агентом является 'ltx71 - ( http://ltx71.com/)', и у него есть сервал ips: 52.3.127.144 и 52.3.105.23 На сайте написано так: LTX71 Мы постоянно сканируем интернет в целях исслед…
24 июл '16 в 21:44
2
ответа
Как скрести все URL изображения и alt тег в нем с помощью scrapy
Моя цель - сканировать URL-адреса изображений и теги alt изображений с помощью scrapy . Я пробовал много комбинаций, но все еще не достиг этого. Вот что я пробовал def parse_item(self, response): sel = Selector(response) item = imageItem() item['cra…
02 май '14 в 13:26
1
ответ
pagination - xpath для сканера в питоне
На самом деле я работаю над сканером, использующим scrapy в python, и я почти закончил, у меня просто небольшая проблема. Сайт, использующий нумерацию страниц: <div class="pagination toolbarbloc"> <ul> <li class="active"><span&g…
11 сен '17 в 05:03
2
ответа
Почему регулярное выражение Python не соответствует (?=) Здесь?
Я пытаюсь получить информацию об авторе с сайта "pixiv". Код здесь с сайта: <meta property="og:title" content="ラララ | かるは [pixiv]"> Я хочу получить это "かるは", и я использую регулярное выражение: [\u0800-\u9fa5_a-zA-Z0-9_]+(?=\s\[pixiv\]) Тем не…
09 июл '15 в 03:01
4
ответа
Получить div вокруг искомого ключевого слова (file_get_contents('url')
Так что я создаю веб-сканер, и все работает, только 1 проблема. С file_get_contents($page_data["url"]); Я получаю содержание веб-страницы. Эта веб-страница сканируется, когда на ней присутствует одно из моих ключевых слов. $find = $keywords; $str = …
09 сен '10 в 11:52
2
ответа
Любая возможность сканировать открытые данные веб-браузера с помощью апертуры
Я знаю о сайте сканирования с помощью Aperture. если я открою http://demo.crawljax.com/ в веб-браузере mozila. Как можно сканировать открытый контент браузера с помощью Aperture. Шаги: 1. Откройте http://demo.crawljax.com/ на своем браузере Mozila. …
22 янв '15 в 09:30
1
ответ
Как решить разные URL вперед на той же странице в приложении веб-робота
У меня проблема с приложением веб-робота. URL: http://www.domain.com/path?id=1 URL b: http://www.domain.com/path?id=1&sessionid;=XXXXXX там два URL и перенаправить на одно и то же приложение page.robot скачать страницу дважды. в моем приложении-робо…
19 май '13 в 14:54
1
ответ
Google не индексирует URL AJAX
Я отправил в Google карту сайта для своего веб-приложения AJAX с помощью Инструментов для веб-мастеров. Отправленные URL-адреса имеют вид: http://www.mysite.com/#!myscreen;id=object-id http://www.mysite.com/#!myotherscreen;id=another-id Однако, несм…
31 июл '13 в 08:57
0
ответов
python_" .txt" файлы не могут быть созданы
Файлы " .txt " не могут быть созданы. Код был создан, но файл не создан. Мне посоветовали использовать "маринованные". Но я не знаю, как использовать "рассол". Как я могу использовать этот код, чтобы сохранить его в виде файла Кроме того, я хотел бы…
22 апр '17 в 02:28
1
ответ
Scrapy: ползать угловые ссылки?
Я использую selenium-webdriver для рендеринга javascript для сканера scrapy, но не похоже, что ссылки angularjs 'ng-href' сканируются. Скрипт сканирует ссылки 'ng-href'? Если нет, как я могу заставить его сканировать ссылки 'ng-href'? from scrapy.se…
08 янв '15 в 00:37
1
ответ
Есть ли законная причина, по которой Amazon пробует / админ
Из моих необработанных журналов сервера я нашел эти: 52.42.136.103 02 / авг /2016:17:58:12 GET / Администратор / 54.234.186.225 03/ авг /2016:16:48:55 GET / Администратор / 54.149.57.2 04/Aug/2016:18:40:55 GET / Администратор / 52.40.119.32 06/ Авг …
31 авг '16 в 05:12
0
ответов
Обнаружена ошибка при загрузке Apache Solr
Я пытаюсь использовать Sparkler: Crawler на Apache Spark. Я начну с требований по этой ссылке: https://github.com/uscdataScience/sparkler/wiki/sparkler-0.1#requirements Первым шагом была загрузка Apache Solr. Итак, когда я использую эту команду: cp …
22 июл '17 в 16:48