Описание тега crawler4j

Crawler4j is an open source Java web crawler.
1 ответ

Crawler4J null, при обработке (ссылка) ошибка

У меня есть небольшой проект, который я пытаюсь отсканировать на несколько миллионов страниц, используя crawler4j 4.1 (у меня нет определенной оценки числа). Я использую пример BasicCrawler только внес некоторые незначительные изменения в него. Чере…
16 мар '16 в 22:43
1 ответ

Crawler4j - NoSuchMethod getOutgoingUrls()

Я пытаюсь настроить craweler4j. Я строю это из источника в Netbeans. Я использую версию crawler4j версии 3.5, и классы вызовов такие же, как и те, которые когда-то были представлены на сайте (для удобства воспроизведения ниже) public class MyCrawler…
17 ноя '14 в 12:04
2 ответа

Может ли Crawler4j получать контент сайта?

Я очень новичок в Java. Теперь я хочу получить содержимое новостной статьи с помощью поиска новостей Google - ключевое слово: "игрушка" со страницы 1 до страницы 10. https://www.google.com/search?q=toy&biw;=1366&bih;=645&tbm;=nws&source;=lnms&sa;=X&…
11 сен '16 в 20:44
1 ответ

crawler4j для сканирования списка URL-адресов без сканирования всего веб-сайта

У меня есть список веб-URL, которые нужно сканировать. Возможно ли сканировать только список веб-страниц без глубокого сканирования. Если я добавлю URL в качестве семени, он будет сканировать весь веб-сайт с полной глубиной.
10 авг '12 в 12:38
1 ответ

Почему Crawler4j неблокирующий метод не ожидает ссылки в очереди?

Учитывая этот простой код: CrawlConfig config = new CrawlConfig(); config.setMaxDepthOfCrawling(1); config.setPolitenessDelay(1000); config.setResumableCrawling(false); config.setIncludeBinaryContentInCrawling(false); config.setCrawlStorageFolder(Co…
03 фев '16 в 18:58
2 ответа

Ограничение URL-адресов только для начального домена URL crawler4j

Я хочу, чтобы crawler4j посещал страницы таким образом, чтобы они принадлежали домену только в семенах. Там несколько доменов в семени. Как мне это сделать? Предположим, я добавляю начальные URL: www.google.com www.yahoo.com www.wikipedia.com Теперь…
09 ноя '13 в 11:18
1 ответ

Веб-паук, который может сканировать AJAX-сайты

Прямо сейчас я использую Crawler4j, и я очень доволен этим - но он не может сканировать сайты, основанные на ajax. Я использовал селен один раз для другого подхода, и это прекрасно работает в сочетании с фантомами. Так есть ли способ подключить Sele…
12 ноя '15 в 15:15
1 ответ

Передача одного объекта между классами с помощью crawler4j

Я простой веб-сканер, который построен с использованием строительных блоков crawler4j. Я пытаюсь создать словарь во время сканирования моего сканера, а затем передать его моему основному (контроллеру), когда он строит и анализирует текст. Как я могу…
08 мар '16 в 16:39
0 ответов

crawler4j не работает при использовании его с TimerTask

Мы пытались использовать сканер, чтобы мы могли сканировать определенный веб-сайт через определенный промежуток времени. Для этого мы пытаемся включить сканер в таймер. Но после первого успешного сканирования с использованием таймера в консоли всегд…
20 ноя '14 в 07:23
0 ответов

Кварцевый планировщик + ошибка соединения http crawler4J

Я пытаюсь объединить Quartz планировщик с crawler4j. Проблема в том, что когда я выполняю код C4J в основном методе, он работает хорошо, но в кварцевом методе Job execute() возникает ошибка соединения Http. Мы работаем за прокси, но он уже настроен …
05 фев '14 в 13:25
1 ответ

Как запустить crawler4j.jar с файлами MyCrawler.java Controller.java

Я новичок в сканерах и хочу запустить свою первую программу для сканеров. У меня три файла Crawler4j.jar Mycrawler.java Controller.java, когда я ввожу javac -cp crawler4j-3.1.jar MyCrawler.java Controller.java в терминале, я получаю следующие ошибки…
19 янв '13 в 10:38
1 ответ

Crawler4J не обнаруживает кодирование с помощью Tika с помощью sbt-сборки в FatJar

Использование Crawler4j в консоли SBT работает. При использовании sbt-Assembly для создания фиджара Тика (?) Больше не может определять кодировку страниц при запуске с java -jar crawler.jar Чего не хватает Тике, чтобы обнаружить кодировку? ERROR edu…
23 май '17 в 14:10
2 ответа

Crawler4j отсутствует исходящие ссылки?

Я пытаюсь сканировать списки рассылки Apache, чтобы получить все заархивированные сообщения, используя Crawler4j. Я указал исходный URL и пытаюсь получить ссылки на другие сообщения. Тем не менее, кажется, что не все ссылки извлекаются. Ниже приведе…
07 фев '14 в 08:02
0 ответов

Crawler4j с аутентификацией

Я пытаюсь выполнить crawler4j в личном Redmine для целей тестирования. Я хочу аутентифицировать и сканировать несколько уровней глубины в приложении. Я следую этому руководству из FAQ crawler4j. И создайте следующий фрагмент: import edu.uci.ics.craw…
28 май '15 в 14:42
1 ответ

Почему этот объект env продолжает расти в размере?

Я работаю над веб-сканером уже некоторое время, идея проста, у меня есть таблица SQL, содержащая список веб-сайтов, у меня много потоков, которые выбирают первый веб-сайт из таблицы и удаляют его, а затем сканируют (в куча как манера). Код слишком д…
0 ответов

Сканер, как получить данные со страницы, которая загружается при прокрутке вниз?

Я использую сканер npm в своем приложении, чтобы получить все изображения с веб-сайта с определенным тегом, но веб-сайт загружает только 40 изображений в начале, и при прокрутке вниз он загружает еще 40 и еще 40, общее количество составляет около 26…
11 фев '19 в 08:03
1 ответ

Crawler4j загрузка статей

Я пытаюсь загрузить статьи с новостных порталов, используя Crawler4j. Я хотел бы хранить их в папках под категориями "спорт", "наука", "здоровье" или любой другой, созданный этим порталом. Разбор URL недостаточен, так как некоторые порталы не исполь…
21 апр '15 в 12:07
0 ответов

Как я могу использовать crawler4j для выполнения и извлечения событий ajax (на основе JavaScript) с веб-сайта?

Я использую crawler4j для получения и сканирования данных веб-сайтов, и это хорошо... Но проблема в том, что я не могу получить и обработать ajax им, я слышал о некоторой библиотеке для сканирования, которая называется crawljax, которая может это сд…
01 мар '19 в 22:56
0 ответов

Как отправить данные crawler4j в CrawlerManager?

Я работаю с проектом, где пользователь может искать на некоторых веб-сайтах и ​​искать фотографии, которые имеют уникальный идентификатор. public class ImageCrawler extends WebCrawler { private static final Pattern filters = Pattern.compile( ".*(\\.…
22 ноя '18 в 12:44
0 ответов

Использование Crawler4j для печати Arraylist в файл HTML?

Основы этой программы; Запускает веб-сканер на основе PerentUrl и Keyword, указанных пользователем в Controller (main). Если ключевое слово найдено в тексте страницы, URL-адрес сохраняется в списке массивов; ArrayList UrlHits = new ArrayList (); Пос…
13 мар '14 в 17:35