Описание тега crawler4j
Crawler4j is an open source Java web crawler.
1
ответ
Crawler4J null, при обработке (ссылка) ошибка
У меня есть небольшой проект, который я пытаюсь отсканировать на несколько миллионов страниц, используя crawler4j 4.1 (у меня нет определенной оценки числа). Я использую пример BasicCrawler только внес некоторые незначительные изменения в него. Чере…
16 мар '16 в 22:43
1
ответ
Crawler4j - NoSuchMethod getOutgoingUrls()
Я пытаюсь настроить craweler4j. Я строю это из источника в Netbeans. Я использую версию crawler4j версии 3.5, и классы вызовов такие же, как и те, которые когда-то были представлены на сайте (для удобства воспроизведения ниже) public class MyCrawler…
17 ноя '14 в 12:04
2
ответа
Может ли Crawler4j получать контент сайта?
Я очень новичок в Java. Теперь я хочу получить содержимое новостной статьи с помощью поиска новостей Google - ключевое слово: "игрушка" со страницы 1 до страницы 10. https://www.google.com/search?q=toy&biw;=1366&bih;=645&tbm;=nws&source;=lnms&sa;=X&…
11 сен '16 в 20:44
1
ответ
crawler4j для сканирования списка URL-адресов без сканирования всего веб-сайта
У меня есть список веб-URL, которые нужно сканировать. Возможно ли сканировать только список веб-страниц без глубокого сканирования. Если я добавлю URL в качестве семени, он будет сканировать весь веб-сайт с полной глубиной.
10 авг '12 в 12:38
1
ответ
Почему Crawler4j неблокирующий метод не ожидает ссылки в очереди?
Учитывая этот простой код: CrawlConfig config = new CrawlConfig(); config.setMaxDepthOfCrawling(1); config.setPolitenessDelay(1000); config.setResumableCrawling(false); config.setIncludeBinaryContentInCrawling(false); config.setCrawlStorageFolder(Co…
03 фев '16 в 18:58
2
ответа
Ограничение URL-адресов только для начального домена URL crawler4j
Я хочу, чтобы crawler4j посещал страницы таким образом, чтобы они принадлежали домену только в семенах. Там несколько доменов в семени. Как мне это сделать? Предположим, я добавляю начальные URL: www.google.com www.yahoo.com www.wikipedia.com Теперь…
09 ноя '13 в 11:18
1
ответ
Веб-паук, который может сканировать AJAX-сайты
Прямо сейчас я использую Crawler4j, и я очень доволен этим - но он не может сканировать сайты, основанные на ajax. Я использовал селен один раз для другого подхода, и это прекрасно работает в сочетании с фантомами. Так есть ли способ подключить Sele…
12 ноя '15 в 15:15
1
ответ
Передача одного объекта между классами с помощью crawler4j
Я простой веб-сканер, который построен с использованием строительных блоков crawler4j. Я пытаюсь создать словарь во время сканирования моего сканера, а затем передать его моему основному (контроллеру), когда он строит и анализирует текст. Как я могу…
08 мар '16 в 16:39
0
ответов
crawler4j не работает при использовании его с TimerTask
Мы пытались использовать сканер, чтобы мы могли сканировать определенный веб-сайт через определенный промежуток времени. Для этого мы пытаемся включить сканер в таймер. Но после первого успешного сканирования с использованием таймера в консоли всегд…
20 ноя '14 в 07:23
0
ответов
Кварцевый планировщик + ошибка соединения http crawler4J
Я пытаюсь объединить Quartz планировщик с crawler4j. Проблема в том, что когда я выполняю код C4J в основном методе, он работает хорошо, но в кварцевом методе Job execute() возникает ошибка соединения Http. Мы работаем за прокси, но он уже настроен …
05 фев '14 в 13:25
1
ответ
Как запустить crawler4j.jar с файлами MyCrawler.java Controller.java
Я новичок в сканерах и хочу запустить свою первую программу для сканеров. У меня три файла Crawler4j.jar Mycrawler.java Controller.java, когда я ввожу javac -cp crawler4j-3.1.jar MyCrawler.java Controller.java в терминале, я получаю следующие ошибки…
19 янв '13 в 10:38
1
ответ
Crawler4J не обнаруживает кодирование с помощью Tika с помощью sbt-сборки в FatJar
Использование Crawler4j в консоли SBT работает. При использовании sbt-Assembly для создания фиджара Тика (?) Больше не может определять кодировку страниц при запуске с java -jar crawler.jar Чего не хватает Тике, чтобы обнаружить кодировку? ERROR edu…
23 май '17 в 14:10
2
ответа
Crawler4j отсутствует исходящие ссылки?
Я пытаюсь сканировать списки рассылки Apache, чтобы получить все заархивированные сообщения, используя Crawler4j. Я указал исходный URL и пытаюсь получить ссылки на другие сообщения. Тем не менее, кажется, что не все ссылки извлекаются. Ниже приведе…
07 фев '14 в 08:02
0
ответов
Crawler4j с аутентификацией
Я пытаюсь выполнить crawler4j в личном Redmine для целей тестирования. Я хочу аутентифицировать и сканировать несколько уровней глубины в приложении. Я следую этому руководству из FAQ crawler4j. И создайте следующий фрагмент: import edu.uci.ics.craw…
28 май '15 в 14:42
1
ответ
Почему этот объект env продолжает расти в размере?
Я работаю над веб-сканером уже некоторое время, идея проста, у меня есть таблица SQL, содержащая список веб-сайтов, у меня много потоков, которые выбирают первый веб-сайт из таблицы и удаляют его, а затем сканируют (в куча как манера). Код слишком д…
27 июл '15 в 23:25
0
ответов
Сканер, как получить данные со страницы, которая загружается при прокрутке вниз?
Я использую сканер npm в своем приложении, чтобы получить все изображения с веб-сайта с определенным тегом, но веб-сайт загружает только 40 изображений в начале, и при прокрутке вниз он загружает еще 40 и еще 40, общее количество составляет около 26…
11 фев '19 в 08:03
1
ответ
Crawler4j загрузка статей
Я пытаюсь загрузить статьи с новостных порталов, используя Crawler4j. Я хотел бы хранить их в папках под категориями "спорт", "наука", "здоровье" или любой другой, созданный этим порталом. Разбор URL недостаточен, так как некоторые порталы не исполь…
21 апр '15 в 12:07
0
ответов
Как я могу использовать crawler4j для выполнения и извлечения событий ajax (на основе JavaScript) с веб-сайта?
Я использую crawler4j для получения и сканирования данных веб-сайтов, и это хорошо... Но проблема в том, что я не могу получить и обработать ajax им, я слышал о некоторой библиотеке для сканирования, которая называется crawljax, которая может это сд…
01 мар '19 в 22:56
0
ответов
Как отправить данные crawler4j в CrawlerManager?
Я работаю с проектом, где пользователь может искать на некоторых веб-сайтах и искать фотографии, которые имеют уникальный идентификатор. public class ImageCrawler extends WebCrawler { private static final Pattern filters = Pattern.compile( ".*(\\.…
22 ноя '18 в 12:44
0
ответов
Использование Crawler4j для печати Arraylist в файл HTML?
Основы этой программы; Запускает веб-сканер на основе PerentUrl и Keyword, указанных пользователем в Controller (main). Если ключевое слово найдено в тексте страницы, URL-адрес сохраняется в списке массивов; ArrayList UrlHits = new ArrayList (); Пос…
13 мар '14 в 17:35