Описание тега stormcrawler

Описание тега Вопросы с тегом

StormCrawler - это проект с открытым исходным кодом, предоставляющий набор ресурсов для создания масштабируемых веб-сканеров с малой задержкой на основе Apache Storm.

1 ответ

Как изменить начальные, последующие и запрещенные URL-адреса для StormCrawler на лету

Я довольно новичок в StormCrawler, делаю свою первую реализацию веб-сканера, и я до сих пор очень доволен этим продуктом! Я использую StormCrawler v1.5.1 с Elastic 5.5.1 и настраиваю свою топологию на основе предоставленного "ESCrawlTopology.java". …

08 авг '17 в 09:12

0 ответов

Как изменить уровень журнала на DEBUG в Stormcrawler SDK?

Я вижу, что SLF4J используется для регистрации записей во время выполнения компонентов stormcrawler. Однако я не могу найти файл, содержащий конфигурацию, используемую для ведения журнала SLF4J. Нужен ли отдельный файл конфигурации для включения вед…

java slf4j apache-storm stormcrawler

17 сен '18 в 08:23

1 ответ

Пользовательский файл parsefilter.json не найден при запуске StormCrawler из Eclipse

Я хотел сообщить, что я изучал StormCrawler SDK для извлечения ответа HTML. Я знаю, что JSoupParserBolt использует файл parsefilter.json для извлечения ответа в соответствии с конкретной потребностью. Я также знаю, что для этой же цели существует фа…

web-crawler apache-storm stormcrawler

20 мар '18 в 06:27

1 ответ

Сканирование и индексация Storm-crawler

Я работал с Nutch 1x для сканирования веб-сайтов и использования Elasticsearch для индексации данных. Я недавно сталкивался с Storm-crawler и мне это нравится, особенно его потоковая природа. Нужно ли инициировать и создавать сопоставления для моего…

elasticsearch web-crawler nutch stormcrawler

31 май '17 в 20:07

0 ответов

Ошибка при сканировании через произвольный промежуток времени

Итак, у меня есть два класса, ответственных за заполнение (Injecting Urls) и ползание. Класс ESSeedInjector: public class ESSeedInjector extends ConfigurableTopology { public static void main(String[] args) { ConfigurableTopology.start(new ESSeedInj…

elasticsearch stormcrawler

16 мар '18 в 14:33

1 ответ

Stormcrawler не извлекает / не индексирует страницы для поиска в поиске

Я использую Stormcrawler с примером Elasticsearch, и страницы не отображаются с FETCHED статус в Кибане при сканировании веб-страницы http://books.toscrape.com/ Все еще на консоли веб-страницы, кажется, извлекаются и анализируются 48239 [Thread-26-f…

elasticsearch web-crawler apache-storm stormcrawler

05 апр '18 в 14:29

0 ответов

Развертывание StormCrawler /StormTopology на удаленном кластере: ошибка сети при получении Nimbus Leader

Я хотел развернуть топологию StormCrawler на удаленном сервере с помощью команды storm jar target/spikeStormCrawler-1.0-SNAPSHOT.jar org.apache.storm.flux.Flux --remote es-crawler.flux --filter prod.properties -c 'nimbus.seeds=["172.18.20.118"]' Дел…

java apache-storm stormcrawler

09 май '18 в 14:02

1 ответ

Stormcrawler: Apache Tika для анализа свойств PDF

Я добавил Tika в качестве ссылки на мою реализацию StormCrawler, и это позволяет извлекать документы PDF в сканере. Но заголовок, авторы и другие свойства не анализируются. Я попытался с различными комбинациями к index.md.mapping: и добавил соответс…

web-crawler apache-tika stormcrawler

10 май '18 в 22:57

1 ответ

Приоритизация рекурсивного сканирования в Storm Crawler

При сканировании во всемирной сети я хотел бы предоставить своему сканеру начальный начальный список URL-адресов и ожидать, что мой сканер автоматически "обнаружит" новые исходные URL-адреса из Интернета во время сканирования. Я вижу такую опцию в…

web-crawler nutch stormcrawler

13 окт '16 в 10:43

1 ответ

Как сканировать документы (.pdf, .docx и т. Д.) С помощью Storm Crawler

Я использую Storm Crawler 1.10. Я пытаюсь включить Crawler для сканирования документов тоже. Я добавил анализатор тики, основанный на некоторых исследованиях, но сканер не захватил URL-адреса .pdf. Когда я применяю тика функции, ползает новая строка…

web-crawler stormcrawler

18 окт '18 в 13:37

1 ответ

Скажите StormCrawler об удалении страниц из ES-индекса после их удаления на сервере

У меня есть следующий сценарий: StormCrawler сканирует существующую страницу StormCrawler добавляет соответствующий документ в индекс Elasticsearch Страница удалена на сервере => Сканер "обнаруживает" удаление страницы путем обновления индекса состо…

web-crawler stormcrawler

15 мар '17 в 12:49

1 ответ

Явные специальные символы от сканирования

Работа над Storm Crawler 1.13 и упругий поиск 6.5.2. Как ограничить сканер, чтобы не сканировать / индексировать специальные символы � � � � � �� •

web-crawler stormcrawler

08 янв '19 в 16:37

1 ответ

Stormcrawler не индексирует контент с помощью Elasticsearch

При использовании Stormcrawler он индексирует Elasticsearch, но не его содержимое. Stormcrawler обновлен до версии "origin / master" https://github.com/DigitalPebble/storm-crawler.git Использование asticsearch-5.6.4 crawler-conf.yaml имеет indexer.u…

web-crawler stormcrawler

10 ноя '17 в 00:43

1 ответ

Автоматическое удаление извлеченных записей при возникновении ошибки Fetch_Error

Работая над Storm Crawler 1.13, он успешно запустил сканер на веб-сайте, и одна из страниц была удалена на веб-сайте, а в соответствии с crawler-conf при следующем повторном посещении индекс состояния обновляется как FETCH_ERROR для отсутствующего U…

web-crawler stormcrawler

16 янв '19 в 21:22

2 ответа

StormCrawler вызывает остановку из-за ошибки нехватки памяти

Работа на штормовом гусеничном ходу 1.13 и упругий поиск 6.5.2. Ниже моя конфигурация гусеничного хода. Я сканирую веб-сайт с миллионами документов. Crawler не выдает никаких ошибок, если я выполняю сканирование по конкретному домену, применяя fast.…

web-crawler stormcrawler

23 янв '19 в 22:32

1 ответ

Настройка нового потока для Warc Bolt не удалась

Я пытаюсь настроить новый поток для соединения болта Тика с болтом варка. import com.digitalpebble.stormcrawler.tika.ParserBolt; import com.digitalpebble.stormcrawler.warc.WARCHdfsBolt; builder.setBolt("tika", new ParserBolt(), numWorkers) .localOrS…

web-crawler stormcrawler

15 июн '17 в 22:26

2 ответа

StormCrawler переходит с 1.6 на 1.8

Я сталкиваюсь со следующей ошибкой при попытке перейти на SC 1.8 (я был на 1.6 раньше). Я установил Storm 1.2.1, ES 6.2.2 в соответствии с рекомендациями, адаптировал конфигурацию ES и топологию семенного инжектора ES. Однако, когда я запускаю его, …

web-crawler stormcrawler

18 апр '18 в 07:36

1 ответ

Обработка перенаправлений в Storm-Crawler

С SC, я должен быть в состоянии следовать перенаправлениям, не испуская исходящие ссылки? Должен ли перенаправленный URL быть вставлен в мой бэкэнд как "ОТКРЫТЫЙ" или нет? Кажется, не из моих небольших экспериментов со следующей настройкой: crawler.…

web-crawler stormcrawler

18 май '18 в 14:11

1 ответ

StormCrawler: лучшая топология для кластера

Я использую stormcrawler для сканирования 40k сайтов, с max_depth=2, и я хочу сделать это как можно быстрее. У меня 5 штормовых узлов (с разными статическими ips) и 3 упругих узла. На данный момент моя лучшая топология: spouts: - id: "spout" classNa…

web-crawler stormcrawler

29 май '18 в 12:04

0 ответов

Управление Stormcrawler через REST

Я хочу управлять StormCrawler извне через вызовы REST Функциональность должна быть такой: Я могу сказать через REST, что он должен начать обход N доменов параллельно. Процесс будет таким, что первые N доменов будут взяты с веб-ресурса через REST Зат…

rest elasticsearch web-crawler apache-storm stormcrawler

24 апр '18 в 10:15