Описание тега stormcrawler
StormCrawler - это проект с открытым исходным кодом, предоставляющий набор ресурсов для создания масштабируемых веб-сканеров с малой задержкой на основе Apache Storm.
1
ответ
Как изменить начальные, последующие и запрещенные URL-адреса для StormCrawler на лету
Я довольно новичок в StormCrawler, делаю свою первую реализацию веб-сканера, и я до сих пор очень доволен этим продуктом! Я использую StormCrawler v1.5.1 с Elastic 5.5.1 и настраиваю свою топологию на основе предоставленного "ESCrawlTopology.java". …
08 авг '17 в 09:12
0
ответов
Как изменить уровень журнала на DEBUG в Stormcrawler SDK?
Я вижу, что SLF4J используется для регистрации записей во время выполнения компонентов stormcrawler. Однако я не могу найти файл, содержащий конфигурацию, используемую для ведения журнала SLF4J. Нужен ли отдельный файл конфигурации для включения вед…
17 сен '18 в 08:23
1
ответ
Пользовательский файл parsefilter.json не найден при запуске StormCrawler из Eclipse
Я хотел сообщить, что я изучал StormCrawler SDK для извлечения ответа HTML. Я знаю, что JSoupParserBolt использует файл parsefilter.json для извлечения ответа в соответствии с конкретной потребностью. Я также знаю, что для этой же цели существует фа…
20 мар '18 в 06:27
1
ответ
Сканирование и индексация Storm-crawler
Я работал с Nutch 1x для сканирования веб-сайтов и использования Elasticsearch для индексации данных. Я недавно сталкивался с Storm-crawler и мне это нравится, особенно его потоковая природа. Нужно ли инициировать и создавать сопоставления для моего…
31 май '17 в 20:07
0
ответов
Ошибка при сканировании через произвольный промежуток времени
Итак, у меня есть два класса, ответственных за заполнение (Injecting Urls) и ползание. Класс ESSeedInjector: public class ESSeedInjector extends ConfigurableTopology { public static void main(String[] args) { ConfigurableTopology.start(new ESSeedInj…
16 мар '18 в 14:33
1
ответ
Stormcrawler не извлекает / не индексирует страницы для поиска в поиске
Я использую Stormcrawler с примером Elasticsearch, и страницы не отображаются с FETCHED статус в Кибане при сканировании веб-страницы http://books.toscrape.com/ Все еще на консоли веб-страницы, кажется, извлекаются и анализируются 48239 [Thread-26-f…
05 апр '18 в 14:29
0
ответов
Развертывание StormCrawler /StormTopology на удаленном кластере: ошибка сети при получении Nimbus Leader
Я хотел развернуть топологию StormCrawler на удаленном сервере с помощью команды storm jar target/spikeStormCrawler-1.0-SNAPSHOT.jar org.apache.storm.flux.Flux --remote es-crawler.flux --filter prod.properties -c 'nimbus.seeds=["172.18.20.118"]' Дел…
09 май '18 в 14:02
1
ответ
Stormcrawler: Apache Tika для анализа свойств PDF
Я добавил Tika в качестве ссылки на мою реализацию StormCrawler, и это позволяет извлекать документы PDF в сканере. Но заголовок, авторы и другие свойства не анализируются. Я попытался с различными комбинациями к index.md.mapping: и добавил соответс…
10 май '18 в 22:57
1
ответ
Приоритизация рекурсивного сканирования в Storm Crawler
При сканировании во всемирной сети я хотел бы предоставить своему сканеру начальный начальный список URL-адресов и ожидать, что мой сканер автоматически "обнаружит" новые исходные URL-адреса из Интернета во время сканирования. Я вижу такую опцию в…
13 окт '16 в 10:43
1
ответ
Как сканировать документы (.pdf, .docx и т. Д.) С помощью Storm Crawler
Я использую Storm Crawler 1.10. Я пытаюсь включить Crawler для сканирования документов тоже. Я добавил анализатор тики, основанный на некоторых исследованиях, но сканер не захватил URL-адреса .pdf. Когда я применяю тика функции, ползает новая строка…
18 окт '18 в 13:37
1
ответ
Скажите StormCrawler об удалении страниц из ES-индекса после их удаления на сервере
У меня есть следующий сценарий: StormCrawler сканирует существующую страницу StormCrawler добавляет соответствующий документ в индекс Elasticsearch Страница удалена на сервере => Сканер "обнаруживает" удаление страницы путем обновления индекса состо…
15 мар '17 в 12:49
1
ответ
Явные специальные символы от сканирования
Работа над Storm Crawler 1.13 и упругий поиск 6.5.2. Как ограничить сканер, чтобы не сканировать / индексировать специальные символы � � � � � ��� �� � •
08 янв '19 в 16:37
1
ответ
Stormcrawler не индексирует контент с помощью Elasticsearch
При использовании Stormcrawler он индексирует Elasticsearch, но не его содержимое. Stormcrawler обновлен до версии "origin / master" https://github.com/DigitalPebble/storm-crawler.git Использование asticsearch-5.6.4 crawler-conf.yaml имеет indexer.u…
10 ноя '17 в 00:43
1
ответ
Автоматическое удаление извлеченных записей при возникновении ошибки Fetch_Error
Работая над Storm Crawler 1.13, он успешно запустил сканер на веб-сайте, и одна из страниц была удалена на веб-сайте, а в соответствии с crawler-conf при следующем повторном посещении индекс состояния обновляется как FETCH_ERROR для отсутствующего U…
16 янв '19 в 21:22
2
ответа
StormCrawler вызывает остановку из-за ошибки нехватки памяти
Работа на штормовом гусеничном ходу 1.13 и упругий поиск 6.5.2. Ниже моя конфигурация гусеничного хода. Я сканирую веб-сайт с миллионами документов. Crawler не выдает никаких ошибок, если я выполняю сканирование по конкретному домену, применяя fast.…
23 янв '19 в 22:32
1
ответ
Настройка нового потока для Warc Bolt не удалась
Я пытаюсь настроить новый поток для соединения болта Тика с болтом варка. import com.digitalpebble.stormcrawler.tika.ParserBolt; import com.digitalpebble.stormcrawler.warc.WARCHdfsBolt; builder.setBolt("tika", new ParserBolt(), numWorkers) .localOrS…
15 июн '17 в 22:26
2
ответа
StormCrawler переходит с 1.6 на 1.8
Я сталкиваюсь со следующей ошибкой при попытке перейти на SC 1.8 (я был на 1.6 раньше). Я установил Storm 1.2.1, ES 6.2.2 в соответствии с рекомендациями, адаптировал конфигурацию ES и топологию семенного инжектора ES. Однако, когда я запускаю его, …
18 апр '18 в 07:36
1
ответ
Обработка перенаправлений в Storm-Crawler
С SC, я должен быть в состоянии следовать перенаправлениям, не испуская исходящие ссылки? Должен ли перенаправленный URL быть вставлен в мой бэкэнд как "ОТКРЫТЫЙ" или нет? Кажется, не из моих небольших экспериментов со следующей настройкой: crawler.…
18 май '18 в 14:11
1
ответ
StormCrawler: лучшая топология для кластера
Я использую stormcrawler для сканирования 40k сайтов, с max_depth=2, и я хочу сделать это как можно быстрее. У меня 5 штормовых узлов (с разными статическими ips) и 3 упругих узла. На данный момент моя лучшая топология: spouts: - id: "spout" classNa…
29 май '18 в 12:04
0
ответов
Управление Stormcrawler через REST
Я хочу управлять StormCrawler извне через вызовы REST Функциональность должна быть такой: Я могу сказать через REST, что он должен начать обход N доменов параллельно. Процесс будет таким, что первые N доменов будут взяты с веб-ресурса через REST Зат…
24 апр '18 в 10:15