Описание тега heritrix

Heritrix - это веб-сканер.
1 ответ

Не удается запустить параллельные задания в Heritrix3 Web Crawler

Я создал 2 задания в Heritrix 3.2.0 и запустил оба после сборки, оба запустились, но через 15–20 секунд одно задание останавливается, а другое продолжается, и когда задание останавливается, состояние в журнале заданий выглядит следующим образом: 201…
12 май '15 в 06:51
1 ответ

Heritrix 3.2.0: Написание и добавление расширений

В настоящее время я работаю с Heritrix, и у меня есть стандартная установка (эта: http://builds.archive.org/maven2/org/archive/heritrix/heritrix/3.2.0/), и она отлично работает. Но теперь я хочу написать и добавить свои собственные расширения, напри…
07 ноя '14 в 20:59
1 ответ

Heritrix DecidingScope регулярное выражение URI

Я использую HERITRIX для сканирования сайта под названием octetfarm.com. Я хотел бы, чтобы сканер сделал регулярное выражение для URI (или URL), и если присутствует строка "octetfarm", сканер должен принять ее. Я сделал 2 правила 1 MatchesRegExpDeci…
01 окт '14 в 03:05
1 ответ

Heritrix Content Filtering

У меня есть требование агрегировать контент с нескольких разных веб-сайтов (в первую очередь, HTML-страниц и PDF-документов). В настоящее время я экспериментирую с Heritrix (3.2.0), чтобы посмотреть, будет ли он соответствовать моим потребностям. В …
14 авг '15 в 18:27
1 ответ

Понимание "типа контента" для PDF-файлов при сканировании

Используя heritrix, я просканировал сайт, который содержал несколько файлов PDF. Журнал сканирования показывает, что тип содержимого для ссылки pdf - "application/ pdf", тогда как ответ в файле.warc (вывод для сканирования) показывает, что тип содер…
29 май '14 в 11:33
1 ответ

Heritrix получает gzip CSS + JS

Когда я запускаю Heritrix, мой веб-сервер использует gzip-ресурсы JS + CSS. Это оказывается проблемой, потому что при загрузке файла.warc через Wayback он по-прежнему кодируется как gzip. Я не могу правильно просмотреть файлы.css + .js в браузере.
17 сен '13 в 19:04
1 ответ

Является ли Heritrix Crawl детерминированным?

Допустим, есть сайт abc.com, и мы сканируем abc.com на 100 страниц, как показано ниже. День 1: создайте задание сканирования в heritrix, указав maxDocumentsToDownload как 100. День 2: клонируйте указанное выше задание в heritrix и запустите. Если ве…
03 фев '16 в 07:43
3 ответа

Heritrix 3.2.x, как читать контент из файлов warc?

Используя Heritrix 3.2.x, я просканировал веб-сайт. Теперь я хочу прочитать содержимое HTML из созданных файлов warc. Кто-нибудь может помочь? Я попытался использовать Python Warc Tool и основанный на Java Warc-tools.jar.
26 авг '16 в 07:42
0 ответов

Heritrix: как получить больше URI в секунду на одном домене?

Как получить больше URI / сек на домен с Heritrix 3.2.0? я уже установил параметр параллели на максимальное число, например, maxToeThreads, и он все еще остается на 5 активных потоках при одном обходе домена в целом.
16 ноя '14 в 00:10
1 ответ

Запуск веб-паука на Java

Запустить веб паук на Виндовс 8.1 64-битный. Старался не подключать дополнительные библиотеки, и в итоге вылазил на ошибку. C:\Users\I>cd c:\Users\i\Desktop\heritrix-1.14.4 c:\Users\I\Desktop\heritrix-1.14.4>cd bin c:\Users\I\Desktop\heritrix-…
08 дек '13 в 20:05
0 ответов

MirrorWriterProcessor в активных потоках Heritrix 3.2.0

Когда я использую класс MirrorWriterProcessor, я все время получаю только 1 активный поток, потому что он не принимает свойства de-outcomment, например, для увеличения максимального количества активных потоков. Я вообще не программист Java, поэтому,…
10 ноя '14 в 23:20
1 ответ

Обновление Solr из индекса Lucene

В настоящее время я работаю над проектом веб-архивирования. По сути, мы пытаемся архивировать коллекцию веб-сайтов (используя heritrix crawler) и предоставлять доступ к заархивированному контенту через веб-интерфейс. Мы также предлагаем полнотекстов…
27 мар '12 в 13:09
1 ответ

Как перебрать файлы WARC с помощью HeaderedArchiveRecord с Heritrix 3.1

Я использую библиотеку Heritrix 3.1 Java. Просто для ясности, я не заинтересован в сканировании, а только в обработке данных из сжатых файлов WARC (*.warc.gz), созданных другой группой. Для каждого WWW-документа, хранящегося в файле WARC, мне нужна …
09 фев '14 в 20:36
1 ответ

Как исключить все, кроме ссылок / исходящих ссылок, из сканирования heritrix?

Я работаю с Heritrix, и я немного застрял в управлении выходом. Я изучаю PageRank и мне нужно, чтобы Heritrix сгенерировал файл, к которому можно применить алгоритм ранжирования. Файл, который мне нужен, будет иметь только ссылки и ссылки для каждой…
25 июл '13 в 12:24
1 ответ

Найти веб-трассировку для веб-списка в Heritrix

Недавно я работал с веб-сканером Heritrix в моей компании, где я работаю, и через некоторое время я ищу и тестирую его, но не могу найти, как решить нашу проблему. Мы хотим запускать heritrix автоматически в cron каждый день, чтобы сканировать списо…
26 окт '15 в 12:21
1 ответ

Невозможно запустить работу Heritrix

Я новичок в Heritrix 3.1.1. Я получаю сообщение об ошибке, когда запускаю работу после запуска Heritrix. Моя конфигурация работы: metadata.operatorContactUrl = "HTTP:// локальный" metadata.jobName = базовая metadata.description= Базовый обход, начин…
11 апр '13 в 10:18
2 ответа

Nutch против Heritrix против Stormcrawler против MegaIndex против Mixnode

Нам нужно сканировать большое количество (~1,5 миллиарда) веб-страниц каждые две недели. Скорость, а значит и стоимость, являются для нас огромным фактором, так как наши первоначальные попытки обошлись нам в 20 тысяч долларов. Есть ли данные о том, …
10 окт '17 в 18:41
0 ответов

Чтение из файла дуги (набор данных commoncrawl) с помощью ARCReader

Ну, этот вопрос может показаться глупым, но я проводил исследования, как часы, чтобы найти решение, но я не мог, если кто-то знает, это было бы здорово!!! Я успешно прочитал файл дуги (из набора данных commoncrawl). С arcHeader.getUrl(); Я получаю в…
15 ноя '12 в 21:52
1 ответ

Heritrix: как исключить из зеркалирования все, кроме pdf?

Я нашел эту тему Как исключить все, кроме text/html из сканирования heritrix? Я изменил боб на это <property name="shouldProcessRule"> <bean class="org.archive.modules.deciderules.ContentTypeMatchesRegexDecideRule"> <property name="de…
25 ноя '12 в 10:50
1 ответ

Увеличение количества потоков

Я пытаюсь сканировать страницы из одного конкретного домена, используя Heritrix. Скорость сканирования кажется очень низкой. И одна вещь, которую я замечаю, это то, что, хотя есть 25 потоков, 24 из них всегда бездействуют. Кажется, есть только один …
13 сен '15 в 17:21