Описание тега heritrix
Heritrix - это веб-сканер.
1
ответ
Не удается запустить параллельные задания в Heritrix3 Web Crawler
Я создал 2 задания в Heritrix 3.2.0 и запустил оба после сборки, оба запустились, но через 15–20 секунд одно задание останавливается, а другое продолжается, и когда задание останавливается, состояние в журнале заданий выглядит следующим образом: 201…
12 май '15 в 06:51
1
ответ
Heritrix 3.2.0: Написание и добавление расширений
В настоящее время я работаю с Heritrix, и у меня есть стандартная установка (эта: http://builds.archive.org/maven2/org/archive/heritrix/heritrix/3.2.0/), и она отлично работает. Но теперь я хочу написать и добавить свои собственные расширения, напри…
07 ноя '14 в 20:59
1
ответ
Heritrix DecidingScope регулярное выражение URI
Я использую HERITRIX для сканирования сайта под названием octetfarm.com. Я хотел бы, чтобы сканер сделал регулярное выражение для URI (или URL), и если присутствует строка "octetfarm", сканер должен принять ее. Я сделал 2 правила 1 MatchesRegExpDeci…
01 окт '14 в 03:05
1
ответ
Heritrix Content Filtering
У меня есть требование агрегировать контент с нескольких разных веб-сайтов (в первую очередь, HTML-страниц и PDF-документов). В настоящее время я экспериментирую с Heritrix (3.2.0), чтобы посмотреть, будет ли он соответствовать моим потребностям. В …
14 авг '15 в 18:27
1
ответ
Понимание "типа контента" для PDF-файлов при сканировании
Используя heritrix, я просканировал сайт, который содержал несколько файлов PDF. Журнал сканирования показывает, что тип содержимого для ссылки pdf - "application/ pdf", тогда как ответ в файле.warc (вывод для сканирования) показывает, что тип содер…
29 май '14 в 11:33
1
ответ
Heritrix получает gzip CSS + JS
Когда я запускаю Heritrix, мой веб-сервер использует gzip-ресурсы JS + CSS. Это оказывается проблемой, потому что при загрузке файла.warc через Wayback он по-прежнему кодируется как gzip. Я не могу правильно просмотреть файлы.css + .js в браузере.
17 сен '13 в 19:04
1
ответ
Является ли Heritrix Crawl детерминированным?
Допустим, есть сайт abc.com, и мы сканируем abc.com на 100 страниц, как показано ниже. День 1: создайте задание сканирования в heritrix, указав maxDocumentsToDownload как 100. День 2: клонируйте указанное выше задание в heritrix и запустите. Если ве…
03 фев '16 в 07:43
3
ответа
Heritrix 3.2.x, как читать контент из файлов warc?
Используя Heritrix 3.2.x, я просканировал веб-сайт. Теперь я хочу прочитать содержимое HTML из созданных файлов warc. Кто-нибудь может помочь? Я попытался использовать Python Warc Tool и основанный на Java Warc-tools.jar.
26 авг '16 в 07:42
0
ответов
Heritrix: как получить больше URI в секунду на одном домене?
Как получить больше URI / сек на домен с Heritrix 3.2.0? я уже установил параметр параллели на максимальное число, например, maxToeThreads, и он все еще остается на 5 активных потоках при одном обходе домена в целом.
16 ноя '14 в 00:10
1
ответ
Запуск веб-паука на Java
Запустить веб паук на Виндовс 8.1 64-битный. Старался не подключать дополнительные библиотеки, и в итоге вылазил на ошибку. C:\Users\I>cd c:\Users\i\Desktop\heritrix-1.14.4 c:\Users\I\Desktop\heritrix-1.14.4>cd bin c:\Users\I\Desktop\heritrix-…
08 дек '13 в 20:05
0
ответов
MirrorWriterProcessor в активных потоках Heritrix 3.2.0
Когда я использую класс MirrorWriterProcessor, я все время получаю только 1 активный поток, потому что он не принимает свойства de-outcomment, например, для увеличения максимального количества активных потоков. Я вообще не программист Java, поэтому,…
10 ноя '14 в 23:20
1
ответ
Обновление Solr из индекса Lucene
В настоящее время я работаю над проектом веб-архивирования. По сути, мы пытаемся архивировать коллекцию веб-сайтов (используя heritrix crawler) и предоставлять доступ к заархивированному контенту через веб-интерфейс. Мы также предлагаем полнотекстов…
27 мар '12 в 13:09
1
ответ
Как перебрать файлы WARC с помощью HeaderedArchiveRecord с Heritrix 3.1
Я использую библиотеку Heritrix 3.1 Java. Просто для ясности, я не заинтересован в сканировании, а только в обработке данных из сжатых файлов WARC (*.warc.gz), созданных другой группой. Для каждого WWW-документа, хранящегося в файле WARC, мне нужна …
09 фев '14 в 20:36
1
ответ
Как исключить все, кроме ссылок / исходящих ссылок, из сканирования heritrix?
Я работаю с Heritrix, и я немного застрял в управлении выходом. Я изучаю PageRank и мне нужно, чтобы Heritrix сгенерировал файл, к которому можно применить алгоритм ранжирования. Файл, который мне нужен, будет иметь только ссылки и ссылки для каждой…
25 июл '13 в 12:24
1
ответ
Найти веб-трассировку для веб-списка в Heritrix
Недавно я работал с веб-сканером Heritrix в моей компании, где я работаю, и через некоторое время я ищу и тестирую его, но не могу найти, как решить нашу проблему. Мы хотим запускать heritrix автоматически в cron каждый день, чтобы сканировать списо…
26 окт '15 в 12:21
1
ответ
Невозможно запустить работу Heritrix
Я новичок в Heritrix 3.1.1. Я получаю сообщение об ошибке, когда запускаю работу после запуска Heritrix. Моя конфигурация работы: metadata.operatorContactUrl = "HTTP:// локальный" metadata.jobName = базовая metadata.description= Базовый обход, начин…
11 апр '13 в 10:18
2
ответа
Nutch против Heritrix против Stormcrawler против MegaIndex против Mixnode
Нам нужно сканировать большое количество (~1,5 миллиарда) веб-страниц каждые две недели. Скорость, а значит и стоимость, являются для нас огромным фактором, так как наши первоначальные попытки обошлись нам в 20 тысяч долларов. Есть ли данные о том, …
10 окт '17 в 18:41
0
ответов
Чтение из файла дуги (набор данных commoncrawl) с помощью ARCReader
Ну, этот вопрос может показаться глупым, но я проводил исследования, как часы, чтобы найти решение, но я не мог, если кто-то знает, это было бы здорово!!! Я успешно прочитал файл дуги (из набора данных commoncrawl). С arcHeader.getUrl(); Я получаю в…
15 ноя '12 в 21:52
1
ответ
Heritrix: как исключить из зеркалирования все, кроме pdf?
Я нашел эту тему Как исключить все, кроме text/html из сканирования heritrix? Я изменил боб на это <property name="shouldProcessRule"> <bean class="org.archive.modules.deciderules.ContentTypeMatchesRegexDecideRule"> <property name="de…
25 ноя '12 в 10:50
1
ответ
Увеличение количества потоков
Я пытаюсь сканировать страницы из одного конкретного домена, используя Heritrix. Скорость сканирования кажется очень низкой. И одна вещь, которую я замечаю, это то, что, хотя есть 25 потоков, 24 из них всегда бездействуют. Кажется, есть только один …
13 сен '15 в 17:21