Используйте этот тег для вопроса, связанного с файлом WARC
3 ответа

Как я могу разобрать файл WARC?

Я загружаю файл ClueWeb09_English_Sample.warc с этой страницы, затем записываю данные файла warc в текстовый файл, используя указанный код следующей веб-страницы. Я хочу выполнить синтаксический анализ текстового файла до содержимого страниц в текст…
26 ноя '14 в 15:24
0 ответов

Как отобразить содержимое WARC в HTML-файл?

Допустим, я загружаю веб-страницу с ее активами (CSS, статика) в файл WARC. Как можно было бы перевести его снова в HTML? Я знаю, что мог бы прочитать содержимое HTML и отправить его через веб-сервер как HTML, но как насчет ресурсов? Я буду использо…
14 дек '18 в 10:16
0 ответов

Изменение разделителя для чтения файла в pyspark

Я пытаюсь прочитать файл.warc.gz в RDD с PySpark. Я хотел бы, чтобы разделитель представлял собой три символа новой строки, чтобы я мог прочитать каждую запись как элемент СДР, чтобы проанализировать их и использовать информацию. Прежде всего, я заи…
24 ноя '16 в 17:48
1 ответ

Сопоставление потокового паттерна с использованием Regex

Я хотел бы проанализировать большой текстовый файл, отформатированный в Warc версии 0.9. Образец такого текста здесь. Если вы посмотрите на него, вы увидите, что весь документ состоит из списка следующих записей. [Warc Headers] [HTTP Headers] [HTML …
14 янв '16 в 16:34
2 ответа

wget --warc-file - recursive, предотвращать запись отдельных файлов

Я запускаю wget для создания warc архивировать следующим образом: $ wget --warc-file=/tmp/epfl --recursive --level=1 http://www.epfl.ch/ $ l -h /tmp/epfl.warc.gz -rw-r--r-- 1 david wheel 657K Sep 2 15:18 /tmp/epfl.warc.gz $ find . ./www.epfl.ch/inde…
02 сен '16 в 13:21
0 ответов

Извлечение значений из древовидного MapPartitionsRDD

У меня есть MapPartitionsRDD links, который имеет, в терминах Python, структуру словарного типа. links.peekJson(123) res1: kw1": {"kw2": {"kw3": "a"} } links.map(_.get("kw1.kw2.kw3").getOrElse("")) res2: "a" Теперь у меня немного другая структура li…
20 ноя '18 в 16:28
1 ответ

Загрузка веб-страницы и связанных ресурсов в WARC в Python

Я заинтересован в загрузке для последующего анализа группы веб-страниц. Есть две вещи, которые я хотел бы сделать: Загрузите страницу и связанные ресурсы (изображения, несколько страниц, связанных со статьей и т. Д.) В файл WARC. измените все ссылки…
17 дек '16 в 03:37
1 ответ

Как читать.webarchive файл в Android

У меня есть такое требование. Я хочу прочитать.webarchive File. У меня есть один файл с расширением.webarchive, и я поместил этот файл в папку активов. Я хочу прочитать этот файл на веб-сайте Android. Является ли это возможным? Я гуглил и нашел каку…
28 ноя '13 в 06:15
1 ответ

Создание записи варка с ответом на запросы request.get() с использованием warcio

Я использую warcio библиотека для чтения и записи warc файлы. При попытке записать запись объекта ответа из requests.get(URL,stream=False), warcio записывает в запись только HTTP-заголовки, но не полезную нагрузку. Однако, когда потоковый режим вклю…
22 мар '18 в 12:52
0 ответов

"Поиск по шаблону исчерпан" происходит при обработке файла WARC в python3

Я пытаюсь получить простой текст из набора данных WARC ( Yahoo! Webscope L2) и продолжаю встречаться ValueError: Search for pattern exhausted когда используешь load() функция в модуле python3 warcat, Пробовал некоторые случайные файлы примеров WARC,…
23 фев '16 в 14:31
0 ответов

Общий поиск ключевых слов

Я хочу найти список всех веб-сайтов с определенными ключевыми словами. Например, если я ищу по ключевому слову "Спорт" или "Футбол", из общего сканирования необходимо извлечь только URL-адреса, заголовок, описание и изображение соответствующего веб-…
1 ответ

Переменная не установлена ​​в функции nodejs

Я хочу назначить данные JSON переменной, проанализировав файл warc в функции. Переменная недоступна вне функции и возвращает пустой массив в консоли. var metadataObj = { metadata: [] }; fs .createReadStream('mywarc-file.warc') .pipe(new WARCStreamTr…
09 янв '19 в 07:16
0 ответов

Ошибка сериализации в PySpark при попытке прочитать записи WARC

Я пытаюсь читать записи WARC в PySpark, используя пользовательский формат ввода. Тот же метод отлично работает в Scala. Это мой код: r = sc.newAPIHadoopFile( '/Users/akshanshgupta/Workspace/00.warc', 'org.warcbase.mapreduce.WacWarcInputFormat', 'org…
26 авг '18 в 06:10
0 ответов

Как узнать количество записей в файле warc.gz на Java

Я извлекаю необходимое содержимое HTML-файлов, которые хранятся в файле warc.gz. Но я не уверен, сколько html-файлов содержится в записи.gz.
06 окт '16 в 18:56
2 ответа

Дамп данных из сканирования Nutch в несколько файлов warc

Я просканировал список сайтов, используя Nutch 1.12. Я могу выгрузить данные сканирования в отдельные файлы HTML, используя: ./bin/nutch dump -segment crawl/segments/ -o outputDir nameOfDir И в один файл WARC с помощью: ./bin/nutch warc crawl/warcs …
24 окт '16 в 14:41
1 ответ

Python не может полностью прочитать файл "warc.gz"

Для своей работы я очищаю веб-сайты и записываю их в сжатые веб-архивы (с расширением "warc.gz"). Я использую Python 2.7.11 и библиотеку warc 0.2.1. Я заметил, что для большинства файлов я не могу прочитать их полностью с помощью библиотеки warc. На…
23 мар '16 в 09:05
1 ответ

Параллельный спарк на итераторе с функцией

У меня есть итератор, который работает с последовательностью документов WARC и выдает измененные списки токенов для каждого документа: class MyCorpus(object): def __init__(self, warc_file_instance): self.warc_file = warc_file_instance def clean_text…
25 авг '18 в 13:09
0 ответов

Как написать потоковое mapreduce для файлов Warc в Python

Я пытаюсь написать задание mapreduce для файлов warc, используя WARC библиотеку python. Следующий код работает для меня, но мне нужен этот код для заданий hadoop mapreduce. import warc f = warc.open("test.warc.gz") for record in f: print record['WAR…
23 янв '14 в 06:53
1 ответ

Как перебрать файлы WARC с помощью HeaderedArchiveRecord с Heritrix 3.1

Я использую библиотеку Heritrix 3.1 Java. Просто для ясности, я не заинтересован в сканировании, а только в обработке данных из сжатых файлов WARC (*.warc.gz), созданных другой группой. Для каждого WWW-документа, хранящегося в файле WARC, мне нужна …
09 фев '14 в 20:36
0 ответов

Извлекать данные общего сканирования с помощью Apache Nutch

Я нахожу свои данные на обычном веб-сайте для сканирования и загружаю их оттуда и теперь я должен получить эти данные, используя Apache Nutch, но не знаю как. Этот файл находится в формате файла warc.
17 янв '17 в 07:44