Описание тега warc

Описание тега Вопросы с тегом

Используйте этот тег для вопроса, связанного с файлом WARC

3 ответа

Как я могу разобрать файл WARC?

Я загружаю файл ClueWeb09_English_Sample.warc с этой страницы, затем записываю данные файла warc в текстовый файл, используя указанный код следующей веб-страницы. Я хочу выполнить синтаксический анализ текстового файла до содержимого страниц в текст…

java warc

26 ноя '14 в 15:24

0 ответов

Как отобразить содержимое WARC в HTML-файл?

Допустим, я загружаю веб-страницу с ее активами (CSS, статика) в файл WARC. Как можно было бы перевести его снова в HTML? Я знаю, что мог бы прочитать содержимое HTML и отправить его через веб-сервер как HTML, но как насчет ресурсов? Я буду использо…

warc

14 дек '18 в 10:16

0 ответов

Изменение разделителя для чтения файла в pyspark

Я пытаюсь прочитать файл.warc.gz в RDD с PySpark. Я хотел бы, чтобы разделитель представлял собой три символа новой строки, чтобы я мог прочитать каждую запись как элемент СДР, чтобы проанализировать их и использовать информацию. Прежде всего, я заи…

python apache-spark pyspark delimiter warc

24 ноя '16 в 17:48

1 ответ

Сопоставление потокового паттерна с использованием Regex

Я хотел бы проанализировать большой текстовый файл, отформатированный в Warc версии 0.9. Образец такого текста здесь. Если вы посмотрите на него, вы увидите, что весь документ состоит из списка следующих записей. [Warc Headers] [HTTP Headers] [HTML …

java regex warc

14 янв '16 в 16:34

2 ответа

wget --warc-file - recursive, предотвращать запись отдельных файлов

Я запускаю wget для создания warc архивировать следующим образом: $ wget --warc-file=/tmp/epfl --recursive --level=1 http://www.epfl.ch/ $ l -h /tmp/epfl.warc.gz -rw-r--r-- 1 david wheel 657K Sep 2 15:18 /tmp/epfl.warc.gz $ find . ./www.epfl.ch/inde…

wget warc

02 сен '16 в 13:21

0 ответов

Извлечение значений из древовидного MapPartitionsRDD

У меня есть MapPartitionsRDD links, который имеет, в терминах Python, структуру словарного типа. links.peekJson(123) res1: kw1": {"kw2": {"kw3": "a"} } links.map(_.get("kw1.kw2.kw3").getOrElse("")) res2: "a" Теперь у меня немного другая структура li…

scala apache-spark rdd keyword warc

20 ноя '18 в 16:28

1 ответ

Загрузка веб-страницы и связанных ресурсов в WARC в Python

Я заинтересован в загрузке для последующего анализа группы веб-страниц. Есть две вещи, которые я хотел бы сделать: Загрузите страницу и связанные ресурсы (изображения, несколько страниц, связанных со статьей и т. Д.) В файл WARC. измените все ссылки…

python webpage scrape warc

17 дек '16 в 03:37

1 ответ

Как читать.webarchive файл в Android

У меня есть такое требование. Я хочу прочитать.webarchive File. У меня есть один файл с расширением.webarchive, и я поместил этот файл в папку активов. Я хочу прочитать этот файл на веб-сайте Android. Является ли это возможным? Я гуглил и нашел каку…

android git webview webarchive warc

28 ноя '13 в 06:15

1 ответ

Создание записи варка с ответом на запросы request.get() с использованием warcio

Я использую warcio библиотека для чтения и записи warc файлы. При попытке записать запись объекта ответа из requests.get(URL,stream=False), warcio записывает в запись только HTTP-заголовки, но не полезную нагрузку. Однако, когда потоковый режим вклю…

python python-3.x python-requests warc

22 мар '18 в 12:52

0 ответов

"Поиск по шаблону исчерпан" происходит при обработке файла WARC в python3

Я пытаюсь получить простой текст из набора данных WARC ( Yahoo! Webscope L2) и продолжаю встречаться ValueError: Search for pattern exhausted когда используешь load() функция в модуле python3 warcat, Пробовал некоторые случайные файлы примеров WARC,…

python python-3.x warc

23 фев '16 в 14:31

0 ответов

Общий поиск ключевых слов

Я хочу найти список всех веб-сайтов с определенными ключевыми словами. Например, если я ищу по ключевому слову "Спорт" или "Футбол", из общего сканирования необходимо извлечь только URL-адреса, заголовок, описание и изображение соответствующего веб-…

python-3.x python-2.7 elasticsearch common-crawl warc

02 окт '17 в 08:10

1 ответ

Переменная не установлена в функции nodejs

Я хочу назначить данные JSON переменной, проанализировав файл warc в функции. Переменная недоступна вне функции и возвращает пустой массив в консоли. var metadataObj = { metadata: [] }; fs .createReadStream('mywarc-file.warc') .pipe(new WARCStreamTr…

node.js file variables warc

09 янв '19 в 07:16

0 ответов

Ошибка сериализации в PySpark при попытке прочитать записи WARC

Я пытаюсь читать записи WARC в PySpark, используя пользовательский формат ввода. Тот же метод отлично работает в Scala. Это мой код: r = sc.newAPIHadoopFile( '/Users/akshanshgupta/Workspace/00.warc', 'org.warcbase.mapreduce.WacWarcInputFormat', 'org…

apache-spark pyspark warc

26 авг '18 в 06:10

0 ответов

Как узнать количество записей в файле warc.gz на Java

Я извлекаю необходимое содержимое HTML-файлов, которые хранятся в файле warc.gz. Но я не уверен, сколько html-файлов содержится в записи.gz.

java warc

06 окт '16 в 18:56

2 ответа

Дамп данных из сканирования Nutch в несколько файлов warc

Я просканировал список сайтов, используя Nutch 1.12. Я могу выгрузить данные сканирования в отдельные файлы HTML, используя: ./bin/nutch dump -segment crawl/segments/ -o outputDir nameOfDir И в один файл WARC с помощью: ./bin/nutch warc crawl/warcs …

web-crawler nutch warc

24 окт '16 в 14:41

1 ответ

Python не может полностью прочитать файл "warc.gz"

Для своей работы я очищаю веб-сайты и записываю их в сжатые веб-архивы (с расширением "warc.gz"). Я использую Python 2.7.11 и библиотеку warc 0.2.1. Я заметил, что для большинства файлов я не могу прочитать их полностью с помощью библиотеки warc. На…

python gzip warc

23 мар '16 в 09:05

1 ответ

Параллельный спарк на итераторе с функцией

У меня есть итератор, который работает с последовательностью документов WARC и выдает измененные списки токенов для каждого документа: class MyCorpus(object): def __init__(self, warc_file_instance): self.warc_file = warc_file_instance def clean_text…

apache-spark pyspark warc

25 авг '18 в 13:09

0 ответов

Как написать потоковое mapreduce для файлов Warc в Python

Я пытаюсь написать задание mapreduce для файлов warc, используя WARC библиотеку python. Следующий код работает для меня, но мне нужен этот код для заданий hadoop mapreduce. import warc f = warc.open("test.warc.gz") for record in f: print record['WAR…

python hadoop mapreduce hadoop-streaming warc

23 янв '14 в 06:53

1 ответ

Как перебрать файлы WARC с помощью HeaderedArchiveRecord с Heritrix 3.1

Я использую библиотеку Heritrix 3.1 Java. Просто для ясности, я не заинтересован в сканировании, а только в обработке данных из сжатых файлов WARC (*.warc.gz), созданных другой группой. Для каждого WWW-документа, хранящегося в файле WARC, мне нужна …

java warc heritrix

09 фев '14 в 20:36

0 ответов

Извлекать данные общего сканирования с помощью Apache Nutch

Я нахожу свои данные на обычном веб-сайте для сканирования и загружаю их оттуда и теперь я должен получить эти данные, используя Apache Nutch, но не знаю как. Этот файл находится в формате файла warc.

nutch common-crawl warc

17 янв '17 в 07:44