"Поиск по шаблону исчерпан" происходит при обработке файла WARC в python3

Я пытаюсь получить простой текст из набора данных WARC ( Yahoo! Webscope L2) и продолжаю встречаться ValueError: Search for pattern exhausted когда используешь load() функция в модуле python3 warcat, Пробовал некоторые случайные файлы примеров WARC, и все работало хорошо.

Набор данных действительно запрашивал дополнительную лицензию для фиксации (и затем в соответствии с файлом readme будет предоставлен пароль; файлы WARC поставляются с паролями?), Но на данный момент я не подготовлен для отправки факса.

Я также проверил warcat исходный код, и обнаружил, что ValueError будет вызвано, когда file_obj.read(size) имеет значение False. Это кажется бессмысленным для меня, поэтому я спрашиваю здесь...

Код:

>>> import warcat
>>> import warcat.model
>>> warc = warcat.model.WARC()
>>> warc.load('ydata-embedded-metadata-v1_0.warc')
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "/usr/local/lib/python3.4/site-packages/warcat/model/warc.py", line 32, in load
    self.read_file_object(f)
  File "/usr/local/lib/python3.4/site-packages/warcat/model/warc.py", line 39, in read_file_object
    record, has_more = self.read_record(file_object)
  File "/usr/local/lib/python3.4/site-packages/warcat/model/warc.py", line 75, in read_record
    check_block_length=check_block_length)
  File "/usr/local/lib/python3.4/site-packages/warcat/model/record.py", line 59, in load
    inclusive=True)
  File "/usr/local/lib/python3.4/site-packages/warcat/util.py", line 66, in find_file_pattern
    raise ValueError('Search for pattern exhausted')
ValueError: Search for pattern exhausted

Заранее спасибо.

0 ответов

Другие вопросы по тегам