Newspaper3k возвращает 0 статей со страниц сайта archive.org waybackmachine, тогда как живая страница работает как положено

Question

Newspaper3k возвращает 0 статей со страниц сайта archive.org waybackmachine, тогда как живая страница работает как положено

При попытке использовать библиотеку python library3 на URL-адресе архивной страницы из archive.org не удается получить какие-либо статьи. Однако при использовании его на том же URL-адресе активной страницы он работает нормально. Пожалуйста, смотрите ниже:

import newspaper

len(newspaper.build('https://bbc.co.uk/news').articles)
>> 111

len(newspaper.build('https://web.archive.org/web/http://www.bbc.co.uk/news').articles)
>>> 0

Даже используя специальные id Хак, который возвращает оригинальную измененную страницу, не работает:

len(newspaper.build('https://web.archive.org/web/20171219030622id_/http://www.bbc.co.uk/news').articles)
    >>> 0

Любая помощь будет высоко ценится, спасибо!

0

python python-newspaper

Источник

user759536 19 дек '17 в 12:58

1 ответ

Решение

Другие вопросы по тегам python python-newspaper

user1901658 20 дек '17 в 04:49 2017-12-20 04:49 · Accepted Answer · 2017-12-20 04:49

Я не нахожу признаков того, что эта библиотека предназначена для работы с archive.org или что она работает с archive.org.

Оба [1] [2] списка источников не содержат упоминаний archive.org или же web.archive.org,

Я загрузил весь репозиторий для поиска исходного кода, и он также не содержит упоминаний ни о каком домене интернет-архива.

Из того, что я могу сказать, основываясь на этом файле, articles Атрибут основан на каналах RSS/ATOM. Я не думаю, что Internet Archive архивирует их, и даже если это произойдет, поскольку они будут ссылаться на живую версию сайта, некоторые изменения в самой библиотеке потребуются для того, чтобы заставить их работать с Internet Archive.

Вы уже открыли проблему, в которой вы указываете, что она вообще не работает (даже для отдельных статей - это, вероятно, проблема в другом месте, например, в алгоритме оценки узлов, который используется для определения того, какие узлы содержат статью), поэтому если вы не хотите погружаться в исходный код библиотеки и исправлять его самостоятельно, все, что вы можете сделать, это подождать.