Newspaper3k возвращает 0 статей со страниц сайта archive.org waybackmachine, тогда как живая страница работает как положено
При попытке использовать библиотеку python library3 на URL-адресе архивной страницы из archive.org не удается получить какие-либо статьи. Однако при использовании его на том же URL-адресе активной страницы он работает нормально. Пожалуйста, смотрите ниже:
import newspaper
len(newspaper.build('https://bbc.co.uk/news').articles)
>> 111
len(newspaper.build('https://web.archive.org/web/http://www.bbc.co.uk/news').articles)
>>> 0
Даже используя специальные id
Хак, который возвращает оригинальную измененную страницу, не работает:
len(newspaper.build('https://web.archive.org/web/20171219030622id_/http://www.bbc.co.uk/news').articles)
>>> 0
Любая помощь будет высоко ценится, спасибо!
1 ответ
Я не нахожу признаков того, что эта библиотека предназначена для работы с archive.org или что она работает с archive.org.
Оба [1] [2] списка источников не содержат упоминаний archive.org
или же web.archive.org
,
Я загрузил весь репозиторий для поиска исходного кода, и он также не содержит упоминаний ни о каком домене интернет-архива.
Из того, что я могу сказать, основываясь на этом файле, articles
Атрибут основан на каналах RSS/ATOM. Я не думаю, что Internet Archive архивирует их, и даже если это произойдет, поскольку они будут ссылаться на живую версию сайта, некоторые изменения в самой библиотеке потребуются для того, чтобы заставить их работать с Internet Archive.
Вы уже открыли проблему, в которой вы указываете, что она вообще не работает (даже для отдельных статей - это, вероятно, проблема в другом месте, например, в алгоритме оценки узлов, который используется для определения того, какие узлы содержат статью), поэтому если вы не хотите погружаться в исходный код библиотеки и исправлять его самостоятельно, все, что вы можете сделать, это подождать.