Как мне получить наименьшее количество статей на сайте, использующих порцию

Я использую порцию для сканирования статьи на веб-сайте, и теперь мне интересно, как я могу получить наименьшую статью каждый день, когда запускаю порцию-паука?

У меня есть идея, что использовать datetime из статьи, и по сравнению с теперь datetime. Но есть ли лучший?

1 ответ

Решение

Зависит от того, как веб-сайт структурирован, но если каждая статья имеет отдельный URL-адрес, вы можете отфильтровать URL-адреса, уже посещенные в предыдущих обходах, с помощью промежуточного программного обеспечения deltafetch spider.

Чтобы включить установку scrapylib и добавить ее в файл settings.py:

SPIDER_MIDDLEWARES = {
    'scrapylib.deltafetch.DeltaFetch': 100,
}
DELTAFETCH_ENABLED = True
Другие вопросы по тегам