Как мне получить наименьшее количество статей на сайте, использующих порцию
Я использую порцию для сканирования статьи на веб-сайте, и теперь мне интересно, как я могу получить наименьшую статью каждый день, когда запускаю порцию-паука?
У меня есть идея, что использовать datetime из статьи, и по сравнению с теперь datetime. Но есть ли лучший?
1 ответ
Решение
Зависит от того, как веб-сайт структурирован, но если каждая статья имеет отдельный URL-адрес, вы можете отфильтровать URL-адреса, уже посещенные в предыдущих обходах, с помощью промежуточного программного обеспечения deltafetch spider.
Чтобы включить установку scrapylib и добавить ее в файл settings.py:
SPIDER_MIDDLEWARES = {
'scrapylib.deltafetch.DeltaFetch': 100,
}
DELTAFETCH_ENABLED = True