Scrapy - вызовет новый процесс сканирования, когда сканер завершит работу

Я ищу URL-адреса - xxx.com/a, xxx.com/b и т. Д., Найденные из двух start_urls xxx.com/LISTA и xxx / com / LISTB

После завершения этого сканера я хочу также дополнительно сканировать страницы xxx.com/x_in_database и xxx.com/y_in_database, чьи URL-адреса уже были просканированы при предыдущем сканировании в базе данных (и, следовательно, доступны сейчас), но только если текущий сканер этого не сделал найти их уже в LISTA и LISTB

Каков наилучший способ сделать это? Кажется, я не могу начать новое сканирование с scrapy.signals.spider_closed(spider, reason) но выполняйте только другие рутинные операции, такие как закрытие соединений, освобождение ресурса и т.д.

0 ответов

Другие вопросы по тегам