Сканирование нескольких страниц с помощью Apify

Можно ли сканировать несколько страниц, используя Apify с псевдо-URL?

Когда люди задают один и тот же вопрос, в большинстве случаев ответ указывает на псевдо-URL-адреса и не дает прямого ответа на вопрос, если это возможно / невозможно сделать.

Если я не знал псевдо-URL во время работы сканера и набрал 10 ссылок со страницы - ТОГДА хотел почистить эти 10 ссылок, как бы это сделать?

https://kb.apify.com/tutorial-creating-your-first-crawler/crawling-multiple-pages

1 ответ

Краткий ответ:

Да.

Длинный ответ:

Есть два основных способа добавить больше страниц в очередь сканирования.

Предопределенная структура:

Псевдо-URL используются для перехода по ссылкам, которые соответствуют определенной структуре. Веб-сайты обычно используют некоторую структуризацию в используемых ими URL-адресах. Например:

https://github.com

использует структуру:

https://github.com/{username}/{repository}

Так что если вы хотите очистить все хранилища для пользователя apifytech, вы можете использовать псевдо-URL, как это:

https://github.com/apifytech/[.+]

Вы можете найти более подробную информацию о псевдо-URL в учебнике для Apify SDK.

Динамическое добавление URL во время выполнения

Если вам нужно динамически добавлять дополнительные ссылки в очередь сканирования во время выполнения, есть несколько вариантов.

При использовании Apify SDK вы всегда можете использовать requestQueue.addRequest() функция или utils.enqueueLinks() функция.

При использовании Apify Web Scraper вы можете динамически добавлять больше страниц, используя context.enqueueRequest(),

Другие вопросы по тегам