Как извлечь несколько элементов из одной страницы с помощью Portia/Scrapy Spider
У меня есть сайт, который я хочу сканировать. Он содержит несколько элементов, которые я хочу извлечь на каждой странице.
Это очень похоже на желтые страницы онлайн. Он содержит заголовок, номер телефона и категорию для каждого элемента... Так как этой информации недостаточно для того, чтобы получить всю страницу, элементы находятся в списке. Некоторые страницы, содержащие 3 элемента, а другие, содержащие 10 или около того.
- Редактировать 1- Я успешно удалил много веб-сайтов, но все они смогли попасть на страницу, где содержится только один элемент. Здесь это невозможно, и из-за необходимости использования разных шаблонов он возвращает несколько элементов как один элемент или просто случайные биты.
1 ответ
Portia еще не поддерживает извлечение нескольких элементов на странице. Есть проблема для этого, и есть достаточный интерес, что это будет сделано в ближайшее время.
Между тем, одна хитрость заключается в том, чтобы вложить элементы в родительский элемент (используя "варианты") и разделить их позже на отдельные элементы на этапе постобработки.