pagination - xpath для сканера в питоне
На самом деле я работаю над сканером, использующим scrapy в python, и я почти закончил, у меня просто небольшая проблема. Сайт, использующий нумерацию страниц:
<div class="pagination toolbarbloc">
<ul>
<li class="active"><span>1</span></li>
<li><a href="...">2</a></li>
<li><a href="...">3</a></li>
<li><a href="...">4</a></li>
<li><a href="...">5</a></li>
<li><a class="end" href="...">>></li>
</ul>
</div>
Поэтому я пытаюсь поймать "href" на balise li сразу после li с классом "active".
Я пытаюсь что-то подобное:
next_page_url_xpath = '//div[@class="pagination toolbarbloc"]/ul/following-sibling::li[@class="active"]/a/@href'
но это не сработало: IndexError: список индексов вне диапазона
Я только начинаю с xpath, и я знаю, что это просто, но после прочтения большого количества документов, мне это не удается.
Большое спасибо тем, кто мне помогает!
1 ответ
Решение
Попробуйте ниже выражение:
//div[@class="pagination toolbarbloc"]/ul/li[@class="active"]/following-sibling::li/a/@href
Обратите внимание, что вы пропустили @
в [class="pagination toolbarbloc"]
а также li
это не брат или сестра ul