pagination - xpath для сканера в питоне

На самом деле я работаю над сканером, использующим scrapy в python, и я почти закончил, у меня просто небольшая проблема. Сайт, использующий нумерацию страниц:

<div class="pagination toolbarbloc">
            <ul>
                    <li class="active"><span>1</span></li>
                    <li><a href="...">2</a></li>
                    <li><a href="...">3</a></li>
                    <li><a href="...">4</a></li>
                    <li><a href="...">5</a></li>
                    <li><a class="end" href="...">>></li>
            </ul>
        </div>

Поэтому я пытаюсь поймать "href" на balise li сразу после li с классом "active".

Я пытаюсь что-то подобное:

next_page_url_xpath = '//div[@class="pagination toolbarbloc"]/ul/following-sibling::li[@class="active"]/a/@href'

но это не сработало: IndexError: список индексов вне диапазона

Я только начинаю с xpath, и я знаю, что это просто, но после прочтения большого количества документов, мне это не удается.

Большое спасибо тем, кто мне помогает!

1 ответ

Решение

Попробуйте ниже выражение:

//div[@class="pagination toolbarbloc"]/ul/li[@class="active"]/following-sibling::li/a/@href

Обратите внимание, что вы пропустили @ в [class="pagination toolbarbloc"] а также li это не брат или сестра ul

Другие вопросы по тегам