Не удается извлечь результат, как ожидалось, при использовании request_html

Question

Не удается извлечь результат, как ожидалось, при использовании request_html

Я не могу извлечь правильный результат с помощью request_html:

>>> from requests_html import HTMLSession
>>> session = HTMLSession()
>>> r = session.get('https://www.amazon.com/dp/B07569DYGN')
>>> r.html.find("#productDetails_detailBullets_sections1")
[]

Я могу найти id 'productDetails_detailBullets_sections1' в исходном контенте:

>>> """<table id="productDetails_detailBullets_sections1" class="a-keyvalue prodDetTable" role="presentation">""" in r.text
True

На самом деле, проблема аналогичным образом существует в PyQuery.

Почему не могу requests_html найти этот элемент?

3

python python-3.x python-requests-html pyquery

Источник

user4447404 08 окт '18 в 09:41

1 ответ

Другие вопросы по тегам python python-3.x python-requests-html pyquery

user1281485 08 окт '18 в 10:31 2018-10-08 10:31 · Answer 1 · 2018-10-08 10:31

Я искала #comparison_price_row который все еще что-то находит. Следующий идентификатор в источнике comparison_shipping_info_row но в поисках #comparison_shipping_info_row возвращает пустой массив Два элемента находятся на одном уровне (один и тот же родитель). Я изучил все источники между ними, но не нашел никаких проблем.

Вначале.

Затем я увидел, что где-то между ними есть байт NUL, что, вероятно, делает библиотеку запутывающейся.

После удаления байтов NUL из входных данных можно найти нужный элемент:

r2 = requests_html.HTML(html=r.text.replace('\0', ''))
r2.find('#productDetails_detailBullets_sections1')

[<Element 'table' role='presentation' class=('a-keyvalue', 'prodDetTable') id='productDetails_detailBullets_sections1'>]