Анализ локальной и онлайновой HTML-страницы с использованием PyQuery в Python

Учитывая следующий URL:

   http://cisbp-rna.ccbr.utoronto.ca/TFreport.php?searchTF=T00022_0.6

Этот код не имеет проблем с его анализом:

from pyquery import PyQuery as pq
url= "http://cisbp-rna.ccbr.utoronto.ca/TFreport.php?searchTF=T00022_0.6"
page = pq(url)
for tb in page('table.tf_report').eq(0).items():
    print tb("tr").eq(4)("td").eq(0).text()

Какие отпечатки

 PF00642 (zf-CCCH) PF00098 (zf-CCHC) PF00076 (RRM_1)

Но когда я скачал страницу на свой диск локально, она не смогла разобрать ее.

from pyquery import PyQuery as pq
# this is local HTML
url = "T00022_0.6.html"
page = pq(url)
for tb in page('table.tf_report').eq(0).items():
    print tb("tr").eq(4)("td").eq(0).text()

Который ничего не печатает.

Локальный файл выше можно скачать здесь.

Какой правильный способ сделать это?

1 ответ

Решение

Локальное имя файла не является URL, даже если вы храните его в переменной с именем url, Пытаться:

page = pq(filename=url)

В качестве альтернативы, вы можете использовать фактический file: URL.

Другие вопросы по тегам