Как разобрать таблицу HTML, используя pyquery?
Как разобрать таблицу HTML, используя pyquery? [См. HTML-таблицу с исходным кодом на http://pastie.org/pastes/8556919
Результат: {
"category_1": {"cat1_el1_label": "cat1_el1_value",},
"Category_2":{"cat2_el1_label":"cat2_el1_value"},
"Category_3": { "cat3_el1_label": "cat3_el1_value",}
}
Большое спасибо.
2 ответа
Решение
Простой способ:
from pyquery import PyQuery
from collections import defaultdict
doc = PyQuery(html)
values = defaultdict(dict)
for tr in doc('tr').items():
if tr('th.title'):
title = tr('th.title').text()
else:
items = zip(tr('.properties_label').items(),
tr('.properties_value').items())
values[title].update(dict([(k.text(), v.text()) for k, v in items]))
Результат:
defaultdict(<type 'dict'>, {'Category_3': {'cat3_el1_label': 'cat3_el1_value'},
'Category_2': {'cat2_el1_label': 'cat2_el1_value'},
'Category_1': {'cat1_el1_label': 'cat1_el1_value'}})
Как-то так... Хотя я не уверен, что я думаю о pyquery (попробуйте BeautifulSoup)
from pyquery import PyQuery as pq
>>> p = pq(html)
>>> p = d(".properties_label span")
>>> for x in p:
... print x.text
...
cat1_el1_label
cat2_el1_label
cat3_el1_label
>>> p = d(".properties_value")
>>> for x in p:
... print x.text
...
cat1_el1_value
cat2_el1_value
cat3_el1_value