pyquery (lxml) не находит тег в хорошо структурированном XML-документе?
У меня есть XML-файл, который выглядит следующим образом. Соответствующий бит это:
<reference>
<citation>Vander Wal JS, Gang CH, Griffing GT, Gadde KM. Escitalopram for treatment of night eating syndrome: a 12-week, randomized, placebo-controlled trial. J Clin Psychopharmacol. 2012 Jun;32(3):341-5. doi: 10.1097/JCP.0b013e318254239b.</citation>
<PMID>22544016</PMID>
</reference>
Я пытаюсь найти значение PMID
поле, используя PyQuery для анализа XML:
from pyquery import PyQuery as pq
text = open(f, 'r').read()
d = pq(text)
data = {}
data['nct_id'] = d('nct_id').text()
print d('reference')
reference = d('reference')
print reference('PMID')
data['pmid'] = reference('PMID').text()
print data['PMID']
Почему это не работает? В консоли я вижу полное содержание reference
из первого оператора печати, за которым следуют два пустых значения:
<reference>
<citation>Vander Wal JS, Gang CH, Griffing GT, Gadde KM. Escitalopram for treatment of night eating syndrome: a 12-week, randomized, placebo-controlled trial. J Clin Psychopharmacol. 2012 Jun;32(3):341-5. doi: 10.1097/JCP.0b013e318254239b.</citation>
<PMID>22544016</PMID>
</reference>
Я могу найти другие листовые узлы в документе (например, nct_id
) просто отлично, используя .find()
, как показано в примере кода.
Это то, что PyQuery не любит прописные теги?
1 ответ
Решение
Вы можете указать используемый парсер, и он будет работать:
d = pq(text, parser='xml')