XPath - выбор элементов, равных значению
В Xpath я хочу выбрать элементы, которые равны определенному значению.
Пример XML-данных:
<aaa id="11" >
<aaa id="21" >
<aaa id="31" ></aaa>
<bbb id="32" >
<aaa id="41" ></aaa>
<bbb id="42" ></bbb>
<ccc id="43" ></ccc>
<ddd id="44" >qwerty</ddd>
<ddd id="45" ></ddd>
<ddd id="46" ></ddd>
</bbb>
</aaa>
<bbb id="22" >
<aaa id="33" >qwerty</aaa>
<bbb id="34" ></bbb>
<ccc id="35" ></ccc>
<ddd id="36" ></ddd>
<ddd id="37" ></ddd>
<ddd id="38" ></ddd>
</bbb>
<ccc id="23" >qwerty</ccc>
<ccc id="24" ></ccc>
</aaa>
Теперь, используя XPath:
//ccc[.='qwerty']
Я получаю правильные, ожидаемые результаты:
Name Value
ccc qwerty
Теперь, используя XPath:
//aaa[.='qwerty']
Я получаю неожиданные результаты:
Name Value
aaa
aaa qwerty
И что меня особенно интересует, это как выбрать любой элемент с таким значением
XPath:
//*[.='qwerty']
Я получаю очень странные неожиданные результаты:
Name Value
aaa
bbb
ddd qwerty
bbb qwerty
aaa qwerty
ccc qwerty
Может кто-нибудь объяснить эти результаты, и как исправить мои выражения XPath, чтобы получить более ожидаемые результаты?
3 ответа
Спецификация XPath определяет строковое значение элемента как объединение (в порядке документа) всех его потомков текстового узла.
Это объясняет "странные результаты".
"Лучшие" результаты можно получить, используя выражения ниже:
//*[text() = 'qwerty']
Приведенное выше выбирает каждый элемент в документе, у которого есть хотя бы один дочерний элемент текстового узла со значением 'qwerty'.
//*[text() = 'qwerty' and not(text()[2])]
Вышеприведенное выбирает каждый элемент в документе, который имеет только один дочерний элемент текстового узла, и его значение: "qwerty".
Лучшее использование//*[normalize-space(text()) = 'qwerty']
. Если вокруг текста есть пробелы, они будут удалены.