Как использовать Xpath в Python?

Question

Как использовать Xpath в Python?

Что такое библиотека? Есть ли полная реализация? Как используется библиотека? Где его сайт?

258

python xml dom xpath nodes

Источник

12 авг '08 в 11:28

11 ответов

Другие вопросы по тегам python xml dom xpath nodes

user620 26 авг '08 в 13:06 2008-08-26 13:06 · Answer 1 · 2008-08-26 13:06

libxml2 имеет ряд преимуществ:

Соответствие спецификации
Активное развитие и участие сообщества
Скорость. Это действительно оболочка Python для реализации на Си.
Ubiquity. Библиотека libxml2 широко распространена и поэтому хорошо протестирована.

Недостатки включают в себя:

Соответствие спецификации. Это строгое Такие вещи, как обработка пространства имен по умолчанию, проще в других библиотеках.
Использование нативного кода. Это может быть проблемой в зависимости от того, как ваше приложение распределено / развернуто. Доступны RPM, которые облегчают эту боль.
Ручная обработка ресурсов. Обратите внимание на приведенный ниже пример вызовов freeDoc() и xpathFreeContext(). Это не очень Pythonic.

Если вы делаете простой выбор пути, придерживайтесь ElementTree (который включен в Python 2.5). Если вам нужно полное соответствие спецификациям или сырая скорость, и вы можете справиться с распространением нативного кода, используйте libxml2.

Пример использования XPath libxml2

import libxml2

doc = libxml2.parseFile("tst.xml")
ctxt = doc.xpathNewContext()
res = ctxt.xpathEval("//*")
if len(res) != 2:
    print "xpath query: wrong node set size"
    sys.exit(1)
if res[0].name != "doc" or res[1].name != "foo":
    print "xpath query: wrong node set value"
    sys.exit(1)
doc.freeDoc()
ctxt.xpathFreeContext()

Пример использования ElementTree XPath

from elementtree.ElementTree import ElementTree
mydoc = ElementTree(file='tst.xml')
for e in mydoc.findall('/foo/bar'):
    print e.get('title').text

user207 12 авг '08 в 11:40 2008-08-12 11:40 · Answer 2 · 2008-08-12 11:40

Пакет lxml поддерживает xpath. Кажется, это работает довольно хорошо, хотя у меня были некоторые проблемы с осью self::. Также есть Амара, но я не использовал это лично.

87

Источник

user207 12 авг '08 в 11:40

user450917 22 ноя '12 в 01:05 2012-11-22 01:05 · Answer 3 · 2012-11-22 01:05

Похоже, реклама lxml здесь.;) ElementTree включен в библиотеку std. Под 2.6 и ниже его xpath довольно слаб, но в 2.7 значительно улучшен:

import xml.etree.ElementTree as ET
root = ET.parse(filename)
result = ''

for elem in root.findall('.//child/grandchild'):
    # How to make decisions based on attributes even in 2.6:
    if elem.attrib.get('name') == 'foo':
        result = elem.text
        break

user210794 13 ноя '09 в 23:11 2009-11-13 23:11 · Answer 4 · 2009-11-13 23:11

Используйте LXML. LXML использует всю мощь libxml2 и libxslt, но заключает их в более "Pythonic" привязки, чем в привязки Python, которые являются родными для этих библиотек. Таким образом, он получает полную реализацию XPath 1.0. Native ElemenTree поддерживает ограниченное подмножество XPath, хотя оно может быть достаточно для ваших нужд.

user37575 23 янв '10 в 09:30 2010-01-23 09:30 · Answer 5 · 2010-01-23 09:30

Другой вариант - py-dom-xpath, он работает без проблем с minidom и является чистым Python, поэтому работает на appengine.

import xpath
xpath.find('//item', doc)

32

Источник

user37575 23 янв '10 в 09:30

user274299 23 авг '10 в 13:00 2010-08-23 13:00 · Answer 6 · 2010-08-23 13:00

Ты можешь использовать:

PyXML:

from xml.dom.ext.reader import Sax2
from xml import xpath
doc = Sax2.FromXmlFile('foo.xml').documentElement
for url in xpath.Evaluate('//@Url', doc):
  print url.value

libxml2:

import libxml2
doc = libxml2.parseFile('foo.xml')
for url in doc.xpathEval('//@Url'):
  print url.content

16

Источник

user274299 23 авг '10 в 13:00

user1564659 15 ноя '15 в 05:31 2015-11-15 05:31 · Answer 7 · 2015-11-15 05:31

Вы можете использовать простой soupparser от lxml

Пример:

from lxml.html.soupparser import fromstring

tree = fromstring("<a>Find me!</a>")
print tree.xpath("//a/text()")

12

Источник

user1564659 15 ноя '15 в 05:31

user912 14 авг '08 в 09:48 2008-08-14 09:48 · Answer 8 · 2008-08-14 09:48

Последняя версия elementtree довольно хорошо поддерживает XPath. Не будучи экспертом по XPath, я не могу точно сказать, является ли реализация полной, но она удовлетворила большинство моих потребностей при работе в Python. Я также использую lxml и PyXML и нахожу этри хорошим, потому что это стандартный модуль.

ПРИМЕЧАНИЕ: с тех пор я нашел lxml и для меня это определенно лучшая библиотека XML для Python. Он также хорошо работает с XPath (хотя, возможно, не полная реализация).

user858913 16 дек '17 в 22:16 2017-12-16 22:16 · Answer 9 · 2017-12-16 22:16

Если вы хотите, чтобы мощь XPATH сочеталась с возможностью использовать CSS в любой момент, вы можете использовать parsel:

>>> from parsel import Selector
>>> sel = Selector(text=u"""<html>
        <body>
            <h1>Hello, Parsel!</h1>
            <ul>
                <li><a href="http://example.com">Link 1</a></li>
                <li><a href="http://scrapy.org">Link 2</a></li>
            </ul
        </body>
        </html>""")
>>>
>>> sel.css('h1::text').extract_first()
'Hello, Parsel!'
>>> sel.xpath('//h1/text()').extract_first()
'Hello, Parsel!'

user3571 23 авг '10 в 12:57 2010-08-23 12:57 · Answer 10 · 2010-08-23 12:57

Другая библиотека - 4Suite: http://sourceforge.net/projects/foursuite/

Я не знаю, насколько это соответствует спецификации. Но это сработало очень хорошо для моего использования. Это выглядит заброшенным.

4

Источник

user3571 23 авг '10 в 12:57

user1146 12 авг '08 в 19:34 2008-08-12 19:34 · Answer 11 · 2008-08-12 19:34

PyXML работает хорошо.

Вы не сказали, какую платформу вы используете, однако, если вы используете Ubuntu, вы можете получить его с sudo apt-get install python-xml, Я уверен, что другие дистрибутивы Linux также есть.

Если вы используете Mac, xpath уже установлен, но не доступен сразу. Вы можете установить PY_USE_XMLPLUS в вашей среде или сделайте это Python, прежде чем импортировать xml.xpath:

if sys.platform.startswith('darwin'):
    os.environ['PY_USE_XMLPLUS'] = '1'

В худшем случае вам, возможно, придется построить его самостоятельно. Этот пакет больше не поддерживается, но все еще прекрасно работает и работает с современными 2.x Pythons. Основные документы здесь.

user9047701 29 май '19 в 13:48 2019-05-29 13:48 · Answer 12 · 2019-05-29 13:48

Если вам это понадобится для html:

import lxml.html as html
root  = html.fromstring(string)
root.xpath('//meta')

-1

Источник

user9047701 29 май '19 в 13:48