Описание тега lxml
NoneLxml - это полнофункциональная высокопроизводительная библиотека Python для обработки XML и HTML.
1
ответ
lxml: как искать поля без добавления пути xmlns (localhost) к каждому поисковому запросу?
Я пытаюсь найти поля в файле SOAP xml, используя lxml (3.6.0) ... <soap:Body> <Request xmlns="http://localhost/"> <Test> <field1>hello</field1> <field2>world</field2> </Test> </Request> </soap…
21 май '16 в 12:45
2
ответа
<? xml version = "1.0" encoding = "UTF-8"?> not <? xml version = '1.0' encoding = 'UTF-8'?>
Я использую lxml с tree.write(xmlFileOut, pretty_print = True, xml_declaration = True, encoding='UTF-8' выписать мой открытый и отредактированный файл XML, но мне абсолютно необходимо иметь объявление XML как <?xml version=“1.0” encoding=“UTF-8”?…
28 июн '13 в 22:14
1
ответ
lxml: добавить значение None или NULL, если текстовое содержимое HTML-тега равно None.
Попытка чтения содержимого HTML и извлечения содержимого последней таблицы в массив с помощью lxml, Вот моя последняя таблица: <table border="1"> <thead> <tr> <td><p>T1</p></td> <td><p>T2</p&g…
13 май '14 в 08:03
2
ответа
lxml разделяет элементы, а Beautifulsoup - нет
lxml возвращает два элемента, а beautifulsoup возвращает только один. Это потому что <br/> там не должно быть и Beautifulsoup более терпим к плохим HTML? Есть ли лучший способ извлечь местоположение с помощью lxml? <br/> не всегда там fr…
06 ноя '16 в 12:04
2
ответа
Выберите xpath данных в теге, используя lxml
Я пытаюсь выбрать "(6)" в теге ниже: <a class="itemRating" href="http://www.newegg.com/Product/ProductReview.aspx?Item=N82E16834200347" title="Rating + 4"> <span class="eggs r4">&nbsp;</span> (6) </a> Xpath, который я наз…
08 фев '12 в 04:58
2
ответа
Фильтрация XML-файла для удаления строк с определенным текстом в них?
Например, предположим, у меня есть: <div class="info"><p><b>Orange</b>, <b>One</b>, ... <div class="info"><p><b>Blue</b>, <b>Two</b>, ... <div class="info"><p><b&…
03 июл '11 в 20:22
2
ответа
Извлечение чисел из строки с помощью xpath и python 3.6
Я не мог применить решение к подобным вопросам, которые я нашел здесь. После использования этого в визуальном коде, чтобы очистить веб-страницу с Python и LXML [...] tree = html.fromstring(browser.page_source) data = tree.xpath('//tr[@title="somethi…
13 июн '18 в 19:49
1
ответ
Etree.tostring LXML, экранирующий URL в атрибутах ссылки href
При использовании LXML для анализа html-документа, а затем при помощи etree.tostring() я замечаю, что амперсанды в ссылках преобразуются в html-экранированные сущности. Это разрыв связи по понятным причинам. Вот простой автономный пример проблемы: &…
22 дек '14 в 21:01
1
ответ
Выскабливание по клику
Я пытаюсь почистить отзывы на этой странице. http://www.tripadvisor.com/Hotel_Review-g294265-d2309275-Reviews-The_Forest_by_Wangz-Singapore.html Единственная проблема в каждом обзоре - "Больше", который загружает больше текста в событие OnClick. Нап…
27 дек '12 в 20:03
1
ответ
Как получить доступ к пути ответа
Я пытаюсь вычеркнуть цену акции из финансов Yahoo. Я не очень хорошо понимаю Xpath, поэтому не знаю, как получить доступ к возвращаемому значению from lxml import html import requests r = requests.get('https://uk.finance.yahoo.com/quote/BVXP.L?p=BVX…
30 ноя '18 в 13:36
2
ответа
Как декодировать следующую строку
Я пытался декодировать следующую строку и получил ошибку. item = lh.fromstring(items[1].text).text_content().strip().decode('utf-8') File "/usr/lib/python2.7/encodings/utf_8.py", line 16, in decode return codecs.utf_8_decode(input, errors, True) Uni…
01 фев '12 в 12:09
1
ответ
Объедините lxml XSLT pretty_print и strip-space
Я очищаю некоторый грубый XML, и поэтому в вызове etree.tostring() в моем выводе lxml преобразования XSL было установлено pretty_print = True. Тем не менее, это оставило мне несколько ненужных пробельных узлов из исходного ввода, поэтому я добавил &…
15 дек '09 в 18:25
0
ответов
Странное поведение locale.setlocale в Python3
У меня одинаковое начало в двух программах на Python: #!/usr/bin/env python3 # -*- coding: utf-8 -*- from lxml import etree, html from lxml.builder import E import re import sys import locale #locale.setlocale(locale.LC_ALL, 'es_ES.UTF-8') locale.se…
09 янв '18 в 11:57
0
ответов
AttributeError: у объекта 'NoneType' нет атрибута 'read' читателя YAML
После использования py2exe для создания исполняемого файла для моего приложения python 2.7 я получаю следующие сообщения о запуске exe-файла: File "Mywebpagescraper.py", line 2, in <module> File "utils.pyc", line 4, in <module> File "dat…
06 фев '16 в 15:48
0
ответов
Segfaulting при попытке разобрать с lxml
У меня есть этот простой скрипт Python, который выглядит так: import sys from lxml import etree tree = etree.parse('gdpdefl.xml') Но это segfaults, поэтому, после некоторого поиска в Google, я подумал, что мой XML-документ может быть поврежден, поэт…
12 ноя '12 в 05:30
2
ответа
Разбор всего текста внутри тега с использованием lxml в python
Я пытаюсь проанализировать HTML-файл, который показан ниже <ol> <li> <div class="c1"> <span class="s1">hi</span> " hello " <span class="s2">world!</span> </div> </li> <li> <div class="c2…
14 авг '16 в 05:23
2
ответа
Получение родительского атрибута Excel xml с помощью python lxml
У меня есть файл Excel XML, в котором мне нужно получить идентификатор стиля элементов, в которых есть ячейка определенного цвета (интерьер). У меня есть этот Excel XML, как пример: И это заголовок документа: <?xml version="1.0"?> <?mso-app…
16 июн '17 в 17:17
2
ответа
Установите lxml в качестве парсера BeautifulSoup по умолчанию
Я работаю над проектом по поиску в сети и столкнулся с проблемами со скоростью. Чтобы попытаться это исправить, я хочу использовать lxml вместо html.parser в качестве парсера BeautifulSoup. Я был в состоянии сделать это: soup = bs4.BeautifulSoup(htm…
06 янв '15 в 00:49
1
ответ
Python lxml webscraping Google печатает только пустые списки
Я искал решение этой проблемы, но, судя по всему, не могу понять! Это моя первая попытка написать что-нибудь на python, и я хочу, чтобы мой скрипт загружал список субъектов из текстового файла, генерировал URL-адрес для поиска в Google и очищал эти …
18 янв '15 в 03:26
1
ответ
Как получить максимальный номер страницы с помощью xpath?
Я написал выражение xpath, чтобы получить наибольшее значение page number от некоторых html elements, Тем не менее, с приведенным ниже xpath я получаю последний текст, который Next Page в этом случае. Я хочу, чтобы мой xpath действовал таким образом…
18 апр '18 в 10:42