NoneLxml - это полнофункциональная высокопроизводительная библиотека Python для обработки XML и HTML.
1 ответ

lxml: как искать поля без добавления пути xmlns (localhost) к каждому поисковому запросу?

Я пытаюсь найти поля в файле SOAP xml, используя lxml (3.6.0) ... <soap:Body> <Request xmlns="http://localhost/"> <Test> <field1>hello</field1> <field2>world</field2> </Test> </Request> </soap…
21 май '16 в 12:45
2 ответа

<? xml version = "1.0" encoding = "UTF-8"?> not <? xml version = '1.0' encoding = 'UTF-8'?>

Я использую lxml с tree.write(xmlFileOut, pretty_print = True, xml_declaration = True, encoding='UTF-8' выписать мой открытый и отредактированный файл XML, но мне абсолютно необходимо иметь объявление XML как &lt;?xml version=“1.0” encoding=“UTF-8”?…
28 июн '13 в 22:14
1 ответ

lxml: добавить значение None или NULL, если текстовое содержимое HTML-тега равно None.

Попытка чтения содержимого HTML и извлечения содержимого последней таблицы в массив с помощью lxml, Вот моя последняя таблица: &lt;table border="1"&gt; &lt;thead&gt; &lt;tr&gt; &lt;td&gt;&lt;p&gt;T1&lt;/p&gt;&lt;/td&gt; &lt;td&gt;&lt;p&gt;T2&lt;/p&g…
13 май '14 в 08:03
2 ответа

lxml разделяет элементы, а Beautifulsoup - нет

lxml возвращает два элемента, а beautifulsoup возвращает только один. Это потому что &lt;br/&gt; там не должно быть и Beautifulsoup более терпим к плохим HTML? Есть ли лучший способ извлечь местоположение с помощью lxml? &lt;br/&gt; не всегда там fr…
06 ноя '16 в 12:04
2 ответа

Выберите xpath данных в теге, используя lxml

Я пытаюсь выбрать "(6)" в теге ниже: &lt;a class="itemRating" href="http://www.newegg.com/Product/ProductReview.aspx?Item=N82E16834200347" title="Rating + 4"&gt; &lt;span class="eggs r4"&gt;&amp;nbsp;&lt;/span&gt; (6) &lt;/a&gt; Xpath, который я наз…
08 фев '12 в 04:58
2 ответа

Фильтрация XML-файла для удаления строк с определенным текстом в них?

Например, предположим, у меня есть: &lt;div class="info"&gt;&lt;p&gt;&lt;b&gt;Orange&lt;/b&gt;, &lt;b&gt;One&lt;/b&gt;, ... &lt;div class="info"&gt;&lt;p&gt;&lt;b&gt;Blue&lt;/b&gt;, &lt;b&gt;Two&lt;/b&gt;, ... &lt;div class="info"&gt;&lt;p&gt;&lt;b&…
03 июл '11 в 20:22
2 ответа

Извлечение чисел из строки с помощью xpath и python 3.6

Я не мог применить решение к подобным вопросам, которые я нашел здесь. После использования этого в визуальном коде, чтобы очистить веб-страницу с Python и LXML [...] tree = html.fromstring(browser.page_source) data = tree.xpath('//tr[@title="somethi…
13 июн '18 в 19:49
1 ответ

Etree.tostring LXML, экранирующий URL в атрибутах ссылки href

При использовании LXML для анализа html-документа, а затем при помощи etree.tostring() я замечаю, что амперсанды в ссылках преобразуются в html-экранированные сущности. Это разрыв связи по понятным причинам. Вот простой автономный пример проблемы: &…
22 дек '14 в 21:01
1 ответ

Выскабливание по клику

Я пытаюсь почистить отзывы на этой странице. http://www.tripadvisor.com/Hotel_Review-g294265-d2309275-Reviews-The_Forest_by_Wangz-Singapore.html Единственная проблема в каждом обзоре - "Больше", который загружает больше текста в событие OnClick. Нап…
27 дек '12 в 20:03
1 ответ

Как получить доступ к пути ответа

Я пытаюсь вычеркнуть цену акции из финансов Yahoo. Я не очень хорошо понимаю Xpath, поэтому не знаю, как получить доступ к возвращаемому значению from lxml import html import requests r = requests.get('https://uk.finance.yahoo.com/quote/BVXP.L?p=BVX…
30 ноя '18 в 13:36
2 ответа

Как декодировать следующую строку

Я пытался декодировать следующую строку и получил ошибку. item = lh.fromstring(items[1].text).text_content().strip().decode('utf-8') File "/usr/lib/python2.7/encodings/utf_8.py", line 16, in decode return codecs.utf_8_decode(input, errors, True) Uni…
01 фев '12 в 12:09
1 ответ

Объедините lxml XSLT pretty_print и strip-space

Я очищаю некоторый грубый XML, и поэтому в вызове etree.tostring() в моем выводе lxml преобразования XSL было установлено pretty_print = True. Тем не менее, это оставило мне несколько ненужных пробельных узлов из исходного ввода, поэтому я добавил &…
15 дек '09 в 18:25
0 ответов

Странное поведение locale.setlocale в Python3

У меня одинаковое начало в двух программах на Python: #!/usr/bin/env python3 # -*- coding: utf-8 -*- from lxml import etree, html from lxml.builder import E import re import sys import locale #locale.setlocale(locale.LC_ALL, 'es_ES.UTF-8') locale.se…
09 янв '18 в 11:57
0 ответов

AttributeError: у объекта 'NoneType' нет атрибута 'read' читателя YAML

После использования py2exe для создания исполняемого файла для моего приложения python 2.7 я получаю следующие сообщения о запуске exe-файла: File "Mywebpagescraper.py", line 2, in &lt;module&gt; File "utils.pyc", line 4, in &lt;module&gt; File "dat…
06 фев '16 в 15:48
0 ответов

Segfaulting при попытке разобрать с lxml

У меня есть этот простой скрипт Python, который выглядит так: import sys from lxml import etree tree = etree.parse('gdpdefl.xml') Но это segfaults, поэтому, после некоторого поиска в Google, я подумал, что мой XML-документ может быть поврежден, поэт…
12 ноя '12 в 05:30
2 ответа

Разбор всего текста внутри тега с использованием lxml в python

Я пытаюсь проанализировать HTML-файл, который показан ниже &lt;ol&gt; &lt;li&gt; &lt;div class="c1"&gt; &lt;span class="s1"&gt;hi&lt;/span&gt; " hello " &lt;span class="s2"&gt;world!&lt;/span&gt; &lt;/div&gt; &lt;/li&gt; &lt;li&gt; &lt;div class="c2…
14 авг '16 в 05:23
2 ответа

Получение родительского атрибута Excel xml с помощью python lxml

У меня есть файл Excel XML, в котором мне нужно получить идентификатор стиля элементов, в которых есть ячейка определенного цвета (интерьер). У меня есть этот Excel XML, как пример: И это заголовок документа: &lt;?xml version="1.0"?&gt; &lt;?mso-app…
16 июн '17 в 17:17
2 ответа

Установите lxml в качестве парсера BeautifulSoup по умолчанию

Я работаю над проектом по поиску в сети и столкнулся с проблемами со скоростью. Чтобы попытаться это исправить, я хочу использовать lxml вместо html.parser в качестве парсера BeautifulSoup. Я был в состоянии сделать это: soup = bs4.BeautifulSoup(htm…
06 янв '15 в 00:49
1 ответ

Python lxml webscraping Google печатает только пустые списки

Я искал решение этой проблемы, но, судя по всему, не могу понять! Это моя первая попытка написать что-нибудь на python, и я хочу, чтобы мой скрипт загружал список субъектов из текстового файла, генерировал URL-адрес для поиска в Google и очищал эти …
18 янв '15 в 03:26
1 ответ

Как получить максимальный номер страницы с помощью xpath?

Я написал выражение xpath, чтобы получить наибольшее значение page number от некоторых html elements, Тем не менее, с приведенным ниже xpath я получаю последний текст, который Next Page в этом случае. Я хочу, чтобы мой xpath действовал таким образом…
18 апр '18 в 10:42