Описание тега parsel

Parsel позволяет извлекать данные из документов XML/HTML с помощью селекторов XPath или CSS. Используется внутри и поддерживается scrapy
1 ответ

Как я могу сделать scrapy проверку поля и игнорировать поиск по ссылке

import scrapy from scrapy.selector import HtmlXPathSelector from scrapy.http.request import Request class SunBizSpider(scrapy.Spider): name = 'sunbiz' start_urls = ['http://search.sunbiz.org/Inquiry/CorporationSearch/SearchResults?inquiryType=Entity…
03 ноя '15 в 16:11
0 ответов

Разные URL, открывающие одну и ту же веб-страницу python

Я пытаюсь сканировать веб-сайт, на котором есть много страниц для разных продуктов. Я использую следующий подход. def extract_product_urls(url): page_no = 0 page_urls = set() while True: sel = Selector(text=next(get_html(f'{url}?page={page_no}'))) l…
26 июл '18 в 14:31
2 ответа

Использование parsel в проекте Scrapy

Я пытаюсь использовать библиотеку parsel для очистки элементов из HTML-файла в проекте Scrapy. Это мои паучьи коды, названные 123Spider: import scrapy import requests class 123Spider(scrapy.Spider): name = "123Spider" start_url = [ 'file://URI' ] de…
03 янв '18 в 22:11
1 ответ

Scrapy xpath удаляет текст после <символа

Я пытаюсь получить информацию о продукте с этой страницы. Чтобы получить описание (присутствует внизу страницы), я использую xpath response.xpath('//*[@itemprop="description"]/table//text()').extract()[3].strip() Это дает мне описание: u'Color: Whit…
03 ноя '15 в 13:58
1 ответ

Нормализовать пространство для элементов списка и извлечь как массив, используя Scrapy

Я ищу эффективный способ извлечь элементы списка в виде массива. Они должны быть лишены каких-либо лишних пробелов. В настоящее время я делаю это: actions = [] actions_list = sel.xpath('//div[label="Actions Taken"]/article/div/ul') action_items = ac…
11 ноя '15 в 18:07
0 ответов

Оставьте такие символы, как & quot; сбежал на выходе селектора

Как извлечь необработанный текст с помощью селектора Scrapy (Parsel)? Под сырым я имею в виду экранированный фрагмент текста, например &amp;quot; не превращаясь в ", Вот как воспроизвести: &gt;&gt;&gt; Selector('&lt;p&gt;&amp;quot;&lt;/p&gt;').css('…
24 янв '19 в 10:43
2 ответа

Как извлечь только один элемент в тег с помощью скрапа?

Я пытаюсь извлечь текст из тега страницы &lt;dd&gt;&lt;/dd&gt; с помощью этой команды в оболочке Srapy: [w.strip() for w in response.xpath('//ul[@class="attribute-list"]/li/dl/dd/text()').extract()] Тег dd выглядит так: &lt;dd&gt; Edelstahl &lt;br&g…
05 дек '18 в 16:14
2 ответа

Unmarshalling Bundle parsel в другом устройстве

Я должен поместить некоторую информацию в пакет. Тогда я использую parsel и сохранение в SQlite в кляксе ByteArrayOutputStream valueStream = new ByteArrayOutputStream(); try { ContentValues rows = new ContentValues(); rows.put("name", name); Parcel …
14 сен '16 в 18:25
2 ответа

Как извлечь сырой HTML из селектора Scrapy?

Я извлекаю данные js, используя response.xpath('//*')re_first(), а затем преобразовываю их в собственные данные Python. Проблема в том, что методы extract/re, похоже, не обеспечивают способ не заключать в кавычки html, т.е. оригинальный HTML: {my_fi…
19 янв '16 в 21:57
1 ответ

Обойти теги em при извлечении содержимого имени класса с помощью селектора Parsel

Я пытаюсь извлечь содержимое имени класса. Как извлечь все содержимое, включая содержимое тегов "em" и после тегов "em"? Смотрите картинку ниже: Я попробовал следующее, и это были результаты: Испытание 1: driver = webdriver.Chrome(options=options) s…
25 мар '19 в 09:10
0 ответов

Как установить парсел на машину с Ubuntu?

Пожалуйста, у меня проблемы с установкой парселя Я нахожусь на машине с Ubuntu 18.04 и python 3.8.2 Я установил с помощью команды "pip install parsel", но когда я вызываю "from parsel import Selector", он все равно появляется: ModuleNotFoundError: н…
22 июн '20 в 22:52
0 ответов

Использование DTD Resolver с синтаксическим анализатором Python

С lxml etree мы можем установить преобразователь DTD как xml_parser = etree.XMLParser(.....) xml_parser.resolvers.add(DtdResolver()) Однако как установить DtdResolver с помощью Parsel (python)
10 июл '20 в 16:10
3 ответа

Как scrapy получить второй &lt;a href&gt; внутри класса div?

Я просто пытаюсь получить url из в div class. Но этоdiv имеет два &lt;a href&gt;. Итак, он может получить первый, но он должен получить второй. Как я могу это сделать? Это html-код веб-сайта: &lt;div class="active"&gt; &lt;a href="javascript:;" clas…
01 ноя '19 в 09:41
1 ответ

scrapy не может обрабатывать символ "&lt;"

Я пытаюсь извлечь текст, содержащий "<" (ниже символа). На моем локальном хосте все работает нормально, однако на сервере текст после и включая "<" обрезается. 1) hipoksemia tętnicza (PaO&lt;sub&gt;2&lt;/sub&gt;/FiO&lt;sub&gt;2&lt;/sub&gt; &lt; 300 …
07 ноя '19 в 16:59
2 ответа

Как получить неэлементный текст рядом с тегом с помощью Scrapy?

Я пытаюсь удалить страницу с помощью Scrapy Framework. &lt;div class="info"&gt;&lt;span class="label"&gt;Establishment year&lt;/span&gt; 2014&lt;/div&gt; Тег, с которым я хочу иметь дело, выглядит так, как показано выше. Я хочу получить значение 201…
05 май '20 в 20:14
0 ответов

Парсер Linkedin для извлечения навыков

Я пытаюсь очистить общедоступные профили людей, чтобы получить наиболее общие навыки для определенных ролей. Я могу извлечь адрес электронной почты, название компании, имя, должность и т. Д., Но не могу получить необходимые навыки. Я использую Selec…
25 май '20 в 22:25
1 ответ

Scrapy Xpath Selector возвращает частичный текст

У меня есть текст в p тег, который может содержать дополнительные теги, например emвнутри этого. Когда я передаю следующий текстparsel XPath селектор и спросите первый p тег он возвращает мне частичную строку. from parsel import Selector selector = …
21 авг '20 в 13:47
1 ответ

Может ли селектор lxml / scrapy не передавать объекты html

Как получить исходные объекты html после использования xpath селектора lxml / scrapy? Я уже пробовал lxml вместо пакета parsel, та же проблема. mytext = '&lt;html&gt;&lt;body&gt;&lt;span&gt;go&amp;nbsp;od&lt;/span&gt;&lt;/body&gt;&lt;/html&gt;' sel …
06 ноя '19 в 01:16
1 ответ

Получите числовой вывод с помощью parsel

Я пытаюсь разобрать числовое поле с помощью parsel. По умолчанию в документации показано, как извлекать текст. И это: from parsel import Selector html = "&lt;title&gt;2&lt;/title&gt;\n" selector = Selector(text=html) get_text = selector.css("title::…
24 фев '21 в 17:26
1 ответ

Linkedin Scraper, Parsel Selector undefined

Получив эту ошибку, я разочарован, кто-нибудь поможет! for linkedin_url in linkedin_urls: driver.get(linkedin_url) sleep(5) Sel=Selector(text=driver.page_source) name = Sel.xpath("//div[starts-with(@class, 'text-heading-xlarge inline t-24 v-align-mi…
13 июн '21 в 07:52