Описание тега parsel

Описание тега Вопросы с тегом

Parsel позволяет извлекать данные из документов XML/HTML с помощью селекторов XPath или CSS. Используется внутри и поддерживается scrapy

1 ответ

Как я могу сделать scrapy проверку поля и игнорировать поиск по ссылке

import scrapy from scrapy.selector import HtmlXPathSelector from scrapy.http.request import Request class SunBizSpider(scrapy.Spider): name = 'sunbiz' start_urls = ['http://search.sunbiz.org/Inquiry/CorporationSearch/SearchResults?inquiryType=Entity…

03 ноя '15 в 16:11

0 ответов

Разные URL, открывающие одну и ту же веб-страницу python

Я пытаюсь сканировать веб-сайт, на котором есть много страниц для разных продуктов. Я использую следующий подход. def extract_product_urls(url): page_no = 0 page_urls = set() while True: sel = Selector(text=next(get_html(f'{url}?page={page_no}'))) l…

python python-requests parsel

26 июл '18 в 14:31

2 ответа

Использование parsel в проекте Scrapy

Я пытаюсь использовать библиотеку parsel для очистки элементов из HTML-файла в проекте Scrapy. Это мои паучьи коды, названные 123Spider: import scrapy import requests class 123Spider(scrapy.Spider): name = "123Spider" start_url = [ 'file://URI' ] de…

python html scrapy screen-scraping parsel

03 янв '18 в 22:11

1 ответ

Scrapy xpath удаляет текст после <символа

Я пытаюсь получить информацию о продукте с этой страницы. Чтобы получить описание (присутствует внизу страницы), я использую xpath response.xpath('//*[@itemprop="description"]/table//text()').extract()[3].strip() Это дает мне описание: u'Color: Whit…

python web-scraping xpath scrapy parsel

03 ноя '15 в 13:58

1 ответ

Нормализовать пространство для элементов списка и извлечь как массив, используя Scrapy

Я ищу эффективный способ извлечь элементы списка в виде массива. Они должны быть лишены каких-либо лишних пробелов. В настоящее время я делаю это: actions = [] actions_list = sel.xpath('//div[label="Actions Taken"]/article/div/ul') action_items = ac…

python scrapy scrapy-spider parsel

11 ноя '15 в 18:07

0 ответов

Оставьте такие символы, как & quot; сбежал на выходе селектора

Как извлечь необработанный текст с помощью селектора Scrapy (Parsel)? Под сырым я имею в виду экранированный фрагмент текста, например &quot; не превращаясь в ", Вот как воспроизвести: >>> Selector('<p>&quot;</p>').css('…

python scrapy parsel

24 янв '19 в 10:43

2 ответа

Как извлечь только один элемент в тег с помощью скрапа?

Я пытаюсь извлечь текст из тега страницы <dd></dd> с помощью этой команды в оболочке Srapy: [w.strip() for w in response.xpath('//ul[@class="attribute-list"]/li/dl/dd/text()').extract()] Тег dd выглядит так: <dd> Edelstahl <br&g…

scrapy lxml parsel

05 дек '18 в 16:14

2 ответа

Unmarshalling Bundle parsel в другом устройстве

Я должен поместить некоторую информацию в пакет. Тогда я использую parsel и сохранение в SQlite в кляксе ByteArrayOutputStream valueStream = new ByteArrayOutputStream(); try { ContentValues rows = new ContentValues(); rows.put("name", name); Parcel …

android bundle marshalling unmarshalling parsel

14 сен '16 в 18:25

2 ответа

Как извлечь сырой HTML из селектора Scrapy?

Я извлекаю данные js, используя response.xpath('//*')re_first(), а затем преобразовываю их в собственные данные Python. Проблема в том, что методы extract/re, похоже, не обеспечивают способ не заключать в кавычки html, т.е. оригинальный HTML: {my_fi…

python scrapy parsel

19 янв '16 в 21:57

1 ответ

Обойти теги em при извлечении содержимого имени класса с помощью селектора Parsel

Я пытаюсь извлечь содержимое имени класса. Как извлечь все содержимое, включая содержимое тегов "em" и после тегов "em"? Смотрите картинку ниже: Я попробовал следующее, и это были результаты: Испытание 1: driver = webdriver.Chrome(options=options) s…

html python-3.x selenium-webdriver parsel

25 мар '19 в 09:10

0 ответов

Как установить парсел на машину с Ubuntu?

Пожалуйста, у меня проблемы с установкой парселя Я нахожусь на машине с Ubuntu 18.04 и python 3.8.2 Я установил с помощью команды "pip install parsel", но когда я вызываю "from parsel import Selector", он все равно появляется: ModuleNotFoundError: н…

python parsel

22 июн '20 в 22:52

0 ответов

Использование DTD Resolver с синтаксическим анализатором Python

С lxml etree мы можем установить преобразователь DTD как xml_parser = etree.XMLParser(.....) xml_parser.resolvers.add(DtdResolver()) Однако как установить DtdResolver с помощью Parsel (python)

python parsel

10 июл '20 в 16:10

3 ответа

Как scrapy получить второй <a href> внутри класса div?

Я просто пытаюсь получить url из в div class. Но этоdiv имеет два <a href>. Итак, он может получить первый, но он должен получить второй. Как я могу это сделать? Это html-код веб-сайта: <div class="active"> <a href="javascript:;" clas…

python html scrapy css-selectors parsel

01 ноя '19 в 09:41

1 ответ

scrapy не может обрабатывать символ "<"

Я пытаюсь извлечь текст, содержащий "<" (ниже символа). На моем локальном хосте все работает нормально, однако на сервере текст после и включая "<" обрезается. 1) hipoksemia tętnicza (PaO<sub>2</sub>/FiO<sub>2</sub> < 300 …

scrapy lxml parsel

07 ноя '19 в 16:59

2 ответа

Как получить неэлементный текст рядом с тегом с помощью Scrapy?

Я пытаюсь удалить страницу с помощью Scrapy Framework. <div class="info"><span class="label">Establishment year</span> 2014</div> Тег, с которым я хочу иметь дело, выглядит так, как показано выше. Я хочу получить значение 201…

python web-scraping scrapy parsel

05 май '20 в 20:14

0 ответов

Парсер Linkedin для извлечения навыков

Я пытаюсь очистить общедоступные профили людей, чтобы получить наиболее общие навыки для определенных ролей. Я могу извлечь адрес электронной почты, название компании, имя, должность и т. Д., Но не могу получить необходимые навыки. Я использую Selec…

python selenium webdriver parsel

25 май '20 в 22:25

1 ответ

Scrapy Xpath Selector возвращает частичный текст

У меня есть текст в p тег, который может содержать дополнительные теги, например emвнутри этого. Когда я передаю следующий текстparsel XPath селектор и спросите первый p тег он возвращает мне частичную строку. from parsel import Selector selector = …

python scrapy html-parsing parsel

21 авг '20 в 13:47

1 ответ

Может ли селектор lxml / scrapy не передавать объекты html

Как получить исходные объекты html после использования xpath селектора lxml / scrapy? Я уже пробовал lxml вместо пакета parsel, та же проблема. mytext = '<html><body><span>go&nbsp;od</span></body></html>' sel …

python scrapy lxml html-entities parsel

06 ноя '19 в 01:16

1 ответ

Получите числовой вывод с помощью parsel

Я пытаюсь разобрать числовое поле с помощью parsel. По умолчанию в документации показано, как извлекать текст. И это: from parsel import Selector html = "<title>2</title>\n" selector = Selector(text=html) get_text = selector.css("title::…

python css parsel

24 фев '21 в 17:26

1 ответ

Linkedin Scraper, Parsel Selector undefined

Получив эту ошибку, я разочарован, кто-нибудь поможет! for linkedin_url in linkedin_urls: driver.get(linkedin_url) sleep(5) Sel=Selector(text=driver.page_source) name = Sel.xpath("//div[starts-with(@class, 'text-heading-xlarge inline t-24 v-align-mi…

python selenium selector parsel

13 июн '21 в 07:52