Описание тега parsel
Parsel позволяет извлекать данные из документов XML/HTML с помощью селекторов XPath или CSS. Используется внутри и поддерживается scrapy
1
ответ
Как я могу сделать scrapy проверку поля и игнорировать поиск по ссылке
import scrapy from scrapy.selector import HtmlXPathSelector from scrapy.http.request import Request class SunBizSpider(scrapy.Spider): name = 'sunbiz' start_urls = ['http://search.sunbiz.org/Inquiry/CorporationSearch/SearchResults?inquiryType=Entity…
03 ноя '15 в 16:11
0
ответов
Разные URL, открывающие одну и ту же веб-страницу python
Я пытаюсь сканировать веб-сайт, на котором есть много страниц для разных продуктов. Я использую следующий подход. def extract_product_urls(url): page_no = 0 page_urls = set() while True: sel = Selector(text=next(get_html(f'{url}?page={page_no}'))) l…
26 июл '18 в 14:31
2
ответа
Использование parsel в проекте Scrapy
Я пытаюсь использовать библиотеку parsel для очистки элементов из HTML-файла в проекте Scrapy. Это мои паучьи коды, названные 123Spider: import scrapy import requests class 123Spider(scrapy.Spider): name = "123Spider" start_url = [ 'file://URI' ] de…
03 янв '18 в 22:11
1
ответ
Scrapy xpath удаляет текст после <символа
Я пытаюсь получить информацию о продукте с этой страницы. Чтобы получить описание (присутствует внизу страницы), я использую xpath response.xpath('//*[@itemprop="description"]/table//text()').extract()[3].strip() Это дает мне описание: u'Color: Whit…
03 ноя '15 в 13:58
1
ответ
Нормализовать пространство для элементов списка и извлечь как массив, используя Scrapy
Я ищу эффективный способ извлечь элементы списка в виде массива. Они должны быть лишены каких-либо лишних пробелов. В настоящее время я делаю это: actions = [] actions_list = sel.xpath('//div[label="Actions Taken"]/article/div/ul') action_items = ac…
11 ноя '15 в 18:07
0
ответов
Оставьте такие символы, как & quot; сбежал на выходе селектора
Как извлечь необработанный текст с помощью селектора Scrapy (Parsel)? Под сырым я имею в виду экранированный фрагмент текста, например &quot; не превращаясь в ", Вот как воспроизвести: >>> Selector('<p>&quot;</p>').css('…
24 янв '19 в 10:43
2
ответа
Как извлечь только один элемент в тег с помощью скрапа?
Я пытаюсь извлечь текст из тега страницы <dd></dd> с помощью этой команды в оболочке Srapy: [w.strip() for w in response.xpath('//ul[@class="attribute-list"]/li/dl/dd/text()').extract()] Тег dd выглядит так: <dd> Edelstahl <br&g…
05 дек '18 в 16:14
2
ответа
Unmarshalling Bundle parsel в другом устройстве
Я должен поместить некоторую информацию в пакет. Тогда я использую parsel и сохранение в SQlite в кляксе ByteArrayOutputStream valueStream = new ByteArrayOutputStream(); try { ContentValues rows = new ContentValues(); rows.put("name", name); Parcel …
14 сен '16 в 18:25
2
ответа
Как извлечь сырой HTML из селектора Scrapy?
Я извлекаю данные js, используя response.xpath('//*')re_first(), а затем преобразовываю их в собственные данные Python. Проблема в том, что методы extract/re, похоже, не обеспечивают способ не заключать в кавычки html, т.е. оригинальный HTML: {my_fi…
19 янв '16 в 21:57
1
ответ
Обойти теги em при извлечении содержимого имени класса с помощью селектора Parsel
Я пытаюсь извлечь содержимое имени класса. Как извлечь все содержимое, включая содержимое тегов "em" и после тегов "em"? Смотрите картинку ниже: Я попробовал следующее, и это были результаты: Испытание 1: driver = webdriver.Chrome(options=options) s…
25 мар '19 в 09:10
0
ответов
Как установить парсел на машину с Ubuntu?
Пожалуйста, у меня проблемы с установкой парселя Я нахожусь на машине с Ubuntu 18.04 и python 3.8.2 Я установил с помощью команды "pip install parsel", но когда я вызываю "from parsel import Selector", он все равно появляется: ModuleNotFoundError: н…
22 июн '20 в 22:52
0
ответов
Использование DTD Resolver с синтаксическим анализатором Python
С lxml etree мы можем установить преобразователь DTD как xml_parser = etree.XMLParser(.....) xml_parser.resolvers.add(DtdResolver()) Однако как установить DtdResolver с помощью Parsel (python)
10 июл '20 в 16:10
3
ответа
Как scrapy получить второй <a href> внутри класса div?
Я просто пытаюсь получить url из в div class. Но этоdiv имеет два <a href>. Итак, он может получить первый, но он должен получить второй. Как я могу это сделать? Это html-код веб-сайта: <div class="active"> <a href="javascript:;" clas…
01 ноя '19 в 09:41
1
ответ
scrapy не может обрабатывать символ "<"
Я пытаюсь извлечь текст, содержащий "<" (ниже символа). На моем локальном хосте все работает нормально, однако на сервере текст после и включая "<" обрезается. 1) hipoksemia tętnicza (PaO<sub>2</sub>/FiO<sub>2</sub> < 300 …
07 ноя '19 в 16:59
2
ответа
Как получить неэлементный текст рядом с тегом с помощью Scrapy?
Я пытаюсь удалить страницу с помощью Scrapy Framework. <div class="info"><span class="label">Establishment year</span> 2014</div> Тег, с которым я хочу иметь дело, выглядит так, как показано выше. Я хочу получить значение 201…
05 май '20 в 20:14
0
ответов
Парсер Linkedin для извлечения навыков
Я пытаюсь очистить общедоступные профили людей, чтобы получить наиболее общие навыки для определенных ролей. Я могу извлечь адрес электронной почты, название компании, имя, должность и т. Д., Но не могу получить необходимые навыки. Я использую Selec…
25 май '20 в 22:25
1
ответ
Scrapy Xpath Selector возвращает частичный текст
У меня есть текст в p тег, который может содержать дополнительные теги, например emвнутри этого. Когда я передаю следующий текстparsel XPath селектор и спросите первый p тег он возвращает мне частичную строку. from parsel import Selector selector = …
21 авг '20 в 13:47
1
ответ
Может ли селектор lxml / scrapy не передавать объекты html
Как получить исходные объекты html после использования xpath селектора lxml / scrapy? Я уже пробовал lxml вместо пакета parsel, та же проблема. mytext = '<html><body><span>go&nbsp;od</span></body></html>' sel …
06 ноя '19 в 01:16
1
ответ
Получите числовой вывод с помощью parsel
Я пытаюсь разобрать числовое поле с помощью parsel. По умолчанию в документации показано, как извлекать текст. И это: from parsel import Selector html = "<title>2</title>\n" selector = Selector(text=html) get_text = selector.css("title::…
24 фев '21 в 17:26
1
ответ
Linkedin Scraper, Parsel Selector undefined
Получив эту ошибку, я разочарован, кто-нибудь поможет! for linkedin_url in linkedin_urls: driver.get(linkedin_url) sleep(5) Sel=Selector(text=driver.page_source) name = Sel.xpath("//div[starts-with(@class, 'text-heading-xlarge inline t-24 v-align-mi…
13 июн '21 в 07:52