Описание тега portia
Portia - это инструмент для визуального просмотра веб-сайтов без каких-либо знаний в области программирования. Просто аннотируйте веб-страницы с помощью редактора "наведи и щелкни", чтобы указать, какие данные вы хотите извлечь, и порция научится очищать похожие страницы с сайта. У Portia есть веб-интерфейс, обслуживаемый сервером Twisted, поэтому вы можете установить его практически на любой современной платформе.
0
ответов
КАК ПОЛУЧИТЬ ФИЛЬТР
Как я могу получить "DummyStatsCollector" в scrapyd. Я изучил по этой ссылке " http://doc.scrapy.org/en/latest/topics/stats.html ".. но нет краткого объяснения о статусе получения соскоба в scrapyd. Я хотел бы иметь возможность сделать что-то вроде …
22 июл '15 в 14:56
0
ответов
Scrapy Webscraping страница профиля Overwatch
Я очень плохо знаком с Python и вообще программирую. Я пытаюсь создать веб-сканер, который собирает данные со страницы плеера overwatch (например, https://playoverwatch.com/en-gb/career/pc/eu/Taimou-2526). Я попытался использовать portia, и это сраб…
28 июл '17 в 13:43
1
ответ
Как получить `ключевые слова` из html, используйте`portia`
Теперь я хочу очистить keywords мета и description с веб-страницы, вот так: <html> <head> <title>test page</title> <meta name="keywords" content="A,B,C"> <meta name="description" content="the description a page"> …
08 сен '15 в 01:48
1
ответ
Невозможно развернуть проект portia с использованием scrapyd-deploy из-за 'Модуль не найден..'
Я оцениваю порцию и сталкиваюсь с проблемой развертывания на scrapyd. Когда я пытаюсь развернуть свой проект portia, используя scrapyd-deploy local -p new_project из моего каталога проекта portia я получаю следующее сообщение об ошибке Packing versi…
04 июн '15 в 18:35
1
ответ
Как получить количество запросов и ответов в scrapyd?
Я пытаюсь получить количество запросов и ответов в scrapyd, в то время как запуск нескольких пауков означает 8 пауков динамически. Я пытаюсь получить их с помощью python. следующие подсчеты: enter code here{'downloader/request_bytes': 130427, 'downl…
22 июл '15 в 10:27
0
ответов
Браузер не поддерживается некоторыми функциями Portia ( Visual Scraper) на основе Scrapy
Я успешно установил Portia и начал запускать его по http://localhost:9001/. Он работал совершенно нормально для нескольких моих проектов, а затем, когда я снова открыл его через некоторое время, он дал мне эту ошибку: К сожалению, ваш браузер не под…
15 фев '19 в 12:33
1
ответ
Как мне получить наименьшее количество статей на сайте, использующих порцию
Я использую порцию для сканирования статьи на веб-сайте, и теперь мне интересно, как я могу получить наименьшую статью каждый день, когда запускаю порцию-паука? У меня есть идея, что использовать datetime из статьи, и по сравнению с теперь datetime.…
01 сен '15 в 09:26
0
ответов
Portiacrawl не предоставляет никакой информации
У меня небольшая проблема с порцией / терапией, и, возможно, у кого-то есть идея, что происходит не так. Я на самом деле работаю с порцией 16.02 в бродячей среде (на windows 10). Я создаю паука для небольшого частного проекта. Паук проверяет страниц…
29 фев '16 в 10:16
1
ответ
Как использовать регулярные выражения в порции визуальной терапии?
Я могу комментировать веб-страницы с помощью веб-сканера Portia, мой вопрос заключается в том, как использовать Regex при извлечении данных. Например, Я извлек местоположение, сохраненное на странице Выход выглядит так: Местоположение: Местоположени…
21 янв '15 в 16:18
0
ответов
Порция паука не ползает предметы
Я создал паука с помощью пользовательского интерфейса Portia, и я развернул и запланировал на одной из моих виртуальных машин с использованием scrapyd. Паук побежал нормально и поцарапал содержимое сайта. Но когда я пытаюсь развернуть и запланироват…
02 ноя '16 в 13:25
1
ответ
Запланируйте паука в scrapyd и передайте параметры конфигурации паука
Я пытаюсь настроить пауки, созданные с помощью slyd, для использования scrapy -asticsearch, поэтому я отправляю -d parameter=value настроить это: curl http://localhost:6800/schedule.json -d project=myproject -d spider=myspider -d setting=CLOSESPIDER…
11 сен '14 в 13:23
1
ответ
Попытка установить Portia на OSX или Ubuntu
Может ли кто-нибудь помочь мне? Я много раз устанавливал Порцию. Все идет хорошо, пока я не дохожу до точки, где я использую команду twistd, и я получаю это: (portia) Matts-Mac-mini: slyd matt $ twistd -n slyd Traceback (самый последний из последних…
01 фев '15 в 06:17
2
ответа
Извлечь мета-теги с веб-сайта с помощью порции (scrapy)
Извлечь мета-теги с веб-сайта с помощью порции (scrapy) я хочу использовать portia для извлечения мета-тегов с какого-либо веб-сайта, но он не показывает заголовок, он начинается только с тега body я могу только извлечь данные из тега тела
27 ноя '14 в 07:55
0
ответов
Как добавить печенье в порцию
Я использую Portia для очистки сайта, но у него есть всплывающее окно для выбора местоположения. Это на основе JS и, следовательно, я не могу взаимодействовать с. Веб-сайт хранит cookie, который затем отключает всплывающее окно, делая веб-сайт приго…
23 апр '15 в 09:14
1
ответ
Как определить регулярное выражение для порции
Я пытаюсь построить регулярное выражение, чтобы я мог ввести это в Portia в качестве ссылки следовать правилу рассматриваемая структура URL: https://www.whoscored.com/Regions/252/Tournaments/2/Seasons/5826/Stages/12496/TeamStatistics/England-Premier…
02 май '16 в 13:42
1
ответ
Промежуточный паук в порции не называется
Я адаптировал код с помощью Middleware, чтобы игнорировать дубликаты в Scrapy. from scrapy.exceptions import DropItem from scrapy import log import os.path class IgnoreDuplicates(): def __init__(self): self._cu_file = open("crawled_urls.txt", "a+") …
24 мар '15 в 18:40
2
ответа
Соскоб в сети из нескольких таблиц, появляющихся при клике
По сути, я хотел бы открыть эту страницу, выбрать "Rüzgar" в последнем выпадающем меню, выполнить запрос с помощью кнопки "Sorgula" и извлечь все координаты, сохраненные в таблице, появляющейся после нажатия первой кнопки первого столбца в основной …
23 мар '16 в 18:58
1
ответ
Ошибки порции (scrapy/slybot) на окнах
Я установил portia и заставил его работать я аннотировал некоторые веб-сайты (выглядит действительно хорошо), но когда я пытаюсь запустить пауков, я получаю некоторые ошибки и ничего не сканируетсяя бегу Python 2.7.6 на победу 7 C:\Python27\Scripts&…
05 апр '14 в 13:15
0
ответов
Как поля хранятся в списке в порции сканирования?
РЕДАКТИРОВАТЬ: Я вижу, что во время работы Portia spider извлеченные поля хранятся в списке переменных python [] и возвращают значения при регистрации извлеченных деталей в scrapyd. Я просто хочу знать, что, как поля извлекаются и хранят эти поля в …
07 авг '15 в 11:45
1
ответ
Как извлечь несколько элементов из одной страницы с помощью Portia/Scrapy Spider
У меня есть сайт, который я хочу сканировать. Он содержит несколько элементов, которые я хочу извлечь на каждой странице. Это очень похоже на желтые страницы онлайн. Он содержит заголовок, номер телефона и категорию для каждого элемента... Так как э…
24 сен '14 в 09:43