Описание тега pyspider

Система Powerful Spider(веб-сканер) на основе Python
1 ответ

Не в состоянии очистить изображения с pyspider и phantomjs

Теперь я хочу скрести все изображения предметов (iphone) на этой веб-странице. Сначала я извлекаю все ссылки изображения, а затем отправляю запрос src по одной и загружаю их в папку "/phone/". Вот мой код: from pyspider.libs.base_handler import * cl…
02 июн '16 в 11:19
1 ответ

Извлечение текста из 200 тысяч доменов с помощью scrapy

Моя проблема: я хочу извлечь весь ценный текст из некоторого домена, например www.example.com. Поэтому я захожу на этот сайт и посещаю все ссылки с максимальной глубиной 2 и записываю в него csv файл. Я написал модуль в scrapy, который решает эту пр…
21 дек '16 в 12:20
1 ответ

pyspider: нет модуля с именем 'wsgidav'

Я использую Python 3.5.2 на Windows 10, я установил Pyspider и запустить pyspider allЕсть некоторые ошибки, как следует: что я должен делать?
29 июн '16 в 10:11
0 ответов

Фантом pyspider не включен;501 Sever Error

Я использовал pyspider для сканирования веб-сайта, при использовании PhantomJs произошла некоторая ошибка следующим образом: введите описание изображения здесь введите описание изображения здесь Я искал решения в https://github.com/binux/pyspider/is…
23 окт '18 в 16:45
1 ответ

Почему этот код загружает только данные одной страницы?

Я пробовал много раз, но это не работает: import requests from lxml import html, etree from selenium import webdriver import time, json #how many page do you want to scan page_numnotint = input("how many page do you want to scan") page_num = int(pag…
07 май '17 в 12:41
1 ответ

Почему использование метода BeautifulSoup find_all приведет к ошибке (индекс списка вне диапазона)?

HTML, как это: <div id="market-summary"> ... <li> <span class="title">title1</span> <span class="subtitle">subtitle1</span> <li> <li> <span class="title">title2</span> <span class="subti…
01 окт '18 в 06:38
1 ответ

Установка Pyspider для Python 3.5/win 64 "Колесо неудачной сборки для lxml

Я пытаюсь установить pyspider и всегда получаю "Не удалось создать колесо для lxml...", похоже, что lxml установлен неправильно, и я попытался загрузить lxml-3.6.1-cp35-cp35m-win_amd64.whl с http://www.lfd.uci.edu/~gohlke/pythonlibs/. Однако, похоже…
05 авг '16 в 07:32
1 ответ

Как скрыть непрерывный рейтинг попаданий (Обновить) на веб-сайт

Я разработал код Python (Запросы) и Java для сбора данных с веб-сайта. И он будет работать, постоянно обновляя сайт для новых данных.Но сайт недавно идентифицировал мой скребок как автоматизированный сервис, и моя учетная запись была заблокирована. …
0 ответов

Программа-паук Python AttributeError: Объект не имеет атрибута

Я только начинаю изучать Python. И я хочу написать программу Spider, чтобы получить несколько шуток в Интернете. Когда я запускаю программу, появляется предупреждение: "AttributeError: объект Spider_Model" не имеет атрибута "pages". И решения, котор…
18 янв '18 в 09:00
1 ответ

Python ValueError: Неверное имя заголовка b': орган

Я вижу, что ':' это ошибка, но я не могу найти способ ее решить. ValueError: Invalid header name b':authority' Это ошибка: File "tmall.py", line 23, in get_url response = sessions.get(url=url,headers =headers) File "E:\python\lib\site-packages\reque…
1 ответ

Я хочу сохранить вывод скрипта Python Pyspider в CSV или JSON

Вот мой код, который я сделал: import json from pyspider.libs.base_handler import * f = open("demo.txt","w") class Handler(BaseHandler): crawl_config = { } @every(minutes=0,seconds = 0) def on_start(self): self.crawl('Any URL', callback=self.index_p…
28 июн '16 в 07:02
0 ответов

Как избежать закрытия курсора базы данных? при запуске пула процессов курсор будет закрыт. тогда я не могу вставить данные в базу данных

from bs4 import BeautifulSoup import requests import time import pymysql from multiprocessing import Pool import os t1=time.time() Определите метод def multiproc(i,s,cursor): t3=time.time() print('process %s download %s page,time %s'%(os.getpid(),i,…
16 июл '18 в 13:23
1 ответ

Получение ImportError при запуске pyspider в Терминале

Когда я начинаю pyspider по pyspider all в терминале выскакивает ImportError: ImportError: cannot import name 'Curlasync_HTTPClient' from 'tornado.curl_httpclient' (/Library/Frameworks/Python.framework/Versions/3.7/lib/python3.7/site-packages/tornad…
0 ответов

Я пытаюсь запустить scrapy crawl и получаю эту ошибку "ModuleNotFoundError: Нет модуля с именем 'win32api'"

Я пытаюсь запустить команду Scrapy Crawl в Python 3.6 и получаю эту ошибку ModuleNotFoundError: Нет модуля с именем 'win32api' Я попытался использовать pip install win32api. В нем говорится: "Не удалось найти версию, которая удовлетворяет требованию…
02 окт '17 в 20:26
0 ответов

Как scrapy и pyspider отправляют запросы на веб-сервер

Я изучаю фрейм Creeper: Scrapy и Pyspider, и мне интересно, как они отправляют запросы на веб-сервер. Используют ли они модуль python: запросы или встроенный модуль urllib? Любой совет полезен. Спасибо.
17 май '16 в 03:41
1 ответ

Можно ли заменить Scrapy на pyspider?

Я использую Scrapy фреймворк web-scraping довольно широко, но недавно я обнаружил, что есть еще одна фреймворк / система, называемая pyspider, который, согласно его странице github, является новым, активно развитым и популярным. pyspider На домашней…
02 дек '14 в 06:33
0 ответов

Ошибка питона 104 Сброс соединения по пиру

Я не могу понять, почему я продолжаю получать эту ошибку или как ее исправить. Я запустил несколько разных URL, и эта ошибка не возникает каждый раз. Это то, что я могу исправить или что-то в моем коде я могу исправить, или это что-то вне моей власт…
1 ответ

Проблемы с написанием Scrapy Selector

Новичок в python, пытающийся изучить возможность импорта давно разработанного проекта с другого языка, и приятель клянется, что Python - мой ответ. У меня есть и работает IDE, scrapy работает должным образом и правильно выводит "name" и "rank", пере…
14 авг '19 в 05:26
2 ответа

Импортировано, но не используется в python

import bumpy as np import matplotlib.pyplot as per import pandas as pd. Консоль с некоторым предупреждением. Кто-нибудь может мне с этим помочь
08 авг '19 в 12:45
0 ответов

Есть ли в PySpider щелчок или установка значения api при парсинге?

При многократном парсинге нам нужно установить какое-то значение на конечном сайте, а затем нужно нажать на поиск для получения дополнительных результатов.
14 янв '20 в 09:41