Scrapy Pipeline не вставляется в MySQL

Question

Scrapy Pipeline не вставляется в MySQL

Я пытаюсь создать небольшое приложение для университетского проекта с помощью Scrapy. Паук очищает элементы, но мой конвейер не вставляет данные в базу данных MySQL. Чтобы проверить, не работает ли конвейер или не работает реализация pymysl, я написал тестовый скрипт:

Начало кода

#!/usr/bin/python3

import pymysql

str1 = "hey"
str2 = "there"
str3 = "little"
str4 = "script"

db = pymysql.connect("localhost","root","**********","stromtarife" )

cursor = db.cursor()

cursor.execute("SELECT * FROM vattenfall")
cursor.execute("INSERT INTO vattenfall (tarif, sofortbonus, treuebonus, jahrespreis) VALUES (%s, %s, %s, %s)", (str1, str2, str3, str4))
cursor.execute("SELECT * FROM vattenfall")
data = cursor.fetchone()
print(data)
db.commit()
cursor.close()

db.close()

Конец кода

После того, как я запустил этот скрипт, в моей базе данных появилась новая запись, так что это не моя функция pymysql.connect(), которая не работает.

Я предоставлю код скрапа:

vattenfall_form.py

# -*- coding: utf-8 -*-
import scrapy
from scrapy.crawler import CrawlerProcess
from stromtarife.items import StromtarifeItem

from scrapy.http import FormRequest

class VattenfallEasy24KemptenV1500Spider(scrapy.Spider):
    name = 'vattenfall-easy24-v1500-p87435'

    def start_requests(self):
        return [
            FormRequest(
                "https://www.vattenfall.de/de/stromtarife.htm",
                formdata={"place": "87435", "zipCode": "87435", "cityName": "Kempten",
                      "electricity_consumptionprivate": "1500", "street": "", "hno": ""},
            callback=self.parse
        ),
    ]

    def parse(self, response):
        item = StromtarifeItem()
        item['jahrespreis'] = response.xpath('/html/body/main/div[1]/div[2]/div/div[3]/div[2]/div/div[2]/form[1]/div/div[2]/table/tbody/tr[3]/td[2]/text()').extract_first()
        item['treuebonus'] = response.xpath('/html/body/main/div[1]/div[2]/div/div[3]/div[2]/div/div[2]/form[1]/div/div[2]/table/tbody/tr[2]/td/strong/text()').extract_first()
        item['sofortbonus'] = response.xpath('/html/body/main/div[1]/div[2]/div/div[3]/div[2]/div/div[2]/form[1]/div/div[2]/table/tbody/tr[1]/td/strong/text()').extract_first()
        item['tarif'] = response.xpath('/html/body/main/div[1]/div[2]/div/div[3]/div[2]/div/div[1]/h2/span/text()').extract_first()
        yield item



class VattenfallEasy24KemptenV2500Spider(scrapy.Spider):
    name = 'vattenfall-easy24-v2500-p87435'

    def start_requests(self):
        return [
                    FormRequest(
                    "https://www.vattenfall.de/de/stromtarife.htm",
                    formdata={"place": "87435", "zipCode": "87435", "cityName": "Kempten",
                              "electricity_consumptionprivate": "2500", "street": "", "hno": ""},
                    callback=self.parse
                ),
    ]

    def parse(self, response):
        item = StromtarifeItem()
        item['jahrespreis'] = response.xpath('/html/body/main/div[1]/div[2]/div/div[3]/div[2]/div/div[2]/form[1]/div/div[2]/table/tbody/tr[3]/td[2]/text()').extract_first()
        item['treuebonus'] = response.xpath('/html/body/main/div[1]/div[2]/div/div[3]/div[2]/div/div[2]/form[1]/div/div[2]/table/tbody/tr[2]/td/strong/text()').extract_first()
        item['sofortbonus'] = response.xpath('/html/body/main/div[1]/div[2]/div/div[3]/div[2]/div/div[2]/form[1]/div/div[2]/table/tbody/tr[1]/td/strong/text()').extract_first()
        item['tarif'] = response.xpath('/html/body/main/div[1]/div[2]/div/div[3]/div[2]/div/div[1]/h2/span/text()').extract_first()
        yield item



process = CrawlerProcess()
process.crawl(VattenfallEasy24KemptenV1500Spider)
process.crawl(VattenfallEasy24KemptenV2500Spider)
process.start()

pipelines.py

import pymysql
from stromtarife.items import StromtarifeItem


class StromtarifePipeline(object):
    def __init__(self):
        self.connection = pymysql.connect("localhost","root","**********","stromtarife")
        self.cursor = self.connection.cursor()


    def process_item(self, item, spider):
        self.cursor.execute("INSERT INTO vattenfall (tarif, sofortbonus, treuebonus, jahrespreis) VALUES (%s, %s, %s, %s)", (item['tarif'], item['sofortbonus'], item['treuebonus'], item['jahrespreis']))
        self.connection.commit()
        self.cursor.close()
        self.connection.close()

settings.py (я изменил только эту строку)

ITEM_PIPELINES = {
   'stromtarife.pipelines.StromtarifePipeline': 300,
}

Так что не так с моим кодом? Я не мог понять это и был бы действительно счастлив, если бы кто-то видел что-то, чего я скучаю. Заранее спасибо!

2

mysql web-scraping scrapy pymysql scrapy-pipeline

Источник

user7930318 27 апр '17 в 11:11

3 ответа

Другие вопросы по тегам mysql web-scraping scrapy pymysql scrapy-pipeline

user7820534 27 апр '17 в 11:28 2017-04-27 11:28 · Answer 1 · 2017-04-27 11:28

Вам не следует закрывать соединение pymsql каждый раз, когда вы обрабатываете элемент.

Вы должны написать close_spider Функция в вашем конвейере выглядит следующим образом, поэтому соединение закрывается только один раз в конце выполнения:

 def close_spider(self, spider):
        self.cursor.close()
        self.connection.close()

Кроме того, вам нужно вернуть свой товар в конце process_item

Ваш файл pipe.py должен выглядеть так:

import pymysql
from stromtarife.items import StromtarifeItem


class StromtarifePipeline(object):
    def __init__(self):
        self.connection = pymysql.connect("localhost","root","**********","stromtarife")
        self.cursor = self.connection.cursor()


    def process_item(self, item, spider):
        self.cursor.execute("INSERT INTO vattenfall (tarif, sofortbonus, treuebonus, jahrespreis) VALUES (%s, %s, %s, %s)", (item['tarif'], item['sofortbonus'], item['treuebonus'], item['jahrespreis']))
        self.connection.commit()
        return item

    def close_spider(self, spider):
        self.cursor.close()
        self.connection.close()

ОБНОВИТЬ:

Я попробовал ваш код, проблема в конвейере, есть две проблемы:

Вы пытаетесь проиндексировать символ евро € и я думаю, что MySQL не нравится.
Строка запроса не очень хорошо сложена.

Мне удалось добиться цели, написав конвейер следующим образом:

def process_item(self, item, spider):
    query = """INSERT INTO vattenfall (tarif, sofortbonus, treuebonus, jahrespreis) VALUES (%s, %s, %s, %s)""" % ("1", "2", "3", "4")
    self.cursor.execute(query)
    self.connection.commit()
    return item

Я думаю, что вы должны удалить € из цен, которые вы пытаетесь вставить.

Надеюсь, это поможет, дайте мне знать.

user7543162 01 июл '18 в 04:59 2018-07-01 04:59 · Answer 2 · 2018-07-01 04:59

Прежде всего, в Code Start print(data) должен прийти после db.commit()в противном случае данные, которые были только что вставлены в вашу базу данных, не будут отображаться в print,

И наконец, судя по названиям ваших столбцов, вероятно, проблема кодирования, если идея выше не работает.

user1787607 27 апр '17 в 13:05 2017-04-27 13:05 · Answer 3 · 2017-04-27 13:05

Есть еще одна проблема с вашим шабером, кроме того, что ваш SQL-конвейер закрывает соединение SQL после записи первого элемента (как указал Адриен).

Другая проблема: ваш скребок очищает только один элемент на странице результатов (а также посещает только одну страницу результатов). Я проверил Vattenfall, и обычно отображаются несколько результатов, и я думаю, что вы хотите очистить их все.

Это означает, что вам также придется перебирать результаты на странице и при этом создавать несколько элементов. Учебное пособие по Scrapy здесь дает хорошее объяснение, как это сделать: https://doc.scrapy.org/en/latest/intro/tutorial.html