Ошибка при импорте тэга rss feeds pubDate в базу данных MySQL с использованием python
У меня есть проблема с тем, чтобы вставить тег pubDate в мою таблицу mysql, на самом деле я пытаюсь поместить в свою таблицу примечания теги (title, link и pubDate) и последний тег (PubDate) имеют проблемы.
Я объясняю код:
первый шаг прочитайте страницу rss и напишите xml файл
На втором этапе создайте CSV-файл только с 3 тегами (title, link и pubDate). Примечание. В этом коде мне нужно использовать:
item.findtext('pubDate')
потому что если я используюitem.find('pubDate').text
это генерирует ошибку, хотя файл генерируется правильно с использованием обоих случаев.и последний шаг, чтобы сохранить информацию файла CSV в моей таблице в MySQL.
На этом шаге я получил следующую ошибку:
Connected to pydev debugger (build 171.4694.38)
Traceback (most recent call last):
File "C:\Program Files\JetBrains\PyCharm Community Edition 2017.1.4\helpers\pydev\pydevd.py", line 1591, in <module>
globals = debugger.run(setup['file'], None, None, is_module)
File "C:\Program Files\JetBrains\PyCharm Community Edition 2017.1.4\helpers\pydev\pydevd.py", line 1018, in run
pydev_imports.execfile(file, globals, locals) # execute the script
File "C:\Program Files\JetBrains\PyCharm Community Edition 2017.1.4\helpers\pydev\_pydev_imps\_pydev_execfile.py", line 18, in execfile
exec(compile(contents+"\n", file, 'exec'), glob, loc)
File "C:/Users/SoriyAntony/PycharmProjects/cnnwithcvsanddb/cnnfull", line 78, in <module>
main()
File "C:/Users/SoriyAntony/PycharmProjects/cnnwithcvsanddb/cnnfull", line 72, in main
testdb()
File "C:/Users/SoriyAntony/PycharmProjects/cnnwithcvsanddb/cnnfull", line 56, in testdb
(r[1:] for r in csv_data.itertuples()))
File "C:\Users\SoriyAntony\AppData\Local\Programs\Python\Python36-32\lib\site-packages\mysql\connector\cursor.py", line 654, in executemany
return self.execute(stmt)
File "C:\Users\SoriyAntony\AppData\Local\Programs\Python\Python36-32\lib\site-packages\mysql\connector\cursor.py", line 551, in execute
self._handle_result(self._connection.cmd_query(stmt))
File "C:\Users\SoriyAntony\AppData\Local\Programs\Python\Python36-32\lib\site-packages\mysql\connector\connection.py", line 490, in cmd_query
result = self._handle_result(self._send_cmd(ServerCmd.QUERY, query))
File "C:\Users\SoriyAntony\AppData\Local\Programs\Python\Python36-32\lib\site-packages\mysql\connector\connection.py", line 395, in _handle_result
raise errors.get_exception(packet)
mysql.connector.errors.ProgrammingError: 1054 (42S22): Unknown column 'nan' in 'field list'
Process finished with exit code 1
Я думаю, что эта проблема должна быть на pubDate, потому что, если я запускаю программу в двух частях:
первая часть:
Создайте xml и CSV, но измените параметр на pubDate: item.find('pubDate').text
сгенерируйте файлы xml и csv успешно, но код показывает ошибку об pubdate.
вторая часть:
вставить в mysql из файла csv, созданного на первом шаге. программа работает успешно и без ошибок. проверьте мою базу данных и информация загружена.
но в этом варианте я не могу запустить обе программы в одном и том же файле, потому что ошибка не позволяет продолжить и не позволяет выполнить часть о вставке в базу данных.
тогда ошибка на самом деле об этом коде:
# Codigo Python que crea un XML CSV e inserta a una BD MYSQL.
# Llamamos los modulos que necesitamos para ejecutar este script
import csv
import MySQLdb
import requests
import xml.etree.ElementTree as ET
import mysql.connector
import pandas as pd
def loadRSS():
# Configuramos la URL del rss de CNN
url = 'http://rss.cnn.com/rss/edition.xml'
# Creamos un objeto con el que vamos a obtener la url de la variable declarada hace un momento
resp = requests.get(url)
# Procedemos a guardar la informacion en un archivo llamado cnn.XML
with open('cnn.xml', 'wb') as f:
f.write(resp.content)
def loadcsv():
tree = ET.parse("cnn.xml")
root = tree.getroot()
d = open('cnn.csv', 'w')
csvwriter = csv.writer(d)
count = 0
head = ['title', 'link', 'pubDate']
csvwriter.writerow(head)
for item in root.findall('./channel/item'):
row = []
title_name = item.find('title').text
row.append(title_name)
link_name = item.find('link').text
row.append(link_name)
pubDate_name = item.findtext('pubDate')
row.append(pubDate_name)
csvwriter.writerow(row)
d.close()
def testdb():
cnx = mysql.connector.connect(user='root', password='password', host='localhost', database='cnn')
cursor = cnx.cursor()
csv_data = pd.read_csv('cnn.csv')
for row in csv_data.iterrows():
cursor.executemany(
"INSERT INTO noticias(title, link, pubDate) VALUES(%s, %s, %s)",
(r[1:] for r in csv_data.itertuples()))
cnx.commit()
cursor.close()
cnx.close()
#connection = MySQLdb.Connect(host='localhost', user='root', passwd='password', db='cnn')
#cursor = connection.cursor()
#query = "LOAD DATA INFILE 'cnn.csv' INTO TABLE noticias(title, link, pubdate)"
#cursor.execute(query)
#connection.commit()
def main():
# Inicializamos los modulos definidos en el programa.
loadRSS()
loadcsv()
testdb()
if __name__ == "__main__":
# llamamos el metodo main
main()
У кого-то есть идея об этой ошибке.
Обновление: я добавляю строку:
print(csv_data.head())
Добавьте вывод, который вы комментируете, и результат отладчика будет таким:
Connected to pydev debugger (build 171.4694.38)
title \
0 Bloodied and broken: The battle against ISIS i...
1 The human cost of ISIS
2 $1B deal to prop up UK government
3 Netanyahu freezes Western Wall plans
4 Only a 'couple of hundred' ISIS fighters left ...
link \
0 http://cnn.it/2sbE6fp
1 http://www.cnn.com/videos/world/2017/06/25/phi...
2 http://www.cnn.com/2017/06/26/europe/theresa-m...
3 http://www.cnn.com/2017/06/26/middleeast/weste...
4 http://www.cnn.com/2017/06/26/middleeast/coupl...
date
0 NaN
1 Mon, 26 Jun 2017 08:49:00 GMT
2 Mon, 26 Jun 2017 11:59:24 GMT
3 Mon, 26 Jun 2017 13:09:30 GMT
4 Mon, 26 Jun 2017 13:16:21 GMT
Traceback (most recent call last):
File "C:\Program Files\JetBrains\PyCharm Community Edition 2017.1.4\helpers\pydev\pydevd.py", line 1591, in <module>
globals = debugger.run(setup['file'], None, None, is_module)
File "C:\Program Files\JetBrains\PyCharm Community Edition 2017.1.4\helpers\pydev\pydevd.py", line 1018, in run
pydev_imports.execfile(file, globals, locals) # execute the script
File "C:\Program Files\JetBrains\PyCharm Community Edition 2017.1.4\helpers\pydev\_pydev_imps\_pydev_execfile.py", line 18, in execfile
exec(compile(contents+"\n", file, 'exec'), glob, loc)
File "C:/Users/SoriyAntony/PycharmProjects/cnnwithcvsanddb/cnnfull.py", line 80, in <module>
main()
File "C:/Users/SoriyAntony/PycharmProjects/cnnwithcvsanddb/cnnfull.py", line 74, in main
testdb()
File "C:/Users/SoriyAntony/PycharmProjects/cnnwithcvsanddb/cnnfull.py", line 58, in testdb
(r[1:] for r in csv_data.itertuples()))
File "C:\Users\SoriyAntony\AppData\Local\Programs\Python\Python36-32\lib\site-packages\mysql\connector\cursor.py", line 654, in executemany
return self.execute(stmt)
File "C:\Users\SoriyAntony\AppData\Local\Programs\Python\Python36-32\lib\site-packages\mysql\connector\cursor.py", line 551, in execute
self._handle_result(self._connection.cmd_query(stmt))
File "C:\Users\SoriyAntony\AppData\Local\Programs\Python\Python36-32\lib\site-packages\mysql\connector\connection.py", line 490, in cmd_query
result = self._handle_result(self._send_cmd(ServerCmd.QUERY, query))
File "C:\Users\SoriyAntony\AppData\Local\Programs\Python\Python36-32\lib\site-packages\mysql\connector\connection.py", line 395, in _handle_result
raise errors.get_exception(packet)
mysql.connector.errors.ProgrammingError: 1054 (42S22): Unknown column 'nan' in 'field list'
Process finished with exit code 1
ОБНОВЛЕНИЕ 27/06/2017:
Я добавляю часть testdb и теперь это:
def testdb():
cnx = mysql.connector.connect(user='root', password='password', host='localhost', database='cnn')
cursor = cnx.cursor()
with open('cnn.csv') as fh:
cursor.executemany(
"INSERT INTO noticias(title, link, pubDate) VALUES(%s, %s, %s)",
[tuple(row) for row in csv.reader(fh)]
)
cnx.commit()
cursor.close()
cnx.close()
когда я отлаживаю программу, ошибка:
Connected to pydev debugger (build 171.4694.38)
Traceback (most recent call last):
File "C:\Users\SoriyAntony\AppData\Local\Programs\Python\Python36-32\lib\site-packages\mysql\connector\cursor.py", line 75, in __call__
return bytes(self.params[index])
IndexError: tuple index out of range
During handling of the above exception, another exception occurred:
Traceback (most recent call last):
File "C:\Program Files\JetBrains\PyCharm Community Edition 2017.1.4\helpers\pydev\pydevd.py", line 1591, in <module>
globals = debugger.run(setup['file'], None, None, is_module)
File "C:\Program Files\JetBrains\PyCharm Community Edition 2017.1.4\helpers\pydev\pydevd.py", line 1018, in run
pydev_imports.execfile(file, globals, locals) # execute the script
File "C:\Program Files\JetBrains\PyCharm Community Edition 2017.1.4\helpers\pydev\_pydev_imps\_pydev_execfile.py", line 18, in execfile
exec(compile(contents+"\n", file, 'exec'), glob, loc)
File "C:/Users/SoriyAntony/PycharmProjects/cnnwithcvsanddb/cnnfull.py", line 79, in <module>
main()
File "C:/Users/SoriyAntony/PycharmProjects/cnnwithcvsanddb/cnnfull.py", line 73, in main
testdb()
File "C:/Users/SoriyAntony/PycharmProjects/cnnwithcvsanddb/cnnfull.py", line 56, in testdb
[tuple(row) for row in csv.reader(fh)]
File "C:\Users\SoriyAntony\AppData\Local\Programs\Python\Python36-32\lib\site-packages\mysql\connector\cursor.py", line 652, in executemany
stmt = self._batch_insert(operation, seq_params)
File "C:\Users\SoriyAntony\AppData\Local\Programs\Python\Python36-32\lib\site-packages\mysql\connector\cursor.py", line 594, in _batch_insert
tmp = RE_PY_PARAM.sub(psub, tmp)
File "C:\Users\SoriyAntony\AppData\Local\Programs\Python\Python36-32\lib\site-packages\mysql\connector\cursor.py", line 78, in __call__
"Not enough parameters for the SQL statement")
mysql.connector.errors.ProgrammingError: Not enough parameters for the SQL statement
Process finished with exit code 1
Я не знаю, если я забыл добавить что-то.
1 ответ
Комментарий:... но ошибка сейчас
Уместна только первая ошибка: IndexError: tuple index out of range
Данные CSV должны быть неправильными, проверьте перед передачей в MySQL:
import csv
records = []
with open('test/cnn.csv') as fh:
for row in csv.reader(fh):
_tuple = tuple(row)
if len(_tuple) == 3:
records.append(_tuple)
else:
print('[FAIL]: Tupel Length not 3, found {} in {}'.format(len(_tuple), _tuple))
cursor.executemany("INSERT INTO noticias(title, link, pubDate) VALUES(%s, %s, %s)", records)
Комментарий: ошибка: не все параметры были использованы в операторе SQL
В соответствии с MySQL Connector/Python Developer Guide: 10.5.5 - Метод MySQLCursor.executemany():data = [ ('Jane', date(2005, 2, 12)), ('Joe', date(2006, 5, 23)), ('John', date(2010, 10, 3)), ] stmt = "INSERT INTO employees (first_name, hire_date) VALUES (%s, %s)" cursor.executemany(operation, seq_of_params)
seq_of_params должен быть списком кортежей
Поэтому вам не нужно for
Цикл для итерации данных строк CSV, вы должны передать все данные CSV в виде списка кортежей. Второе использование csv module
вместо pandas
, Изменить на:
import csv
with open('cnn.csv') as fh:
cursor.executemany(
"INSERT INTO noticias(title, link, pubDate) VALUES(%s, %s, %s)",
[tuple(row) for row in csv.reader(fh)]
)
Протестировано с Python: 3.4.2
Вопрос: кто-то имеет представление об этой ошибке.
Unknown column 'nan' in 'field list'
Эта часть вашего кода неверна. Вы перебираете csv_data
дважды.
for row in csv_data.iterrows(): cursor.executemany( "INSERT INTO noticias(title, link, pubDate) VALUES(%s, %s, %s)", (r[1:] for r in csv_data.itertuples()))
Не могу сказать, приводит ли это к вышеуказанной ошибке, но вы должны перейти к следующему и повторить попытку, если ошибка не исчезла:
for row in csv_data.iterrows():
cursor.executemany(
"INSERT INTO noticias(title, link, pubDate) VALUES(%s, %s, %s)",
((value for value in row[1]))