DBF - кодировка cp1250
У меня есть база данных dbf, закодированная в cp1250, и я читаю эту базу данных, используя следующий код:
import csv
from dbfpy import dbf
import os
import sys
filename = sys.argv[1]
if filename.endswith('.dbf'):
print "Converting %s to csv" % filename
csv_fn = filename[:-4]+ ".csv"
with open(csv_fn,'wb') as csvfile:
in_db = dbf.Dbf(filename)
out_csv = csv.writer(csvfile)
names = []
for field in in_db.header.fields:
names.append(field.name)
#out_csv.writerow(names)
for rec in in_db:
out_csv.writerow(rec.fieldData)
in_db.close()
print "Done..."
else:
print "Filename does not end with .dbf"
Проблема в том, что окончательный CSV-файл неверен. Кодировка файла - ANSI, некоторые символы повреждены. Я хотел бы спросить вас, если вы можете помочь мне, как правильно прочитать файл DBF.
РЕДАКТИРОВАТЬ 1
Я пробовал другой код из https://pypi.python.org/pypi/simpledbf/0.2.4, есть какая-то ошибка.
Источник 2:
from simpledbf import Dbf5
import os
import sys
dbf = Dbf5('test.dbf', codec='cp1250');
dbf.to_csv('junk.csv');
Выход:
python program2.py
Traceback (most recent call last):
File "program2.py", line 5, in <module>
dbf = Dbf5('test.dbf', codec='cp1250');
File "D:\ProgramFiles\Anaconda\lib\site-packages\simpledbf\simpledbf.py", line 557, in __init__
assert terminator == b'\r'
AssertionError
Я действительно не знаю, как решить эту проблему.
3 ответа
Попробуйте использовать мою библиотеку dbf:
import dbf
with dbf.Table('test.dbf') as table:
dbf.export(table, 'junk.csv')
Я написал SimpledBF. Линия, которая вызывает у вас проблемы, была из некоторого тестирования, которое я проводил при разработке модуля. Прежде всего, вы можете обновить вашу установку, так как 0.2.6 - самая последняя версия. Затем вы можете попробовать удалить эту конкретную строку (#557) из файла "D:\ProgramFiles\Anaconda\lib\site-packages\simpledbf\simpledbf.py". Если это не сработает, вы можете пропинговать меня в репозитории GitHub для simpledbf, или вы можете попробовать предложение Итана для модуля dbf.
Вы можете декодировать и кодировать по мере необходимости. dbfpy
предполагает, что строки utf8
кодируется, так что вы можете декодировать, поскольку это не та кодировка, а затем кодировать снова с правильной кодировкой.
import csv
from dbfpy import dbf
import os
import sys
filename = sys.argv[1]
if filename.endswith('.dbf'):
print "Converting %s to csv" % filename
csv_fn = filename[:-4]+ ".csv"
with open(csv_fn,'wb') as csvfile:
in_db = dbf.Dbf(filename)
out_csv = csv.writer(csvfile)
names = []
for field in in_db.header.fields:
names.append(field.name)
#out_csv.writerow(names)
for rec in in_db:
row = [i.decode('utf8').encode('cp1250') if isinstance(i, str) else i for i in rec.fieldData]
out_csv.writerow(rec.fieldData)
in_db.close()
print "Done..."
else:
print "Filename does not end with .dbf"