Обработка пустого места в таблице чтения из текстового файла python
Мне нужен файл разбора, где эта ссылка приведена ниже. http://bit.ly/1x6yzoX
Я написал этот неверный метод для анализа этого файла, но не смог прочитать неполные данные последнего года (2014), которые пустые места в таблице текстового файла. Сейчас я пропускаю строки, которые не могу прочитать.
Помогите мне разобраться с этой проблемой?
LINES_TO_IGNORE = 7
import collections
import csv
def parse_file(data_file):
result_dict = collections.OrderedDict()
if not data_file:
return result_dict
with open(data_file) as f:
reader = csv.reader(f, delimiter="\t")
data = islice(reader, LINES_TO_IGNORE, None, None)
if not data:
return result_dict
# Get file headers
headers = data.next()
headers = headers[0].split()
keys = headers[1:]
for row in data:
values = row[0].split()
if len(headers) == len(values):
year = parse_to_int(values[0])
data_list = [parse_to_float(x) for x in values[1:]]
# Each line becomes a dict (column_header->value)
data_dict = collections.OrderedDict(zip(keys, data_list))
else:
print "Skipping"
# result_dict is dict of dict (year->data_dict)
result_dict[year] = data_dict
return result_dict
3 ответа
Вы можете использовать genfromtxt
функция от numpy
import numpy as np
data = np.genfromtxt('UK.txt',skiprows=8,delimiter=(4,7,7,7,7,7,7,7,7,7,7,7,7,8,7,7,7,8))
Это автоматически заполнит пропущенные значения, но вам все равно необходимо найти способ определения размеров столбцов и количества пропускаемых строк.
Вот как получить размеры столбца из заголовка:
import re
header="Year JAN FEB MAR APR MAY JUN JUL AUG SEP OCT NOV DEC WIN SPR SUM AUT ANN"
cols=re.findall("\s*[^\s]+",header)
delimiter=tuple([len(c) for c in cols])
Вы можете сделать это легко с пандами:
import pandas as pd
data = pd.read_fwf('UK.txt', skiprows=7, delimiter=' ')
Распечатать последние несколько строк с print data[-3:]
:
Year JAN FEB MAR APR MAY JUN JUL AUG SEP OCT \
102 2012 1.8 1.2 3.4 2.5 6.0 8.8...
103 2013 1.0 -0.1 -0.7 2.2 5.2 8.6...
104 2014 2.1 2.5 2.9 5.3 7.3 9.9...
NOV DEC WIN SPR SUM AUT ANN Unnamed: 3 Unnamed: 4 \
102 2.8 1.1 1.73 4.00 10.19 5.23 5.21 NaN NaN
103 2.4 2.8 0.68 2.26 10.66 6.56 5.21 NaN NaN
104 2.48 5.17 10.46 NaN NaN NaN
Unnamed: 5 Unnamed: 6 Unnamed: 7
102 NaN NaN NaN
103 NaN NaN NaN
104 NaN NaN NaN
Я думаю, что это еще не на 100% правильно, но это близко... надеюсь, вы можете взять это до конца. Не нужно писать так много кода вручную, если вы используете Pandas.
def parse_file(data_file):
result_dict = collections.OrderedDict()
if not data_file:
return result_dict
with open(data_file) as f:
counter = 0
headers = []
for line in f.readlines():
line = line.strip()
counter += 1
if counter == 1:
headers = re.findall('\w+',line)
keys = headers
else:
values = re.findall('([\d\-\.]+|(?:\s){3,4})(?:(?:\s){3,4})?',line)
year = parse_to_int(values[0])
if len(headers) != len(values):
diff_list = ['NaN' for i in range(len(headers) - len(values))]
values.extend(diff_list)
data_list = [parse_to_float(x) for x in values[1:]]
data_dict = collections.OrderedDict(zip(keys, data_list))
result_dict[year] = data_dict
return result_dict