Python - Строка разделенных линий
add_numbers( "A1", "Element 560234 65952 6598881 20203256 2165883 659562 654981 24120 261240 31648948 23900 5512400 5512900 5612400 5612900" )
add_numbers( "A2", "Element 261240 31659 5612400 76803256 3165883 659863 654224 44120 261240 31648948 23900 3612200 9512900 5612400 5642924" )
add_numbers( "A3", "Element 841225 65952 2165883 63103256 2165883 644861 344966 84120 161540 31653948 23900 5513426 5518906 5682405 8682932" )
Я хочу получить словарь (из строки выше, которая является текстовым файлом), который выглядит следующим образом:
{A1: 560234, 65952,6598881, 20203256,2165883, 659562,....}
{A2: 261240 31659 5612400,....}
{A3: 841225 65952 2165883,....}
Есть ли у вас какие-либо идеи? Как мне этого добиться? Спасибо.
2 ответа
Решение
Понимая теперь, что вы хотите обработать это
add_numbers( "A1", "Element 560234 65952 6598881 20203256 2165883 659562 654981 24120 261240 31648948 23900 5512400 5512900 5612400 5612900" )
add_numbers( "A2", "Element 261240 31659 5612400 76803256 3165883 659863 654224 44120 261240 31648948 23900 3612200 9512900 5612400 5642924" )
add_numbers( "A3", "Element 841225 65952 2165883 63103256 2165883 644861 344966 84120 161540 31653948 23900 5513426 5518906 5682405 8682932" )
как буквальное содержимое текстового файла в словарь, я бы сделал это так:
import re // import regular expression module
d = {}
for line in open("myfile.txt", "r"):
if not line.strip(): continue // Skip blank lines
data = re.findall('"([^"]*)"', line) // Extract text between double quotes
if len(data) != 2: continue // There were not exactly two pairs of double quotes, skip this line
key, value = data
d[key] = map(int, value.split()[1:]) // Remove "Element" and convert numbers to integers, add to dictionary
Объяснение регулярного выражения "([^"]*)"
:
"( )"
сопоставлять вещи внутри кавычек[^"]*
любая строка из 0 или более символов, которая не"
re.findall
вернет результаты в списке.
редактировать
Я получаю ошибку. ValueError: для распаковки нужно более 1 значения
У вас должна быть строка, которая не содержит двух пар двойных кавычек в вашем файле. Я обновил код выше, чтобы игнорировать строки, которые не соответствуют вашей спецификации.
import re,ast
def add_numbers(d,key,elements): #we pass in a reference to a dict, which we update
d[key] = map(int,elements.split()[1:]) #Returns ["Element",...], so we select all but first [1:]
dic = {}
with open('file.txt') as f:
for line in f:
key,elems = ast.literal_eval(re.search(r'\((.+)\)',line).group(0))
add_numbers(dic,key,elems)
Производит
>>>
{'A1': [560234, 65952, 6598881, 20203256, 2165883, 659562, 654981, 24120, 261240, 31648948, 23900, 5512400, 5512900, 5612400, 5612900], 'A3': [841225, 65952, 2165883, 63103256, 2165883, 644861, 344966, 84120, 161540, 31653948, 23900, 5513426, 5518906, 5682405, 8682932], 'A2': [261240, 31659, 5612400, 76803256, 3165883, 659863, 654224, 44120, 261240, 31648948, 23900, 3612200, 9512900, 5612400, 5642924]}