Как переписать эту функцию для реализации OrderedDict?
У меня есть следующая функция, которая выполняет грубую работу по синтаксическому анализу XML-файла в словаре.
К сожалению, так как словари Python не упорядочены, я не могу циклически перемещаться по узлам, как хотелось бы.
Как мне изменить это так, чтобы он выводил упорядоченный словарь, который отражает первоначальный порядок узлов, когда зацикливается с "для".
def simplexml_load_file(file):
import collections
from lxml import etree
tree = etree.parse(file)
root = tree.getroot()
def xml_to_item(el):
item = None
if el.text:
item = el.text
child_dicts = collections.defaultdict(list)
for child in el.getchildren():
child_dicts[child.tag].append(xml_to_item(child))
return dict(child_dicts) or item
def xml_to_dict(el):
return {el.tag: xml_to_item(el)}
return xml_to_dict(root)
x = simplexml_load_file('routines/test.xml')
print x
for y in x['root']:
print y
Выходы:
{'root': {
'a': ['1'],
'aa': [{'b': [{'c': ['2']}, '2']}],
'aaaa': [{'bb': ['4']}],
'aaa': ['3'],
'aaaaa': ['5']
}}
a
aa
aaaa
aaa
aaaaa
Как я могу реализовать collection.OrderedDict, чтобы я мог быть уверен, что получу правильный порядок узлов?
XML-файл для справки:
<root>
<a>1</a>
<aa>
<b>
<c>2</c>
</b>
<b>2</b>
</aa>
<aaa>3</aaa>
<aaaa>
<bb>4</bb>
</aaaa>
<aaaaa>5</aaaaa>
</root>
3 ответа
Вы могли бы использовать новый OrderedDict
dict
подкласс, который был добавлен в стандартную библиотекуcollections
модуль в версии 2.7*. На самом деле то, что вам нужно, этоOrdered
+ defaultdict
комбинация, которая не существует, но ее можно создать, создав подкласс OrderedDict
как показано ниже:
import collections
class OrderedDefaultdict(collections.OrderedDict):
""" A defaultdict with OrderedDict as its base class. """
def __init__(self, default_factory=None, *args, **kwargs):
if not (default_factory is None
or isinstance(default_factory, collections.Callable)):
raise TypeError('first argument must be callable or None')
super(OrderedDefaultdict, self).__init__(*args, **kwargs)
self.default_factory = default_factory # called by __missing__()
def __missing__(self, key):
if self.default_factory is None:
raise KeyError(key,)
self[key] = value = self.default_factory()
return value
def __reduce__(self): # optional, for pickle support
args = (self.default_factory,) if self.default_factory else tuple()
return self.__class__, args, None, None, self.iteritems()
def __repr__(self): # optional
return '%s(%r, %r)' % (self.__class__.__name__, self.default_factory,
list(self.iteritems()))
def simplexml_load_file(file):
from lxml import etree
tree = etree.parse(file)
root = tree.getroot()
def xml_to_item(el):
item = el.text or None
child_dicts = OrderedDefaultdict(list)
for child in el.getchildren():
child_dicts[child.tag].append(xml_to_item(child))
return collections.OrderedDict(child_dicts) or item
def xml_to_dict(el):
return {el.tag: xml_to_item(el)}
return xml_to_dict(root)
x = simplexml_load_file('routines/test.xml')
print(x)
for y in x['root']:
print(y)
Вывод, полученный из вашего тестового XML-файла, выглядит следующим образом:
Выход:
{'root':
OrderedDict(
[('a', ['1']),
('aa', [OrderedDict([('b', [OrderedDict([('c', ['2'])]), '2'])])]),
('aaa', ['3']),
('aaaa', [OrderedDict([('bb', ['4'])])]),
('aaaaa', ['5'])
]
)
}
a
aa
aaa
aaaa
aaaaa
Что, я думаю, близко к тому, что вы хотите.
* Если ваша версия Python не имеет OrderedDict, который был представлен в v2.5, вы можете вместо этого использовать рецептурный словарь Raymond Hettinger's для Py2.4 ActiveState в качестве базового класса.
Незначительное обновление:
Добавил __reduce__()
метод, который позволит правильно выбирать и удалять экземпляры класса. Это не было необходимо для этого вопроса, но придумал похожий.
У меня работает рецепт от martineau, но у него есть проблемы с методом copy(), унаследованным от DefaultDict. Следующий подход исправляет этот недостаток:
class OrderedDefaultDict(OrderedDict):
#Implementation as suggested by martineau
def copy(self):
return type(self)(self.default_factory, self)
Пожалуйста, учтите, что эта реализация не делает глубокого копирования, что кажется особенно подходящим для словарей по умолчанию, а в большинстве случаев - правильное решение.
Существует много возможных реализаций OrderedDict, перечисленных в ответе здесь: Как вы извлекаете элементы из словаря в порядке их вставки?
Вы можете создать свой собственный модуль OrderedDict для использования в своем собственном коде, скопировав одну из реализаций. Я предполагаю, что у вас нет доступа к OrderedDict из-за версии Python, которую вы используете.
Один интересный аспект вашего вопроса - возможная потребность в функциональности defaultdict. Если вам это нужно, вы можете реализовать __missing__
способ получить желаемый эффект.