lxml: добавить пространство имен во входной файл

Я анализирую XML-файл, созданный внешней программой. Затем я хотел бы добавить пользовательские аннотации к этому файлу, используя мое собственное пространство имен. Мой вклад выглядит следующим образом:

<sbml xmlns="http://www.sbml.org/sbml/level2/version4" xmlns:celldesigner="http://www.sbml.org/2001/ns/celldesigner" level="2" version="4">
  <model metaid="untitled" id="untitled">
    <annotation>...</annotation>
    <listOfUnitDefinitions>...</listOfUnitDefinitions>
    <listOfCompartments>...</listOfCompartments>
    <listOfSpecies>
      <species metaid="s1" id="s1" name="GenA" compartment="default" initialAmount="0">
        <annotation>
          <celldesigner:extension>...</celldesigner:extension>
        </annotation>
      </species>
      <species metaid="s2" id="s2" name="s2" compartment="default" initialAmount="0">
        <annotation>
           <celldesigner:extension>...</celldesigner:extension>
        </annotation>
      </species>
    </listOfSpecies>
    <listOfReactions>...</listOfReactions>
  </model>
</sbml>

Проблема в том, что lxml объявляет пространства имен только тогда, когда они используются, что означает, что объявление повторяется много раз, например (упрощенно):

<sbml xmlns="namespace" xmlns:celldesigner="morenamespace" level="2" version="4">
  <listOfSpecies>
    <species>
      <kjw:test xmlns:kjw="http://this.is.some/custom_namespace"/>
      <celldesigner:data>Some important data which must be kept</celldesigner:data>
    </species>
    <species>
      <kjw:test xmlns:kjw="http://this.is.some/custom_namespace"/>
    </species>
    ....
  </listOfSpecies>
</sbml>

Можно ли заставить lxml написать это объявление только один раз в родительском элементе, например sbml или же listOfSpecies? Или есть веская причина не делать этого? Результат, который я хочу получить:

<sbml xmlns="namespace" xmlns:celldesigner="morenamespace" level="2" version="4"  xmlns:kjw="http://this.is.some/custom_namespace">
  <listOfSpecies>
    <species>
      <kjw:test/>
      <celldesigner:data>Some important data which must be kept</celldesigner:data>
    </species>
    <species>
      <kjw:test/>
    </species>
    ....
  </listOfSpecies>
</sbml>

Важная проблема заключается в том, что существующие данные, которые считываются из файла, должны быть сохранены, поэтому я не могу просто создать новый корневой элемент (я думаю?).

РЕДАКТИРОВАТЬ: код прилагается ниже.

def annotateSbml(sbml_input):
  from lxml import etree

  checkSbml(sbml_input) # Makes sure the input is valid sbml/xml.

  ns = "http://this.is.some/custom_namespace"
  etree.register_namespace('kjw', ns)

  sbml_doc = etree.ElementTree()
  root = sbml_doc.parse(sbml_input, etree.XMLParser(remove_blank_text=True))
  nsmap = root.nsmap
  nsmap['sbml'] = nsmap[None] # Makes code more readable, but seems ugly. Any alternatives to this?
  nsmap['kjw'] = ns
  ns = '{' + ns + '}'
  sbmlns = '{' + nsmap['sbml'] + '}'

  for species in root.findall('sbml:model/sbml:listOfSpecies/sbml:species', nsmap):
    species.append(etree.Element(ns + 'test'))

  sbml_doc.write("test.sbml.xml", pretty_print=True, xml_declaration=True)

  return

5 ответов

Решение

Изменение отображения пространства имен узла невозможно в lxml. Посмотрите этот открытый тикет, который имеет эту функцию, как элемент списка желаний.

Он возник из этой темы в списке рассылки lxml, где в качестве альтернативы предлагается обходной путь, заменяющий корневой узел. Однако есть некоторые проблемы с заменой корневого узла: см. Билет выше.

Я приведу предложенный здесь обходной код для замены root для полноты:

>>> DOC = """<sbml xmlns="http://www.sbml.org/sbml/level2/version4" xmlns:celldesigner="http://www.sbml.org/2001/ns/celldesigner" level="2" version="4">
...   <model metaid="untitled" id="untitled">
...     <annotation>...</annotation>
...     <listOfUnitDefinitions>...</listOfUnitDefinitions>
...     <listOfCompartments>...</listOfCompartments>
...     <listOfSpecies>
...       <species metaid="s1" id="s1" name="GenA" compartment="default" initialAmount="0">
...         <annotation>
...           <celldesigner:extension>...</celldesigner:extension>
...         </annotation>
...       </species>
...       <species metaid="s2" id="s2" name="s2" compartment="default" initialAmount="0">
...         <annotation>
...            <celldesigner:extension>...</celldesigner:extension>
...         </annotation>
...       </species>
...     </listOfSpecies>
...     <listOfReactions>...</listOfReactions>
...   </model>
... </sbml>"""
>>> 
>>> from lxml import etree
>>> from StringIO import StringIO
>>> NS = "http://this.is.some/custom_namespace"
>>> tree = etree.ElementTree(element=None, file=StringIO(DOC))
>>> root = tree.getroot()
>>> nsmap = root.nsmap
>>> nsmap['kjw'] = NS
>>> new_root = etree.Element(root.tag, nsmap=nsmap)
>>> new_root[:] = root[:]
>>> new_root.append(etree.Element('{%s}%s' % (NS, 'test')))
>>> new_root.append(etree.Element('{%s}%s' % (NS, 'test')))

>>> print etree.tostring(new_root, pretty_print=True)
<sbml xmlns:celldesigner="http://www.sbml.org/2001/ns/celldesigner" xmlns:kjw="http://this.is.some/custom_namespace" xmlns="http://www.sbml.org/sbml/level2/version4"><model metaid="untitled" id="untitled">
    <annotation>...</annotation>
    <listOfUnitDefinitions>...</listOfUnitDefinitions>
    <listOfCompartments>...</listOfCompartments>
    <listOfSpecies>
      <species metaid="s1" id="s1" name="GenA" compartment="default" initialAmount="0">
        <annotation>
          <celldesigner:extension>...</celldesigner:extension>
        </annotation>
      </species>
      <species metaid="s2" id="s2" name="s2" compartment="default" initialAmount="0">
        <annotation>
           <celldesigner:extension>...</celldesigner:extension>
        </annotation>
      </species>
    </listOfSpecies>
    <listOfReactions>...</listOfReactions>
  </model>
<kjw:test/><kjw:test/></sbml>

Я знаю, что это старый вопрос, но он все еще действителен, и начиная с lxml 3.5.0, возможно, есть лучшее решение этой проблемы:

cleanup_namespaces() принимает новый аргумент top_nsmap это перемещает определения предоставленного префикса-пространства имен, сопоставляемого с вершиной дерева.

Так что теперь карту пространства имен можно переместить с помощью простого вызова этого:

nsmap = {'kjw': 'http://this.is.some/custom_namespace'}
etree.cleanup_namespaces(root, top_nsmap=nsmap)

Вместо того, чтобы напрямую работать с необработанным XML, вы также можете обратиться к LibSBML, библиотеке для манипулирования документами SBML с помощью языковых привязок, в том числе для python. Там вы бы использовали это так:

>>> из libsbml import *
>>> doc = readSBML('Dropbox/SBML Models/BorisEJB.xml')
>>> kind = doc.getModel().getSpecies('MAPK')
>>> kind.appendAnnotation ('')
0
>>> kind.toSBML ()
'<видов ID = "MAPK" купе = "купе" initialConcentration = "280" borderCondition = "false">\n <аннотация>\n
 \n \n'
>>>

Я написал эту функцию, чтобы добавить пространство имен к корневому элементу:

def addns(tree, alias, uri):                
    root = tree.getroot()
    nsmap = root.nsmap
    nsmap[alias] = uri
    new_root = etree.Element(root.tag, attrib=root.attrib, nsmap=nsmap)
    new_root[:] = root[:]
    return new_root.getroottree()

После применения этой функции вы получите новое дерево, но вы, вероятно, сможете изменить экземпляр дерева из единственного объекта, из которого вы получаете доступ к дереву ... поскольку у вас есть сильный объектно-ориентированный дизайн! .

Если вы временно добавите атрибут пространства имен к корневому узлу, это поможет.

ns = '{http://this.is.some/custom_namespace}'

# add 'kjw:foobar' attribute to root node
root.set(ns+'foobar', 'foobar')

# add kjw namespace elements (or attributes) elsewhere
... get child element species ...
species.append(etree.Element(ns + 'test'))

# remove temporary namespaced attribute from root node
del root.attrib[ns+'foobar']

Вы можете заменить корневой элемент, чтобы добавить 'kjw' в его nsmap. Тогда объявление xmlns будет только в корневом элементе.

Другие вопросы по тегам