Нежадное регулярное выражение Python для очистки XML

Question

Нежадное регулярное выражение Python для очистки XML

У меня есть файл "XML-файл", в котором есть некоторые нежелательные символы

<data>
  <tag>blar </tag><tagTwo> bo </tagTwo>
  some extra 
  characters not enclosed that I want to remove
  <anothertag>bbb</anothertag>
</data>

Я думал, что следующая не жадная замена удалит символы, которые не были должным образом заключены в <sometag></sometag>

re.sub("</([a-zA-Z]+)>.*?<","</\\1><",text)
            ^          ^ ^     ^      text is the xml txt.  
         remember tag, | |     put tag back without and reopen next tag
               read everything until the next '<' (non-gready)

Это регулярное выражение, похоже, находит только положение, обозначенное [[]] в </tag>[[]]<tagTwo>Что я делаю неправильно?

РЕДАКТИРОВАТЬ: мотивация для этого вопроса была решена (см. Комментарии, у меня был случайный и в файле XML, который заставлял его не анализировать - он не имел ничего общего с символами, которые я хочу удалить). Тем не менее, мне все еще интересно, возможно ли регулярное выражение (и что случилось с моей попыткой), и поэтому я не удаляю вопрос.

2

python regex regex-greedy non-greedy

Источник

user498253 06 окт '11 в 07:00

2 ответа

Решение

 "</[^>]+?>[^<>]+?<"

в ipython:

In [1]: a="<data>  <tag>blar </tag><tagTwo> bo </tagTwo>  some extra   characters not enclosed that I want to remove  <anothertag>bbb</anothertag></data>"

In [2]: import re

In [3]: re.sub( "(</[^>]+?>)[^<>]+?<" ,"\\1<",a)
Out[3]: '<data>  <tag>blar </tag><tagTwo> bo </tagTwo><anothertag>bbb</anothertag></data>'

1

Источник

user164835 06 окт '11 в 14:02

Другие вопросы по тегам python regex regex-greedy non-greedy

user276070 06 окт '11 в 13:42 2011-10-06 13:42 · Accepted Answer · 2011-10-06 13:42

Точка не соответствует символу новой строки, если вы не укажете re.DOTALL флаг.

re.sub("</([a-zA-Z]+)>.*?<","</\\1><",text, flags=re.DOTALL)

должно работать нормально. (Если это не так, мой питон виноват, а не регулярное выражение. Пожалуйста, исправьте.)

Я думаю, что это хорошая практика, чтобы быть максимально точным при определении классов персонажей, которые должны повторяться. Это помогает предотвратить катастрофический откат назад. Поэтому я бы использовал [^<]* вместо .*? с добавленным бонусом, который теперь находит беспризорных персонажей после последнего тега. Это не нужно re.DOTALL флаг больше, так как [^<] соответствует линекам.