Как получить вложенные группы с помощью регулярных выражений

Question

Как получить вложенные группы с помощью регулярных выражений

Мне нужна ваша помощь со следующим регулярным выражением. У меня есть текст

"[Hello|Hi]. We are [inviting | calling] you at position [[junior| mid junior]|senior] developer."

используя регулярное выражение, я хочу получить

[Hello|Hi]
[inviting | calling]
[[junior| mid junior]|senior]

следующий рексег (\[[^\[$\]\]]*\])

дает мне[Hello|Hi] [inviting | calling] [junior| mid junior]

так как мне это исправить, чтобы получить правильный вывод?

4

python regex nested-groups

Источник

user7083908 28 окт '16 в 06:39

3 ответа

Решение

Вы можете использовать простой stack сделать это вместо recursive regex

x="[Hello|Hi]. We are [inviting | calling] you at position [[junior| mid junior]|senior] developer.[sd[sd[sd][sd]]]"
l=[]
st=[]
start=None
for i,j in enumerate(x):
    if j=='[':
        if j not in st:
            start = i
        st.append(j)
    elif j==']':
        st.pop()
        if not st:
            l.append(x[start:i+1])
print l

Ouput: ['[Hello|Hi]', '[inviting | calling]', '[[junior| mid junior]|senior]', '[sd[sd[sd][sd]]]']

2

Источник

user3679490 28 окт '16 в 07:09

Вы можете использовать следующий код с модулем регулярных выражений PyPi с PCRE-подобным r'\[(?:[^][]++|(?R))*]' регулярное выражение:

>>> import regex
>>> s = "[Hello|Hi]. We are [inviting | calling] you at position [[junior| mid junior]|senior] developer."
>>> r = regex.compile(r'\[(?:[^][]++|(?R))*]')
>>> print(r.findall(s))
['[Hello|Hi]', '[inviting | calling]', '[[junior| mid junior]|senior]']
>>>

Смотрите демо-версию регулярного выражения.

\[(?:[^][]++|(?R))*] соответствует [затем ноль или более последовательностей из 1+ символов, отличных от ] а также [ ИЛИ все выражение в скобках [...]и затем закрытие ],

1

Источник

user3832970 28 окт '16 в 06:57

Другие вопросы по тегам python regex nested-groups

user3030305 28 окт '16 в 06:47 2016-10-28 06:47 · Accepted Answer · 2016-10-28 06:47

Давайте определим вашу строку и импортируем re:

>>> s = "[Hello|Hi]. We are [inviting | calling] you at position [[junior| mid junior]|senior] developer."
>>> import re

Теперь попробуйте:

>>> re.findall(r'\[ (?:[^][]* \[ [^][]* \])* [^][]*  \]', s, re.X)
['[Hello|Hi]', '[inviting | calling]', '[[junior| mid junior]|senior]']

Более подробно

Рассмотрим этот скрипт:

$ cat script.py
import re
s = "[Hello|Hi]. We are [inviting | calling] you at position [[junior| mid junior]|senior] developer."

matches = re.findall(r'''\[       # Opening bracket
        (?:[^][]* \[ [^][]* \])*  # Zero or more non-bracket characters followed by a [, followed by zero or more non-bracket characters, followed by a ]
        [^][]*                    # Zero or more non-bracket characters
        \]                        # Closing bracket
        ''',
        s,
        re.X)
print('\n'.join(matches))

Это производит вывод:

$ python script.py
[Hello|Hi]
[inviting | calling]
[[junior| mid junior]|senior]