Поиск строк для Wildcard в python и возврат позиции совпадения

Question

Поиск строк для Wildcard в python и возврат позиции совпадения

В настоящее время я имею дело с набором данных, который состоит из тысяч строк с идентичностями и хотел бы найти позиции, в которых используется шаблон с подстановочными знаками (который состоит из N, за которым следует любая буква, кроме P, а затем S или T) происходит внутри строки с использованием модуля RegEx и возвращает список пар идентификаторов с позициями, в которых встречается мотив.

import re
strings = [['ID#1','NTGSLTKNASMNLTQRSNQT'],['ID#2','NLSHTNWEUWBNTTDKWODNUT'],...]
for x in strings:
    re.search('N[^P][ST]',x[1])

Который я бы хотел вернуть:

[['ID#1',[8,12,18]],['ID#2',[1,12,20]],.....]

Если у кого-то есть какие-либо идеи, это будет очень цениться, спасибо!

3

python regex string search motif

Источник

user2587593 16 авг '13 в 21:02

2 ответа

Другие вопросы по тегам python regex string search motif

user2206004 16 авг '13 в 21:27 2013-08-16 21:27 · Answer 1 · 2013-08-16 21:27

Вы, скорее всего, ищете это вместо этого.

re.finditer(pattern, string[, flags])

Вернуть итератор, выдающий экземпляры MatchObject по всем неперекрывающимся совпадениям для шаблона RE в строке. Строка сканируется слева направо, и совпадения возвращаются в указанном порядке. Пустые совпадения включаются в результат, если они не касаются начала другого совпадения.

Это будет работать..

import re

strings = [['ID#1','NTGSLTKNASMNLTQRSNQT'],['ID#2','NLSHTNWEUWBNTTDKWODNUT']]
pattern = re.compile('N[^P][ST]')

print [[f[0], [m.start() + 1 for m in pattern.finditer(f[1])]] for f in strings]

или вы могли бы попробовать что-то вроде..

import re

strings = [['ID#1','NTGSLTKNASMNLTQRSNQT'],['ID#2','NLSHTNWEUWBNTTDKWODNUT']]
pattern = re.compile('N[^P][ST]')

for x in strings:
    p = pattern.finditer(x[1])
    print [[x[0], [m.start() + 1 for m in p]]

user1715579 16 авг '13 в 21:21 2013-08-16 21:21 · Answer 2 · 2013-08-16 21:21

Я не очень опытный в Python, но я думаю, что вы можете сделать что-то вроде этого:

import re
strings = [['ID#1','NTGSLTKNASMNLTQRSNQT'],['ID#2','NLSHTNWEUWBNTTDKWODNUT']]
def findpos(s):
    return [s[0], [m.start() + 1 for m in re.finditer('N[^P][ST]',s[1])]]

return map(findpos, strings)
// [['ID#1', [8, 12, 18]], ['ID#2', [1, 12, 20]]]

или даже проще, просто:

[[s[0], [m.start() + 1 for m in re.finditer('N[^P][ST]',s[1])]] for s in strings]