Python извлекает определенную строку в текстовом файле

Я пишу код, который строка за строкой читает большой текстовый файл и находит строку, начинающуюся с UNIQUE-ID (их много в файле), и идет прямо перед определенной строкой (в этом примере той, которая начинается с 'REACTION-LAYOUT -' и в котором 5-й элемент в строке - OLEANDOMYCIN). Код следующий:

data2 = open('pathways.dat', 'r', errors = 'ignore')

pathways = data2.readlines()

PWY_ID = []
line_cont = []
L_PRMR = [] #Left primary
car = []

#i is the line number (first element of enumerate), 
#while line is the line content (2nd elem of enumerate)

for i,line in enumerate(pathways):
    if 'UNIQUE-ID' in line:
        line_cont = line
        PWY_ID_line = line_cont.rstrip()
        PWY_ID_line = PWY_ID_line.split(' ')
        PWY_ID.append(PWY_ID_line[2])
    elif 'REACTION-LAYOUT -' in line:
        L_PWY = line.rstrip()
        L_PWY = L_PWY.split(' ')
        L_PRMR.append(L_PWY[4])
    elif 'OLEANDOMYCIN' in line:
        car.append(PWY_ID)
print(car)

Однако вместо этого выводятся все строки, содержащие PWY_ID (выход первого оператора if), как если бы он игнорировал весь остальной код. Кто-нибудь может помочь?

редактировать


Ниже приведен пример моих данных (в моем текстовом файле примерно 1000 похожих страниц):

//
UNIQUE-ID - PWY-741
.
.
.
.
PREDECESSORS - (RXN-663 RXN-662)
REACTION-LAYOUT - (RXN-663 (:LEFT-PRIMARIES CPD-1003) (:DIRECTION :L2R) (:RIGHT-PRIMARIES CPD-1004))
REACTION-LAYOUT - (RXN-662 (:LEFT-PRIMARIES CPD-1002) (:DIRECTION :L2R) (:RIGHT-PRIMARIES CPD-1003))
REACTION-LAYOUT - (RXN-661 (:LEFT-PRIMARIES CPD-1001) (:DIRECTION :L2R) (:RIGHT-PRIMARIES CPD-1002))
REACTION-LIST - RXN-663
REACTION-LIST - RXN-662
REACTION-LIST - RXN-661
SPECIES - TAX-351746
SPECIES - TAX-644631
SPECIES - ORG-6335
SUPER-PATHWAYS - PWY-5266
TAXONOMIC-RANGE - TAX-1224
//

2 ответа

Решение

Я думаю, что было бы полезно, если бы вы опубликовали несколько примеров данных. Но приближение к тому, что вы ищете:

with open('pathways.dat','r', errors='ignore') as infile:
  i = infile.read().find(string_to_search)
  infile.seek(i+number_of_chars_to_read)

Я надеюсь, что этот фрагмент кода поможет вам сфокусировать ваш сценарий на этой строке.

print(car) распечатывает список всех строк, добавленных PWD_ID.append(PWY_ID_line[2]) в первом случае, если вы добавляете весь список PWD_ID к car когда вы делаете car.append(PWY_ID), поэтому, если вы хотите распечатать список строк с помощью OLEANDOMYCIN, вы можете просто сделать car.append(line).

Другие вопросы по тегам