Регулярное выражение для устранения поля в файле bibtex

Я пытаюсь уменьшить текстовые файлы нагрудника, которые я получаю от моего менеджера ссылок, потому что он оставляет дополнительные поля, которые в конечном итоге искажаются, когда я помещаю его в LaTeX.

Характерная запись, которую я хочу очистить:

@Article{Kholmurodov:2001p113,
author = {K Kholmurodov and I Puzynin and W Smith and K Yasuoka and T Ebisuzaki}, 
journal = {Computer Physics Communications},
title = {MD simulation of cluster-surface impacts for metallic phases: soft landing, droplet spreading and implantation},
abstract = {Lots of text here.  Even more text.},
affiliation = {RIKEN, Inst Phys {\&} Chem Res, Computat Sci Div, Adv Comp Ctr, Wako, Saitama 3510198, Japan},
number = {1},
pages = {1--16},
volume = {141},
year = {2001},
month = {Dec},
language = {English},
keywords = {Ethane, molecular dynamics, Clusters, Dl_Poly Code, solid surface, metal, Hydrocarbon Thin-Films, Adsorption, impact, Impact Processes, solid surface, Molecular Dynamics Simulation, Large Systems, DL_POLY, Beam Deposition, Package, Collision-Induced Desorption, Diamond Films, Vapor-Deposition, Transition-Metals, Molecular-Dynamics Simulation}, 
date-added = {2008-06-27 08:58:25 -0500},
date-modified = {2009-03-24 15:40:27 -0500},
pmid = {000172275000001},
local-url = {file://localhost/User/user/Papers/2001/Kholmurodov/Kholmurodov-MD%20simulation%20of%20cluster-surface%20impacts-2001.pdf},
uri = {papers://B08E511A-2FA9-45A0-8612-FA821DF82090/Paper/p113},
read = {Yes},
rating = {0}
}

Я хотел бы исключить такие поля, как месяц, аннотация, ключевые слова и т. Д., Некоторые из которых состоят из одной строки, а некоторые из нескольких строк.

Я дал ему попробовать в Python и вот так:

fOpen = open(f,'r')
start_text = fOpen.read()
fOpen.close()

# regex
out_text = re.sub(r'^(month).*,\n','',start_text)
out_text = re.sub(r'^(annote)((.|\n)*?)\},\n','',out_text)
out_text = re.sub(r'^(note)((.|\n)*?)\},\n','',out_text)
out_text = re.sub(r'^(abstract)((.|\n)*?)\},\n','',out_text)

fNew = open(f,'w')
fNew.write(out_text)
fNew.close()

Я попытался запустить эти регулярные выражения в TextMate, чтобы увидеть, работают ли они, прежде чем дать им попробовать в Python, и они, кажется, в порядке.

Какие-либо предложения?

Благодарю.

1 ответ

Решение

Как насчет этого регулярного выражения (применяется с многострочными и точечными флагами):

{(.:, $) ^(?: месяц |annote| | примечание реферата)\ с *=\ S *\?! (\}) *\} [\ Г \ п] +

Объяснение:

^ # начало строки
(?:                           # не захватывающая группа 1
  месяц | примечание | примечание | аннотация # один из этих терминов)                             # конец не захватывающей группы 1
\ s *=\ s * # пробел, знак равенства, пробел
\ {# буквальная фигурная скобка
(?:                           # не захватывающая группа 2
  (?!                         # негативный прогноз (если не сопровождается...)
    \},$                      # фигурная скобка, запятая и конец строки)                             # конец негативного просмотра, #... затем сопоставьте следующий символ, что бы это ни было)*                            # конец группы 2 без захвата, повторить
\}, буквальная фигурная скобка и запятая
[\r\n]+                       # хотя бы один символ конца строки

Это единственное выражение сортирует все затронутые строки за один шаг.


РЕДАКТИРОВАТЬ / ВНИМАНИЕ: Обратите внимание, что это произойдет сбой, как только произойдет следующее:

принадлежность = {RIKEN, Inst Phys {\&},
Computat Sci Div, Adv Comp Ctr, Wako, Сайтама 3510198, Япония},

Вложенные структуры не могут быть обработаны регулярными выражениями. Никакое чистое решение регулярных выражений не может быть правильным во всех случаях в этом контексте, лучшее, что вы можете получить, - это хорошее приближение.

Вопрос в том, уверены ли вы, что вы на 100% уверены, что описанная выше ситуация не может возникнуть (и я не думаю, что это возможно), или если вы готовы пойти на риск. Если вы не совсем уверены, что это не будет проблемой - используйте или напишите парсер.

Другие вопросы по тегам