Instaparse: Как распознать новую строку

Question

Instaparse: Как распознать новую строку

Я хочу разобрать текст файла, который содержит переводы строки. Файл может быть в Windows или Unix, но сейчас это файл Windows с таким содержимым:

(**************
***************)

Выше содержимое файла было прочитано с slurp и будет содержать новую строку. Вот грамматика, которую я пытаюсь использовать:

S = start-comment stars <inside-comment>
start-comment = '('
stars = '*' +
<inside-comment> = '\n' +

Эта грамматика также извлекается из файла, что, как мне кажется, облегчает задачу:

"Единственные экранирующие символы - это обычные экранирующие символы для строк и регулярных выражений (кроме того, instaparse также поддерживает строки внутри одинарных кавычек".)

Новая строка, кажется, не анализируется:

Parse error at line 1, column 16:
(**************
               ^
Expected one of:
"\n"
"*"

Что мне нужно установить <inside-comment> чтобы ошибка появилась на первой звезде второй строки, что будет указывать на то, что грамматика распознала символ новой строки?

0

instaparse

Источник

user1492584 23 авг '16 в 07:36

2 ответа

Другие вопросы по тегам instaparse

user2392831 23 авг '16 в 19:02 2016-08-23 19:02 · Answer 1 · 2016-08-23 19:02

Новые строки в Windows отображаются как \r\n, а в Unix как \n. Так что вам нужно что-то вроде:

'\ Г?\ П'

(Удвойте черные косые черты, если это внутри строки).

4

Источник

user2392831 23 авг '16 в 19:02

user1492584 24 авг '16 в 01:16 2016-08-24 01:16 · Answer 2 · 2016-08-24 01:16

Это разбирает до конца:

S = start-comment stars <inside-comment-1> stars end-comment
start-comment = '('
end-comment = ')'
stars = '*' +
<inside-comment-1> = '\n' | '\r\n'
<inside-comment-2> = '\r?\n'

Обратите внимание, что <inside-comment-2> не работает. В то время как <inside-comment-1> работает, может быть есть более элегантный способ пройти через новую строку??