Программа Antlr не будет компилироваться

Question

Программа Antlr не будет компилироваться

Я пытаюсь сделать грамматику для разбора языка json

Ссылка, которую я использовал, чтобы понять автоматы для каждой записи http://www.json.com/

grammar myjson;

prog
    : object+ EOF
    ;

object
    : '{'
        STRING  ':' value 
        (','  STRING  ':' value)*
      '}'
    | '{' EMPTY '}'
    ;

array
    : '[' 
        value 
        (',' value)* 
      ']'
    | '[' EMPTY ']
    ; 

value
    : object | STRING | NUMBER
    | array | BOOL | NULL
    ;

STRING
    : '"' (UNICODE | SPECIAL)* '"'
    ;

UNICODE
    : ~('\u0022' | '\u005C')
    ;

SPECIAL     
    : '\u005C'
      (
      | '"' | '\u005C'  | '\u002F'
      | 'b' | 'f' | 'n' | 'r'
      | 't' | 'u' DIGIT DIGIT DIGIT DIGIT
      )
    ;

NULL: 'null';
BOOL
    : 'true'
    | 'false'
    ;   


NUMBER : ('+'|'-')? DIGIT+ '.' DIGIT* EXPONENT?
       | ('+'|'-')? '.'? DIGIT+ EXPONENT?
       ;

fragment 
EXPONENT : ('e' | 'E') ('+' | '-') ? DIGIT+ 
         ;

fragment
DIGIT  : '0'..'9' 
       ;

fragment
LETTER
    : ('a'..'z' | 'A'..'Z')
    ;

COMM
    : '//' ~('\r'? '\n')   {skip();}    
    | '/*' .* '*/'         {skip();}
    ;

WS
    : ' ' | '\t' | '\r' | '\n' | '\u000c' {skip();} 
    ;

EMPTY
    : ''
    ;

Я хотел бы заявить, что я использую antlrworks v 1.4.3, потому что это то, с чем мой учитель предложил работать.

Моя проблема в том, что эта грамматика даже не скомпилируется, потому что я получаю следующую ошибку

java.util.NoSuchElementException: can't look backwards more than one token in this stream
    at org.antlr.runtime.misc.LookaheadStream.LB(LookaheadStream.java:159)
    at org.antlr.runtime.misc.LookaheadStream.LT(LookaheadStream.java:120)
    at org.antlr.runtime.RecognitionException.extractInformationFromTreeNodeStream(RecognitionException.java:144)
    at org.antlr.runtime.RecognitionException.<init>(RecognitionException.java:111)
    at org.antlr.runtime.MismatchedTreeNodeException.<init>(MismatchedTreeNodeException.java:42)
    at org.antlr.runtime.tree.TreeParser.recoverFromMismatchedToken(TreeParser.java:135)
    at org.antlr.runtime.BaseRecognizer.match(BaseRecognizer.java:115)
    at org.antlr.grammar.v3.TreeToNFAConverter.alternative(TreeToNFAConverter.java:2798)
    at org.antlr.grammar.v3.TreeToNFAConverter.block(TreeToNFAConverter.java:2662)
    at org.antlr.grammar.v3.TreeToNFAConverter.rule(TreeToNFAConverter.java:1995)
    at org.antlr.grammar.v3.TreeToNFAConverter.rules(TreeToNFAConverter.java:1338)
    at org.antlr.grammar.v3.TreeToNFAConverter.grammarSpec(TreeToNFAConverter.java:1288)
    at org.antlr.grammar.v3.TreeToNFAConverter.grammar_(TreeToNFAConverter.java:319)
    at org.antlr.tool.Grammar.buildNFA(Grammar.java:1006)
    at org.antlr.tool.CompositeGrammar.createNFAs(CompositeGrammar.java:390)
    at org.antlr.works.grammar.antlr.ANTLRGrammarEngineImpl.createLexerGrammarFromCombinedGrammar(ANTLRGrammarEngineImpl.java:219)
    at org.antlr.works.grammar.antlr.ANTLRGrammarEngineImpl.createCombinedGrammar(ANTLRGrammarEngineImpl.java:204)
    at org.antlr.works.grammar.antlr.ANTLRGrammarEngineImpl.createGrammars(ANTLRGrammarEngineImpl.java:165)
    at org.antlr.works.grammar.antlr.ANTLRGrammarEngineImpl.analyze(ANTLRGrammarEngineImpl.java:272)
    at org.antlr.works.grammar.engine.GrammarEngineImpl.analyze(GrammarEngineImpl.java:325)
    at org.antlr.works.debugger.local.DBLocal.analyzeGrammar(DBLocal.java:385)
    at org.antlr.works.debugger.local.DBLocal.generateAndCompileGrammar(DBLocal.java:365)
    at org.antlr.works.debugger.local.DBLocal.run(DBLocal.java:222)
    at java.lang.Thread.run(Unknown Source)

Я прочитал в посте о том, что "не могу смотреть назад больше, чем один токен в этом потоке", исключение java, что грамматика лексера и синтаксического анализатора не совпадает, но я понятия не имею, что это такое или к чему оно относится. Я также прошу прощения за то, что не комментировал код. Но я не знаю слишком много antlr, поэтому я не хочу писать то, что может оттолкнуть вас.

Пожалуйста, помогите и спасибо заранее

1

antlr antlrworks

Источник

user3043901 28 ноя '13 в 00:07

1 ответ

Решение

Другие вопросы по тегам antlr antlrworks

user50476 28 ноя '13 в 07:36 2013-11-28 07:36 · Accepted Answer · 2013-11-28 07:36

В вашей грамматике есть пара неправильных вещей:

никогда не сопоставляйте токены, которые (потенциально) совпадают с пустой строкой: ваш лексер будет зацикливаться, когда будет пытаться сопоставить их. Короче говоря: удалить EMPTY знак
' ' | '\t' | '\r' | '\n' | '\u000c' {skip();} эквивалентно ' ' | '\t' | '\r' | '\n' | ('\u000c' {skip();}), Вы хотели бы сделать: (' ' | '\t' | '\r' | '\n' | '\u000c') {skip();} вместо
ваш SPECIAL правило соответствует одиночному обратному слешу: '\u005C' ( /* NOTHING HERE */ | '"' | ...удалить первое |: '\u005C' ( '"' | ...
набор отрицательных символов должен содержать один символ, а не два, как вы: ~('\r'? '\n')* (вы не можете отрицать \r\n). Так должно быть: ~('\r' | '\n')*

Попробуйте что-то вроде этого (не проверено!):

grammar myjson;

prog
 : object+ EOF
 ;

object
 : '{' (key_value (',' key_value)*)? '}'
 ;

array
 : '[' (value (',' value)*)? ']'
 ;

key_value
 : STRING ':' value
 ;

value
 : object
 | array
 | STRING
 | NUMBER
 | BOOL
 | NULL 
 ;

NULL
 : 'null'   
 ;

BOOL
 : 'true'
 | 'false'
 ;

STRING
  : '"' (UNICODE | SPECIAL)* '"'
  ;

NUMBER
 : ('+'|'-')? DIGIT+ '.' DIGIT* EXPONENT?
 | ('+'|'-')? '.'? DIGIT+ EXPONENT?
 ;

COMM
 : '//' ~('\r' | '\n')* {skip();}    
 | '/*' .* '*/'         {skip();}
 ;

SPACE
 : (' ' | '\t' | '\r' | '\n' | '\u000c')+ {skip();}
 ;

fragment
DIGIT
 : '0'..'9' 
 ;

fragment 
EXPONENT 
 : ('e' | 'E') ('+' | '-') ? DIGIT+ 
 ;

fragment
UNICODE
 : ~('\u0022' | '\u005C') 
 ;

fragment
SPECIAL     
 : '\u005C' ( '"' | '\u005C'  | '\u002F'
            | 'b' | 'f' | 'n' | 'r'
            | 't' | 'u' DIGIT DIGIT DIGIT DIGIT
            )
 ;

Также проверьте грамматику JSON из репозитория ANTLR Github: https://github.com/antlr/grammars-v4/blob/master/json/Json.g4 Хотя грамматика ANTLR4 выглядит, она выглядит как совместимая с ANTLR 3.