Что такое "семантический предикат" в ANTLR?

Question

Что такое "семантический предикат" в ANTLR?

Что такое семантический предикат в ANTLR?

107

antlr antlr4 antlr3

Источник

user50476 16 июн '10 в 19:16

2 ответа

Решение

В качестве руководства я всегда использовал краткую ссылку на предикаты ANTLR на wincent.com.

13

Источник

user103842 16 июн '10 в 19:40

Другие вопросы по тегам antlr antlr4 antlr3

user50476 16 июн '10 в 19:28 2010-06-16 19:28 · Accepted Answer · 2010-06-16 19:28

АНТЛР 4

Для предикатов в ANTLR 4, проверьте эти вопросы и ответы о переполнении стека:

АНТЛР 3

Семантический предикат - это способ применения дополнительных (семантических) правил к грамматическим действиям с использованием простого кода.

Существует 3 типа семантических предикатов:

проверка семантических предикатов;
стробированные семантические предикаты;
устранение неоднозначности семантических предикатов.

Пример грамматики

Допустим, у вас есть блок текста, состоящий только из чисел, разделенных запятыми, игнорируя любые пробелы. Вы хотели бы проанализировать этот ввод, убедившись, что числа имеют длину не более 3 цифр (не более 999). Следующая грамматика (Numbers.g) сделал бы такую вещь:

grammar Numbers;

// entry point of this parser: it parses an input string consisting of at least 
// one number, optionally followed by zero or more comma's and numbers
parse
  :  number (',' number)* EOF
  ;

// matches a number that is between 1 and 3 digits long
number
  :  Digit Digit Digit
  |  Digit Digit
  |  Digit
  ;

// matches a single digit
Digit
  :  '0'..'9'
  ;

// ignore spaces
WhiteSpace
  :  (' ' | '\t' | '\r' | '\n') {skip();}
  ;

тестирование

Грамматика может быть проверена с помощью следующего класса:

import org.antlr.runtime.*;

public class Main {
    public static void main(String[] args) throws Exception {
        ANTLRStringStream in = new ANTLRStringStream("123, 456, 7   , 89");
        NumbersLexer lexer = new NumbersLexer(in);
        CommonTokenStream tokens = new CommonTokenStream(lexer);
        NumbersParser parser = new NumbersParser(tokens);
        parser.parse();
    }
}

Проверьте это, сгенерировав лексер и парсер, скомпилировав все .java файлы и запуск Main учебный класс:

java -cp antlr-3.2.jar org.antlr.Tool Numbers.g
javac -cp antlr-3.2.jar *.java
java -cp.: antlr-3.2.jar Главная

При этом на консоль ничего не выводится, что говорит о том, что ничего не случилось. Попробуйте изменить:

ANTLRStringStream in = new ANTLRStringStream("123, 456, 7   , 89");

в:

ANTLRStringStream in = new ANTLRStringStream("123, 456, 7777   , 89");

и выполните тест снова: вы увидите ошибку, появляющуюся на консоли сразу после строки 777,

Семантические Предикаты

Это подводит нас к семантическим предикатам. Допустим, вы хотите проанализировать числа длиной от 1 до 10 цифр. Правило как:

number
  :  Digit Digit Digit Digit Digit Digit Digit Digit Digit Digit
  |  Digit Digit Digit Digit Digit Digit Digit Digit Digit
     /* ... */
  |  Digit Digit Digit
  |  Digit Digit
  |  Digit
  ;

станет громоздким. Семантические предикаты могут помочь упростить этот тип правил.

1. Проверка семантических предикатов

Проверяющий семантический предикат - это не что иное, как блок кода, за которым следует знак вопроса:

RULE { /* a boolean expression in here */ }?

Чтобы решить вышеуказанную проблему с помощью проверяющего семантического предиката, измените number Правило в грамматике в:

number
@init { int N = 0; }
  :  (Digit { N++; } )+ { N <= 10 }?
  ;

Части { int N = 0; } а также { N++; } простые Java-операторы, первый из которых инициализируется, когда синтаксический анализатор "входит" в number править. Фактический предикат: { N <= 10 }?, который заставляет парсер бросить FailedPredicateException всякий раз, когда число превышает 10 цифр.

Проверьте это с помощью следующего ANTLRStringStream:

// all equal or less than 10 digits
ANTLRStringStream in = new ANTLRStringStream("1,23,1234567890");

который не создает исключения, в то время как следующее делает исключение:

// '12345678901' is more than 10 digits
ANTLRStringStream in = new ANTLRStringStream("1,23,12345678901");

2. Закрытые семантические предикаты

Строковый семантический предикат похож на проверяющий семантический предикат, только стробированная версия выдает синтаксическую ошибку вместо FailedPredicateException,

Синтаксис закрытого семантического предиката:

{ /* a boolean expression in here */ }?=> RULE

Вместо этого, чтобы решить вышеупомянутую проблему, используя gated- предикаты для сопоставления чисел длиной до 10 цифр, вы должны написать:

number
@init { int N = 1; }
  :  ( { N <= 10 }?=> Digit { N++; } )+
  ;

Проверьте это снова с обоими:

// all equal or less than 10 digits
ANTLRStringStream in = new ANTLRStringStream("1,23,1234567890");

а также:

// '12345678901' is more than 10 digits
ANTLRStringStream in = new ANTLRStringStream("1,23,12345678901");

и вы увидите, что в последний раз будет выдавать ошибку.

3. Устранение неоднозначности семантических предикатов

Последний тип предиката - это однозначный семантический предикат, который немного похож на проверяющий предикат ({boolean-expression}?), но действует скорее как стробированный семантический предикат (исключение не выдается, когда булево выражение оценивается как false). Вы можете использовать его в начале правила, чтобы проверить некоторые свойства правила и позволить парсеру соответствовать указанному правилу или нет.

Скажем, пример грамматики создает Number токены (правило лексера вместо правила парсера), которые будут соответствовать числам в диапазоне 0..999. Теперь в синтаксическом анализаторе вы хотели бы провести различие между низкими и высокими числами (низкий: 0,500, высокий: 501... 999). Это можно сделать с помощью однозначного семантического предиката, где вы проверяете токен, следующий в потоке (input.LT(1)) чтобы проверить, низкое или высокое.

Демо:

grammar Numbers;

parse
  :  atom (',' atom)* EOF
  ;

atom
  :  low  {System.out.println("low  = " + $low.text);}
  |  high {System.out.println("high = " + $high.text);}
  ;

low
  :  {Integer.valueOf(input.LT(1).getText()) <= 500}? Number
  ;

high
  :  Number
  ;

Number
  :  Digit Digit Digit
  |  Digit Digit
  |  Digit
  ;

fragment Digit
  :  '0'..'9'
  ;

WhiteSpace
  :  (' ' | '\t' | '\r' | '\n') {skip();}
  ;

Если вы сейчас разбираете строку "123, 999, 456, 700, 89, 0", вы увидите следующий вывод:

low  = 123
high = 999
low  = 456
high = 700
low  = 89
low  = 0