Как построить AST для проприетарного языка?

Question

Как построить AST для проприетарного языка?

Я пытаюсь понять, как построить AST для проприетарного языка. Мне нужно построить AST, чтобы я мог вводить свои правила и рекомендации, чтобы проверить возможные ошибки в исходном коде.

Как можно построить AST? Есть ли книги, статьи, которые могут помочь мне начать. Поможет ли книга драконов о компиляторах?

Пожалуйста, обратите внимание, что я не из CS-фона.

Спасибо

2

abstract-syntax-tree static-analysis

Источник

user545739 18 дек '10 в 08:58

2 ответа

Другие вопросы по тегам abstract-syntax-tree static-analysis

user321514 18 дек '10 в 10:26 2010-12-18 10:26 · Answer 1 · 2010-12-18 10:26

Это довольно большой вопрос. Я чувствую твою боль, так как я также решил эту проблему из не-CS фона. Это заставило меня ценить CS намного больше.

Одна вещь, которую вы, вероятно, увидите в своих исследованиях, это расширенная форма Бэкуса-Наура (EBNF). Это в основном способ описания вашего языка. Создание EBNF для вашего языка поможет вам обдумать, что потребуется компьютеру для его анализа, это поможет.

Возвращаясь к проблеме: вы, вероятно, будете использовать лексер / парсер для построения своего дерева.

Традиционные инструменты для этого - lex и yacc, или их несколько более современные кузены.

Более новый подход - это подход A ntlr. Это очень рекомендуется, но было над моей головой.

Третий подход, который я нашел, - это библиотека pyparsing Python. Это то, с чем я в конечном итоге согласился из-за моего знакомства с Python и понятного способа описания того, что вам нужно для анализа.

Есть много примеров, доступных для pyparsing, который помог. Самым полезным при создании моего парсера я нашел SimpleCalc. Тем не менее, он основан на довольно старой версии pyparsing и является более сложным, чем это необходимо для некоторых мощных операций, которые позже реализовал pyparsing. SimpleArith - похожая, но более новая версия.

Одна вещь, которую я до сих пор не выполнил с помощью pyparsing - это правильный анализ синтаксических ошибок. Однако, похоже, он предоставляет необходимые инструменты для этого.

В любом случае, это не совсем полный ответ на ваш вопрос, но я надеюсь, что он, по крайней мере, укажет вам несколько моментов, с которых стоит начать. Создать парсер для сложного языка нелегко!

user120163 20 дек '10 в 11:09 2010-12-20 11:09 · Answer 2 · 2010-12-20 11:09

Механизмы анализа кода, как правило, требуют достаточно больших сложностей, помимо создания AST.

Чтобы выполнить любой серьезный анализ кода, вам нужно знать значение идентификаторов в коде и где / как они определены ("таблицы символов"), и вам часто нужно знать, как информация перемещается по программе (контроль и анализ потока данных), Вам нужен механизм для поддержки всего этого, а затем вам нужно привязать этот механизм к вашему собственному языку.

Я думаю о восхождении на Эверест в качестве аналогии. Получение ASTs походит на получение в 10000-футовом базовом лагере. Любой ком может сделать это, просто поднявшись по склону, используя базовую технологию (походные ботинки). Восхождение на последние 17 000 футов требует совершенно другой технологии, преданности делу и плана, и большинство людей, пройдя первые 10000 футов, просто не готовы к остальной части поездки. (У меня есть некоторый опыт здесь, проверьте мою биографию).

Это все довольно подробные темы, и ваше отсутствие опыта работы с CS сделает вашу дорогу довольно трудной. (Однако все мы начинаем где-то, так что это действительно амбиции). Книга Дракона - отличный ресурс, который поможет вам понять, что делает этот механизм и зачем он вам нужен; существует множество других хороших книг по компиляторам, которые, как правило, также будут полезны. Но вы должны быть готовы к серьезному чтению.

Один из способов подняться по кривой - использовать инструмент, в котором большая часть этого механизма уже разработана и внедрена для вас группой компьютерных специалистов, имеющих опыт создания таких инструментов. Тогда ваша проблема значительно уменьшится: вам нужно только научиться использовать то, что они предоставили, а не пытаться выяснить, что вам нужно (большинство людей никогда не пройдут стадию AST) и внедрить все необходимые механизмы поддержки.

ANTLR (уже упоминавшийся, сделанный довольно хорошим профессором CS) является своего рода тем, что он предоставляет возможности синтаксического анализа, позволяет вам определять, как строятся AST, и как процедурно пролезать через получившиеся AST. Но это не дает многого другого, что вам нужно для вашей задачи.

Наш инструментарий реинжиниринга программного обеспечения DMS предоставляет все средства, которые я упомянул в первом абзаце, а затем и некоторые. Одно из первых отличий, которое вы заметите при работе с DMS, заключается в том, что вам нужно предоставить только грамматику; он будет строить AST без дополнительной помощи с вашей стороны.

Вы можете получить представление о том, на что похожа работа с DMS, на этом примере DMS, примененного к алгебре и исчислению средней школы. В частности, он показывает, как легко определить простую грамматику для алгебры / исчисления, а затем можно манипулировать "программами" на этом языке. Это приложение, которое "преобразовывает" код, а не анализирует его, но основы те же.

"Настоящее" приложение DMS, которое проанализировало ваш проприетарный язык, будет значительно сложнее.