Регулярное выражение для поиска плохих слов в комментариях к коду
У нас есть большое приложение (более 40000 строк комментариев), которое мы передаем другой компании, но должны убедиться, что наши комментарии к коду являются кошерными. Мой план поиска неуместных комментариев к коду следующий: 1 - получить черный список нецензурных слов 2 - использовать регулярное выражение в поиске кода eclispe, чтобы увидеть, есть ли какое-либо из этих слов в нашем приложении, и вручную изучить каждый случай.
Что касается пункта № 1, я видел некоторые приложения или веб-службы, которые выполняют фильтрацию, но кто-нибудь знает простой список слов где-нибудь в Интернете?
Для пункта №2, как мне просто найти в eclispe слова гамбургер ИЛИ пиццу?
3 ответа
Простой и правильный ответ на этот вопрос заключается в следующем... в Eclipse вы можете запустить регулярное выражение для сопоставления слов, просто проверив кнопку регулярного выражения и добавив слова в соответствие, так что pizza | гамбургер.
Зачем использовать Eclipse?
Я бы просто составил список "непослушных слов" и использовал бы find
а также grep
искать кодовую базу для вхождений. Затем посетите каждый файл обзора хитов. (Вы можете автоматизировать последнее, добавив комментарий в стиле "FIXME" в начале каждого помеченного файла, и использовать поддержку рабочего списка Eclipse для просмотра помеченных файлов. Стоит ли это зависеть от количества обращений, которое вам нужно посмотри на.)
Имейте в виду, что вы получите как ложные срабатывания (в зависимости от того, насколько вы глупы), так и ложные отрицания... где автор говорит что-то оскорбительное, не используя непослушных слов.
CodePro Analytix имеет только один детектор статического анализа кода, который называется "Несоответствующий язык". Вы можете легко добавить больше непослушных слов в его конфигурацию, а затем использовать их в распределенных командах или в автоматических исследованиях статического анализа кода.