Regex in C - поиск номеров кредитных карт - соответствие PCI
Привет, ребята, мне нужно удовлетворить определенный клиентский спрос на PCI . Мне довольно комфортно в Си, и я действительно не хочу переделывать колесо здесь. У меня есть пример регулярного выражения в Python, который я хотел бы применить в C.
pan_regexs = {'Mastercard': re.compile('(?:\D|^)(5[1-5][0-9]{2}(?:\ |\-|)[0-9]{4}(?:\ |\-|)[0-9]{4}(?:\ |\-|)[0-9]{4})(?:\D|$)'), \
'Visa': re.compile('(?:\D|^)(4[0-9]{3}(?:\ |\-|)[0-9]{4}(?:\ |\-|)[0-9]{4}(?:\ |\-|)[0-9]{4})(?:\D|$)'), \
'AMEX': re.compile('(?:\D|^)((?:34|37)[0-9]{2}(?:\ |\-|)[0-9]{6}(?:\ |\-|)[0-9]{5})(?:\D|$)')}
Я нашел POSIX-библиотеку "regex.h ", и в ней, похоже, использовался действительно старый стандарт regex.
Я нашел два примера, один из которых использует регулярное выражение POSIX, которое в лучшем случае ограничено. Украдено отсюда
#include <regex.h>
regex_t regex;
int reti;
char msgbuf[100];
/* Compile regular expression */
reti = regcomp(®ex, "^a[[:alnum:]]", 0);
if (reti) {
fprintf(stderr, "Could not compile regex\n");
exit(1);
}
/* Execute regular expression */
reti = regexec(®ex, "abc", 0, NULL, 0);
if (!reti) {
puts("Match");
}
else if (reti == REG_NOMATCH) {
puts("No match");
}
else {
regerror(reti, ®ex, msgbuf, sizeof(msgbuf));
fprintf(stderr, "Regex match failed: %s\n", msgbuf);
exit(1);
}
/* Free memory allocated to the pattern buffer by regcomp() */
regfree(®ex);
Проблема, которую я вижу с вышеупомянутым, состоит в том, что он использует (из того, что я собрал) старый Regex, который не поддерживает удаление пробелов и тире. Это также только кажется, что действительно выполняет некоторое сопоставление и ищет достойные примеры для этого не поворачивается много результатов для меня в Google. Поэтому я посмотрел дальше и в этом ответе (вопрос выше) упоминается использование PCRE.
Я нашел немного демо здесь
Как я уже говорил, я не хочу изобретать велосипед. Я думаю, что было бы ужасно написать свое собственное регулярное выражение для того, что могло бы содержать потенциальные недостатки, когда возможно что-то чистое и простое.
Вопрос от PCI исходит от клиента, который нам нужен, чтобы иметь возможность отслеживать системы на предмет того, как / где они хранят PAN и тому подобное. Это своего рода DLP, сфера аудита и доказательство того, что CCNS хранятся правильно.
Как я могу использовать регулярные выражения в C для поиска номеров кредитных карт?
PS. Я в порядке с этим регулярным выражением, и открыт для лучших способов сделать это регулярное выражение.
1 ответ
Хорошо, я закончил тем, что использовал PCRE2, и он работает замечательно хорошо.
Я думаю, что исходный код я видел на Github, но он тоже здесь.
Я скачал его, скомпилировал и установил. Выполнение следующих действий. Имейте в виду, что для этого есть 8,16 и 32-битное форматирование. Все примеры, которые я видел, использовали 8 бит, и я обнаружил, что он лучше всего подходит для того, что я делал.
./configure --enable-pcre2-8
make
make install
Я должен был также сделать библиотеки, которые он производит для поиска по ссылке с помощью.
ldconfig
Конечно, когда вы компилируете свою программу, вам нужно связать ее с библиотекой. при использовании -lpcre2-8 библиотека будет называться pcre2-16, pcre2-32, если вы используете эти версии.
После этого я скомпилировал их пример, используя
cc -Wall pcre2demo.c -lpcre2-8 -o pcre2demo
Если вы не хотите читать все то, что они написали в своем гигантском примере, я сделал свое собственное... Предупреждение. Я убираю это из нескольких функций прямо сейчас, так что вы можете перепроверить проблемы. Однако приведенный мной пример действительно работает.
// YOU MUST SPECIFY THE UNIT WIDTH BEFORE THE INCLUDE OF THE pcre.h
#define PCRE2_CODE_UNIT_WIDTH 8
#include <stdio.h>
#include <string.h>
#include <pcre2.h>
#include <stdbool.h>
int main(){
bool Debug = true;
bool Found = false;
pcre2_code *re;
PCRE2_SPTR pattern;
PCRE2_SPTR subject;
int errornumber;
int i;
int rc;
PCRE2_SIZE erroroffset;
PCRE2_SIZE *ovector;
size_t subject_length;
pcre2_match_data *match_data;
char * RegexStr = "(?:\\D|^)(5[1-5][0-9]{2}(?:\\ |\\-|)[0-9]{4}(?:\\ |\\-|)[0-9]{4}(?:\\ |\\-|)[0-9]{4})(?:\\D|$)";
char * source = "5111 2222 3333 4444";
pattern = (PCRE2_SPTR)RegexStr;// <<<<< This is where you pass your REGEX
subject = (PCRE2_SPTR)source;// <<<<< This is where you pass your bufer that will be checked.
subject_length = strlen((char *)subject);
re = pcre2_compile(
pattern, /* the pattern */
PCRE2_ZERO_TERMINATED, /* indicates pattern is zero-terminated */
0, /* default options */
&errornumber, /* for error number */
&erroroffset, /* for error offset */
NULL); /* use default compile context */
/* Compilation failed: print the error message and exit. */
if (re == NULL)
{
PCRE2_UCHAR buffer[256];
pcre2_get_error_message(errornumber, buffer, sizeof(buffer));
printf("PCRE2 compilation failed at offset %d: %s\n", (int)erroroffset,buffer);
return 1;
}
match_data = pcre2_match_data_create_from_pattern(re, NULL);
rc = pcre2_match(
re,
subject, /* the subject string */
subject_length, /* the length of the subject */
0, /* start at offset 0 in the subject */
0, /* default options */
match_data, /* block for storing the result */
NULL);
if (rc < 0)
{
switch(rc)
{
case PCRE2_ERROR_NOMATCH: //printf("No match\n"); //
pcre2_match_data_free(match_data);
pcre2_code_free(re);
Found = 0;
return Found;
// break;
/*
Handle other special cases if you like
*/
default: printf("Matching error %d\n", rc); //break;
}
pcre2_match_data_free(match_data); /* Release memory used for the match */
pcre2_code_free(re);
Found = 0; /* data and the compiled pattern. */
return Found;
}
if (Debug){
ovector = pcre2_get_ovector_pointer(match_data);
printf("Match succeeded at offset %d\n", (int)ovector[0]);
if (rc == 0)
printf("ovector was not big enough for all the captured substrings\n");
if (ovector[0] > ovector[1])
{
printf("\\K was used in an assertion to set the match start after its end.\n"
"From end to start the match was: %.*s\n", (int)(ovector[0] - ovector[1]),
(char *)(subject + ovector[1]));
printf("Run abandoned\n");
pcre2_match_data_free(match_data);
pcre2_code_free(re);
return 0;
}
for (i = 0; i < rc; i++)
{
PCRE2_SPTR substring_start = subject + ovector[2*i];
size_t substring_length = ovector[2*i+1] - ovector[2*i];
printf("%2d: %.*s\n", i, (int)substring_length, (char *)substring_start);
}
}
else{
if(rc > 0){
Found = true;
}
}
pcre2_match_data_free(match_data);
pcre2_code_free(re);
return Found;
}