SQL Teradata для извлечения записей на основе приблизительного соответствия строк

Мы находимся на версии TD 14, и я родом из Netezza / Postgre(Redshift). Меня попросили извлечь данные для входа из журналов аудита, чтобы выяснить записи / транзакции, в которых тот же ip представляет похожие имена пользователей с небольшими изменениями. например, Самир -> Самр -> Амир и т. д. Для захвата фишинговой активности. В POstgres у нас есть нечеткие строковые функции, такие как '%', например, ColA % ColB (где оператор% эквивалентен аналогичному) Soundex, Metaphone, levenshtein и т. Д. В Teradata я только что столкнулся или мне удалось найти только Soundex. Есть ли такая возможность встроенной функции / метода в Teradata версии 14 для достижения вышеуказанного приближения строки?

1 ответ

Teradata 14.x поддерживает алгоритм расстояния Дамерау-Левенштейна через EDITDISTANCE() функция и соответствие n-граммному шаблону через NGRAM() функция.

Вы можете найти информацию о функции EDITDISTANCE здесь и функции NGRAM() здесь.

Другие вопросы по тегам