Описание тега utl-match

Пакет UTL_MATCH упрощает сопоставление двух записей. Обычно это используется для сопоставления имен, например двух имен или двух фамилий.

Из документации,

"Расстояние редактирования", также известное как "Расстояние Левенштейна"(названное в честь русского ученого Владимира Левенштейна, который разработал алгоритм в 1965 году), является мерой сходства между двумя строками, s1 и s2. Расстояние - это количество вставок, удалений или замен, необходимых для преобразования s1 в s2.

Расстояние редактирования между строками shackleford и shackelford = 2

"Алгоритм Яро-Винклера" - это еще один способ вычисления расстояния редактирования между двумя строками. Этот метод, разработанный при переписи населения США, представляет собой меру компаратора строк, которая дает значения частичного согласия между двумя строками. Компаратор строк учитывает длину строк и частично учитывает типичные человеческие ошибки, сделанные в буквенно-цифровых строках.

Например,

Сравнение нормализованных значений, возвращаемых алгоритмами Яро-Винклера и Edit Distance.

Например,

String 1        String 2    Jaro Winkler    Edit Distance
--------        --------    ------------    -------------
Dunningham      Cunnigham   89              80
Abroms          Abrams      92              83
Lampley         Campley     90              86

Сводка подпрограмм UTL_MATCH

EDIT_DISTANCE, функция

Вычисляет количество изменений, необходимых для преобразования строки-1 в строку-2.

EDIT_DISTANCE_SIMILARITY Функция

Вычисляет количество изменений, необходимых для преобразования строки-1 в строку-2, возвращая значение от 0 (нет совпадения) до 100 (точное совпадение).

Функция JARO_WINKLER

Вычисляет меру соответствия между строкой-1 и строкой-2.

Функция JARO_WINKLER_SIMILARITY

Вычисляет меру соответствия между строкой-1 и строкой-2, возвращая значение от 0 (нет совпадения) до 100 (идеальное совпадение).