Менее известные метрики сходства строк

Question

Менее известные метрики сходства строк

Это может быть трудный вопрос, но я что-то исследую, и мне было интересно, знает ли кто-нибудь о "менее известных" метриках сходства строк (см. На этой странице примеры известных). Я был в Википедии, и у Sourceforge есть хорошая библиотека под названием Simmetrics с кучей алгоритмов строковых метрик. Кто-нибудь провел какое-то исследование или нашел какой-то строковый алгоритм, который привлек ваше внимание как мало используемый?

Спасибо.

4

string algorithm language-agnostic

Источник

user50305 31 июл '09 в 04:06

4 ответа

Решение

Проверьте http://us.php.net/manual/en/function.levenshtein.php включая все ссылки "Смотрите также" и все комментарии пользователей.

1

Источник

user148844 03 авг '09 в 08:37

Есть также класс фонетических алгоритмов (таких как Soundex), которые могут добавить в ваш список.

1

Источник

user86473 01 авг '09 в 04:12

SpSim (Spelling Similarity) - это мера сходства строк, предназначенная для идентификации родственных языков (слов, имеющих одинаковое происхождение).

0

Источник

user803222 14 окт '11 в 13:21

Другие вопросы по тегам string algorithm language-agnostic

user12388 02 авг '09 в 19:05 2009-08-02 19:05 · Accepted Answer · 2009-08-02 19:05

Эта страница (LingPipe) дает несколько советов о сравнении строк. В нем говорится о расстоянии Дамерау-Левенштейна, алгоритме Нидлмана-Вунша, расстоянии Жакара, расстоянии Яро-Винклера, расстоянии TF/IDF. Расстояние понимается как сходство между двумя строками.

В конце страницы приводятся ссылки, а также готовая к использованию реализация Java ( загрузка и лицензия).