Менее известные метрики сходства строк

Это может быть трудный вопрос, но я что-то исследую, и мне было интересно, знает ли кто-нибудь о "менее известных" метриках сходства строк (см. На этой странице примеры известных). Я был в Википедии, и у Sourceforge есть хорошая библиотека под названием Simmetrics с кучей алгоритмов строковых метрик. Кто-нибудь провел какое-то исследование или нашел какой-то строковый алгоритм, который привлек ваше внимание как мало используемый?

Спасибо.

4 ответа

Решение

Эта страница (LingPipe) дает несколько советов о сравнении строк. В нем говорится о расстоянии Дамерау-Левенштейна, алгоритме Нидлмана-Вунша, расстоянии Жакара, расстоянии Яро-Винклера, расстоянии TF/IDF. Расстояние понимается как сходство между двумя строками.

В конце страницы приводятся ссылки, а также готовая к использованию реализация Java ( загрузка и лицензия).

Проверьте http://us.php.net/manual/en/function.levenshtein.php включая все ссылки "Смотрите также" и все комментарии пользователей.

Есть также класс фонетических алгоритмов (таких как Soundex), которые могут добавить в ваш список.

SpSim (Spelling Similarity) - это мера сходства строк, предназначенная для идентификации родственных языков (слов, имеющих одинаковое происхождение).

Другие вопросы по тегам