Как найти лучшее нечеткое соответствие для строки в большой базе данных строк

Question

Как найти лучшее нечеткое соответствие для строки в большой базе данных строк

У меня есть база данных строк (произвольной длины), которая содержит более одного миллиона элементов (потенциально больше).

Мне нужно сравнить предоставленную пользователем строку со всей базой данных и извлечь идентичную строку, если она существует, или иным образом вернуть самое близкое нечеткое совпадение (я) (сходство 60% или лучше). Время поиска в идеале должно быть меньше одной секунды.

Моя идея состоит в том, чтобы использовать расстояние редактирования для сравнения каждой строки БД со строкой поиска после сужения кандидатов из БД на основе их длины.

Однако, поскольку мне нужно будет выполнять эту операцию очень часто, я думаю о создании индекса строк db для хранения в памяти и запроса индекса, а не непосредственно db.

Любые идеи о том, как подойти к этой проблеме по-другому или как построить индекс в памяти?

22

fuzzy-search string-search

Источник

user1670 21 ноя '08 в 17:02

7 ответов

Другие вопросы по тегам fuzzy-search string-search

user39702 21 ноя '08 в 18:21 2008-11-21 18:21 · Answer 1 · 2008-11-21 18:21

Эта статья, кажется, описывает именно то, что вы хотите.

Lucene ( http://lucene.apache.org/) также реализует расстояние редактирования Левенштейна.

5

Источник

user39702 21 ноя '08 в 18:21

user30927 21 ноя '08 в 18:59 2008-11-21 18:59 · Answer 2 · 2008-11-21 18:59

Вы не упомянули свою систему баз данных, но для PostrgreSQL вы могли бы использовать следующий модуль contrib: trgm - сопоставление триграмм для PostgreSQL

Модуль pg_trgm contrib предоставляет функции и классы индексов для определения сходства текста на основе сопоставления триграмм.

3

Источник

user30927 21 ноя '08 в 18:59

user25544 14 дек '08 в 11:23 2008-12-14 11:23 · Answer 3 · 2008-12-14 11:23

Если ваша база данных поддерживает это, вы должны использовать полнотекстовый поиск. В противном случае вы можете использовать такой индексатор, как lucene и его различные реализации.

2

Источник

user25544 14 дек '08 в 11:23

user8014 21 ноя '08 в 17:54 2008-11-21 17:54 · Answer 4 · 2008-11-21 17:54

Вычислить хеш SOUNDEX (который встроен во многие механизмы баз данных SQL) и индексировать его.

SOUNDEX - это хэш, основанный на звучании слов, поэтому ошибки в написании одного и того же слова могут иметь одинаковый хэш SOUNDEX.

Затем найдите хэш SOUNDEX строки поиска и сопоставьте ее.

user33288 21 ноя '08 в 17:13 2008-11-21 17:13 · Answer 5 · 2008-11-21 17:13

Поскольку объем данных велик, при вставке записи я бы вычислял и сохранял значение фонетического алгоритма в индексированном столбце, а затем ограничивал (предложение WHERE) мои запросы на выборку в диапазоне этого столбца.

0

Источник

user33288 21 ноя '08 в 17:13

user3597121 10 ноя '15 в 13:29 2015-11-10 13:29 · Answer 6 · 2015-11-10 13:29

https://en.wikipedia.org/wiki/Levenshtein_distance

Алгоритм Левенштейна был реализован в некоторых СУБД

(Например, PostgreSql: http://www.postgresql.org/docs/9.1/static/fuzzystrmatch.html).

0

Источник

user3597121 10 ноя '15 в 13:29

user17945 13 фев '10 в 14:11 2010-02-13 14:11 · Answer 7 · 2010-02-13 14:11

Очень подробное объяснение соответствующих алгоритмов содержится в книге Дэна Гусфилда " Алгоритмы на строках, деревьях и последовательностях: компьютерные науки и вычислительная биология".

0

Источник

user17945 13 фев '10 в 14:11