Описание тега levenshtein-distance
Метрика для измерения количества различий между двумя последовательностями. Расстояние Левенштейна допускает удаление, вставку и замену.
1
ответ
Расстояние Левенштейна для списка тысяч подобных записей криптовалют
У меня есть список из более чем тысячи различных криптовалют в алфавитном порядке. Проблема здесь в том, что если пользователь запрашивает, скажем, "BTC", он получит BTCA (Bitair) из списка, поскольку THAT предшествует биткойну. Кроме того, ввод Bit…
02 апр '18 в 13:45
1
ответ
LevensteinDistance - API Commons Lang 3.0
С помощью Commons Lang api я могу вычислить сходство между двумя строками через LevensteinDistance. Результатом является количество изменений, необходимых для изменения одной строки в другую. Хотелось бы, чтобы результат был в диапазоне от 0 до 1, г…
08 июл '11 в 19:50
1
ответ
Отдельный подсчет количества удалений в алгоритме расстояния Левенштейна
Итак, я знаю, что алгоритм расстояния Левенштейна учитывает минимальное количество удалений, вставок и замен, необходимых для изменения строки A в строку B. Но мне было интересно, как можно отдельно отслеживать количество удалений в общем количестве…
10 окт '14 в 08:20
1
ответ
Расстояние Левенштейна для списка
Я хочу разделить свой список слов на некоторое количество кластеров, используя расстояние Левенштейна. data = pd.read_csv("data.csv") Target_Column = data["words"] Target = Target_Column.tolist() clusters = defaultdict(list) threshold =5 numb = rang…
24 май '16 в 06:30
3
ответа
Существует ли более быстрый (менее точный) алгоритм, чем Левенштейн для расстояния между строками?
Я хочу запустить Levenshtein, но ПУТЬ быстрее, потому что я создаю приложение в реальном времени. Это может закончиться, как только расстояние больше 10.
30 май '11 в 16:34
4
ответа
Возможно ли сделать расстояние Левенштейна в Excel, не прибегая к макросам?
Позволь мне объяснить. Я должен выполнить нечеткое сопоставление для компании, поэтому в банкомате я использую калькулятор расстояний Левенштейна, а затем вычисляю процент сходства между двумя терминами. Если термины похожи более чем на 80%, Fuzzyma…
05 июл '12 в 13:10
1
ответ
Как посчитать количество изменений в строке с помощью JavaScript
Я пытаюсь посчитать количество изменений в одном поле (одна строка) с помощью JavaScript. Например, для имени = MARTIN: MARTI => 1 изменение MARTINE => 1 изменение MATRIN => 2 изменения MARBOM => 3 изменения
29 май '13 в 07:16
0
ответов
Ошибка при использовании пользовательских функций MySql
Привет, пожалуйста, помогите мне решить эту проблему, заранее спасибо, я определил эти функции в базе данных CREATE FUNCTION levenshtein( s1 VARCHAR(255), s2 VARCHAR(255) ) RETURNS INT DETERMINISTIC BEGIN DECLARE s1_len, s2_len, i, j, c, c_temp, cos…
22 июн '12 в 07:04
1
ответ
Как реализовать выпадающий выбор записи с помощью распознавания речи в веб-браузере?
Я ищу способ выбора записи из выпадающего списка на веб-странице с помощью распознавания речи. Мои первые мысли - использовать x-webkit-speech от Google в input type="text" элемент. А потом, когда onwebkitspeechchange событие срабатывает, рассчитайт…
30 апр '12 в 09:00
0
ответов
Нечеткое сопоставление строк для распространенных многосимвольных ошибок OCR в python
Я пытаюсь сделать нечеткое сопоставление некоторых результатов распознавания и хочу учесть общие ошибки распознавания. В частности, я сопоставляю улицы с базой данных улиц. Я выяснил, как уменьшить вес общих односимвольных ошибок подстановки с помощ…
10 янв '18 в 23:53
1
ответ
Получение ошибки сегментации на многомерном массиве при расчете расстояния Левенштейна
Я пытался вычислить расстояние Левенштейна. Следующий код работает для небольших струн, например, комплект / посадка или сидя / вязание. Но это дало мне ошибку сегментации для строк воскресенье / суббота. После использования GDB(впервые) я понял, чт…
26 фев '12 в 08:19
1
ответ
Какой алгоритм строкового расстояния наиболее подходит для сравнения названий телешоу?
Я пишу скребок для ТВ-шоу и других материалов (игры, фильмы и т. Д.), И не все источники форматируются одинаковым образом для определенного шоу. Например, один источник может представлять субтитры с тире, другие точки с запятой. В настоящее время я …
03 июл '16 в 05:50
3
ответа
Как я могу измерить сходство строк между предложениями?
У меня есть следующая задача. Данный список строк выглядит так: var strings = [ 'Steve jobs created the iPod when he was at Apple', 'I really like the new Macbook by Apple', 'Jony Ive was concerned being fired by Steve Jobs after his return to Apple…
29 мар '15 в 02:19
1
ответ
Как мне сбалансировать BK-дерево и нужно ли это?
Я пытаюсь использовать алгоритм Edit Distance для реализации нечеткого поиска в базе данных имен. Я нашел структуру данных, которая предположительно поможет ускорить это с помощью подхода "разделяй и властвуй" - деревья Беркхарда-Келлера. Проблема в…
31 дек '12 в 11:10
2
ответа
Левенштейн Автоматы
Я реализовал левенштейновую три, чтобы найти похожие слова для данного слова. моя цель состояла в том, чтобы иметь быстрый способ исправить заклинание. Однако я узнал, что есть еще более быстрый способ сделать это: Левенштейн Автоматы У меня просто …
25 июн '14 в 14:42
1
ответ
Альтернатива Левенштейна
У меня большой набор запросов, и я использую levenshtein для вычисления опечаток, теперь levenshtein заставляет mysql отнимать все процессорное время. Мой запрос - полнотекстовый поиск + levenshtein в операторе UNION. sql1 - мой текущий запрос, sql2…
29 янв '11 в 04:10
6
ответов
Левенштейн ДФА в.NET
Добрый день, Кто-нибудь знает о "готовой" реализации реализации DFA Левенштейна (детерминированные конечные автоматы) в.NET (или легко переносимой на него)? У меня очень большой словарь с более чем 160000 различными словами, и я хочу, чтобы, учитыва…
20 окт '10 в 11:18
1
ответ
Возможно ли, что SequenceMatcher в difflib Python мог бы предоставить более эффективный способ для вычисления расстояния Левенштейна?
Вот учебный пример общего алгоритма для вычисления расстояния Левенштейна (я взял из веб-сайта Магнуса Хетланда): def levenshtein(a,b): "Calculates the Levenshtein distance between a and b." n, m = len(a), len(b) if n > m: # Make sure n <= m, …
30 сен '12 в 06:30
1
ответ
PHP MySQL - альтернатива Левенштейна на десятичной
У меня есть набор данных с координатами широты и долготы (два отдельных десятичных столбца). Мне нужно выполнить поиск по ним и упорядочить их по близости, основываясь на предоставленной координате широты / долготы. Я не против преобразования столбц…
22 янв '12 в 03:06
0
ответов
Установить путь загрузки для библиотеки Левенштейна
Я пытаюсь установить пакет Левенштейна для школьного задания, но в моем ноутбуке jupyter появляется ошибка "mach-o, но made for simulator (not macOS)". Я попытался установить его, построив его в каталоге, но получил следующую распечатку терминала. Я…
18 фев '18 в 01:29