Описание тега jaro-winkler

An algorithm for measuring the similarity of two strings, often used for duplicate detection.
1 ответ

НЛП - Улучшение времени выполнения и восстановление нечеткого соответствия строк

Я сделал алгоритм работы, но время работы очень ужасно. Да, я знаю с самого начала, что это будет ужасно, но не так сильно. Всего за 200000 записей программа работает более часа. В основном то, что я делаю, это: for each searchfield in search fields…
24 апр '12 в 01:33
1 ответ

Ускоренный поисковый запрос с динамическими столбцами где dracle

У меня есть таблица (ResponseData) со столбцами RESPONSE_ID,RESPONSEDATA,KEY1,KEY2,KEY3,KEY4,VALUE1,VALUE2,VALUE3,VALUE4 пользователь может вставить данные любой из нижеуказанной категории. 1, "мой ответ один", "имя", ноль, ноль, ноль, "Apple", ноль…
04 дек '16 в 20:53
1 ответ

Для чего нужен третий параметр Text::JaroWinkler::strcmp95?

Меня интересует модуль Jaro-Winkler, написанный на Perl для вычисления расстояния (или сходства) между двумя строками: http://search.cpan.org/~scw/Text-JaroWinkler-0.1/JaroWinkler.pm Синтаксис функции мне не понятен; Я не смог найти какой-либо четко…
22 фев '13 в 01:18
0 ответов

Сравнить и связать строки с различными порядками слов / количеством слов

Я пытаюсь использовать пакет recordLinkage, чтобы связать вместе два набора данных, где один набор данных имеет тенденцию давать несколько фамилий / отличий, а другой просто дает одну фамилию. В настоящее время используемой функцией сравнения строк …
0 ответов

Расстояние Яро Винклера в Objective-C или Swift

Мне нужно сделать нечеткое сравнение большого количества строк, и я смотрю на Джаро-Винклера, который учитывает различия в порядке букв. Кто-нибудь знает способ сделать это в Objective-C или Swift, используя Jaro-Winkler или какой-нибудь метод, родн…
26 фев '19 в 16:38
1 ответ

Ускорение цикла расчета расстояния Яро-Винклера в R

Я новичок здесь в нескольких смыслах. Первый пост о моем первом скрипте в моей первой попытке освоить любой язык программирования. В свете этого вы могли бы посчитать этот проект слишком амбициозным, но эй, обучение на практике всегда было подходящи…
05 окт '15 в 08:35
6 ответов

Оптимизация алгоритма Яро-Винклера

У меня есть этот код для алгоритма Яро-Винклера, взятый с этого сайта. Мне нужно пробежать 150000 раз, чтобы получить расстояние между различиями. Это занимает много времени, так как я работаю на мобильном устройстве Android. Можно ли оптимизировать…
17 май '10 в 12:01
3 ответа

Алгоритм расстояния Яро – Винклера в C#

Как будет реализован алгоритм сравнения строк расстояний Яро – Винклера в C#?
01 окт '13 в 18:39
0 ответов

Сравнение строк с эффективным использованием памяти с блокировкой в ​​R

У меня проблема с связью записей с очень большими наборами данных (2000 записей в A-файле, ~70 000 000 записей в B-файле) и я хочу выполнить сопоставление на основе расстояний с помощью алгоритма jarow-winkler в R. Оба файла являются data.tables зап…
04 мар '14 в 09:01
0 ответов

Jarowinkler как загружаемое расширение для SQLite

Мне было интересно, если кто-нибудь реализовал функцию Jarowinkler как загружаемое расширение для SQLite. Я ищу эквивалент "SQLite-Левенштейна". Матеуш Адамовский (Mateusz Adamowski): отличная реализация расстояния levenstehein как загружаемого расш…
05 июл '11 в 13:41
1 ответ

Яро Винклер в SQL Server

Я попытался найти UDF dbo.fn_calculateJaroWinkler (для вычисления расстояния Jaro Winkler) для сервера sql и не смог его найти. Кто-нибудь написал это и мог бы поделиться?
23 ноя '15 в 23:17
1 ответ

Text Mining с использованием нечеткого сопоставления Jaro-Winkler в R

Я пытаюсь сделать некоторое сопоставление расстояний в R и пытаюсь добиться полезного результата. У меня есть датафрейм terms который содержит 5 строк текста, а также категорию для каждой строки. У меня есть второй датафрейм notes который содержит 1…
1 ответ

utl_match сравнивает много записей

У меня есть 2 таблицы - одна с 1 миллионом записей, а другая с 40000 записями. Мне нужно сравнить для каждой записи в таблице, если есть аналогичная строка в другой таблице. дело в том, что эта процедура очень медленная Мне нужно оптимизировать эту …
31 май '17 в 21:03
0 ответов

ElasticSearch с использованием алгоритма Яро-Винклера и Левенштейна

Я пытаюсь использовать ElasticSearch в качестве хранилища данных, чтобы найти людей по имени. Я попытался создать индекс, добавил слова, изменил отображение, но когда я пытаюсь найти людей по имени с помощью алгоритма JaroWinkler & Levenstein, он ни…
1 ответ

Использование алгоритма Винклера для веб-форм

Из веб-формы клиент отправляет мне много переменных, таких как имя, фамилия, идентификатор, адрес и т. Д. Иногда пользователь отправляет мне имя как; Elviz Aaronn Presley С помощью алгоритма Винклера я хочу сравнить все записи с записями в БД. Элвис…
14 окт '14 в 06:19
3 ответа

Функция сравнения строк Яро-Винклера в SAS

Есть ли реализация сравнения строк http://jaro-winkler/ в SAS? Похоже, что в Link King есть Jaro-Winkler, но я бы предпочел гибкость вызова функции самостоятельно. Спасибо!
28 июл '11 в 20:07
3 ответа

Какой алгоритм расстояния между строками лучше всего подходит для измерения точности печати?

Я пытаюсь написать функцию, которая определяет, насколько точно пользователь набрал определенную фразу / предложение / слово / слова. Моя цель состоит в том, чтобы создать приложение для обучения точности набора текста определенными фразами. Мой пер…
0 ответов

JARO_WINKLER соответствует дате в виде строки

Итак, я привык использовать jaro_winkler и другие, чтобы соответствовать рекомендациям наших клиентов и использовать эти инструкции для поиска клиентов в нашей базе данных, поскольку у нас на самом деле нет Ключа, как в большинстве других мест, таки…
0 ответов

Как обрабатывать дублированные символы в общих строках при применении алгоритма сходства строк Jaro

Я пытаюсь определить общую строку между двумя строками, применяя алгоритм сходства строк Jaro. скажем, у нас есть s1 = 'profjohndoe' s2 = 'drjohndoe' По сходству Яро половина длины floor(11/2) - 1 = 4определяется алгоритмом, s1[i] = s2[j] считается …
23 сен '14 в 09:01
0 ответов

Что является разумным способом объединить несколько расчетов Яро-Винклера?

Допустим, я сравниваю двух человек, у каждого из которых есть имя, фамилия, почтовый индекс, адрес (строка1), адрес (строка2) и номер телефона. Все они имеют различную надежность и важность для определения соответствия. Я могу создать расстояние JW …
22 янв '16 в 18:01