Описание тега fuzzy-comparison

Нечеткое сравнение - это разговорное название приблизительного сопоставления строк, метода поиска строк, которые приблизительно соответствуют шаблону (а не точно).
2 ответа

Алгоритм нечеткого соответствия / разбиения

Фон: у меня есть видеоклипы и аудиодорожки, которые я хочу синхронизировать с упомянутыми видео. Из видеоклипов я извлечу эталонную звуковую дорожку. У меня также есть другой трек, который я хочу синхронизировать с эталонным треком. Десинхронизация …
1 ответ

Нечеткое совпадение нечеткой строки на 2 больших наборах данных на основе условия - python

У меня есть 2 больших набора данных, которые я прочитал в Pandas DataFrames (~ 20K строк и ~40K строк соответственно). Когда я пытаюсь объединить эти два файла DF напрямую, используя pandas.merge в поле адреса, я получаю ничтожное количество совпаде…
0 ответов

База данных совпадений и слияний нечетких строк - Dataframe

У меня есть два кадра данных (со строками), которые я пытаюсь сравнить друг с другом. У одной есть список областей, у другой есть список областей с длинной, последней информацией. Я изо всех сил пытаюсь написать код для выполнения следующего: 1) Про…
01 мар '19 в 12:55
0 ответов

Нечеткое сопоставление строк для распространенных многосимвольных ошибок OCR в python

Я пытаюсь сделать нечеткое сопоставление некоторых результатов распознавания и хочу учесть общие ошибки распознавания. В частности, я сопоставляю улицы с базой данных улиц. Я выяснил, как уменьшить вес общих односимвольных ошибок подстановки с помощ…
6 ответов

Нечеткие регулярные выражения

В своей работе я с отличными результатами использовал приближенные алгоритмы сопоставления строк, такие как расстояние Дамерау – Левенштейна, чтобы сделать мой код менее уязвимым к орфографическим ошибкам. Теперь мне нужно сопоставить строки с прост…
2 ответа

Скала слияния кортежей с использованием нечеткого совпадения строк

Входные данные: val input = List((a, 10 Inches), (a, 10.00 inches), (a, 15 in), (b, 2 cm), (b, 2.00 CM)) Мне нравится иметь выход val output = List((a, 10 Inches, 0.66), (b, 2 cm, 1)) У меня также есть служебная функция, которая возвращает true для …
01 фев '18 в 23:12
5 ответов

Как я могу распознать слегка измененные изображения?

У меня очень большая база изображений JPEG, около 2 миллионов. Я хотел бы сделать нечеткий поиск дубликатов среди этих изображений. Дублирующиеся изображения - это два изображения, у которых много (около половины) пикселей с одинаковыми значениями, …
30 янв '10 в 18:03
0 ответов

Как работает сопоставление agrep?

Функция agrep дает некоторые удивительные результаты, и я хотел бы лучше понять ее поведение. Например: agrep("abcd",c("abc","abcde","abcef"),value=T,max.distance = 1) Возвращает:[1] "abc" "abcde" "abcef" Но расстояние между "abcd" и "abcef" равно 2…
15 май '15 в 16:06
2 ответа

Нечеткое сопоставление значений типа Дата

У меня нет реального вопроса, но я больше похож на творческий подход к проблеме. Я хочу сравнить два (скорее всего, неравных) значения даты и рассчитать коэффициент их сходства. Так, например, если бы я сравнил 08.01.2013 а также 10.01.2013 Я бы пол…
08 янв '13 в 11:38
1 ответ

Разница Джаро-Винклера между пакетами

Я использую нечеткое сопоставление, чтобы очистить ввод данных о лекарствах от пользователей, и я использую расстояние Джаро-Винклера. Я тестировал, какой пакет с расстоянием Jaro-Winkler был быстрее, когда я заметил, что настройки по умолчанию не д…
08 окт '18 в 17:24
3 ответа

Поиск нечеткого текста: Regex Wildcard Search Generator?

Мне интересно, есть ли какой-нибудь способ сделать нечеткое сопоставление строк в PHP. Поиск слова в длинной строке, поиск потенциального соответствия, даже если оно неправильно написано; что-то, что могло бы найти его, если бы оно было отключено од…
12 ноя '09 в 08:06
1 ответ

Положение приближенных совпадений подстрок в R

Я использую R для обработки строк. У меня есть фрейм данных с колонкой строк, скажем: df <- data.frame(textcol=c("In this substring would like to find the position of this substring", "I would also like to find the position of thes substring", "N…
05 авг '15 в 21:29
1 ответ

Очевидно, tFuzzyMatch не работает с арабскими текстовыми строками.

Я создал работу в talend open studio для интеграции данных v5.5.1. Я пытаюсь найти совпадения между двумя столбцами имен клиентов, один из которых является поиском, а другой содержит грязные данные. Работа выполняется, как и ожидалось, когда имена к…
1 ответ

Как заполнить столбец в кадре данных с заданным ограничением значения даты и времени?

Учитывая данные панды df1 а также df2: df1: d v 0 2018-02-16 13:39:55.562506 1 1 2018-02-16 10:18:56.768246 4 а также df2: d vx 0 2018-02-16 13:39:56.668377 100 1 2018-02-16 14:01:05.766319 200 как я могу продлить df1 с vx значения из df2, так что о…
2 ответа

Внутреннее соединение ровно на одной колонне и размытое на другой

У меня есть два кадра данных, к которым я хочу присоединиться. Они разделяют два поля: group_id а также person_name, Я хочу присоединиться именно на group_id и нечеткий на person_name, Как я могу это сделать? Ограничения: Это должно быть внутреннее …
11 фев '18 в 05:02
2 ответа

Что заставило бы Fuzzy Lookup возвращать нулевой набор значений из справочной таблицы?

Я делаю нечеткий просмотр таблицы, которая отлично работает, возвращая сходства за редким исключением, и я не могу понять, что является причиной проблемы. Время от времени при сравнении будут появляться нулевые значения в поисковом представлении, да…
24 фев '10 в 15:38
2 ответа

Perl String:: Приблизительно на массивах

Я использую String::Approx, чтобы найти наиболее похожее совпадение для массива из двух элементов из списка других. Я был приятно удивлен, обнаружив, что вы можете использовать amatch() сравнить массив с массивом, хотя эта возможность не задокументи…
17 май '11 в 21:01
1 ответ

Евклидово расстояние, когда похожие объекты слегка смещены

Допустим, я хочу найти похожий вектор для вектораa = [0 0 2 0 0 0 0 0 0] У меня есть два кандидата: b1 = [0 0 0 2 0 0 0 0 0], где "особенность" находится всего в 1 позиции b2 = [0 0 0 0 0 0 0 2 0], где "особенность" находится на расстоянии 5 позиций…
20 фев '15 в 12:09
2 ответа

Проверьте сходство форматов между двумя строками

У меня есть формат строки, который выглядит так: слово должно состоять из 15 букв первые 8 букв даты Пример: '2009060712ab56c' Допустим, я хочу сравнить это с другой строкой и указать процентное соотношение формата: result = format_similarity('20090…
15 ноя '18 в 12:30
1 ответ

Fuzzy Logic Duplicate Name Detector

Я работаю над приложением с большим количеством продуктов и брендов. Нам нужно сопоставить названия брендов, идентифицировать дубликаты (возможно, неправильно набранные) и объединить их. Что-то похожее на то, что Android делает для контактов. Я виде…