Описание тега fuzzy-comparison
Нечеткое сравнение - это разговорное название приблизительного сопоставления строк, метода поиска строк, которые приблизительно соответствуют шаблону (а не точно).
2
ответа
Алгоритм нечеткого соответствия / разбиения
Фон: у меня есть видеоклипы и аудиодорожки, которые я хочу синхронизировать с упомянутыми видео. Из видеоклипов я извлечу эталонную звуковую дорожку. У меня также есть другой трек, который я хочу синхронизировать с эталонным треком. Десинхронизация …
25 фев '11 в 20:55
1
ответ
Нечеткое совпадение нечеткой строки на 2 больших наборах данных на основе условия - python
У меня есть 2 больших набора данных, которые я прочитал в Pandas DataFrames (~ 20K строк и ~40K строк соответственно). Когда я пытаюсь объединить эти два файла DF напрямую, используя pandas.merge в поле адреса, я получаю ничтожное количество совпаде…
17 мар '17 в 00:58
0
ответов
База данных совпадений и слияний нечетких строк - Dataframe
У меня есть два кадра данных (со строками), которые я пытаюсь сравнить друг с другом. У одной есть список областей, у другой есть список областей с длинной, последней информацией. Я изо всех сил пытаюсь написать код для выполнения следующего: 1) Про…
01 мар '19 в 12:55
0
ответов
Нечеткое сопоставление строк для распространенных многосимвольных ошибок OCR в python
Я пытаюсь сделать нечеткое сопоставление некоторых результатов распознавания и хочу учесть общие ошибки распознавания. В частности, я сопоставляю улицы с базой данных улиц. Я выяснил, как уменьшить вес общих односимвольных ошибок подстановки с помощ…
10 янв '18 в 23:53
6
ответов
Нечеткие регулярные выражения
В своей работе я с отличными результатами использовал приближенные алгоритмы сопоставления строк, такие как расстояние Дамерау – Левенштейна, чтобы сделать мой код менее уязвимым к орфографическим ошибкам. Теперь мне нужно сопоставить строки с прост…
28 фев '10 в 16:08
2
ответа
Скала слияния кортежей с использованием нечеткого совпадения строк
Входные данные: val input = List((a, 10 Inches), (a, 10.00 inches), (a, 15 in), (b, 2 cm), (b, 2.00 CM)) Мне нравится иметь выход val output = List((a, 10 Inches, 0.66), (b, 2 cm, 1)) У меня также есть служебная функция, которая возвращает true для …
01 фев '18 в 23:12
5
ответов
Как я могу распознать слегка измененные изображения?
У меня очень большая база изображений JPEG, около 2 миллионов. Я хотел бы сделать нечеткий поиск дубликатов среди этих изображений. Дублирующиеся изображения - это два изображения, у которых много (около половины) пикселей с одинаковыми значениями, …
30 янв '10 в 18:03
0
ответов
Как работает сопоставление agrep?
Функция agrep дает некоторые удивительные результаты, и я хотел бы лучше понять ее поведение. Например: agrep("abcd",c("abc","abcde","abcef"),value=T,max.distance = 1) Возвращает:[1] "abc" "abcde" "abcef" Но расстояние между "abcd" и "abcef" равно 2…
15 май '15 в 16:06
2
ответа
Нечеткое сопоставление значений типа Дата
У меня нет реального вопроса, но я больше похож на творческий подход к проблеме. Я хочу сравнить два (скорее всего, неравных) значения даты и рассчитать коэффициент их сходства. Так, например, если бы я сравнил 08.01.2013 а также 10.01.2013 Я бы пол…
08 янв '13 в 11:38
1
ответ
Разница Джаро-Винклера между пакетами
Я использую нечеткое сопоставление, чтобы очистить ввод данных о лекарствах от пользователей, и я использую расстояние Джаро-Винклера. Я тестировал, какой пакет с расстоянием Jaro-Winkler был быстрее, когда я заметил, что настройки по умолчанию не д…
08 окт '18 в 17:24
3
ответа
Поиск нечеткого текста: Regex Wildcard Search Generator?
Мне интересно, есть ли какой-нибудь способ сделать нечеткое сопоставление строк в PHP. Поиск слова в длинной строке, поиск потенциального соответствия, даже если оно неправильно написано; что-то, что могло бы найти его, если бы оно было отключено од…
12 ноя '09 в 08:06
1
ответ
Положение приближенных совпадений подстрок в R
Я использую R для обработки строк. У меня есть фрейм данных с колонкой строк, скажем: df <- data.frame(textcol=c("In this substring would like to find the position of this substring", "I would also like to find the position of thes substring", "N…
05 авг '15 в 21:29
1
ответ
Очевидно, tFuzzyMatch не работает с арабскими текстовыми строками.
Я создал работу в talend open studio для интеграции данных v5.5.1. Я пытаюсь найти совпадения между двумя столбцами имен клиентов, один из которых является поиском, а другой содержит грязные данные. Работа выполняется, как и ожидалось, когда имена к…
26 авг '14 в 07:48
1
ответ
Как заполнить столбец в кадре данных с заданным ограничением значения даты и времени?
Учитывая данные панды df1 а также df2: df1: d v 0 2018-02-16 13:39:55.562506 1 1 2018-02-16 10:18:56.768246 4 а также df2: d vx 0 2018-02-16 13:39:56.668377 100 1 2018-02-16 14:01:05.766319 200 как я могу продлить df1 с vx значения из df2, так что о…
16 фев '18 в 13:46
2
ответа
Внутреннее соединение ровно на одной колонне и размытое на другой
У меня есть два кадра данных, к которым я хочу присоединиться. Они разделяют два поля: group_id а также person_name, Я хочу присоединиться именно на group_id и нечеткий на person_name, Как я могу это сделать? Ограничения: Это должно быть внутреннее …
11 фев '18 в 05:02
2
ответа
Что заставило бы Fuzzy Lookup возвращать нулевой набор значений из справочной таблицы?
Я делаю нечеткий просмотр таблицы, которая отлично работает, возвращая сходства за редким исключением, и я не могу понять, что является причиной проблемы. Время от времени при сравнении будут появляться нулевые значения в поисковом представлении, да…
24 фев '10 в 15:38
2
ответа
Perl String:: Приблизительно на массивах
Я использую String::Approx, чтобы найти наиболее похожее совпадение для массива из двух элементов из списка других. Я был приятно удивлен, обнаружив, что вы можете использовать amatch() сравнить массив с массивом, хотя эта возможность не задокументи…
17 май '11 в 21:01
1
ответ
Евклидово расстояние, когда похожие объекты слегка смещены
Допустим, я хочу найти похожий вектор для вектораa = [0 0 2 0 0 0 0 0 0] У меня есть два кандидата: b1 = [0 0 0 2 0 0 0 0 0], где "особенность" находится всего в 1 позиции b2 = [0 0 0 0 0 0 0 2 0], где "особенность" находится на расстоянии 5 позиций…
20 фев '15 в 12:09
2
ответа
Проверьте сходство форматов между двумя строками
У меня есть формат строки, который выглядит так: слово должно состоять из 15 букв первые 8 букв даты Пример: '2009060712ab56c' Допустим, я хочу сравнить это с другой строкой и указать процентное соотношение формата: result = format_similarity('20090…
15 ноя '18 в 12:30
1
ответ
Fuzzy Logic Duplicate Name Detector
Я работаю над приложением с большим количеством продуктов и брендов. Нам нужно сопоставить названия брендов, идентифицировать дубликаты (возможно, неправильно набранные) и объединить их. Что-то похожее на то, что Android делает для контактов. Я виде…
08 июл '15 в 09:29