Описание тега fuzzy-comparison

Описание тега Вопросы с тегом

Нечеткое сравнение - это разговорное название приблизительного сопоставления строк, метода поиска строк, которые приблизительно соответствуют шаблону (а не точно).

2 ответа

Алгоритм нечеткого соответствия / разбиения

Фон: у меня есть видеоклипы и аудиодорожки, которые я хочу синхронизировать с упомянутыми видео. Из видеоклипов я извлечу эталонную звуковую дорожку. У меня также есть другой трек, который я хочу синхронизировать с эталонным треком. Десинхронизация …

25 фев '11 в 20:55

1 ответ

Нечеткое совпадение нечеткой строки на 2 больших наборах данных на основе условия - python

У меня есть 2 больших набора данных, которые я прочитал в Pandas DataFrames (~ 20K строк и ~40K строк соответственно). Когда я пытаюсь объединить эти два файла DF напрямую, используя pandas.merge в поле адреса, я получаю ничтожное количество совпаде…

python pandas large-data fuzzywuzzy fuzzy-comparison

17 мар '17 в 00:58

0 ответов

База данных совпадений и слияний нечетких строк - Dataframe

У меня есть два кадра данных (со строками), которые я пытаюсь сравнить друг с другом. У одной есть список областей, у другой есть список областей с длинной, последней информацией. Я изо всех сил пытаюсь написать код для выполнения следующего: 1) Про…

python dataframe join match fuzzy-comparison

01 мар '19 в 12:55

0 ответов

Нечеткое сопоставление строк для распространенных многосимвольных ошибок OCR в python

Я пытаюсь сделать нечеткое сопоставление некоторых результатов распознавания и хочу учесть общие ошибки распознавания. В частности, я сопоставляю улицы с базой данных улиц. Я выяснил, как уменьшить вес общих односимвольных ошибок подстановки с помощ…

python ocr levenshtein-distance fuzzy-comparison

10 янв '18 в 23:53

6 ответов

Нечеткие регулярные выражения

В своей работе я с отличными результатами использовал приближенные алгоритмы сопоставления строк, такие как расстояние Дамерау – Левенштейна, чтобы сделать мой код менее уязвимым к орфографическим ошибкам. Теперь мне нужно сопоставить строки с прост…

regex string fuzzy-search fuzzy-comparison tre-library

28 фев '10 в 16:08

2 ответа

Скала слияния кортежей с использованием нечеткого совпадения строк

Входные данные: val input = List((a, 10 Inches), (a, 10.00 inches), (a, 15 in), (b, 2 cm), (b, 2.00 CM)) Мне нравится иметь выход val output = List((a, 10 Inches, 0.66), (b, 2 cm, 1)) У меня также есть служебная функция, которая возвращает true для …

scala group-by fuzzy-comparison

01 фев '18 в 23:12

5 ответов

Как я могу распознать слегка измененные изображения?

У меня очень большая база изображений JPEG, около 2 миллионов. Я хотел бы сделать нечеткий поиск дубликатов среди этих изображений. Дублирующиеся изображения - это два изображения, у которых много (около половины) пикселей с одинаковыми значениями, …

image-processing hash fuzzy-comparison

30 янв '10 в 18:03

0 ответов

Как работает сопоставление agrep?

Функция agrep дает некоторые удивительные результаты, и я хотел бы лучше понять ее поведение. Например: agrep("abcd",c("abc","abcde","abcef"),value=T,max.distance = 1) Возвращает:[1] "abc" "abcde" "abcef" Но расстояние между "abcd" и "abcef" равно 2…

r fuzzy-comparison agrep

15 май '15 в 16:06

2 ответа

Нечеткое сопоставление значений типа Дата

У меня нет реального вопроса, но я больше похож на творческий подход к проблеме. Я хочу сравнить два (скорее всего, неравных) значения даты и рассчитать коэффициент их сходства. Так, например, если бы я сравнил 08.01.2013 а также 10.01.2013 Я бы пол…

algorithm fuzzy fuzzy-comparison

08 янв '13 в 11:38

1 ответ

Разница Джаро-Винклера между пакетами

Я использую нечеткое сопоставление, чтобы очистить ввод данных о лекарствах от пользователей, и я использую расстояние Джаро-Винклера. Я тестировал, какой пакет с расстоянием Jaro-Winkler был быстрее, когда я заметил, что настройки по умолчанию не д…

r fuzzy-comparison stringdist record-linkage

08 окт '18 в 17:24

3 ответа

Поиск нечеткого текста: Regex Wildcard Search Generator?

Мне интересно, есть ли какой-нибудь способ сделать нечеткое сопоставление строк в PHP. Поиск слова в длинной строке, поиск потенциального соответствия, даже если оно неправильно написано; что-то, что могло бы найти его, если бы оно было отключено од…

php regex ocr fuzzy-search fuzzy-comparison

12 ноя '09 в 08:06

1 ответ

Положение приближенных совпадений подстрок в R

Я использую R для обработки строк. У меня есть фрейм данных с колонкой строк, скажем: df <- data.frame(textcol=c("In this substring would like to find the position of this substring", "I would also like to find the position of thes substring", "N…

r fuzzy-comparison

05 авг '15 в 21:29

1 ответ

Очевидно, tFuzzyMatch не работает с арабскими текстовыми строками.

Я создал работу в talend open studio для интеграции данных v5.5.1. Я пытаюсь найти совпадения между двумя столбцами имен клиентов, один из которых является поиском, а другой содержит грязные данные. Работа выполняется, как и ожидалось, когда имена к…

talend arabic fuzzy-search fuzzy-comparison data-quality

26 авг '14 в 07:48

1 ответ

Как заполнить столбец в кадре данных с заданным ограничением значения даты и времени?

Учитывая данные панды df1 а также df2: df1: d v 0 2018-02-16 13:39:55.562506 1 1 2018-02-16 10:18:56.768246 4 а также df2: d vx 0 2018-02-16 13:39:56.668377 100 1 2018-02-16 14:01:05.766319 200 как я могу продлить df1 с vx значения из df2, так что о…

python pandas dataframe python-datetime fuzzy-comparison

16 фев '18 в 13:46

2 ответа

Внутреннее соединение ровно на одной колонне и размытое на другой

У меня есть два кадра данных, к которым я хочу присоединиться. Они разделяют два поля: group_id а также person_name, Я хочу присоединиться именно на group_id и нечеткий на person_name, Как я могу это сделать? Ограничения: Это должно быть внутреннее …

r join dplyr fuzzy-comparison exact-match

11 фев '18 в 05:02

2 ответа

Что заставило бы Fuzzy Lookup возвращать нулевой набор значений из справочной таблицы?

Я делаю нечеткий просмотр таблицы, которая отлично работает, возвращая сходства за редким исключением, и я не могу понять, что является причиной проблемы. Время от времени при сравнении будут появляться нулевые значения в поисковом представлении, да…

sql ssis lookup fuzzy-comparison

24 фев '10 в 15:38

2 ответа

Perl String:: Приблизительно на массивах

Я использую String::Approx, чтобы найти наиболее похожее совпадение для массива из двух элементов из списка других. Я был приятно удивлен, обнаружив, что вы можете использовать amatch() сравнить массив с массивом, хотя эта возможность не задокументи…

arrays perl cpan fuzzy-comparison

17 май '11 в 21:01

1 ответ

Евклидово расстояние, когда похожие объекты слегка смещены

Допустим, я хочу найти похожий вектор для вектораa = [0 0 2 0 0 0 0 0 0] У меня есть два кандидата: b1 = [0 0 0 2 0 0 0 0 0], где "особенность" находится всего в 1 позиции b2 = [0 0 0 0 0 0 0 2 0], где "особенность" находится на расстоянии 5 позиций…

euclidean-distance fuzzy-comparison

20 фев '15 в 12:09

2 ответа

Проверьте сходство форматов между двумя строками

У меня есть формат строки, который выглядит так: слово должно состоять из 15 букв первые 8 букв даты Пример: '2009060712ab56c' Допустим, я хочу сравнить это с другой строкой и указать процентное соотношение формата: result = format_similarity('20090…

python string format fuzzy-comparison

15 ноя '18 в 12:30

1 ответ

Fuzzy Logic Duplicate Name Detector

Я работаю над приложением с большим количеством продуктов и брендов. Нам нужно сопоставить названия брендов, идентифицировать дубликаты (возможно, неправильно набранные) и объединить их. Что-то похожее на то, что Android делает для контактов. Я виде…

javascript fuzzy-search fuzzy-logic fuzzy-comparison

08 июл '15 в 09:29