Описание тега fuzzywuzzy

FuzzyWuzzy - это пакет Python для выполнения нечеткого сопоставления строк.
1 ответ

Странное поведение в экстракте FuzzyWuzzy

Я пытаюсь использовать FuzzyWuzzy, чтобы исправить неправильно написанные имена в тексте. Однако я не могу заставить process.extract и process.extractOne вести себя так, как я ожидал. from fuzzywuzzy import process the_text = 'VICTOR HUGO e MARIANA …
22 май '18 в 12:53
2 ответа

Нечеткий python3 не возвращает значение индекса массива

Я пытаюсь изменить fuzzywuzzy библиотека. Процесс модуля возвращает score и элемент массива. Но я хочу, чтобы он возвращал индекс элемента вместе с группой баллов, предметов, индексов.Вот что я попробовал: #!/usr/bin/env python # encoding: utf-8 fro…
26 июл '17 в 04:19
1 ответ

Нечеткое совпадение нечеткой строки на 2 больших наборах данных на основе условия - python

У меня есть 2 больших набора данных, которые я прочитал в Pandas DataFrames (~ 20K строк и ~40K строк соответственно). Когда я пытаюсь объединить эти два файла DF напрямую, используя pandas.merge в поле адреса, я получаю ничтожное количество совпаде…
3 ответа

Нечеткое совпадение строк в Python

У меня есть 2 списка из более чем миллиона имен с немного другими соглашениями об именах. Цель здесь - сопоставить те записи, которые похожи, с логикой 95% достоверности. Мне стало известно, что есть библиотеки, которые я могу использовать, такие ка…
16 авг '16 в 07:52
0 ответов

Как я могу получить нечеткий поиск SSIS, чтобы игнорировать порядок токенов, как это делает python token_sort_ratio

Мои исходные данные имеют те же данные, что и справочная запись, но в другом порядке. например: 0.42345795, тестовый адрес клиента № 12, заказ; token @, token @ client #12 order; address, Для тех же самых записей inout и lookup SSIS дал сходство 0,4…
23 июн '17 в 19:05
1 ответ

Как добавить модуль Python из директории site-package conda для spark-submit?

Мне нужно запустить приложение PySpark (v1.6.3). Здесь --py-files флаг для добавления файлов.zip, .egg или.py. Если бы у меня был пакет / модуль Python в /usr/anaconda2/lib/python2.7/site-packages/fuzzywuzzyКак бы я включил весь этот модуль? Внутри …
1 ответ

Создание флага с использованием нечеткого сопоставления между двумя наборами данных в Python

У меня есть два набора данных df1 и df2, оба имеют следующие столбцы: |city |state |address_id |address |postal_code |A |X |10 |flat 123,abc lane |400000 Я хочу создать двоичный флаг для каждого address_id в df1 в зависимости от того, присутствует л…
17 апр '18 в 07:47
0 ответов

Почему fuzzy.ratio не 100 для одинаковых строк?

У меня есть два кадра данных df1 и df2. Оба фрейма данных имеют столбец с именем фильма. Я пытаюсь сопоставить movie_name1 в df1 с movie_name2 в df2. Аргумент movie_name1 имеет такие значения, как Восстание Темного Рыцаря, Человек-Паук 3. movie_name…
03 ноя '16 в 00:08
1 ответ

Ошибка при запуске fuzzywuzzy/fuzz.py

У меня есть программа, которая использует fuzzywuzzy для сопоставления csvs и поиска любых строк, которые могут быть дубликатами или очень похожими. Когда я сравниваю мои два файла, fuzzywuzzy вызывает следующую ошибку: WARNING:root:Applied processo…
19 дек '16 в 18:50
0 ответов

Python - FuzzyWuzzy String Сходство, данные не согласованы?

Я пытаюсь использовать библиотеку fuzzywuzzy в Python, чтобы сопоставить вводимые пользователем данные со списком предварительно определенных ответов, чтобы вывести желаемые результаты. Может быть лучший способ выполнить эту функцию, и если так, пож…
15 ноя '18 в 21:59
3 ответа

Поиск в одном фрейме / словаре данных Python нечетких совпадений в другом фрейме данных

У меня есть следующий фрейм данных pandas с 50000 уникальных строк и 20 столбцов (в том числе фрагмент соответствующих столбцов): df1: PRODUCT_ID PRODUCT_DESCRIPTION 0 165985858958 "Fish Burger with Lettuce" 1 185965653252 "Chicken Salad with Dressi…
0 ответов

Как я могу улучшить производительность моего apply() с помощью оператора нечеткого соответствия

Я написал функцию muzz, которая использует модуль fuzzywuzzy для "объединения" двух фреймов данных панд. Прекрасно работает, но на больших кадрах производительность довольно плохая. Пожалуйста, посмотрите на мой apply(), который выполняет извлечение…
09 фев '15 в 01:43
0 ответов

Как установить библиотеку fuzzywuzzy из программы Spyder ANACONDA NAVIGATOR?

Я запустил spyder из навигатора Anaconda, но я не знаю, как устанавливать новые пакеты. Можете ли вы сказать мне, как установить библиотеку fuzzywuzzy из spyder ANACONDA NAVIGATOR? Спасибо
19 ноя '18 в 06:18
1 ответ

Ошибка совпадения строки со списком строк с использованием extractOne() из fuzzywuzzy в python

import csv from fuzzywuzzy import process d = open("/home/arushi/PycharmProjects/GD_project/Group_chat.csv","r") csvReader = csv.reader(d, quotechar='"', delimiter=(','), quoting =csv.QUOTE_ALL, skipinitialspace=True, escapechar='\\') header = next(…
20 июн '18 в 09:32
1 ответ

Нечеткое сопоставление двух столбцов в одном и том же информационном кадре с использованием Python

У меня есть два набора данных в одном фрейме данных, каждый из которых показывает список компаний. Один набор данных с 2017 года, а другой с этого года. Я пытаюсь сопоставить два набора данных компании друг с другом, и нечеткое сопоставление ( Fuzzy…
01 ноя '18 в 14:58
1 ответ

Найти сходство между строковым вводом и строковым столбцом фрейма данных

У меня есть фрейм данных Pandas с двумя столбцами, содержащими строки, как показано ниже: Col-1 Col-2 Animal have an apple Fruit tiger safari Veg Vegetable Market Flower Garden Из этого я должен создать функцию, которая принимает строку в качестве а…
23 авг '18 в 11:21
0 ответов

Показывает, насколько совпадают совпадающие строки или связь между двумя строками при использовании Fuzzywuzzy

Я использую библиотеку fuzzywuzzy, чтобы соответствовать счету. Я знаком с ratio, sort_ratio, set_ratio функции, доступные в Fuzzywuzzy. Что я пытаюсь получить, когда мы получаем совпадающий балл, можно ли извлечь "как совпадают две строки" или "как…
06 дек '18 в 07:18
0 ответов

Поиск в столбце MySQL ближайшего совпадения строк и разницы в производительности в Python 3.7

У меня есть таблица в базе данных MySQL8 с именем команды. Моя цель для этой таблицы и некоторых других с той же проблемой, учитывая строку, содержащую одно или несколько слов, и предполагая, что моя строка не точно совпадает ни с одной другой в зап…
10 дек '18 в 23:19
0 ответов

Pandas и Fuzzy - сравнение CSV и MySQL перед перезаписью

Основываясь на ответе, представленном в этом разделе [ Запись в базу данных MySQL с помощью панд с использованием SQLAlchemy, to_sql, как было бы возможно, с помощью pandas и fuzzywuzzy, сравнить файл csv с данными в базе данных (в двух столбцах) и,…
14 дек '18 в 20:33
4 ответа

Получение ошибки при использовании fuzzywuzzy: UserWarning: Использование медленного чистого Python SequenceMatcher. Установите python-Levenshtein, чтобы удалить это предупреждение

Я получаю ниже ошибки. Есть ли способ исправить это без установки Python-Levenshtein, а если нет, то как установить Python-Levenshtein на Linux. UserWarning: Using slow pure-python SequenceMatcher. Install python-Levenshtein to remove this warning w…
18 дек '18 в 06:39