Описание тега sequencematcher

По вопросам, относящимся к SequenceMatcher из модуля Python difflib. Это гибкий класс для сравнения пар последовательностей любого типа при условии, что элементы последовательности хешируются. diffflib является частью стандартной библиотеки Python.
1 ответ

Программно выяснить, эквивалентны ли переведенные имена

Я пытаюсь увидеть, эквивалентны ли два переведенных имени. Иногда перевод будет иметь имена, упорядоченные по-разному. Например: >>> import difflib >>> a = 'Yuk-shing Au' >>> b = 'Au Yuk Sing' >>> seq=difflib.Sequ…
14 мар '15 в 20:10
0 ответов

Последовательность кластеризации в R

Я пытаюсь написать простое решение для кластеризации / группировки / упрощения R-последовательности. Я скорее новичок, давно не пользовался R, поэтому, пожалуйста, прости простые и глупые вопросы / решения. Задачи взяты из SAP, и они представляют вы…
1 ответ

get_matching_blocks SequenceMatcher, когда совпадает длинная строка

В: from difflib import SequenceMatcher print('---------------------ksv in long string') temp='gksvlkdfvjmflkvmoiflksjvmoiflkvmoilfjvmoierlkvjfdsljfiefjvo\ isfvoiafvjfojwfdkvasldkcosxzfjirkjmcoipfvjopsnosjvjrgegrjsdijfowijfoiwjfoiwjfoiwjfoijlksvlkdfv…
21 авг '18 в 03:50
2 ответа

Найти процент совпадения между двумя строками, также учитывая порядок слов - Python

Я ищу способ вывода процента совпадения между двумя строками (например, именами), но также с учетом того, что они могут быть одинаковыми, но со словами в другом порядке. Я попытался использовать SequenceMatcher(), но результаты лишь частично удовлет…
0 ответов

Многопоточность снижает производительность задачи сопоставления строк - Python

У меня есть два списка - один из 100 000 комментариев ("ответы") и один из 10000 комментариев ("письма"). 10000 букв - это подмножество 100000 ответов, но измененные непредсказуемым образом. Мне нужно выяснить, какие из них соответствуют, и решил ис…
4 ответа

Получение ошибки при использовании fuzzywuzzy: UserWarning: Использование медленного чистого Python SequenceMatcher. Установите python-Levenshtein, чтобы удалить это предупреждение

Я получаю ниже ошибки. Есть ли способ исправить это без установки Python-Levenshtein, а если нет, то как установить Python-Levenshtein на Linux. UserWarning: Using slow pure-python SequenceMatcher. Install python-Levenshtein to remove this warning w…
18 дек '18 в 06:39
1 ответ

Соответствие последовательности в Python на основе последовательности приоритетов

Я пытаюсь найти наиболее подходящие слова из списка названий акций, и я хочу уделять больше внимания слову впереди, а не слову сзади, хотя слово сзади может иметь больше символов. Например. "SG HOLDINGS" против "S2 HOLDINGS" средство сравнения после…
06 июл '18 в 01:35
1 ответ

В элементе сравнения последовательности difflib отсутствуют общие подстроки

В попытке найти общие подстроки между двумя строками, SequenceMatcher не возвращает все ожидаемые общие подстроки. s1 = '++%2F%2F+Prints+%22Hello%2C+World%22+to+the+terminal+window.%0A++++++++System.out.pr%29%3B%0A++++%7D%0A%7D%0ASample+program%0Apu…
05 окт '18 в 21:30
2 ответа

SequenceMatcher: запись не совпадает только один раз?

Я использую SequenceMatcher найти набор слов в группе текстов. Проблема, с которой я столкнулся, заключается в том, что мне нужно записывать, когда совпадение не найдено, а один раз на текст. Если я пытаюсь использовать оператор if, он дает мне резу…
21 ноя '11 в 23:10
2 ответа

Difflib sequencematcher с предложениями

У меня есть следующий датафрейм Column1 Column2 tomato fruit tomatoes are not a fruit potato la best potatoe are some sort of fruit apple there are great benefits to appel pear peer и я хотел бы посмотреть слово / предложение слева с предложениями с…
01 июн '17 в 17:42
1 ответ

Как получить все подходящие части для регулярного выражения

Я должен разобрать строку в 3 этапа. Работает только первый этап, на 2 и 3 этапах matcher.groupCount() возвращает 0 - что означает, что ничего не найдено. Я проверял свое регулярное выражение в онлайн-тестере, и это было просто прекрасно. Но здесь э…
24 апр '15 в 13:24
0 ответов

Difflib Вопрос детектора Sequence_Matcher ошибка или глюк?

Я использовал этот код, который я нашел при обнаружении вопросов, так как я боролся с ним. Когда я попробовал код, я получил какой-то вывод, которого я не ожидал. Иногда я получал ожидаемый результат, но не все. Вот мой код (который я скопировал): f…
02 окт '18 в 03:08
1 ответ

difflib.SequenceMatcher не возвращает уникальное соотношение

Я пытаюсь сравнить две уличные сети, и когда я запускаю этот код, он возвращает соотношение.253529... мне нужно, чтобы он сравнивал каждую строку, чтобы получить уникальное значение, чтобы я мог запросить улицы, которые не совпадают. Что я могу сдел…
18 дек '14 в 15:51
2 ответа

Есть ли в SQL Server эквивалент SequenceMatcher питона для объединения в столбцы, которые похожи?

В Python есть хорошая встроенная функция, которая позволяет мне проверять разницу между последовательностями двух строк. Пример ниже: from difflib import SequenceMatcher def similar(a, b): return SequenceMatcher(None, a, b).ratio() Пример: similar("…
14 дек '18 в 19:34
2 ответа

SequenceMatcher для нескольких входов, а не только для двух?

Интересно, как лучше подойти к этой конкретной проблеме и есть ли какие-либо библиотеки (желательно на python, но я могу быть гибким в случае необходимости). У меня есть файл со строкой в ​​каждой строке. Я хотел бы найти самые длинные общие шаблоны…
01 апр '10 в 19:01
1 ответ

Работа методов set_seq1 и set_seq2, difflib python

Я проверил документы difflib, и я запутался в том, как difflib.SequenceMatcher.ratio()на самом деле работает. Учти это: s = difflib.SequenceMatcher(None, "hey here" , "hey there").ratio() print s даетs = 0.9411764705882353 Я хотел знать, как именно …
15 май '14 в 14:57
2 ответа

Заставляя difflib SequenceMatcher игнорировать "мусорные" символы

У меня есть много строк, которые я хочу сопоставить по сходству (каждая строка в среднем 30 символов). я нашел difflib's SequenceMatcher отлично подходит для этой задачи, так как это было просто и нашло хорошие результаты. Но если я сравню hellboy а…
02 апр '12 в 20:53
0 ответов

python - объединение при частичном сопоставлении строк с использованием SequenceMatcher

Проблема, с которой я имею дело, заключается в том, что я хочу объединить два фрейма данных на основе процентного сходства между строками строк, которые я вызываю с помощью pymssql. Я хочу получить комбинированный фрейм данных, который объединяет ст…
19 окт '17 в 00:35
0 ответов

Самый быстрый способ сравнить элементы в очень большом списке в Python

У меня очень длинный список твитов, хранящихся в списке Python (более 50 тыс.). Я нахожусь в стадии сравнения каждого элемента стихов, чтобы найти сходство между твитами, используя difflib (чтобы удалить тех, кто похож на 755, при этом оставляя толь…
24 фев '18 в 11:14
3 ответа

Как работает Pythons SequenceMatcher?

Я немного озадачен двумя разными ответами, возвращенными SequenceMatcher в зависимости от порядка аргументов. Почему это так? пример SequenceMatcher не является коммутативным: >>> from difflib import SequenceMatcher >>> SequenceMat…
20 фев '16 в 00:06