Описание тега string-matching
Сопоставление строк - это проблема поиска вхождений одной строки ("шаблон", "игла") в другую ("текст", "стог сена").
2
ответа
Сканирование файла и сбор полного слова, соответствующего шаблону
Я работаю над проектом, в котором мне нужно отсканировать папку и отсканировать каждый файл на предмет конкретного слова (скажем, "@MyPattern"). Я с нетерпением ждал лучшего подхода к разработке такого сценария. Для начала я работал, как показано ни…
31 янв '19 в 11:13
0
ответов
Алгоритм сопоставления строки последовательности символов
Я пытаюсь найти название алгоритма этого типа. Это алгоритм поиска строк, в котором порядок символов в шаблоне должен сохраняться при сопоставлении текста, но не все символы в шаблоне должны присутствовать в стоге сена. Например: cat будет соответст…
30 окт '16 в 19:40
4
ответа
Сопоставить строку с массивом строки в любом порядке
Мой ввод - это строка, это может быть имя, фамилия, комбинация или даже часть обоих, в определенном порядке. Class { first = 'John' // just simple string last = 'Smith' // just simple string middle = 'Mark Bill' // this is often empty string, but ma…
24 окт '15 в 01:03
3
ответа
Регулярное выражение для определенного формата URL
Я пытаюсь получить выражение регулярного выражения для соответствия определенному формату URL. В частности, API-адреса для стека обмена. Например, я хочу, чтобы оба из них соответствовали: Http:// апи.stackru.com / 1.1/ вопросы /1234/ ответы Http://…
02 июл '11 в 22:15
4
ответа
Лучший способ очистить и нормализовать большой объем данных, используя алгоритм сопоставления строк
В настоящее время я работаю над проектом моделирования данных как часть моего летнего проекта в университете. Данные клиента нуждаются в тщательной очистке, поскольку многие столбцы основаны на вводе человеком и имеют свободный текст. Например, в ст…
12 июл '15 в 10:51
1
ответ
Функция, которая возвращает точные совпадения строк из нескольких столбцов на основе списка слов
Я надеялся получить помощь в редактировании этого полезного фрагмента кода: Function ListSearchB(text As String, wordlist As String, Optional caseSensitive As Boolean = False) Dim strMatches As String Dim res As Variant Dim arrWords() As String arrW…
05 июл '18 в 20:42
2
ответа
Как установить подмножество данных с предварительным сопоставлением строк
У меня есть следующий фрейм данных, из которого я хотел бы извлечь строки на основе соответствующих строк. > GEMA_EO5 gene_symbol fold_EO p_value RefSeq_ID BH_p_value KNG1 3.433049 8.56e-28 NM_000893,NM_001102416 1.234245e-24 REXO4 3.245317 1.78e…
11 окт '12 в 10:26
1
ответ
Haskell: ошибка алгебраических типов (деревья суффиксов: рекурсия)
Работая над функцией, для которой в качестве входных данных задано SuffixTree, выводится список целых чисел в этом дереве суффиксов. Например. getIndices tree1 = [2,4,1,3,5,0] . Порядок списка целых чисел не имеет значения. Я получаю сообщение об ош…
02 янв '14 в 21:07
1
ответ
Использовать хеширование с учетом локальности для динамического набора данных
Я использую LSH для записей базы данных, и тем самым я создаю индекс (не индекс базы данных, простую хэш-карту), где подобные записи блокируются в одном и том же сегменте. База данных может содержать несколько миллионов записей. Мой вопрос касается …
06 сен '15 в 03:36
2
ответа
Hashcode Рабина-Карпа слишком велик
Как бороться с большим значением хеш-кода в алгоритме Рабина-Карпа с переменным хешем? Я использую модульную арифметику, чтобы избежать отрицательного числа, однако есть проблема, когда хеш-код превышает мое число по модулю (N = 83559671). Я установ…
17 сен '12 в 02:34
1
ответ
Сопоставление нескольких слов среди строк и создание матрицы для отображения ответа
У меня есть файл с 5 отзывами. Следующее: text <- c("Orange is the new black", " I love smoking Marlboro black", "I love oranges before they go black", "My diary is black, so is my hair", "Is it okay to drink and smoke black") Теперь я хочу сдела…
13 июн '18 в 13:47
1
ответ
Подстрока Regex одно несоответствие в любом месте строки
Может кто-нибудь объяснить, почему код ниже возвращает пустой список: >>> import re >>> m = re.findall("(SS){e<=1}", "PSSZ") >>> m [] Я пытаюсь найти общее количество случаев SS (и включает в себя возможность до одного …
12 июл '15 в 04:26
1
ответ
Упорядоченное последовательное сопоставление текста
Я хочу сопоставить строки и получить оценку следующим образом, string 1: 4556677, string 2: 2556677, score: 0 string 1: 123345873009, string 2: 123345873112, score: 9 string 1: 22334567, string 2: 22334500, score: 6 Таким образом, оценка представляе…
02 авг '16 в 14:29
2
ответа
Какой самый быстрый способ подсчитать, сколько раз все элементы в массиве встречаются в строке?
У меня есть строка ($info) это выглядит примерно так: $info = "Complete1:1,ATTCGGCTAGGGCTAGCTAGCTAG,Complete1:2,ATTTGAGAGGGATCGCGCCAT,..." И массив (@codes) это выглядит примерно так: @codes = ("ACTTTCGGGGCATCGGATCG", "ATTGCATGGGCATGGCATGGCATG", "AC…
04 фев '15 в 23:49
2
ответа
Regex захватывает слишком много текста
Допустим, у меня есть следующий текст: foo bar baz <!-- USERNAME --> <!-- ACCESS_KEY --> baz bar foo <!--:USERNAME--> <!-- eueuteh --> -DarchetypeVersion=<!-- java-version --> -UserName=<!-- :USERNAME --> -DsauceA…
13 янв '14 в 23:33
3
ответа
Манипулирование строками в python с использованием списка
У меня есть несколько твитов, которые содержат некоторые сокращенные тексты, такие как ur,bcz и т. Д. Я использую словарь для сопоставления правильных слов. Я знаю, что мы не можем изменять строки в Python. Поэтому после замены на правильное слово я…
04 апр '18 в 05:23
3
ответа
Простое совпадение строк
Я хочу сделать простое совпадение строк, выполняя поиск по фронту строки. Есть ли более простые способы сделать это с помощью встроенного? (re кажется излишним) def matchStr(ipadr = '10.20.30.40', matchIP = '10.20.'): if ipadr[0:len(matchIP)] == mat…
11 май '11 в 19:23
1
ответ
Python pandas: столбец с упорядоченными именами файлов на основе заданной последовательности
Я хотел бы создать столбец в кадре данных, который содержит список имен файлов на основе определенного порядкового номера. У меня есть основной фрейм данных, который выглядит так: num letter 0 0 I 1 1 P 2 2 I 2 3 B 2 4 P 2 5 B 2 6 I и имена файлов у…
25 янв '18 в 13:11
4
ответа
Сопоставление товаров с доменом
У меня есть различные продукты, которые мне нужно решить, если они одинаковы. Быстрый пример: Microsoft RS400 mouse with middle button должен соответствовать Microsoft Red Style 400 three buttoned mouse но нет Microsoft Red Style 500 mouse Нет ничег…
26 июн '12 в 08:36
1
ответ
Найти подходящие подстроки в двух данных
У меня есть два кадра данных, как это: [in]print(training_df.head(n=10)) [out] product_id transaction_id 0000001 [P06, P09] 0000002 [P01, P05, P06, P09] 0000003 [P01, P06] 0000004 [P01, P09] 0000005 [P06, P09] 0000006 [P02, P09] 0000007 [P01, P06, P…
02 авг '17 в 19:49