An approximate grep for fuzzy matching
1 ответ

R: agrep с векторным рисунком

У меня есть вектор шаблонов, и мне нужно использовать agrep на них. Проблема в том, что agrep кажется, берет только один образец за один раз. patt <- c("test","10 Barrel") lut <- c("1 Barrel","10 Barrel Brewing","Harpoon 100 Barrel Series","re…
15 июл '15 в 15:54
0 ответов

Соответствие имени с фреймами данных различной длины в R

У меня есть два кадра данных с многочисленными переменными. Первостепенное значение имеют следующие переменные, df1.organization_name и df2.legal.name. Я просто использую полные имена SQL-esque здесь. df1 имеет размеры 15 x 2700, тогда как df2 имеет…
10 мар '16 в 22:34
0 ответов

Как работает сопоставление agrep?

Функция agrep дает некоторые удивительные результаты, и я хотел бы лучше понять ее поведение. Например: agrep("abcd",c("abc","abcde","abcef"),value=T,max.distance = 1) Возвращает:[1] "abc" "abcde" "abcef" Но расстояние между "abcd" и "abcef" равно 2…
15 май '15 в 16:06
1 ответ

R: agrep ошибка при замене строки другой строкой

После большого количества проб / ошибок и функции поиска я все еще не понимаю, что такое простая мысль (как всегда, hrmpf): У меня есть столбец в кадре данных x$question и в этом столбце есть выражение 'A/V' время от времени, и я просто хочу, чтобы …
06 авг '13 в 14:34
1 ответ

Дубликаты в функции agrep

У меня есть следующий код: x <- data.frame("SN" = 1:2, "Name" = c("aaa","bbb")) y <- data.frame("SN" = 1:2, "Name" = c("aa1","aa2")) x$partials<- as.character(sapply(x$Name, agrep, y$Name,max.distance = 1,value=T)) x Вывод следующий: > x…
18 фев '19 в 09:20
2 ответа

Более быстрый способ agrep? Быстро найти несоответствие каждого персонажа

Я ищу самый быстрый способ найти каждое несоответствие каждого символа в большом файле. Если у меня есть это: AAAA AAAB AABA BBBB CCCC Я хотел бы получить что-то вроде этого: AAAA - AAAB AABA AAAB - AAAA AABA - AAAA BBBB CCCC В настоящее время я исп…
07 дек '14 в 06:30
0 ответов

R: Задача записи связи со всеми полями, объединенными в 1 столбце

Я должен сопоставить столбец a из набора данных A с столбцом b в наборе данных B. Но разные переменные находятся не в отдельных полях (столбцы a, b, c), а в одном и том же. Я смотрел на пакеты RecordLinkage и fastLink, они прекрасно работают с разде…
31 янв '19 в 00:22
1 ответ

Успешно объедините имена в переменной, затем создайте новую переменную с кратчайшим именем для близких совпадений

Предположим символьный вектор названий компаний, где имена бывают разных форм. Вот небольшая версия фрейма данных из 10000 строк; он показывает желаемый второй вектор ("two.names"). structure(list(firm = structure(1:8, .Label = c("Carlson Caspers", …
21 янв '15 в 13:53
2 ответа

Альтернативный подход к использованию agrep() для нечеткого сопоставления в R

У меня большой файл административных данных, около 1 миллиона записей. Отдельные люди могут быть представлены несколько раз в этом наборе данных. Около половины записей имеют идентификационный код, который сопоставляет записи с отдельными лицами; дл…
28 июл '17 в 02:33
2 ответа

Частичное совпадение строк в R и обрезка символов

Вот датафрейм и вектор. df1 <- tibble(var1 = c("abcd", "efgh", "ijkl", "mnopqr", "qrst")) vec <- c("ab", "mnop", "ijk") Теперь, для всех значений в var1, которые соответствуют ближайшим (я хотел бы сопоставить первые n символов) со значениями …
28 июн '18 в 17:26
1 ответ

Нечеткое совпадение строк в R на числах, разделенных дефисами

Я пытаюсь сопоставить идентификаторы башни сотового телефона, содержащиеся в одной таблице, с основной таблицей местоположений (в лат.) Идентификаторов башни сотового телефона. Формат идентификаторов в таблице местоположений отличается от идентифика…
04 мар '18 в 06:53
1 ответ

Как найти совпадения, если шаблон является строковым символом?

Предположим, у меня есть строковый вектор: header = c("2012 Chevrolet Camaro SS", "2013 Chevrolet Equinox LT", "2013 Nissan Altima 2.5 SV", "2009 Infiniti M35x X") и список автопроизводителей maker.list = c("Chevrolet", "Nissan", "Infiniti") Я хочу …
16 ноя '15 в 00:19
1 ответ

Элемент для сохранения результатов с различной длиной в R

Я хочу извлечь похожие текстовые строки с помощью функции agrep и сохранить их в списке или в векторе, но результат будет иметь другую длину (даже замена может иметь нулевую длину), поэтому я получаю ошибку. Как я могу определить список или вектор, …
15 июл '15 в 04:22
1 ответ

Нечеткое совпадение строк с agrep()

Я сопоставляю список названий компаний против себя с помощью R и agrep(), потому что данные были неверно сохранены в устаревшей системе - нет 4-й нормальной формы, компании были записаны на том же уровне, что и клиенты, что означает новую запись ком…
18 дек '17 в 10:29
1 ответ

Строка xargs, используемая в качестве входных данных для agrep

Ребята, я использую xargs, чтобы передать ввод для agrep. Я использую xargs, как показано ниже Script: xargs -L 1 -I string echo "RequestId="string | xargs -L 1 -I string zcat FILEB | agrep -dEOE string Output till "RequestId="string RequestID=54321…
21 июн '12 в 01:21
1 ответ

Группировка строковых переменных из фрейма данных по наилучшему совпадению строк для создания подмножеств

У меня есть датафрейм с колонкой с названиями стран. Эти имена пишутся по-разному, даже если они, например, в одной и той же стране, есть различия в верхнем и нижнем регистре, некоторые буквы отсутствуют, некоторые дополнительные буквы и сын. Поэтом…
19 окт '17 в 22:44
2 ответа

Какую функцию R использовать для автокоррекции текста?

У меня есть документ CSV с 2 столбцами, который содержит категорию товара и название товара. Пример: Sl.No. Commodity Category Commodity Name 1 Stationary Pencil 2 Stationary Pen 3 Stationary Marker 4 Office Utensils Chair 5 Office Utensils Drawer 6…
23 апр '15 в 05:14
1 ответ

Многократное использование Java ProcessBuilder для agrep.exe

Моя Java-программа должна запустить agrep.exe с параметрами для всех пар элементов в большой матрице и получить количество ошибок совпадения двух строк. Я написал код, но он работает очень медленно. Могу ли я ускорить эту часть кода? Или, может быть…
08 июн '15 в 13:34
0 ответов

Соответствие текста с использованием R, когда строки различаются

Я пытаюсь определить наблюдения, которые совпадают между двумя наборами данных, используя векторы текстовых строк $contractor а также $employer и создайте индикатор ИСТИНА / ЛОЖЬ о том, находится ли подрядчик в списке работодателей. library(caTools)…
23 июл '18 в 20:29
2 ответа

agrep: возвращать только лучшие совпадения

Я использую функцию 'agrep' в R, которая возвращает вектор совпадений. Мне нужна функция, похожая на agrep, которая возвращает только лучшее совпадение или наилучшее совпадение, если есть связи. В настоящее время я делаю это, используя функцию 'sdis…
19 апр '11 в 19:53