Дубликаты в функции agrep
У меня есть следующий код:
x <- data.frame("SN" = 1:2, "Name" = c("aaa","bbb"))
y <- data.frame("SN" = 1:2, "Name" = c("aa1","aa2"))
x$partials<- as.character(sapply(x$Name, agrep, y$Name,max.distance = 1,value=T))
x
Вывод следующий:
> x
SN Name partials
1 1 aaa c("aa1", "aa2")
2 2 bbb character(0)
Однако я ожидаю следующий вывод:
https://s tackru.com/images/43aade3a4f195b219b2c70702c01566369267e4f.png
Есть идеи?
1 ответ
Решение
Вы, наверное, ищете это.
Во-первых, sapply()
ничего не выдает, если character(0)
, Чтобы предотвратить это, вы могли бы сказать, что это NA
или текст "character(0)"
если ты действительно этого хочешь.
z <- setNames(sapply(x$Name, function(a) {
ag <- agrep(a, y$Name, max.distance=1, value=TRUE)
if (identical(ag, character(0))) NA # set to "character(0)" at will
else ag
}), x$Name)
Затем преобразуйте полученный список в матрицу.
z <- do.call(rbind, z)
Мы должны melt()
это, чтобы получить правильный формат. Хороший путь с data.table
,
library(data.table)
z <- setNames(melt(z)[-2], c("Name", "partials"))
Теперь мы просто объединяем x с новыми данными, чтобы получить результат, обеспечивая уникальные строки z
,
res <- merge(x, unique(z))[c(2, 1, 3)]
> res
SN Name partials
1 1 aaa aa1
2 1 aaa aa2
3 2 bbb <NA>