agrep: возвращать только лучшие совпадения

Question

agrep: возвращать только лучшие совпадения

Я использую функцию 'agrep' в R, которая возвращает вектор совпадений. Мне нужна функция, похожая на agrep, которая возвращает только лучшее совпадение или наилучшее совпадение, если есть связи. В настоящее время я делаю это, используя функцию 'sdist()' из пакета 'cba' для каждого элемента результирующего вектора, но это кажется очень избыточным.

/ edit: вот функция, которую я сейчас использую. Я хотел бы ускорить его, так как кажется, что излишне рассчитывать расстояние дважды.

library(cba)
word <- 'test'
words <- c('Teest','teeeest','New York City','yeast','text','Test')
ClosestMatch <- function(string,StringVector) {
  matches <- agrep(string,StringVector,value=TRUE)
  distance <- sdists(string,matches,method = "ow",weight = c(1, 0, 2))
  matches <- data.frame(matches,as.numeric(distance))
  matches <- subset(matches,distance==min(distance))
  as.character(matches$matches)
}

ClosestMatch(word,words)

28

r text character string-matching agrep

Источник

user345660 19 апр '11 в 19:53

2 ответа

Решение

Пакет agrep использует расстояния Левенштейна для сопоставления строк. Пакет RecordLinkage имеет функцию C для вычисления расстояния Левенштейна, которая может быть использована непосредственно для ускорения ваших вычислений. Вот переделал ClosestMatch функция, которая примерно в 10 раз быстрее

library(RecordLinkage)

ClosestMatch2 = function(string, stringVector){

  distance = levenshteinSim(string, stringVector);
  stringVector[distance == max(distance)]

}

30

Источник

user235349 19 апр '11 в 21:55

Другие вопросы по тегам r text character string-matching agrep

user2416743 23 ноя '14 в 15:14 2014-11-23 15:14 · Accepted Answer · 2014-11-23 15:14

Пакет RecordLinkage был удален из CRAN, вместо этого используйте stringdist:

library(stringdist)

ClosestMatch2 = function(string, stringVector){

  stringVector[amatch(string, stringVector, maxDist=Inf)]

}

14

Источник

user2416743 23 ноя '14 в 15:14