Описание тега stringdist

Описание тега Вопросы с тегом

NoneStringdist - это пакет R, который реализует приблизительную версию сопоставления строк встроенной функции сопоставления R. Он может рассчитывать различные расстояния между строками на основе правок, диаграмм или эвристических показателей. Также предоставляется реализация soundex.

0 ответов

Эффективный способ вычисления косинусного сходства, игнорируя цикл

Я пытаюсь вычислить косинусное сходство, используя функцию stringdist из пакета stringdist в R. Я хочу получить среднее косинусное сходство для каждой строки в scoring_dt, вычислив косинусное сходство с каждой строкой baseline_dt и взяв среднее для …

26 янв '18 в 21:04

2 ответа

Как программно найти варианты конкретного слова в предложении?

Иногда данные, которые вы получаете, не являются чистыми и имеют вариации используемых слов, с ошибками или манипуляциями. Можем ли мы найти такие примеры наиболее близкого сходства слов в предложении? Например, если я ищу слово "Awesome", которое и…

r string fuzzy-search stringdist

14 июн '16 в 20:05

1 ответ

Разница Джаро-Винклера между пакетами

Я использую нечеткое сопоставление, чтобы очистить ввод данных о лекарствах от пользователей, и я использую расстояние Джаро-Винклера. Я тестировал, какой пакет с расстоянием Jaro-Winkler был быстрее, когда я заметил, что настройки по умолчанию не д…

r fuzzy-comparison stringdist record-linkage

08 окт '18 в 17:24

2 ответа

Ведение заголовков на расстоянии редактирования

Я бегу редактировать расстояние, используя stringdist, Выходные данные заменяют входные данные нумерованным списком вместо сравниваемой фактической строки. Это то, что у меня сейчас есть: library(stringdist) a <- c("foo", "bar", "bear", "boat", m…

r edit-distance stringdist

23 дек '16 в 18:53

1 ответ

Отображение соответствующих значений во фрейме данных в R

Пожалуйста, проверьте код ниже, я создал фрейм данных, используя три переменные ниже, переменная "y123" вычисляет сходство между столбцами a2 и a1. Переменная "y123" дает мне всего 16 значений, где каждое значение a1 сравнивается с a2. Мне нужно, чт…

r dplyr stringdist record-linkage

07 дек '17 в 10:52

1 ответ

Успешно объедините имена в переменной, затем создайте новую переменную с кратчайшим именем для близких совпадений

Предположим символьный вектор названий компаний, где имена бывают разных форм. Вот небольшая версия фрейма данных из 10000 строк; он показывает желаемый второй вектор ("two.names"). structure(list(firm = structure(1:8, .Label = c("Carlson Caspers", …

r fuzzy-comparison stringdist agrep

21 янв '15 в 13:53

1 ответ

Найти подходящие группы строк в R

У меня есть вектор около 8000 строк. Каждый элемент в векторе является названием компании. Моя цель Моя цель состоит в том, чтобы объединить названия этих компаний в группы, чтобы каждый кластер содержал группу названий компаний, которые похожи друг…

r string grouping matching stringdist

26 фев '18 в 17:21

3 ответа

Матрица расстояний строк по критериям

Я написал скрипт для нечеткого сопоставления названий компаний. Я сопоставляю несколько не всегда полностью правильных названий компаний (т. Е. Могут быть небольшие орфографические ошибки или отсутствует суффикс "inc.") С набором "правильных" назван…

r distance stringdist

09 фев '16 в 10:50

2 ответа

R: создание списка близких совпадений с stringdist и stringdistmatrix

Я обнаружил отличный пакет "stringdist" и теперь хочу использовать его для вычисления расстояний между строками. В частности, у меня есть набор слов, и я хочу распечатать близкие совпадения, где "близкое совпадение" происходит через некоторый алгори…

r string matrix stringdist

18 июл '15 в 01:34

1 ответ

Почему R stringdist возвращает Inf на расстоянии q-грамм с одной строкой, меньшей q?

Я понимаю, что расстояние q-граммы является суммой абсолютных разностей между векторами q-граммы обеих строк. Но я вижу странное поведение, когда одна из строк короче выбранного q. Так что для этих двух строк, в то время как qgrams функция верна: &g…

r stringdist

19 окт '16 в 08:58

1 ответ

R - Строка Расстояние с взвешенными словами

Есть ли способ взвешивания конкретных слов, используя stringdist пакет или другой пакет расстояния строки? Часто у меня есть строки, которые имеют общее слово, такое как "город" или "университет", в результате чего получаются относительно близкие со…

r stringdist

24 май '18 в 18:48

2 ответа

Как создать группы похожих имен в R?

Я хотел бы создать групповые переменные в зависимости от того, насколько похож выбор имен. Я начал с использования пакета stringdist для генерации меры расстояния. Но я не уверен, как использовать эту выходную информацию для создания группы по перем…

r grouping fuzzy-comparison stringdist

27 авг '15 в 20:22

1 ответ

R Соответствие строки для адреса с использованием stringdist, stringdistmatrix

У меня есть два больших набора данных, один около полумиллиона записей, а другой около 70K. Эти наборы данных имеют адрес. Я хочу сопоставить, если какой-либо адрес в меньшем наборе данных присутствует в большом. Как вы можете себе представить, адре…

r loops data.table string-matching stringdist

27 фев '17 в 12:46

0 ответов

Добавить в R, чтобы соответствовать нечетких строк

У меня есть два листа Excel с данными о страховых претензиях от двух разных страховых компаний. Мне нужно найти случаи лиц, которые подали претензии по обоим поставщикам. Я хотел бы иметь что-то, что объединяет имена, если кажется вероятным, что они…

r excel stringdist

06 дек '16 в 10:30

3 ответа

Быстрое расстояние Левенштейна в R?

Существует ли пакет, содержащий функцию подсчета расстояний Левенштейна, которая реализована в виде кода на языке Си или Фортрана? У меня есть много строк для сравнения и stringMatch от MiscPsycho слишком медленный для этого.

r performance packages levenshtein-distance stringdist

05 июл '10 в 20:50

1 ответ

Как рассчитать расстояние между струнами, используя sparklyr?

Мне нужно рассчитать расстояние между двумя строками в R, используя sparklyr. Есть ли способ использовать stringdist или любой другой пакет? Я хотел использовать расстояние двоюродного брата. Это расстояние используется как метод функции stringdist.…

r sparklyr stringdist

02 мар '18 в 20:49

1 ответ

Используя stringdist для двух наборов данных с перекрестным соединением в R

Струнная работа с вектором stringdist("ca","abc") [1] 3 но я хочу сначала сопоставить два набора данных structure(list(id = structure(c(5L, 2L, 4L, 3L, 6L, 1L, 7L), .Label = c("SOFT Ватные палочки 100 ПЭ (БЭЛЛ", "Лимоны 55+", "МАКФА макароныоны перь…

r string stringdist

13 окт '18 в 10:59

1 ответ

Интеллектуальный анализ текста с помощью строки библиотеки r

У меня есть следующий алгоритм, подготовленный для сопоставления двух строк. library(stringdist) qgrams('perimetrico','perimetrico peri',q=2) pe ri tr er im me o et ic co p V1 1 2 1 1 1 1 0 1 1 1 0 V2 2 3 1 2 1 1 1 1 1 1 1 Насколько мне известно, эт…

r stringdist

07 сен '17 в 21:37

0 ответов

Я пытаюсь использовать "stringdist" для нечеткого сопоставления названий компаний между двумя фреймами данных, но это не очень хорошо работает, что можно сделать?

У меня есть фрейм данных с 5 миллионами различных названий компаний, многие из них относятся к одной и той же компании, написанной по-разному или с ошибками. В качестве примера я использую название компании Amminex, а затем пытаюсь связать его с 5 м…

r stringdist

31 мар '18 в 09:40

1 ответ

Изменение формы и резюмирования data.frame на основе текста с частичным соответствием (package stringdist)

Я работаю над старым списком имен. Имена людей пишутся по-разному, но на самом деле это одни и те же люди. Я использовал пакет stringdist для вычисления расстояния между строками, чтобы найти имена, которые, вероятно, совпадают. Небольшой пример мои…

r dataframe dplyr reshape2 stringdist

17 мар '16 в 13:20