Описание тега stringdist
NoneStringdist - это пакет R, который реализует приблизительную версию сопоставления строк встроенной функции сопоставления R. Он может рассчитывать различные расстояния между строками на основе правок, диаграмм или эвристических показателей. Также предоставляется реализация soundex.
0
ответов
Эффективный способ вычисления косинусного сходства, игнорируя цикл
Я пытаюсь вычислить косинусное сходство, используя функцию stringdist из пакета stringdist в R. Я хочу получить среднее косинусное сходство для каждой строки в scoring_dt, вычислив косинусное сходство с каждой строкой baseline_dt и взяв среднее для …
26 янв '18 в 21:04
2
ответа
Как программно найти варианты конкретного слова в предложении?
Иногда данные, которые вы получаете, не являются чистыми и имеют вариации используемых слов, с ошибками или манипуляциями. Можем ли мы найти такие примеры наиболее близкого сходства слов в предложении? Например, если я ищу слово "Awesome", которое и…
14 июн '16 в 20:05
1
ответ
Разница Джаро-Винклера между пакетами
Я использую нечеткое сопоставление, чтобы очистить ввод данных о лекарствах от пользователей, и я использую расстояние Джаро-Винклера. Я тестировал, какой пакет с расстоянием Jaro-Winkler был быстрее, когда я заметил, что настройки по умолчанию не д…
08 окт '18 в 17:24
2
ответа
Ведение заголовков на расстоянии редактирования
Я бегу редактировать расстояние, используя stringdist, Выходные данные заменяют входные данные нумерованным списком вместо сравниваемой фактической строки. Это то, что у меня сейчас есть: library(stringdist) a <- c("foo", "bar", "bear", "boat", m…
23 дек '16 в 18:53
1
ответ
Отображение соответствующих значений во фрейме данных в R
Пожалуйста, проверьте код ниже, я создал фрейм данных, используя три переменные ниже, переменная "y123" вычисляет сходство между столбцами a2 и a1. Переменная "y123" дает мне всего 16 значений, где каждое значение a1 сравнивается с a2. Мне нужно, чт…
07 дек '17 в 10:52
1
ответ
Успешно объедините имена в переменной, затем создайте новую переменную с кратчайшим именем для близких совпадений
Предположим символьный вектор названий компаний, где имена бывают разных форм. Вот небольшая версия фрейма данных из 10000 строк; он показывает желаемый второй вектор ("two.names"). structure(list(firm = structure(1:8, .Label = c("Carlson Caspers", …
21 янв '15 в 13:53
1
ответ
Найти подходящие группы строк в R
У меня есть вектор около 8000 строк. Каждый элемент в векторе является названием компании. Моя цель Моя цель состоит в том, чтобы объединить названия этих компаний в группы, чтобы каждый кластер содержал группу названий компаний, которые похожи друг…
26 фев '18 в 17:21
3
ответа
Матрица расстояний строк по критериям
Я написал скрипт для нечеткого сопоставления названий компаний. Я сопоставляю несколько не всегда полностью правильных названий компаний (т. Е. Могут быть небольшие орфографические ошибки или отсутствует суффикс "inc.") С набором "правильных" назван…
09 фев '16 в 10:50
2
ответа
R: создание списка близких совпадений с stringdist и stringdistmatrix
Я обнаружил отличный пакет "stringdist" и теперь хочу использовать его для вычисления расстояний между строками. В частности, у меня есть набор слов, и я хочу распечатать близкие совпадения, где "близкое совпадение" происходит через некоторый алгори…
18 июл '15 в 01:34
1
ответ
Почему R stringdist возвращает Inf на расстоянии q-грамм с одной строкой, меньшей q?
Я понимаю, что расстояние q-граммы является суммой абсолютных разностей между векторами q-граммы обеих строк. Но я вижу странное поведение, когда одна из строк короче выбранного q. Так что для этих двух строк, в то время как qgrams функция верна: &g…
19 окт '16 в 08:58
1
ответ
R - Строка Расстояние с взвешенными словами
Есть ли способ взвешивания конкретных слов, используя stringdist пакет или другой пакет расстояния строки? Часто у меня есть строки, которые имеют общее слово, такое как "город" или "университет", в результате чего получаются относительно близкие со…
24 май '18 в 18:48
2
ответа
Как создать группы похожих имен в R?
Я хотел бы создать групповые переменные в зависимости от того, насколько похож выбор имен. Я начал с использования пакета stringdist для генерации меры расстояния. Но я не уверен, как использовать эту выходную информацию для создания группы по перем…
27 авг '15 в 20:22
1
ответ
R Соответствие строки для адреса с использованием stringdist, stringdistmatrix
У меня есть два больших набора данных, один около полумиллиона записей, а другой около 70K. Эти наборы данных имеют адрес. Я хочу сопоставить, если какой-либо адрес в меньшем наборе данных присутствует в большом. Как вы можете себе представить, адре…
27 фев '17 в 12:46
0
ответов
Добавить в R, чтобы соответствовать нечетких строк
У меня есть два листа Excel с данными о страховых претензиях от двух разных страховых компаний. Мне нужно найти случаи лиц, которые подали претензии по обоим поставщикам. Я хотел бы иметь что-то, что объединяет имена, если кажется вероятным, что они…
06 дек '16 в 10:30
3
ответа
Быстрое расстояние Левенштейна в R?
Существует ли пакет, содержащий функцию подсчета расстояний Левенштейна, которая реализована в виде кода на языке Си или Фортрана? У меня есть много строк для сравнения и stringMatch от MiscPsycho слишком медленный для этого.
05 июл '10 в 20:50
1
ответ
Как рассчитать расстояние между струнами, используя sparklyr?
Мне нужно рассчитать расстояние между двумя строками в R, используя sparklyr. Есть ли способ использовать stringdist или любой другой пакет? Я хотел использовать расстояние двоюродного брата. Это расстояние используется как метод функции stringdist.…
02 мар '18 в 20:49
1
ответ
Используя stringdist для двух наборов данных с перекрестным соединением в R
Струнная работа с вектором stringdist("ca","abc") [1] 3 но я хочу сначала сопоставить два набора данных structure(list(id = structure(c(5L, 2L, 4L, 3L, 6L, 1L, 7L), .Label = c("SOFT Ватные палочки 100 ПЭ (БЭЛЛ", "Лимоны 55+", "МАКФА макароныоны перь…
13 окт '18 в 10:59
1
ответ
Интеллектуальный анализ текста с помощью строки библиотеки r
У меня есть следующий алгоритм, подготовленный для сопоставления двух строк. library(stringdist) qgrams('perimetrico','perimetrico peri',q=2) pe ri tr er im me o et ic co p V1 1 2 1 1 1 1 0 1 1 1 0 V2 2 3 1 2 1 1 1 1 1 1 1 Насколько мне известно, эт…
07 сен '17 в 21:37
0
ответов
Я пытаюсь использовать "stringdist" для нечеткого сопоставления названий компаний между двумя фреймами данных, но это не очень хорошо работает, что можно сделать?
У меня есть фрейм данных с 5 миллионами различных названий компаний, многие из них относятся к одной и той же компании, написанной по-разному или с ошибками. В качестве примера я использую название компании Amminex, а затем пытаюсь связать его с 5 м…
31 мар '18 в 09:40
1
ответ
Изменение формы и резюмирования data.frame на основе текста с частичным соответствием (package stringdist)
Я работаю над старым списком имен. Имена людей пишутся по-разному, но на самом деле это одни и те же люди. Я использовал пакет stringdist для вычисления расстояния между строками, чтобы найти имена, которые, вероятно, совпадают. Небольшой пример мои…
17 мар '16 в 13:20