Описание тега stringi
NoneStringi is THE R package for fast, correct, consistent and convenient string/text processing in each locale and any native character encoding. The use of the ICU library gives R users a platform-independent set of functions known to Java, Perl, Python, PHP, and Ruby programmers.
1
ответ
Как скопировать точное совпадение из данных B в данные A в r
Допустим, у меня есть два кадра данных A и B. products price apple 3.0 orange 2.5 avocado 4.0 banana 2.5 blueberry 1.5 В products Color price banana Yellow NA Apple Red NA Avocado Green NA Apricot Yellow NA Мой вопрос заключается в том, какой самый …
14 дек '17 в 03:21
1
ответ
Преобразовать HTML-сущность в правильный символ R
Кто-нибудь знает обобщенную функцию в r, которая может конвертировать ä в его юникодном характере â? Я видел некоторые функции, которые принимают âи преобразовать его в нормальный символ. Любая помощь будет оценена. Благодарю. Редактировать…
10 мар '17 в 17:59
2
ответа
Извлекать только те символы, которые находятся между начальным и конечным параграфами в начале и конце строки в R
У меня есть много строк, которые имеют следующий формат: mystrings <- c( "(ABFUHIASH)THISISAVERYLONGSTRINGWITHOUTANYSPACES(ENDING)", "(SECONDSTR)YETANOTHERBORINGSTRINGWITHOUTSPACES(RANDOMENDING)", "(JOWERIC)THISPARTSHOULDNOTBEEXTRACTED(GETTHIS)",…
31 янв '18 в 19:15
3
ответа
Как удалить символ в кадре данных с помощью пакета stringi?
В настоящее время у меня есть набор данных ключевых показателей эффективности, и я хотел бы удалить символ "$" из данных. Тем не менее, я могу использовать только одну строку кода в дополнение к обязательному использованию пакета stringi. Глядя на д…
13 ноя '17 в 23:44
1
ответ
R Строковое кодирование от "неизвестно"/"ASCII" до "UTF-8"
Я не совсем уверен, как превратить это в воспроизводимый пример, и за это прошу прощения. Но у меня есть фрейм данных со строковым столбцом. Когда я бегу stri_enc_mark в столбце я вижу строки в кодировке ASCII и UTF-8. Это проблема, потому что, когд…
13 июн '18 в 18:16
2
ответа
Найти заменить все, используя словарь шаблонов регулярных выражений в R (возможно, Tidyverse)?
Я хотел бы заменить из набора шаблонов для конкретной строки. Например, это могут быть различные сокращенные названия месяцев в числовом значении месяца. Я создал словарь следующим образом (польские месяцы, строки 2, числовое значение. dictionary<…
28 мар '18 в 10:22
1
ответ
Невозможно установить пакет stringi в R 3.4.2 на Redhat
ОС: Redhat 7.4 R: 3.4.2 stringi: 1.2.2 Здравствуйте, я работал над настройкой репозитория R для наших бизнес-пользователей. К сожалению, я застрял при попытке установить stringi. Я сталкивался с ошибками при попытке установки, и до сих пор мои иссле…
09 май '18 в 05:17
6
ответов
Перекрывающиеся спички в R
Я искал и смог найти это обсуждение на форуме для достижения эффекта совпадения совпадений. Я также нашел следующий вопрос SO, говорящий о поиске индексов для выполнения этой задачи, но не смог найти ничего краткого о получении перекрывающихся совпа…
12 сен '14 в 02:56
2
ответа
Извлечь последнее слово в строке после запятой, если есть несколько слов, кроме первого слова
У меня есть данные, где слова следующие location<- c("xyz, sss, New Zealand", "USA", "Pris,France") id<- c(1,2,3) df<-data.frame(location,id) Я хотел бы извлечь название страны из данных. Сложность в том, что если я извлеку только последнее…
30 июн '15 в 21:27
1
ответ
pkgdown собирается в Ubuntu, но не в Windows: аргумент `str` должен быть символьным вектором
Я задавал этот похожий вопрос раньше. Я сделал больше копаний и сделал этот вопрос минимальным и воспроизводимым насколько это возможно: Сначала я создал новый пакет, как описано здесь, и создал сайт с pkgdown, Это создает сайт, как и ожидалось: pkg…
22 сен '17 в 13:35
5
ответов
R: Regex Madness (Стринги)
У меня есть вектор строк, которые выглядят так: G30(H).G3(M).G0(L).Replicate(1) Перебирая c("H", "M", "L")Я хотел бы извлечь G30 (за "H"), G3 (за "M") а также G0 (за "L"). Мои различные попытки запутали меня - regex101.com например, отладчик указыва…
15 авг '17 в 11:38
0
ответов
Соглашение о Perl с помощью stringi
Я могу использовать perl аргумент в gsub изменить регистр отдельных подвыражений. Например, если я хочу найти нижний регистр i с последующим апострофом или концом строки (здесь избыточно) я мог бы сделать: gsub("(\\bi(\\b|'))", "\\U\\1", "i am able …
01 сен '16 в 18:17
4
ответа
Как заменить совпадения в строке и индексировать каждое совпадение
Конкретная строка может содержать несколько экземпляров шаблона, который я пытаюсь сопоставить. Например, если мой шаблон <N(.+?)N> и моя строка "My name is <N Timon N> and his name is <N Pumba N>"Тогда есть два матча. Я хочу замен…
02 ноя '17 в 15:33
1
ответ
Unlist str_locate_all в отдельные начальный и конечный списки
Я использую str_locate_all, чтобы получить начальную и конечную позиции списка шаблонов в моей строке. Возвращает список с начальной и конечной позициями для каждого матча. Как я могу получить начальную и конечную позиции всех матчей в отдельных спи…
08 янв '19 в 18:03
2
ответа
Добавьте пробел между числом и условием специального символа R
Я пытаюсь использовать базовые вызовы stringr или R для условного добавления пробела для экземпляров в большом векторе, где есть числовое значение, а затем специальный символ - в этом случае знак $ без пробела. str_pad, по-видимому, не допускает опо…
11 янв '19 в 16:27
0
ответов
tokens_replace() работает только с stri_trans_general(), а не с Encoding()
Во время игры с лемматизацией, удалением стоп-слов, выделением и т. Д. Для немецкого текста у меня были проблемы с использованием tokens_replace() функция в quanteda пакет. Я нашел решение (см. Код), которое, кажется, работает, хотя я не понимаю, по…
20 фев '19 в 12:22
3
ответа
Добавить столбец списка в фрейм данных
У меня есть фрейм данных со 100 строками. У меня есть столбец в фрейме данных, который состоит из текста. Я хотел бы разделить текстовый столбец на предложения, чтобы текстовый столбец стал списком предложений. Я делю с помощью функции пакета string…
09 янв '19 в 16:03
2
ответа
Получение уникального количества из структурированных текстовых данных
Мне интересно, как получить уникальное количество символов из текстовой строки из структурированного набора данных. Это дополнительный вопрос к моему предыдущему посту. Я хотел бы получить уникальное количество яблок (закодировано как приложение), б…
25 фев '19 в 14:45
2
ответа
Как найти подстроку из строки в R?
Если моя строка представляет собой последовательность ДНК, x<-"TATAATGCAACGAGGGGCATAATTATATATGCCCAAAATCTGATATAATGACCGGGTAG" Я хочу извлечь подстроку из ATG в TAA, TGA или TAG. Я могу извлечь из одной точки в другую с помощью пакета string i с рег…
14 июн '18 в 12:28
2
ответа
R/regex с stringi/ICU: почему символ '+' считается не -[:punct:]?
Я пытаюсь удалить не алфавитные символы из вектора строк. Я думал [:punct:] группировка будет охватывать это, но, похоже, игнорировать +, Это относится к другой группе персонажей? library(stringi) string1 <- c( "this is a test" ,"this, is also a …
13 окт '14 в 20:48