Проблема кодировки символов RStudio: кавычки заменены на \x92

Я читаю.csv файл, содержащий текст, встречающийся в природе. Иногда в тексте вместо этого используется "апостроф", иногда "используется" (см. Строки 2 и 6 этой таблицы).

При чтении файла в RStudio на моем ноутбуке у меня нет проблем (в тексте есть и "и"). Однако при чтении файла на сервере Rstudio (экземпляр EC2) все "заменяются на \x92, что является проблемой.

После первого пункта первого ответа на этот вопрос я попытался с помощью меню глобальных опций на сервере RStudio изменить кодировку: Unicode, UTF-8, UTF-16, Windows-1252, ISO8859-1 и т. Д.

К сожалению, независимо от моего выбора, одна и та же проблема возникает каждый раз.

Заранее большое спасибо за любую помощь.

1 ответ

Решение

Я только что нашел решение, поэтому я отвечаю на свой вопрос:

Почему-то мои попытки установить кодировку через меню глобальных опций на сервере RStudio не оказали никакого влияния на read.csv (я думал, что предполагается использовать кодировку, указанную в глобальных опциях по умолчанию getOption("encoding")), но это похоже не всегда так...)

В любом случае, указав тип кодировки непосредственно в read.csv с помощью аргумента fileEncoding и проверив данные, я увидел, что на этот раз мои разные варианты кодирования оказали влияние. После нескольких испытаний я обнаружил, что "Windows-1252" дала мне то, что я хотел.

Другие вопросы по тегам