Как правильно импортировать данные с кодировкой?

Как правильно импортировать данные с кодировкой?Latin1, Latin2, ISO-8859-1, UTF-8 и т. Д. Вот как это работает для меня:

Проверьте кодировку вашей системы с помощью:

Sys.getlocale()

Вы можете попробовать установить язык, на котором вы работаете: Вот пример для бразильского португальского:

Sys.setlocale(category = "LC_ALL", locale = "pt_BR.UTF-8") # Linux, macOS, other Unix-alikes

И вы можете попробовать прочитать ваши данные в определенной кодировке для языка:

`library(stringi)`
?stringi

Запустить stri_enc_detect() а также stri_enc_detect2() чтобы увидеть кодификацию вашего файла

stri_enc_detect("path-to-your-file/your-file.csv", filter_angle_brackets = T)

stri_enc_detect2("путь к вашему файлу / вашему файлу.csv", locale = NULL)

Первый работает на меня.

Затем примените результат в своем коде.

Следуйте одному примеру ниже:

df <- read.csv("path-to-your-file/your-file.csv",header = TRUE, sep = ";", 
               quote = "\"", na.strings = "", dec = ".", fileEncoding = "YOUR RESULT OF stri_enc_detect", 
               encoding = "UTF-8")

encoding = "UTF-8", не имеет значения для меня

Источник: http://people.fas.harvard.edu/~izahn/posts/reading-data-with-non-native-encoding-in-r/

Также, quote = "\"" может вызвать некоторые неприятности и странные вещи, такие как...... /... /.

Так что постарайтесь: quote = "\""; quote = "\n"; quote = "\r"; quote = ""; и т.п.

0 ответов

Другие вопросы по тегам