Как правильно импортировать данные с кодировкой?
Как правильно импортировать данные с кодировкой?Latin1, Latin2, ISO-8859-1, UTF-8 и т. Д. Вот как это работает для меня:
Проверьте кодировку вашей системы с помощью:
Sys.getlocale()
Вы можете попробовать установить язык, на котором вы работаете: Вот пример для бразильского португальского:
Sys.setlocale(category = "LC_ALL", locale = "pt_BR.UTF-8") # Linux, macOS, other Unix-alikes
И вы можете попробовать прочитать ваши данные в определенной кодировке для языка:
`library(stringi)`
?stringi
Запустить stri_enc_detect()
а также stri_enc_detect2()
чтобы увидеть кодификацию вашего файла
stri_enc_detect("path-to-your-file/your-file.csv", filter_angle_brackets = T)
stri_enc_detect2("путь к вашему файлу / вашему файлу.csv", locale = NULL)
Первый работает на меня.
Затем примените результат в своем коде.
Следуйте одному примеру ниже:
df <- read.csv("path-to-your-file/your-file.csv",header = TRUE, sep = ";",
quote = "\"", na.strings = "", dec = ".", fileEncoding = "YOUR RESULT OF stri_enc_detect",
encoding = "UTF-8")
encoding = "UTF-8"
, не имеет значения для меня
Источник: http://people.fas.harvard.edu/~izahn/posts/reading-data-with-non-native-encoding-in-r/
Также, quote = "\""
может вызвать некоторые неприятности и странные вещи, такие как...... /... /.
Так что постарайтесь: quote = "\""
; quote = "\n"
; quote = "\r"
; quote = ""
; и т.п.