Рендеринг бирманских символов в R
Я работаю с текстом на бирманском языке и пытаюсь запустить тематическую модель в R. R, похоже, возникают проблемы с отображением и отображением бирманских символов. Когда я устанавливаю данные как data.frame, бирманские символы отображаются правильно:
data<-read.csv("data.csv", fileEncoding ="UTF8", encoding="UTF-8", stringsAsFactors=FALSE)
filenames<-data[,2]
txts<-data[,5]
docs <-data.frame(docs= txts,row.names=filenames)
ds <- DataframeSource(docs)
cases<-Corpus(ds)
cases[[1]]
လိုက်... #[the rest is a text file with properly rendered Burmese]
Тем не менее, когда текст не из data.frame или непосредственно из файла CSV, несколько символов:
data[1,5]
လိုက\u103a
Остальная часть представляет собой абзац текста, в котором некоторые знаки ударения отображаются неправильно, как в этом примере.
Я проверил кодировки, используя Encoding()
и R подтверждает, что в обоих случаях я использую UTF-8.
К вашему сведению, я использую Mac под управлением R64. У меня есть коллега, который использует ПК и не сталкивался с этой проблемой, но мы не смогли изолировать проблему.