Рендеринг бирманских символов в R

Question

Рендеринг бирманских символов в R

Я работаю с текстом на бирманском языке и пытаюсь запустить тематическую модель в R. R, похоже, возникают проблемы с отображением и отображением бирманских символов. Когда я устанавливаю данные как data.frame, бирманские символы отображаются правильно:

data<-read.csv("data.csv", fileEncoding ="UTF8", encoding="UTF-8", stringsAsFactors=FALSE) 
filenames<-data[,2]
txts<-data[,5] 
docs <-data.frame(docs= txts,row.names=filenames)
ds <- DataframeSource(docs)
cases<-Corpus(ds)
cases[[1]]

လိုက်... #[the rest is a text file with properly rendered Burmese]

Тем не менее, когда текст не из data.frame или непосредственно из файла CSV, несколько символов:

data[1,5]

လိုက\u103a

Остальная часть представляет собой абзац текста, в котором некоторые знаки ударения отображаются неправильно, как в этом примере.

Я проверил кодировки, используя Encoding() и R подтверждает, что в обоих случаях я использую UTF-8.

К вашему сведению, я использую Mac под управлением R64. У меня есть коллега, который использует ПК и не сталкивался с этой проблемой, но мы не смогли изолировать проблему.

0

r text unicode character-encoding southeast-asian-languages

Источник

user2631938 29 июл '13 в 21:48

0 ответов

Другие вопросы по тегам r text unicode character-encoding southeast-asian-languages