Ренджин не признает немецкие умлауты

У меня есть файл, который широко использует немецкие умляуты. Я написал скрипт для обработки файла, который работает как и должно быть в native R (RStudio). К сожалению, при использовании Renjin все умлауты устанавливаются на неизвестные символы в строках файла. Из-за структуры файла я использую команду readLines для чтения файла. Команда read.table() не была правильным решением в этом случае.

Я хочу использовать Renjin, так как я работаю в команде Java и с помощью Renjin я могу сохранить нашу рабочую среду, которая, конечно, основана на Java.

Java правильно распознает умлауты (использует правильную кодировку файлов). Я также проверил, правильно ли Renjin печатает умлауты, чего нет. Я уже пытался установить для языка R в Renjin значение "German_Germany.1252". Поэтому я использовал следующую команду R:

engine.eval("Sys.setlocale(category = 'LC_ALL', locale = 'German_Germany.1252')")

Локальный затем настроен правильно. Тем не менее, Ренджин вообще не распознает умлаутов. Я проверил это при печати одной строки файла, но также с одним символом, непосредственно переданным в Renjin (используя: engine.eval("print('äöß')")).

У вас есть идеи, как это исправить? Если нет, я должен открыть вопрос на GitHub?

1 ответ

Я подозреваю, что это проблема с Renjin относительно не-Unicode символов.

По умолчанию Renjin везде использует Unicode, а UTF-8 для чтения и записи в потоки.

Если это невозможно, пожалуйста, откройте проблему на GitHub с небольшим тестовым файлом и скриптом.

Другие вопросы по тегам