PySpark read GBK HDFS содержит китайские символы

У меня есть много больших файлов HDFS, закодированных в GBK, но эти файлы содержат специальные символы, включая китайский и т. Д. Эти китайские строки будут показаны или сохранены в файл. Как я могу справиться с проблемой?

PySpark поддерживает только UTF-8 ридер.

  • Версия Spark: 2.0.0.
  • Версия Hadoop: 2.7
  • Python 2.7

Добавлено следующим образом:

Результат будет сохранен в файл, затем файл результата будет использоваться в другой системе, например, в SDK. Я напечатал одно слово, так же как и u'\ufffd\ufffd', что, очевидно, неверно.

0 ответов

Другие вопросы по тегам