PySpark read GBK HDFS содержит китайские символы
У меня есть много больших файлов HDFS, закодированных в GBK, но эти файлы содержат специальные символы, включая китайский и т. Д. Эти китайские строки будут показаны или сохранены в файл. Как я могу справиться с проблемой?
PySpark поддерживает только UTF-8 ридер.
- Версия Spark: 2.0.0.
- Версия Hadoop: 2.7
- Python 2.7
Добавлено следующим образом:
Результат будет сохранен в файл, затем файл результата будет использоваться в другой системе, например, в SDK. Я напечатал одно слово, так же как и u'\ufffd\ufffd', что, очевидно, неверно.