PySpark read GBK HDFS содержит китайские символы

Question

PySpark read GBK HDFS содержит китайские символы

У меня есть много больших файлов HDFS, закодированных в GBK, но эти файлы содержат специальные символы, включая китайский и т. Д. Эти китайские строки будут показаны или сохранены в файл. Как я могу справиться с проблемой?

PySpark поддерживает только UTF-8 ридер.

Версия Spark: 2.0.0.
Версия Hadoop: 2.7
Python 2.7

Добавлено следующим образом:

Результат будет сохранен в файл, затем файл результата будет использоваться в другой системе, например, в SDK. Я напечатал одно слово, так же как и u'\ufffd\ufffd', что, очевидно, неверно.

0

python-2.7 apache-spark pyspark text-files gbk

Источник

user8134794 09 июн '17 в 05:07

0 ответов

Другие вопросы по тегам python-2.7 apache-spark pyspark text-files gbk