Как читать файлы журнала Spark? .Iz4 или.snappy

Я хочу прочитать некоторые журналы, но не могу. Пока что я пробовал:

  • hadoop fs -text <file>

Но единственное, что я получаю, это: INFO compress.CodecPool: Got brand-new decompressor [.lz4] (то же самое для.snappy)

  • val rawRdd = spark.sparkContext.sequenceFile[BytesWritable, String](<file>)

Это возвращает меня <file> is not a SequenceFile

  • val rawRdd = spark.read.textFile(<file>)

В этом случае java.lang.UnsatisfiedLinkError: org.apache.hadoop.util.NativeCodeLoader.buildSupportsSnappy()Z

  • загрузить файл в локальную файловую систему и затем использовать lz4 -d <file> распаковать и попытаться увидеть содержимое

  • Я подписался на этот ТАК пост:

with open (snappy_file, "r") as input_file: data = input_file.read() decompressor = snappy.hadoop_snappy.StreamDecompressor() uncompressed = decompressor.decompress(data)

но когда я хочу print(uncompressed)Я только получаю ' 'b

0 ответов

Другие вопросы по тегам