Как читать файлы журнала Spark? .Iz4 или.snappy
Я хочу прочитать некоторые журналы, но не могу. Пока что я пробовал:
hadoop fs -text <file>
Но единственное, что я получаю, это: INFO compress.CodecPool: Got brand-new decompressor [.lz4]
(то же самое для.snappy)
val rawRdd = spark.sparkContext.sequenceFile[BytesWritable, String](<file>)
Это возвращает меня <file> is not a SequenceFile
val rawRdd = spark.read.textFile(<file>)
В этом случае java.lang.UnsatisfiedLinkError: org.apache.hadoop.util.NativeCodeLoader.buildSupportsSnappy()Z
загрузить файл в локальную файловую систему и затем использовать
lz4 -d <file>
распаковать и попытаться увидеть содержимоеЯ подписался на этот ТАК пост:
with open (snappy_file, "r") as input_file:
data = input_file.read()
decompressor = snappy.hadoop_snappy.StreamDecompressor()
uncompressed = decompressor.decompress(data)
но когда я хочу print(uncompressed)
Я только получаю ' 'b