Каскадное чтение паркетных файлов, выведенных искрой
Так что у меня есть программа spark, которая вывела несколько файлов паркет
part-r-00000-4b602595-62c5-4571-b3c6-0df335ffd2da.gz.parquet
затем я использую Cascading для чтения этих файлов паркета (эти Cascading код будет преобразован в spark, но сейчас я должен использовать Cascading здесь).
У этой каскадной программы нет проблем с чтением файлов Parquet, выведенных каскадной программой.
Однако при чтении паркетных файлов, выведенных программой spark, я получаю сообщение об ошибке
2016-11-09 10:31:30,183 INFO org.apache.hadoop.io.compress.CodecPool: Got brand-new decompressor [.gz]
2016-11-09 10:31:30,210 WARN cascading.tap.hadoop.io.MultiInputFormat: unable to get record reader, but not retrying
org.apache.parquet.io.ParquetDecodingException: Can not read value at 0 in block -1
Я не уверен, что вызывает проблему.