Каскадное чтение паркетных файлов, выведенных искрой

Question

Каскадное чтение паркетных файлов, выведенных искрой

Так что у меня есть программа spark, которая вывела несколько файлов паркет

part-r-00000-4b602595-62c5-4571-b3c6-0df335ffd2da.gz.parquet

затем я использую Cascading для чтения этих файлов паркета (эти Cascading код будет преобразован в spark, но сейчас я должен использовать Cascading здесь).

У этой каскадной программы нет проблем с чтением файлов Parquet, выведенных каскадной программой.

Однако при чтении паркетных файлов, выведенных программой spark, я получаю сообщение об ошибке

2016-11-09 10:31:30,183 INFO org.apache.hadoop.io.compress.CodecPool: Got brand-new decompressor [.gz]

2016-11-09 10:31:30,210 WARN cascading.tap.hadoop.io.MultiInputFormat: unable to get record reader, but not retrying

org.apache.parquet.io.ParquetDecodingException: Can not read value at 0 in block -1

Я не уверен, что вызывает проблему.

0

apache-spark cascading

Источник

user2628641 09 ноя '16 в 19:01

0 ответов

Другие вопросы по тегам apache-spark cascading