Встраиваемые типы в паркете
Поддерживайте паркет встраиваемых типов, таких как JSON и BSON, как указано в документации. Я не могу сгенерировать вложенные типы паркета, используя scala, pyarrow,hive.
1 ответ
Сам формат Parquet поддерживает их как аннотации типов. Эти аннотации редко используются в Parquet, хотя они на самом деле не являются родными для файлового формата. В конце они просто помечают поле как двоичную строку и не предоставляют вложенные данные изначально.
Вместо этого вам лучше закодировать вложенную структуру ваших данных в схеме самого файла Parquet. Для этого требуется предварительное знание типов и стиля вложения входящих данных. Реализация этой схемы также зависит от того, какой механизм вы выбрали для записи файлов Parquet.