Как поместить небольшие двоичные файлы в файл Parquet как метаданные Map<fileName, fileContent>? Какие-нибудь ограничения?

Как поместить несколько десятков небольших двоичных файлов в файл Parquet в качестве метаданных Map<fileName, fileContent>?

Небольшие файлы - это документы, фотографии размером около 100 КБ.

Мы уже поместили некоторые короткие строковые значения в таблицу мета-информации паркета, но есть ли ограничения на количество записей на карте, общий размер карты или размер отдельного значения карты? Если да, каковы ограничения? Может быть, это очень маловероятно, чтобы нарушить ограничения с моей целью?

1 ответ

Надеюсь, @Gerardo может предоставить некоторые подробности, но официальные документы говорят, что нет никаких ограничений на размер элемента: http://parquet.apache.org/documentation/latest/ states

Типы

Предполагается, что типы, поддерживаемые форматом файла, должны быть минимально возможными, с акцентом на том, как типы влияют на дисковое хранилище. Например, 16-разрядные числа явно не поддерживаются в формате хранения, поскольку они покрыты 32-разрядными числами с эффективным кодированием. Это уменьшает сложность реализации читателей и писателей для формата. Типы: - BOOLEAN: 1-битный логический - INT32: 32-битные знаковые числа - INT64: 64-битные знаковые числа - INT96: 96-битные знаковые числа - FLOAT: IEEE 32-битные значения с плавающей запятой - DOUBLE: IEEE 64-битная плавающая точка значения - BYTE_ARRAY: произвольно длинные байтовые массивы.

(акцент мой). Существуют дополнительные логические типы, такие как String, JSON и BSON, которые основаны на BYTE_ARRAY. Их длина должна быть неограниченной. (Паркет считает, что память компьютера все еще ограничена;-)

Другие вопросы по тегам