Petastorm читает файлы паркета
Я пытаюсь прочитать очень большой файл паркета в пакетном режиме, используя библиотеку petastorm. мне нужно выполнить некоторую предварительную обработку пакетов, которые будут загружены, а затем обучить нейронную сеть
Код, который я выполняю:
import petastorm
from petastorm import make_batch_reader
from petastorm.pytorch import DataLoader
data_path = 'output.parquet'
with make_batch_reader('file:///'+data_path) as reader:
dataloader = DataLoader(reader,batch_size=20,shuffling_queue_capacity=100)
for batches in dataloader:
print(batches)
Я получаю сообщение об ошибке:ValueError: Имена типов и имена полей должны быть идентификаторами значений: 'M ID'
Мой набор данных в файлах паркета выглядит примерно так
M ID | features | labels
M4 | [[43.0, 9.0, 414.0, 6.0, 0.0], [33.0, 5.0, 808... | [808, 921, 1797, 872, 399, 1897]
M1 | [[25.0, 8.0, 600.0, 6.0, 0.0], [25.0, 2.0, 700... | [700, 800, 900, 1000, 1200, 1100]
M5 | [[78.0, 2.0, 726.0, 7.0, 0.0], [35.0, 7.0, 153... | [1535, 1116, 677, 274, 1408, 876]
M2 | [[35.0, 5.0, 600.0, 7.0, 1.0], [35.0, 2.0, 700... | [700, 800, 900, 1000, 1100, 1200]
M3 | [[68.0, 7.0, 667.0, 7.0, 0.0], [29.0, 10.0, 58... | [583, 1875, 1934, 336, 826, 1461]