Petastorm читает файлы паркета

Question

Petastorm читает файлы паркета

Я пытаюсь прочитать очень большой файл паркета в пакетном режиме, используя библиотеку petastorm. мне нужно выполнить некоторую предварительную обработку пакетов, которые будут загружены, а затем обучить нейронную сеть

Код, который я выполняю:

      import petastorm
from petastorm import make_batch_reader
from petastorm.pytorch import DataLoader
data_path = 'output.parquet'
with make_batch_reader('file:///'+data_path) as reader:
    dataloader = DataLoader(reader,batch_size=20,shuffling_queue_capacity=100)
    for batches in dataloader:
        print(batches)

Я получаю сообщение об ошибке:ValueError: Имена типов и имена полей должны быть идентификаторами значений: 'M ID'

Мой набор данных в файлах паркета выглядит примерно так

      M ID | features | labels
M4 | [[43.0, 9.0, 414.0, 6.0, 0.0], [33.0, 5.0, 808... | [808, 921, 1797, 872, 399, 1897]
M1 | [[25.0, 8.0, 600.0, 6.0, 0.0], [25.0, 2.0, 700... | [700, 800, 900, 1000, 1200, 1100]
M5 | [[78.0, 2.0, 726.0, 7.0, 0.0], [35.0, 7.0, 153... | [1535, 1116, 677, 274, 1408, 876]
M2 | [[35.0, 5.0, 600.0, 7.0, 1.0], [35.0, 2.0, 700... | [700, 800, 900, 1000, 1100, 1200]
M3 | [[68.0, 7.0, 667.0, 7.0, 0.0], [29.0, 10.0, 58... | [583, 1875, 1934, 336, 826, 1461]

0

pytorch dataset dataloader petastorm

Источник

user15051878 26 окт '23 в 10:33

0 ответов

Другие вопросы по тегам pytorch dataset dataloader petastorm