Описание тега petastorm

Вопросы с тегом

0 ответов

Как создать объект make_batch_reader библиотеки petastorm в DataBricks?

У меня данные сохранены в паркетном формате. Petastorm — это библиотека, которую я использую для получения пакетов данных для обучения. Хотя я смог сделать это в своей локальной системе, тот же код не работает в Databricks. Код, который я использова…

10 фев '23 в 08:33

0 ответов

Предотвращение или синхронизация перетасовки в make_tf_dataset

У меня есть модель тензорного потока, которая обучена с помощью набора рейтинговых данных, например: Я хочу подчеркнуть этим примером, что каждая партия может иметь разную длину элементов, поэтому я попробовал следующее. Я создаю Spark DataFrame с н…

python-3.x tensorflow apache-spark pyspark petastorm

10 сен '22 в 20:47

0 ответов

Почему начальный параметр не работает с функцией make_tf_dataset?

Функция случайного начального числа не работает с функцией make_tf_dataset. В следующем коде: #Create fake dataset ratings = spark.createDataFrame([ {'user_id':0, 'movie_id': 3}, {'user_id': 2, 'movie_id': 5}, {'user_id':4, 'movie_id': 7}, {'user_id…

python-3.x pyspark petastorm

11 сен '22 в 13:07

0 ответов

Где найти класс ParquetDatasetPiece?

Читая скрипт petastorm/etl/dataset_metadata.py, я нашел этот код if row_groups_key != ".": for row_group in range(row_groups_per_file[row_groups_key]): rowgroups.append(pq.ParquetDatasetPiece( piece.path, open_file_func=dataset.fs.open, row_group=ro…

python-3.x pyarrow petastorm

11 сен '22 в 20:43

0 ответов

Как синхронизировать партии в petastorm?

Я новичок в petastorm и столкнулся с некоторыми проблемами. Мне нужно перебрать набор данных, получив три одинаковых пакета, чтобы преобразовать 2 из них, чтобы извлечь некоторую информацию. Набор данных состоит из пользователей, оценивающих фильмы …

python-3.x petastorm

18 сен '22 в 17:24

0 ответов

Преобразование DatasetV1Adapter в тензоры в Petastorm

Я сохранил свои данные после предварительной обработки и масштабирования в паркетном файле. И теперь я хочу читать эти данные партиями, чтобы обучить свою модель. Задача, с которой я сталкиваюсь, состоит в том, чтобы преобразовать паркетные данные в…

pyspark deep-learning tensorflow2.0 parquet petastorm

20 янв '23 в 10:00

0 ответов

Проблема прогнозирования с использованием Keras и TransformSpec с PySpark - petastorm

Я пытаюсь получить прогнозы из модели Кераса с двумя входными данными: информация о последовательности и обычная ковариата. С помощью функции TransformSpec я предварительно обрабатываю последовательности, чтобы они имели одинаковую длину и для маски…

tensorflow keras pyspark petastorm

06 дек '22 в 10:14

0 ответов

Самый эффективный способ анализа набора данных, созданного с помощью petastorm из паркета.

Версии: Python3.7.13, Tensorflow-2.9.1, Petastorm-0.12.1. Я пытаюсь реализовать структуру загрузки данных, которая создает tf.data.Dataset из паркета, хранящегося в S3, с помощью petastorm. Создание набора данных следующим образом: cols = [col1_nm, …

python tensorflow amazon-s3 petastorm

16 май '23 в 06:48

1 ответ

Создайте поезд и действительный набор данных в petastorm.

Версии: Python3.7.13, Tensorflow-2.9.1, Petastorm-0.12.1. В petastorm кажется, что единственный способ обучить модель с использованием набора данных, созданного из petastorm, - этомодель внутриконтекстный менеджер, как показано ниже, как это сделано…

python tensorflow petastorm

16 май '23 в 07:26

0 ответов

загрузка паркета с помощью petastorm, чтобы использовать его как tf.data.dataset

Я пытался реализовать petastorm для загрузки паркета прямо в тензорный поток. Однако я не понимаю, что происходит... После прочтения файла паркета типа: with make_batch_reader(dataset_url_or_urls=filepath) as reader: dataset = make_petastorm_dataset…

python tensorflow petastorm

29 апр '23 в 16:30

0 ответов

Как интегрировать tf.data.dataset с rayTune для распределенного обучения

Использование tensorflow-cpu==2.9.3, petastorm==0.12.1 на Python 3.7 Я создал tf.data.Dataset, используя petastorm для набора данных обучения и проверки. ds_train (DatasetV1Adapter; думаю, это старая версия tf.data.dataset) ds_valid (адаптер набора …

python tensorflow ray ray-tune petastorm

17 июл '23 в 07:10

0 ответов

Petastorm читает файлы паркета

Я пытаюсь прочитать очень большой файл паркета в пакетном режиме, используя библиотеку petastorm. мне нужно выполнить некоторую предварительную обработку пакетов, которые будут загружены, а затем обучить нейронную сеть Код, который я выполняю: impor…

pytorch dataset dataloader petastorm

26 окт '23 в 10:33