Описание тега petastorm
0
ответов
Как создать объект make_batch_reader библиотеки petastorm в DataBricks?
У меня данные сохранены в паркетном формате. Petastorm — это библиотека, которую я использую для получения пакетов данных для обучения. Хотя я смог сделать это в своей локальной системе, тот же код не работает в Databricks. Код, который я использова…
10 фев '23 в 08:33
0
ответов
Предотвращение или синхронизация перетасовки в make_tf_dataset
У меня есть модель тензорного потока, которая обучена с помощью набора рейтинговых данных, например: Я хочу подчеркнуть этим примером, что каждая партия может иметь разную длину элементов, поэтому я попробовал следующее. Я создаю Spark DataFrame с н…
10 сен '22 в 20:47
0
ответов
Почему начальный параметр не работает с функцией make_tf_dataset?
Функция случайного начального числа не работает с функцией make_tf_dataset. В следующем коде: #Create fake dataset ratings = spark.createDataFrame([ {'user_id':0, 'movie_id': 3}, {'user_id': 2, 'movie_id': 5}, {'user_id':4, 'movie_id': 7}, {'user_id…
11 сен '22 в 13:07
0
ответов
Где найти класс ParquetDatasetPiece?
Читая скрипт petastorm/etl/dataset_metadata.py, я нашел этот код if row_groups_key != ".": for row_group in range(row_groups_per_file[row_groups_key]): rowgroups.append(pq.ParquetDatasetPiece( piece.path, open_file_func=dataset.fs.open, row_group=ro…
11 сен '22 в 20:43
0
ответов
Как синхронизировать партии в petastorm?
Я новичок в petastorm и столкнулся с некоторыми проблемами. Мне нужно перебрать набор данных, получив три одинаковых пакета, чтобы преобразовать 2 из них, чтобы извлечь некоторую информацию. Набор данных состоит из пользователей, оценивающих фильмы …
18 сен '22 в 17:24
0
ответов
Преобразование DatasetV1Adapter в тензоры в Petastorm
Я сохранил свои данные после предварительной обработки и масштабирования в паркетном файле. И теперь я хочу читать эти данные партиями, чтобы обучить свою модель. Задача, с которой я сталкиваюсь, состоит в том, чтобы преобразовать паркетные данные в…
20 янв '23 в 10:00
0
ответов
Проблема прогнозирования с использованием Keras и TransformSpec с PySpark - petastorm
Я пытаюсь получить прогнозы из модели Кераса с двумя входными данными: информация о последовательности и обычная ковариата. С помощью функции TransformSpec я предварительно обрабатываю последовательности, чтобы они имели одинаковую длину и для маски…
06 дек '22 в 10:14
0
ответов
Самый эффективный способ анализа набора данных, созданного с помощью petastorm из паркета.
Версии: Python3.7.13, Tensorflow-2.9.1, Petastorm-0.12.1. Я пытаюсь реализовать структуру загрузки данных, которая создает tf.data.Dataset из паркета, хранящегося в S3, с помощью petastorm. Создание набора данных следующим образом: cols = [col1_nm, …
16 май '23 в 06:48
1
ответ
Создайте поезд и действительный набор данных в petastorm.
Версии: Python3.7.13, Tensorflow-2.9.1, Petastorm-0.12.1. В petastorm кажется, что единственный способ обучить модель с использованием набора данных, созданного из petastorm, - этомодель внутриконтекстный менеджер, как показано ниже, как это сделано…
16 май '23 в 07:26
0
ответов
загрузка паркета с помощью petastorm, чтобы использовать его как tf.data.dataset
Я пытался реализовать petastorm для загрузки паркета прямо в тензорный поток. Однако я не понимаю, что происходит... После прочтения файла паркета типа: with make_batch_reader(dataset_url_or_urls=filepath) as reader: dataset = make_petastorm_dataset…
29 апр '23 в 16:30
0
ответов
Как интегрировать tf.data.dataset с rayTune для распределенного обучения
Использование tensorflow-cpu==2.9.3, petastorm==0.12.1 на Python 3.7 Я создал tf.data.Dataset, используя petastorm для набора данных обучения и проверки. ds_train (DatasetV1Adapter; думаю, это старая версия tf.data.dataset) ds_valid (адаптер набора …
17 июл '23 в 07:10
0
ответов
Petastorm читает файлы паркета
Я пытаюсь прочитать очень большой файл паркета в пакетном режиме, используя библиотеку petastorm. мне нужно выполнить некоторую предварительную обработку пакетов, которые будут загружены, а затем обучить нейронную сеть Код, который я выполняю: impor…
26 окт '23 в 10:33