Описание тега petastorm
1
ответ
Создание набора данных для паркета Petastorm через Spark завершается с ошибкой переполнения (больше 4 ГБ)
Я пытаюсь реализовать создание набора данных Uber Petastorm, которое использует Spark для создания файла паркета, следуя инструкциям на их странице Github. Код: spark = SparkSession.builder.config('spark.driver.memory', '10g').master('local[4]').get…
19 ноя '18 в 08:51
0
ответов
Хранить ndarrays в паркет через Uber/ Petastorm?
Можно ли хранить N-мерные массивы в Parquet с помощью Uber / Petastorm?
14 фев '19 в 21:48
0
ответов
ValueError: Элементы feature_columns должны быть _FeatureColumn. (Тензор потока 1.13)
Я сталкиваюсь с ошибкой ValueError при запуске Tensorflow-1.13 + Horovod-0.16 + Spark-0.24 + Petastorm-0.17. Это простая реализация модели model_fn и некоторых индикаторных столбцов, но она выдает ошибку, аналогичную элементам feature_columns, должн…
16 май '19 в 21:52
0
ответов
Python: чтение файлов Parquet, сохраненных на s3, с помощью petastorm генерирует предупреждения о подключении
У меня есть модель Tensorflow, которую я хотел бы скормить паркетными файлами, хранящимися на s3. я использую petastorm запросить эти файлы из s3, и результат запроса сохраняется как набор данных Tensorflow благодаря petastorm.tf_utils.make_petastor…
14 май '19 в 17:14
0
ответов
InvalidArgumentError при чтении паркетных файлов в Keras через Petastorm
Я пытаюсь прочитать данные с паркета для языковой модели. Паркет состоит из двух колонн: цель (число) feature_vec (массив int) Я адаптирую код из этого поста (который у меня работает). Когда я пробую приведенный ниже код, я получаю InvalidArgumentEr…
10 дек '19 в 01:55
0
ответов
Попытка создать набор данных Parquet Petastorm
В настоящее время я пытаюсь создать набор данных parquet petastorm для хранения набора видеоданных. Мой код: MotionSchema = Unischema('TeaserSchema', [ UnischemaField( 'video', np.uint8, (None, None, None, 3), NdarrayCodec(), False)]) session_builde…
07 май '20 в 01:15
1
ответ
Как заменить tf.train.batch, поскольку он устарел
Это код для обучения данных mnist с помощью Petastorm. def train_and_test(dataset_url, training_iterations, batch_size, evaluation_interval): with make_reader(os.path.join(dataset_url, 'train'), num_epochs=None) as train_reader: with make_reader(os.…
01 ноя '20 в 22:36
0
ответов
PySpark/Petastorm: как сгенерировать и включить элемент nn.Embedding()?
Мне интересно, знает ли кто-нибудь, как получить доступ или сгенерировать новые данные при использовании Uber petastorm? Что я сделал: Используемый vectorAssembler на моих непрерывных функциях, чтобы создать искровой DF (преобразованный в petastorm)…
30 ноя '20 в 00:47
1
ответ
Как лучше всего преобразовать данные временных рядов (формат паркета) в последовательности с помощью петасторма?
Простите меня, если употребляю эти термины в неправильном смысле. Я все еще борюсь со многими искрами и распределенными связанными вещами. Вот мой вариант использования, и я не могу получить полное представление о реализации. У меня есть данные врем…
23 фев '21 в 18:05
0
ответов
Должен ли я создать набор данных PyTorch для обучения модели с использованием фрейма данных pyspark?
Я хочу обучить модель PyTorch NLP над обучающими данными в столбчатом формате, и я подумал создать PyTorch, используя в качестве необработанных данных фрейм данных pyspark (не уверен, что это правильный подход ...). Для предварительной обработки тек…
10 фев '21 в 17:34
0
ответов
импорт петасторма не работает
Я пытаюсь использовать петасторм в своем проекте. Мне удалось успешно установить petastorm, и когда я пытаюсь прочитать данные, я сталкиваюсь со следующей проблемой. Я не уверен, что не так в моем коде. Ребята, не могли бы вы помочь мне в этом. from…
20 фев '21 в 12:59
0
ответов
Petastorm: непримитивные типы данных в паркетном файле
У меня проблема с Petastorm (версия 0.11), он еще не поддерживает непримитивные типы данных в файле parquet. В моем случае каждый образец представляет собой 2D-массив (32-битное представление значений с плавающей запятой в столбце). Итак, я не могу …
13 июн '21 в 12:25
0
ответов
Экспорт в Unischema/Petastorm из C++
Моя ситуация: Довольно новичок в больших данных. Пожалуйста, будьте нежны и ожидайте наивности. Создание обучающих данных во многих (тысячах) отдельных облачных рабочих мест. Каждое задание генерирует несколько точек данных; одна точка данных - это …
02 авг '21 в 22:52
0
ответов
Petastorm с ошибкой подключения Databricks
Использование Azure Databricks. У меня есть petastorm == 0.11.2 и databricks-connect == 9.1.0 Мой сеанс подключения к базе данных, похоже, работает. Я могу читать данные в моем удаленном рабочем пространстве. Но когда я использую petastorm для созда…
26 дек '21 в 00:38
0
ответов
Pentastrom Tensorflow, обучение застряло
У меня есть 2 очень больших (в ТБ) набора данных (используя Pentastorm для обучения модели tf) что я делаю, так это загружаю наборы данных с помощью Pentastorm, а затем создаю единый набор функций и меток, так как я не могу передать два отдельных на…
17 янв '22 в 06:44
2
ответа
Как распечатать данные, которые поступают в keras model.fit , особенно при использовании набора данных petastorm
Обновлять Хотя я оценил ответ AloneTogether, мне не понравилось, что я использовал take() и он был отделен от model.fit. Я поставил еще один ответ здесь, если вы хотите посмотреть на него. Это включает в себя создание подкласса Model. Это не так уж …
18 янв '22 в 12:38
0
ответов
tf.data.Dataset.group_by_window() в TensorSpec
я пытаюсь бежать tf.data.Dataset.group_by_window()в наборе данных, который у меня есть из petastorm make_tf_datasetи продолжайте получать ошибку ValueError: Invalid `key_func`. `key_func` must return a single `tf.int64` scalar tensor but its return …
01 дек '21 в 20:28
0
ответов
Паркет Pyarrow не может прочитать набор данных с большими метаданными
Я использовал Петасторм row_group_indexerдля построения индекса для столбца в наборе данных petastorm. После этого размер файла метаданных значительно увеличился, и Pyarrow больше не может загружать набор данных из-за этой ошибки: OSError: Couldn't …
14 ноя '21 в 15:19
0
ответов
spark: exec: "executor": исполняемый файл не найден в $PATH: неизвестно
Я пытаюсь сделать некоторые вычисления, используя petastorm v0.11.4в докер-контейнере и minikube v1.25.2 Пока я запускаю процесс локально, все работает как положено. Как только я пытаюсь выложить работу в кластер minikube, я получаю от kubelet следу…
29 апр '22 в 12:02
1
ответ
Хорошая стратегия обучения модели ML напрямую с использованием данных из HDFS
Я хочу обучить модель на вычислительном узле, но с использованием данных (формат паркета) из кластера хранения (HDFS). И я не могу скопировать и вставить весь набор данных из HDFS на свой вычислительный узел. Что было бы для этого подходящим решение…
16 янв '23 в 19:29