Описание тега petastorm

Вопросы с тегом

1 ответ

Создание набора данных для паркета Petastorm через Spark завершается с ошибкой переполнения (больше 4 ГБ)

Я пытаюсь реализовать создание набора данных Uber Petastorm, которое использует Spark для создания файла паркета, следуя инструкциям на их странице Github. Код: spark = SparkSession.builder.config('spark.driver.memory', '10g').master('local[4]').get…

python pyspark petastorm

19 ноя '18 в 08:51

0 ответов

Хранить ndarrays в паркет через Uber/ Petastorm?

Можно ли хранить N-мерные массивы в Parquet с помощью Uber / Petastorm?

python arrays matrix parquet petastorm

14 фев '19 в 21:48

0 ответов

ValueError: Элементы feature_columns должны быть _FeatureColumn. (Тензор потока 1.13)

Я сталкиваюсь с ошибкой ValueError при запуске Tensorflow-1.13 + Horovod-0.16 + Spark-0.24 + Petastorm-0.17. Это простая реализация модели model_fn и некоторых индикаторных столбцов, но она выдает ошибку, аналогичную элементам feature_columns, должн…

tensorflow apache-spark tensorflow-estimator horovod petastorm

16 май '19 в 21:52

0 ответов

Python: чтение файлов Parquet, сохраненных на s3, с помощью petastorm генерирует предупреждения о подключении

У меня есть модель Tensorflow, которую я хотел бы скормить паркетными файлами, хранящимися на s3. я использую petastorm запросить эти файлы из s3, и результат запроса сохраняется как набор данных Tensorflow благодаря petastorm.tf_utils.make_petastor…

python tensorflow urllib3 petastorm

14 май '19 в 17:14

0 ответов

InvalidArgumentError при чтении паркетных файлов в Keras через Petastorm

Я пытаюсь прочитать данные с паркета для языковой модели. Паркет состоит из двух колонн: цель (число) feature_vec (массив int) Я адаптирую код из этого поста (который у меня работает). Когда я пробую приведенный ниже код, я получаю InvalidArgumentEr…

tensorflow keras pyspark databricks petastorm

10 дек '19 в 01:55

0 ответов

Попытка создать набор данных Parquet Petastorm

В настоящее время я пытаюсь создать набор данных parquet petastorm для хранения набора видеоданных. Мой код: MotionSchema = Unischema('TeaserSchema', [ UnischemaField( 'video', np.uint8, (None, None, None, 3), NdarrayCodec(), False)]) session_builde…

python pyspark parquet petastorm

07 май '20 в 01:15

1 ответ

Как заменить tf.train.batch, поскольку он устарел

Это код для обучения данных mnist с помощью Petastorm. def train_and_test(dataset_url, training_iterations, batch_size, evaluation_interval): with make_reader(os.path.join(dataset_url, 'train'), num_epochs=None) as train_reader: with make_reader(os.…

python tensorflow petastorm

01 ноя '20 в 22:36

0 ответов

PySpark/Petastorm: как сгенерировать и включить элемент nn.Embedding()?

Мне интересно, знает ли кто-нибудь, как получить доступ или сгенерировать новые данные при использовании Uber petastorm? Что я сделал: Используемый vectorAssembler на моих непрерывных функциях, чтобы создать искровой DF (преобразованный в petastorm)…

pyspark databricks petastorm

30 ноя '20 в 00:47

1 ответ

Как лучше всего преобразовать данные временных рядов (формат паркета) в последовательности с помощью петасторма?

Простите меня, если употребляю эти термины в неправильном смысле. Я все еще борюсь со многими искрами и распределенными связанными вещами. Вот мой вариант использования, и я не могу получить полное представление о реализации. У меня есть данные врем…

python pyspark databricks horovod petastorm

23 фев '21 в 18:05

0 ответов

Должен ли я создать набор данных PyTorch для обучения модели с использованием фрейма данных pyspark?

Я хочу обучить модель PyTorch NLP над обучающими данными в столбчатом формате, и я подумал создать PyTorch, используя в качестве необработанных данных фрейм данных pyspark (не уверен, что это правильный подход ...). Для предварительной обработки тек…

python pyspark pytorch huggingface-tokenizers petastorm

10 фев '21 в 17:34

0 ответов

импорт петасторма не работает

Я пытаюсь использовать петасторм в своем проекте. Мне удалось успешно установить petastorm, и когда я пытаюсь прочитать данные, я сталкиваюсь со следующей проблемой. Я не уверен, что не так в моем коде. Ребята, не могли бы вы помочь мне в этом. from…

python-3.x pyspark petastorm

20 фев '21 в 12:59

0 ответов

Petastorm: непримитивные типы данных в паркетном файле

У меня проблема с Petastorm (версия 0.11), он еще не поддерживает непримитивные типы данных в файле parquet. В моем случае каждый образец представляет собой 2D-массив (32-битное представление значений с плавающей запятой в столбце). Итак, я не могу …

apache-spark pyspark pytorch parquet petastorm

13 июн '21 в 12:25

0 ответов

Экспорт в Unischema/Petastorm из C++

Моя ситуация: Довольно новичок в больших данных. Пожалуйста, будьте нежны и ожидайте наивности. Создание обучающих данных во многих (тысячах) отдельных облачных рабочих мест. Каждое задание генерирует несколько точек данных; одна точка данных - это …

machine-learning serialization tensorflow2.0 parquet petastorm

02 авг '21 в 22:52

0 ответов

Petastorm с ошибкой подключения Databricks

Использование Azure Databricks. У меня есть petastorm == 0.11.2 и databricks-connect == 9.1.0 Мой сеанс подключения к базе данных, похоже, работает. Я могу читать данные в моем удаленном рабочем пространстве. Но когда я использую petastorm для созда…

databricks databricks-connect petastorm

26 дек '21 в 00:38

0 ответов

Pentastrom Tensorflow, обучение застряло

У меня есть 2 очень больших (в ТБ) набора данных (используя Pentastorm для обучения модели tf) что я делаю, так это загружаю наборы данных с помощью Pentastorm, а затем создаю единый набор функций и меток, так как я не могу передать два отдельных на…

tensorflow pyspark databricks tf.keras petastorm

17 янв '22 в 06:44

2 ответа

Как распечатать данные, которые поступают в keras model.fit , особенно при использовании набора данных petastorm

Обновлять Хотя я оценил ответ AloneTogether, мне не понравилось, что я использовал take() и он был отделен от model.fit. Я поставил еще один ответ здесь, если вы хотите посмотреть на него. Это включает в себя создание подкласса Model. Это не так уж …

python tensorflow keras callback petastorm

18 янв '22 в 12:38

0 ответов

tf.data.Dataset.group_by_window() в TensorSpec

я пытаюсь бежать tf.data.Dataset.group_by_window()в наборе данных, который у меня есть из petastorm make_tf_datasetи продолжайте получать ошибку ValueError: Invalid `key_func`. `key_func` must return a single `tf.int64` scalar tensor but its return …

python tensorflow pyspark tensorflow-datasets petastorm

01 дек '21 в 20:28

0 ответов

Паркет Pyarrow не может прочитать набор данных с большими метаданными

Я использовал Петасторм row_group_indexerдля построения индекса для столбца в наборе данных petastorm. После этого размер файла метаданных значительно увеличился, и Pyarrow больше не может загружать набор данных из-за этой ошибки: OSError: Couldn't …

metadata pyarrow petastorm

14 ноя '21 в 15:19

0 ответов

spark: exec: "executor": исполняемый файл не найден в $PATH: неизвестно

Я пытаюсь сделать некоторые вычисления, используя petastorm v0.11.4в докер-контейнере и minikube v1.25.2 Пока я запускаю процесс локально, все работает как положено. Как только я пытаюсь выложить работу в кластер minikube, я получаю от kubelet следу…

apache-spark kubernetes pyspark petastorm

29 апр '22 в 12:02

1 ответ

Хорошая стратегия обучения модели ML напрямую с использованием данных из HDFS

Я хочу обучить модель на вычислительном узле, но с использованием данных (формат паркета) из кластера хранения (HDFS). И я не могу скопировать и вставить весь набор данных из HDFS на свой вычислительный узел. Что было бы для этого подходящим решение…

hadoop pyspark hdfs petastorm

16 янв '23 в 19:29