Хорошая стратегия обучения модели ML напрямую с использованием данных из HDFS

Question

Хорошая стратегия обучения модели ML напрямую с использованием данных из HDFS

Я хочу обучить модель на вычислительном узле, но с использованием данных (формат паркета) из кластера хранения (HDFS). И я не могу скопировать и вставить весь набор данных из HDFS на свой вычислительный узел. Что было бы для этого подходящим решением (я использую python)?

Я провел небольшое исследование, и мне кажется, что Petastorm — многообещающее решение.

Однако я наткнулся на другой пост, в котором говорилось, что, цитата,

Рекомендуемый рабочий процесс:

Используйте Apache Spark для загрузки и, при необходимости, предварительной обработки данных.

Используйте метод spark_dataset_converter Petastorm для преобразования данных из Spark DataFrame в набор данных TensorFlow или PyTorch DataLoader.

Передавайте данные в платформу DL для обучения или логического вывода.

Я не уверен, почему мне нужен PySpark здесь. Так что мне интересно, если кто-нибудь знает, почему? И если кто-то сделал подобный вариант использования, не могли бы вы также поделиться своим решением? Заранее спасибо!

0

hadoop pyspark hdfs petastorm

Источник

user8696281 16 янв '23 в 19:29

1 ответ

Другие вопросы по тегам hadoop pyspark hdfs petastorm

user2308683 16 янв '23 в 23:52 2023-01-16 23:52 · Answer 1 · 2023-01-16 23:52

Если в документации сказано, что он может использовать кадры данных Spark, то да, это подразумевает PySpark.

Однако (Py)Spark сам по себе имеет алгоритмы машинного обучения.

кто-нибудь знает, почему?

Именно то, что вы сказали - вы не можете загрузить свой набор данных для обучения прямо в один узел.