Хорошая стратегия обучения модели ML напрямую с использованием данных из HDFS

Я хочу обучить модель на вычислительном узле, но с использованием данных (формат паркета) из кластера хранения (HDFS). И я не могу скопировать и вставить весь набор данных из HDFS на свой вычислительный узел. Что было бы для этого подходящим решением (я использую python)?

Я провел небольшое исследование, и мне кажется, что Petastorm — многообещающее решение.

Однако я наткнулся на другой пост, в котором говорилось, что, цитата,

Рекомендуемый рабочий процесс:

Используйте Apache Spark для загрузки и, при необходимости, предварительной обработки данных.

Используйте метод spark_dataset_converter Petastorm для преобразования данных из Spark DataFrame в набор данных TensorFlow или PyTorch DataLoader.

Передавайте данные в платформу DL для обучения или логического вывода.

Я не уверен, почему мне нужен PySpark здесь. Так что мне интересно, если кто-нибудь знает, почему? И если кто-то сделал подобный вариант использования, не могли бы вы также поделиться своим решением? Заранее спасибо!

1 ответ

Если в документации сказано, что он может использовать кадры данных Spark, то да, это подразумевает PySpark.

Однако (Py)Spark сам по себе имеет алгоритмы машинного обучения.

кто-нибудь знает, почему?

Именно то, что вы сказали - вы не можете загрузить свой набор данных для обучения прямо в один узел.

Другие вопросы по тегам