Хорошая стратегия обучения модели ML напрямую с использованием данных из HDFS
Я хочу обучить модель на вычислительном узле, но с использованием данных (формат паркета) из кластера хранения (HDFS). И я не могу скопировать и вставить весь набор данных из HDFS на свой вычислительный узел. Что было бы для этого подходящим решением (я использую python)?
Я провел небольшое исследование, и мне кажется, что Petastorm — многообещающее решение.
Однако я наткнулся на другой пост, в котором говорилось, что, цитата,
Рекомендуемый рабочий процесс:
Используйте Apache Spark для загрузки и, при необходимости, предварительной обработки данных.
Используйте метод spark_dataset_converter Petastorm для преобразования данных из Spark DataFrame в набор данных TensorFlow или PyTorch DataLoader.
Передавайте данные в платформу DL для обучения или логического вывода.
Я не уверен, почему мне нужен PySpark здесь. Так что мне интересно, если кто-нибудь знает, почему? И если кто-то сделал подобный вариант использования, не могли бы вы также поделиться своим решением? Заранее спасибо!
1 ответ
Если в документации сказано, что он может использовать кадры данных Spark, то да, это подразумевает PySpark.
Однако (Py)Spark сам по себе имеет алгоритмы машинного обучения.
кто-нибудь знает, почему?
Именно то, что вы сказали - вы не можете загрузить свой набор данных для обучения прямо в один узел.