Чтение CSV-файла, хранящегося локально, с использованием javaSpark в кластерном режиме

Я пытаюсь прочитать файл csv, хранящийся в моей локальной файловой системе в UNIX, при запуске в режиме кластера он не может найти файл csv. в локальном режиме он может читать как hdfs, так и file:/// files.bit, в кластерном режиме он может читать только файл hdfs. Любой подходящий способ чтения без его копирования в HDFS.

1 ответ

Помните, что исполнитель должен иметь доступ к файлу, поэтому вы должны отойти от узлов-исполнителей. Когда вы упоминаете HDFS, это означает, что узлы-исполнители должны иметь доступ к вашему кластеру HDFS.

Если вы хотите, чтобы кластер Spark имел доступ к локальному файлу, рассмотрите возможность использования NFS/SMB и т. Д. Однако что-то в конечном итоге приведет к копированию данных.

Я могу обновить свой ответ, если вы добавите более подробную информацию о своей архитектуре.

Другие вопросы по тегам