Чтение CSV-файла, хранящегося локально, с использованием javaSpark в кластерном режиме

Question

Чтение CSV-файла, хранящегося локально, с использованием javaSpark в кластерном режиме

Я пытаюсь прочитать файл csv, хранящийся в моей локальной файловой системе в UNIX, при запуске в режиме кластера он не может найти файл csv. в локальном режиме он может читать как hdfs, так и file:/// files.bit, в кластерном режиме он может читать только файл hdfs. Любой подходящий способ чтения без его копирования в HDFS.

0

java csv apache-spark hdfs cluster-mode

Источник

user6905168 14 окт '21 в 16:03

1 ответ

Другие вопросы по тегам java csv apache-spark hdfs cluster-mode

user3197244 14 окт '21 в 16:10 2021-10-14 16:10 · Answer 1 · 2021-10-14 16:10

Помните, что исполнитель должен иметь доступ к файлу, поэтому вы должны отойти от узлов-исполнителей. Когда вы упоминаете HDFS, это означает, что узлы-исполнители должны иметь доступ к вашему кластеру HDFS.

Если вы хотите, чтобы кластер Spark имел доступ к локальному файлу, рассмотрите возможность использования NFS/SMB и т. Д. Однако что-то в конечном итоге приведет к копированию данных.

Я могу обновить свой ответ, если вы добавите более подробную информацию о своей архитектуре.