Чтение CSV-файла, хранящегося локально, с использованием javaSpark в кластерном режиме
Я пытаюсь прочитать файл csv, хранящийся в моей локальной файловой системе в UNIX, при запуске в режиме кластера он не может найти файл csv. в локальном режиме он может читать как hdfs, так и file:/// files.bit, в кластерном режиме он может читать только файл hdfs. Любой подходящий способ чтения без его копирования в HDFS.
1 ответ
Помните, что исполнитель должен иметь доступ к файлу, поэтому вы должны отойти от узлов-исполнителей. Когда вы упоминаете HDFS, это означает, что узлы-исполнители должны иметь доступ к вашему кластеру HDFS.
Если вы хотите, чтобы кластер Spark имел доступ к локальному файлу, рассмотрите возможность использования NFS/SMB и т. Д. Однако что-то в конечном итоге приведет к копированию данных.
Я могу обновить свой ответ, если вы добавите более подробную информацию о своей архитектуре.