apache spark - проверьте, существует ли файл

Question

apache spark - проверьте, существует ли файл

Я новичок, чтобы зажечь, и у меня есть вопрос. У меня есть двухэтапный процесс, в котором первый шаг - запись файла SUCCESS.txt в папку на HDFS. Мой второй шаг, который представляет собой искровое задание, должен проверить, существует ли этот файл SUCCESS.txt, прежде чем он начнет обрабатывать данные.

Я проверил API-интерфейс spark и не нашел никакого метода, который проверяет, существует ли файл. Есть идеи, как справиться с этим?

Единственный метод, который я нашел, был sc.textFile(hdfs:///SUCCESS.txt).count(), который вызывал бы исключение, когда файл не существует. Я должен поймать это исключение и написать свою программу соответственно. Мне не очень понравился этот подход. Надеясь найти лучшую альтернативу.

36

apache-spark hadoop hdfs

Источник

user906556 22 май '15 в 20:55

9 ответов

Другие вопросы по тегам apache-spark hadoop hdfs

user2475413 23 май '15 в 02:01 2015-05-23 02:01 · Answer 1 · 2015-05-23 02:01

Для файла в HDFS вы можете использовать способ hadoop:

val conf = sc.hadoopConfiguration
val fs = org.apache.hadoop.fs.FileSystem.get(conf)
val exists = fs.exists(new org.apache.hadoop.fs.Path("/path/on/hdfs/to/SUCCESS.txt"))

57

Источник

user2475413 23 май '15 в 02:01

user95699 09 фев '18 в 15:04 2018-02-09 15:04 · Answer 2 · 2018-02-09 15:04

Для Pyspark вы можете достичь этого, не вызывая подпроцесс, используя что-то вроде:

fs = sc._jvm.org.apache.hadoop.fs.FileSystem.get(sc._jsc.hadoopConfiguration())
fs.exists(sc._jvm.org.apache.hadoop.fs.Path("path/to/SUCCESS.txt"))

22

Источник

user95699 09 фев '18 в 15:04

user4085994 23 ноя '16 в 06:27 2016-11-23 06:27 · Answer 3 · 2016-11-23 06:27

Я скажу, лучший способ вызвать это через функцию, которая внутренне проверяет наличие файла в традиционной проверке файла hadoop.

object OutputDirCheck {
  def dirExists(hdfsDirectory: String): Boolean = {
    val hadoopConf = new org.apache.hadoop.conf.Configuration()
    val fs = org.apache.hadoop.fs.FileSystem.get(hadoopConf)
    val exists = fs.exists(new org.apache.hadoop.fs.Path(hdfsDirectory))
    return exists
  }
}

user12816504 01 май '20 в 18:00 2020-05-01 18:00 · Answer 4 · 2020-05-01 18:00

Используя dbutils:

def path_exists(path):
  try:
    if len(dbutils.fs.ls(path)) > 0:
      return True
  except:
    return False

6

Источник

user12816504 01 май '20 в 18:00

user6459056 04 фев '20 в 12:05 2020-02-04 12:05 · Answer 5 · 2020-02-04 12:05

Для Spark 2.0 или выше вы можете использовать существующий метод hadoop.fr.FileSystem
:

import org.apache.hadoop.fs.{FileSystem, Path}
import org.apache.spark.sql.SparkSession

object Test extends App {
  val spark = SparkSession.builder
    .master("local[*]")
    .appName("BigDataETL - Check if file exists")
    .getOrCreate()

  val fs = FileSystem.get(spark.sparkContext.hadoopConfiguration)
  // This methods returns Boolean (true - if file exists, false - if file doesn't exist
  val fileExists = fs.exists(new Path("<parh_to_file>"))
  if (fileExists) println("File exists!")
  else println("File doesn't exist!")
}

для Spark от 1,6 до 2,0

import org.apache.hadoop.fs.{FileSystem, Path}
import org.apache.spark.{SparkConf, SparkContext}

object Test extends App {
  val sparkConf = new SparkConf().setAppName(s"BigDataETL - Check if file exists")
  val sc = new SparkContext(sparkConf)
  val fs = FileSystem.get(sc.hadoopConfiguration)
  val fileExists = fs.exists(new Path("<parh_to_file>"))
  if (fileExists) println("File exists!")
  else println("File doesn't exist!")
}

user3323084 15 мар '19 в 11:20 2019-03-15 11:20 · Answer 6 · 2019-03-15 11:20

Для PySpark:

from py4j.protocol import Py4JJavaError
def path_exist(path):
    try:
        rdd = sc.textFile(path)
        rdd.take(1)
        return True
    except Py4JJavaError as e:
        return False

3

Источник

user3323084 15 мар '19 в 11:20

user1213333 24 окт '17 в 10:32 2017-10-24 10:32 · Answer 7 · 2017-10-24 10:32

Для пользователей Pyspark Python:

я не нашел ничего с python или pyspark, поэтому нам нужно выполнить команду hdfs из кода python. Это сработало для меня.

Команда hdfs, чтобы получить, если папка существует: возвращает 0, если истина

hdfs dfs -test -d /folder-path

Команда hdfs, чтобы получить, если файл существует: возвращает 0, если истина

hdfs dfs -test -d /folder-path

Для размещения этого в коде Python я следовал ниже строки кода:

import subprocess

def run_cmd(args_list):
    proc = subprocess.Popen(args_list, stdout=subprocess.PIPE,
            stderr=subprocess.PIPE)
    proc.communicate()
    return proc.returncode

cmd = ['hdfs', 'dfs', '-test', '-d', "/folder-path"]
            code = run_cmd(cmd)
if code == 0:
    print('folder exist')
    print(code)

Выведите, если папка существует:

папка существует 0

user3875380 19 сен '17 в 18:51 2017-09-19 18:51 · Answer 8 · 2017-09-19 18:51

Для Java-кодеров;

 SparkConf sparkConf = new SparkConf().setAppName("myClassname");
        SparkContext sparky = new SparkContext(sparkConf);       
        JavaSparkContext context = new JavaSparkContext(sparky);

     FileSystem hdfs = org.apache.hadoop.fs.FileSystem.get(context.hadoopConfiguration());
            Path path = new Path(sparkConf.get(path_to_File));

            if (!hdfs.exists(path)) {
                 //Path does not exist.
            } 
         else{
               //Path exist.
           }

user2913884 11 май '22 в 15:47 2022-05-11 15:47 · Answer 9 · 2022-05-11 15:47

Ответ @Nandeesh оценивает все Py4JJavaErrorисключения. Предлагается добавить еще один шаг для оценки сообщения об ошибке исключения Java:

      from py4j.protocol import Py4JJavaError


def file_exists(path):
    try:
        spark.sparkContext.textFile(path).take(1)
    except Py4JJavaError as e:
        if 'org.apache.hadoop.mapred.InvalidInputException: Input path does not exist' in str(e.java_exception):
            return False
        else:
            return True