Проверка наличия файлов HDFS в Pyspark

Question

Проверка наличия файлов HDFS в Pyspark

Может ли кто-нибудь предложить лучший способ проверить существование файла в pyspark.

В настоящее время я использую метод проверки ниже, пожалуйста, сообщите.

def path_exist(path):

try:
    rdd=sparkSqlCtx.read.format("orc").load(path)
    rdd.take(1)
    return True

except Exception as e:
    return False

5

python-3.x pyspark

Источник

user8501945 07 июн '18 в 09:40

1 ответ

Решение

Вы можете использовать Java API org.apache.hadoop.fs.{FileSystem, Path} пользователя Py4j.

jvm = spark_session._jvm
jsc = spark_session._jsc
fs = jvm.org.apache.hadoop.fs.FileSystem.get(jsc.hadoopConfiguration())
if fs.exists(jvm.org.apache.hadoop.fs.Path("/foo/bar")):
    print("/foo/bar exists")
else:
    print("/foo/bar does not exist")

10

Источник

user553095 02 сен '19 в 17:16

Следующий код должен работать -

import subprocess

out=subprocess.check_output("hadoop fs -ls /tmp/file.txt",shell=True)

out=out.strip()

out=out.split("\n")

for l in out:

if l.endswith(".txt"):

print "file exit"
    else:
        print "file not exit"

1

Источник

user11754883 08 июл '19 в 16:53

Чтобы проверить файлы на s3 на pyspark (аналогично сообщению @emeth), вам необходимо предоставить URI конструктору FileSystem.

sc = spark.sparkContext
jvm = sc._jvm
conf = sc._jsc.hadoopConfiguration()
url = "s3://bucket/some/path/_SUCCESS"
uri = jvm.java.net.URI(url)
fs = jvm.org.apache.hadoop.fs.FileSystem.get(uri, conf)
fs.exists(jvm.org.apache.hadoop.fs.Path(url))

1

Источник

user19655 27 окт '20 в 17:19

Другие вопросы по тегам python-3.x pyspark

user4594654 07 июн '18 в 12:51 2018-06-07 12:51 · Accepted Answer · 2018-06-07 12:51

Вы можете выполнить команду hdfs из python, используя subprocess:

import subprocess

proc = subprocess.Popen(['hadoop', 'fs', '-test', '-e', path])
proc.communicate()

if proc.returncode != 0:
    print '%s does not exist' % path
else : 
    print '%s exists' % path

см. также: apache spark - проверьте, существует ли файл

8

Источник

user4594654 07 июн '18 в 12:51