Проверка наличия файлов HDFS в Pyspark
Может ли кто-нибудь предложить лучший способ проверить существование файла в pyspark.
В настоящее время я использую метод проверки ниже, пожалуйста, сообщите.
def path_exist(path):
try:
rdd=sparkSqlCtx.read.format("orc").load(path)
rdd.take(1)
return True
except Exception as e:
return False
1 ответ
Решение
Вы можете выполнить команду hdfs из python, используя subprocess
:
import subprocess
proc = subprocess.Popen(['hadoop', 'fs', '-test', '-e', path])
proc.communicate()
if proc.returncode != 0:
print '%s does not exist' % path
else :
print '%s exists' % path
см. также: apache spark - проверьте, существует ли файл
Вы можете использовать Java API org.apache.hadoop.fs.{FileSystem, Path}
пользователя Py4j.
jvm = spark_session._jvm
jsc = spark_session._jsc
fs = jvm.org.apache.hadoop.fs.FileSystem.get(jsc.hadoopConfiguration())
if fs.exists(jvm.org.apache.hadoop.fs.Path("/foo/bar")):
print("/foo/bar exists")
else:
print("/foo/bar does not exist")
Следующий код должен работать -
import subprocess
out=subprocess.check_output("hadoop fs -ls /tmp/file.txt",shell=True)
out=out.strip()
out=out.split("\n")
for l in out:
if l.endswith(".txt"):
print "file exit"
else:
print "file not exit"
Чтобы проверить файлы на s3 на pyspark (аналогично сообщению @emeth), вам необходимо предоставить URI конструктору FileSystem.
sc = spark.sparkContext
jvm = sc._jvm
conf = sc._jsc.hadoopConfiguration()
url = "s3://bucket/some/path/_SUCCESS"
uri = jvm.java.net.URI(url)
fs = jvm.org.apache.hadoop.fs.FileSystem.get(uri, conf)
fs.exists(jvm.org.apache.hadoop.fs.Path(url))