Как удалить конкретный раздел из hdfs с помощью pyspark?

Question

Как удалить конкретный раздел из hdfs с помощью pyspark?

Причина, по которой я планирую удалить конкретный раздел из цели, состоит в том, что у меня есть DF, который содержит данные для разделов в целевом пути и новых разделов.

Если я удаляю эти конкретные разделы из целевого пути, я могу просто написать весь DF, просто разделив его.

Другим способом является запись данных для каждого раздела в переопределенном режиме.

Есть ли другой способ сделать это эффективно? или как удалить конкретный раздел из пути HDFS с помощью pyspark?

Обновление: я просматривал эту статью, и мне кажется интересным напрямую выполнить hdfs команды, использующие subprocess модуль.

http://www.learn4master.com/big-data/hadoop/run-hadoop-command-in-python

0

pyspark hdfs partitioning

Источник

user1907755 08 авг '18 в 06:00

0 ответов

Другие вопросы по тегам pyspark hdfs partitioning