Как удалить конкретный раздел из hdfs с помощью pyspark?
Причина, по которой я планирую удалить конкретный раздел из цели, состоит в том, что у меня есть DF, который содержит данные для разделов в целевом пути и новых разделов.
Если я удаляю эти конкретные разделы из целевого пути, я могу просто написать весь DF, просто разделив его.
Другим способом является запись данных для каждого раздела в переопределенном режиме.
Есть ли другой способ сделать это эффективно? или как удалить конкретный раздел из пути HDFS с помощью pyspark?
Обновление: я просматривал эту статью, и мне кажется интересным напрямую выполнить hdfs
команды, использующие subprocess
модуль.
http://www.learn4master.com/big-data/hadoop/run-hadoop-command-in-python