Запуск отдельных операторов Python с использованием блоков данных и воздушного потока apache
Я использую pyspark на блоках данных для запуска своих ETL. Я хотел бы использовать воздушный поток apache, чтобы я мог превратить свой ETL в несколько отдельных шагов (узлы, как в воздушном потоке), где весь DAG будет создавать мои окончательные данные ETL (также для целей планирования и мониторинга). Если бы я делал это локально, я мог бы превратить свой ETL в отдельные функции и передать их нескольким операторам Python, в результате чего весь DAG составил бы мой окончательный ETL. Однако, поскольку я провел некоторое исследование по следующей ссылке, Я пришел к выводу, что интеграция блоков данных и воздушного потока обеспечивает только средства для работы с ноутбуками (или банками). Следовательно, мой вопрос: получение аналогичного результата, как я описал, - это единственный способ поместить каждую отдельную функцию / фрагмент моего ETL в отдельные записные книжки (# nodes = # notebooks) или я могу просто создать вызываемый python вышеупомянутым способом, но как-нибудь запустить его на базе данных?