Как отладить задание AWS Glue pyspark

У меня есть задание aws glue pyspark, которое долго выполняется после определенной команды. В журнал ничего не записывается после этой команды, даже после простого оператора «print hello». Как я могу отладить задание aws glue pyspark, которое выполняется долго и даже не записывает журналы. Задание не выдает никаких ошибок, оно показывает текущий статус в консоли.

1 ответ

AWS Glue основан на Apache Spark, что означает, что до тех пор, пока не будет вызвано действие, фактического выполнения не будет. Поэтому, если вы помещаете операторы печати между ними и видите их в журналах, это не означает, что ваша работа выполняется до этого момента. Поскольку ваша работа выполняется долго, ознакомьтесь с этой статьей AWS, в которой объясняется, как отлаживать требуемые этапы и задачи Straggler . Также это хороший блог, на который стоит взглянуть.

Другие вопросы по тегам