AWS Glue: столбец "column_name" не найден в схеме

Question

AWS Glue: столбец "column_name" не найден в схеме

Я пытаюсь создать задание ETL в AWS Glue. Сценарий использования следующий: когда столбец добавляется в одну из исходных таблиц после выполнения задания ETL, и когда мы пытаемся повторно запустить задание etl, задание etl терпит неудачу, говоря, что столбец не найден (в целевой таблице)

Как я могу включить ETL для создания этого столбца в целевой таблице. Потому что ETL уже имеет право создавать таблицу, когда она не существует.

Пример:

Исходная таблица:

Table X: column_1, column_2

Table Y: column_1, column_3, column_4

Задание ETL, настроенное на объединение их обоих, в результате

Table_XY: column_1, column_2, column_3, column_4

До этого работает отлично.

Теперь, если таблица Y изменится, как показано ниже

Table Y: column_1, column_3, column_4, **column_5**

И я повторно запускаю сканеры (которые обнаруживают столбец на источнике)

Затем я повторно запускаю задание ETL, оно не выполняется с сообщением об ошибке ниже

Столбец "column_5" не найден в схеме

Как я могу это решить?

Обновлено с помощью Glue Script:

import sys
from awsglue.transforms import *
from awsglue.utils import getResolvedOptions
from pyspark.context import SparkContext
from awsglue.context import GlueContext
from awsglue.job import Job

## @params: [JOB_NAME]
args = getResolvedOptions(sys.argv, ['JOB_NAME'])

sc = SparkContext()
glueContext = GlueContext(sc)
spark = glueContext.spark_session
job = Job(glueContext)
job.init(args['JOB_NAME'], args)
## @type: DataSource
## @args: [database = "db_source", table_name = "sourc_table_x", transformation_ctx = "datasource0"]
## @return: datasource0
## @inputs: []
datasource0 = glueContext.create_dynamic_frame.from_catalog(database = "db_source", table_name = "sourc_table_x", transformation_ctx = "datasource0")

## @type: DataSource
## @args: [database = "db_source", table_name = "sourc_table_y", redshift_tmp_dir = args["TempDir"], transformation_ctx = "datasource1"]
## @return: datasource1
## @inputs: []
datasource1 = glueContext.create_dynamic_frame.from_catalog(database = "db_source", table_name = "sourc_table_y", redshift_tmp_dir = args["TempDir"], transformation_ctx = "datasource1")

## @type: Join
## @args: [keys1 = ['column_1'], keys2 = ['column_1']]
## @return: join2
## @inputs: [frame1 = datasource0, frame2 = datasource1]
join2 = Join.apply(frame1 = datasource0, frame2 = datasource1, keys1 = ['column_1'], keys2 = ['column_1'], transformation_ctx = "join2")

## @type: ResolveChoice
## @args: [choice = "make_cols", transformation_ctx = "resolvechoice2"]
## @return: resolvechoice2
## @inputs: [frame = join2]
resolvechoice2 = ResolveChoice.apply(frame = join2, choice = "make_cols", transformation_ctx = "resolvechoice2")

## @type: DropNullFields
## @args: [transformation_ctx = "dropnullfields3"]
## @return: dropnullfields3
## @inputs: [frame = resolvechoice2]
dropnullfields3 = DropNullFields.apply(frame = resolvechoice2, transformation_ctx = "dropnullfields3")

## @type: DataSink
## @args: [catalog_connection = "my-db-connection", connection_options = {"dbtable": "target_table_xy", "database": "db_target"}, transformation_ctx = "datasink4"]
## @return: datasink4
## @inputs: [frame = dropnullfields3]
datasink4 = glueContext.write_dynamic_frame.from_jdbc_conf(frame = dropnullfields3, catalog_connection = "my-db-connection", connection_options = {"dbtable": "target_table_xy", "database": "db_target"}, transformation_ctx = "datasink4")
job.commit()

2

amazon-web-services aws-glue aws-glue-data-catalog aws-glue-spark aws-glue-workflow

Источник

user6081210 21 сен '20 в 18:14

0 ответов

Другие вопросы по тегам amazon-web-services aws-glue aws-glue-data-catalog aws-glue-spark aws-glue-workflow