CoGroupByKey всегда терпел неудачу на больших данных (PythonSDK)
У меня около 4000 файлов (в среднем ~7 МБ каждый).
Мой конвейер всегда терпел неудачу на этапе CoGroupByKey, когда размер данных достигал около 4 ГБ. Я пытался ограничить использование только 300 файлов, тогда он работал нормально.
В случае сбоя в журналах потока данных GCP отображаются только:
Workflow failed. Causes: S24:CoGroup Geo data/GroupByKey/Read+CoGroup Geo data/GroupByKey/GroupByWindow+CoGroup Geo data/Map(_merge_tagged_vals_under_key) failed., The job failed because a work item has failed 4 times. Look in previous log entries for the cause of each one of the 4 failures. For more information, see https://cloud.google.com/dataflow/docs/guides/common-errors. The work item was attempted on these workers:
store-migration-10212040-aoi4-harness-m7j7
Root cause: The worker lost contact with the service.,
store-migration-xxxxx
Root cause: The worker lost contact with the service.,
store-migration-xxxxx
Root cause: The worker lost contact with the service.,
store-migration-xxxxx
Root cause: The worker lost contact with the service.
Я копаюсь во всех журналах в Logs Explorer. Ничто иное не указывает на ошибку, кроме приведенной выше, даже мой
logging.info
и
try...except
код.
Думаю, это связано с воспоминаниями об этих примерах, но я не углублялся в это направление. Потому что это похоже на то, о чем я не хочу беспокоиться, когда использую сервисы GCP.
Благодарю.