Описание тега google-dataflow

0 ответов

Как автоматически масштабировать конвейер потока данных google (потоковая передача)?

У нас есть потоковый конвейер, работающий в Google Dataflow. Он извлекает сообщение Pub/Sub и сохраняет его в BigQuery. По какой-то причине за последние несколько дней у нас есть отставание. Системное отставание показывает 9-15 часов. Я следую докум…
1 ответ

Проблема с Google Dataflow

Мы недавно внедряем DataWareHouse в Google bigquery, и все наши источники находятся в примитивных базах данных. Итак, мы используем поток данных для ETL и Maven с SDK Apache Beam, чтобы запустить 30 конвейеров в сервисе Google Cloud Dataflow. packag…
1 ответ

удалить файл из Google Storage из задания Dataflow

У меня есть поток данных, созданный с помощью apache-beam в python 3.7, где я обрабатываю файл, а затем мне нужно его удалить. Файл поступает из корзины хранилища Google, и проблема в том, что когда я использую средство запуска DataflowRunner, моя р…
0 ответов

Google Dataflow продолжает работать в облаке

Я создал проект maven и обновил POM.xml для потока данных Google и запустил его как --runner=DataflowRunner. Задание отправлено в облачный поток данных, но задание продолжает выполняться, не читая файл. Может ли кто-нибудь помочь мне в этом вопросе.…
1 ответ

Задание потока данных из GCS в Pub / sub Максимальный размер пакета

Я использую шаблон потока данных по умолчанию GCS для Pub/Sub. входные файлы в облачном хранилище размером 300 МБ и 2-3 миллиона строк в каждой. при запуске пакетного задания потока данных возникает следующая ошибка Сообщение об ошибке от исполнител…
0 ответов

Невозможно перехватить исключения при загрузке BigQuery из данных JSON

У меня есть файл с подключенными данными JSON { "magic": "atMSG", "type": "DT", "headers": null, "messageschemaid": null, "messageschema": null, "message": { "data&…
1 ответ

Как развернуть Google Cloud Dataflow с подключением к PostgreSQL (лучи-самородки) из Google Cloud Functions

Я пытаюсь создать ETL в GCP, который будет читать часть данных из PostgreSQL и помещать их в подходящей форме в BigQuery. Я смог выполнить эту задачу, развернув поток данных со своего компьютера, но мне не удалось сделать его динамическим, поэтому о…
0 ответов

BIGQUERY: Максимальное количество модификаций секций на секционированную по столбцам таблицу - 30000

Согласно документации Максимальное количество модификаций разделов на таблицу с разделами на столбцы - 30 000. Раздел можно изменить с помощью операции, которая добавляет или перезаписывает данные в разделе. Здесь немного запутано. Я использую задан…
04 авг '20 в 20:10
1 ответ

Как создать файл tar.gz с помощью Apache Beam

Я использовал нижеприведенное, чтобы создать tar.gz файл и .gzфайл был создан, но файл tar недоступен. Как добиться результата? PCollection<String> lines = pipeline.apply("To read from file", TextIO.read().from(<file path>)); l…
0 ответов

Как следует настроить этап, интенсивно использующий память, для параллельного выполнения через Apache Beam в Google Dataflow?

У меня есть конвейер потока данных, который обрабатывает некоторые спутниковые снимки. Этот конвейер работает должным образом с большим количеством небольших тестовых изображений, а также работает при обработке одного "большого" производственного из…
04 дек '20 в 08:34
1 ответ

Ошибка при создании файла шаблона Google Dataflow

Я пытаюсь запланировать поток данных, который завершится через определенное время с использованием шаблона. Я могу успешно сделать это, используя командную строку, но когда я пытаюсь сделать это с помощью Google Cloud Scheduler, я получаю ошибку при…
04 ноя '20 в 02:24
2 ответа

Как посчитать количество строк во входном файле обработки файла Google Dataflow?

Я пытаюсь подсчитать количество строк во входном файле и использую Cloud dataflow Runner для создания шаблона. В приведенном ниже коде я читаю файл из корзины GCS, обрабатываю его, а затем сохраняю вывод в экземпляре Redis. Но я не могу подсчитать к…
1 ответ

Apache Beam - Bigquery Upsert

У меня есть задание потока данных, которое разбивает один файл на x записей (таблиц). Они без проблем попадают в bigquery. Что я обнаружил, так это то, что после получения результатов не было возможности выполнить следующий этап конвейера. Например …
2 ответа

Задание потока данных Google, которое читает из Pubsub и записывает в GCS, выполняется очень медленно (WriteFiles/WriteShardedBundlesToTempFiles/GroupIntoShards).

В настоящее время у нас есть задание потока данных, которое читает из pubsub и записывает файл avro с помощью FileIO.writeDynamic в GCS, и когда мы тестируем, скажем, 10000 событий в секунду, мы не можем обрабатывать быстрее, поскольку WriteFiles /W…
12 сен '20 в 03:30
0 ответов

Ошибка в SQL Launcher (java.lang.NullPointerException) в Google Dataflow SQL

Я пытаюсь прочитать данные из раздела Pubsub с помощью SQL потока данных Google и получаю ошибку "NullPointerException". Может ли кто-нибудь подсказать мне, что я делаю неправильно? Ниже представлен SQL-запрос. Я также пробовал выбрать несколько сто…
0 ответов

CoGroupByKey всегда терпел неудачу на больших данных (PythonSDK)

У меня около 4000 файлов (в среднем ~7 МБ каждый). Мой конвейер всегда терпел неудачу на этапе CoGroupByKey, когда размер данных достигал около 4 ГБ. Я пытался ограничить использование только 300 файлов, тогда он работал нормально. В случае сбоя в ж…
2 ответа

Запуск пакета потока данных с помощью flexRSGoal

Я нашел эту статью о запуске пакета потока данных на вытесняющих машинах. Я попытался использовать эту функцию с помощью этого скрипта: gcloud beta dataflow jobs run $JOB_NAME \ --gcs-location gs://.../Datastore_to_Datastore_Delete \ --flexRSGoal=CO…
1 ответ

Конвейер Google Dataflow для различной схемы

У меня есть продукт для определения и настройки бизнес-процессов. Частью этого продукта является конструктор форм, который позволяет пользователям настраивать различные формы. Все эти данные форм поддерживаются MongoDB в следующей структуре - form_s…
1 ответ

Обработка отказов в Dataflow/Apache Beam через зависимые конвейеры

У меня есть конвейер, который получает данные из BigQuery и записывает их в GCS, однако, если я нахожу какие-либо отклонения, я хочу направить их в таблицу BigQuery. Я собираю отклонения в глобальную переменную списка, а затем загружаю список в табл…
1 ответ

используя опцию обновления схемы в beam.io.writetobigquery

Я загружаю кучу файлов журнала в BigQuery, используя поток данных Apache Beam. Формат файла может меняться с течением времени, добавляя к файлам новые столбцы. Я вижу вариант обновления схемы ALLOW_FILED_ADDITION. кто-нибудь знает, как его использов…