Описание тега google-dataflow

Вопросы с тегом

0 ответов

Как автоматически масштабировать конвейер потока данных google (потоковая передача)?

У нас есть потоковый конвейер, работающий в Google Dataflow. Он извлекает сообщение Pub/Sub и сохраняет его в BigQuery. По какой-то причине за последние несколько дней у нас есть отставание. Системное отставание показывает 9-15 часов. Я следую докум…

07 июл '20 в 10:20

1 ответ

Проблема с Google Dataflow

Мы недавно внедряем DataWareHouse в Google bigquery, и все наши источники находятся в примитивных базах данных. Итак, мы используем поток данных для ETL и Maven с SDK Apache Beam, чтобы запустить 30 конвейеров в сервисе Google Cloud Dataflow. packag…

google-cloud-platform google-cloud-dataflow google-dataflow

09 июл '20 в 04:46

1 ответ

удалить файл из Google Storage из задания Dataflow

У меня есть поток данных, созданный с помощью apache-beam в python 3.7, где я обрабатываю файл, а затем мне нужно его удалить. Файл поступает из корзины хранилища Google, и проблема в том, что когда я использую средство запуска DataflowRunner, моя р…

python-3.x google-cloud-platform google-cloud-storage apache-beam google-dataflow

15 июл '20 в 21:05

0 ответов

Google Dataflow продолжает работать в облаке

Я создал проект maven и обновил POM.xml для потока данных Google и запустил его как --runner=DataflowRunner. Задание отправлено в облачный поток данных, но задание продолжает выполняться, не читая файл. Может ли кто-нибудь помочь мне в этом вопросе.…

gsutil apache-beam-pipeline google-dataflow

17 июл '20 в 23:31

1 ответ

Задание потока данных из GCS в Pub / sub Максимальный размер пакета

Я использую шаблон потока данных по умолчанию GCS для Pub/Sub. входные файлы в облачном хранилище размером 300 МБ и 2-3 миллиона строк в каждой. при запуске пакетного задания потока данных возникает следующая ошибка Сообщение об ошибке от исполнител…

google-cloud-platform google-cloud-storage google-cloud-pubsub google-dataflow

26 авг '20 в 12:18

0 ответов

Невозможно перехватить исключения при загрузке BigQuery из данных JSON

У меня есть файл с подключенными данными JSON { "magic": "atMSG", "type": "DT", "headers": null, "messageschemaid": null, "messageschema": null, "message": { "data&…

python google-bigquery apache-beam google-dataflow

01 сен '20 в 11:13

1 ответ

Как развернуть Google Cloud Dataflow с подключением к PostgreSQL (лучи-самородки) из Google Cloud Functions

Я пытаюсь создать ETL в GCP, который будет читать часть данных из PostgreSQL и помещать их в подходящей форме в BigQuery. Я смог выполнить эту задачу, развернув поток данных со своего компьютера, но мне не удалось сделать его динамическим, поэтому о…

python postgresql google-cloud-platform google-cloud-functions google-dataflow

13 июл '20 в 15:17

0 ответов

BIGQUERY: Максимальное количество модификаций секций на секционированную по столбцам таблицу - 30000

Согласно документации Максимальное количество модификаций разделов на таблицу с разделами на столбцы - 30 000. Раздел можно изменить с помощью операции, которая добавляет или перезаписывает данные в разделе. Здесь немного запутано. Я использую задан…

google-bigquery google-dataflow

04 авг '20 в 20:10

1 ответ

Как создать файл tar.gz с помощью Apache Beam

Я использовал нижеприведенное, чтобы создать tar.gz файл и .gzфайл был создан, но файл tar недоступен. Как добиться результата? PCollection<String> lines = pipeline.apply("To read from file", TextIO.read().from(<file path>)); l…

java apache-beam apache-beam-io google-dataflow

11 сен '20 в 06:39

0 ответов

Как следует настроить этап, интенсивно использующий память, для параллельного выполнения через Apache Beam в Google Dataflow?

У меня есть конвейер потока данных, который обрабатывает некоторые спутниковые снимки. Этот конвейер работает должным образом с большим количеством небольших тестовых изображений, а также работает при обработке одного "большого" производственного из…

python apache-beam google-dataflow

04 дек '20 в 08:34

1 ответ

Ошибка при создании файла шаблона Google Dataflow

Я пытаюсь запланировать поток данных, который завершится через определенное время с использованием шаблона. Я могу успешно сделать это, используя командную строку, но когда я пытаюсь сделать это с помощью Google Cloud Scheduler, я получаю ошибку при…

google-cloud-platform google-dataflow

04 ноя '20 в 02:24

2 ответа

Как посчитать количество строк во входном файле обработки файла Google Dataflow?

Я пытаюсь подсчитать количество строк во входном файле и использую Cloud dataflow Runner для создания шаблона. В приведенном ниже коде я читаю файл из корзины GCS, обрабатываю его, а затем сохраняю вывод в экземпляре Redis. Но я не могу подсчитать к…

google-cloud-platform google-cloud-dataflow apache-beam-pipeline google-dataflow

17 сен '20 в 21:15

1 ответ

Apache Beam - Bigquery Upsert

У меня есть задание потока данных, которое разбивает один файл на x записей (таблиц). Они без проблем попадают в bigquery. Что я обнаружил, так это то, что после получения результатов не было возможности выполнить следующий этап конвейера. Например …

google-cloud-platform apache-beam google-dataflow

13 ноя '20 в 15:53

2 ответа

Задание потока данных Google, которое читает из Pubsub и записывает в GCS, выполняется очень медленно (WriteFiles/WriteShardedBundlesToTempFiles/GroupIntoShards).

В настоящее время у нас есть задание потока данных, которое читает из pubsub и записывает файл avro с помощью FileIO.writeDynamic в GCS, и когда мы тестируем, скажем, 10000 событий в секунду, мы не можем обрабатывать быстрее, поскольку WriteFiles /W…

java java-8 apache-beam google-dataflow

12 сен '20 в 03:30

0 ответов

Ошибка в SQL Launcher (java.lang.NullPointerException) в Google Dataflow SQL

Я пытаюсь прочитать данные из раздела Pubsub с помощью SQL потока данных Google и получаю ошибку "NullPointerException". Может ли кто-нибудь подсказать мне, что я делаю неправильно? Ниже представлен SQL-запрос. Я также пробовал выбрать несколько сто…

google-cloud-platform google-bigquery google-cloud-pubsub google-dataflow

19 окт '20 в 00:45

0 ответов

CoGroupByKey всегда терпел неудачу на больших данных (PythonSDK)

У меня около 4000 файлов (в среднем ~7 МБ каждый). Мой конвейер всегда терпел неудачу на этапе CoGroupByKey, когда размер данных достигал около 4 ГБ. Я пытался ограничить использование только 300 файлов, тогда он работал нормально. В случае сбоя в ж…

debugging google-cloud-dataflow google-dataflow

22 окт '20 в 09:56

2 ответа

Запуск пакета потока данных с помощью flexRSGoal

Я нашел эту статью о запуске пакета потока данных на вытесняющих машинах. Я попытался использовать эту функцию с помощью этого скрипта: gcloud beta dataflow jobs run $JOB_NAME \ --gcs-location gs://.../Datastore_to_Datastore_Delete \ --flexRSGoal=CO…

google-cloud-platform google-compute-engine google-dataflow

18 ноя '20 в 10:31

1 ответ

Конвейер Google Dataflow для различной схемы

У меня есть продукт для определения и настройки бизнес-процессов. Частью этого продукта является конструктор форм, который позволяет пользователям настраивать различные формы. Все эти данные форм поддерживаются MongoDB в следующей структуре - form_s…

google-cloud-functions etl apache-beam data-pipeline google-dataflow

30 ноя '20 в 20:40

1 ответ

Обработка отказов в Dataflow/Apache Beam через зависимые конвейеры

У меня есть конвейер, который получает данные из BigQuery и записывает их в GCS, однако, если я нахожу какие-либо отклонения, я хочу направить их в таблицу BigQuery. Я собираю отклонения в глобальную переменную списка, а затем загружаю список в табл…

python google-cloud-platform apache-beam dataflow google-dataflow

19 сен '20 в 03:35

1 ответ

используя опцию обновления схемы в beam.io.writetobigquery

Я загружаю кучу файлов журнала в BigQuery, используя поток данных Apache Beam. Формат файла может меняться с течением времени, добавляя к файлам новые столбцы. Я вижу вариант обновления схемы ALLOW_FILED_ADDITION. кто-нибудь знает, как его использов…

google-bigquery apache-beam google-dataflow

13 окт '20 в 22:45