Описание тега google-dataflow
0
ответов
Как автоматически масштабировать конвейер потока данных google (потоковая передача)?
У нас есть потоковый конвейер, работающий в Google Dataflow. Он извлекает сообщение Pub/Sub и сохраняет его в BigQuery. По какой-то причине за последние несколько дней у нас есть отставание. Системное отставание показывает 9-15 часов. Я следую докум…
07 июл '20 в 10:20
1
ответ
Проблема с Google Dataflow
Мы недавно внедряем DataWareHouse в Google bigquery, и все наши источники находятся в примитивных базах данных. Итак, мы используем поток данных для ETL и Maven с SDK Apache Beam, чтобы запустить 30 конвейеров в сервисе Google Cloud Dataflow. packag…
09 июл '20 в 04:46
1
ответ
удалить файл из Google Storage из задания Dataflow
У меня есть поток данных, созданный с помощью apache-beam в python 3.7, где я обрабатываю файл, а затем мне нужно его удалить. Файл поступает из корзины хранилища Google, и проблема в том, что когда я использую средство запуска DataflowRunner, моя р…
15 июл '20 в 21:05
0
ответов
Google Dataflow продолжает работать в облаке
Я создал проект maven и обновил POM.xml для потока данных Google и запустил его как --runner=DataflowRunner. Задание отправлено в облачный поток данных, но задание продолжает выполняться, не читая файл. Может ли кто-нибудь помочь мне в этом вопросе.…
17 июл '20 в 23:31
1
ответ
Задание потока данных из GCS в Pub / sub Максимальный размер пакета
Я использую шаблон потока данных по умолчанию GCS для Pub/Sub. входные файлы в облачном хранилище размером 300 МБ и 2-3 миллиона строк в каждой. при запуске пакетного задания потока данных возникает следующая ошибка Сообщение об ошибке от исполнител…
26 авг '20 в 12:18
0
ответов
Невозможно перехватить исключения при загрузке BigQuery из данных JSON
У меня есть файл с подключенными данными JSON { "magic": "atMSG", "type": "DT", "headers": null, "messageschemaid": null, "messageschema": null, "message": { "data&…
01 сен '20 в 11:13
1
ответ
Как развернуть Google Cloud Dataflow с подключением к PostgreSQL (лучи-самородки) из Google Cloud Functions
Я пытаюсь создать ETL в GCP, который будет читать часть данных из PostgreSQL и помещать их в подходящей форме в BigQuery. Я смог выполнить эту задачу, развернув поток данных со своего компьютера, но мне не удалось сделать его динамическим, поэтому о…
13 июл '20 в 15:17
0
ответов
BIGQUERY: Максимальное количество модификаций секций на секционированную по столбцам таблицу - 30000
Согласно документации Максимальное количество модификаций разделов на таблицу с разделами на столбцы - 30 000. Раздел можно изменить с помощью операции, которая добавляет или перезаписывает данные в разделе. Здесь немного запутано. Я использую задан…
04 авг '20 в 20:10
1
ответ
Как создать файл tar.gz с помощью Apache Beam
Я использовал нижеприведенное, чтобы создать tar.gz файл и .gzфайл был создан, но файл tar недоступен. Как добиться результата? PCollection<String> lines = pipeline.apply("To read from file", TextIO.read().from(<file path>)); l…
11 сен '20 в 06:39
0
ответов
Как следует настроить этап, интенсивно использующий память, для параллельного выполнения через Apache Beam в Google Dataflow?
У меня есть конвейер потока данных, который обрабатывает некоторые спутниковые снимки. Этот конвейер работает должным образом с большим количеством небольших тестовых изображений, а также работает при обработке одного "большого" производственного из…
04 дек '20 в 08:34
1
ответ
Ошибка при создании файла шаблона Google Dataflow
Я пытаюсь запланировать поток данных, который завершится через определенное время с использованием шаблона. Я могу успешно сделать это, используя командную строку, но когда я пытаюсь сделать это с помощью Google Cloud Scheduler, я получаю ошибку при…
04 ноя '20 в 02:24
2
ответа
Как посчитать количество строк во входном файле обработки файла Google Dataflow?
Я пытаюсь подсчитать количество строк во входном файле и использую Cloud dataflow Runner для создания шаблона. В приведенном ниже коде я читаю файл из корзины GCS, обрабатываю его, а затем сохраняю вывод в экземпляре Redis. Но я не могу подсчитать к…
17 сен '20 в 21:15
1
ответ
Apache Beam - Bigquery Upsert
У меня есть задание потока данных, которое разбивает один файл на x записей (таблиц). Они без проблем попадают в bigquery. Что я обнаружил, так это то, что после получения результатов не было возможности выполнить следующий этап конвейера. Например …
13 ноя '20 в 15:53
2
ответа
Задание потока данных Google, которое читает из Pubsub и записывает в GCS, выполняется очень медленно (WriteFiles/WriteShardedBundlesToTempFiles/GroupIntoShards).
В настоящее время у нас есть задание потока данных, которое читает из pubsub и записывает файл avro с помощью FileIO.writeDynamic в GCS, и когда мы тестируем, скажем, 10000 событий в секунду, мы не можем обрабатывать быстрее, поскольку WriteFiles /W…
12 сен '20 в 03:30
0
ответов
Ошибка в SQL Launcher (java.lang.NullPointerException) в Google Dataflow SQL
Я пытаюсь прочитать данные из раздела Pubsub с помощью SQL потока данных Google и получаю ошибку "NullPointerException". Может ли кто-нибудь подсказать мне, что я делаю неправильно? Ниже представлен SQL-запрос. Я также пробовал выбрать несколько сто…
19 окт '20 в 00:45
0
ответов
CoGroupByKey всегда терпел неудачу на больших данных (PythonSDK)
У меня около 4000 файлов (в среднем ~7 МБ каждый). Мой конвейер всегда терпел неудачу на этапе CoGroupByKey, когда размер данных достигал около 4 ГБ. Я пытался ограничить использование только 300 файлов, тогда он работал нормально. В случае сбоя в ж…
22 окт '20 в 09:56
2
ответа
Запуск пакета потока данных с помощью flexRSGoal
Я нашел эту статью о запуске пакета потока данных на вытесняющих машинах. Я попытался использовать эту функцию с помощью этого скрипта: gcloud beta dataflow jobs run $JOB_NAME \ --gcs-location gs://.../Datastore_to_Datastore_Delete \ --flexRSGoal=CO…
18 ноя '20 в 10:31
1
ответ
Конвейер Google Dataflow для различной схемы
У меня есть продукт для определения и настройки бизнес-процессов. Частью этого продукта является конструктор форм, который позволяет пользователям настраивать различные формы. Все эти данные форм поддерживаются MongoDB в следующей структуре - form_s…
30 ноя '20 в 20:40
1
ответ
Обработка отказов в Dataflow/Apache Beam через зависимые конвейеры
У меня есть конвейер, который получает данные из BigQuery и записывает их в GCS, однако, если я нахожу какие-либо отклонения, я хочу направить их в таблицу BigQuery. Я собираю отклонения в глобальную переменную списка, а затем загружаю список в табл…
19 сен '20 в 03:35
1
ответ
используя опцию обновления схемы в beam.io.writetobigquery
Я загружаю кучу файлов журнала в BigQuery, используя поток данных Apache Beam. Формат файла может меняться с течением времени, добавляя к файлам новые столбцы. Я вижу вариант обновления схемы ALLOW_FILED_ADDITION. кто-нибудь знает, как его использов…
13 окт '20 в 22:45