Описание тега google-cloud-dataflow

Google Cloud Dataflow is a fully managed cloud service for creating and evaluating data processing pipelines at scale. Dataflow pipelines are based on the Apache Beam programming model and can operate in both batch and streaming modes. Cloud Dataflow is part of the Google Cloud Platform.
1 ответ

RuntimeError: OperationalError: (2003, не удается подключиться к серверу MySQL на "IP-адресе экземпляра"

Я пытаюсь запустить скрипт Python(версия 2.7.1'), где я использую пакет pymysql для создания таблицы в базе данных из файла CSV. Он правильно работает в моей локальной системе, однако проблема возникает при запуске того же сценария, что и часть конв…
1 ответ

Поток данных AvroCoder, похоже, теряет информацию о типе для сериализации объектов

У меня есть пользовательский тип, который передается PCollections и отмечен @DefaultCoder(AvroCoder.class) - этот тип содержит несколько примитивов вместе с Map<String, Object> который извлекается из строки JSON с помощью читателя. При первона…
12 дек '16 в 03:46
1 ответ

Задание Google Dataflow и BigQuery не работают в разных регионах

У меня есть задание Google Dataflow, которое не выполняется: BigQuery job ... finished with error(s): errorResult: Cannot read and write in different locations: source: EU, destination: US, error: Cannot read and write in different locations: source…
1 ответ

Проблема передачи данных gcp apache-beam. импортировать другой файл Python в основной.py с кодом

У меня проблема при работе над проектом потока данных gcp. Я создал код конвейера потока данных в Python. Это работает хорошо. Я хочу импортировать этот файл кода в другой файл кода Python с некоторыми классами и функциями. Если я просто импортирую …
18 окт '18 в 12:45
1 ответ

Как мне перевести сущность Datastore в объект BigQuery TableRow в Java?

У меня есть следующая функция DoFN, которая делает это, но нет документации по вопросам, которые я мог бы найти по этому поводу. Проблема № 1 заключается в том, как автоматически преобразовать ключи, чтобы они создавались в BigQuery так же, как это …
1 ответ

Источник данных из другого проекта

Я хочу запустить пакетное задание потока данных в проекте gcp A. Источником для конвейера является хранилище данных из другого проекта. Конвейер работает с DirectPipelineRunner, но когда я переключаюсь на DataflowPipelineRunner, я получаю ошибку: за…
23 окт '15 в 13:29
1 ответ

Google Cloud Dataflow TextIO в BigQueryIO Задание не запускается

Я получаю следующий консольный журнал, и процесс останавливается com.google.cloud.dataflow.sdk.runners.DataflowPipelineRunner fromOptions INFO: PipelineOptions.filesToStage was not specified. Defaulting to files from the classpath: will stage 69 fil…
07 дек '16 в 20:41
1 ответ

Модуль объекта не имеет атрибута BigqueryV2 - Локальный Apache Beam

Я пытаюсь запустить конвейер локально (Sierra) с Apache Beam, используя API ввода / вывода луча для Google BigQuery. Я установил свою среду, используя Virtualenv, как было предложено в кратком обзоре Beam Python, и я могу запустить пример wordcount.…
1 ответ

Как запустить несколько параллельных WriteToBigQuery в облаке данных Google / Apache Beam?

Я хочу отделить событие от множества событий, учитывая данные {"type": "A", "k1": "v1"} {"type": "B", "k2": "v2"} {"type": "C", "k3": "v3"} И я хочу отделить type: A события к столу A в большом запросе, type:B события к столу B, type: C события к ст…
2 ответа

Запись в Google Cloud Storage из PubSub с использованием облачного потока данных с использованием DoFn

Я пытаюсь написать сообщения Google PubSub в Google Cloud Storage, используя Google Cloud Dataflow. Я знаю, что TextIO/AvroIO не поддерживают потоковые конвейеры. Тем не менее, я прочитал в [1], что можно записывать в GCS в потоковом конвейере из Pa…
1 ответ

Задание Apache Beam (Python) с использованием Tensorflow Transform уничтожается облачным потоком данных

Я пытаюсь запустить задание Apache Beam, основанное на Tensorflow Transform на Dataflow, но оно убито. Кто-то испытывал такое поведение? Это простой пример с DirectRunner, который работает нормально на моем локальном компьютере, но не работает в пот…
2 ответа

Как загрузить данные в Google Cloud Bigtable из Google BigQuery

Мне нужно заполнить данные в Google Cloud Bigtable, а источником данных будет Google BigQuery. В качестве упражнения я могу читать данные из BigQuery, а в качестве отдельного упражнения я также могу записывать данные в Bigtable. Теперь мне нужно объ…
1 ответ

Почему мой конвейер потока данных не показывает шаги?

Когда я запускаю примеры, я получаю симпатичную картину, показывающую поток, и я могу следить за его выполнением. В моем приложении он не показывает диаграмму, и если я нажимаю "Шаг", он ничего не отображает. Добавление скриншота журнала работ. Нет…
14 дек '15 в 21:54
1 ответ

Как переставить PCollection<T>?

Я пытаюсь реализовать Reshuffle преобразовать, чтобы предотвратить чрезмерное слияние, но я не знаю, как изменить версию для &lt;KV&lt;String,String&gt;&gt; иметь дело с простыми PCollections. (Как переставить PCollection &lt;KV&lt;String,String&gt;…
23 ноя '16 в 14:32
2 ответа

Запись в секционированную таблицу в bigquerry из задания Python Dataflow

Когда я пишу в секционированную таблицу в bigquerry из потока данных, я получаю следующую ошибку Может ли кто-нибудь помочь мне в этом "message": "Invalid table ID \"test$20181126\". Table IDs must be alphanumeric (plus underscores) and must be at m…
1 ответ

detectClassPathResourcesToStage - Невозможно преобразовать URL

Когда я запускаю флягу в GCE, у нее была следующая ошибка: java -jar mySimple.jar --project = myProjcet Aug 13, 2015 1:22:26 AM com.google.cloud.dataflow.sdk.runners.DataflowPipelineRunner detectClassPathResourcesToStage SEVERE: Unable to convert ur…
13 авг '15 в 02:33
1 ответ

Лучшие практики ETL с потоком данных и поиском

Какова лучшая практика для реализации стандартного потокового ETL-процесса, который записывает факты и некоторые таблицы меньшего размера в BigQuery? Я пытаюсь понять, как справиться со следующими вещами: Как сделать простой поиск размеров в потоков…
19 май '17 в 09:55
1 ответ

Как получить доступ к "ключу" в comb.perKey в луче

В разделе Как создать собственный Combine.PerKey в beam sdk 2.0 я спросил и получил правильный ответ о том, как создать собственный Combine.PerKey в новом beam sdk 2.0. Однако теперь мне нужно создать пользовательский combPerKey так, чтобы в рамках …
31 июл '17 в 17:21
0 ответов

Задание потока данных, кажется, застряло, потому что нет рабочего действия

Я использую работу потока данных и сталкиваюсь с трудностями. У меня есть специальный пакет, который вызывает setup.pyи объявить его в параметрах параметров, как "--setup_file", "./setup.py" Когда я запускаю задание потока данных, все выглядит норма…
01 ноя '18 в 16:55
3 ответа

Разница между com.google.datastore.v1 и com.google.cloud.datastore / отсутствует параметр для отключения индекса

В настоящее время я создаю задание Google Cloud Dataflow, которое анализирует XML-файлы и сохраняет записи с помощью Google Datastore, но различные библиотеки Java кажутся очень запутанными. Сначала я нашел com.google.datastore.v1, который отлично р…