Описание тега google-cloud-dataflow

Описание тега Вопросы с тегом

Google Cloud Dataflow is a fully managed cloud service for creating and evaluating data processing pipelines at scale. Dataflow pipelines are based on the Apache Beam programming model and can operate in both batch and streaming modes. Cloud Dataflow is part of the Google Cloud Platform.

1 ответ

RuntimeError: OperationalError: (2003, не удается подключиться к серверу MySQL на "IP-адресе экземпляра"

Я пытаюсь запустить скрипт Python(версия 2.7.1'), где я использую пакет pymysql для создания таблицы в базе данных из файла CSV. Он правильно работает в моей локальной системе, однако проблема возникает при запуске того же сценария, что и часть конв…

21 июн '18 в 14:03

1 ответ

Поток данных AvroCoder, похоже, теряет информацию о типе для сериализации объектов

У меня есть пользовательский тип, который передается PCollections и отмечен @DefaultCoder(AvroCoder.class) - этот тип содержит несколько примитивов вместе с Map<String, Object> который извлекается из строки JSON с помощью читателя. При первона…

google-cloud-dataflow avro

12 дек '16 в 03:46

1 ответ

Задание Google Dataflow и BigQuery не работают в разных регионах

У меня есть задание Google Dataflow, которое не выполняется: BigQuery job ... finished with error(s): errorResult: Cannot read and write in different locations: source: EU, destination: US, error: Cannot read and write in different locations: source…

google-cloud-platform google-bigquery google-cloud-dataflow

18 май '16 в 11:39

1 ответ

Проблема передачи данных gcp apache-beam. импортировать другой файл Python в основной.py с кодом

У меня проблема при работе над проектом потока данных gcp. Я создал код конвейера потока данных в Python. Это работает хорошо. Я хочу импортировать этот файл кода в другой файл кода Python с некоторыми классами и функциями. Если я просто импортирую …

python google-cloud-dataflow apache-beam

18 окт '18 в 12:45

1 ответ

Как мне перевести сущность Datastore в объект BigQuery TableRow в Java?

У меня есть следующая функция DoFN, которая делает это, но нет документации по вопросам, которые я мог бы найти по этому поводу. Проблема № 1 заключается в том, как автоматически преобразовать ключи, чтобы они создавались в BigQuery так же, как это …

java google-app-engine google-cloud-dataflow

28 авг '16 в 16:00

1 ответ

Источник данных из другого проекта

Я хочу запустить пакетное задание потока данных в проекте gcp A. Источником для конвейера является хранилище данных из другого проекта. Конвейер работает с DirectPipelineRunner, но когда я переключаюсь на DataflowPipelineRunner, я получаю ошибку: за…

google-cloud-dataflow

23 окт '15 в 13:29

1 ответ

Google Cloud Dataflow TextIO в BigQueryIO Задание не запускается

Я получаю следующий консольный журнал, и процесс останавливается com.google.cloud.dataflow.sdk.runners.DataflowPipelineRunner fromOptions INFO: PipelineOptions.filesToStage was not specified. Defaulting to files from the classpath: will stage 69 fil…

java google-cloud-dataflow

07 дек '16 в 20:41

1 ответ

Модуль объекта не имеет атрибута BigqueryV2 - Локальный Apache Beam

Я пытаюсь запустить конвейер локально (Sierra) с Apache Beam, используя API ввода / вывода луча для Google BigQuery. Я установил свою среду, используя Virtualenv, как было предложено в кратком обзоре Beam Python, и я могу запустить пример wordcount.…

python python-2.7 google-cloud-dataflow apache-beam apache-beam-io

12 мар '17 в 13:27

1 ответ

Как запустить несколько параллельных WriteToBigQuery в облаке данных Google / Apache Beam?

Я хочу отделить событие от множества событий, учитывая данные {"type": "A", "k1": "v1"} {"type": "B", "k2": "v2"} {"type": "C", "k3": "v3"} И я хочу отделить type: A события к столу A в большом запросе, type:B события к столу B, type: C события к ст…

python google-bigquery google-cloud-dataflow apache-beam

06 сен '18 в 15:08

2 ответа

Запись в Google Cloud Storage из PubSub с использованием облачного потока данных с использованием DoFn

Я пытаюсь написать сообщения Google PubSub в Google Cloud Storage, используя Google Cloud Dataflow. Я знаю, что TextIO/AvroIO не поддерживают потоковые конвейеры. Тем не менее, я прочитал в [1], что можно записывать в GCS в потоковом конвейере из Pa…

google-cloud-storage google-cloud-dataflow google-cloud-pubsub

08 апр '16 в 20:48

1 ответ

Задание Apache Beam (Python) с использованием Tensorflow Transform уничтожается облачным потоком данных

Я пытаюсь запустить задание Apache Beam, основанное на Tensorflow Transform на Dataflow, но оно убито. Кто-то испытывал такое поведение? Это простой пример с DirectRunner, который работает нормально на моем локальном компьютере, но не работает в пот…

tensorflow google-cloud-dataflow apache-beam tensorflow-transform

13 сен '18 в 02:28

2 ответа

Как загрузить данные в Google Cloud Bigtable из Google BigQuery

Мне нужно заполнить данные в Google Cloud Bigtable, а источником данных будет Google BigQuery. В качестве упражнения я могу читать данные из BigQuery, а в качестве отдельного упражнения я также могу записывать данные в Bigtable. Теперь мне нужно объ…

google-bigquery google-cloud-dataflow google-cloud-bigtable

19 авг '16 в 17:01

1 ответ

Почему мой конвейер потока данных не показывает шаги?

Когда я запускаю примеры, я получаю симпатичную картину, показывающую поток, и я могу следить за его выполнением. В моем приложении он не показывает диаграмму, и если я нажимаю "Шаг", он ничего не отображает. Добавление скриншота журнала работ. Нет…

google-cloud-dataflow

14 дек '15 в 21:54

1 ответ

Как переставить PCollection<T>?

Я пытаюсь реализовать Reshuffle преобразовать, чтобы предотвратить чрезмерное слияние, но я не знаю, как изменить версию для <KV<String,String>> иметь дело с простыми PCollections. (Как переставить PCollection <KV<String,String>…

google-cloud-dataflow

23 ноя '16 в 14:32

2 ответа

Запись в секционированную таблицу в bigquerry из задания Python Dataflow

Когда я пишу в секционированную таблицу в bigquerry из потока данных, я получаю следующую ошибку Может ли кто-нибудь помочь мне в этом "message": "Invalid table ID \"test$20181126\". Table IDs must be alphanumeric (plus underscores) and must be at m…

python google-bigquery google-cloud-dataflow apache-beam

27 ноя '18 в 17:01

1 ответ

detectClassPathResourcesToStage - Невозможно преобразовать URL

Когда я запускаю флягу в GCE, у нее была следующая ошибка: java -jar mySimple.jar --project = myProjcet Aug 13, 2015 1:22:26 AM com.google.cloud.dataflow.sdk.runners.DataflowPipelineRunner detectClassPathResourcesToStage SEVERE: Unable to convert ur…

google-cloud-dataflow

13 авг '15 в 02:33

1 ответ

Лучшие практики ETL с потоком данных и поиском

Какова лучшая практика для реализации стандартного потокового ETL-процесса, который записывает факты и некоторые таблицы меньшего размера в BigQuery? Я пытаюсь понять, как справиться со следующими вещами: Как сделать простой поиск размеров в потоков…

google-cloud-dataflow apache-beam

19 май '17 в 09:55

1 ответ

Как получить доступ к "ключу" в comb.perKey в луче

В разделе Как создать собственный Combine.PerKey в beam sdk 2.0 я спросил и получил правильный ответ о том, как создать собственный Combine.PerKey в новом beam sdk 2.0. Однако теперь мне нужно создать пользовательский combPerKey так, чтобы в рамках …

google-cloud-dataflow

31 июл '17 в 17:21

0 ответов

Задание потока данных, кажется, застряло, потому что нет рабочего действия

Я использую работу потока данных и сталкиваюсь с трудностями. У меня есть специальный пакет, который вызывает setup.pyи объявить его в параметрах параметров, как "--setup_file", "./setup.py" Когда я запускаю задание потока данных, все выглядит норма…

python google-cloud-dataflow

01 ноя '18 в 16:55

3 ответа

Разница между com.google.datastore.v1 и com.google.cloud.datastore / отсутствует параметр для отключения индекса

В настоящее время я создаю задание Google Cloud Dataflow, которое анализирует XML-файлы и сохраняет записи с помощью Google Datastore, но различные библиотеки Java кажутся очень запутанными. Сначала я нашел com.google.datastore.v1, который отлично р…

java google-cloud-datastore google-cloud-dataflow

04 янв '17 в 18:50