Описание тега apache-beam

Apache Beam - это унифицированный SDK для пакетной и потоковой обработки. Это позволяет определять крупномасштабные рабочие процессы обработки данных с помощью DSL для конкретных лучей. Рабочие процессы Beam могут выполняться в разных средах выполнения, таких как Apache Flink, Apache Spark или Google Cloud Dataflow (облачный сервис).
1 ответ

Проблема передачи данных gcp apache-beam. импортировать другой файл Python в основной.py с кодом

У меня проблема при работе над проектом потока данных gcp. Я создал код конвейера потока данных в Python. Это работает хорошо. Я хочу импортировать этот файл кода в другой файл кода Python с некоторыми классами и функциями. Если я просто импортирую …
18 окт '18 в 12:45
0 ответов

Apache Beam - Python - Потоковая передача в BigQuery не записывает данные в таблицу

Apache Beam - Python - Потоковая передача в BigQuery не записывает данные в таблицу Я спроектировал простой Apache Beam Pipeline с использованием Python SDK, хотя я знаю, что возможности потоковой передачи Python SDK все еще разрабатываются. Я наткн…
01 сен '17 в 10:22
1 ответ

Модуль объекта не имеет атрибута BigqueryV2 - Локальный Apache Beam

Я пытаюсь запустить конвейер локально (Sierra) с Apache Beam, используя API ввода / вывода луча для Google BigQuery. Я установил свою среду, используя Virtualenv, как было предложено в кратком обзоре Beam Python, и я могу запустить пример wordcount.…
1 ответ

Как запустить несколько параллельных WriteToBigQuery в облаке данных Google / Apache Beam?

Я хочу отделить событие от множества событий, учитывая данные {"type": "A", "k1": "v1"} {"type": "B", "k2": "v2"} {"type": "C", "k3": "v3"} И я хочу отделить type: A события к столу A в большом запросе, type:B события к столу B, type: C события к ст…
1 ответ

Задание Apache Beam (Python) с использованием Tensorflow Transform уничтожается облачным потоком данных

Я пытаюсь запустить задание Apache Beam, основанное на Tensorflow Transform на Dataflow, но оно убито. Кто-то испытывал такое поведение? Это простой пример с DirectRunner, который работает нормально на моем локальном компьютере, но не работает в пот…
2 ответа

Запись в секционированную таблицу в bigquerry из задания Python Dataflow

Когда я пишу в секционированную таблицу в bigquerry из потока данных, я получаю следующую ошибку Может ли кто-нибудь помочь мне в этом "message": "Invalid table ID \"test$20181126\". Table IDs must be alphanumeric (plus underscores) and must be at m…
1 ответ

Группировка CSV-столбцов в Apache Beam transform

У меня есть CSV с около 200 столбцов. Я хотел бы сгруппировать каждый столбец так, чтобы я получил pcollection пар col_name:[column] в качестве элементов. Как бы это можно было сделать с помощью луча Python SDK?
22 авг '18 в 18:46
1 ответ

Лучшие практики ETL с потоком данных и поиском

Какова лучшая практика для реализации стандартного потокового ETL-процесса, который записывает факты и некоторые таблицы меньшего размера в BigQuery? Я пытаюсь понять, как справиться со следующими вещами: Как сделать простой поиск размеров в потоков…
19 май '17 в 09:55
0 ответов

Невозможно создать родительские каталоги с помощью Apache Beam/Apache Flink

Когда я пытаюсь развернуть тестовый проект с использованием Apache Beam и Apache Flink с использованием контейнера Docker (режим кластера), я получаю эту ошибку: org.apache.beam.sdk.util.UserCodeException: java.io.IOException: Unable to create paren…
15 июн '18 в 13:23
1 ответ

В Apache Beam, что делает "ExtractWords"?

Я изучаю синтаксис Python по этому адресу: https://beam.apache.org/get-started/wordcount-example/ Я вижу этот синтаксис: # The Flatmap transform is a simplified version of ParDo. | 'ExtractWords' >> beam.FlatMap(lambda x: re.findall(r'[A-Za-z\…
02 мар '18 в 10:36
1 ответ

Водяной знак ведет себя беспорядочно, возможно из-за неправильного времени события (перекос часов клиента)

У нас есть поток событий, примерно 1 к 3 кбит / с и в основном тактовые импульсы, поступающие от клиентов потокового видео, которые мы объединяем в сеансы. Мы используем окно сеанса с 10-минутной длительностью паузы и запуском по умолчанию (т. Е. Ра…
19 янв '17 в 10:16
1 ответ

GroupIntoBatches для не-KV элементов

Согласно документации Apache Beam 2.0.0 SDK GroupIntoBatches работает только с KV коллекции. Мой набор данных содержит только значения, и нет необходимости вводить ключи. Тем не менее, чтобы использовать GroupIntoBatches Мне пришлось реализовать "по…
03 июл '17 в 09:37
1 ответ

Пример Apache Beam MinimalWordcount с бегущим потоком данных в затмении

Я пытаюсь запустить пример MinimalWordCount, используя DataFlowRunner из Eclipse для Windows, используя MinimalWordCount -> Запускать как Java-приложение из with в eclipse, это тот же стандартный код из примера, использующего мое ведро gcs, однако я…
1 ответ

Ошибка при использовании Side Input - с помощью метода SideInputs, не принимающего тип KV в качестве ввода

Я сталкиваюсь со следующей ошибкой при использовании боковых входов. Со следующим кодом модели: PCollectionView<Map<String, String>> view1= information .apply(View.<String, String>asMap()); PCollection<KV<String, Position>…
27 окт '17 в 20:20
0 ответов

UnicodeEncodeError для обработки CSV на Apache Beam в Python

Я работаю над анализом файла CSV в Apache Beam Python. Однако, когда в CSV-файле есть символы Unicode, такие как "ş", он не может выполнить синтаксический анализ с ошибкой. RuntimeError: UnicodeEncodeError: 'ascii' codec can't encode character u'\u0…
1 ответ

Apache Beam/ Перестановка потока данных

Какова цель org.apache.beam.sdk.transforms.Reshuffle? В документации цель определяется как: PTransform, который возвращает PCollection, эквивалентную его входному сигналу, но в рабочем состоянии обеспечивает некоторые побочные эффекты GroupByKey, в …
10 янв '19 в 03:39
0 ответов

Как указать ContentType при записи файлов в AWS S3 с помощью TextIO.write ()?

Ниже мой пример конвейерного кода. Версия Apache Beam - 2.3.0 DataflowPipelineOptions dataflowOptions = options.as(DataflowPipelineOptions.class); dataflowOptions.setRunner(DataflowRunner.class); Pipeline p = Pipeline.create(dataflowOptions); p.appl…
19 мар '18 в 10:58
1 ответ

Потоковые группы мутации в гаечный ключ

Я пытаюсь направить MutationGroups в гаечный ключ с SpannerIO. Цель состоит в том, чтобы писать новые MuationGroups каждые 10 секунд, так как мы будем использовать гаечный ключ для запроса KPI ближайшего времени. Когда я не использую никаких окон, я…
0 ответов

Apache-beam программа для анализа настроений

Я написал программу apache-beam, которая берет тексты из файла input.txt и проводит некоторый анализ настроений и вывод, который я хочу сохранить в формате csv, чтобы вставить его в bigquery. import os import logging import csv import json import re…
26 фев '19 в 11:12
1 ответ

GCP Dataflow- чтение CSV-файла из хранилища и запись в BigQuery

У меня есть файл CSV в хранилище, и я хочу прочитать его и записать в BigQuery Table. это мой CSV-файл, где первая строка - заголовок: GroupName,Groupcode,GroupOwner,GroupCategoryID System Administrators,sysadmin,13456,100 Independence High Teachers…