Описание тега apache-beam
Apache Beam - это унифицированный SDK для пакетной и потоковой обработки. Это позволяет определять крупномасштабные рабочие процессы обработки данных с помощью DSL для конкретных лучей. Рабочие процессы Beam могут выполняться в разных средах выполнения, таких как Apache Flink, Apache Spark или Google Cloud Dataflow (облачный сервис).
1
ответ
Проблема передачи данных gcp apache-beam. импортировать другой файл Python в основной.py с кодом
У меня проблема при работе над проектом потока данных gcp. Я создал код конвейера потока данных в Python. Это работает хорошо. Я хочу импортировать этот файл кода в другой файл кода Python с некоторыми классами и функциями. Если я просто импортирую …
18 окт '18 в 12:45
0
ответов
Apache Beam - Python - Потоковая передача в BigQuery не записывает данные в таблицу
Apache Beam - Python - Потоковая передача в BigQuery не записывает данные в таблицу Я спроектировал простой Apache Beam Pipeline с использованием Python SDK, хотя я знаю, что возможности потоковой передачи Python SDK все еще разрабатываются. Я наткн…
01 сен '17 в 10:22
1
ответ
Модуль объекта не имеет атрибута BigqueryV2 - Локальный Apache Beam
Я пытаюсь запустить конвейер локально (Sierra) с Apache Beam, используя API ввода / вывода луча для Google BigQuery. Я установил свою среду, используя Virtualenv, как было предложено в кратком обзоре Beam Python, и я могу запустить пример wordcount.…
12 мар '17 в 13:27
1
ответ
Как запустить несколько параллельных WriteToBigQuery в облаке данных Google / Apache Beam?
Я хочу отделить событие от множества событий, учитывая данные {"type": "A", "k1": "v1"} {"type": "B", "k2": "v2"} {"type": "C", "k3": "v3"} И я хочу отделить type: A события к столу A в большом запросе, type:B события к столу B, type: C события к ст…
06 сен '18 в 15:08
1
ответ
Задание Apache Beam (Python) с использованием Tensorflow Transform уничтожается облачным потоком данных
Я пытаюсь запустить задание Apache Beam, основанное на Tensorflow Transform на Dataflow, но оно убито. Кто-то испытывал такое поведение? Это простой пример с DirectRunner, который работает нормально на моем локальном компьютере, но не работает в пот…
13 сен '18 в 02:28
2
ответа
Запись в секционированную таблицу в bigquerry из задания Python Dataflow
Когда я пишу в секционированную таблицу в bigquerry из потока данных, я получаю следующую ошибку Может ли кто-нибудь помочь мне в этом "message": "Invalid table ID \"test$20181126\". Table IDs must be alphanumeric (plus underscores) and must be at m…
27 ноя '18 в 17:01
1
ответ
Группировка CSV-столбцов в Apache Beam transform
У меня есть CSV с около 200 столбцов. Я хотел бы сгруппировать каждый столбец так, чтобы я получил pcollection пар col_name:[column] в качестве элементов. Как бы это можно было сделать с помощью луча Python SDK?
22 авг '18 в 18:46
1
ответ
Лучшие практики ETL с потоком данных и поиском
Какова лучшая практика для реализации стандартного потокового ETL-процесса, который записывает факты и некоторые таблицы меньшего размера в BigQuery? Я пытаюсь понять, как справиться со следующими вещами: Как сделать простой поиск размеров в потоков…
19 май '17 в 09:55
0
ответов
Невозможно создать родительские каталоги с помощью Apache Beam/Apache Flink
Когда я пытаюсь развернуть тестовый проект с использованием Apache Beam и Apache Flink с использованием контейнера Docker (режим кластера), я получаю эту ошибку: org.apache.beam.sdk.util.UserCodeException: java.io.IOException: Unable to create paren…
15 июн '18 в 13:23
1
ответ
В Apache Beam, что делает "ExtractWords"?
Я изучаю синтаксис Python по этому адресу: https://beam.apache.org/get-started/wordcount-example/ Я вижу этот синтаксис: # The Flatmap transform is a simplified version of ParDo. | 'ExtractWords' >> beam.FlatMap(lambda x: re.findall(r'[A-Za-z\…
02 мар '18 в 10:36
1
ответ
Водяной знак ведет себя беспорядочно, возможно из-за неправильного времени события (перекос часов клиента)
У нас есть поток событий, примерно 1 к 3 кбит / с и в основном тактовые импульсы, поступающие от клиентов потокового видео, которые мы объединяем в сеансы. Мы используем окно сеанса с 10-минутной длительностью паузы и запуском по умолчанию (т. Е. Ра…
19 янв '17 в 10:16
1
ответ
GroupIntoBatches для не-KV элементов
Согласно документации Apache Beam 2.0.0 SDK GroupIntoBatches работает только с KV коллекции. Мой набор данных содержит только значения, и нет необходимости вводить ключи. Тем не менее, чтобы использовать GroupIntoBatches Мне пришлось реализовать "по…
03 июл '17 в 09:37
1
ответ
Пример Apache Beam MinimalWordcount с бегущим потоком данных в затмении
Я пытаюсь запустить пример MinimalWordCount, используя DataFlowRunner из Eclipse для Windows, используя MinimalWordCount -> Запускать как Java-приложение из with в eclipse, это тот же стандартный код из примера, использующего мое ведро gcs, однако я…
26 мар '17 в 07:51
1
ответ
Ошибка при использовании Side Input - с помощью метода SideInputs, не принимающего тип KV в качестве ввода
Я сталкиваюсь со следующей ошибкой при использовании боковых входов. Со следующим кодом модели: PCollectionView<Map<String, String>> view1= information .apply(View.<String, String>asMap()); PCollection<KV<String, Position>…
27 окт '17 в 20:20
0
ответов
UnicodeEncodeError для обработки CSV на Apache Beam в Python
Я работаю над анализом файла CSV в Apache Beam Python. Однако, когда в CSV-файле есть символы Unicode, такие как "ş", он не может выполнить синтаксический анализ с ошибкой. RuntimeError: UnicodeEncodeError: 'ascii' codec can't encode character u'\u0…
07 янв '19 в 13:08
1
ответ
Apache Beam/ Перестановка потока данных
Какова цель org.apache.beam.sdk.transforms.Reshuffle? В документации цель определяется как: PTransform, который возвращает PCollection, эквивалентную его входному сигналу, но в рабочем состоянии обеспечивает некоторые побочные эффекты GroupByKey, в …
10 янв '19 в 03:39
0
ответов
Как указать ContentType при записи файлов в AWS S3 с помощью TextIO.write ()?
Ниже мой пример конвейерного кода. Версия Apache Beam - 2.3.0 DataflowPipelineOptions dataflowOptions = options.as(DataflowPipelineOptions.class); dataflowOptions.setRunner(DataflowRunner.class); Pipeline p = Pipeline.create(dataflowOptions); p.appl…
19 мар '18 в 10:58
1
ответ
Потоковые группы мутации в гаечный ключ
Я пытаюсь направить MutationGroups в гаечный ключ с SpannerIO. Цель состоит в том, чтобы писать новые MuationGroups каждые 10 секунд, так как мы будем использовать гаечный ключ для запроса KPI ближайшего времени. Когда я не использую никаких окон, я…
23 июл '18 в 14:06
0
ответов
Apache-beam программа для анализа настроений
Я написал программу apache-beam, которая берет тексты из файла input.txt и проводит некоторый анализ настроений и вывод, который я хочу сохранить в формате csv, чтобы вставить его в bigquery. import os import logging import csv import json import re…
26 фев '19 в 11:12
1
ответ
GCP Dataflow- чтение CSV-файла из хранилища и запись в BigQuery
У меня есть файл CSV в хранилище, и я хочу прочитать его и записать в BigQuery Table. это мой CSV-файл, где первая строка - заголовок: GroupName,Groupcode,GroupOwner,GroupCategoryID System Administrators,sysadmin,13456,100 Independence High Teachers…
06 окт '17 в 15:55