Описание тега apache-beam-internals

2 ответа

TextIO.Read().From() против TextIO.ReadFiles() поверх withHintMatchesManyFiles()

В моем случае получения набора подходящих файловых шаблонов от Kafka, PCollection<String> filepatterns = p.apply(KafkaIO.read()...); Здесь каждый шаблон может соответствовать до 300+ файлов. Q1. Как я могу использоватьTextIO.Read() чтобы сопос…
1 ответ

Получение так много предупреждений при использовании List с настраиваемым Java-классом POJO в apache beam java

Я новичок в Apache beam, я использую луч Apache и в качестве бегуна использую поток данных в GCP. Я получаю следующую ошибку при выполнении конвейера. coder of type class org.apache.beam.sdk.coders.ListCoder has a #structuralValue method which does …
2 ответа

Ошибка при запуске Apache Beam Python SplittableDoFn

Ошибка при попытке pubsub io> splittable dofn RuntimeError: узел преобразования AppliedPTransform(ParDo(TestDoFn)/ProcessKeyedElements/GroupByKey/GroupByKey, _GroupByKeyOnly) не был заменен должным образом. Может ли кто-нибудь помочь мне с проверкой…
0 ответов

Apache Beam Python SDK устанавливает водяной знак вручную с помощью тела события

Пример использования: создание неограниченной коллекции Pcollection из темы pubsub Водяной знак будет иметь вид "Идеальный водяной знак", доступный в теле сообщения. Источник очереди pubsub будет определять водяной знак Message { event_time timestam…
03 авг '20 в 18:53
2 ответа

Знать количество потоков, запущенных в прямом бегуне Apache Beam

У меня есть программа Apache Beam в Java, работающая с прямым бегуном. Луч Apache использует потоки для достижения распределенной обработки. Во время выполнения, как я могу узнать количество потоков, порожденных лучом apache? Как я могу установить м…
10 июл '20 в 09:16
1 ответ

Компромисс между скоростью и памятью при разделении Apache Beam PCollection на две части

У меня есть PCollection, где каждый элемент является ключом, кортеж значений выглядит следующим образом: (key, (value1,..,value_n) ) Мне нужно разделить эту коллекцию PCollection на две ветви обработки. Как всегда, мне нужно, чтобы весь конвейер раб…
1 ответ

Загрузка файла в БД с помощью Apache Beam

I have scenario as below: I need to load file into Database. But before that I have to verify data is present into Database based on file data. Now suppose I have 5 records in a file then I have to check 5 times into database for separate records. …
1 ответ

beam.Create() со списком dicts работает очень медленно по сравнению со списком строк

Я использую Dataflow для обработки шейп-файла с примерно 4 миллионами функций (всего около 2 ГБ) и загрузки геометрии в BigQuery, поэтому перед запуском конвейера я извлекаю функции шейп-файла в список и инициализирую конвейер, используя. Есть два с…
1 ответ

Я вижу масштабирование луча apache с # из файлов CSV легко, но как насчет # строк в одном CSV?

В настоящее время я читаю эту статью и документы apache beam https://medium.com/@mohamed.t.esmat/apache-beam-bites-10b8ded90d4c Все, что я читал, касается N файлов. В нашем случае мы каждый раз получаем событие pubsub для ОДНОГО нового файла, чтобы …
1 ответ

Разница между оконной и оконной балкой apache

В чем разница между панелью и окном? Поступающие элементы группируются в окна. Тогда что содержит панель? Я взял следующий код из документации по лучу .of(new DoFn<String, String>() { public void processElement(@Element String word, PaneInfo p…
1 ответ

Эквивалент передела в луче apache

В Spark, если нам нужно перетасовать данные, мы можем использовать повторное разбиение фрейма данных. Как можно сделать то же самое в Apache Beam для коллекции pcollection? В pyspark, new_df = df.repartition(4)
2 ответа

Я получаю эту ошибку. Получение SEVERE Channel ManagedChannelImpl{logId=1, target=bigquerystorage.googleapis.com:443} не было завершено должным образом

Я создал сценарий луча для получения данных из kafka и отправки их в BigQuery с помощью Apache Beam. На данный момент я использую java-direct-runner, и мне просто нужно отправить данные в свой большой запрос. Это мой код: - package com.knoldus.secti…
0 ответов

Spark Runner Apache Beam на AWS lambda

Я использую SparkRunner Apache Beam для преобразования некоторых данных (SparkRunner позволяет Apache Beam запускать Apache Spark Engine поверх своего конвейера). Приложение отлично работает на моем локальном компьютере. Я создаю банку и использую -…
0 ответов

Луч Apache Join.leftOuterJoin, как передать пустой TableRow?

Я хочу выполнить leftOuterJoin на 2 таблицах BigQuery в Apache Beam (JAVA Sdk). Читаю таблицы ( leftTableCollection & rightTableCollection) и имеют тип PCollection<TableRow>. Преобразовал их в форму PCollection<KV<String, TableRow&gt…
1 ответ

Beam DirectRunner Calcite не может указать имя

Я запускаю упрощенную версию этого руководства по лучу , но использую DirectRunner на моем локальном компьютере. import apache_beam as beam from apache_beam.transforms.sql import SqlTransform import os with beam.Pipeline() as p: rows = (p | beam.Cre…
01 сен '21 в 21:35
1 ответ

Apache Beam обновляет значения текущей строки на основе значений из предыдущей строки

Значения обновления Apache Beam основаны на значениях из предыдущей строки Я сгруппировал значения из файла CSV. Здесь, в сгруппированных строках, мы находим несколько пропущенных значений, которые необходимо обновить на основе значений из предыдуще…
1 ответ

Java Apache Beam: как добавить новые строки в коллекцию PCollection

В следующем CSV мне нужно добавить для него новые значения строк. Код Java: public static void main(String[] args) throws IOException { final File schemaFile = new File("src/main/resources/addRow/schema_transform.avsc"); File csvFile = new File("src…
1 ответ

Извлечение записей об ошибках при вставке в таблицу db с использованием JDBCIO apache beam в java

Я создаю в памяти коллекцию PCollection и записываю ее в postgres sql. теперь, когда я вставляю данные в таблицу, некоторые записи могут вызывать исключение и не будут вставлены. как извлечь такие неудачные записи вставки, когда я запускаю конвейер?…
22 ноя '21 в 16:43
0 ответов

Apache Beam — несколько коллекций P — проблема с преобразованием фрейма данных

Я запускаю приведенный ниже образец в луче apache. def transformdf(a, b): a["addr"] = "addr-common" return a p = beam.Pipeline(options=pipeline_options) data1 = [Row(id=1, name="abc"), Row(id=2, name="def"), Row(id=3, name="ghi")] pcol1 = (p | "Crea…
0 ответов

Apache Beam Python — преобразование SQL с именованной проблемой PCollection

Я пытаюсь выполнить приведенный ниже код, в котором я использую Named Tuple для PCollection и преобразование SQL для выполнения простого выбора. По ссылке на видео (4:06): https://www.youtube.com/watch?v=zx4p-UNSmrA. Вместо использования PCOLLECTION…