Описание тега spotify-scio

Scio - это Scala API для Google Cloud Dataflow и Apache Beam, созданный на основе Spark и Scalding.
1 ответ

"Превышен лимит накладных расходов GC" для долго выполняющегося задания потоковой передачи данных

Выполнение задания потокового потока данных в течение более длительного периода времени приводит к ошибке "GC overhead limit over Превышен", которая останавливает работу. Как я могу лучше всего приступить к отладке этого? java.lang.OutOfMemoryError:…
1 ответ

Макросы Scala: строковый литерал, назначенный переменной, не совпадает

Я использую макроаннотацию из библиотеки Scio Spotify. Я хотел бы определить переменную String введите и аннотируйте, как это: val schemaString = """schema here""" @BigQueryType.fromSchema(outputString) class BigQuery Это не компилируется, однако, е…
10 авг '17 в 22:52
1 ответ

Установление синглтон-соединения с Google Cloud Bigtable в Scala, аналогичного Cassandra

Я пытаюсь внедрить систему рекомендаций в реальном времени, используя облачные сервисы Google. Я уже собрал движок, используя Kafka, Apache Storm и Cassandra, но я хочу создать тот же движок в Scala, используя Cloud Pub/Sub, Cloud Dataflow и Cloud B…
1 ответ

Как работает триггер потока данных AfterProcessingTime.pastFirstElementInPane()?

В мире потоков данных. Мое понимание, когда я говорю: Window.into(FixedWindows.of(Duration.standardHours(1))) .triggering(AfterProcessingTime.pastFirstElementInPane() .plusDelayOf(Duration.standardMinutes(15)) заключается в том, что в течение фиксир…
2 ответа

Ошибка проверки SBT, вызванная множественными зависимостями protobuf 2/3, несмотря на затенение

Я борюсь с Verify Errors с помощью этого примера проекта, использующего Scio/Bigtable/HBase. Для дерева зависимостей требуется версия protobuf (2.5, 2.6.1, 3.0, 3.1) и, по-видимому, по умолчанию установлено значение 3.2. Я использовал компонент зате…
1 ответ

Scio/Apache beam, как отобразить сгруппированные результаты

У меня есть простой конвейер, который читает из pubsub в фиксированном окне, анализирует сообщения и группирует их по определенному свойству. Однако если я map после groupBy моя функция, кажется, не выполняется. Я что-то пропустил? sc.pubsubSubscrip…
14 сен '18 в 14:49
2 ответа

Scio все методы saveAs файла txt выводят файл txt с префиксом части

Если я хочу вывести SCollection TableRow или String в облачное хранилище Google (GCS), я использую saveAsTableRowJsonFile или saveAsTextFile, соответственно. Оба эти метода в конечном итоге используют private[scio] def pathWithShards(path: String) =…
1 ответ

Ошибка записи потока PubSub в облачное хранилище с использованием потока данных

Использование SCIO из spotify написать работу для Dataflow следующие 2 примера e.g1 и e.g2, чтобы написать PubSub поток в GCS, но получите следующую ошибку для приведенного ниже кода ошибка Exception in thread "main" java.lang.IllegalArgumentExcepti…
1 ответ

Поддерживает ли Scio TypeSafe BigQuery с предложениями

val query = s"""#standardsql | WITH A AS (SELECT * FROM `prefix.andrews_test_table` LIMIT 1000) | select * from A""" @BigQueryType.fromQuery(query) class Test Последовательно дает мне :40: error: Missing query, Этот запрос работает нормально в BigQu…
03 май '18 в 19:30
0 ответов

Поток данных / apache beam Триггерное окно по количеству байтов в окне

У меня есть простая работа, которая перемещает данные из sub sub в gcs. Подтема pub - это общая тема с различными типами сообщений различного размера. Я хочу, чтобы результат был в вертикальном разделе GCS соответственно: Схема / версия / год / меся…
2 ответа

Потоковая передача данных из CloudSql в Dataflow

В настоящее время мы изучаем, как мы можем обработать большое количество хранилищ данных в базе данных Google Cloud SQL (MySQL), используя Apache Beam/Google Dataflow. База данных хранит около 200 ГБ данных в одной таблице. Мы успешно читаем строки …
1 ответ

Как настроить ярлыки в заданиях потока данных Google с помощью Scio?

Я хочу настроить ярлыки для заданий потока данных Google с целью распределения затрат. Вот пример рабочего кода Java: private DataflowPipelineOptions options = PipelineOptionsFactory.fromArgs(args).as(DataflowPipelineOptionsImpl.class); options.setL…
1 ответ

Scio тестирование не доступных счетчиков

Я строю некоторые тесты вокруг моего конвейера, и, в частности, у меня есть две ветви (одна, где рассматриваются ошибки, другая, где успехи), со стороны ошибок, у меня есть увеличивающийся счетчик (ScioMetrics.counter("MetricName").inc()) и при пост…
02 мар '18 в 12:26
1 ответ

Исправлено окно над неограниченным вводом (PubSub), прекращающее срабатывание после автоматического масштабирования рабочих

Используя scio версии 0.4.7, у меня есть потоковое задание, которое прослушивает тему pubsub, здесь я использую обработку событий с атрибутом timestamp, присутствующим в свойствах сообщения в RFC3339 val rtEvents: SCollection[RTEvent] = sc.pubsubTop…
1 ответ

Задание потока данных останавливается с помощью "Обед ожидания"

Запустив конвейер потокового потока данных с достаточно продвинутой группой с помощью окон сеансов, я столкнулся с проблемами после нескольких часов работы. Задание масштабируется у рабочих, но позже начинает загружаться журналы со следующим Process…
1 ответ

Считать файл по порядку в Google Cloud Dataflow

Я использую Spotify Scio для чтения журналов, которые экспортируются из Stackdriver в Google Cloud Storage. Это файлы JSON, где каждая строка представляет собой одну запись. Глядя на рабочие журналы, кажется, что файл разбит на куски, которые затем …
1 ответ

Scio saveAsTypedBigQuery записывает в раздел для SCollection класса case Typed Big Query

Я пытаюсь записать SCollection в раздел в Big Query, используя: import java.time.LocalDate import java.time.format.DateTimeFormatter val date = LocateDate.parse("2017-06-21") val col = sCollection.typedBigQuery[Blah](query) col.saveAsTypedBigQuery( …
0 ответов

Почему я получаю много исключений None.get при сливе потокового конвейера?

Я сталкиваюсь с проблемами, когда у меня есть потоковый конвейер scio, работающий на потоке данных, который дедуплицирует сообщения и выполняет некоторый подсчет по ключу. Когда я пытаюсь осушить трубопровод, я получаю большое количество None.get пр…
17 янв '19 в 23:50
1 ответ

Google Pub/Sub to Dataflow, избегайте дублирования с ID записи

Я пытаюсь создать потоковое задание потока данных, которое читает события из Pub/Sub и записывает их в BigQuery. Согласно документации, Dataflow может обнаруживать доставку дублированных сообщений, если используется идентификатор записи (см.: https:…
1 ответ

Scio / apache beam java.lang.IllegalArgumentException: невозможно сериализовать метод

Я пытаюсь использовать поток данных для перемещения некоторых данных из паба sub в облачное хранилище. Мне нужно предоставить временную метку для scio / beam, чтобы она могла группировать данные в окна. У меня есть простой класс case, который модели…
18 сен '17 в 11:19