Описание тега spotify-scio
Scio - это Scala API для Google Cloud Dataflow и Apache Beam, созданный на основе Spark и Scalding.
1
ответ
"Превышен лимит накладных расходов GC" для долго выполняющегося задания потоковой передачи данных
Выполнение задания потокового потока данных в течение более длительного периода времени приводит к ошибке "GC overhead limit over Превышен", которая останавливает работу. Как я могу лучше всего приступить к отладке этого? java.lang.OutOfMemoryError:…
22 фев '18 в 09:09
1
ответ
Макросы Scala: строковый литерал, назначенный переменной, не совпадает
Я использую макроаннотацию из библиотеки Scio Spotify. Я хотел бы определить переменную String введите и аннотируйте, как это: val schemaString = """schema here""" @BigQueryType.fromSchema(outputString) class BigQuery Это не компилируется, однако, е…
10 авг '17 в 22:52
1
ответ
Установление синглтон-соединения с Google Cloud Bigtable в Scala, аналогичного Cassandra
Я пытаюсь внедрить систему рекомендаций в реальном времени, используя облачные сервисы Google. Я уже собрал движок, используя Kafka, Apache Storm и Cassandra, но я хочу создать тот же движок в Scala, используя Cloud Pub/Sub, Cloud Dataflow и Cloud B…
05 фев '18 в 17:32
1
ответ
Как работает триггер потока данных AfterProcessingTime.pastFirstElementInPane()?
В мире потоков данных. Мое понимание, когда я говорю: Window.into(FixedWindows.of(Duration.standardHours(1))) .triggering(AfterProcessingTime.pastFirstElementInPane() .plusDelayOf(Duration.standardMinutes(15)) заключается в том, что в течение фиксир…
10 май '17 в 19:10
2
ответа
Ошибка проверки SBT, вызванная множественными зависимостями protobuf 2/3, несмотря на затенение
Я борюсь с Verify Errors с помощью этого примера проекта, использующего Scio/Bigtable/HBase. Для дерева зависимостей требуется версия protobuf (2.5, 2.6.1, 3.0, 3.1) и, по-видимому, по умолчанию установлено значение 3.2. Я использовал компонент зате…
23 июн '17 в 15:08
1
ответ
Scio/Apache beam, как отобразить сгруппированные результаты
У меня есть простой конвейер, который читает из pubsub в фиксированном окне, анализирует сообщения и группирует их по определенному свойству. Однако если я map после groupBy моя функция, кажется, не выполняется. Я что-то пропустил? sc.pubsubSubscrip…
14 сен '18 в 14:49
2
ответа
Scio все методы saveAs файла txt выводят файл txt с префиксом части
Если я хочу вывести SCollection TableRow или String в облачное хранилище Google (GCS), я использую saveAsTableRowJsonFile или saveAsTextFile, соответственно. Оба эти метода в конечном итоге используют private[scio] def pathWithShards(path: String) =…
21 июн '18 в 15:53
1
ответ
Ошибка записи потока PubSub в облачное хранилище с использованием потока данных
Использование SCIO из spotify написать работу для Dataflow следующие 2 примера e.g1 и e.g2, чтобы написать PubSub поток в GCS, но получите следующую ошибку для приведенного ниже кода ошибка Exception in thread "main" java.lang.IllegalArgumentExcepti…
05 окт '16 в 05:01
1
ответ
Поддерживает ли Scio TypeSafe BigQuery с предложениями
val query = s"""#standardsql | WITH A AS (SELECT * FROM `prefix.andrews_test_table` LIMIT 1000) | select * from A""" @BigQueryType.fromQuery(query) class Test Последовательно дает мне :40: error: Missing query, Этот запрос работает нормально в BigQu…
03 май '18 в 19:30
0
ответов
Поток данных / apache beam Триггерное окно по количеству байтов в окне
У меня есть простая работа, которая перемещает данные из sub sub в gcs. Подтема pub - это общая тема с различными типами сообщений различного размера. Я хочу, чтобы результат был в вертикальном разделе GCS соответственно: Схема / версия / год / меся…
26 сен '17 в 14:04
2
ответа
Потоковая передача данных из CloudSql в Dataflow
В настоящее время мы изучаем, как мы можем обработать большое количество хранилищ данных в базе данных Google Cloud SQL (MySQL), используя Apache Beam/Google Dataflow. База данных хранит около 200 ГБ данных в одной таблице. Мы успешно читаем строки …
14 фев '18 в 10:28
1
ответ
Как настроить ярлыки в заданиях потока данных Google с помощью Scio?
Я хочу настроить ярлыки для заданий потока данных Google с целью распределения затрат. Вот пример рабочего кода Java: private DataflowPipelineOptions options = PipelineOptionsFactory.fromArgs(args).as(DataflowPipelineOptionsImpl.class); options.setL…
16 дек '17 в 00:50
1
ответ
Scio тестирование не доступных счетчиков
Я строю некоторые тесты вокруг моего конвейера, и, в частности, у меня есть две ветви (одна, где рассматриваются ошибки, другая, где успехи), со стороны ошибок, у меня есть увеличивающийся счетчик (ScioMetrics.counter("MetricName").inc()) и при пост…
02 мар '18 в 12:26
1
ответ
Исправлено окно над неограниченным вводом (PubSub), прекращающее срабатывание после автоматического масштабирования рабочих
Используя scio версии 0.4.7, у меня есть потоковое задание, которое прослушивает тему pubsub, здесь я использую обработку событий с атрибутом timestamp, присутствующим в свойствах сообщения в RFC3339 val rtEvents: SCollection[RTEvent] = sc.pubsubTop…
13 фев '18 в 01:45
1
ответ
Задание потока данных останавливается с помощью "Обед ожидания"
Запустив конвейер потокового потока данных с достаточно продвинутой группой с помощью окон сеансов, я столкнулся с проблемами после нескольких часов работы. Задание масштабируется у рабочих, но позже начинает загружаться журналы со следующим Process…
29 янв '18 в 14:28
1
ответ
Считать файл по порядку в Google Cloud Dataflow
Я использую Spotify Scio для чтения журналов, которые экспортируются из Stackdriver в Google Cloud Storage. Это файлы JSON, где каждая строка представляет собой одну запись. Глядя на рабочие журналы, кажется, что файл разбит на куски, которые затем …
03 фев '17 в 15:35
1
ответ
Scio saveAsTypedBigQuery записывает в раздел для SCollection класса case Typed Big Query
Я пытаюсь записать SCollection в раздел в Big Query, используя: import java.time.LocalDate import java.time.format.DateTimeFormatter val date = LocateDate.parse("2017-06-21") val col = sCollection.typedBigQuery[Blah](query) col.saveAsTypedBigQuery( …
18 июн '18 в 02:02
0
ответов
Почему я получаю много исключений None.get при сливе потокового конвейера?
Я сталкиваюсь с проблемами, когда у меня есть потоковый конвейер scio, работающий на потоке данных, который дедуплицирует сообщения и выполняет некоторый подсчет по ключу. Когда я пытаюсь осушить трубопровод, я получаю большое количество None.get пр…
17 янв '19 в 23:50
1
ответ
Google Pub/Sub to Dataflow, избегайте дублирования с ID записи
Я пытаюсь создать потоковое задание потока данных, которое читает события из Pub/Sub и записывает их в BigQuery. Согласно документации, Dataflow может обнаруживать доставку дублированных сообщений, если используется идентификатор записи (см.: https:…
01 фев '17 в 16:29
1
ответ
Scio / apache beam java.lang.IllegalArgumentException: невозможно сериализовать метод
Я пытаюсь использовать поток данных для перемещения некоторых данных из паба sub в облачное хранилище. Мне нужно предоставить временную метку для scio / beam, чтобы она могла группировать данные в окна. У меня есть простой класс case, который модели…
18 сен '17 в 11:19