Описание тега google-cloud-dataprep

Интеллектуальная облачная служба данных для визуального изучения, очистки и подготовки данных для анализа.
1 ответ

Пользовательское объединение в Dataprep

Могу ли я объединить две таблицы, используя пользовательские условия, а не равные? Например, у меня есть две таблицы в BigQuery. Таблица А имеет 3 столбца start_range, end_range а также grade, Таблица B содержит данные, поступающие из хранилища с ис…
02 ноя '18 в 12:20
1 ответ

Можно ли разделить набор данных в Google Dataprep? Если так, то как?

Я искал Google Dataprep как решение ETL для выполнения базовых преобразований данных, прежде чем передавать их на платформу машинного обучения. Мне интересно, можно ли использовать инструменты Dataprep/Dataflow для разделения набора данных на наборы…
0 ответов

Использование Dataprep для записи только в раздел даты в таблице разделов даты

Я использую представление BigQuery для извлечения вчерашних данных из таблицы BigQuery, а затем пытаюсь записать данные в секционированную таблицу дат, используя Dataprep. Моя первая проблема заключалась в том, что Dataprep не мог правильно подобрат…
1 ответ

Добавить больше рабочих в задание потока данных на GCP

Я создаю поток данных, который импортирует CSV в BQ. Это прекрасно работает, но это занимает слишком много времени. Даже для очень маленьких файлов. Есть ли способ добавить больше работников на работу? maxNumWorkers всегда равно 1 по умолчанию. Бр К…
1 ответ

Поток данных ограничен ~15 импортированными наборами данных

Я хотел бы поделиться одним из моих выводов относительно ограничений продукта dataprep. Я занимался конструированием потоков, в которых мне нужно было объединить несколько json-файлов перед дальнейшей обработкой. Затем потоки объединяются через набо…
27 мар '18 в 08:45
1 ответ

Dataprep не работает - облачный агент службы потоков данных

Я сделал ошибку, удалив пользователя service-[project number]@dataflow-service-producer-prod.iam.gserviceaccount.com в учетных записях службы я должен был удалить другого пользователя. После этого Dataprep прекратил выполнение заданий. Я проверил вс…
1 ответ

Подсказка Google dataprep (clouddataprep от trifacta): задания не смогут выполняться, если они слишком большие

Во время моих приключений в облачном хранилище я столкнулся с еще одной очень раздражающей ошибкой. Проблема возникает при создании сложных структур потоков, которые должны быть связаны через наборы эталонных данных. Если определенный предел пересек…
13 авг '18 в 18:38
0 ответов

Параметры шаблона потока данных недопустимы: шаблон потока данных вызывается из Cloud Composer

Я использую Dataprep для создания шаблона потока данных, который в основном делает вставки таблицы GCS в BQ. Я получил шаблон, экспортированный в папку /tmp и использованный в качестве параметров в dataflow_operator.DataflowTemplateOperator(). Я не …
0 ответов

Параметры экспортированного шаблона потока данных неизвестны

Я экспортировал шаблон Cloud Dataflow из Dataprep, как показано здесь: https://cloud.google.com/dataprep/docs/html/Export-Basics_57344556 В Dataprep поток извлекает текстовые файлы через подстановочный знак из Google Cloud Storage, преобразует данны…
1 ответ

Добавьте параметры набора данных в столбец, чтобы позже использовать их в BigQuery с DataPrep

Я импортирую несколько файлов из Google Cloud Storage (GCS) через Google DataPrep и сохраняю результаты в таблицах Google BigQuery. Структура в GCS выглядит примерно так: //source/user/me/datasets/{month}/2017-01-31-file.csv //source/user/me/dataset…
1 ответ

Совпадение всех пробелов между блоками символов

Мне нужно регулярное выражение, которое соответствует всем пробелам между блоком символов. Пример блока: 500 dfdsfsd fdsfdsfdsf 9876dfsdfs df7687 Я знаю только о /\s+/, но он соответствует только первому блоку пробелов. Я хочу получить пробел, игнор…
21 фев '19 в 20:10
0 ответов

Есть ли облачный dataprep api?

В идеале я хотел бы написать функцию для запуска задания dataprep для одного из следующих событий: добавлен файл сообщения kafka или изменен на GCS. Я думаю, что я мог бы написать триггеры на Python, если есть библиотека поддержки. Но я не могу найт…
06 дек '18 в 20:01
0 ответов

Можно ли в запланированном задании Dataprep экспортировать вывод csv в хранилище данных с именем на основе суффикса?

Я хотел бы запланировать ежедневное задание Google DataPrep для экспорта CSV-файлов в хранилище. Эти CSV-файлы должны содержать вместо добавочного номера, предложенного консолью (например, output.csv, output_1.csv, output_2.csv..) суффикс на основе …
1 ответ

Google cloud dataprep - как создать хеш столбца

Может ли кто-нибудь указать на готовую или нестандартную реализацию в Cloud Dataprep для создания хэша другого столбца, например, bigquery имеет FARM_FINGERPRINT.
1 ответ

Как мне получить доступ к Google Cloud Dataprep?

Я создал поток в Cloud Dataprep, задание выполнено. Все хорошо. Однако мои коллеги, которые также играют роль владельца в этом проекте GCP, не могут видеть созданный мной поток. Я не могу найти варианты обмена в любом месте. Как это настроить, чтобы…
2 ответа

Python API для запуска шаблона неизвестное имя не может найти поле

Я создал и запустил задание DataPrep и пытаюсь использовать шаблон из python в движке приложения. Я могу успешно начать работу, используя gcloud dataflow jobs run --parameters "inputLocations={\"location1\":\"gs://bucket/folder/*\"}, outputLocations…
2 ответа

Повторно использовать один и тот же рецепт для нескольких наборов данных

Я хочу использовать тот же рецепт, который я использую для одного набора данных для остальных моих наборов данных. Структура / заголовки всех наборов данных одинаковы. Есть ли способ импортировать или повторно использовать один и тот же рецепт, не в…
25 окт '17 в 14:01
1 ответ

Динамический источник данных BigQuery в Google DataPrep - это можно сделать?

Неужели это правда, что я не могу определить динамический источник данных с помощью Dataprep. Насколько я могу видеть, я могу указать только на таблицу BigQuery. Мне нужно указать на определенный раздел в таблице. Наименование партиций всегда включа…
1 ответ

Ускорить время обработки JoB

У меня есть образец (100 рядов) и три шага в моем рецепте; Когда я запускаю работу, чтобы загрузить данные в таблицу в BigQuery; создание таблицы занимает 6 минут. Замедленная съемка слишком длинна для простого процесса, подобного тому, который я те…
14 июн '18 в 16:59
1 ответ

Как настроить автоматический импорт в Google Data Prep?

При использовании Google Data Prep я могу создавать автоматические расписания для запуска заданий, которые обновляют мои таблицы BigQuery. Однако это кажется бессмысленным, если учесть, что данные, используемые в Prep, обновляются путем ручного пере…