Описание тега google-cloud-dataprep
Интеллектуальная облачная служба данных для визуального изучения, очистки и подготовки данных для анализа.
1
ответ
Пользовательское объединение в Dataprep
Могу ли я объединить две таблицы, используя пользовательские условия, а не равные? Например, у меня есть две таблицы в BigQuery. Таблица А имеет 3 столбца start_range, end_range а также grade, Таблица B содержит данные, поступающие из хранилища с ис…
02 ноя '18 в 12:20
1
ответ
Можно ли разделить набор данных в Google Dataprep? Если так, то как?
Я искал Google Dataprep как решение ETL для выполнения базовых преобразований данных, прежде чем передавать их на платформу машинного обучения. Мне интересно, можно ли использовать инструменты Dataprep/Dataflow для разделения набора данных на наборы…
20 сен '18 в 22:03
0
ответов
Использование Dataprep для записи только в раздел даты в таблице разделов даты
Я использую представление BigQuery для извлечения вчерашних данных из таблицы BigQuery, а затем пытаюсь записать данные в секционированную таблицу дат, используя Dataprep. Моя первая проблема заключалась в том, что Dataprep не мог правильно подобрат…
23 авг '18 в 15:54
1
ответ
Добавить больше рабочих в задание потока данных на GCP
Я создаю поток данных, который импортирует CSV в BQ. Это прекрасно работает, но это занимает слишком много времени. Даже для очень маленьких файлов. Есть ли способ добавить больше работников на работу? maxNumWorkers всегда равно 1 по умолчанию. Бр К…
03 сен '18 в 21:20
1
ответ
Поток данных ограничен ~15 импортированными наборами данных
Я хотел бы поделиться одним из моих выводов относительно ограничений продукта dataprep. Я занимался конструированием потоков, в которых мне нужно было объединить несколько json-файлов перед дальнейшей обработкой. Затем потоки объединяются через набо…
27 мар '18 в 08:45
1
ответ
Dataprep не работает - облачный агент службы потоков данных
Я сделал ошибку, удалив пользователя service-[project number]@dataflow-service-producer-prod.iam.gserviceaccount.com в учетных записях службы я должен был удалить другого пользователя. После этого Dataprep прекратил выполнение заданий. Я проверил вс…
03 окт '18 в 22:00
1
ответ
Подсказка Google dataprep (clouddataprep от trifacta): задания не смогут выполняться, если они слишком большие
Во время моих приключений в облачном хранилище я столкнулся с еще одной очень раздражающей ошибкой. Проблема возникает при создании сложных структур потоков, которые должны быть связаны через наборы эталонных данных. Если определенный предел пересек…
13 авг '18 в 18:38
0
ответов
Параметры шаблона потока данных недопустимы: шаблон потока данных вызывается из Cloud Composer
Я использую Dataprep для создания шаблона потока данных, который в основном делает вставки таблицы GCS в BQ. Я получил шаблон, экспортированный в папку /tmp и использованный в качестве параметров в dataflow_operator.DataflowTemplateOperator(). Я не …
20 дек '18 в 05:58
0
ответов
Параметры экспортированного шаблона потока данных неизвестны
Я экспортировал шаблон Cloud Dataflow из Dataprep, как показано здесь: https://cloud.google.com/dataprep/docs/html/Export-Basics_57344556 В Dataprep поток извлекает текстовые файлы через подстановочный знак из Google Cloud Storage, преобразует данны…
10 фев '19 в 22:43
1
ответ
Добавьте параметры набора данных в столбец, чтобы позже использовать их в BigQuery с DataPrep
Я импортирую несколько файлов из Google Cloud Storage (GCS) через Google DataPrep и сохраняю результаты в таблицах Google BigQuery. Структура в GCS выглядит примерно так: //source/user/me/datasets/{month}/2017-01-31-file.csv //source/user/me/dataset…
19 фев '19 в 12:55
1
ответ
Совпадение всех пробелов между блоками символов
Мне нужно регулярное выражение, которое соответствует всем пробелам между блоком символов. Пример блока: 500 dfdsfsd fdsfdsfdsf 9876dfsdfs df7687 Я знаю только о /\s+/, но он соответствует только первому блоку пробелов. Я хочу получить пробел, игнор…
21 фев '19 в 20:10
0
ответов
Есть ли облачный dataprep api?
В идеале я хотел бы написать функцию для запуска задания dataprep для одного из следующих событий: добавлен файл сообщения kafka или изменен на GCS. Я думаю, что я мог бы написать триггеры на Python, если есть библиотека поддержки. Но я не могу найт…
06 дек '18 в 20:01
0
ответов
Можно ли в запланированном задании Dataprep экспортировать вывод csv в хранилище данных с именем на основе суффикса?
Я хотел бы запланировать ежедневное задание Google DataPrep для экспорта CSV-файлов в хранилище. Эти CSV-файлы должны содержать вместо добавочного номера, предложенного консолью (например, output.csv, output_1.csv, output_2.csv..) суффикс на основе …
13 фев '19 в 19:40
1
ответ
Google cloud dataprep - как создать хеш столбца
Может ли кто-нибудь указать на готовую или нестандартную реализацию в Cloud Dataprep для создания хэша другого столбца, например, bigquery имеет FARM_FINGERPRINT.
12 авг '18 в 18:46
1
ответ
Как мне получить доступ к Google Cloud Dataprep?
Я создал поток в Cloud Dataprep, задание выполнено. Все хорошо. Однако мои коллеги, которые также играют роль владельца в этом проекте GCP, не могут видеть созданный мной поток. Я не могу найти варианты обмена в любом месте. Как это настроить, чтобы…
30 ноя '17 в 01:43
2
ответа
Python API для запуска шаблона неизвестное имя не может найти поле
Я создал и запустил задание DataPrep и пытаюсь использовать шаблон из python в движке приложения. Я могу успешно начать работу, используя gcloud dataflow jobs run --parameters "inputLocations={\"location1\":\"gs://bucket/folder/*\"}, outputLocations…
30 апр '18 в 09:53
2
ответа
Повторно использовать один и тот же рецепт для нескольких наборов данных
Я хочу использовать тот же рецепт, который я использую для одного набора данных для остальных моих наборов данных. Структура / заголовки всех наборов данных одинаковы. Есть ли способ импортировать или повторно использовать один и тот же рецепт, не в…
25 окт '17 в 14:01
1
ответ
Динамический источник данных BigQuery в Google DataPrep - это можно сделать?
Неужели это правда, что я не могу определить динамический источник данных с помощью Dataprep. Насколько я могу видеть, я могу указать только на таблицу BigQuery. Мне нужно указать на определенный раздел в таблице. Наименование партиций всегда включа…
13 ноя '17 в 09:52
1
ответ
Ускорить время обработки JoB
У меня есть образец (100 рядов) и три шага в моем рецепте; Когда я запускаю работу, чтобы загрузить данные в таблицу в BigQuery; создание таблицы занимает 6 минут. Замедленная съемка слишком длинна для простого процесса, подобного тому, который я те…
14 июн '18 в 16:59
1
ответ
Как настроить автоматический импорт в Google Data Prep?
При использовании Google Data Prep я могу создавать автоматические расписания для запуска заданий, которые обновляют мои таблицы BigQuery. Однако это кажется бессмысленным, если учесть, что данные, используемые в Prep, обновляются путем ручного пере…
27 июн '18 в 10:05