Описание тега glue

2 ответа

AWS Lambda передает параметры для работы с клеем

Нам нужно передать 4 параметра из AWS Lambda в AWS клеевое задание при запуске клеевого задания. response = client.start_job_run (JobName = 'my_test_Job', Arguments = {'--yr_partition_val': 2017, '--mon_partition_val': 05, '--date_partition_val': 25…
11 фев '19 в 14:25
2 ответа

AWS клей дополнительная нагрузка

У меня есть ведро S3, куда сбрасываются каждодневные файлы. Сканер AWS сканирует данные из этого места. В первый же день, когда запускается мое задание по склеиванию, он забирает все данные, присутствующие в таблице, созданной сканером AWS. Например…
1 ответ

Извлечение поля даты из отметки времени и создание нового поля в качестве раздела в AWS Glue ETL

Я пытаюсь создать разделение на одном из полей в CSV и сохранить его как паркет с помощью Glue ETL (python). Проблема в том, что это поле является временной меткой, поэтому перед созданием раздела я хочу извлечь дату из этой временной метки и сохран…
03 фев '19 в 19:38
0 ответов

Загрузить сценарий spark sql в работу AWS Glue

У меня есть много запросов Spark SQL к таблицам AWS Athena, сохраненным в виде текстовых файлов. Могу ли я загрузить эти текстовые файлы как строковую переменную и использовать их в качестве команды SQL dataframe в скрипте AWS Glue на кадрах данных,…
25 янв '19 в 17:37
0 ответов

Тип данных столбцов различается в каталоге данных клея и функции getCatalogSource

Я создал сканер клея для чтения журналов доступа Apache. Ниже приведено определение таблицы, который сканер создал в каталоге данных Glue. Мне удалось получить приведенный ниже оператор DDL от Афины. CREATE EXTERNAL TABLE crawler_access_log( .. Othe…
2 ответа

Сбой задания AWS GLUE при работе с разделенными файлами Parquet во вложенных папках s3

Я получаю следующую ошибку при выполнении задания GLUE над разделенными файлами паркета. Невозможно определить схему для паркета. Должен быть указан вручную Я настроил свой сканер и успешно получил схему для моих файлов паркета. Я могу просмотреть д…
17 янв '19 в 12:48
0 ответов

ETL: выравнивание вложенного массива в работе склеивания AWS

В настоящее время я пытаюсь импортировать данные, хранящиеся в json, используя AWS Glue. Jsons содержит атрибут 'tags', определенный как массив строк. Я уже импортировал таблицу без тегов на первом месте. Я хотел бы иметь возможность импортировать а…
21 фев '19 в 14:19
0 ответов

Hapi.js с Glue CORS заголовками не устанавливается

Итак, вот как выглядит мой манифест клея. Как вы можете видеть, объект cors устанавливается, но я продолжаю получать эту глупую ошибку при запуске из приложения внешнего интерфейса: localhost:3000. Access to XMLHttpRequest at 'http://localhost:8082/…
03 ноя '18 в 04:25
1 ответ

Запретить сканер клея AWS для создания нескольких таблиц

Я создал сканер клея, который сканирует данные и создает таблицу в каталоге данных клея. Предположим, у меня есть файл CSV (file1.csv) которая имеет схему типа (id,name) и после выполнения задания сканера создает таблицу Athena (crawler_file) с 2 ст…
19 дек '18 в 10:36
0 ответов

Установите значения отсутствующих столбцов по умолчанию с помощью AWS Glue Jobs

Я пытаюсь извлечь набор данных из DynamodB в S3 с помощью клея. В процессе я хочу выбрать несколько столбцов, а затем установить значение по умолчанию для всех строк или столбцов, которые имеют пропущенные значения. В настоящее время я пытаюсь испол…
0 ответов

Задание AWS Glue выполняется, но не извлекает все записи из таблицы

Задание склеивания не снимает все записи в таблице, находящейся под триггером, даже если оно запускается, но когда я запускаю по требованию, оно снимает все записи в таблице. У меня есть работа Glue, которая делает снимки пяти таблиц из Redshift каж…
0 ответов

REPL with Glue + Zeppelin - это медленно - ожидается?

Я проверяю Glue в качестве замены нашего ETL-конвейера и противостою некоторым потенциальным препятствиям в миграции благодаря скорости, производительности и интерактивности процесса REPL при разработке преобразований. Среда: Подтверждение концепции…
11 фев '19 в 16:30
0 ответов

Программный поиск имен полей и типов данных AWS Glue Dynamic Frame

Новое в PySpark и AWS Glue. Мне нужно получить имена полей и типы данных, чтобы использовать их в программе. Я мог бы напечатать результаты DynamicFrame.schema(), которые выглядят как JSON-подобная структура. Я попытался json.loads, чтобы увидеть, м…
20 ноя '18 в 00:04
2 ответа

Параметризованная / многоразовая работа с клеем AWS

Я новичок в AWS и пытаюсь создать параметризованное задание AWS Glue, которое должно иметь входные параметры: Источник данных Размер данных подсчитывать Список переменных Кто-нибудь делал что-то подобное раньше?
19 янв '19 в 14:10
1 ответ

Отменить новые линии защиты в клеевой упаковке R

В пакете с клеем вы можете использовать \\ в конце строки, чтобы предотвратить добавление новой строки. В LaTeX \\ символ новой строки. Я ищу лучшее решение, чем мое текущее glue_data(iris, "\\midrule \\textbf{{{mean(Petal.Length)}} & 820 & …
07 сен '18 в 15:11
2 ответа

terraform не обнаруживает изменений в исходных лямбда-файлах

В моем main.tf У меня есть следующее: data "template_file" "lambda_script_temp_file" { template = "${file("../../../fn/lambda_script.py")}" } data "template_file" "library_temp_file" { template = "${file("../../../library.py")}" } data "template_fil…
26 ноя '18 в 08:50
0 ответов

Пользовательские цвета в ggplot2 subtitle feat. карандаш и клей

Я хотел бы создать субтитр с несколькими цветными словами в ggplot2. Мы можем использовать crayon::make_style, glue::glue и glue::glue_col, чтобы это произошло в консоли (см. Ниже). Однако при реализации в графическом устройстве цвет не отображается…
12 фев '19 в 23:41
1 ответ

Невозможно загрузить последний пакет клея 1.3.0

Я делаю курс в R и один из кодов, которые они попросили нас запустить, требует тидыр. Я могу установить tidyr, но когда я запускаю код, я сталкиваюсь: "пространство имен" клей "1.2.0 уже загружено, но>=1.3.0 требуется". Я пробовал несколько способов…
25 янв '19 в 15:12
0 ответов

Что означает "длинные нити ломаются и соединяются" в клее

Я только что обнаружил glue пакет. От ?glueЯ вижу описание Длинные строки разбиты по линиям и соединены вместе. что я интерпретировал как означающее, что мы можем создать длинную строку, в которой новые строки не становятся фактической новой строкой…
14 фев '19 в 16:19
2 ответа

Разбор схемы динамического фрейма данных в AWS Glue

У меня есть динамический фрейм данных в клее AWS, который я создал, используя приведенный ниже фрагмент кода. val rawDynamicDataFrame = glueContext.getCatalogSource( database = rawDBName, tableName = rawTableName, redshiftTmpDir = "", transformation…
10 дек '18 в 05:07